บทนำ ในการวิเคราะห์ขัอมูลทางสถิติด้วยวิธี multivariable analysis เช่น multiple linear regression, multiple logistic regression, Coxs proportional hazard model ซึ่งเป็นการศึกษาความสัมพันธ์ระหว่างตัวแปรตาม (dependent variable, outcome, Y) 1 ตัวและตัวแปรอิสระ (independent variable, predictor, X) หลายตัวพร้อมกันนั้น มีข้อกำหนดว่าตัวแปรอิสระเหล่านั้นจะต้องไม่มีความสัมพันธ์กัน แต่ในทางปฏิบัติจะพบว่าตัวแปรอิสระอาจจะมีความสัมพันธ์กันเอง ซึ่งเรียกว่า multicolinearity ถ้าตัวแปรอิสระมีความสัมพันธ์กันมากผลของการเกิด multicolinearity จะมากด้วย(1) Multicolinearity คืออะไร ในการวิเคราะห์ข้อมูลด้วยวิธี multiple linear regression, multiple logistic regression, non-linear regression, COX analysis และวิธีอื่นๆ ที่เป็นการศึกษาความสัมพันธ์ระหว่างตัวแปรตาม (Y) กับตัวแปรอิสระหลายตัว (X1, X2,
.., Xk) นั้น มีข้อกำหนดว่าตัวแปรอิสระเหล่านั้นจะต้องไม่มีความสัมพันธ์กัน แต่ในทางปฏิบัติจะพบว่าตัวแปรอิสระมักจะมีความสัมพันธ์กันเอง การที่ตัวแปร X มีความสัมพันธ์กันจะทำให้เกิดปัญหาที่เรียกว่า multicolinearity การเกิดปัญหา multicolinearity จะมากหรือน้อยจะขึ้นอยู่กับความสัมพันธ์ระหว่างตัวแปรอิสระ X ถ้าตัวแปรอิสระมีความสัมพันธ์กันมาก ปัญหา multicolinearity จะมากด้วย ซึ่งทำให้ผลของการเกิดปัญหา Multicolinearity รุนแรงด้วย ในที่นี้จะใช้วิธี multiple logistic regression ในการวิเคราะห์(9) ดังนั้นจึงสรุปได้ว่าการเกิดปัญหา multicolinearity เกิดจาก X1 มีความสัมพันธ์กับ X2 ส่วน X3 และ X4 ก็มีความสัมพันธ์กัน การที่ตัวแปร X จะมีความสัมพันธ์กันมากหรือน้อยจะขึ้นอยู่กับความสัมพันธ์ระหว่างตัวแปรอิสระ X สำหรับสาเหตุของปัญหา multicolinearity นอกจากเกิดขึ้นเพราะตัวแปรอิสระที่นำมาใช้มีลักษณะความสัมพันธ์ที่แน่นอนแล้ว ในบางกรณีปัญหานี้อาจเกิดขึ้นเนื่องจากกระบวนการรวบรวมตัวอย่างเชิงสุ่มที่บังเอิญได้ข้อมูลที่มีความสัมพันธ์กันมาก็ได้ กรณีเช่นนี้สามารถป้องกันและแก้ไขได้โดยการสุ่มตัวอย่างที่มีขนาดใหญ่เพียงพอที่จะทำให้มีความน่าเชื่อถือในการใช้งาน หรือเมื่อตรวจพบปัญหา multicolinearity และไม่แน่ใจในเรื่องการสุ่มตัวอย่าง ผู้วิเคราะห์อาจทำการรวบรวมข้อมูลเพิ่มเติมแล้ววิเคราะห์ใหม่ นอกจากนี้ปัญหา multicolinearity นี้จะเกิดขึ้นกับการวิเคราะห์การถดถอยเชิงซ้อนที่ใช้รูปแบบของความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามที่ไม่ใช่ความสัมพันธ์เชิงลิเนียร์ เช่น ความสัมพันธ์ในรูปพาราโบล่า เป็นต้น(3)
วิธีการตรวจสอบปัญหา multicolinearity สามารถทำได้ 2 วิธี คือ
1. ตรวจสอบโดยใช้การทดสอบค่าสัม¬ประสิทธิ์สหสัมพันธ์ ระหว่างตัวแปรอิสระทีละคู่ เพื่อพิสูจน์ว่าตัวแปรอิสระคู่ใดมีความสัมพันธ์กันอย่างมีนัยสำคัญ สามารถทำได้โดยพิจารณาจากเมทริกซ์ของค่าสัมประสิทธิ์สห-สัมพันธ์ที่ได้จากโปรแกรมการวิเคราะห์ข้อมูล รวมถึงการพิจารณาลักษณะความสัมพันธ์ที่ได้จากเมทริกซ์ของแผนภาพกระจายของตัวแปรประกอบ 2. ตรวจสอบโดยพิจารณาค่า variance inflation factor (VIF) ซึ่งเป็นเครื่องมือที่แสดงปัจจัยหรือผลกระทบของตัวแปรอิสระตัวหนึ่งในสมการถดถอยเชิงซ้อนว่าจะมีอิทธิพลต่อค่าความแปรปรวน (variance) ของสัมประสิทธิ์ของตัวแปรอิสระ (b) ต่างๆ ในสมการถดถอยเชิงซ้อนมากน้อยเพียงใด โดยทำการตรวจสอบความสัมพันธ์ระหว่างตัวแปรอิสระทั้งหมดในสมการถดถอยเชิงซ้อน ถ้าตัวแปรอิสระตัวนั้นมีความสัมพันธ์กับตัวแปรอิสระอื่นมากๆ ก็จะมีผลต่อการคำนวณค่า b ของตัวแปรอิสระอื่นๆ ในสมการถดถอยเชิงซ้อนมาก ทำให้ค่า b เหล่านั้นมีการเปลี่ยนแปลงอย่างมากหรือค่า b มีความแปรปรวนมากนั่นเอง ค่า VIF สามารถคำนวณได้โดยใช้สูตร
 โดยที่ Rh2 หมายถึง ค่า multiple correlation ระหว่าง X1 กับ Xh (X2,X3,X4,X5,X6, X7) ของสมการที่ Xh เป็นตัวแปรตาม (Y) และตัวแปรอิสระที่เหลือในสมการถดถอยเป็นตัวแปรอิสระ (X)(4) ดังนั้นจะรู้ได้อย่างไรว่าเกิดปัญหา multicolinearity ขึ้นในงานวิจัย และเมื่อเกิดขึ้นแล้ว เราจะมีวิธีจัดการอย่างไร บทความนี้มีวัตถุประสงค์เพื่ออธิบายความหมายของ multicolinearity, วิธีการตรวจสอบ multicolinearity, ผลกระทบของ multicolinearity และทราบถึงวีธีการแก้ปัญหา multicolinearity ในที่นี้จะใช้ตัวอย่างการศึกษาประสิทธิภาพของยาต้านจุลชีพ 2 ชนิด คือ cephazolin และ ampicillin เปรียบเทียบกับ placebo ในการรักษา abdominal hysterectomy ในผู้ป่วย 321 ราย โดยมีจำนวนผู้ป่วยที่ได้รับยา cephazolin 108 ราย, ampicillin 106 รายและ placebo 107 รายตามลำดับ การศึกษานี้เป็นการศึกษาแบบ double-blinded controlled trial โดยมีตัวแปรต่างๆ ดังแสดงในตารางที่ 1 เพื่อแสดงการเกิด multicolinearity ในการวิเคราะห์ด้วย multiple logistic regression ได้กำหนดให้ตัวแปรตามคือการมีหรือไม่มีไข้หลังการผ่าตัด (ซึ่งอาจจะไม่เหมือนกับตัวแปรตามจริงในการศึกษานี้) ตัวแปรอิสระที่สำคัญในการศึกษานี้คือชนิดของยาต้านจุลชีพซึ่งมี 3 ชนิดคือ cephazolin, ampicillin และ placebo ดังนั้นจึงมีการสร้าง dummy (indicator) variable 2 ตัวคือ DRUG1 ซึ่งแสดงถึงการใช้ cephazolin และ DRUG2 ซึ่งแสดงถึงการใช้ ampicillin ตามลำดับดังนี้

ตารางที่ 1. ตัวแปรในการศึกษาประสิทธิภาพของยาต้านจุลชีพz

ตารางที่ 2. ความสัมพันธ์ระหว่างการมีไข้กับตัวแปรต่างๆ แต่ละตัว

ตารางที่ 2 แสดงการวิเคราะห์แบบ univariate analysis เพื่อแสดงความสัมพันธ์ระหว่างการมีไข้กับตัวแปรอิสระต่างๆ แต่ละตัว ซึ่งจะเห็นได้ว่าผู้ป่วยที่ได้รับยา cephazolin, ampicillin มีไข้มากกว่าผู้ป่วยที่ได้รับ placebo ผู้ป่วยที่มี anemia มีไข้น้อยกว่าผู้ป่วยที่ไม่มี anemia ผู้ป่วยที่มีไข้หลังการผ่าตัดอยู่โรงพยาบาลนานกว่าผู้ป่วยที่ไม่มีไข้
การตรวจสอบ multicolinearity 1. การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ (Pearson correlation coefficient, r) ระหว่างตัวแปรอิสระทีละคู่ วิธีนี้เป็นการตรวจสอบ multicolinearity ในเบื้องต้น ผลการวิเคราะห์ในตารางที่ 3 แสดงว่า BMI มีความสัมพันธ์กับ weight ในระดับสูง (r=0.906) ส่วนความสัมพันธ์ระหว่างตัวแปรอิสระอื่นๆ มีค่า r ระหว่าง-0.500 ถึง 0.408 ซึ่งค่อนข้างน้อย
ตารางที่ 3. Pearson correlation ระหว่างตัวแปรอิสระที่เป็นตัวแปรต่อเนื่องต่างๆ  ตารางที่ 4. Independent sample test ระหว่าง ANEMIA ซึ่งเป็นตัวแปรอิสระที่เป็นตัวแปรแจงนับกับตัวแปรอิสระที่เป็นตัวแปรต่อเนื่องต่างๆ

จากตารางที่ 4 จะเห็นว่าไม่มีตัวแปรใดที่มีความสัมพันธ์กับ ANEMIA
ถ้านำตัวแปรอิสระทั้งหมดมาวิเคราะห์ด้วย multiple logistic regression ดัง model 1 จะได้ผลการวิเคราะห์ดังแสดงในตารางที่ 5
ตารางที่ 5. Multiple logistic regression: Model 1

Model 1 Logit P(X) = a + b1(DRUG1) + b2(DRUG2) + b3(WEIGHT) + b4(HEIGHT) + b5(BMI) + b6(HOSSTAY) + b7 ANEMIA)
เมื่อ logit P = loge(odds) = loge [P/(1-P)]
P = โอกาสที่จะมีไข้หลังการผ่าตัด
1- P = โอกาสที่จะไม่มีไข้หลังการผ่าตัด
เมื่อพิจารณา logistic regression coefficient (b) ของ BMI จะได้ดังนี้ BMI : b = 0.216, SE(b) = 0.737, p-value = 0.770 OR = eb = e0.216 = 1.241 95% CI of b = b ± 1.96 SE(b) = 0.216 ± 1.96(0.737) = 0.216 ± 1.4445 = (-1.2285, 1.6605) 95% CI of OR = 95% CI of e β = e-1.2285, e1.6605 = (0.29, 5.26)
นั่นคือ adjusted OR ของ BMI เท่ากับ 1.24 และ 95% confidence interval (CI) เท่ากับ (0.29, 5.26) ซึ่งค่อนข้างกว้าง จึงตั้งข้อสังเกตว่าอาจจะเกิดปัญหา multicolinearity ระหว่าง BMI และตัวแปรอิสระบางตัวในสมการ จึงนำไปสู่การตรวจสอบ multicolinearity วิธีที่สองคือการพิจารณาค่า variance inflation factor 2. การคำนวณค่า VIF มีสูตรดังนี้ 
ในตัวอย่างนี้มี X 7 ตัวดังนั้น R1 = multiple correlation ระหว่าง X1 กับ X2, X3, X4, X5, X6, X7
R2 = multiple correlation ระหว่าง X2 กับ X1, X3, X4, X5, X6, X7
นั่นคือ Rh = multiple correlation ระหว่าง Xh กับ X อื่นๆ ที่เหลือ 6 ตัวใน model(8)
ตัวอย่างเช่น RBMI = multiple correlation ระหว่าง BMI กับ (DRUG1, DRUG2, WEIGHT, HEIGHT, HOSSTAY และ ANEMIA)
เนื่องจาก R มีค่าระหว่าง -1 และ 1 R2 จึงมีค่าระหว่าง 0 และ 1 ค่า R2 ที่มีค่าใกล้ 1 แสดงว่าตัวแปรอิสระตัวนั้นมีความสัมพันธ์กับตัวแปรอิสระอื่นๆในสมการอย่างสูง ซึ่งจะทำให้ VIF มีค่ามากเช่น
ถ้า Rh = 1 ดังนั้น VIF(Xh) = 1 / (1-12) = 1 / 0 = ¥
ถ้า Rh = 0.9 ดังนั้น VIF(Xh) = 1 / (1-0.92) = 1 / 0.19 = 5.26
ถ้า Rh = 0 ดังนั้น VIF(Xh) = 1 / (1-02) = 1 / 1 = 1
กล่าวคือ VIF มีค่าระหว่าง 1 ถึง ¥ ค่าที่เข้าใกล้ ¥ หมายถึงตัวแปรอิสระตัวนั้นมีความสัมพันธ์กับตัวแปรอิสระอื่นๆในสมการอย่างสูง ดังนั้นจึงควรสนใจในตัวแปรอิสระที่มีค่า VIF มากกว่า 10 การที่ตัวแปรอิสระตัวหนึ่งมีค่า VIF สูงจะทำให้ standard error (SE) ของค่า regression coefficient (b) ของตัวแปรนั้นมีค่าสูง (นั่นคือ inflate variance ของ b ซึ่งเป็นที่มาของชื่อ variance inflation factor) ดังนั้นเมื่อนำ SE(b) มาคำนวณ 95% CI ของ b และ 95% CI ของ OR จะพบว่า 95% CI ของ b และ 95% CI ของ OR มีค่ากว้างมาก(4) ผลการคำนวณค่า VIF ของตัวแปรอิสระแต่ละตัวใน model ที่ 1 แสดงในตารางที่ 5 ซึ่งจะเห็นได้ว่า ตัวแปร weight และ BMI มีค่า VIF ที่สูงมากถึง 256.928 และ 214.296 ตามลำดับ ซึ่งค่า VIF เหล่านี้ควรน้อยกว่า 10 จึงสรุปได้ว่ามี multicolinearity ระหว่างตัวแปร weight และ BMI มาก การที่เป็นเช่นนี้เนื่องจากตัวแปร BMI คำนวณมาจากตัวแปร weight และ height นั่นเอง ดังนั้นในตัวอย่างนี้จึงอยากชี้ให้เห็นว่า ในกรณีที่นำตัวแปร 2 ตัว คือ weight และ BMI เข้ามาวิเคราะห์ร่วมกันใน model จะทำให้เกิดปัญหา multicolinearity ขึ้น และหากไม่มีกี่ตรวจสอบ multicolinearity ก่อน จะส่งผลต่อการวิเคราะห์ข้อมูลอย่างไร
การแก้ปัญหา multicolinearity การแก้ปัญหา multicolinearity ทำได้โดยนำตัวแปรอิสระที่มี mutlicolinearity ออกจากการวิเคราะห์ multiple logistic regression ในที่นี้ผู้วิจัยสนใจในตัวแปร BMI มากกว่า weight จึงนำ weight ออกจากการวิเคราะห์ ตารางที่ 7 แสดงผลการวิเคราะห์ multiple logistic regression ของ model 2
Model 2 Logit P(X) = a + b1(DRUG1) + b2(DRUG2) + b3(HEIGHT) + b4(BMI) + b5(HOSSTAY) + b6(ANEMIA)
เมื่อพิจารณา logistic regression coefficient (b) ของ BMI จะได้ดังนี้ BMI : b = 0.016, SE(b) = 0.047, p-value = 0.734 OR = eb = e0.016 = 1.02 95% CI of b = b ± 1.96 SE(b) = 0.016 ± 1.96(0.047) = 0.016 ± 0.0921 = (-0.0761 , 0.1081) 95% CI of OR = 95% CI of eb = e-0.0761, e0.1081 = (0.93, 1.11)
จากตารางที่ 7 จะเห็นว่าค่า adjusted OR ของ BMI เท่ากับ 1.02 และ 95% CI ของ OR เท่ากับ (0.93, 1.11) ซึ่งแคบกว่าค่าเดิมในตารางที่ 5 มาก จากการคำนวณค่า VIF (ตารางที่ 8) พบว่าค่า VIF ของ BMI ลดลงเหลือเพียง 1.008 ซึ่งใกล้เคียงกับค่าต่ำสุดคือ 1 (เมื่อ R=0) จึงสรุปได้ว่าการใส่ทั้งตัวแปร weight และ BMI เข้าในสมการ multiple logistic regression ทำให้เกิด multicolinearity ระหว่างตัวแปร weight และ BMI จึงแก้ปัญหาโดยตัดตัวแปร weight ออกจากสมการ ซึ่งทำให้ปัญหาจาก multicolinearity หมดไป ตารางที่ 7. Multiple logistic regression: model2

ตารางที่ 8. VIF ของตัวแปรอิสระแต่ละตัวใน model2

สรุป Mutlicolinearity เป็นสิ่งที่มักจะถูกละเลยไปในการวิเคราะห์แบบ multivariable analysis ในเบื้องต้นผู้วิจัยซึ่งเป็นผู้ทราบเรื่องนั้นดีที่สุดควรจะบอกนักสถิติได้ว่าตัวแปรอิสระตัวใดน่าจะมีความสัมพันธ์กัน เพื่อนักสถิติจะได้ทำการทดสอบ multicolinearity ทางสถิติต่อไป ซึ่งจะนำไปสู่การแก้ไขปัญหา multicolinearity ที่ถูกต้องในที่สุด
เอกสารอ้างอิง 1. บัณฑิต ถิ่นคำรพ. (Statistics) การวิเคราะห์ข้อมูลการวิจัยทางวิทยาศาสตร์สุขภาพโดยใช้การถดถอย ลอจิสติก. ขอนแก่น: ภาควิชาชีวสถิติและประชากรศาสตร์ คณะสาธารณสุขศาสตร์ มหาวิทยาลัยขอนแก่น. 2543. 2. มนตรี พิริยะกุล. เทคนิคการวิเคราะห์สมการ ถดถอย (เล่ม 2). กรุงเทพ: ภาควิชาสถิติ มหาวิทยาลัย รามคำแหง, 2526. 3. ศรีเพ็ญ ทรัพย์มนชัย. การวิเคราะห์การถดถอยเชิงธุรกิจ. กรุงเทพ: คณะพาณิชยศาสตร์และการบัญชี มหาวิทยาลัยธรรมศาสตร์, ปิ่นเกล้าการพิมพ์, 2545. 4. Jokin de Irala, Rafael Fernandez-Crehuet Navajas, and amparo Serrano del Castillo. Abnormally wide confidence intervals in logis¬tic regression: interpretation of statistical program results, Rev Panam salud publica/Pan. Am J Public Health 1997;2:268-71. 5. Y H Chan,. Biostatistics 202: logistic regression analysis, Singapore. Med j 2004;45(4):149. Clinical Trials and Epidemiology Research Unit 226 Outram Road Blk B#02-02 Singapore 169039, www.sma.org.sg/smj/4504/4504bs1. pdf
|