Untitled Document
 
 
 
 
Untitled Document
Home
Current issue
Past issues
Topic collections
Search
e-journal Editor page

Missing data and management

ข้อมูลสูญหายและแนวทางการจัดการ

ปิยะภรณ์ ประสิทธิ์วัฒนเสรี 1, สุคนธ์ ประสิทธิ์วัฒนเสรี 2




 บทนำ
       ข้อมูลสูญหาย (missing data) เป็นกรณีที่พบได้บ่อยในงานวิจัยทุกสาขา และนักวิจัยจำเป็นต้องพิจารณาถึงแนวทางที่เหมาะสมสำหรับใช้จัดการกับข้อมูลสูญหายในทุก ๆ ครั้งที่พบกับปัญหานี้ ซึ่งวิธีการที่ใช้สำหรับจัดการกับข้อมูลสูญหายมีทางเลือกให้พิจารณาค่อนข้างหลากหลาย หากเลือกใช้วิธีจัดการกับข้อมูลสูญหายที่ไม่เหมาะสมย่อมส่งผลทำให้เกิดการบิดเบือนผลการวิเคราะห์ อย่างไรก็ตามจากการศึกษาของ Wood และคณะ (2004) ที่ได้ทำการศึกษาจากผลงานวิจัยที่ได้รับการตีพิมพ์ในวารสาร BMJ, JAMA, Lancet และ N Engl J Med จำนวน 71 ชิ้น พบว่า มีงานวิจัยถึง 89% ที่มีปัญหาเรื่องข้อมูลสูญหาย และมีเพียง 21% เท่านั้นที่มีการจัดการกับปัญหาข้อมูลที่ไม่สมบูรณ์ จากผลการศึกษานี้แสดงให้เห็นว่า การจัดการกับปัญหาข้อมูลสูญหายยังคงถูกละเลยกันอย่างเป็นปกติ แม้แต่ในงานวิจัยทางระบาดวิทยาและงานวิจัยเชิงทดลอง
       โดยเอกสารชิ้นนี้ต้องการเน้นย้ำถึงบทบาทความสำคัญของข้อมูลสูญหายที่มีต่องานวิจัย โดยจะกล่าวถึงแนวทางในการจัดการกับข้อมูลสูญหายอย่างคร่าว ๆ เพื่อประโยชน์ต่อการพิจารณาเลือกวิธีการที่เหมาะสมสำหรับจัดการกับข้อมูลที่ไม่สมบูรณ์ โดยในที่นี้จะยังไม่ขอกล่าวถึงรายละเอียดของวิธีการวิเคราะห์ต่าง ๆ

ข้อมูลสูญหาย
      ข้อมูลสูญหายคือค่าสังเกตที่ต้องการทราบค่าแต่ไม่สามารถทราบค่าได้ โดยที่ค่านั้นควรจะสามารถทราบค่าได้หากวิธีการที่ใช้ในการรวบรวมข้อมูลหรือในการวัดค่ามีประสิทธิภาพดีขึ้นหรือมีความเหมาะสมมากขึ้น ลองพิจารณาจากตัวอย่างของการวัดระดับความดันเลือดของเด็กในชั้นเรียนหนึ่ง ซึ่งผลจากการตรวจวัดทำให้ทราบค่าความดันเลือดของเด็กทั้งหมดว่ามีค่าอยู่ในช่วง 90 – 180 mm Hg ยกเว้นในเด็กหนึ่งรายที่ป่วย จึงไม่ได้มาในวันที่ทำการตรวจวัดความดันเลือด ทำให้ไม่ทราบค่าระดับความดันเลือดของเด็กผู้นี้ ซึ่งเรียกได้ว่าเป็นค่าสูญหาย (missing value)
      หากจะให้กล่าวถึงความสำคัญของข้อมูลสูญหายที่มีต่อการวิจัย ควรต้องมุ่งไปยังประเด็นของผลกระทบต่องานวิจัยที่เกิดจากกรณีข้อมูลสูญหาย โดยข้อมูลสูญหายที่เกิดขึ้นอาจไม่ก่อผลกระทบใด ๆ ต่อผลการวิจัย หรืออาจก่อให้เกิดผลกระทบที่รุนแรงต่องานวิจัยก็ย่อมได้ ทั้งนี้สามารถจำแนกผลกระทบจากข้อมูลสูญหายอย่างคร่าว ๆ ได้ดังนี้
- ข้อมูลสูญหายสามารถทำให้เกิดการสูญเสียกำลังในการทดสอบ (power of the test) เนื่องจากขนาดตัวอย่างที่ใช้ลดลงอันเป็นผลจากการตัดข้อมูลสูญหายออกจากการศึกษา ยกตัวอย่างเช่นในตอนเริ่มต้นการศึกษา คำนวณขนาดตัวอย่างที่เหมาะสมในการศึกษาเท่ากับ 300 คน แต่ภายหลังจากการรวบรวมข้อมูลปรากฏว่า ผลจากข้อมูลสูญหายทำให้กลุ่มตัวอย่างที่มีข้อมูลสมบูรณ์เหลือเพียง 250 คน หากทำการวิเคราะห์ในกลุ่มตัวอย่างที่มีขนาดเล็กลงย่อมส่งผลต่อการสูญเสียระดับความเชื่อมั่น และการเพิ่มขึ้นของความแปรผันในการศึกษา
- ข้อมูลสูญหายอาจก่อให้เกิดความเอนเอียงของค่าประมาณ ยกตัวอย่างเช่น ในการศึกษาเกี่ยวกับลักษณะพฤติกรรมการดูแลสุขภาพ หากลักษณะข้อคำถามที่ใช้เป็นคำถามที่กระทบต่อความรู้สึกได้ง่าย (sensitive question) ไม่ว่าจะเป็นพฤติกรรมการเสพสารเสพติด หรือพฤติกรรมการมีเพศสัมพันธ์ หรือแม้แต่คำถามทั่ว ๆ ไปทางสังคม อย่างรายได้ต่อปี ซึ่งอาจไม่ได้รับความร่วมมือในการตอบคำถามจากหลาย ๆ คน ทำให้ข้อมูลที่ได้อาจไม่สามารถแทนลักษณะของประชากรได้ครบถ้วน ทั้งนี้เพราะผู้ที่ไม่ให้ความร่วมมือในการตอบคำถามเหล่านี้ ส่วนใหญ่อาจเป็นผู้ที่มีพฤติกรรมที่ไม่เป็นที่ยอมรับในสังคม หรือเป็นผู้ที่มีรายได้ต่ำมาก หรือในทางตรงกันข้ามอาจเป็นผู้ที่มีรายได้สูงมาก ทำให้ไม่ต้องการตอบคำถามเหล่านี้
- สืบเนื่องจากผลกระทบก่อนหน้านี้ ข้อมูลสูญหายก่อให้เกิดความยากลำบากในการตรวจสอบอิทธิพลของตัวแปรต่าง ๆ ยกตัวอย่างจากกรณีข้างต้น หากต้องการศึกษาความเกี่ยวข้องกันระหว่างรายได้กับพฤติกรรมการดูแลสุขภาพ หากเกิดปัญหาในลักษณะที่ผู้ที่มีรายได้น้อยหรือมากไม่ยอมให้คำตอบเกี่ยวกับรายได้ต่อปี จะทำให้ข้อมูลที่ใช้ในการวิเคราะห์มีเพียงกลุ่มผู้ที่มีรายได้ปานกลาง หากผลการวิเคราะห์พบว่าไม่มีความเกี่ยวข้องกันระหว่างรายได้กับพฤติกรรมการดูแลสุขภาพ ผลสรุปที่ได้อาจผิดพลาด เพราะในความเป็นจริงอาจมีความสัมพันธ์กันก็เป็นไปได้
     
       ทั้งนี้จะเห็นได้ว่า ข้อมูลสูญหายสามารถส่งผลต่อการวิจัยทั้งในส่วนของการวิเคราะห์ และการสรุปผลตีความ โดยที่ระดับความรุนแรงของผลกระทบนี้ขึ้นอยู่กับองค์ประกอบจากหลายส่วน แต่ที่สำคัญก็คือ ขนาดของข้อมูลสูญหาย ประเภทของข้อมูลสูญหายที่เกิดขึ้น และวิธีการจัดการกับข้อมูลสูญหาย

ขนาดของข้อมูลสูญหาย (size of missing data)
      
      ในกรณีที่ไม่มีคำตอบหรือเกิดการปล่อยว่างไว้สำหรับบางรายการ (item non-response) นักวิจัยจำเป็นต้องทำการตัดสินใจดำเนินการระหว่างการพิจารณาไม่เลือกใช้ข้อมูลในรายที่เกิดปัญหานี้ หรือควรที่จะแทนค่าที่สูญหายด้วย imputed value น่าเสียดายที่ยังไม่มีเกณฑ์อย่างง่าย ๆ สำหรับใช้ในการตัดสินใจเลือกใช้วิธีการใดวิธีการหนึ่ง แต่มีแนวทางหนึ่งที่ถูกนำมาใช้กันอย่างแพร่หลายคือ การพิจารณาจากขนาดปริมาณของข้อมูลสูญหาย เมื่อจำนวนของหน่วยตัวอย่างที่มีค่าสูญหายมีจำนวนน้อย (เช่น อาจใช้เกณฑ์ < 5% จากหน่วยตัวอย่างที่มีขนาดใหญ่) อาจเลือกใช้วิธีการอย่างง่ายคือ ใช้วิธีการไม่เลือกข้อมูลที่มีปัญหามาใช้ในการวิเคราะห์
อย่างที่ได้กล่าวไว้ในหัวข้อก่อนหน้านี้ ถึงผลกระทบของข้อมูลสูญหายที่มีต่อการวิจัย ดังนั้นในการศึกษาควรที่จะพยายามทำการลดขนาดของข้อมูลสูญหายให้เหลือจำนวนน้อยที่สุดหรือไม่เหลือเลย โดยในการหาทางป้องกันไม่ให้เกิดข้อมูลสูญหาย หรือแนวทางที่จะลดขนาดของข้อมูลสูญหาย จำเป็นต้องพิจารณาถึงสาเหตุต่าง ๆ ที่เป็นไปได้ของการเกิดข้อมูลสูญหาย

เหตุผลหลักของการเกิดข้อมูลสูญหาย (major reasons of missing data)

      ในการเกิดข้อมูลสูญหายมักเป็นผลอันเนื่องมาจากหลายกรณี โดยเหตุผลพื้นฐานมักเป็นผลจาก
- การไม่ยอมมาแสดงตัวของหน่วยตัวอย่างในช่วงเวลาเฝ้าติดตามหน่วยตัวอย่าง
- หน่วยตัวอย่างปฏิเสธการตอบคำถามในบางคำถามของแบบฟอร์มที่ใช้รวบรวมข้อมูล ซึ่งส่วนใหญ่มักเป็นคำถามที่กระทบต่อความรู้สึกได้ง่าย
- หน่วยตัวอย่างไม่ทราบคำตอบ ทั้งนี้อาจเป็นผลมาจากปัญหาในเรื่องของความจำ เช่น อาจจำไม่ได้ว่าเคยเข้ารับการตรวจสุขภาพมาแล้วกี่ครั้ง หรือเข้ารับการตรวจสุขภาพครั้งสุดท้ายเมื่อไร นอกจากนี้อาจเป็นผลเนื่องจากการไม่เข้าใจในความหมายของคำต่าง ๆ ที่ใช้ในการสร้างคำถาม
- คำถามที่ใช้ไม่ครอบคลุมทุกกรณีจึงทำให้เกิดข้อมูลสูญหาย ยกตัวอย่างเช่น คำถามที่ต้องการทราบว่าหน่วยตัวอย่างได้รับการฉีดวัคซีนป้องกันเชื้อบาดทะยักครั้งสุดท้ายเมื่อใด ซึ่งในรายของผู้ที่ไม่เดยฉีดวัคซีนอาจไม่ตอบคำถามในข้อนี้เพราะเห็นว่าไม่เกี่ยวข้องกับตนเอง หรือในกรณีที่ต้องการทราบว่า การเข้าพบแพทย์ครั้งล่าสุดในรอบ 12 เดือนที่ผ่านมา สำหรับผู้ที่ไม่เคยเข้าพบแพทย์ใน 12 เดือนที่ผ่านมาก็อาจไม่ตอบคำถามในข้อนี้
- การนำข้อมูลเข้าสู่ระบบประมวลผลทางคอมพิวเตอร์ ซึ่งอาจเป็นผลจากความผิดพลาดของระบบฐานข้อมูล การเชื่อมโยงระหว่างข้อมูลจากฝ่ายต่าง ๆ

การป้องกันหรือการลดขนาดของข้อมูลสูญหาย (to prevent or minimize missing data)

     แนวทางในการลดผลกระทบที่เกิดขึ้นจากข้อมูลสูญหายที่ดีที่สุดคือ การป้องกันให้ไม่เกิดข้อมูลสูญหายในงานวิจัยหรือหากจะเกิดข้อมูลสูญหายขึ้นต้องพยายามลดขนาดของจำนวนข้อมูลสูญหายให้เหลือจำนวนน้อยที่สุด โดยสิ่งสำคัญในการหาทางป้องกันหรือลดขนาดของข้อมูลสูญหายก็คือ ความเข้าใจถึงสาเหตุของการเกิดข้อมูลสูญหายนั้น ๆ เพื่อจะได้ทำการพัฒนาโครงสร้างแผนการศึกษาที่สอดคล้องกับวัตถุประสงค์ในการศึกษา มีความครอบคลุมชัดเจน และสามารถตอบปัญหาในทุกประเด็นที่ศึกษาได้อย่างสมบูรณ์ นอกจากนี้ในระหว่างขั้นตอนการเก็บรวบรวมข้อมูลทางโทรศัพท์ หรือจากการสัมภาษณ์ หรือจากการตรวจวัด ควรต้องมีการตรวจเช็คความสมบูรณ์ของข้อมูลก่อนที่จะดำเนินการเสร็จสิ้นในขั้นตอนนี้ สำหรับการเก็บรวบรวมข้อมูลผ่านแบบสอบถามทางไปรษณีย์ โทรสาร หรืออีเมล์ ควรต้องรีบดำเนินการตรวจเช็คความสมบูรณ์ของแบบสอบถาม และรีบติดต่อขอเพิ่มเติมรายละเอียดในส่วนที่ขาดหายในทันทีที่ตรวจพบ ถึงแม้ว่าวิธีนี้จะเป็นการเพิ่มภาระในเรื่องของค่าใช้จ่ายและเวลาก็ตาม
แนวทางหนึ่งสำหรับลดการปฏิเสธที่จะตอบข้อคำถามจากหน่วยตัวอย่างคือ การพยายามพัฒนาตัวแบบสอบถามให้ดีขึ้นและรัดกุม พร้อมทั้งการอธิบายถึงวัตถุประสงค์ของการศึกษา รวมถึงประโยชน์ที่จะเกิดขึ้นของผลการศึกษาในครั้งนี้ต่อหน่วยตัวอย่าง นอกจากนี้ควรต้องมีการรับรองในเรื่องข้อมูลที่ให้มาจะถูกเก็บเป็นความลับเสมอ ควรลดลักษณะของคำถามที่กระทบต่อความรู้สึกได้ง่ายหรืออาจเลี่ยงใช้คำถามในลักษณะที่ไม่ใช่การถามตรง ซึ่งสามารถดูตัวอย่างแนวทางการเพิ่มอัตราการตอบข้อคำถามในคำถามที่กระทบต่อความรู้สึกได้ง่ายจากเอกสารเรื่อง Asking Questions ของ Sudman (1982)
      สำหรับแนวทางในการลดคำตอบที่ว่า “ไม่ทราบ” สามารถทำได้โดยเพิ่มเติมส่วนขยายความของข้อมูลที่ต้องการหรือให้แนวทางของคำตอบ หรือเทคนิคเพื่อช่วยในการหาคำตอบแก่หน่วยตัวอย่าง ยกตัวอย่างเช่น แทนที่จะถามว่า “ท่านเคยทานผักและผลไม้ที่มีปริมาณเส้นใยอาหารจำนวนมาก ในระหว่างสัปดาห์ที่ผ่านมาหรือไม่” อาจทำการจัดหารายการผักและผลไม้ที่มีปริมาณเส้นใยอาหารจำนวนมากมาให้ จากนั้นให้ทำการตอบว่า ทาน/ไม่ได้ทาน ข้างท้ายแต่ละรายการ ลักษณะของคำถามที่ใช้นี้นอกจากจะช่วยในการให้คำนิยามเกี่ยวกับผักและผลไม้ที่มีปริมาณเส้นใยมากแล้ว ยังเป็นการให้แนวทางของคำตอบที่ช่วยในการหาคำตอบแก่หน่วยตัวอย่างอีกด้วย (ข้อควรระวัง ในการศึกษาบางครั้ง คำตอบ “ไม่ทราบ” อาจจัดเป็นคำตอบที่บ่งบอกถึงลักษณะบางประการเกี่ยวกับหน่วยตัวอย่าง ซึ่งเป็นข้อมูลที่ควรต้องมีอยู่ในการวิเคราะห์)
       ในส่วนของข้อมูลสูญหายที่เกิดขึ้นเนื่องจากความผิดพลาดในขั้นตอนการดำเนินการกับข้อมูล (data processing) สามารถลดความผิดพลาดนี้ได้โดยการออกแบบแบบสอบถามที่สะดวกต่อการนำเข้าข้อมูล รวมถึงการพัฒนาหรือเลือกวิธีการที่ใช้ในการนำเข้าข้อมูลให้เหมาะสม สามารถศึกษาเพิ่มเติมได้จากผลงานตีพิมพ์ของ O’Rourke (2000)

การตรวจเช็คข้อมูลสูญหาย (to detect missing data)
       สำหรับวิธีการตรวจเช็คข้อมูลสูญหายสามารถทำได้หลายวิธีด้วยกัน โดยในผลงานตีพิมพ์ของ O’Rourke (2000) ได้อธิบายวิธีการสำหรับตรวจเช็คข้อมูลสูญหายไว้อย่างละเอียดมาก ในที่นี้จะขอกล่าวถึงอย่างย่อ ๆ เกี่ยวกับวิธีการต่าง ๆ ที่สามารถใช้ในการตรวจเช็คข้อมูล
- การตรวจเช็คด้วยสายตา (visual scanning)
- โดยใช้โปรแกรมนำเข้าข้อมูล (data entry program) เช่น QPL หรือ SPSS ช่วยในการตรวจเช็ค
- โดยใช้วิธีการแจกแจงความถี่ของคำตอบในตัวแปรแต่ละตัว
- สำหรับในการวิเคราะห์ตัวแปรคู่ (bivariate analysis) ใช้วิธีการสร้างตารางไขว้ (crosstabulation) ระหว่างตัวแปรทั้งคู่

ประเภทของข้อมูลสูญหาย (type of missing data)

       การพิจารณาประเภทของข้อมูลสูญหายเป็นขั้นตอนที่สำคัญ ทั้งนี้เพราะหากสามารถทราบถึงลักษณะของข้อมูลสูญหายจะช่วยในการพิจารณาแนวทางสำหรับจัดการกับปัญหาความไม่สมบูรณ์ของข้อมูลได้อย่างเหมาะสม ซึ่งโดยทั่วไปมักจำแนกข้อมูลสูญหายออกเป็น 3 ประเภทด้วยกันคือ

Missing completely at random (MCAR)
    MCAR เป็นลักษณะของข้อมูลสูญหายที่เกิดขึ้นอย่างสุ่มจากค่าสังเกตทั้งหมด นั่นคือข้อมูลที่สูญหายเป็นอิสระจากตัวแปรต่าง ๆ สามารถทำการตรวจสอบลักษณะของข้อมูลสูญหายกลุ่มนี้โดยการแบ่งกลุ่มของค่าสังเกตเป็นกลุ่มข้อมูลปกติและข้อมูลสูญหาย ในกรณีนี้เมื่อทำการทดสอบจะไม่พบความแตกต่างอย่างมีนัยสำคัญระหว่างทั้งสองกลุ่มสำหรับตัวแปรต่าง ๆ ในฐานข้อมูล
      สำหรับสาเหตุที่ทำให้ข้อมูลเกิดการสูญหายมีอยู่หลากหลายเหตุผล อาจเกิดขึ้นเนื่องจากเครื่องมือเสีย อุปกรณ์เกิดข้อบกพร่อง สภาพอากาศเลวร้าย กลุ่มเป้าหมายที่ศึกษาล้มป่วย หรือการนำเข้าข้อมูลไม่ถูกต้อง
สำหรับข้อมูลสูญหายประเภทนี้จัดเป็นข้อมูลที่ก่อให้เกิดปัญหาน้อยที่สุด เพราะว่าข้อมูลสูญหายไม่มีความเกี่ยวข้องต่อผลลัพธ์ของข้อมูล เพราะฉะนั้นสามารถเลือกทำการวิเคราะห์ข้อมูลในส่วนที่สมบูรณ์ได้

Missing at random (MAR)
     MAR เป็นลักษณะของข้อมูลสูญหายซึ่งไม่ได้เกิดขึ้นอย่างสุ่มจากค่าสังเกตทั้งหมด แต่เกิดขึ้นอย่างสุ่มภายในบางส่วนหรือบางกลุ่มของค่าสังเกต นั่นคือค่าของข้อมูลสูญหายขึ้นอยู่กับตัวแปรตัวอื่น ๆ ในฐานข้อมูลซึ่งไม่ได้เป็นตัวแปรที่เกิดข้อมูลสูญหาย ยกตัวอย่างเช่น หากพบว่าเฉพาะกลุ่มผู้ได้รับการศึกษาน้อยที่ไม่ให้ความร่วมมือในการตอบข้อคำถามเกี่ยวกับทัศนคติในการเสพยาเสพติด ในลักษณะนี้สามารถกล่าวได้ว่าข้อมูลทัศนคติในการเสพยาเสพติดมีค่าสูญหายแบบ MAR ทั้งนี้เนื่องจากเป็นค่าสูญหายที่เกิดขึ้นเฉพาะในบางส่วนของตัวแปรระดับการศึกษา
สำหรับข้อมูลสูญหายประเภทนี้ยังไม่ส่งผลกระทบรุนแรงเท่ากับข้อมูลสูญหายในประเภทสุดท้าย

Not missing at random (NMAR)
     NMAR เป็นลักษณะของข้อมูลสูญหายซึ่งไม่ได้เกิดขึ้นอย่างสุ่ม โดยค่าของข้อมูลสูญหายขึ้นอยู่กับค่าของข้อมูลสมบูรณ์ในตัวแปรเดียวกัน รวมถึงตัวแปรตัวอื่นด้วย เช่น หากข้อมูลสูญหายของระดับรายได้ขึ้นอยู่ระดับรายได้ในแต่ละช่วงอายุ ข้อมูลสูญหายที่เกิดขึ้นจัดอยู่ในประเภท NMAR หรือในบางกรณีค่าของข้อมูลสูญหายอาจไม่ขึ้นอยู่กับตัวแปรใด ๆ ในฐานข้อมูลเลย แต่ขึ้นอยู่กับตัวแปรอื่นที่ไม่ได้ถูกเก็บรวบรวมไว้ในการศึกษาครั้งนั้น เช่น ค่าน้ำหนักตัวที่ลดลงขึ้นอยู่กับน้ำหนักตัวตอนเริ่มต้น แต่เนื่องจากตัวแปรน้ำหนักตอนเริ่มต้นไม่ได้ถูกรวบรวมไว้ในฐานข้อมูล ดังนั้นค่าสูญหายของน้ำหนักตัวที่ลดลงจึงขึ้นอยู่กับตัวแปรภายนอกฐานข้อมูล 
      ลักษณะข้อมูลสูญหายประเภทนี้จัดเป็นข้อมูลสูญหายที่สามารถส่งผลกระทบอย่างรุนแรงในการวิเคราะห์ข้อมูล 
     ในทางปฏิบัติ ลักษณะของข้อมูลสูญหายประเภท MCAR มักไม่พบบ่อยนัก ที่พบบ่อยครั้งมักเป็นข้อมูลสูญหายประเภท MAR ดังนั้นวิธีการทางสถิติต่าง ๆ ที่พัฒนาขึ้นมาเพื่อแก้ปัญหาข้อมูลสูญหาย มักดำเนินการภายใต้ข้อสมมติของ MAR เป็นส่วนใหญ่

วิธีการจัดการกับข้อมูลสูญหาย (Methods of handling missing data)

      การจัดการกับข้อมูลสูญหายมีหลายวิธีการให้เลือกใช้ การพิจารณาเลือกใช้วิธีการใดขึ้นอยู่กับลักษณะของข้อมูลสูญหายที่เกิดขึ้น หากเลือกวิธีการที่ไม่เหมาะสมมาใช้อาจเป็นการเพิ่มค่าความคลาดเคลื่อนและทำลายผลลัพธ์ที่ควรจะได้ สำหรับวิธีการจัดการกับข้อมูลสูญหายที่มักถูกเลือกนำมาใช้มีดังนี้
- Listwise data deletion: เป็นวิธีการจัดการกับข้อมูลสูญหายที่ง่ายมาก นั่นคือไม่สนใจข้อมูลสูญหายที่เกิดขึ้น โดยจะทำการวิเคราะห์ข้อมูลจากข้อมูลเฉพาะส่วนที่สมบูรณ์ แนวทางนี้จะมีความเหมาะสมในกรณีที่ข้อมูลสูญหายมีจำนวนน้อยมาก และ/หรือผลจากการวิเคราะห์มีความชัดเจนมาก ซึ่งวิธีการนี้มักถูกกำหนดให้ใช้เป็นหลัก (by default) สำหรับจัดการกับข้อมูลสูญหายในโปรแกรมคอมพิวเตอร์ทางสถิติทั่ว ๆ ไป หากไม่เจาะจงเลือกใช้วิธีการอื่นในการจัดการกับข้อมูลสูญหาย
- Pairwise data deletion: เป็นวิธีการจัดการกับข้อมูลสูญหายสำหรับกรณีที่ทำการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรคู่ โดยจะทำการวิเคราะห์ข้อมูลจากข้อมูลส่วนที่มีค่าสมบูรณ์ทั้งสองตัวแปร
- Mean substitution: เป็นวิธีการแทนค่าข้อมูลสูญหายด้วยค่าเฉลี่ยของข้อมูลที่ทราบค่าในแต่ละกลุ่มย่อยของตัวแปรอื่น ซึ่งเป็นวิธีที่พัฒนามาจากการแทนค่าข้อมูลสูญหายด้วยค่าเฉลี่ยของข้อมูลที่ทราบค่า ทั้งนี้เนื่องจากข้อสมมติที่ว่าค่าของข้อมูลสูญหายควรจะต้องขึ้นอยู่กับลักษณะของหน่วยตัวอย่าง โดยลักษณะของหน่วยตัวอย่างที่ใกล้เคียงกันควรจะมีค่าข้อมูลที่สนใจคล้ายคลึงกัน
- Regression method: ทำการสร้างสมการถดถอยระหว่างตัวแปรใด ๆ ที่ต้องการจากข้อมูลที่สมบูรณ์ โดยกำหนดให้ตัวแปรตามเป็นตัวแปรที่มีข้อมูลไม่สมบูรณ์ จากนั้นใช้สมการถดถอยที่ได้ทำการประมาณค่าของข้อมูลที่ไม่สมบูรณ์
- Hot deck imputation: เป็นวิธีการพิจารณาเลือกหน่วยตัวอย่างที่มีลักษณะคล้ายคลึงกันมากที่สุดกับหน่วยตัวอย่างที่เกิดค่าสูญหาย จากนั้นแทนค่าที่สูญหายด้วยค่าของหน่วยตัวอย่างที่คล้ายคลึงนั้น
- Expectation Maximization (EM) approach: วิธีการนี้เป็นการอาศัยหลักของกระบวนการวนซ้ำ (iterative procedure) ระหว่าง 2 ขั้นตอน โดยขั้นตอนแรก เป็นขั้นตอนที่เรียกว่า Expectation (E) step ซึ่งจะทำการประมาณค่าคาดหวังจากฟังก์ชัน likelihood ภายใต้ข้อมูลที่สมบูรณ์ สำหรับขั้นตอนที่สอง เป็นขั้นตอนที่เรียกว่า Maximization (M) step เพื่อทำการแทนค่าคาดหวังของข้อมูลสูญหายด้วยค่าที่ได้จาก E step และทำการประมาณค่าคาดหวังจากฟังก์ชัน likelihood ในกรณีถ้าไม่เกิดข้อมูลสูญหาย โดยจะทำการวนซ้ำระหว่าง 2 ขั้นตอนจนกว่าจะเกิดค่าที่ลู่เข้า (convergence) หรือค่าที่มีการเปลี่ยนแปลงน้อยมาก ใช้ค่านั้นแทนค่าข้อมูลสูญหายที่เกิดขึ้น
- Raw maximum likelihood methods: เป็นวิธีการที่อาศัยข้อมูลสมบูรณ์ในการสร้างค่า maximum likelihood ภายใต้ตัวแบบทางสถิติที่เหมาะสม ไม่ว่าจะเป็น structural equation model, regression model, ANOVA และ ANCOVA models
- Multiple imputation (MI): เป็นวิธีการที่ผสมผสานระหว่างวิธีการ EM และ Raw maximum likelihood methods ร่วมกับความสามารถของคุณสมบัติ hot deck เพื่อทำการสร้างชุดจำลองของข้อมูลที่ได้ทำการแทนค่าข้อมูลสูญหายด้วย imputed value แล้วขึ้นมาหลาย ๆ ชุด (ประมาณ 5 ถึง 10 ชุด) จากนั้นทำการวิเคราะห์ข้อมูลจากชุดต่าง ๆ บันทึกผลการวิเคราะห์ที่ได้ โดยผลการวิเคราะห์ที่ได้เหล่านี้จะถูกรวมเข้าด้วยกันเพื่อทำการ

สรุปผลการศึกษา

      สำหรับผู้ที่สนใจในรายละเอียดของวิธีการต่าง ๆ ข้างต้น รวมถึงวิธีการอื่น ๆ ที่ไม่ได้กล่าวถึงในที่นี้ เพื่อใช้สำหรับจัดการกับข้อมูลสูญหาย สามารถศึกษาเพิ่มเติมได้จากงานของ Kim and Curry (1977), Coy and Cohen (1985), Kalton and Kaspzyk (1986), Little and Rubin (1987), Little (1992), Afifi and Clark (1996)
      โปรแกรมสำเร็จรูปสำหรับจัดการข้อมูลสูญหาย (software packages for handling missing data)
ปัจจุบันได้มีการพัฒนาโปรแกรมสำเร็จรูปมากมายเพื่อช่วยในการจัดการข้อมูลสูญหาย ในที่นี้จะขอนำเสนอตัวอย่างโปรแกรมเพียงบางส่วน เพื่อเป็นแนวทางในการเลือกใช้โปรแกรมที่เหมาะสมในการจัดการกับข้อมูลสูญหายในแต่ละกรณี ดังตารางที่ 1

ตาราง 1 โปรแกรมสำเร็จรูปสำหรับจัดการข้อมูลสูญหาย

แหล่งที่มา: Information Technology Services (ITS), University of Texas (2004)
* MAR : Data are missing at random, MCAR : Data are missing completely at random

บทสรุป

     ข้อมูลสูญหายในการศึกษาวิจัยเป็นเรื่องที่พบเห็นกันโดยทั่วไป ซึ่งสามารถส่งผลกระทบตั้งแต่ระดับเล็กน้อยไปจนถึงก่อให้เกิดผลกระทบอย่างรุนแรงต่อผลการศึกษา การจัดการเกี่ยวกับข้อมูลสูญหายเป็นสิ่งจำเป็น เพราะผลกระทบจากปัญหานี้สามารถเกิดขึ้นต่อเนื่องเริ่มตั้งแต่การวิเคราะห์ผล ไปจนถึงการสรุปผลและวิจารณ์ผล เป้าหมายของเอกสารชิ้นนี้ต้องการแสดงให้เห็นถึงต้นตอหรือสาเหตุของการเกิดข้อมูลสูญหาย และแนวทางต่าง ๆ ในการป้องกันและลดขนาดของข้อมูลสูญหายที่จะเกิดขึ้น รวมถึงวิธีการต่าง ๆ ที่สามารถใช้จัดการกับข้อมูลสูญหาย เพื่อเป็นแนวทางสำหรับการบริหารจัดการข้อมูลในกรณีที่เกิดปัญหาข้อมูลสูญหายในงานวิจัย

บรรณานุกรม
Afifi A, Clark V. Computer-Aided Multivariate Analysis. 3rd ed., London: Chapman & Hall, 1996.
Cox B, Cohen S. Methodological Issues for Health Care Surveys. New York: Marcel Dekker Inc., 1985.
Information Technology Services. Handling missing or incomplete data. University of Texas. [updated 2004]. Available from: http://www.utexas.edu/its/rc/answers/general/gen25.html.
Kalton G, Kasprzyk D. The Treatment of Missing Survey Data. Survey Methodology 1986; 12: 1-16.
Kim J, Curry J. The Treatment of Missing Data in Multivariate Analysis. Sociological Methods & Analysis 1977; 6: 215-40.
Little R. Regression with Missing X’s: A Review. Journal of the American Statistical Association 1992; 87: 1227-37.
Little R, Rubin D. Statistical Analysis with Missing Data. New York: John Wiley & Sons, 1987.
O’Rourke T. Data Analysis: The Art and Science of Coding and Data Entry. American Journal of Health Studies 2000; 16: 164-6.
O’Rourke T. Techniques for screening and cleaning data for analysis. American Journal of Health Studies 2000; 16: 217-9.
Sudman S. Asking Question. San Francisco: Jossey-Bass, 1982.
Wood AM, White IR, Thompson SG. Are Missing Outcome Data Adequately Handled? A Review of Published Randomized Controlled Trials in Major Medical Journals. Clinical Trial 2004; 1: 368-76.

 

 

Untitled Document
Article Location
Volume 4 Number 3

Untitled Document
Article Option
       Extract
       Fulltext
       PDF File
Untitled Document
 
ทำหน้าที่ ดึง Collection ที่เกี่ยวข้อง แสดง บทความ ตามที่ีมีใน collection ที่มีใน list Untitled Document
Another articles
in this topic collection

 
Editorials (บทบรรณาธิการ)
 
FORECASTING MODELS FOR MONTHLY PATIENT MOVEMENTS IN ADMISSIONS AND DISCHARGES OF RAJAVITHI HOSPITAL (ตัวแบบการพยากรณ์ การเคลื่อนไหวการรับและการจําหน่ายผู้ป่วยรายเดือน ของโรงพยาบาลราชวิถี ADMISSIONS AND DISCHARGES OF RAJAVITHI HOSPITAL)
 
Example article (บทความตัวอย่าง)
 
<More>
Untitled Document
 
This article is under
this collection.

Data Management
 
 
 
 
Copyright © 2006. Data Management & Biostatistics Journal.. All Rights Reserved
 
 
 
 

 


Warning: Unknown: Your script possibly relies on a session side-effect which existed until PHP 4.2.3. Please be advised that the session extension does not consider global variables as a source of data, unless register_globals is enabled. You can disable this functionality and this warning by setting session.bug_compat_42 or session.bug_compat_warn to off, respectively in Unknown on line 0