Untitled Document
 
 
 
 
Untitled Document
Home
Current issue
Past issues
Topic collections
Search
e-journal Editor page

Data mining in medical informatics

การทำเหมืองข้อมูลกับสารสนเทศทางการแพทย์

ปัณณวิชญ์ วงศ์วิวัฒนานนท์ 1




การทำเหมืองข้อมูล (data mining) เป็นการวิเคราะห์ค้นหาข้อมูลเพื่อสร้างองค์ความรู้ใหม่ๆ จากข้อมูลสารสนเทศมากมายมหาศาลที่มาพร้อมกับความก้าวหน้าทางเทคโนโลยี ไม่ว่าจะเป็นด้านวิทยาศาสตร์ คอมพิวเตอร์ การแพทย์ และเทคโนโลยีชีวภาพ หรือแม้แต่ข้อมูลบริการลูกค้าในองค์กรต่างๆ รวมทั้งสถานพยาบาลด้วย โดยอาศัยเทคนิคการวิเคราะห์ที่โดดเด่นซับซ้อนกว่าการวิเคราะห์ทางสถิติและการสืบค้นแบบ SQL เช่น การใช้อัลกอลิธั่มแขนงตัดสินใจ (decision tree) การจัดกลุ่ม (clustering) การจัดความสัมพันธ์ (association) ชุดเวลา (time series) การวิเคราะห์ลำดับการเกิดข้อมูล (sequence analysis)  การวิเคราะห์การเอนเอียงของข้อมูล (deviation analysis)ฯลฯ  ในทางการแพทย์ การทำเหมืองข้อมูลมีบทบาทหลายด้าน ทั้งการวินิจฉัยโรค การพยากรณ์โรค การรักษาโรค และการศึกษากลไกของโรค การทำเหมืองข้อมูลมีความพร้อมทางเทคโนโลยีที่เห็นได้จากการแข่งขันแย่งชิงตลาดโดยบริษัทยักษ์ใหญ่เช่น SAS, SPSS, IBM, Microsoft และ Oracle เป็นต้น และในอนาคตอันใกล้ เราจะได้เห็นเทคนิคการทำเหมืองข้อมูลแอบแฝงอยู่ในโปรแกรมประยุกต์ทางธุรกิจมากมายในการประมวลผลสถิติ และการนำเสนอรายงาน รวมทั้งในการใช้งานเชิงวิจัยต่างๆ ด้วย

      สารสนเทศทางชีวการแพทย์ (biomedical informatics) นับวันเป็นที่รู้จักและมีผู้ให้ความสนใจกันมากขึ้น ข้อมูลสารสนเทศเติบโตขึ้นอย่างรวดเร็วในช่วงสองทศวรรษที่ผ่านมา ข้อมูลเพื่อการวิจัยทางการแพทย์ก็ก่อกำเนิดขึ้นมากมายตามกันมา  ทั้งนี้ สืบเนื่องมาจากความก้าวหน้าทางเทคโนโลยีการแพทย์สมัยใหม่ เช่น เทคโนโลยีโมเลกุล พันธุกรรมศาสตร์ เทคนิคการจัดเรียงของยีน การจำแนกประเภทโปรตีน การถ่ายภาพทางการแพทย์ การบันทึกเวชระเบียนผู้ป่วย และข้อมูลงานวิจัยทางการแพทย์อื่นๆ อีกจำนวนมาก
       การทำเหมืองข้อมูล (data mining) ในปัจจุบันได้รับความสนใจมากขึ้นตามลำดับ  แม้ในองค์กรขนาดกลางก็มีการกล่าวอ้างถึงมากขึ้นเรื่อยๆ  ในองค์กรธุรกิจ เรามักได้ยินคำกล่าวที่ว่า “เราสมควรจัดกลุ่มลูกค้าของเราโดยอาศัยเครื่องมือจัดทำเหมืองข้อมูล” “การทำเหมืองข้อมูลจะเพิ่มความพึงพอใจให้ลูกค้าของเรา”   สำหรับองค์กรประเภทสถานพยาบาลเช่นโรงพยาบาลใหญ่เล็กขนาดต่างๆกัน บทบาทการทำเหมืองข้อมูลก็เริ่มมีมากขึ้นตามลำดับ  อย่างน้อยที่สุด คำถามที่ว่า “ผู้ป่วยที่ใช้สิทธิเบิกจ่ายประเภทไหนกำลังเป็นปัญหาใหญ่ทางการเงินของโรงพยาบาล” “โรคติดเชื้อในโรงพยาบาลชนิดใดมีแนวโน้มลุกลามเป็นปัญหาใหญ่ในอนาคต”  เป็นคำถามที่การทำเหมืองข้อมูลให้คำตอบได้ดีที่สุด
        แน่นอน เทคนิคการทำเหมืองข้อมูลเพื่อให้ได้คำตอบกับองค์กรเกี่ยวกับทิศทางการบริหารจัดการ หรือแม้แต่การทำงานวิจัยทางคลินิก ย่อมมีอยู่มากมายหลายวิธี และที่สำคัญคือ ยังมีการพัฒนาเทคนิคใหม่ๆ มากขึ้นตามลำดับ เทคนิคบางอย่างถูกนำไปใช้โดยนักสถิติซึ่งใช้สูตรคำนวณทางคณิตศาสตร์มากมาย  แต่เทคนิคบางอย่างก็มีลักษณะเฉพาะของมันเองที่แตกต่างจากการวิเคราะห์ทางสถิติอย่างสิ้นเชิง  บทความนี้ จะแนะนำให้รู้จักกับความหมายของการทำเหมืองข้อมูล  ประเภทงานในการทำเหมืองข้อมูล  เทคนิคการทำเหมืองข้อมูล  ซอฟท์แวร์การทำเหมืองข้อมูลในปัจจุบัน  และแนวโน้มใหม่ๆ ของการทำเหมืองข้อมูล  โดยจะพยายามสร้างภาพให้เห็นถึงประโยชน์ที่เกิดขึ้นในแวดวงของสารสนเทศทางการแพทย์และงานวิจัยทางคลินิก

การทำเหมืองข้อมูลคืออะไร
       การทำเหมืองข้อมูลเป็นการวิเคราะห์ข้อมูลและค้นหารูปแบบความสัมพันธ์ของข้อมูลที่ซ่อนเร้นอยู่ โดยวิธีการอัตโนมัติหรือกึ่งอัตโนมัติ  ในช่วงทศวรรษที่ผ่านมา ข้อมูลจำนวนมหาศาลถูกจัดเก็บอยู่ในระบบฐานข้อมูล  ข้อมูลเหล่านี้หลั่งไหลมาจากซอฟท์แวร์ทางธุรกิจ เช่น ซอฟท์แวร์ระบบสารสนเทศโรงพยาบาล (HIS, Hospital Information System) ซอฟท์แวร์การจัดการทรัพยากรองค์กร (ERP, Enterprise  Resource Management) ซอฟท์แวร์บริหารลูกค้าสัมพันธ์ (CRM, Customer Relationship Management) และระบบจัดเก็บการใช้งานเว็บ (Web log)  ผลจากการสั่งสมข้อมูลเหล่านี้ ก็คือ องค์กรมีข้อมูลขนาดมหึมา แต่กลับมีความรู้อันเป็นสารสนเทศที่มีประโยชน์เพียงน้อยนิด  จุดประสงค์หลักของการทำเหมืองข้อมูลก็คือ การดึงเอารูปแบบความสัมพันธ์ของข้อมูลออกมา เพิ่มคุณค่าภายในของตัวข้อมูลเอง และแปรเปลี่ยนข้อมูลไปสู่ความรู้ใหม่ๆ
       หลายคนอาจสงสัยว่า ทำไมเราจึงไม่ค้นหาความรู้เหล่านี้จากการสืบค้นข้อมูลโดยวิธีการสืบค้นแบบ SQL (SQL Queries)[1, 2] ซึ่งเป็นเครื่องมือการสืบค้นฐานข้อมูลเชิงสัมพันธ์ที่ทรงประสิทธิภาพ  หรืออีกนัยหนึ่ง คำถามก็คือว่า มีความแตกต่างอะไรระหว่างเทคโนโลยีการทำเหมืองข้อมูลกับการสืบค้นข้อมูลแบบ SQL  
       ลองดูฐานข้อมูลนักเรียนมัธยมปลายที่ตัดสินใจเรียนต่อระดับวิทยาลัย ดังรูปที่ 1 ตารางข้อมูลประกอบด้วยข้อมูลเพศ ระดับไอคิว การสนับสนุนจากผู้ปกครอง รายได้ผู้ปกครอง และความตั้งใจในการเข้าเรียนต่อระดับวิทยาลัย คำถามอยู่ตรงที่ว่า อะไรผลักดันให้ผู้จบมัธยมปลายเข้าเรียนต่อในวิทยาลัย


รูปที่ 1 ตารางข้อมูลนักเรียนมัธยม

        การค้นหาคำตอบ อาจตั้งต้นด้วยการตั้งคำถามว่า มีนักเรียนชายหญิงตัดสินใจเรียนต่อวิทยาลัยจำนวนเท่าไร ผลกระทบต่อการตัดสินใจที่มาจากการสนับสนุนของผู้ปกครองเป็นอย่างไร เด็กนักเรียนชายที่ไม่ได้รับการสนับสนุนจากผู้ปกครองมีเท่าไร เด็กนักเรียนหญิงเล่า คำถามมากมายนับร้อยต้องถูกตั้งขึ้น เพื่อค้นหาคำตอบที่เป็นไปได้ด้วยวิธีการสืบค้น SQL โดยเฉพาะอย่างยิ่ง ข้อมูลที่เป็นตัวเลขอย่างเช่นระดับไอคิว ต้องแจกแจงกี่ร้อยพันแบบเพื่อตอบโจทย์ข้อเดียวนี้
        ตรงกันข้าม วิธีการทำเหมืองข้อมูลตอบโจทย์ข้อนี้ได้ด้วยวิธีง่ายๆ สิ่งที่ต้องทำก็คือ เลือกอัลกอลิธั่มที่ถูกต้องในการทำเหมืองข้อมูล  เลือกสดมภ์ข้อมูลที่จะใช้   กำหนดให้เป็นสดมภ์ข้อมูลนำเข้าและสดมภ์ข้อมูลคาดคะเน (ซึ่งเป็นเป้าหมายของการวิเคราะห์)  โมเดลแขนงตัดสินใจ (decision tree model) ใช้ได้ดีกับการค้นหาความสำคัญของการสนับสนุนจากผู้ปกครองที่มีผลต่อการตัดสินใจเข้าเรียนต่อของนักเรียน เราจะเลือกระดับไอคิว เพศ รายได้ผู้ปกครอง และการสนับสนุนของผู้ปกครอง เป็นสดมภ์ข้อมูลนำเข้า และแผนเข้าวิทยาลัยเป็นสดมภ์คาดคะเน ในขณะที่อัลกอลิธั่มแขนงตัดสินใจทำการกวาดจับข้อมูล มันวิเคราะห์ข้อมูลนำเข้าทุกๆ ตัวที่เกี่ยวเนื่องกับเป้าหมาย แล้วแยกเอาส่วนที่มีนัยสำคัญมากที่สุดออกมา  แต่ละส่วนที่แยกออกมาแจกแจงข้อมูลเป็นสองชุดย่อยที่ส่งผลให้มีค่าเป้าหมาย(คือแผนตัดสินใจเข้าวิทยาลัย)ที่แตกต่างกันมากสุดในสองชุดนั้น ขั้นตอนนี้เกิดขึ้นซ้ำแล้วซ้ำเล่าจนกว่าแขนงการตัดสินใจนี้ถูกสร้างขึ้นเสร็จสิ้น เมื่อกระบวนการฝึกฝนข้อมูลเสร็จสมบูรณ์ เราสามารถเปิดดูรูปแบบความสัมพันธ์ของข้อมูลที่วิเคราะห์แล้วนี้ได้
         ในรูปที่ 2 แสดงแขนงการตัดสินใจสำหรับข้อมูลแผนตัดสินใจเข้าวิทยาลัย  แต่ละเส้นทางจากรากไปสู่แขนงล้วนแต่ประกอบด้วยกฏเกณฑ์ของมัน ณ ขณะนี้  เราบอกได้ว่า นักเรียนที่มีไอคิวเกินกว่า 100 และมีการสนับสนุนจากผู้ปกครอง มีความเป็นไปได้ถึงร้อยละ 94 ในการตัดสินใจเข้าเรียนต่อในวิทยาลัย  เราได้สกัดเอาความรู้ออกมาจากข้อมูลแล้ว


รูปที่ 2 Decision trees กับการตัดสินใจเข้าเรียนวิทยาลัย

       ตามตัวอย่างที่เห็นนี้ การทำเหมืองข้อมูลวิเคราะห์เนื้อหาข้อมูลโดยใช้อัลกอลิธั่มต่าง ๆ เช่น แขนงตัดสินใจ (decision tree) การจัดกลุ่ม (clustering) การจัดความสัมพันธ์ (association) ชุดเวลา (time series) ฯลฯ  การวิเคราะห์นี้ให้ผลลัพธ์เป็นรูปแบบความสัมพันธ์ต่างๆ ซึ่งช่วยให้ค้นพบสารสนเทศที่มีประโยชน์ได้ รูปแบบความสัมพันธ์เหล่านี้ อาจอยู่ในรูปแบบแขนงต้นไม้ (trees) กฎเกณฑ์ (rules)  กลุ่ม (clusters) หรือสูตรคำนวณธรรมดาๆ ขึ้นอยู่กับอัลกอลิธั่มที่นำมาใช้  สารสนเทศที่ค้นพบในรูปแบบความสัมพันธ์เหล่านี้ [3]ใช้เป็นรายงานในงานการตลาด งานการวิจัย และที่สำคัญคือ ในงานการคาดคะเน

ทำไมต้องทำเหมืองข้อมูล
       การทำเหมืองข้อมูลเป็นขั้นตอนย่อยที่สำคัญของการค้นหาความรู้ (knowledge discovering)[4, 5] อันเป็นหนึ่งในกระบวนการจัดการความรู้ (ค้นหา จัดเก็บ เผยแพร่ และนำความรู้ไปใช้)   โดยมีจุดหมายเพื่อวิเคราะห์ชุดของข้อมูลหรือสารสนเทศที่ต้องการเพื่อเสาะหารูปแบบความสัมพันธ์ของข้อมูลแบบใหม่ๆที่เป็นประโยชน์เด่นชัด[5]  เทคนิคการทำเหมืองข้อมูลถูกนำมาใช้ในการค้นหาความรู้และรูปแบบความสัมพันธ์ของข้อมูลแบบใหม่ๆ ทั้งทางชีวภาพ  การค้นคว้ายาใหม่ๆ และการดูแลรักษาผู้ป่วย โดยอาศัยวิธีการวิเคราะห์ทางสถิติ การเรียนรู้เองของเครื่องจักรยนตร์ (machine learning) และโดยวิธีการวิเคราะห์แบบเครือข่ายประสาท (neural network)   เทคนิคต่างๆ รวมถึง การวิเคราะห์แบบ Bayesian Model,  decision trees, artificial neural network และ genetic algorithm ถูกนำมาใช้ค้นหารูปแบบหรือความรู้ใหม่ๆ ที่ไม่เคยรู้มาก่อน[4]
       เหมืองข้อมูลให้ข้อมูลที่มีคุณค่าแก่องค์กรและแม้แต่งานวิจัยมากมาย  ทำไมเราถึงต้องสนใจการทำเหมืองข้อมูลเล่า ต่อไปนี้คือเหตุผลจำนวนหนึ่ง
- มีข้อมูลจำนวนมหาศาลรออยู่
- ข้อมูลมหาศาลเหล่านี้ได้ถูกจัดเก็บในคลังข้อมูล (data warehouse) อย่างดี
- มีการแข่งขันทางธุรกิจสูงขึ้น
- มีความพร้อมทางเทคโนโลยี
       ทุกๆ ธุรกิจรวมทั้งธุรกิจสถานพยาบาล ล้วนแล้วแต่เป็นธุรกิจบริการ ซึ่งปัจจุบัน ด้วยเทคโนโลยีสารสนเทศที่ก้าวหน้า  บวกกับราคาทั้งฮาร์ดแวร์และซอฟท์แวร์ที่ลดลงอย่างมากมาย ทำให้การจัดเก็บข้อมูลบริการเหล่านี้อย่างละเอียดมีความเป็นไปได้สูงสุด และที่สำคัญ ยังสามารถจัดเก็บอยู่ในระบบคลังข้อมูลที่มีประสิทธิภาพในการประมวลผลข้อมูลมหาศาลได้อย่างรวดเร็วและแม่นยำ 
กล่าวได้ว่า ปัจจุบัน ข้อมูลสารสนเทศที่จัดเก็บได้ด้วยเทคโนโลยีทันสมัย เปรียบได้กับผลผลิตอย่างหนึ่งขององค์กร ตัวอย่างผลผลิตเหล่านี้ ได้แก่ ข้อมูลสิทธิเบิกจ่ายของผู้ป่วยต่อพฤติกรรมการใช้บริการในสถานพยาบาล  ข้อมูลการติดเชื้อในโรงพยาบาลที่อาจมีอุบัติการณ์หรือแนวโน้มบางอย่างที่ผิดปกติ ข้อมูลทางคลินิกมากมายมหาศาลที่หลายคนไม่คิดว่าจะสามารถนำมาสรุปวิเคราะห์ได้  ประโยชน์มหาศาลจะเกิดขึ้นกับทั้งงานการตลาดและงานวิจัยทางคลินิก

การทำเหมืองข้อมูลในสารสนเทศทางการแพทย์
        มีการกล่าวอ้างกันมากถึงการทำเหมืองข้อมูลของสาขา bioinformatics (สารสนเทศทางชีวภาพที่เกี่ยวกับการประมวลผลข้อมูลพันธุกรรมเป็นส่วนใหญ่)[6]  แต่สำหรับการทำเหมืองข้อมูลกับสารสนเทศทางสุขภาพหรือทางการแพทย์ (Health/Medical Informatics) ยังคงเป็นเรื่องใหม่มากๆ  นักวิจัยในการทำเหมืองข้อมูลเริ่มให้ความสนใจมากขึ้น โดยเหตุผลสำคัญคือแนวโน้มการแพทย์ที่เป็นส่วนบุคคลมากขึ้น (personalized medicine) ที่มุ่งไปที่การค้นหาการรักษาและมาตรการป้องกันส่วนบุคคล แหล่งข้อมูลที่สำคัญในการทำเหมืองข้อมูลยังคงมาจากความก้าวหน้าทางเทคโนโลยีชีวภาพ เช่น SNP (Single Nucleotide Polymorphisms) chips การทำ DNA profiling จาก CGH array (Comparative Genomic Hybridization) และการทำ  mass spectrometry สำหรับ peptide/protein & metabolite quantitation
       เราอาจแบ่งงานทำเหมืองข้อมูลทางการแพทย์ออกได้เป็น 4 ด้านดังนี้
1. งานวินิจฉัยโรค  เพื่อวิเคราะห์ว่าผู้ป่วยเจ็บป่วยจากภาวะทางการแพทย์อะไรบ้าง เช่น การวินิจฉัยผู้ป่วยมะเร็งปอดและช่องปากระยะแรกเป็นเรื่องยากหากกระทำโดยวิธีทางการแพทย์ตามปกติ การใช้ข้อมูลทางพันธุศาสตร์ช่วยได้มากในการวินิจฉัยที่รวดเร็วขึ้น รวมทั้งความแม่นยำในการวินิจฉัยด้วย
2. การพยากรณ์โรค  เพื่อคาดคะเนว่าผู้ป่วยจะหายเจ็บป่วยได้ดีขนาดไหน และโรคจะดำเนินไปอย่างไรตามระยะเวลา  เช่น การใช้ biomarker ในการคาดคะเนว่า อวัยวะที่ปลูกถ่ายสามารถทนอยู่ในร่างกายของผู้รับได้นานเท่าใด
3. การรักษาที่เหมาะสม เพื่อคาดคะเนผลการรักษาโรค  เช่น การใช้  biomarker ในการคาดคะเนว่าการรักษาทางเคมีบำบัดได้ผลอย่างไร
4. การทำความเข้าใจเกี่ยวกับกลไกโรค  เพื่อให้เกิดแนวคิดหรือความรู้ใหม่เกี่ยวกับสาเหตุการเกิดโรค  เช่น การวิจัยเกี่ยวกับ  signaling pathway ในระหว่างการติดเชื้อไวรัส เป็นต้น

ประเภทงานในการทำเหมืองข้อมูล
        การทำเหมืองข้อมูลนำมาใช้แก้ปัญหานับร้อยทางธุรกิจ ไม่ว่าจะเป็นการวิเคราะห์กลุ่มลูกค้า  การเสนอหรือการให้คำแนะนำเพิ่มเติมแก่ลูกค้า การค้นหาความผิดปกติของชุดข้อมูลโดยเฉพาะที่เกี่ยวกับการเงิน  การจัดทำระดับความเสี่ยงในการจัดการความเสี่ยง  การพยากรณ์หรือคาดคะเนแนวโน้มที่จะเกิดขึ้น  เราสามารถแบ่งประเภทงานในการทำเหมืองข้อมูลได้หลายแบบ โดยขึ้นกับธรรมชาติของปัญหาเหล่านี้
        การแบ่งกลุ่ม (Classification) เป็นลักษณะงานที่รู้จักกันดีในการทำเหมืองข้อมูล  ไม่ว่าจะเป็นการวิเคราะห์กลุ่มลูกค้า การบริหารความเสี่ยง หรือการหาข้อมูลการตลาด ล้วนใช้วิธีนี้ทั้งสิ้น กล่าวได้ว่า การแบ่งกลุ่มเป็นงานทำเหมืองข้อมูลประเภทที่มีการชี้นำ (supervised)
        การจัดกลุ่ม (Clustering) เป็นการจัดกลุ่มโดยธรรมชาติ โดยขึ้นกับชุดข้อมูลที่ความความคล้ายหรือความต่างกันมากที่สุด (รูปที่ 3)  งานเหมืองข้อมูลประเภทนี้ถือได้ว่าเป็นประเภทงานที่ไม่มีการชี้นำ (unsupervised)


 
รูปที่ 3 เทคนิคการจัดกลุ่ม (clustering)


         การจัดความสัมพันธ์ (Association) เป็นการวิเคราะห์ความสัมพันธ์ของกลุ่มข้อมูลที่เกิดขึ้นบ่อยๆ (รูปที่ 4)
         การถดถอย (Regression)  งานนี้คล้ายๆ กับการแบ่งกลุ่ม ข้อแตกต่างที่ชัดเจนคือค่าคาดคะเนเป็นจำนวนเลขต่อเนื่อง เทคนิคสมการถดถอยมีการศึกษาและใช้กันมากในทางสถิติ  ทั้งการถดถอยแบบเส้นตรง และการถดถอยแบบลอจิสติค เป็นวิธีที่นิยมมากที่สุด  เทคนิคอื่นๆ ได้แก่ การใช้แขนงการตัดสินใจ และวิธีเครือข่ายประสาท (neural network) วิธีนี้ช่วยให้เกิดการคาดคะเนของข้อมูลที่จะเกิดขึ้น
         การพยากรณ์ (Focasting) ข้อมูลการแพทย์โดยส่วนใหญ่เป็นข้อมูลที่กำกับด้วยเวลา  ชุดข้อมูลเวลานี่เองที่ช่วยให้พยากรณ์สิ่งที่จะเกิดขึ้นจากการวิเคราะห์ข้อมูลที่มีอยู่ได้
         การวิเคราะห์ลำดับการเกิดข้อมูล (Sequence Analysis) ใช้ค้นหารูปแบบความสัมพันธ์ของข้อมูลที่เกิดขึ้นแยกกัน เช่น ข้อมูลในสาย DNA 4 สายแยกกัน  ข้อมูลพฤติกรรมลำดับการใช้บริการของลูกค้า 
 


 
รูปที่ 4 เทคนิคความสัมพันธ์ (Asssociation)
 
          การวิเคราะห์การเอนเอียงของข้อมูล (Deviation Analysis) ใช้สำหรับค้นหากลุ่มข้อมูลจำนวนน้อยมากที่เป็นกรณีที่ประพฤติผิดแผกอย่างมากจากกลุ่มทั่วไป  เป็นการตรวจจับการเปลี่ยนแปลงอย่างมีนัยสำคัญจากรูปแบบพฤติกรรมเดิมๆ ของข้อมูล

เทคนิคการทำเหมืองข้อมูล
        ถึงแม้การทำเหมืองข้อมูลดูเหมือนจะเป็นเรื่องใหม่  แต่เทคนิคการทำเหมืองข้อมูลก็เกิดขึ้นมาหลายปีแล้ว  ถ้าพิจารณาจากรากฐานอัลกอลิธั่มการทำเหมืองข้อมูลที่เป็นที่นิยม เราพบว่าโดยส่วนใหญ่มีต้นกำเนิดมาจากงาน 3 ส่วน คือ สถิติศาสตร์  การเรียนรู้ของเครื่องจักรยนตร์ (machine learning)  และฐานข้อมูล
        งานเหมืองข้อมูล โดยส่วนใหญ่ที่กล่าวถึงนั้น เป็นงานในขอบข่ายวิชาสถิติ  อัลกอลิธั่มจำนวนหนึ่งค้นพบโดยนักสถิติ ไม่ว่าจะเป็นเทคนิคการถดถอย (regression) ชุดเวลา (time series, รูปที่ 5) หรือแขนงตัดสินใจ (decision trees)  เทคนิคการถดถอยมีมานับศตวรรษ อัลกอลิธั่มชุดเวลาก็มีมานับทศวรรษ ส่วนแขนงตัดสินใจนับว่ายังใหม่อยู่ คือเกิดขึ้นในช่วงกลางทศวรรษ 1980


รูปที่ 5 เทคนิคชุดข้อมูลเวลา (time series)

        การทำเหมืองข้อมูลมุ่งไปที่การค้นพบรูปแบบความสัมพันธ์แบบอัตโนมัติหรือกึ่งอัตโนมัติ   อัลกอลิธั่มการเรียนรู้ของเครื่องจักรยนตร์มากมายถูกนำมาใช้  การทำเครือข่ายประสาท (neural network) เป็นหนึ่งในเทคนิคนั้นและใช้ได้อย่างยอดเยี่ยมกับการแบ่งกลุ่ม การถดถอย โดยเฉพาะอย่างยิ่งเมื่อความสัมพันธ์ของข้อมูลเหล่านั้นเป็นแบบ nonlinear  อีกเทคนิคหนึ่งคือ อัลกอลิธั่มทางยีน (genetic algorithm) มันเลียนแบบกระบวนการปรับตัวโดยธรรมชาติ โดยทำงานกับชุดสมการการอยู่รอดที่เหมาะสมที่สุด มันใช้งานได้ดีทั้งในงานการแบ่งกลุ่มและการจัดกลุ่ม หรืออาจใช้ช่วยงานเครือข่ายประสาทในการหาชุดน้ำหนักที่ดีที่สุดของหน่วยประสาท
        ระบบฐานข้อมูลเป็นเทคนิคแหล่งที่สามของการทำเหมืองข้อมูล  วิชาสถิติแบบดั้งเดิมเชื่อว่าข้อมูลทั้งหมดสามารถป้อนเข้าสู่หน่วยความจำเพื่อการประมวลผลทางสถิติ  โชคไม่ดี ที่อาจไม่เป็นความจริงในโลกปัจจุบัน  ผู้เชี่ยวชาญฐานข้อมูลรู้วิธีหากฏเกณฑ์ความสัมพันธ์จากตารางข้อมูลหลักที่ประกอบด้วยข้อมูลนับล้านๆ ระเบียน  และโดยความเป็นจริง  อัลกอลิธั่มการหาความสัมพันธ์ (association algorithm) ที่มีประสิทธิภาพที่สุดมาจากชุมชนวิจัยฐานข้อมูล  นอกจากนี้ ยังมีอัลกอลิธั่มการแบ่งกลุ่ม และการจัดกลุ่ม บางส่วนที่ใช้เทคนิคฐานข้อมูลเช่นกัน

ซอฟท์แวร์การทำเหมืองข้อมูลในตลาดปัจจุบัน
       มีบริษัทผู้ผลิตซอฟท์แวร์การทำเหมืองข้อมูลมากนับร้อยแล้วในปัจจุบัน รายชื่อบริษัทเหล่านี้หาอ่านได้จากฐานข้อมูลของ KDNuggets (kdnuggets.com) ต่อไปนี้เป็นตัวอย่างเพียงบางส่วนที่มีชื่อเสียง
       SAS:  SAS มีส่วนแบ่งตลาดซอฟท์แวร์ทำเหมืองข้อมูลที่ค่อนข้างใหญ่    SAS อยู่ในแวดวงทางสถิติมานับสิบปี  มีฟังก์ชั่นการคำนวณทางสถิติจำนวนมากในการวิเคราะห์ข้อมูล    SAS Enterprise Miner เริ่มนำมาใช้งานในปี ค.ศ.1997  ผู้ใช้สามารถวาดภาพกราฟิกในการสร้างโมเดล และมีอัลกอลิธั่มจำนวนหนึ่งให้ใช้งาน  เช่น  แขนงตัดสินใจ  เครือข่ายประสาท  การถดถอย  ความสัมพันธ์ ฯลฯ
       SPSS:  เป็นยักษ์ใหญ่ทางสถิติบริษัทหนึ่ง   หลังจากรวบกิจการบริษัท ISL จากสหราขอาณาจักรอังกฤษมาแล้ว ก็ผนวก SPSS เข้ากับชุดโปรแกรมทำเหมืองข้อมูลที่ชื่อว่า Clementine โดยเป็นบริษัทแรกๆ ที่แนะนำการใช้แนวคิดการไหลวนของงานเหมืองข้อมูล  คือให้ผู้ใช้ปรับแต่งข้อมูล แปลงข้อมูล และฝึกฝนโมเดลในสภาพแวดล้อมการทำงานอันเดียวกัน
       IBM: Intelligent Miner มีชุดอัลกอลิธั่มและเครื่องมือที่ใช้งานง่ายๆ สามารถส่งออกโมเดลทำเหมืองข้อมูลเป็นภาษา Predictive Modeling Markup Language (PMML) ซึ่งกำหนดขึ้นเป็นมาตรฐานโดย Data Mining Group (DMG)
       Microsoft:  เป็นบริษัทแรกๆ ที่รวมความสามารถในการทำเหมืองข้อมูลเข้ากับระบบฐานข้อมูลเชิงสัมพันธ์  สร้างมาตรฐาน OLE DB สำหรับการทำเหมืองข้อมูล  มีอัลกอลิธั่มให้ใช้งานหลายแบบ เช่น Naïve Bayes, decion trees, time series, clustering, sequence clustering, association rules และ neural network
        Oracle:  สร้างมาตรฐาน Java Data Mining API มีอัลกอลิธั่มให้ใช้มากขึ้นแล้วในเวอร์ชั่นปัจจุบัน

แนวโน้มในการทำเหมืองข้อมูล
        จากศักยภาพทางเทคโนโลยีทั้งด้านฮาร์ดแวร์และซอฟท์แวร์ กล่าวได้ว่า  การทำเหมืองข้อมูลในปัจุบันไม่จำกัดเฉพาะในองค์กรขนาดใหญ่เท่านั้น  องค์กรขนาดกลาง เช่น สถานพยาบาล ก็สามารถใช้ศักยภาพการทำเหมืองข้อมูลนี้ได้ แนวโน้มที่สำคัญประการสำคัญก็คือ ในโปรแกรมประยุกต์ต่างๆ จะมีเทคนิคการทำเหมืองข้อมูลติดตั้งซ่อนเร้นอยู่  การวิเคราะห์ทางสถิติ การคาดคะเน การพยากรณ์ที่ใช้เทคนิคนี้จะมีอยู่ในโปรแกรมประยุกต์ทั่วไปมากขึ้นตามลำดับ และในที่สุด ภาษา PMML จะเป็นมาตรฐานสำหรับการแลกเปลี่ยนข้อมูลในการจัดทำเหมืองข้อมูล

สรุป
        การทำเหมืองข้อมูลแม้ดูเป็นเรื่องใหม่ แต่มีการนำมาใช้ประโยชน์ในองค์กรขนาดกลางกันมากขึ้น ซึ่งรวมถึงสถานพยาบาลด้วย ข้อมูลจำนวนมหาศาลทั้งที่เป็นข้อมูลบริการและข้อมูลทางคลินิก สามารถจัดเก็บขึ้นเป็นคลังข้อมูล เลือกใช้โมเดลการจัดทำเหมืองข้อมูลและเทคนิคที่เหมาะสม ไม่ว่าจะเป็นเทคนิคแขนงตัดสินใจ การแบ่งกลุ่ม การจัดกลุ่ม การถดถอย ความสัมพันธ์ การพยากรณ์ การตรวจจับการเอนเอียง เป็นต้น แล้วนำเอารูปแบบความสัมพันธ์ที่เป็นผลลัพธ์จากการทำเหมืองข้อมูลมาสรุปหาความรู้ใหม่ๆ ที่เกิดขึ้นกับองค์กร  คุณูปการจากการทำเหมืองข้อมูลจะเกิดขึ้นทั้งในขอบข่ายงานการตลาดและงานวิจัยขององค์กร

เอกสารอ้างอิง
1. Tang, Z. and J. MacLennan, Data Mining with SQL Server 2005. 2005, New York: Wiley&Son
2.  Medical Informatics: Knowledge Management and Data Mining in Biomedicine. Integrated Series in Information Systems, ed. H.F. Chen, S.S.; Friedman, C.; Hersh, W. (Eds.) Vol. Vol. 8
3. Ng, R.T. and J. Pei Special Issue: Data Mining for Health Informatics, in ACM SIGKDD  Exploration.
4. Chen , H., et al., Medical Informatics: Knowledge discovery and data mining in medical informatics 2005, Springer: New York.
5. Fayyad, U.M., G. Piatetsky-Shapiro, and P. Smyth, Advances in Knowledge Discovery and Data Mining 1996: AAAI/MIT Press
6. Pardalos, P.M., Data Mining in Biomedicine. 1 ed. Springer Optimization and Its Applications. 2007: Springer


 

Untitled Document
Article Location
Volume 4 Number 2

Untitled Document
Article Option
       Abstract
       Fulltext
       PDF File
Untitled Document
 
ทำหน้าที่ ดึง Collection ที่เกี่ยวข้อง แสดง บทความ ตามที่ีมีใน collection ที่มีใน list Untitled Document
Another articles
in this topic collection

 
Editorials (บทบรรณาธิการ)
 
FORECASTING MODELS FOR MONTHLY PATIENT MOVEMENTS IN ADMISSIONS AND DISCHARGES OF RAJAVITHI HOSPITAL (ตัวแบบการพยากรณ์ การเคลื่อนไหวการรับและการจําหน่ายผู้ป่วยรายเดือน ของโรงพยาบาลราชวิถี ADMISSIONS AND DISCHARGES OF RAJAVITHI HOSPITAL)
 
Example article (บทความตัวอย่าง)
 
<More>
Untitled Document
 
This article is under
this collection.

Data Management
 
 
 
 
Copyright © 2006. Data Management & Biostatistics Journal.. All Rights Reserved
 
 
 
 

 


Warning: Unknown: Your script possibly relies on a session side-effect which existed until PHP 4.2.3. Please be advised that the session extension does not consider global variables as a source of data, unless register_globals is enabled. You can disable this functionality and this warning by setting session.bug_compat_42 or session.bug_compat_warn to off, respectively in Unknown on line 0