สารสนเทศทางชีวการแพทย์ (biomedical informatics) นับวันเป็นที่รู้จักและมีผู้ให้ความสนใจกันมากขึ้น ข้อมูลสารสนเทศเติบโตขึ้นอย่างรวดเร็วในช่วงสองทศวรรษที่ผ่านมา ข้อมูลเพื่อการวิจัยทางการแพทย์ก็ก่อกำเนิดขึ้นมากมายตามกันมา ทั้งนี้ สืบเนื่องมาจากความก้าวหน้าทางเทคโนโลยีการแพทย์สมัยใหม่ เช่น เทคโนโลยีโมเลกุล พันธุกรรมศาสตร์ เทคนิคการจัดเรียงของยีน การจำแนกประเภทโปรตีน การถ่ายภาพทางการแพทย์ การบันทึกเวชระเบียนผู้ป่วย และข้อมูลงานวิจัยทางการแพทย์อื่นๆ อีกจำนวนมาก การทำเหมืองข้อมูล (data mining) ในปัจจุบันได้รับความสนใจมากขึ้นตามลำดับ แม้ในองค์กรขนาดกลางก็มีการกล่าวอ้างถึงมากขึ้นเรื่อยๆ ในองค์กรธุรกิจ เรามักได้ยินคำกล่าวที่ว่า เราสมควรจัดกลุ่มลูกค้าของเราโดยอาศัยเครื่องมือจัดทำเหมืองข้อมูล การทำเหมืองข้อมูลจะเพิ่มความพึงพอใจให้ลูกค้าของเรา สำหรับองค์กรประเภทสถานพยาบาลเช่นโรงพยาบาลใหญ่เล็กขนาดต่างๆกัน บทบาทการทำเหมืองข้อมูลก็เริ่มมีมากขึ้นตามลำดับ อย่างน้อยที่สุด คำถามที่ว่า ผู้ป่วยที่ใช้สิทธิเบิกจ่ายประเภทไหนกำลังเป็นปัญหาใหญ่ทางการเงินของโรงพยาบาล โรคติดเชื้อในโรงพยาบาลชนิดใดมีแนวโน้มลุกลามเป็นปัญหาใหญ่ในอนาคต เป็นคำถามที่การทำเหมืองข้อมูลให้คำตอบได้ดีที่สุด แน่นอน เทคนิคการทำเหมืองข้อมูลเพื่อให้ได้คำตอบกับองค์กรเกี่ยวกับทิศทางการบริหารจัดการ หรือแม้แต่การทำงานวิจัยทางคลินิก ย่อมมีอยู่มากมายหลายวิธี และที่สำคัญคือ ยังมีการพัฒนาเทคนิคใหม่ๆ มากขึ้นตามลำดับ เทคนิคบางอย่างถูกนำไปใช้โดยนักสถิติซึ่งใช้สูตรคำนวณทางคณิตศาสตร์มากมาย แต่เทคนิคบางอย่างก็มีลักษณะเฉพาะของมันเองที่แตกต่างจากการวิเคราะห์ทางสถิติอย่างสิ้นเชิง บทความนี้ จะแนะนำให้รู้จักกับความหมายของการทำเหมืองข้อมูล ประเภทงานในการทำเหมืองข้อมูล เทคนิคการทำเหมืองข้อมูล ซอฟท์แวร์การทำเหมืองข้อมูลในปัจจุบัน และแนวโน้มใหม่ๆ ของการทำเหมืองข้อมูล โดยจะพยายามสร้างภาพให้เห็นถึงประโยชน์ที่เกิดขึ้นในแวดวงของสารสนเทศทางการแพทย์และงานวิจัยทางคลินิก
การทำเหมืองข้อมูลคืออะไร การทำเหมืองข้อมูลเป็นการวิเคราะห์ข้อมูลและค้นหารูปแบบความสัมพันธ์ของข้อมูลที่ซ่อนเร้นอยู่ โดยวิธีการอัตโนมัติหรือกึ่งอัตโนมัติ ในช่วงทศวรรษที่ผ่านมา ข้อมูลจำนวนมหาศาลถูกจัดเก็บอยู่ในระบบฐานข้อมูล ข้อมูลเหล่านี้หลั่งไหลมาจากซอฟท์แวร์ทางธุรกิจ เช่น ซอฟท์แวร์ระบบสารสนเทศโรงพยาบาล (HIS, Hospital Information System) ซอฟท์แวร์การจัดการทรัพยากรองค์กร (ERP, Enterprise Resource Management) ซอฟท์แวร์บริหารลูกค้าสัมพันธ์ (CRM, Customer Relationship Management) และระบบจัดเก็บการใช้งานเว็บ (Web log) ผลจากการสั่งสมข้อมูลเหล่านี้ ก็คือ องค์กรมีข้อมูลขนาดมหึมา แต่กลับมีความรู้อันเป็นสารสนเทศที่มีประโยชน์เพียงน้อยนิด จุดประสงค์หลักของการทำเหมืองข้อมูลก็คือ การดึงเอารูปแบบความสัมพันธ์ของข้อมูลออกมา เพิ่มคุณค่าภายในของตัวข้อมูลเอง และแปรเปลี่ยนข้อมูลไปสู่ความรู้ใหม่ๆ หลายคนอาจสงสัยว่า ทำไมเราจึงไม่ค้นหาความรู้เหล่านี้จากการสืบค้นข้อมูลโดยวิธีการสืบค้นแบบ SQL (SQL Queries)[1, 2] ซึ่งเป็นเครื่องมือการสืบค้นฐานข้อมูลเชิงสัมพันธ์ที่ทรงประสิทธิภาพ หรืออีกนัยหนึ่ง คำถามก็คือว่า มีความแตกต่างอะไรระหว่างเทคโนโลยีการทำเหมืองข้อมูลกับการสืบค้นข้อมูลแบบ SQL ลองดูฐานข้อมูลนักเรียนมัธยมปลายที่ตัดสินใจเรียนต่อระดับวิทยาลัย ดังรูปที่ 1 ตารางข้อมูลประกอบด้วยข้อมูลเพศ ระดับไอคิว การสนับสนุนจากผู้ปกครอง รายได้ผู้ปกครอง และความตั้งใจในการเข้าเรียนต่อระดับวิทยาลัย คำถามอยู่ตรงที่ว่า อะไรผลักดันให้ผู้จบมัธยมปลายเข้าเรียนต่อในวิทยาลัย
 รูปที่ 1 ตารางข้อมูลนักเรียนมัธยม
การค้นหาคำตอบ อาจตั้งต้นด้วยการตั้งคำถามว่า มีนักเรียนชายหญิงตัดสินใจเรียนต่อวิทยาลัยจำนวนเท่าไร ผลกระทบต่อการตัดสินใจที่มาจากการสนับสนุนของผู้ปกครองเป็นอย่างไร เด็กนักเรียนชายที่ไม่ได้รับการสนับสนุนจากผู้ปกครองมีเท่าไร เด็กนักเรียนหญิงเล่า คำถามมากมายนับร้อยต้องถูกตั้งขึ้น เพื่อค้นหาคำตอบที่เป็นไปได้ด้วยวิธีการสืบค้น SQL โดยเฉพาะอย่างยิ่ง ข้อมูลที่เป็นตัวเลขอย่างเช่นระดับไอคิว ต้องแจกแจงกี่ร้อยพันแบบเพื่อตอบโจทย์ข้อเดียวนี้ ตรงกันข้าม วิธีการทำเหมืองข้อมูลตอบโจทย์ข้อนี้ได้ด้วยวิธีง่ายๆ สิ่งที่ต้องทำก็คือ เลือกอัลกอลิธั่มที่ถูกต้องในการทำเหมืองข้อมูล เลือกสดมภ์ข้อมูลที่จะใช้ กำหนดให้เป็นสดมภ์ข้อมูลนำเข้าและสดมภ์ข้อมูลคาดคะเน (ซึ่งเป็นเป้าหมายของการวิเคราะห์) โมเดลแขนงตัดสินใจ (decision tree model) ใช้ได้ดีกับการค้นหาความสำคัญของการสนับสนุนจากผู้ปกครองที่มีผลต่อการตัดสินใจเข้าเรียนต่อของนักเรียน เราจะเลือกระดับไอคิว เพศ รายได้ผู้ปกครอง และการสนับสนุนของผู้ปกครอง เป็นสดมภ์ข้อมูลนำเข้า และแผนเข้าวิทยาลัยเป็นสดมภ์คาดคะเน ในขณะที่อัลกอลิธั่มแขนงตัดสินใจทำการกวาดจับข้อมูล มันวิเคราะห์ข้อมูลนำเข้าทุกๆ ตัวที่เกี่ยวเนื่องกับเป้าหมาย แล้วแยกเอาส่วนที่มีนัยสำคัญมากที่สุดออกมา แต่ละส่วนที่แยกออกมาแจกแจงข้อมูลเป็นสองชุดย่อยที่ส่งผลให้มีค่าเป้าหมาย(คือแผนตัดสินใจเข้าวิทยาลัย)ที่แตกต่างกันมากสุดในสองชุดนั้น ขั้นตอนนี้เกิดขึ้นซ้ำแล้วซ้ำเล่าจนกว่าแขนงการตัดสินใจนี้ถูกสร้างขึ้นเสร็จสิ้น เมื่อกระบวนการฝึกฝนข้อมูลเสร็จสมบูรณ์ เราสามารถเปิดดูรูปแบบความสัมพันธ์ของข้อมูลที่วิเคราะห์แล้วนี้ได้ ในรูปที่ 2 แสดงแขนงการตัดสินใจสำหรับข้อมูลแผนตัดสินใจเข้าวิทยาลัย แต่ละเส้นทางจากรากไปสู่แขนงล้วนแต่ประกอบด้วยกฏเกณฑ์ของมัน ณ ขณะนี้ เราบอกได้ว่า นักเรียนที่มีไอคิวเกินกว่า 100 และมีการสนับสนุนจากผู้ปกครอง มีความเป็นไปได้ถึงร้อยละ 94 ในการตัดสินใจเข้าเรียนต่อในวิทยาลัย เราได้สกัดเอาความรู้ออกมาจากข้อมูลแล้ว
 รูปที่ 2 Decision trees กับการตัดสินใจเข้าเรียนวิทยาลัย
ตามตัวอย่างที่เห็นนี้ การทำเหมืองข้อมูลวิเคราะห์เนื้อหาข้อมูลโดยใช้อัลกอลิธั่มต่าง ๆ เช่น แขนงตัดสินใจ (decision tree) การจัดกลุ่ม (clustering) การจัดความสัมพันธ์ (association) ชุดเวลา (time series) ฯลฯ การวิเคราะห์นี้ให้ผลลัพธ์เป็นรูปแบบความสัมพันธ์ต่างๆ ซึ่งช่วยให้ค้นพบสารสนเทศที่มีประโยชน์ได้ รูปแบบความสัมพันธ์เหล่านี้ อาจอยู่ในรูปแบบแขนงต้นไม้ (trees) กฎเกณฑ์ (rules) กลุ่ม (clusters) หรือสูตรคำนวณธรรมดาๆ ขึ้นอยู่กับอัลกอลิธั่มที่นำมาใช้ สารสนเทศที่ค้นพบในรูปแบบความสัมพันธ์เหล่านี้ [3]ใช้เป็นรายงานในงานการตลาด งานการวิจัย และที่สำคัญคือ ในงานการคาดคะเน
ทำไมต้องทำเหมืองข้อมูล การทำเหมืองข้อมูลเป็นขั้นตอนย่อยที่สำคัญของการค้นหาความรู้ (knowledge discovering)[4, 5] อันเป็นหนึ่งในกระบวนการจัดการความรู้ (ค้นหา จัดเก็บ เผยแพร่ และนำความรู้ไปใช้) โดยมีจุดหมายเพื่อวิเคราะห์ชุดของข้อมูลหรือสารสนเทศที่ต้องการเพื่อเสาะหารูปแบบความสัมพันธ์ของข้อมูลแบบใหม่ๆที่เป็นประโยชน์เด่นชัด[5] เทคนิคการทำเหมืองข้อมูลถูกนำมาใช้ในการค้นหาความรู้และรูปแบบความสัมพันธ์ของข้อมูลแบบใหม่ๆ ทั้งทางชีวภาพ การค้นคว้ายาใหม่ๆ และการดูแลรักษาผู้ป่วย โดยอาศัยวิธีการวิเคราะห์ทางสถิติ การเรียนรู้เองของเครื่องจักรยนตร์ (machine learning) และโดยวิธีการวิเคราะห์แบบเครือข่ายประสาท (neural network) เทคนิคต่างๆ รวมถึง การวิเคราะห์แบบ Bayesian Model, decision trees, artificial neural network และ genetic algorithm ถูกนำมาใช้ค้นหารูปแบบหรือความรู้ใหม่ๆ ที่ไม่เคยรู้มาก่อน[4] เหมืองข้อมูลให้ข้อมูลที่มีคุณค่าแก่องค์กรและแม้แต่งานวิจัยมากมาย ทำไมเราถึงต้องสนใจการทำเหมืองข้อมูลเล่า ต่อไปนี้คือเหตุผลจำนวนหนึ่ง - มีข้อมูลจำนวนมหาศาลรออยู่ - ข้อมูลมหาศาลเหล่านี้ได้ถูกจัดเก็บในคลังข้อมูล (data warehouse) อย่างดี - มีการแข่งขันทางธุรกิจสูงขึ้น - มีความพร้อมทางเทคโนโลยี ทุกๆ ธุรกิจรวมทั้งธุรกิจสถานพยาบาล ล้วนแล้วแต่เป็นธุรกิจบริการ ซึ่งปัจจุบัน ด้วยเทคโนโลยีสารสนเทศที่ก้าวหน้า บวกกับราคาทั้งฮาร์ดแวร์และซอฟท์แวร์ที่ลดลงอย่างมากมาย ทำให้การจัดเก็บข้อมูลบริการเหล่านี้อย่างละเอียดมีความเป็นไปได้สูงสุด และที่สำคัญ ยังสามารถจัดเก็บอยู่ในระบบคลังข้อมูลที่มีประสิทธิภาพในการประมวลผลข้อมูลมหาศาลได้อย่างรวดเร็วและแม่นยำ กล่าวได้ว่า ปัจจุบัน ข้อมูลสารสนเทศที่จัดเก็บได้ด้วยเทคโนโลยีทันสมัย เปรียบได้กับผลผลิตอย่างหนึ่งขององค์กร ตัวอย่างผลผลิตเหล่านี้ ได้แก่ ข้อมูลสิทธิเบิกจ่ายของผู้ป่วยต่อพฤติกรรมการใช้บริการในสถานพยาบาล ข้อมูลการติดเชื้อในโรงพยาบาลที่อาจมีอุบัติการณ์หรือแนวโน้มบางอย่างที่ผิดปกติ ข้อมูลทางคลินิกมากมายมหาศาลที่หลายคนไม่คิดว่าจะสามารถนำมาสรุปวิเคราะห์ได้ ประโยชน์มหาศาลจะเกิดขึ้นกับทั้งงานการตลาดและงานวิจัยทางคลินิก
การทำเหมืองข้อมูลในสารสนเทศทางการแพทย์ มีการกล่าวอ้างกันมากถึงการทำเหมืองข้อมูลของสาขา bioinformatics (สารสนเทศทางชีวภาพที่เกี่ยวกับการประมวลผลข้อมูลพันธุกรรมเป็นส่วนใหญ่)[6] แต่สำหรับการทำเหมืองข้อมูลกับสารสนเทศทางสุขภาพหรือทางการแพทย์ (Health/Medical Informatics) ยังคงเป็นเรื่องใหม่มากๆ นักวิจัยในการทำเหมืองข้อมูลเริ่มให้ความสนใจมากขึ้น โดยเหตุผลสำคัญคือแนวโน้มการแพทย์ที่เป็นส่วนบุคคลมากขึ้น (personalized medicine) ที่มุ่งไปที่การค้นหาการรักษาและมาตรการป้องกันส่วนบุคคล แหล่งข้อมูลที่สำคัญในการทำเหมืองข้อมูลยังคงมาจากความก้าวหน้าทางเทคโนโลยีชีวภาพ เช่น SNP (Single Nucleotide Polymorphisms) chips การทำ DNA profiling จาก CGH array (Comparative Genomic Hybridization) และการทำ mass spectrometry สำหรับ peptide/protein & metabolite quantitation เราอาจแบ่งงานทำเหมืองข้อมูลทางการแพทย์ออกได้เป็น 4 ด้านดังนี้ 1. งานวินิจฉัยโรค เพื่อวิเคราะห์ว่าผู้ป่วยเจ็บป่วยจากภาวะทางการแพทย์อะไรบ้าง เช่น การวินิจฉัยผู้ป่วยมะเร็งปอดและช่องปากระยะแรกเป็นเรื่องยากหากกระทำโดยวิธีทางการแพทย์ตามปกติ การใช้ข้อมูลทางพันธุศาสตร์ช่วยได้มากในการวินิจฉัยที่รวดเร็วขึ้น รวมทั้งความแม่นยำในการวินิจฉัยด้วย 2. การพยากรณ์โรค เพื่อคาดคะเนว่าผู้ป่วยจะหายเจ็บป่วยได้ดีขนาดไหน และโรคจะดำเนินไปอย่างไรตามระยะเวลา เช่น การใช้ biomarker ในการคาดคะเนว่า อวัยวะที่ปลูกถ่ายสามารถทนอยู่ในร่างกายของผู้รับได้นานเท่าใด 3. การรักษาที่เหมาะสม เพื่อคาดคะเนผลการรักษาโรค เช่น การใช้ biomarker ในการคาดคะเนว่าการรักษาทางเคมีบำบัดได้ผลอย่างไร 4. การทำความเข้าใจเกี่ยวกับกลไกโรค เพื่อให้เกิดแนวคิดหรือความรู้ใหม่เกี่ยวกับสาเหตุการเกิดโรค เช่น การวิจัยเกี่ยวกับ signaling pathway ในระหว่างการติดเชื้อไวรัส เป็นต้น
ประเภทงานในการทำเหมืองข้อมูล การทำเหมืองข้อมูลนำมาใช้แก้ปัญหานับร้อยทางธุรกิจ ไม่ว่าจะเป็นการวิเคราะห์กลุ่มลูกค้า การเสนอหรือการให้คำแนะนำเพิ่มเติมแก่ลูกค้า การค้นหาความผิดปกติของชุดข้อมูลโดยเฉพาะที่เกี่ยวกับการเงิน การจัดทำระดับความเสี่ยงในการจัดการความเสี่ยง การพยากรณ์หรือคาดคะเนแนวโน้มที่จะเกิดขึ้น เราสามารถแบ่งประเภทงานในการทำเหมืองข้อมูลได้หลายแบบ โดยขึ้นกับธรรมชาติของปัญหาเหล่านี้ การแบ่งกลุ่ม (Classification) เป็นลักษณะงานที่รู้จักกันดีในการทำเหมืองข้อมูล ไม่ว่าจะเป็นการวิเคราะห์กลุ่มลูกค้า การบริหารความเสี่ยง หรือการหาข้อมูลการตลาด ล้วนใช้วิธีนี้ทั้งสิ้น กล่าวได้ว่า การแบ่งกลุ่มเป็นงานทำเหมืองข้อมูลประเภทที่มีการชี้นำ (supervised) การจัดกลุ่ม (Clustering) เป็นการจัดกลุ่มโดยธรรมชาติ โดยขึ้นกับชุดข้อมูลที่ความความคล้ายหรือความต่างกันมากที่สุด (รูปที่ 3) งานเหมืองข้อมูลประเภทนี้ถือได้ว่าเป็นประเภทงานที่ไม่มีการชี้นำ (unsupervised)
 รูปที่ 3 เทคนิคการจัดกลุ่ม (clustering)
การจัดความสัมพันธ์ (Association) เป็นการวิเคราะห์ความสัมพันธ์ของกลุ่มข้อมูลที่เกิดขึ้นบ่อยๆ (รูปที่ 4) การถดถอย (Regression) งานนี้คล้ายๆ กับการแบ่งกลุ่ม ข้อแตกต่างที่ชัดเจนคือค่าคาดคะเนเป็นจำนวนเลขต่อเนื่อง เทคนิคสมการถดถอยมีการศึกษาและใช้กันมากในทางสถิติ ทั้งการถดถอยแบบเส้นตรง และการถดถอยแบบลอจิสติค เป็นวิธีที่นิยมมากที่สุด เทคนิคอื่นๆ ได้แก่ การใช้แขนงการตัดสินใจ และวิธีเครือข่ายประสาท (neural network) วิธีนี้ช่วยให้เกิดการคาดคะเนของข้อมูลที่จะเกิดขึ้น การพยากรณ์ (Focasting) ข้อมูลการแพทย์โดยส่วนใหญ่เป็นข้อมูลที่กำกับด้วยเวลา ชุดข้อมูลเวลานี่เองที่ช่วยให้พยากรณ์สิ่งที่จะเกิดขึ้นจากการวิเคราะห์ข้อมูลที่มีอยู่ได้ การวิเคราะห์ลำดับการเกิดข้อมูล (Sequence Analysis) ใช้ค้นหารูปแบบความสัมพันธ์ของข้อมูลที่เกิดขึ้นแยกกัน เช่น ข้อมูลในสาย DNA 4 สายแยกกัน ข้อมูลพฤติกรรมลำดับการใช้บริการของลูกค้า
 รูปที่ 4 เทคนิคความสัมพันธ์ (Asssociation) การวิเคราะห์การเอนเอียงของข้อมูล (Deviation Analysis) ใช้สำหรับค้นหากลุ่มข้อมูลจำนวนน้อยมากที่เป็นกรณีที่ประพฤติผิดแผกอย่างมากจากกลุ่มทั่วไป เป็นการตรวจจับการเปลี่ยนแปลงอย่างมีนัยสำคัญจากรูปแบบพฤติกรรมเดิมๆ ของข้อมูล
เทคนิคการทำเหมืองข้อมูล ถึงแม้การทำเหมืองข้อมูลดูเหมือนจะเป็นเรื่องใหม่ แต่เทคนิคการทำเหมืองข้อมูลก็เกิดขึ้นมาหลายปีแล้ว ถ้าพิจารณาจากรากฐานอัลกอลิธั่มการทำเหมืองข้อมูลที่เป็นที่นิยม เราพบว่าโดยส่วนใหญ่มีต้นกำเนิดมาจากงาน 3 ส่วน คือ สถิติศาสตร์ การเรียนรู้ของเครื่องจักรยนตร์ (machine learning) และฐานข้อมูล งานเหมืองข้อมูล โดยส่วนใหญ่ที่กล่าวถึงนั้น เป็นงานในขอบข่ายวิชาสถิติ อัลกอลิธั่มจำนวนหนึ่งค้นพบโดยนักสถิติ ไม่ว่าจะเป็นเทคนิคการถดถอย (regression) ชุดเวลา (time series, รูปที่ 5) หรือแขนงตัดสินใจ (decision trees) เทคนิคการถดถอยมีมานับศตวรรษ อัลกอลิธั่มชุดเวลาก็มีมานับทศวรรษ ส่วนแขนงตัดสินใจนับว่ายังใหม่อยู่ คือเกิดขึ้นในช่วงกลางทศวรรษ 1980
 รูปที่ 5 เทคนิคชุดข้อมูลเวลา (time series)
การทำเหมืองข้อมูลมุ่งไปที่การค้นพบรูปแบบความสัมพันธ์แบบอัตโนมัติหรือกึ่งอัตโนมัติ อัลกอลิธั่มการเรียนรู้ของเครื่องจักรยนตร์มากมายถูกนำมาใช้ การทำเครือข่ายประสาท (neural network) เป็นหนึ่งในเทคนิคนั้นและใช้ได้อย่างยอดเยี่ยมกับการแบ่งกลุ่ม การถดถอย โดยเฉพาะอย่างยิ่งเมื่อความสัมพันธ์ของข้อมูลเหล่านั้นเป็นแบบ nonlinear อีกเทคนิคหนึ่งคือ อัลกอลิธั่มทางยีน (genetic algorithm) มันเลียนแบบกระบวนการปรับตัวโดยธรรมชาติ โดยทำงานกับชุดสมการการอยู่รอดที่เหมาะสมที่สุด มันใช้งานได้ดีทั้งในงานการแบ่งกลุ่มและการจัดกลุ่ม หรืออาจใช้ช่วยงานเครือข่ายประสาทในการหาชุดน้ำหนักที่ดีที่สุดของหน่วยประสาท ระบบฐานข้อมูลเป็นเทคนิคแหล่งที่สามของการทำเหมืองข้อมูล วิชาสถิติแบบดั้งเดิมเชื่อว่าข้อมูลทั้งหมดสามารถป้อนเข้าสู่หน่วยความจำเพื่อการประมวลผลทางสถิติ โชคไม่ดี ที่อาจไม่เป็นความจริงในโลกปัจจุบัน ผู้เชี่ยวชาญฐานข้อมูลรู้วิธีหากฏเกณฑ์ความสัมพันธ์จากตารางข้อมูลหลักที่ประกอบด้วยข้อมูลนับล้านๆ ระเบียน และโดยความเป็นจริง อัลกอลิธั่มการหาความสัมพันธ์ (association algorithm) ที่มีประสิทธิภาพที่สุดมาจากชุมชนวิจัยฐานข้อมูล นอกจากนี้ ยังมีอัลกอลิธั่มการแบ่งกลุ่ม และการจัดกลุ่ม บางส่วนที่ใช้เทคนิคฐานข้อมูลเช่นกัน
ซอฟท์แวร์การทำเหมืองข้อมูลในตลาดปัจจุบัน มีบริษัทผู้ผลิตซอฟท์แวร์การทำเหมืองข้อมูลมากนับร้อยแล้วในปัจจุบัน รายชื่อบริษัทเหล่านี้หาอ่านได้จากฐานข้อมูลของ KDNuggets (kdnuggets.com) ต่อไปนี้เป็นตัวอย่างเพียงบางส่วนที่มีชื่อเสียง SAS: SAS มีส่วนแบ่งตลาดซอฟท์แวร์ทำเหมืองข้อมูลที่ค่อนข้างใหญ่ SAS อยู่ในแวดวงทางสถิติมานับสิบปี มีฟังก์ชั่นการคำนวณทางสถิติจำนวนมากในการวิเคราะห์ข้อมูล SAS Enterprise Miner เริ่มนำมาใช้งานในปี ค.ศ.1997 ผู้ใช้สามารถวาดภาพกราฟิกในการสร้างโมเดล และมีอัลกอลิธั่มจำนวนหนึ่งให้ใช้งาน เช่น แขนงตัดสินใจ เครือข่ายประสาท การถดถอย ความสัมพันธ์ ฯลฯ SPSS: เป็นยักษ์ใหญ่ทางสถิติบริษัทหนึ่ง หลังจากรวบกิจการบริษัท ISL จากสหราขอาณาจักรอังกฤษมาแล้ว ก็ผนวก SPSS เข้ากับชุดโปรแกรมทำเหมืองข้อมูลที่ชื่อว่า Clementine โดยเป็นบริษัทแรกๆ ที่แนะนำการใช้แนวคิดการไหลวนของงานเหมืองข้อมูล คือให้ผู้ใช้ปรับแต่งข้อมูล แปลงข้อมูล และฝึกฝนโมเดลในสภาพแวดล้อมการทำงานอันเดียวกัน IBM: Intelligent Miner มีชุดอัลกอลิธั่มและเครื่องมือที่ใช้งานง่ายๆ สามารถส่งออกโมเดลทำเหมืองข้อมูลเป็นภาษา Predictive Modeling Markup Language (PMML) ซึ่งกำหนดขึ้นเป็นมาตรฐานโดย Data Mining Group (DMG) Microsoft: เป็นบริษัทแรกๆ ที่รวมความสามารถในการทำเหมืองข้อมูลเข้ากับระบบฐานข้อมูลเชิงสัมพันธ์ สร้างมาตรฐาน OLE DB สำหรับการทำเหมืองข้อมูล มีอัลกอลิธั่มให้ใช้งานหลายแบบ เช่น Naïve Bayes, decion trees, time series, clustering, sequence clustering, association rules และ neural network Oracle: สร้างมาตรฐาน Java Data Mining API มีอัลกอลิธั่มให้ใช้มากขึ้นแล้วในเวอร์ชั่นปัจจุบัน
แนวโน้มในการทำเหมืองข้อมูล จากศักยภาพทางเทคโนโลยีทั้งด้านฮาร์ดแวร์และซอฟท์แวร์ กล่าวได้ว่า การทำเหมืองข้อมูลในปัจุบันไม่จำกัดเฉพาะในองค์กรขนาดใหญ่เท่านั้น องค์กรขนาดกลาง เช่น สถานพยาบาล ก็สามารถใช้ศักยภาพการทำเหมืองข้อมูลนี้ได้ แนวโน้มที่สำคัญประการสำคัญก็คือ ในโปรแกรมประยุกต์ต่างๆ จะมีเทคนิคการทำเหมืองข้อมูลติดตั้งซ่อนเร้นอยู่ การวิเคราะห์ทางสถิติ การคาดคะเน การพยากรณ์ที่ใช้เทคนิคนี้จะมีอยู่ในโปรแกรมประยุกต์ทั่วไปมากขึ้นตามลำดับ และในที่สุด ภาษา PMML จะเป็นมาตรฐานสำหรับการแลกเปลี่ยนข้อมูลในการจัดทำเหมืองข้อมูล
สรุป การทำเหมืองข้อมูลแม้ดูเป็นเรื่องใหม่ แต่มีการนำมาใช้ประโยชน์ในองค์กรขนาดกลางกันมากขึ้น ซึ่งรวมถึงสถานพยาบาลด้วย ข้อมูลจำนวนมหาศาลทั้งที่เป็นข้อมูลบริการและข้อมูลทางคลินิก สามารถจัดเก็บขึ้นเป็นคลังข้อมูล เลือกใช้โมเดลการจัดทำเหมืองข้อมูลและเทคนิคที่เหมาะสม ไม่ว่าจะเป็นเทคนิคแขนงตัดสินใจ การแบ่งกลุ่ม การจัดกลุ่ม การถดถอย ความสัมพันธ์ การพยากรณ์ การตรวจจับการเอนเอียง เป็นต้น แล้วนำเอารูปแบบความสัมพันธ์ที่เป็นผลลัพธ์จากการทำเหมืองข้อมูลมาสรุปหาความรู้ใหม่ๆ ที่เกิดขึ้นกับองค์กร คุณูปการจากการทำเหมืองข้อมูลจะเกิดขึ้นทั้งในขอบข่ายงานการตลาดและงานวิจัยขององค์กร
เอกสารอ้างอิง 1. Tang, Z. and J. MacLennan, Data Mining with SQL Server 2005. 2005, New York: Wiley&Son 2. Medical Informatics: Knowledge Management and Data Mining in Biomedicine. Integrated Series in Information Systems, ed. H.F. Chen, S.S.; Friedman, C.; Hersh, W. (Eds.) Vol. Vol. 8 3. Ng, R.T. and J. Pei Special Issue: Data Mining for Health Informatics, in ACM SIGKDD Exploration. 4. Chen , H., et al., Medical Informatics: Knowledge discovery and data mining in medical informatics 2005, Springer: New York. 5. Fayyad, U.M., G. Piatetsky-Shapiro, and P. Smyth, Advances in Knowledge Discovery and Data Mining 1996: AAAI/MIT Press 6. Pardalos, P.M., Data Mining in Biomedicine. 1 ed. Springer Optimization and Its Applications. 2007: Springer
|