A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data
ในยุคที่ข้อมูลกลายเป็นหัวใจสำคัญของการตัดสินใจ การใช้ Machine Learning (ML) เพื่อสกัดองค์ความรู้จากข้อมูลแบบตาราง (Tabular Data) เป็นสิ่งที่ได้รับความนิยมอย่างแพร่หลาย อย่างไรก็ตาม การประเมินประสิทธิภาพของโมเดล ML ไม่ได้ขึ้นอยู่กับความซับซ้อนของอัลกอริทึมเพียงอย่างเดียว แต่ยังรวมถึงคุณภาพของข้อมูลที่ป้อนเข้าสู่โมเดลอีกด้วย บทความนี้นำเสนอมุมมอง Data-Centric ในการประเมินโมเดล ML สำหรับข้อมูลแบบตาราง โดยเน้นความสำคัญของข้อมูลในการสร้างโมเดลที่แม่นยำ น่าเชื่อถือ และใช้งานได้จริง
ความสำคัญของ Data-Centric Approach
ในอดีต การพัฒนาโมเดล ML มักมุ่งเน้นไปที่การปรับแต่งอัลกอริทึม (Model-Centric) โดยใช้ชุดข้อมูลที่มีอยู่เป็นตัววัดผลลัพธ์ อย่างไรก็ตาม งานวิจัยในช่วงหลังพบว่า คุณภาพของข้อมูลส่งผลต่อประสิทธิภาพของโมเดลมากกว่าตัวอัลกอริทึมเองเสียอีก
ตัวอย่างเช่น งานวิจัยของ Google ในปี 2017 [1] พบว่า การเพิ่มขนาดของชุดข้อมูลภาพ ImageNet ส่งผลให้ความแม่นยำของโมเดล Image Recognition เพิ่มขึ้นอย่างมีนัยสำคัญ แม้จะใช้โมเดลที่มีสถาปัตยกรรมแบบเดียวกันก็ตาม
ดังนั้น การหันมามุ่งเน้นที่การจัดเตรียมข้อมูลให้มีคุณภาพสูง (Data-Centric) จึงเป็นสิ่งจำเป็นสำหรับการสร้างโมเดล ML ที่มีประสิทธิภาพอย่างแท้จริง
องค์ประกอบสำคัญของ Data-Centric Evaluation
การประเมินโมเดล ML ในมุมมอง Data-Centric ครอบคลุมองค์ประกอบสำคัญหลายประการ ดังนี้
- Data Quality: การประเมินคุณภาพข้อมูล เช่น ความถูกต้อง ความสมบูรณ์ ความสอดคล้อง และความเป็นปัจจุบัน
- Data Representativeness: การตรวจสอบว่าชุดข้อมูลที่ใช้ในการฝึกฝนโมเดลสะท้อนถึงข้อมูลจริงที่โมเดลจะต้องเผชิญหรือไม่
- Data Bias: การระบุและแก้ไขความเอนเอียงในข้อมูล ที่อาจนำไปสู่ผลลัพธ์ที่ไม่เป็นธรรม
- Feature Engineering: การสร้าง Feature ใหม่ หรือแปลง Feature ที่มีอยู่ เพื่อปรับปรุงประสิทธิภาพของโมเดล
- Data Augmentation: การเพิ่มจำนวนข้อมูลฝึกฝนโดยใช้เทคนิคต่างๆ เช่น การหมุนภาพ การปรับความสว่าง เพื่อเพิ่มความหลากหลายของข้อมูล
ตัวอย่างการนำ Data-Centric Approach ไปใช้จริง
สมมติว่าเรากำลังสร้างโมเดล ML เพื่อทำนายยอดขายของสินค้าในร้านค้าปลีก โดยใช้ข้อมูลประวัติการขาย ข้อมูลสินค้า และข้อมูลลูกค้า
ขั้นตอน | Model-Centric Approach | Data-Centric Approach |
---|---|---|
การเตรียมข้อมูล | ทำความสะอาดข้อมูลเบื้องต้น เช่น จัดการค่าที่หายไป (Missing Values) |
|
การเลือก Feature | ใช้ Feature ทั้งหมดที่มีอยู่ |
|
การสร้างโมเดล | ทดลองสร้างโมเดลด้วยอัลกอริทึมหลายๆ ตัว เช่น Linear Regression, Decision Tree, Random Forest | เน้นการสร้างโมเดลที่ตีความได้ (Interpretable Model) เพื่อทำความเข้าใจปัจจัยที่มีผลต่อยอดขาย |
การประเมินผล | วัดผลด้วยค่า RMSE, MAE, R-squared บนชุดข้อมูลทดสอบ |
|
จะเห็นได้ว่า Data-Centric Approach ให้ความสำคัญกับการทำความเข้าใจข้อมูลอย่างลึกซึ้ง การวิเคราะห์เชิงสถิติ และการสร้าง Feature ที่มีความหมาย ซึ่งนำไปสู่โมเดล ML ที่แม่นยำและน่าเชื่อถือยิ่งขึ้น
Fun Fact
รู้หรือไม่ว่า ในปี 2018 ทีมนักวิจัยจาก MIT พบว่า อัลกอริทึม Image Recognition ที่ได้รับการฝึกฝนด้วยชุดข้อมูล ImageNet มีความเอนเอียงทางเชื้อชาติ โดยโมเดลสามารถระบุเพศของผู้หญิงผิวขาวได้แม่นยำกว่าผู้หญิงผิวสี [2] การค้นพบนี้ตอกย้ำให้เห็นถึงความสำคัญของการสร้างชุดข้อมูลที่เป็นกลางและหลากหลาย เพื่อป้องกันความลำเอียงในผลลัพธ์ของโมเดล ML
สรุป
Data-Centric Approach เป็นการเปลี่ยนแปลงมุมมองในการพัฒนาโมเดล ML โดยให้ความสำคัญกับคุณภาพของข้อมูลเป็นอันดับแรก การใช้ Data-Centric Approach ช่วยให้เราสามารถสร้างโมเดลที่แม่นยำ น่าเชื่อถือ และใช้งานได้จริงสำหรับข้อมูลแบบตาราง และช่วยลดความเสี่ยงจากความลำเอียงของข้อมูล ซึ่งเป็นประเด็นสำคัญที่ต้องคำนึงถึงในการนำ ML ไปประยุกต์ใช้ในโลกแห่งความเป็นจริง
#MachineLearning #DataScience #DataCentricAI #TabularData