Metadata คืออะไร บอกอะไรเกี่ยวกับชุดข้อมูลนั้น ๆ บ้าง
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
ก่อนอื่นขออธิบายถึง Feature Encoding กันก่อน โดยสิ่งนี้คือการแปลงข้อมูลที่เป็น Categorical (ข้อมูลตัวอักษรที่ใช้เพื่อแบ่งกลุ่ม หมวดหมู่ ประเภท) ให้อยู่เป็นตัวแปรประเภท Numerical (ตัวเลข) เนื่องจากว่าคอมพิวเตอร์นั้นสามารถเข้าใจได้เฉพาะตัวเลข (ในแง่ของการทำงานและประมวลผล) ซึ่งวิธีการ Encoding นั้นมีหลากหลายวิธีด้วยกัน แต่โดยพื้นฐานแล้วจะใช้ Label Encoding และ One Hot Encoding ในการจัดการงานส่วนนี้ โดยที่สองวิธีการนี้ใช้งานแตกต่างกันกันตรงที่
DataFrame ก่อนทำ One-Hot Encoding
DataFrame หลังทำ One-Hot Encoding
Import Library สำหรับทำ One-Hot (from sklearn.preprocessing import OneHotEncoder)
สร้าง DataFrame สมมุติ เป็นเงินเดือนของพนักงาน 4 คนจากการ์ต้า และมาเก๊า
ตรวจสอบประเภทของข้อมูล โดยข้อมูลจะต้องเป็นประเภท Object หรือไม่ก็ Category
เรียกใช้งาน OneHotEncoder (รายละเอียด) จัดการแปลงข้อมูล โดยจะได้ผลลัพธ์คือ เมทริกซ์ขนาด 4 แถว 2 คอลัมน์ (ตามจำนวนข้อมูลที่มี 4 แถว และ 2 ประเทศ)
นำไปประกอบเข้ากับ DataFrame เดิมเป็นอันเรียบร้อย
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
การทำงานด้าน Machine Learning นั้นจะต้องเจอข้อมูลและมีคำถามเสมอว่าควรเริ่มจากอะไรดี โดย Mutual Information เป็นหนึ่งในขั้นตอนที่แนะนำให้ทำ
วิธีการแปลงข้อมูลประเภทหมวดหมู่/ประเภท (ที่เป็นตัวอักษร) ให้เป็นชุดตัวเลขด้วยวิธีการ One Hot Encoding เพื่อให้โมเดลสามารถเรียนรู้ได้
การเรียนรู้เชิงลึก (Deep Learning) นั้นเป็นเทคนิคที่มัประสิทธิภาพมากในงาน Machine Learning ปัจจุบันซึ่งเบื้องหลังของมันก็คือการใช้ ANN
ในหลาย ๆ ชุดข้อมูลมักจะมีการเก็บวันที่ไว้ด้วยเสมอ ซึ่งการ Parsing Dates จะช่วยให้ใช้งานวันที่เหล่านั้นได้ง่ายยิ่งขึ้น
การจะเริ่มทำโปรเจคอะไรสักอย่างสิ่งที่ขาดไม่ได้เลยคือข้อมูล แล้วยิ่งเป็นงานที่เกี่ยวข้องกับ Data แล้วนั้น Data source จึงเป็นสิ่งจำเป็นมาก