hitexts

Hi, We texts to you.

One Hot Encoding คืออะไร

ก่อนอื่นขออธิบายถึง Feature Encoding กันก่อน โดยสิ่งนี้คือการแปลงข้อมูลที่เป็น Categorical (ข้อมูลตัวอักษรที่ใช้เพื่อแบ่งกลุ่ม หมวดหมู่ ประเภท) ให้อยู่เป็นตัวแปรประเภท Numerical (ตัวเลข) เนื่องจากว่าคอมพิวเตอร์นั้นสามารถเข้าใจได้เฉพาะตัวเลข (ในแง่ของการทำงานและประมวลผล) ซึ่งวิธีการ Encoding นั้นมีหลากหลายวิธีด้วยกัน แต่โดยพื้นฐานแล้วจะใช้ Label Encoding และ One Hot Encoding ในการจัดการงานส่วนนี้ โดยที่สองวิธีการนี้ใช้งานแตกต่างกันกันตรงที่

  • Label Encoding นั้นใช้กับหมวดหมู่หรือประเภทที่สามารถจัดเรียงได้อย่างชัดเจน หรือมีเกณฑ์ที่บอกได้ว่าอะไรมาก่อนมาหลัง (Ordinal Variables) เช่น ไซส์เสื้อ S/M/L/XL, เกรด A, B, C, D
  • One-Hot Encoding ใช้กับข้อมูลหมวดหมู่หรือประเภทที่ไม่สามารถเรียงลำดับได้อย่างชัดเจน โดยมันจะนำแต่ละหมวดหมู่มาสร้างเป็นฟีเจอร์และใช้ค่า 0 และ 1 ในการระบุว่ามีหรือไม่มีค่านั้น ๆ เช่น

DataFrame ก่อนทำ One-Hot Encoding

Country Salary
Qatar
128647.00
Macao
115367.00
Macao
107641.00
Qatar
94105.00

DataFrame หลังทำ One-Hot Encoding

Qatar Macao Salary
1
0
128647.00
0
1
115367.00
0
1
107641.00
1
0
94105.00

ลองทำ One Hot Encoding ด้วย
Scikit-learn

Import Library สำหรับทำ One-Hot (from sklearn.preprocessing import OneHotEncoder)

สร้าง DataFrame สมมุติ เป็นเงินเดือนของพนักงาน 4 คนจากการ์ต้า และมาเก๊า

ตรวจสอบประเภทของข้อมูล โดยข้อมูลจะต้องเป็นประเภท Object หรือไม่ก็ Category

เรียกใช้งาน OneHotEncoder (รายละเอียด) จัดการแปลงข้อมูล โดยจะได้ผลลัพธ์คือ เมทริกซ์ขนาด 4 แถว 2 คอลัมน์ (ตามจำนวนข้อมูลที่มี 4 แถว และ 2 ประเทศ)

นำไปประกอบเข้ากับ DataFrame เดิมเป็นอันเรียบร้อย

Related Post

Metadata คืออะไร บอกอะไรเกี่ยวกับชุดข้อมูลนั้น ๆ บ้าง
25Sep

Metadata คืออะไร บอกอะไรเกี่ยวกับชุดข้อมูลนั้น ๆ บ้าง

Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง

Mutual Information ขั้นตอนแรกที่แนะนำให้ทำตอนเริ่มโปรเจค ML
05Aug

Mutual Information ขั้นตอนแรกที่แนะนำให้ทำตอนเริ่มโปรเจค ML

การทำงานด้าน Machine Learning นั้นจะต้องเจอข้อมูลและมีคำถามเสมอว่าควรเริ่มจากอะไรดี โดย Mutual Information เป็นหนึ่งในขั้นตอนที่แนะนำให้ทำ

One Hot Encoding วิธีแปลงข้อมูลประเภท Category เพื่อใช้เทรนโมเดล
01Aug

One Hot Encoding วิธีแปลงข้อมูลประเภท Category เพื่อใช้เทรนโมเดล

วิธีการแปลงข้อมูลประเภทหมวดหมู่/ประเภท (ที่เป็นตัวอักษร) ให้เป็นชุดตัวเลขด้วยวิธีการ One Hot Encoding เพื่อให้โมเดลสามารถเรียนรู้ได้

ANN (Artificial Neural Network) พื้นฐานของ Deep Learning
22Jul

ANN (Artificial Neural Network) พื้นฐานของ Deep Learning

การเรียนรู้เชิงลึก (Deep Learning) นั้นเป็นเทคนิคที่มัประสิทธิภาพมากในงาน Machine Learning ปัจจุบันซึ่งเบื้องหลังของมันก็คือการใช้ ANN

Parsing Dates การจัดการกับข้อมูลวันที่ในชุดข้อมูลด้วย Pandas
04Jul

Parsing Dates การจัดการกับข้อมูลวันที่ในชุดข้อมูลด้วย Pandas

ในหลาย ๆ ชุดข้อมูลมักจะมีการเก็บวันที่ไว้ด้วยเสมอ ซึ่งการ Parsing Dates จะช่วยให้ใช้งานวันที่เหล่านั้นได้ง่ายยิ่งขึ้น

Data source แหล่งชุดข้อมูลสำหรับใช้ทำงานด้านข้อมูลช่วยให้โปรเจคราบรื่นยิ่งขึ้น
01Jul

Data source แหล่งชุดข้อมูลสำหรับใช้ทำงานด้านข้อมูลช่วยให้โปรเจคราบรื่นยิ่งขึ้น

การจะเริ่มทำโปรเจคอะไรสักอย่างสิ่งที่ขาดไม่ได้เลยคือข้อมูล แล้วยิ่งเป็นงานที่เกี่ยวข้องกับ Data แล้วนั้น Data source จึงเป็นสิ่งจำเป็นมาก

© 2022 hitexts. All rights reserved