Data cleansing
In the other name "data cleaning"
Last updated
In the other name "data cleaning"
Last updated
Assoc. Prof. Wiroon Sriborrirux, Founder of Advance Innovation Center (AIC) and Bangsaen Design House (BDH), Electrical Engineering Department, Faculty of Engineering, Burapha University
Data cleansing หรือ Data cleaning นั้นคือวิธีการจัดการกับข้อมูลรูปแบบหนึ่งเพื่อลดปริมาณข้อมูลขยะ (Dirty data) ข้อมูลที่มีความผิดพลาด, มีไม่ครบ, ไม่ตรงกับชุดข้อมูลที่กำหนดมา, ข้อมูลที่มีซ้ำๆ ทั้งหมดนี้ล้วนแต่เป็นข้อมูลขยะ การที่เรามีข้อมูลแบบนี้จำนวนมากนอกจากจะทำให้เปลืองพื้นที่การจัดเก็บแล้วยังจะทำให้การนำข้อมูลเหล่านี้ไปใช้วิเคราะห์แล้วยังเกิดความผิดพลาดอีกด้วย ดังนั้นข้อมูลเหล่านี้ควรจะถูกกำจัดหรือแก้ไขก่อนนำไปใช้งานเพื่อเพิ่มประสิทธิภาพของความถูกต้องของข้อมูล
step 1 : นำข้อมูลซ้ำหรือข้อมูลไม่เกี่ยวข้องออก
ขั้นตอนนี้จะเป็นการกรองข้อมูลออกเพื่อลดขนาดของการใช้จัดเก็บข้อมูล โดยการลบข้อมูลที่มีการซ้ำกันออก ข้อมูลที่มีการซ้ำกันมักจะไม่ค่อยเกิดขึ้นตามปกติ ส่วนน้อยจะเกิดจากการบันทึกของผู้ใช้งานลืมว่าเคยใส่ข้อมูลไปแล้วหรือบางครั้งระบบ บันทึกข้อมูลแสดงผลว่า error แต่ข้อมูลก็ถูกจัดเก็บทำให้ผู้ใช้งานใส่ข้อมูลซ้ำลงไปอีกครั้ง การเกิดการซ้ำของข้อมูลนั้นส่วนใหญ่นั้นจะเกิดขึ้นจากการรวมกันของฐานข้อมูลหลายๆฐานข้อมูลมากกว่า
หลังจากเราจัดการกับการซ้ำกันของข้อมูลแล้ว จากนั้นเราต้องจัดการกับข้อมูลที่ไม่มีความเกี่ยวข้องด้วย เช่น เราต้องการที่จะเก็บข้อมูลของพนักงานและเงินเดือนที่ได้ โดยข้อมูลที่ได้รับมามีดังนี้
ชื่อ | อายุ | เพศ | อายุงาน | ที่อยู่ | เงินเดือน |
---|---|---|---|---|---|
นายสมปอง | 36 | ชาย | 5 | แถวนี้ | 30,000 |
นายประหยัด | 67 | 7 | 8 | แถวนั้น | 50,000 |
นางสาวปลา | 420 | หญิง | แถวบ้าน | 2 | 27,000 |
จะเห็นได้ว่าแถวที่ 2 นั้นมีการใส่ข้อมูลที่ไม่ตรงกับประเภทข้อมูลที่ใส่ และแถวที่ 3 นั้นมีการใส่อายุที่เกิน และมีค่าที่สลับกันระหว่างอายุงานกับที่อยู่ ข้อมูลเหล่านี้จะต้องนำไป Cleansing ก่อนนำไปใช้งาน
step 2 : จัดการให้อยู่ในมาตรฐานเดียวกัน
การจัดมาตรฐาน (Standardise) คือการเปลี่ยน format ของข้อมูลให้อยู่ในรูปแบบเดียวกันเพื่อให้ง่ายต่อการจัดกลุ่มเช่น มีข้อมูลที่ใส่มาดังต่อไปนี้
Bangkok
Krung thep
กรุงเพท
กรุงเทพฯ
กรุงเทพมหานคร
ข้อมูลทั้งหมดนี้เราสามารถรู้ได้ว่าทั้งหมดสื่อความหมายเดียวกัน แต่ว่า format ข้อมูลนั้นแตกต่างกันดังนั้นข้อมูลเหล่านี้ควรถูกจัดการให้อยู่ในรูปแบบเดียวกัน เช่นเปลี่ยนชื่อทั้งหมดให้เป็น "กรุงเทพ" เป็นต้น หลังจากทำการจัดมาตรฐานแล้ว ข้อมูลของเรานั้นจะสามารถถูกจัดกลุ่มให้อยู่หมวดเดียวกันได้ง่าย เมื่อทำการจัดมาตรฐานเรียบร้อยแล้วควรมีการ De-duplicate (ลบค่าซ้ำ) อีกครั้งเนื่องจากตอนแรกเราไม่สามารถเห็นได้เนื่องจากขอมูลอยู่ใน format ที่แตกต่างกัน
Step 3: จัดการกับค่าที่หายไป
ขั้นตอนนี้เป็นขั้นตอนที่ยากที่สุดในการ cleansing เนื่องจากค่าบางประเภทอาจจะต้องใช้การคำนวณหา trend ของข้อมูลทั้งหมดออกมาก่อนถึงจะเติมค่าลงไปได้ หรือบางค่าอาจจะต้องใช้ numerical approach เพื่อนำค่ารอบๆมาคำนวณหาค่าที่หายไปจากช่องนั้น ค่าบางคาอาจเติมได้ด้วยการอนุมาณเช่น ถ้าช่องแสดง เพศ หายไปเราสามารถอนุมาณได้จากคำนำหน้าชื่อ
หรือ ถ้าที่อยู่หายไปเราก็สามารถอนุมาณได้จากรหัสไปรษณีย์ ส่วนใหญ่แล้วถ้าไม่ใช่ข้อมูลที่เก็บได้ยาก เราควรเก็บข้อมูลชุดนั้นๆใหม่เพื่อความถูกต้องของข้อมูล
จากข้อมูลที่ให้ด้านล่าง ให้นำความรู้ที่ได้เรียนมาเมื่อครู่นี้นำไปจัดการกับชุดข้อมูลที่ให้
ให้สำเนาชุดข้อมูลนี้ไปแก้ไขเป็นของตัวเอง
Last update: May 2022
Author: Thanaluk Pranekunakol (AIC-Researcher)