Dataset

การแบ่งชุดข้อมูล (Dataset)

ชุดข้อมูลคืออะไร

ชุดข้อมูลคือ กลุ่มของข้อมูลที่มีการใช้ตัวแปรบางอย่างร่วมกัน โดยจะแบ่งตัวแปรแต่ละตัวเป็นคอลัมบ์ ตามตัวอย่างที่ผ่านมาด้านบน ซึ่งตัวแปรที่ชุดข้อมูลใช่ร่วมกันคือ time stamp และมีตัวแปรอื่นๆคือ acc_x, acc_y และ acc_z ชุดข้อมูลนั้นไม่จำเป็นต้องอยู่ในรูปแบบ time series เสมอไป ดังนั้นการจัดแบ่งชุดข้อมูลจะเปลี่ยนไปตามประเภทของข้อมูล

ตัวอย่างชุดข้อมูล

timestamp

acc_x

acc_y

acc_z

date

5260

-114

-1469

9030

03/03/2022 11:21:42

5261

-129

-985

9724

03/03/2022 11:21:42

5262

-315

-646

10088

03/03/2022 11:21:42

5263

-248

985

9298

03/03/2022 11:21:42

5264

-521

1048

10581

03/03/2022 11:21:42

ทำไมต้องแบ่งชุดข้อมูล

โดยปกติแล้วชุดข้อมูลส่วนใหญ่จะถูกแบ่งเป็นส่วนๆอยู่แล้ว เช่น แบ่งตามวัน, เดือน, กลุ่มต่างๆ แต่การแบ่งชุดข้อมูลในที่นี้สื่อถึงการแบ่งชุดข้อมูลสำหรับการนำไปทำ Machine learning ซึ่งจะแบ่งเป็นชุดข้อมูลที่ไว้สำหรับสอน (train)

แบ่งชุดข้อมูลแล้วเอาไปทำอะไรต่อ

เมื่อแบ่งชุดข้อมูลเรียบร้อยแล้ว เราจะนำข้ออมูลชุดนี้เพื่อนำไปให้ Machine learning(ML) โดยตัว ML นั้นจะนำข้อมูลถูกแบ่งไว้ว่าเป็นข้อมูลชุด Train มาทำการเรียนรู้เพื่อหา feature ต่างๆของข้อมูลชุดนั้นโดยขึ้นอยู่กับ Algorithm ว่าจะดูเอกลักษณ์อะไรของชุดข้อมูลนั้นเมื่อ ML เรียนรู้เสร็จแล้วจะได้สิ่งที่เรียกว่า Model ออกมาหลังจากนั้น ML จะนำข้อมูลชุด Test มาป้อนข้อมูลใส่ Model ที่เราได้มาเพื่อทดสอบความแม่นยำของชุดข้อมูลที่เราเรียนรู้ไปว่ามีถูกผิดกี่เปอเซนต์

อ้างอิง :

Last update: May 2023

Author: Thanaluk Pranekunakol (AIC-Researcher)

Last updated

Assoc. Prof. Wiroon Sriborrirux, Founder of Advance Innovation Center (AIC) and Bangsaen Design House (BDH), Electrical Engineering Department, Faculty of Engineering, Burapha University