Data Exploratory via BDH X-Brain

Data Exploratory หรือ Exploratory Data Analysis (EDA)

Data Exploratory หรือ Exploratory Data Analysis (EDA) เป็นขั้นตอนสำคัญในกระบวนการวิเคราะห์ข้อมูล ซึ่งเน้นไปที่การทำความเข้าใจข้อมูลที่มีอยู่ โดยใช้เทคนิคต่างๆ เพื่อตรวจสอบลักษณะและโครงสร้างของข้อมูล นี่เป็นขั้นตอนแรกที่นักวิเคราะห์ข้อมูลจะทำก่อนที่จะลงมือสร้างโมเดลหรือทำการวิเคราะห์เชิงลึก

วัตถุประสงค์ของ Data Exploratory

  1. ทำความเข้าใจข้อมูล: การสำรวจข้อมูลในขั้นแรกเป็นการทำความเข้าใจโครงสร้างพื้นฐานของข้อมูล เช่น ประเภทของตัวแปร (Variable types), การกระจายตัวของข้อมูล (Data distribution), และค่าที่ขาดหายไป (Missing values) เป็นต้น

  2. ระบุลักษณะและรูปแบบของข้อมูล: การสำรวจข้อมูลช่วยให้นักวิเคราะห์สามารถระบุแนวโน้ม (Trends), รูปแบบ (Patterns), ความสัมพันธ์ (Relationships), หรือข้อผิดพลาดในข้อมูลได้

  3. สร้างสมมติฐาน: จากการสำรวจข้อมูล นักวิเคราะห์สามารถสร้างสมมติฐานเกี่ยวกับข้อมูลเพื่อทดสอบในขั้นตอนการสร้างโมเดล (Modeling) หรือการวิเคราะห์ขั้นสูงต่อไป

  4. ระบุความสัมพันธ์: สำรวจความสัมพันธ์ระหว่างตัวแปรต่างๆ เช่น การใช้ Correlation Matrix เพื่อดูความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว

  5. ทำความสะอาดข้อมูล: การสำรวจข้อมูลยังช่วยระบุปัญหาของข้อมูล เช่น ข้อมูลที่ขาดหายไป, ค่าผิดปกติ (Outliers), และความไม่สอดคล้องของข้อมูล ซึ่งต้องได้รับการแก้ไขก่อนการวิเคราะห์ขั้นสูง

วิธีการที่ใช้ใน Data Exploratory

  1. สถิติเชิงพรรณนา (Descriptive Statistics): ใช้ในการสรุปและแสดงข้อมูลเช่น ค่าเฉลี่ย (Mean), ค่ามัธยฐาน (Median), ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) เป็นต้น

  2. การสร้างกราฟ (Data Visualization): การสร้างกราฟช่วยให้เห็นภาพรวมและเข้าใจข้อมูลได้ง่ายขึ้น ตัวอย่างเช่น กราฟแท่ง (Bar Charts), กราฟเส้น (Line Charts), ฮีสโตแกรม (Histograms), และกราฟกระจาย (Scatter Plots)

  3. การตรวจสอบความสัมพันธ์ (Correlation Analysis): ใช้เพื่อระบุความสัมพันธ์ระหว่างตัวแปร เช่น การคำนวณค่า Correlation Coefficient

การศึกษาข้อมูล (Data Profiling)

การศึกษาข้อมูล (Data Profiling) เป็นขั้นตอนสำคัญในกระบวนการวิเคราะห์ข้อมูล ซึ่งใช้เพื่อทำความเข้าใจคุณลักษณะต่าง ๆ ของข้อมูลที่มีอยู่ โดยมีการตรวจสอบและประเมินข้อมูลในเชิงสถิติเพื่อระบุรายละเอียดที่สำคัญ เช่น การกระจายของข้อมูล (Data Distribution), การหาค่าผิดปกติ (Outliers), การประเมินคุณภาพของข้อมูล (Data Quality), รวมถึงการตรวจสอบค่าที่หายไป (Missing Values) และความสอดคล้องกันของข้อมูล (Data Consistency) ซึ่งมีวัตถุประสงค์เพื่อทำให้เข้าใจข้อมูลได้อย่างลึกซึ้งก่อนที่จะดำเนินการวิเคราะห์หรือสร้างโมเดลต่อไป การทำ Data Profiling ช่วยให้ผู้วิเคราะห์สามารถระบุปัญหาหรือความไม่สมบูรณ์ของข้อมูลได้ตั้งแต่เนิ่น ๆ และเตรียมการแก้ไขข้อมูล (Data Cleaning) ก่อนเริ่มกระบวนการวิเคราะห์เพิ่มเติม

ขั้นตอนการทำ Data Exploratory บน X-Brain

1. เข้าไปที่ https://x-brain.kin-yoo-dee.com แล้วลงชื่อเข้าใช้ด้วยบัญชีของตนเอง

2. สร้างโปรเจคใหม่ด้วยการกดปุ่ม “+ Create Project

3. ตั้งชื่อโปรเจค หลังจากนั้นกดปุ่ม “Create Analytic Project

4. ตั้งค่า template project

  • กดปุ่ม “” ของ Project ที่ถูกสร้างขึ้นแล้วเลือกที่เมนู "Config"

  • ต่อมาให้เลือกหมวด "TIME SERIES ANALYSIS" เพื่อทำการตั้งค่า Project ให้อยู่ในรูปแบบของ "time-series"

5. การนำเข้าชุดข้อมูลตารางขึ้นมายัง X-brain แพลตฟอร์ม

หมายเหตุ: ปัจจุบันการนำเข้าข้อมูลตารางขึ้นแพลตฟอร์มสามารถเลือกได้ 2 ประเภท คือ

  1. ข้อมูลจากอุปกรณ์ (Device)

  2. ข้อมูลสุขภาพ (Health)

  • คลิกที่ “+ Select Data

  • เลือกประเภทของข้อมูลที่ต้องการ

  • ในกรณีนี้ เลือก “ข้อมูลจากอุปกรณ์ (Device)” ซึ่งแหล่งข้อมูลจากอุปกรณ์ (Device Datasource) ที่ต้องการ โดยจะมีให้เลือก 4 อุปกรณ์ คือ Hivesmart, Amazfit, Apple Watch และ Fishrack

  • กรอกเลข Device ID ของอุปกรณ์และเลือกวันที่ ที่ต้องการ จากนั้นคลิกที่ “Submit” จะได้ตารางข้อมูลของอุปกรณ์

  • สามารถกรอง (filter) ข้อมูลด้วยเงื่อนไขที่ต้องการได้ โดยคลิกที่ช่องสี่เหลี่ยมหน้าคำว่า “Add filters

  • สามารถแสดงผลของข้อมูลในรูปแบบกราฟได้ โดยเลือกประเภทของข้อมูลที่ต้องการจะแสดง

  • สามารถศึกษาข้อมูล (Data Profiling) เพื่อดูว่าข้อมูลอยู่ในรูปแบบไหน และมีความผิดปกติ (Missing Value) ของข้อมูลอย่างไรบ้าง โดยคลิกที่ “Generate Report

  • ในกรณีที่ต้องการบันทึกไฟล์ศึกษาข้อมูล (Data Profiling) โดยคลิกปุ่ม “Download Report” ซึ่งจะได้เป็นไฟล์นามสกุล .html

  • คลิกที่ “Select Data

  • ตั้งชื่อไฟล์ของชุดข้อมูลคลิกที่ “OK” และจะได้ชุดข้อมูลจากการนำเข้าข้อมูล

6. Data Exploratory เป็นขั้นตอนที่ช่วยปูพื้นฐานสำหรับการวิเคราะห์ข้อมูลในขั้นต่อไป โดยให้ข้อมูลที่ชัดเจนและเชื่อถือได้ในการทำงานต่อไปในกระบวนการวิเคราะห์ข้อมูล ไม่ว่าจะเป็นการเลือกเทคนิคในการสร้างโมเดลหรือการแปลงข้อมูล

  • เป็นเครื่องมือที่ใช้สำหรับการสำรวจและวิเคราะห์ข้อมูลในรูปแบบของเว็บอินเตอร์เฟซที่ช่วยให้นักวิเคราะห์ข้อมูลสามารถตรวจสอบและทำงานกับข้อมูล Pandas DataFrames โดยมีเครื่องมือหลายประเภทที่ช่วยให้การสำรวจข้อมูลและวิเคราะห์ข้อมูลเบื้องต้นเป็นไปอย่างสะดวกและรวดเร็ว

  • table (ตาราง): เป็นหน้าจอที่แสดงข้อมูลใน DataFrame ของ Pandas ในรูปแบบของตารางที่สามารถโต้ตอบได้ ผู้ใช้สามารถเลื่อนดูข้อมูล, กรองข้อมูล (Filtering), จัดเรียงข้อมูล (Sorting), และค้นหาค่าที่เฉพาะเจาะจงได้

  • describe (การสรุปข้อมูล): ฟังก์ชันนี้จะสร้างสถิติพื้นฐาน เช่น ค่าเฉลี่ย (Mean), ค่ามัธยฐาน (Median), ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation), ค่าต่ำสุด (Min), ค่าสูงสุด (Max), และ Percentiles ต่างๆ ซึ่งช่วยในการเข้าใจลักษณะการกระจายตัวของข้อมูล นอกจากนี้ยังมีการแสดงจำนวนค่าที่ขาดหายไป (Missing Values) ในแต่ละคอลัมน์ รวมถึงค่าที่ซ้ำกัน (Duplicated Values) ที่อาจต้องได้รับการแก้ไขก่อนการวิเคราะห์เชิงลึก

  • charts (แผนภูมิ): เป็นเครื่องมือที่ช่วยในการสร้างแผนภูมิและกราฟต่างๆ สำหรับการสำรวจและวิเคราะห์ข้อมูลเบื้องต้น โดยไม่จำเป็นต้องเขียนโค้ดเพิ่ม ผู้ใช้สามารถเลือกชนิดของกราฟได้หลากหลาย เช่น กราฟแท่ง (Bar Chart), ฮิสโตแกรม (Histogram), กราฟกระจาย (Scatter Plot), กราฟเส้น (Line Chart), และอื่นๆ ตามความเหมาะสมกับลักษณะของข้อมูล เลือกค่าในแกน X และ Y ที่ต้องการแสดงผลในรูปแบบกราฟ

ขั้นตอนการนำเข้าข้อมูล (Import Data)

1. เข้าไปที่ https://x-brain.kin-yoo-dee.com แล้วลงชื่อเข้าใช้ด้วยบัญชีของตนเอง

2. สร้างโปรเจคใหม่ด้วยการกดปุ่ม “+ Create Project

3. ตั้งชื่อโปรเจค หลังจากนั้นกดปุ่ม “Create Analytic Project

4. ตั้งค่า template project

  • กดปุ่ม “” ของ Project ที่ถูกสร้างขึ้นแล้วเลือกที่เมนู "Config"

  • ต่อมาให้เลือกหมวด "TIME SERIES ANALYSIS" เพื่อทำการตั้งค่า Project ให้อยู่ในรูปแบบของ "time-series"

5. การอัปโหลดชุดข้อมูลตารางขึ้นมายัง X-brain แพลตฟอร์ม (ในกรณีที่ไม่มีชุดข้อมูลของตนเองสามารถดาวน์โหลดข้อมูลได้ที่ Link โดยในตัวอย่างเลือกไฟล์ “activity_rawdata.csv”)

หมายเหตุ: ปัจจุบันการอัปโหลดไฟล์ข้อมูลตารางขึ้นแพลตฟอร์มสามารถอัปโหลดได้เฉพาะไฟล์ .csv เท่านั้น

จะได้ชุดข้อมูลจากไฟล์ที่อัปโหลด

6. Data Exploratory เป็นขั้นตอนที่ช่วยปูพื้นฐานสำหรับการวิเคราะห์ข้อมูลในขั้นต่อไป โดยให้ข้อมูลที่ชัดเจนและเชื่อถือได้ในการทำงานต่อไปในกระบวนการวิเคราะห์ข้อมูล ไม่ว่าจะเป็นการเลือกเทคนิคในการสร้างโมเดลหรือการแปลงข้อมูล

  • เป็นเครื่องมือที่ใช้สำหรับการสำรวจและวิเคราะห์ข้อมูลในรูปแบบของเว็บอินเตอร์เฟซที่ช่วยให้นักวิเคราะห์ข้อมูลสามารถตรวจสอบและทำงานกับข้อมูล Pandas DataFrames โดยมีเครื่องมือหลายประเภทที่ช่วยให้การสำรวจข้อมูลและวิเคราะห์ข้อมูลเบื้องต้นเป็นไปอย่างสะดวกและรวดเร็ว

    • table (ตาราง): เป็นหน้าจอที่แสดงข้อมูลใน DataFrame ของ Pandas ในรูปแบบของตารางที่สามารถโต้ตอบได้ ผู้ใช้สามารถเลื่อนดูข้อมูล, กรองข้อมูล (Filtering), จัดเรียงข้อมูล (Sorting), และค้นหาค่าที่เฉพาะเจาะจงได้

  • describe (การสรุปข้อมูล): ฟังก์ชันนี้จะสร้างสถิติพื้นฐาน เช่น ค่าเฉลี่ย (Mean), ค่ามัธยฐาน (Median), ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation), ค่าต่ำสุด (Min), ค่าสูงสุด (Max), และ Percentiles ต่างๆ ซึ่งช่วยในการเข้าใจลักษณะการกระจายตัวของข้อมูล นอกจากนี้ยังมีการแสดงจำนวนค่าที่ขาดหายไป (Missing Values) ในแต่ละคอลัมน์ รวมถึงค่าที่ซ้ำกัน (Duplicated Values) ที่อาจต้องได้รับการแก้ไขก่อนการวิเคราะห์เชิงลึก

  • charts (แผนภูมิ): เป็นเครื่องมือที่ช่วยในการสร้างแผนภูมิและกราฟต่างๆ สำหรับการสำรวจและวิเคราะห์ข้อมูลเบื้องต้น โดยไม่จำเป็นต้องเขียนโค้ดเพิ่ม ผู้ใช้สามารถเลือกชนิดของกราฟได้หลากหลาย เช่น กราฟแท่ง (Bar Chart), ฮิสโตแกรม (Histogram), กราฟกระจาย (Scatter Plot), กราฟเส้น (Line Chart), และอื่นๆ ตามความเหมาะสมกับลักษณะของข้อมูล เลือกค่าในแกน X และ Y ที่ต้องการแสดงผลในรูปแบบกราฟ

Last updated

Assoc. Prof. Wiroon Sriborrirux, Founder of Advance Innovation Center (AIC) and Bangsaen Design House (BDH), Electrical Engineering Department, Faculty of Engineering, Burapha University