Data Exploratory via BDH X-Brain
Data Exploratory หรือ Exploratory Data Analysis (EDA)
Data Exploratory หรือ Exploratory Data Analysis (EDA) เป็นขั้นตอนสำคัญในกระบวนการวิเคราะห์ข้อมูล ซึ่งเน้นไปที่การทำความเข้าใจข้อมูลที่มีอยู่ โดยใช้เทคนิคต่างๆ เพื่อตรวจสอบลักษณะและโครงสร้างของข้อมูล นี่เป็นขั้นตอนแรกที่นักวิเคราะห์ข้อมูลจะทำก่อนที่จะลงมือสร้างโมเดลหรือทำการวิเคราะห์เชิงลึก
วัตถุประสงค์ของ Data Exploratory
ทำความเข้าใจข้อมูล: การสำรวจข้อมูลในขั้นแรกเป็นการทำความเข้าใจโครงสร้างพื้นฐานของข้อมูล เช่น ประเภทของตัวแปร (Variable types), การกระจายตัวของข้อมูล (Data distribution), และค่าที่ขาดหายไป (Missing values) เป็นต้น
ระบุลักษณะและรูปแบบของข้อมูล: การสำรวจข้อมูลช่วยให้นักวิเคราะห์สามารถระบุแนวโน้ม (Trends), รูปแบบ (Patterns), ความสัมพันธ์ (Relationships), หรือข้อผิดพลาดในข้อมูลได้
สร้างสมมติฐาน: จากการสำรวจข้อมูล นักวิเคราะห์สามารถสร้างสมมติฐานเกี่ยวกับข้อมูลเพื่อทดสอบในขั้นตอนการสร้างโมเดล (Modeling) หรือการวิเคราะห์ขั้นสูงต่อไป
ระบุความสัมพันธ์: สำรวจความสัมพันธ์ระหว่างตัวแปรต่างๆ เช่น การใช้ Correlation Matrix เพื่อดูความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
ทำความสะอาดข้อมูล: การสำรวจข้อมูลยังช่วยระบุปัญหาของข้อมูล เช่น ข้อมูลที่ขาดหายไป, ค่าผิดปกติ (Outliers), และความไม่สอดคล้องของข้อมูล ซึ่งต้องได้รับการแก้ไขก่อนการวิเคราะห์ขั้นสูง
วิธีการที่ใช้ใน Data Exploratory
สถิติเชิงพรรณนา (Descriptive Statistics): ใช้ในการสรุปและแสดงข้อมูลเช่น ค่าเฉลี่ย (Mean), ค่ามัธยฐาน (Median), ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) เป็นต้น
การสร้างกราฟ (Data Visualization): การสร้างกราฟช่วยให้เห็นภาพรวมและเข้าใจข้อมูลได้ง่ายขึ้น ตัวอย่างเช่น กราฟแท่ง (Bar Charts), กราฟเส้น (Line Charts), ฮีสโตแกรม (Histograms), และกราฟกระจาย (Scatter Plots)
การตรวจสอบความสัมพันธ์ (Correlation Analysis): ใช้เพื่อระบุความสัมพันธ์ระหว่างตัวแปร เช่น การคำนวณค่า Correlation Coefficient
การศึกษาข้อมูล (Data Profiling)
การศึกษาข้อมูล (Data Profiling) เป็นขั้นตอนสำคัญในกระบวนการวิเคราะห์ข้อมูล ซึ่งใช้เพื่อทำความเข้าใจคุณลักษณะต่าง ๆ ของข้อมูลที่มีอยู่ โดยมีการตรวจสอบและประเมินข้อมูลในเชิงสถิติเพื่อระบุรายละเอียดที่สำคัญ เช่น การกระจายของข้อมูล (Data Distribution), การหาค่าผิดปกติ (Outliers), การประเมินคุณภาพของข้อมูล (Data Quality), รวมถึงการตรวจสอบค่าที่หายไป (Missing Values) และความสอดคล้องกันของข้อมูล (Data Consistency) ซึ่งมีวัตถุประสงค์เพื่อทำให้เข้าใจข้อมูลได้อย่างลึกซึ้งก่อนที่จะดำเนินการวิเคราะห์หรือสร้างโมเดลต่อไป การทำ Data Profiling ช่วยให้ผู้วิเคราะห์สามารถระบุปัญหาหรือความไม่สมบูรณ์ของข้อมูลได้ตั้งแต่เนิ่น ๆ และเตรียมการแก้ไขข้อมูล (Data Cleaning) ก่อนเริ่มกระบวนการวิเคราะห์เพิ่มเติม
ขั้นตอนการทำ Data Exploratory บน X-Brain
1. เข้าไปที่ https://x-brain.kin-yoo-dee.com แล้วลงชื่อเข้าใช้ด้วยบัญชีของตนเอง
2. สร้างโปรเจคใหม่ด้วยการกดปุ่ม “+ Create Project”
3. ตั้งชื่อโปรเจค หลังจากนั้นกดปุ่ม “Create Analytic Project”
4. ตั้งค่า template project
กดปุ่ม “…” ของ Project ที่ถูกสร้างขึ้นแล้วเลือกที่เมนู "Config"
ต่อมาให้เลือกหมวด "TIME SERIES ANALYSIS" เพื่อทำการตั้งค่า Project ให้อยู่ในรูปแบบของ "time-series"
5. การนำเข้าชุดข้อมูลตารางขึ้นมายัง X-brain แพลตฟอร์ม
หมายเหตุ: ปัจจุบันการนำเข้าข้อมูลตารางขึ้นแพลตฟอร์มสามารถเลือกได้ 2 ประเภท คือ
ข้อมูลจากอุปกรณ์ (Device)
ข้อมูลสุขภาพ (Health)
คลิกที่ “+ Select Data”
เลือกประเภทของข้อมูลที่ต้องการ
ในกรณีนี้ เลือก “ข้อมูลจากอุปกรณ์ (Device)” ซึ่งแหล่งข้อมูลจากอุปกรณ์ (Device Datasource) ที่ต้องการ โดยจะมีให้เลือก 4 อุปกรณ์ คือ Hivesmart, Amazfit, Apple Watch และ Fishrack
กรอกเลข Device ID ของอุปกรณ์และเลือกวันที่ ที่ต้องการ จากนั้นคลิกที่ “Submit” จะได้ตารางข้อมูลของอุปกรณ์
สามารถกรอง (filter) ข้อมูลด้วยเงื่อนไขที่ต้องการได้ โดยคลิกที่ช่องสี่เหลี่ยมหน้าคำว่า “Add filters”
สามารถแสดงผลของข้อมูลในรูปแบบกราฟได้ โดยเลือกประเภทของข้อมูลที่ต้องการจะแสดง
สามารถศึกษาข้อมูล (Data Profiling) เพื่อดูว่าข้อมูลอยู่ในรูปแบบไหน และมีความผิดปกติ (Missing Value) ของข้อมูลอย่างไรบ้าง โดยคลิกที่ “Generate Report”
ในกรณีที่ต้องการบันทึกไฟล์ศึกษาข้อมูล (Data Profiling) โดยคลิกปุ่ม “Download Report” ซึ่งจะได้เป็นไฟล์นามสกุล .html
คลิกที่ “Select Data”
ตั้งชื่อไฟล์ของชุดข้อมูลคลิกที่ “OK” และจะได้ชุดข้อมูลจากการนำเข้าข้อมูล
6. Data Exploratory เป็นขั้นตอนที่ช่วยปูพื้นฐานสำหรับการวิเคราะห์ข้อมูลในขั้นต่อไป โดยให้ข้อมูลที่ชัดเจนและเชื่อถือได้ในการทำงานต่อไปในกระบวนการวิเคราะห์ข้อมูล ไม่ว่าจะเป็นการเลือกเทคนิคในการสร้างโมเดลหรือการแปลงข้อมูล
เป็นเครื่องมือที่ใช้สำหรับการสำรวจและวิเคราะห์ข้อมูลในรูปแบบของเว็บอินเตอร์เฟซที่ช่วยให้นักวิเคราะห์ข้อมูลสามารถตรวจสอบและทำงานกับข้อมูล Pandas DataFrames โดยมีเครื่องมือหลายประเภทที่ช่วยให้การสำรวจข้อมูลและวิเคราะห์ข้อมูลเบื้องต้นเป็นไปอย่างสะดวกและรวดเร็ว
table (ตาราง): เป็นหน้าจอที่แสดงข้อมูลใน DataFrame ของ Pandas ในรูปแบบของตารางที่สามารถโต้ตอบได้ ผู้ใช้สามารถเลื่อนดูข้อมูล, กรองข้อมูล (Filtering), จัดเรียงข้อมูล (Sorting), และค้นหาค่าที่เฉพาะเจาะจงได้
describe (การสรุปข้อมูล): ฟังก์ชันนี้จะสร้างสถิติพื้นฐาน เช่น ค่าเฉลี่ย (Mean), ค่ามัธยฐาน (Median), ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation), ค่าต่ำสุด (Min), ค่าสูงสุด (Max), และ Percentiles ต่างๆ ซึ่งช่วยในการเข้าใจลักษณะการกระจายตัวของข้อมูล นอกจากนี้ยังมีการแสดงจำนวนค่าที่ขาดหายไป (Missing Values) ในแต่ละคอลัมน์ รวมถึงค่าที่ซ้ำกัน (Duplicated Values) ที่อาจต้องได้รับการแก้ไขก่อนการวิเคราะห์เชิงลึก
charts (แผนภูมิ): เป็นเครื่องมือที่ช่วยในการสร้างแผนภูมิและกราฟต่างๆ สำหรับการสำรวจและวิเคราะห์ข้อมูลเบื้องต้น โดยไม่จำเป็นต้องเขียนโค้ดเพิ่ม ผู้ใช้สามารถเลือกชนิดของกราฟได้หลากหลาย เช่น กราฟแท่ง (Bar Chart), ฮิสโตแกรม (Histogram), กราฟกระจาย (Scatter Plot), กราฟเส้น (Line Chart), และอื่นๆ ตามความเหมาะสมกับลักษณะของข้อมูล เลือกค่าในแกน X และ Y ที่ต้องการแสดงผลในรูปแบบกราฟ
ขั้นตอนการนำเข้าข้อมูล (Import Data)
1. เข้าไปที่ https://x-brain.kin-yoo-dee.com แล้วลงชื่อเข้าใช้ด้วยบัญชีของตนเอง
2. สร้างโปรเจคใหม่ด้วยการกดปุ่ม “+ Create Project”
3. ตั้งชื่อโปรเจค หลังจากนั้นกดปุ่ม “Create Analytic Project”
4. ตั้งค่า template project
กดปุ่ม “…” ของ Project ที่ถูกสร้างขึ้นแล้วเลือกที่เมนู "Config"
ต่อมาให้เลือกหมวด "TIME SERIES ANALYSIS" เพื่อทำการตั้งค่า Project ให้อยู่ในรูปแบบของ "time-series"
5. การอัปโหลดชุดข้อมูลตารางขึ้นมายัง X-brain แพลตฟอร์ม (ในกรณีที่ไม่มีชุดข้อมูลของตนเองสามารถดาวน์โหลดข้อมูลได้ที่ Link โดยในตัวอย่างเลือกไฟล์ “activity_rawdata.csv”)
หมายเหตุ: ปัจจุบันการอัปโหลดไฟล์ข้อมูลตารางขึ้นแพลตฟอร์มสามารถอัปโหลดได้เฉพาะไฟล์ .csv เท่านั้น
จะได้ชุดข้อมูลจากไฟล์ที่อัปโหลด
6. Data Exploratory เป็นขั้นตอนที่ช่วยปูพื้นฐานสำหรับการวิเคราะห์ข้อมูลในขั้นต่อไป โดยให้ข้อมูลที่ชัดเจนและเชื่อถือได้ในการทำงานต่อไปในกระบวนการวิเคราะห์ข้อมูล ไม่ว่าจะเป็นการเลือกเทคนิคในการสร้างโมเดลหรือการแปลงข้อมูล
เป็นเครื่องมือที่ใช้สำหรับการสำรวจและวิเคราะห์ข้อมูลในรูปแบบของเว็บอินเตอร์เฟซที่ช่วยให้นักวิเคราะห์ข้อมูลสามารถตรวจสอบและทำงานกับข้อมูล Pandas DataFrames โดยมีเครื่องมือหลายประเภทที่ช่วยให้การสำรวจข้อมูลและวิเคราะห์ข้อมูลเบื้องต้นเป็นไปอย่างสะดวกและรวดเร็ว
table (ตาราง): เป็นหน้าจอที่แสดงข้อมูลใน DataFrame ของ Pandas ในรูปแบบของตารางที่สามารถโต้ตอบได้ ผู้ใช้สามารถเลื่อนดูข้อมูล, กรองข้อมูล (Filtering), จัดเรียงข้อมูล (Sorting), และค้นหาค่าที่เฉพาะเจาะจงได้
describe (การสรุปข้อมูล): ฟังก์ชันนี้จะสร้างสถิติพื้นฐาน เช่น ค่าเฉลี่ย (Mean), ค่ามัธยฐาน (Median), ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation), ค่าต่ำสุด (Min), ค่าสูงสุด (Max), และ Percentiles ต่างๆ ซึ่งช่วยในการเข้าใจลักษณะการกระจายตัวของข้อมูล นอกจากนี้ยังมีการแสดงจำนวนค่าที่ขาดหายไป (Missing Values) ในแต่ละคอลัมน์ รวมถึงค่าที่ซ้ำกัน (Duplicated Values) ที่อาจต้องได้รับการแก้ไขก่อนการวิเคราะห์เชิงลึก
charts (แผนภูมิ): เป็นเครื่องมือที่ช่วยในการสร้างแผนภูมิและกราฟต่างๆ สำหรับการสำรวจและวิเคราะห์ข้อมูลเบื้องต้น โดยไม่จำเป็นต้องเขียนโค้ดเพิ่ม ผู้ใช้สามารถเลือกชนิดของกราฟได้หลากหลาย เช่น กราฟแท่ง (Bar Chart), ฮิสโตแกรม (Histogram), กราฟกระจาย (Scatter Plot), กราฟเส้น (Line Chart), และอื่นๆ ตามความเหมาะสมกับลักษณะของข้อมูล เลือกค่าในแกน X และ Y ที่ต้องการแสดงผลในรูปแบบกราฟ
Last updated