Phân tích dữ liệu khám phá là một công cụ quan trọng trong lĩnh vực khoa học dữ liệu và phân tích thống kê cho lĩnh vực kinh tế. Công cụ này cung cấp cái nhìn sâu sắc hơn về các hiện tượng và quy luật tồn tại trong dữ liệu.
Nhà thống kê John Tukey (1915-2000) là người phát triển và phổ biến phương pháp phân tích dữ liệu khám phá.
Theo hocthue.net, lợi ích của nó đối với doanh nghiệp, kinh doanh rất lớn vì nó cung cấp những thông tin quyết định dựa trên dữ liệu, giúp ích trong các lĩnh vực cụ thể như kế toán quản trị, quản trị tài chính, quản trị sản xuất của doanh nghiệp.
Trong bài viết này, chúng ta sẽ tìm hiểu về khái niệm cơ bản của phân tích dữ liệu khám phá các đặc điểm, biến đổi, và mối quan hệ trong dữ liệu mà có thể ẩn sau các số liệu kinh doanh.
Khái niệm về phân tích dữ liệu khám phá.
Phân tích dữ liệu khám phá là quá trình khám phá dữ liệu để hiểu rõ hơn về tính chất và cấu trúc của nó mà không có sự giả định trước về kết quả.
Về phương pháp và công cụ thì là việc sử dụng các phương pháp thống kê mô tả và trực quan hóa dữ liệu để tìm ra các mẫu, xu hướng, và hiểu biết mới.
Phân tích dữ liệu khám phá là bước quan trọng đầu tiên trong quá trình nghiên cứu và phân tích dữ liệu. Nó cung cấp cơ sở cho các phân tích tiếp theo và giúp định hình chiến lược làm việc với dữ liệu hiệu quả hơn.
Bước 1: Thu thập dữ liệu
Bước đầu tiên này là nơi dữ liệu được thu thập từ nhiều nguồn khác nhau để phân tích tiếp theo. Những nguồn như báo cáo kinh doanh, báo cáo doanh thu của doanh nghiệp.
Bước 2. Thống kê mô tả (descriptive statistics).
Thống kê mô tả cung cấp một cái nhìn tổng quan ngắn gọn về cách phân phối và các mẫu của tập dữ liệu, được gói gọn thông qua các số liệu như giá trị trung bình, trung vị, chế độ, phương sai, độ lệch chuẩn, phạm vi (lớn nhất đến nhỏ nhất), phần trăm và phần tư.
Nhìn bảng số liệu tóm tắt ta sẽ những hiểu biết nhanh chóng về mô hình và sự phân bổ của dữ liệu. Những hiểu biết ban đầu này đóng vai trò là cơ sở để khám phá sâu hơn và phân tích chuyên sâu hơn như độ lệch phân bố dữ liệu.
Bước 3. Chuẩn bị dữ liệu cho phân tích dữ liệu khám phá EDA
Trước khi bắt đầu khám phá, dữ liệu thường cần được chuyển đổi, tổng hợp hoặc làm sạch dữ liệu để phù hợp với nhu cầu phân tích. Bước này được điều chỉnh theo cấu trúc của dữ liệu và có thể bao gồm nhóm (join), nối thêm (append), hợp nhất, sắp xếp, phân loại và xử lý các biến. Kinh nghiệm của hoc thue.net thì quá trình chuẩn bị dữ liệu dạng bảng không tuân theo một phương pháp chung; thay vào đó, nó được định hình bởi các đặc điểm cụ thể của dữ liệu của chúng ta, bao gồm các hàng, cột, loại dữ liệu và các giá trị chứa trong đó.
Bước 4. Trực quan hóa dữ liệu
Trực quan hóa là thành phần cốt lõi của EDA, giúp dễ dàng hiểu được các mối quan hệ và xu hướng phức tạp trong tập dữ liệu. Việc sử dụng biểu đồ phù hợp có thể giúp chúng tôi xác định xu hướng trong một tập dữ liệu lớn và tìm ra các mẫu hoặc ngoại lệ ẩn. Các công cụ phổ biến là Power BI, Infogram..
Chẳng hạn, trực quan hoá dữ liệu giúp phát hiện histogram, sự biến động của dữ liệu như hình vẽ dưới đây
Bước 5. Thực hiện phân tích biến (đơn biến, đa biến).
Phân tích biến có thể là đơn biến, hai biến hoặc đa biến. Phân tích rõ từng biến sẽ, cặp biến có cái nhìn sâu sắc về sự phân bố và mối tương quan giữa các biến trong tập dữ liệu. Các kỹ thuật khác nhau tùy thuộc vào số lượng biến được phân tích:
a) Phân tích đơn biến.
Trọng tâm chính trong phân tích đơn biến là kiểm tra từng biến trong tập dữ liệu. Chúng ta có thể khám phá những thông tin chuyên sâu như giá trị trung bình, chế độ, phạm vi và giá trị ngoại lệ. Kiểu phân tích này có thể áp dụng cho cả biến phân loại và biến số.
b) Phân tích Hai biến
Phân tích hai biến nhằm mục đích tiết lộ những hiểu biết sâu sắc giữa hai biến được chọn và tập trung vào việc tìm hiểu sự phân phối và mối quan hệ giữa hai biến này. Khi chúng tôi phân tích hai biến cùng lúc, loại phân tích này có thể phức tạp hơn. Nó có thể bao gồm ba cặp biến khác nhau: số-số, số-phân loại và phân loại-phân loại.
Khi phân tích 2 biến thì học thuê.net thường sử dụng bảng chéo để phân tích. Bảng tham chiếu chéo (crosstab hay contingency table) thường được dùng trong khảo sát các biến danh mục (categorical variable) và biến định lượng nhưng đã được phân nhóm, hoặc thuộc loại rời rạc.
Biến `Y` | ||||||
---|---|---|---|---|---|---|
`Y_1` | `Y_2` | . . . | `Y_j` | . . . | ||
Biến `X` | `X_1` | `f_(11)` | `f_(12)` | . . . | `f_(1j)` | . . . |
`X_2` | `f_(21)` | `f_(22)` | . . . | `f_(2j)` | . . . | |
. . . | . . . | . . . | . . . | . . . | . . . | |
`X_i` | `f_(i1)` | `f_(i2)` | . . . | `f_(ij)` | . . . | |
. . . | . . . | . . . | . . . | . . . | . . . |
Bước 6. Phân tích dữ liệu chuỗi thời gian.
Mặc dù có nhiều kiểu dữ liệu như dữ liệu chéo (cross-sectional data) , dữ liệu bảng (panel data) , dữ liệu chuỗi thời gian (time series) là dữ liệu quan trọng, phổ biến nhất.
Khi phân tích dữ liệu chuỗi thời gian, chúng ta thường có thể phát hiện ra kiểu dáng của dữ liệu. Các thành phần chính có thể có của dữ liệu chuỗi thời gian bao gồm xu hướng, biến đổi theo mùa, biến đổi theo chu kỳ hoặc bất thường hoặc nhiễu không đều.
Bước 7. Xử lý các giá trị ngoại lệ và giá trị bị thiếu.
Các giá trị ngoại lệ và giá trị bị thiếu có thể làm sai lệch kết quả phân tích nếu không được xử lý đúng cách. Việc xác định, loại bỏ hoặc thay thế các điểm dữ liệu này là rất quan trọng để duy trì tính toàn vẹn của phân tích dữ liệu. Do đó, điều cực kỳ quan trọng là phải giải quyết hợp lý trước khi bắt đầu phân tích dữ liệu của chúng ta.
Các ngoại lệ là các điểm dữ liệu có độ lệch đáng kể so với phần còn lại. Chúng thường có giá trị cao hoặc thấp bất thường.
Giá trị bị thiếu là sự vắng mặt của các điểm dữ liệu tương ứng với một biến hoặc quan sát cụ thể.
Bước đầu tiên quan trọng trong việc xử lý các giá trị bị thiếu và các giá trị ngoại lệ là hiểu lý do tại sao chúng có mặt trong tập dữ liệu. Sự hiểu biết này thường hướng dẫn việc lựa chọn phương pháp phù hợp nhất để giải quyết chúng.
Kết luận phân tích dữ liệu khám phá với mục đích là khám phá dữ liệu. Thông qua 7 bước mà học thuê.net giới thiệu, EDA sẽ trang bị cho các nhà phân tích những công cụ cần thiết để trích xuất những hiểu biết có ý nghĩa từ dữ liệu, như xây dựng giả thuyết, thiết lập mô hình đối với doanh nghiệp.
Khi bạn có nhu cầu bài tập, đồ án về phân tích dữ liệu có thể liên hệ hocthue.net để được hỗ trợ, tư vấn nhé.