Hướng dẫn cơ bản về xác suất thống kê

Trong các sách giáo trình, bài giảng nói chung đưa các khái niệm mang tính hàn lâm, khoa học nên đôi khi ta đọc sách thấy khá khó hiểu. Bài viết này giới thiệu các khái niệm trong xác suất thống kê:

1. Biến và các chỉ số đánh giá mẫu.

 Sự kiện ngẫu nhiên là gì? Trong cuộc sống có những sự kiện ngẫu nhiên, giả sử như số lượng người đi qua đường, sự kiện thiên thạch rơi vào trái đất, con bò nó đi vệ sinh vào thời điểm nào…. Gần như chúng ta không thể biết trước được những sự kiện như vậy và chúng ta gọi đó là sự kiện ngẫu nhiên.

Từ các sự kiện ngẫu nhiên khi dùng trong học thuật họ gọi là biến ngẫu nhiên. Biến (variable) được dùng trong khoa học khi chúng ta phải thống kê lại các sự kiện quy chúng về biến. Giả dụ người ta gọi X là biến số lượng thiên thạch rơi vào trái đất trong 10 năm tới.

Có 2 loại biến, biến ngẫu nhiên rời rạc và liên tục. Thông thường biến ngẫu nhiên rời rạc là các số nguyên như số lượng người ra vào một siêu thị (đếm được). Biến rời rạc thông thường là số thực, chẳng hạn như chiều cao của người dân Việt Nam.

Hàm mật độ xác suất nếu định nghĩa trong các sách sẽ là xác suất của biến ngẫu nhiên cho tất cả các giá trị của nó.

 

Giả sử số lượng người ra vào một quán café được gọi là biến X theo giờ được tính như sau:

Thời gian

Số lượng người

8

1

9

2

10

4

11

4

12

12

 

Chúng ta sắp xếp lại dữ liệu cho nó “khoa học”

 

 

Số lượng người

Số lần xuất hiện

1

1

2

1

4

2

12

1

 

Hàm mật độ xác suất của số lượng người như sau:

 

Số lần xuất hiện

Xác suất

1

1

0,25

2

1

0,25

4

2

0,5

12

1

0,25

Thông thường nó sẽ có dạng như sau:

Để cho dễ hiểu hơn,  Chúng ta hãy xét ví dụ về điểm của 1 lớp như sau: có đồ thị như sau:

ví dụ về phân phối xác suất

- Phương sai và độ lệch chuẩn (variance và standard deviation) là các khái niệm hay đo lường dữ liệu. Chúng ta hãy xét ví dụ về điểm của 1 lớp như sau:

Điểm

Số lượng học sinh có điểm này

2

4

3

5

4

8

5

27

6

12

7

9

8

4

Câu hỏi đặt ra là điểm trung bình của lớp bao nhiêu?  Nhìn vào dữ liệu trong bảng trên chưa thống kê chúng ta cũng có thể đoán được điểm trung bình trong khoảng 5 điểm.

Trong thống kê, người ta phải đo lường chất lượng mẫu trên bằng các tham số hay chỉ tiêu cụ thể. Người ta sẽ đặt câu hỏi rằng

1. Nhiều sinh viên có điểm ở gần điểm trung bình không? Hay là lớp này có 50% học sinh được 2 điểm, 50% còn lại 8 điểm. Bởi vì trung bình cộng cũng khoảng 5 điểm. Hay lớp này 50% đạt 4 điểm, 50% còn lại đạt 6 điểm – trung bình cộng cũng khoảng 5 điểm.

2. Dữ liệu trên ta có thể đi tới các khái niệm về hiệp đồng phương sai(Covariance, nói về phương sai giữa các biến ngẫu nhiên), tương quan (Correlation, mức độ mạnh yếu của các quan hệ giữa các biến ngẫu nhiên). Tuy nhiên bạn có thể tham khảo thêm các sách khác.

Ví dụ về

Điểm

Số lượng học sinh có điểm này

p(x)

X*p(x)

(X-E(X))^2.p(x)

2

4

0,057971

0,115942

0,583984

3

5

0,0724638

0,217391

0,342456371

4

8

0,115942

0,463768

0,159776444

5

27

0,3913043

1,956522

0,011835292

6

12

0,173913

1,043478

0,11868168

7

9

0,1304348

0,913043

0,434946988

8

4

0,057971

0,463768

0,463001014

Tổng

69

1

5,173913

2,11468179

E(X)=5,174

Vậy phương sai =2,1146 và độ lệch chuẩn sd=1,45

Ý nghĩa rằng, từ độ lệch chuẩn ta thấy điểm trung bình là 5,174. Độ lệch chuẩn 1,45 ở mức trung bình, chứng tỏ mức độ giao động quanh điểm trung bình của sinh viên toàn lớp (E(X)=5,17) cũng ở mức trung bình. Điều này chứng tỏ cái lớp này tỷ lệ học sinh chênh lệch nhau cũng không nhiều. Điểm của lớp tập chung chủ yếu từ 3 điểm(5,17 -1,45) đến 7 điểm (5,17+1,45).

2. Các phân phối của hàm mật độ xác suất.

Nếu hàm mật độ xác suất có các biến ngẫu nhiên ở trên tuân theo một quy luật nào đó hình chuông thì nó ta gọi đó là phân bố mật độ xác suất chuẩn.

Hàm mật độ xác suất (pdf) là cách mô tả dữ liệu đã được thu thập từ một phép đo hoặc nhiều phép đo. Mật độ xác suất đơn giản là xác suất của một biến tồn tại giữa hai giá trị ràng buộc một khoảng. Khu vực dưới pdf luôn là 1 hoặc 100%. Có một số lượng lớn các hàm mật độ xác suất (pdf) hữu ích trong nhiều ứng dụng như hình chuông, hình xung vuông và hình tam giác

Hình: Hàm mật độ hình chuông.

Hình vẽ này giống hình chuông, người ta gọi là phân phối xác suất chuẩn.

Trong đó μxhay E(x) là giá trị trung bình. s là độ lệch chuẩn. Trong khoảng  μx-s tới  μx+s  sẽ có 68% 1 biến cố ngẫu nhiên xảy ra.  

Giả sử cái lớp học sinh ở trên ta tính được E(x)=5,17, s=1,45 tuân theo quy luật phân phối chuẩn này thì có ý nghĩa là tóm 1 thằng trong lớp bất kỳ thì sẽ có 68% nó nằm trong khoảng 5,17-1,45=3,72 điểm cho tới 5,17+1,45=6,67 điểm.

Kết luận:

Mặc dù có nhiều khái niệm quan trọng về xác suất mà bạn cần lưu ý trong quá trình làm bài tập, làm tiểu luận thống kê phải dùng khá nhiều và đặc biệt là làm luận văn tiếng Anh trong giáo dục sử dụng rất nhiều thống kê. Hocthue.net chúc các bạn hiểu rõ thống kê để làm bài tập, làm luận văn tốt nhất.

 

Tham khảo:

https://www.nde-ed.org/GeneralResources/Uncertainty/pdfs.htm

https://en.wikipedia.org/wiki/Probability_density_function