Các giả định (assumptions) của mô hình hồi quy tuyến tính

Việc hiểu các giả định này là vô cùng quan trọng, vì khi mô hình thỏa mãn các giả định thì chúng ta mới có thể tự tin đưa ra kết luận về các kết quả ước lượng. Nếu mô hình vi phạm bất cứ một giả định nào, kết quả ước lượng có thể bị sai lệch (biased) và/hoặc không đồng nhất (inconsistent) và/hoặc không hiệu quả (inefficient). Chúng ta không thể sử dụng hệ số ước lượng để giải thích cho mối quan hệ mà chúng ta đang nghiên cứu.

Các nguyên nhân và hậu quả của mô hình hồi quy:

Vấn đề thứ hai là các bệnh (3 loại bệnh chính) của mô hình hồi quy đó là đa cộng tuyến, tự tương quan và phương sai sai số thay đổi. Nói sơ về các bệnh, ví dụ như đa cộng tuyến là trường hợp mà các biến độc lập có mức tương quan mạnh với nhau, 2 biến này có khả năng thay thế hoặc bổ sung cho nhau hoàn toàn. Bệnh cũng tương đối dễ chữa, nên cũng đừng quá lo lắng. Bệnh thứ 2 là phương sai sai số thay đổi, thì bản chất bệnh này khá trừu tượng để hình dung khi phương sai của biến phụ thuộc có mức thay đổi tương đồng nhau hoặc không đổi và bệnh này cũng dễ chữa bằng cách dùng ước lượng robust. Bệnh thứ 3 là tự tương quan. Bệnh này cho thấy bản chất các giá trị trong chuỗi, trong biến có sự tương quan với nhau. Theo hocthue.net thì các bệnh này rất quan trọng đối với các mô hình nghiên cứu chuỗi thời gian và dự báo. Để chữa thì chúng ta cần sử dụng mô hình như DiD (Difference – Difference), phương pháp Durbin – Watson (1 bước hoặc 2 bước), thủ tục lặp Cochrane – Orcutt (1 bước hoặc 2 bước), … cũng có mô hình khó cũng có mô hình dễ, nên ad sẽ cố gắng lấy những ví dụ dễ hiểu nhất.

Hệ quả:

Trước tiên, Học thuê.net muốn giải thích hai tính chất khá quan trọng của một ước lượng – đó là tính không sai lệch (unbiased) và tính đồng nhất (consistent).
Unbiased: nghĩa là khi chúng ta thực hiện hồi quy nhiều lần cho một mô hình trên nhiều mẫu nghiên cứu có cùng quy mô là N quan sát, giá trị trung bình của các hệ số ước lượng sẽ thể hiện cho giá trị thực (true value) của hệ số hồi quy. Chúng ta có thể dùng lệnh simulate trong STATA  hoặc để thực hiện công đoạn này.

Consistent: nghĩa là khi chúng ta càng gia tăng quy mô của mẫu nghiên cứu, hệ số ước lượng sẽ tiến về giá trị thực của hệ số hồi quy.
Ngoài ra, tính hiệu quả (efficient) của ước lượng có nghĩa là ước lượng mà chúng ta có được là ước lượng tốt nhất của một phương pháp hồi quy nhất định. Ví dụ, nếu chúng ta sử dụng phương pháp ước lượng OLS, ước lượng tốt nhất phải là các giá trị của hệ số hồi quy làm cho tổng bình phương sai số là nhỏ nhất. 

Có nhiều cách để nhóm các giả định này, nhưng trong bài viết này thì Học Thuê .net chia thành 7 giả định chính.

1. Đây là mô hình hồi quy tuyến tính nên các hệ số hồi quy ở dạng hằng số (linear in the parameters)

Điều này nghĩa là trong thiết kế mô hình mà các bạn chạy, các hệ số hồi quy phải là các hằng số, chứ nó không nằm ở  được có dạng số mũ, dạng log, hay tỷ số.

Ví dụ: yi = β1 + β2xi

Hệ số hồi quy sẽ không ở dạng tuyến tính nếu hàm số bạn ước lượng có dạng sau:
yi = β1 + β2xi2


2. Biến độc lập là cố định hoặc phi ngẫu nhiên (fixed or nonstochastic)

Điều này nghĩa là giá trị của biến độc lập (các biến X1, X2…) sẽ không thay đổi khi thay đổi mẫu nghiên cứu. Điều kiện này rất khó để đáp ứng trong các nghiên cứu vì khi chúng ta chọn mẫu khác nhau thì khả năng cao là biến độc lập sẽ thay đổi, 
Nói cách khác rằng dự đoán chính xác các sự kiện ngẫu nhiên là không thể.

Ví dụ: Số cuộc điện thoại mà trung tâm chăm sóc khách hàng nhận được trong một giờ tới.
Trường hợp quá trình phi ngẫu nhiên được gọi là cố định. Như vậy trong phân tích hồi quy, giả định rằng biến phụ thuộc có bản chất ngẫu nhiên và các biến giải thích có bản chất không ngẫu nhiên.

3. Các biến độc lập có phương sai lớn hơn 0

Phương sai thì ở dạng bình phương nên nó luôn luôn lớn hơn 0 rồi. Tuy nhiên nếu nó bằng 0 thì có nghĩa là ko có sự khác biệt giữa các biến X. Nếu vậy, sẽ rất khó để xác định được X ảnh hưởng như thế nào đến Y. Ví dụ như ta muốn nghiên cứu ảnh hưởng của thu nhập đến chi phí thức ăn của các gia đình. Nếu các gia đình trong mẫu nghiên cứu đều có thu nhập là 7 triệu, chi phí thức ăn của họ có thể như nhau. Vậy nên chúng ta cần một sự đa dạng trong các giá trị X mà mình nghiên cứu. Ví dụ có gia đình 7 triệu, có gia đình 10 triệu, 20 triệu,v.v…Khi đó, ảnh hưởng của thu nhập đến chi phí cho thức ăn có thể khác nhau.

Khi 3 điều kiện này được đáp ứng, nó sẽ đảm bảo sự tồn tại của hệ số hồi quy tuyến tính.

Các giả định tiếp theo sẽ đảm bảo cho hệ số hồi quy không bị chệch, nhất quán và  tính hiệu quả. 

3. Giá trị trung bình của các sai số (theo các giá trị đã cho của X/conditional on X) bằng không: E(u|X) = 0

Sai số của mô hình thể hiện cho ảnh hưởng của các yếu tố khác đến Y mà chúng ta không quan sát được. Sai số này là hiệu số giữa giá trị thực của Y (giá trị quan sát được) và giá trị ước lượng của Y (tính toán dựa trên mô hình Y = a + bX).

Mình minh hoạ theo ví dụ sau nhé:

Y    X    a    b    Y^    u
7    4    1    2    9    -2
10    5    1    2    11    -1
15    7    1    2    15    0
20    9    1    2    19    1
9    3    1    2    7    2
16    7.5    1    2    16    0
Giả sử chúng ta có giá trị của Y và X như trên Khi chạy mô hình có dạng Y = a + bX + u, ta thu được a =1 và b=2. Theo đó, ta có thể tính được giá trị ước lượng Y^ và tính được sai số cho từng quan sát. Các sai số này không nhất thiết phải bằng 0, nhưng giá trị trung bình của chúng thì bằng 0.

4. Phương sai của các sai số là một hằng số (homoskedasticity – phương sai sai số không đổi): Var(u|X) = σ^2

Giả định này nhằm đảm bảo rằng ảnh hưởng của X lên biến Y là như nhau giữa các quan sát, tránh trường hợp hệ số ước lượng bị “kéo” bởi một nhóm quan sát nhất định. Nếu giả định này bị vi phạm thì ước lượng OLS vẫn là ước lượng không thiên lệch nhưng sẽ không còn là ước lượng tốt nhất nữa. Hiện tượng lỗi này của mô hình được gọi là phương sai sai số thay đổi (heteroskedasticity).
 
Trong ví dụ này, chúng ta có một ngoại lệ rõ ràng. Nhiều phần dư có giá trị dự đoán thấp hơn là dương (những phần này nằm trên đường tâm của số 0), trong khi nhiều phần dư cho giá trị dự đoán cao hơn là âm.

5. Các sai số phần dư không được có mối quan hệ với nhau ( No autocorrelation): Cov(ui,uj) = 0

Khi các phần dư được tự tương quan, có nghĩa là giá trị hiện tại phụ thuộc vào các giá trị trước đó (lịch sử) và có một mẫu xác định không giải thích được trong biến Y hiển thị trong các nhiễu.
Giả định này thông thường bị vi phạm khi chúng ta thực hiện hồi quy trên dữ liệu theo thời gian. Đây là dữ liệu cho một đối tượng nhưng trên nhiều khoảng thời gian, nên quan sát ở năm t thường hay có mối quan hệ với quan sát ở năm t-1. Khi giả định này bị vi phạm, hệ số ước lượng vẫn sẽ không thiên lệch và nhất quán, nhưng không còn là ước lượng hiệu quả nữa. 

6. Các biến độc lập của mô hình không được có mối quan hệ tuyến tính hoàn hảo với nhau (no multicollinearity). 

Nếu chúng ta có X1 = 2X2 + 5X3, điều này có nghĩa là các biến độc lập có mối quan hệ tuyến tính với nhau. Ảnh hưởng của biến X1, X2, X3 đến Y sẽ rất khó được tách rời. Khi giả định này bị vi phạm, khả năng bác bỏ các hệ số hồi quy cao hơn và mô hình trở nên không có ý nghĩa. Hiện tượng lỗi này của mô hình được gọi là đa cộng tuyến (multicollinearity)

7. Đúng dạng hàm cho mô hình hồi quy (no specification error)

Giả định này có nghĩa là chúng ta không bỏ sót biến quan trọng, không đưa các biến thừa vào mô hình, dạng mô hình là đúng, các biến được đo lường chính xác, không có các outlier trong mô hình, v.v…

Lỗi sai phạm quan trọng nhất trong các trường hợp trên là việc bỏ sót biến quan trọng (omission bias). Ý tưởng cơ bản là khi bạn chọn một mô hình cuối cùng, bạn muốn chọn một mô hình thể hiện chính xác mối quan hệ thực giữa các biến.

 Khi một biến quan trọng nào đó bị bỏ sót, ảnh hưởng của biến đó sẽ nằm trong sai số của mô hình và có thể có quan hệ với các biến độc lập trong mô hình. Đây là một lỗi vô cùng nghiêm trọng của mô hình vì khi biến độc lập và sai số của mô hình có quan hệ với nhau (Cov(X, u) ≠ 0), các ước lượng sẽ bị thiên lệch và không nhất quán. Hiện tượng lỗi này được gọi tên là hiện tượng ngoại sinh (endogeneity). Đây là một trong những hiện tượng khó xử lý nhất trong kinh tế lượng và trở thành mối quan tâm lớn nhất khi ước lượng các mô hình, đặc biệt là đối với hồi quy dữ liệu bảng.


Cuối cùng thì Hocthue.net cũng hoàn thành xong các bài viết giới thiệu về các giả định của mô hình hồi quy tuyến tính. Các bạn có thể nghiên cứu để làm tiểu luận tốt hơn nhé. Hocthue.net các bạn sẽ hiểu và nắm rõ các thuật ngữ này. 


Tài liệu tham khảo:

https://stataguide.wordpress.com/2020/04/19/cac-gia-dinh-cua-mo-hinh-ho…