HOCTHUE.NET: Hướng dẫn bắt đầu sử dụng Stata

1. Giới thiệu về Stata

Stata là phần mềm thống kê mạnh mẽ với các phương tiện quản lý dữ liệu thông minh. Mục đích có thể sử dụng làm nghiên cứu trong quá trình làm luận văn, học các khoá học về định lượng và làm bài tập hoặc làm tiểu luận. Trong hướng dẫn này, hocthue.net sẽ bắt đầu với phần giới thiệu nhanh và tổng quan, sau đó giới thiệu 1 bài tập mẫu và bài giải về stata để bạn hiểu rõ hơn.

Giao diện của Stata cơ bản như sau:

Phần mềm stata 15 — Giao diện Stata phiên bản 15

Ở bên trái có cửa sổ có tên "Command" là nơi bạn nhập lệnh cho Stata.

Ở giữa có cửa sổ Stata hiển thị kết quả trong cửa sổ lớn nhất được gọi là của sổ Kết quả.

Ở bên phải có cửa số Biến(variables) liệt kê các biến trong tập dữ liệu của bạn. Cửa sổ Thuộc tính (Properties) ở bên dưới hiển thị các thuộc tính của các biến và tập dữ liệu của bạn.

2. Một số bài tập về stata

Bài giải tham khảo

Câu 1: Giả sử nghiên cứu tỷ lệ tội phạm tại Việt Nam thì mô về phạm tội có thể nghiên cứu bằng các yếu tố ảnh hưởng như sau:

Theo các nhà tội phạm học đã xác định được nhiều yếu tố ảnh hưởng đến tỷ lệ tội phạm như yếu tố xã hội, kinh tế, cá nhân. Một số yếu tố quan trọng nhất được xác định bao gồm:

Tuổi: Theo các nhà tội phạm học, người cao niên không phạm tội nhiều so với thanh thiếu niên. Họ (các nhà tội phạm học) do đó cho rằng dân số thiếu niên có tỷ lệ tội phạm rất cao.
Nên kinh tê: Một số nhà tội phạm tin rằng một nền kinh tế nghèo nàn, GDP thấp là nguyên nhân gây ra tỷ lệ thất nghiệp cao và do đó gây ra tội phạm.
Vấn đề xã hội: Khi mức độ của các vấn đề xã hội tăng lên như số lượng các gia đình cha mẹ độc thân, học sinh bỏ học có thể gây ảnh hưởng đến tâm lý tội phạm.

Mô hình có thể là:

Câu 2:

a) Đồ thị trung tung FE tức là chi tiêu thức ăn và trục tung TE là tổng chi tiêu như bên dưới.

Gọi FE (food Expenditure) là biến phụ thuộc và TE (Total Expenditure) là biến độc lập ta được kết quả mô hình như sau:

Source	SS df	MS	Number of obs =	55
	F( 1, 53)	= 31.10
Model	139022.82	1 139022.82	Prob > F	= 0.0000
Residual	236893.616	53 4469.69087	R-squared	= 0.3698
	Adj R-squared	= 0.3579
Total	375916.436	54 6961.41549	Root MSE	= 66.856

fe	Coef.	Std. Err. t	P>t [95% Conf.	Interval]

te	.4368088	.0783226 5.58	0.000 .2797135	.593904
_cons	94.20878	50.85635 1.85	0.070 -7.796134	196.2137

Ta được mô hình hồi quy tổng thể đó là

FE= 94.20878+ 0.436809FE +u

Do hệ số TE dương nên ta kết luận rằng chi tiêu mua lương thực tăng tuyến tính với tổng chi tiêu.

Câu 3:

Kết qua mô hình giữa ln(wage) và educ như sau:

Ta thấy hệ số phù hợp R-squared là 0.1858 ta thấy ý nghĩa rằng giáo dục giải thích 22% của biến lnwage

Hệ số p-value =0 chứng tỏ nếu kiểm định R² ≠0 . Thông thường nếu p-value =0 có thể kết luận mô hình là có ý nghĩa quan hệ giữa ln(wage) và edu tức là giáo dục có mối quan hệ với logarit tiền lương.

Ta có thể viết lại mô hình hồi quy như sau:

Ln(wage)= 0.5837727 + 0.082744 educ +u

Ta có mô hình như sau:

wage= -0.9048516 + 0.5413593*educ +u

Ta được kết quả và đồ thị sau:

Trong đó hệ đường cao hơn là đường wage và thấp hơn là ln(wage). Ta thấy hệ số thấp hơn bởi vì mô hình hổi quy ln trong một mô hình hồi quy là một cách rất phổ biến để xử lý các tình huống mà một mối quan hệ phi tuyến tồn tại giữa các biến độc lập và phụ thuộc. Sử dụng logarit để đánh giá cho mối quan hệ hiệu quả phi tuyến tính.. Do đó hệ số góc của mô hình ln sẽ thấp hơn mô hình tuyến tính không phải logarit.

Câu 4.

/* Thiết lập 100 quan sát */

set obs =100

/* Thiết lập x từ 1 đến 100 */

gen x=_n

/* tạo u với hàm phân phối chuẩn có độ lệch tiêu chuẩn là 9 và trung bình là 0 */

gen u= rnormal(0,9)

/* tạo y */

gen y= 25+ 0.5*x+u

regress y x

/*Sau đó lặp lại để xem sự thay đổi */

. replace u=rnormal(0,9)

(100 real changes made)

. replace y=25+0.5*x+u

(100 real changes made)

. regress y x

Bảng 50 biến hệ số và hằng số của mô hình bên dưới:

STT	Hệ số	Hằng số
1	0.559146	22.01877
2	0.496917	24.47293
3	0.559421	23.08086
4	0.477793	25.17664
5	0.634216	24.43563
6	0.531187	23.03467
7	0.579003	25.34174
8	0.434642	24.59241
9	0.425048	23.10669
10	0.655447	25.23225
11	0.545225	24.72915
12	0.440208	23.00782
13	0.462175	25.05967
14	0.534416	24.75997
15	0.486741	23.10199
16	0.583187	25.22057
17	0.503988	24.88844
18	0.407302	22.9527
19	0.701233	25.26039
20	0.528918	24.92657
21	0.428679	22.97768
22	0.775209	25.26597
23	0.680537	25.00867
24	0.499697	22.91682
25	0.579524	25.30272
26	0.505199	25.14032
27	0.437763	22.79972
28	0.458293	25.18758
29	0.510882	25.21255
30	0.412656	22.6339
31	0.415013	25.35426
32	0.655899	25.30749
33	0.437684	22.78882
34	0.401382	25.34872
35	0.656958	25.31893
36	0.419503	22.88048
37	0.426417	25.42346
38	0.425212	25.30239
39	0.401355	22.73032
40	0.484928	25.43568
41	0.436463	25.40308
42	0.412919	22.8271
43	0.414379	25.30417
44	0.499664	25.22376
45	0.401093	22.83304
46	0.440595	25.42079
47	0.445569	25.30174
48	0.440272	22.91587
49	0.488007	25.24615
50	0.472239	25.20093

Câu 5:

Trị số P, dù cực kì thông dụng trong nghiên cứu khoa học, không phải là một phán xét cuối cùng của một công trình nghiên cứu hay một giả thuyết.

Thông thường khi nhà khoa học muốn kiểm tra xem liệu phụ gia thực phẩm có gây ung thư hay thuốc chữa bệnh, nhà khoa học cho rằng nó không - giả thuyết không - và sau đó thực hiện thử nghiệm so sánh thuốc hoặc thuốc với giả dược hoặc một loại thuốc khá. Nếu có nhiều người sống sót hơn với thuốc so với giả dược, thì nhà khoa học sẽ kết luận thuốc sẽ hoạt động tốt. Điều này cũng có thể xảy ra để thấy rằng các kết quả này cũng có thể mang tính may mắn.

Trị số P có nhiều vấn đề, và việc phụ thuộc vào nó trong quá khứ (cũng như hiện nay) đã bị rất nhiều người phê phán gay gắt. Cái khiếm khuyết số 1 của trị số P là nó thiếu tính logic.

Thật vậy, nếu chúng ta chịu khó xem xét lại ví dụ trên, chúng ta có thể khái quát tiến trình của một nghiên cứu khoa học (dựa vào trị số P) như sau:

• Đề ra một giả thuyết chính (H)

• Từ giả thuyết chính, đề ra một giả thuyết đảo (Ho)

• Tiến hành thu thập dữ kiện (D)

• Phân tích dữ kiện: tính toán xác suất D xảy ra nếu Ho là sự thật. Nói theo ngôn ngữ toán xác suất, bước này xác định P(D | Ho).

Vì thế, con số P có nghĩa là xác suất của dữ kiện D xảy ra nếu (nhấn mạnh: “nếu”) giả thuyết đảo Ho là sự thật. Như vậy, con số P không trực tiếp cho chúng ta một ý niệm gì về sự thật của giả thuyết chính H; nó chỉ gián tiếp cung cấp bằng chứng để chúng ta chấp nhận giả thuyết chính và bác bỏ giả thuyết đảo

Tài liệu cơ bản về Stata bao gồm Help của Stata và Hướng dẫn tham khảo cơ sở ( Base Reference Manual) về từng mục lớn của Stata từ Quản lý dữ liệu, Đồ họa và Chức năng... Các bạn có thể tham khảo các sách như
Acock - A Gentle Introduction to Stata
Lawrence Hamilton- Statistics with Stata
Scott Long and Jeremy Freese- Regression Models for Categorical Dependent Variables Using Stata (3rd edition);