Bài 2. Kiểm tra nhị thức (Binomial test)
1. Khi nào sử dụng?
Bài kiểm tra này đặc biệt hữu ích khi nhà nghiên cứu tin rằng tỷ lệ dân số thuộc một trong hai loại là 0.5 của sự chỉ định (hoặc một tỉ lệ chỉ định khác, chẳng hạn 0.7). Nếu P1 bằng tỷ lệ các quan sát trong một danh mục thì 1 − P1 (đôi khi được gọi là Q) là tỷ lệ các quan sát trong danh mục kia.
Bài kiểm tra nhị thức, còn được gọi là kiểm tra tỷ lệ một mẫu, có thể được sử dụng để xác định xem tỷ lệ của trường hợp (ví dụ, “bệnh nhân”, “khách hàng tiềm năng”, “nhà”, “đồng xu”) trong một trong hai danh mục có thể có (ví dụ: bệnh nhân có nguy cơ mắc bệnh tim “cao” hoặc “thấp”, khách hàng tiềm năng “có khả năng” hoặc “không có khả năng” mua, nhà “lún” hoặc “không lún”, “đầu” hoặc “đuôi” xuất hiện sau khi tung đồng xu) bằng một tỷ lệ được chỉ định trước (ví dụ: tỷ lệ 0.17 bệnh nhân có nguy cơ mắc bệnh tim thấp).
Tỷ lệ được chỉ định trước này có thể là: (a) một giá trị giả định (ví dụ: 0.5), được chọn vì lý do lý thuyết , chẳng hạn (ví dụ: về mặt lý thuyết có “cơ hội ngang nhau” của một trong hai danh mục được chọn, chẳng hạn như “đầu” hoặc “sấp” khi tung đồng xu); hoặc (b) một giá trị đã biết , dựa trên kiến thức hiện tại , chẳng hạn (ví dụ: 10% bệnh nhân, tỷ lệ này là 0.1, đã được chẩn đoán trước đây là có nguy cơ mắc bệnh tim “cao”).
2. Suy luận thống kê và giả thuyết vô hiệu
Các tham số ước tính là tỷ lệ dân số. Giả thuyết vô hiệu thường là H0: π (tỷ lệ dân số) bằng một “tỉ lệ được chỉ định trước”, chẳng hạn là “0.5”. Nếu tỷ lệ câu trả lời trong loại 1 là P và tỷ lệ trong loại 2 là Q, thì có ba giả thuyết thay thế: i) H1: P> Q, ii) H1: P <Q, iii) H1: P ≠ Q. Kiểm tra một bên được sử dụng khi chúng ta dự đoán trước loại nào trong hai loại sẽ chứa số lượng nhỏ hơn (i và ii ở trên). Nếu giả thuyết thay thế chỉ đơn giản là số lượng trong hai loại sẽ khác nhau (loại iii ở trên) thì nên sử dụng phép thử hai phía.
3. Giả định kiểm tra
Các giả định của kiểm tra nhị thức gồm:
- Các quan sát được lấy mẫu ngẫu nhiên từ một dân số nhị phân.
- Mỗi quan sát là độc lập (không ảnh hưởng đến giá trị của bất kỳ quan sát nào khác được lấy mẫu).
- Xác suất của bất kỳ mẫu quan sát nào là được xếp vào một trong hai loại là cố định đối với dân số.
4. Kiểm tra nhị thức trong SPSS
Một nhà giáo dục dựa trên một tuyên bố lý thuyết rằng 70% (0.7) dân số sinh viên đang theo học trong các trường kỹ thuật là nam. Với rất nhiều nỗ lực, ông thu thập được 50 dữ liệu sinh viên, trong đó có 30 sinh viên nam. Dữ liệu được nhập trong SPSS tương ứng “1” = nam “2” = nữ. Bạn cần chú ý, vì chúng ta kiểm tra tỉ lệ nam giới trong những người tham gia, do vậy chúng ta sẽ mã hóa trường hợp “nam = 1” trước, “nữ = 2” sau.
Chúng ta sẽ kiểm tra xem tỷ lệ sinh viên nam có khác với 0.7 (tỷ lệ thử nghiệm của chúng ta) hay không. Biến giới tính sinh viên là một quan sát nhị thức, được kiểm tra tỉ lệ với một biến độc lập, do vậy kiểm định nhị thức được sử dụng. Giả thuyết vô hiệu được đặt ra là tỷ lệ sinh viên nam trong những người tham gia là 0.7.
Các bước kiểm tra nhị thức trong SPSS như sau:
Bước 1: Trong SPSS, chọn Analyze > Noparametric Tests > Legacy Dialogs > Binomial…
Bước 2: Trong hộp thoại Binomial Test, chúng ta đưa biến giới tính (sex) vào ô Test Variable List. Nhập giá trị 0.7 vào ô Test Proportion (rất quan trọng, tỉ lệ lý thuyết chúng ta muốn so sánh). Chọn Options…, nhấp vào Descritive và Quatiles để thống kê mô tả dữ liệu. Sau đó nhấp Continue.
Bước 3: Nhấp OK để chạy kết quả.
Đọc kết quả quan trọng trong Bảng Binomial Test.
- Vì chúng ta có 30 sinh viên nam trong số 50 quan sát, nên tỷ lệ quan sát được là (30/50=) 0.6.
- Giả thuyết vô hiệu của chúng ta nói rằng tỷ lệ này là 0.7 cho toàn bộ dân số.
- Giá trị p, được ký hiệu là Exact Sig. (1-tailed) là 0.085 (p>0.05), đây là giả thuyết thay thế tuyên bố rằng tỉ lệ của sinh viên nam trong nhóm nhỏ hơn “0.7”. Nếu tỷ lệ sinh viên nam chính xác là 0.7 trong toàn bộ dân số, thì có 8.5% cơ hội tìm thấy 30 sinh viên nam trong mẫu n = 50. Chúng ta thường bác bỏ giả thuyết vô hiệu nếu cơ hội này nhỏ hơn 5 % (p ≤.05). Chúng ta kết luận rằng tỷ lệ sinh viên nam không phải 0.7 trong dân số. Nhưng chính xác trong trường hợp này, p > 0.05 nên giả thuyết vô hiệu được chấp nhận, có nghĩa rằng tỉ lệ sinh viên nam trong dân số là 0.7. Đây là ý nghĩa của 1 đuôi (1-tailed). Mặc dù tỉ lệ sinh viên nam được quan sát trong mẫu thực tế là 0.6 có khác biệt chút ít so với tỉ lệ lý thuyết là 0.7, nhưng sự khác biệt nhỏ này không có ý nghĩa thống kê ở p=0.05.
Để viết kết quả trong báo cáo khoa học, chúng ta cũng luôn báo cáo một số liệu thống kê mô tả. Trong trường hợp này, một bảng tần số sẽ được làm kèm theo. Về kiểm tra ý nghĩa, chúng ta sẽ viết đại loại như “một kiểm tra nhị thức chỉ ra rằng tỷ lệ sinh viên nam xấp xỉ bằng với dự kiến 0.7, p = 0.05 (1-tailed)”. Giả sử, nếu thu được giá trị p ≤0.05 (giả sử p = .017) thì chúng ta sẽ viết một đoạn kết luận như “một kiểm tra nhị thức chỉ ra rằng tỷ lệ sinh viên nam 0.6 thấp hơn so với dự kiến 0.7, p = .017 (1-tailed)”.
5. Tính khoảng tin cậy của tỉ lệ dân số quan tâm
Khi kiểm tra nhị thức là có ý nghĩa thống kê, có nghĩa rằng tỉ lệ sinh viên nam được tìm thấy trong dân số không là 0.7, chúng ta cần biết chính xác nó là bao nhiêu, và khoảng tin cậy có thể chấp nhận. Mặc dù trong ví dụ này, p > 0.05 cho thấy tỉ lệ sinh viên nam tại các trường kĩ thuật là không có ý nghĩa thống kê, tức xấp xỉ là 0.7 dân số. Tuy nhiên, việc kiểm tra ở đây mang tính minh họa. Để thực hiện việc này, chúng ta cần tiến hành kiểm tra khoảng tin cậy Clopper-Pearson. Thông thường, khoảng tin cậy được chọn là 95%CI, được gọi là Clopper-Pearson 95% CI.
Các bước để kiểm tra khoảng tin cậy trong SPSS:
Bước 1: Nhấp Nonparametric Tests > One Sample…
Bước 2: Trong hộp thoại One-Sample Nonparametric Tests, chúng ta chọn Customize analysis.
Bước 3: Nhấp vào tab Fields, chúng ta đưa biến giới tính (sex) vào vùng Test Fields.
Bước 4: Nhấp vào tab Settings, chọn Customize tests, sau đó chọn Compare observed binary probability to hypothesized (Binomial test).
Bước 5: Nhấp vào Options, hộp thoại Binomial Options xuất hiện. Nhập giá trị 0.7 vào ô Hypothesized proportion (rất quan trọng, tỉ lệ lý thuyết chúng ta muốn so sánh). Sau đó nhấp vào hộp Clopper-Pearson (exact).
Bước 6: Sau đó nhấp vào OK để trở lại hộp thoại One-Sample Nonparametric Tests, sau đó nhấp vào Run để chạy kết quả đầu ra.
Đọc kết quả:
Bắt đầu với bảng Hypothesis Test Summary dưới đây cho biết xác suất của bài kiểm tra nhị thức là p= 0.082, biểu lộ rằng giả thuyết vô hiệu được giữ lại. Để xem kết quả tính khoảng tin cậy Clopper-Pearson 95% CI, chúng ta nhấp đúp vào bảng One-Sample Nonparametric Tests.
Trong cửa sổ Model Viewer, để hiển thị bảng Confidence Interval Summary, chúng ta chọn Confidence Interval Summary View trong vùng tùy chọn View bên trái.
Kết quả tính khoảng tin cậy thu được trong bảng dưới đây.
Đầu tiên, từ xác suất Probability hiển thị trong cột Parameter hiển thị biến giới tính “Nam” được kiểm tra theo tỉ lệ 0.7 trong biến phản hồi nhị phân.
Cột Estimate thể hiện ước lượng tỉ lệ sinh viên nam trong dân số (tức là tất cả sinh viên nam của trường kĩ thuật). Nói cách khác, nó được ước lượng rằng ước tính 60% (0.600 x 100) tỉ lệ nam giới được tìm thấy trong dân số.
Vì ước tính này là dựa trên một mẫu duy nhất (tức 50 sinh viên trong nghiên cứu này), nên sẽ có một số không chắc chắn về giá trị đó. Do đó, khoảng tin cậy (CI) 95% được tính bằng phương pháp Clopper-Pearson có thể cung cấp một phạm vi giá trị mà tỷ lệ dân số (tức là tỷ lệ đối với tất cả dân số) có thể là chính xác. Khoảng tin cậy 95% này được hiển thị trong cột “95% Confidence Interval“. Khoảng tin cậy của ước lượng tỉ lệ sinh viên nam trong dân số là từ 0.452 đến 0.736, có nghĩa là tỉ lệ sinh viên nam được tìm thấy trong các trường kĩ thuật nằm trong khoảng chắc chắn từ 45.2% đến 73.6%.
Chúng ta có thể viết trong báo cáo bài báo như sau (mặc dù thực tế chúng ta nên làm kết luận khi p có ý nghĩa thống kê): Trong số 50 sinh viên được chọn ngẫu nhiên, 30/50 (60%) là tỉ lệ sinh viên nam, và 20/50 (40%) là tỉ lệ sinh viên nữ. Tỉ lệ sinh viên nam được tìm thấy trong dân số (tức là tất cả sinh viên kĩ thuật) ở khoảng tin cậy 95% là 45.2% đến 63.6%, p = 0.082.
Tài liệu tham khảo
- Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
- Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
- Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
- McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
- Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
- Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.