Bài 4. Kiểm tra tỉ lệ (Proportions Test)

admin
9543 7 phút đọc

1. Khi nào sử dụng?

Kiểm tra tỉ lệ hay còn được gọi là kiểm tra sự khác biệt trong tỉ lệ phần trăm (difference in percentages). Khi nhà nghiên cứu quan tâm đến sự khác biệt về tỷ lệ giữa hai nhóm độc lập, hơn là mối quan hệ (khi kiểm tra χ2 sẽ được sử dụng), thì bài kiểm tra tỷ lệ là phù hợp. Bài kiểm tra này được sử dụng để so sánh tỷ lệ của hai nhóm độc lập (chẳng hạn như trẻ em trai và trẻ em gái) đối với một biến quan tâm danh nghĩa (nominal variable), ví dụ, IQ≥100 / <100; vượt qua kì thi / thất bại. Các nhóm là kết quả của hai mẫu ngẫu nhiên độc lập từ các dân số xác định và cỡ mẫu không nhất thiết phải bằng nhau. Thử nghiệm cũng có thể áp dụng để so sánh sự khác biệt giữa hai tỷ lệ phần trăm.

2. Suy luận thống kê và giả thuyết vô hiệu

Các suy luận thống kê cho kiểm định này liên quan đến tỷ lệ dân số, giả thuyết vô hiệu H0 là chúng bằng nhau (π12).

Các giả thuyết thay thế sẽ là:

  • H1 hai mặt: π1 ≠ π2
  • H1 mặt phải: π1 > π2
  • H1 mặt trái: π1 < π2

Kiểm tra dựa trên một ước lượng gần đúng chuẩn của phân phối nhị thức, giá trị Z được sử dụng để đánh giá khoảng tin cậy cho sự khác biệt, D, giữa các tỷ lệ dân số. Để tính toán ý nghĩa của sự khác biệt này, sai số chuẩn của sự khác biệt quan sát được sẽ được tính toán và một khoảng tin cậy thích hợp (appropriate confidence interval) cho sự khác biệt được đánh giá dựa trên sai số chuẩn quan sát này. Sự khác biệt chưa biết giữa các tỷ lệ dân số, D, được ước lượng bằng cách sử dụng sự khác biệt quan sát được về tỷ lệ mẫu, P1-P2. Nếu khoảng tin cậy (CI) loại trừ 0, chúng ta có thể tin tưởng rằng các nhóm là khác nhau đáng kể.

3. Giả định kiểm tra

  • Các quan sát được lấy mẫu ngẫu nhiên từ một dân số nhị phân xác định. Dân số có thể được coi là nhị phân đối với một biến liên tục với điều kiện là một giá trị cho biến thống kê có thể được gán cho hai danh mục loại trừ lẫn nhau, ví dụ, IQ≥100 và <100.
  • Mỗi quan sát là độc lập (không ảnh hưởng đến giá trị của bất kỳ quan sát nào khác được lấy mẫu).
  • Bài kiểm tra này dựa trên một phép xấp xỉ chuẩn cho phân phối nhị thức (giá trị Z được sử dụng). Do đó, bài kiểm tra này không nên được sử dụng khi kích thước mẫu nhỏ, chẳng hạn < 25, hoặc khi tỷ lệ nằm ngoài phạm vi 0.1 đến 0.9.

4. Thủ tục kiểm tra tỉ lệ

Vì giá trị Z được sử dụng để kiểm tra sự khác biệt giữa hai tỉ lệ. Làm thế nào để thực hiện kiểm tra Z cho sự khác biệt giữa hai tỷ lệ trong SPSS? Rất tiếc khi SPSS không có tùy chọn cụ thể cho kiểm định Z về sự khác biệt giữa hai tỷ lệ. Chúng ta có thể làm bài kiểm tra χ2 để thay thế. Các giá trị p thu được từ phép thử χ2 này tương đương với giá trị p (2-sided), đó sẽ là kết quả của điểm tra Z. Tuy nhiên, các dữ liệu cung cấp là không đủ để đánh giá do thiếu các giá trị khác, chẳng hạn như giá trị Z, khoảng tin cậy, độ lệch chuẩn.

Cách tốt nhất là tính tay (hoặc trên Excel) dựa trên các công thức và thủ tục dưới đây:

Bước 1. Tính giá trị Z

Trong đó, P1 là tỉ lệ thành công trong nhóm 1 (X1/n1); P2 là tỉ lệ thành công trong nhóm 2 (X2/n2); P là tỉ lệ thành công trong mẫu (X1+X2)/(n1+n2).

Ví dụ, một nhà nghiên cứu quan tâm đến sự khác biệt giữa tỉ lệ sinh viên nam (P1) và tỉ lệ sinh viên nữ (P2) vượt qua kì thi cuối kì môn triết học. Dữ liệu được lấy từ một lớp 218 sinh viên, trong đó 110 sinh viên nam và 108 sinh viên nữ. Kết thúc kì thi, số sinh viên nam vượt qua kì thi là 96/110, trong khi con số này là 72/108 ở sinh viên nữ. Mối quan tâm được đặt ra là liệu có sự khác biệt có ý nghĩa thống kê giữa hai tỉ lệ này ở mức ý nghĩa p≤0.05 không?

Trong ví dụ này, tỷ lệ quan sát P1 = 96/110 = 0.873, tỷ lệ quan sát P2 = 72/108 = 0.667, tỉ lệ quan sát P = (96+72) / (110+108) = 0.77

Bước 2. Đọc ý nghĩa giá trị Z hoặc tính giá trị p: Giá trị Z có ý nghĩa đáng kể (khác biệt đáng kể) khi:

Giả thuyết thay thế Ý nghĩa Z Tính giá trị p tương ứng với Z
Hai mặt (2-sided)

π1≠π2

– Nếu giá trị Z trong mẫu nhỏ nhất là cực trị như giá trị tới hạn Z* (Z* = 1.96 cho khoảng tin cậy 95%).

– Hoặc tính giá trị p tương ứng với Z và xem nó có bằng hoặc nhỏ hơn α (thường là 0.05).

Giá trị p là xác suất tìm thấy giá trị Z hoặc một giá trị cực trị hơn, cho rằng giả thuyết H0 là đúng.

  • Nếu (Z>0), tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left.
  • Giá trị p (2-sided) là: 2 x (1- p_left)
  • Nếu (Z<0), tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left.
  • Giá trị p (2-sided) là: 2 x p_left
Mặt phải (right-sided)

π12

– Nếu giá trị Z trong mẫu bằng hoặc lớn hơn giá trị tới hạn Z*.

– Hoặc tính giá trị p tương ứng với Z và xem nó có bằng hoặc nhỏ hơn α (thường là 0.05).

Giá trị p là xác suất tìm thấy giá trị Z hoặc giá trị lớn hơn, cho rằng giả thuyết H0 là đúng.

  • Tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left.
  • Giá trị p (right-sided) là: 1- p_left
  • Nếu chúng ta quyết định trước để kiểm tra mặt phải nhưng thấy Z<0, chúng ta vẫn tính p (mặt phải) là 1-p_left, dẫn đến một giá trị p lớn hơn 0.5.
Mặt trái (left-sided)

π12

– Nếu giá trị Z trong mẫu bằng hoặc nhỏ hơn giá trị tới hạn Z*.

– Hoặc tính giá trị p tương ứng với Z và xem nó có bằng hoặc nhỏ hơn α (thường là 0.05).

Giá trị p là xác suất tìm thấy giá trị Z hoặc giá trị nhỏ hơn, cho rằng giả thuyết H0 là đúng.

  • Tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left. Đó là bằng giá trị p.
  • Nếu chúng ta quyết định trước để kiểm tra mặt trái nhưng thấy Z>0, chúng ta vẫn tính p (mặt trái) là p_left, dẫn đến một giá trị p lớn hơn 0.5.

 

Bảng chuẩn tiêu chuẩn Z (Z Score Table hoặc Standard Normal Table)

Tra bảng Z = 3.61 (Z>0) ở mức ý nghĩa 0.05 cho thấy giá trị p_left = 0.99987

– Nếu kiểm tra hai mặt, giá trị p (2-sided) = 2 × (1- p_left) = 2 × (1-0.99987)=0.00026 (p<0.05). Kết luận rằng, có sự khác biệt đáng kể giữa tỉ lệ P1 và P2.

– Nếu kiểm tra 1 mặt, có Z = 3.61 lớn hơn giá trị Z* (CI 95%, Z* = 1.96) nên kiểm tra mặt phải. Giá trị p = 1-p_left = 1-0.99987 = 0.00013 (p<0.05). Kết luận rằng, tỉ lệ P1 là lớn hơn đáng kể tỉ lệ P2.

Bước 3. Tính sai số chuẩn (standard error) của sự khác biệt trong tỉ lệ.

Độ lệch chuẩn của mẫu của sự khác biệt trong tỉ lệ (SD) là sai số chuẩn (standard error) của sự khác biệt trong tỉ lệ, được sử dụng để ước tính tham số dân số chưa biết, đó là sai số chuẩn của sự khác biệt trong tỉ lệ dân số (σD). Đó là độ lệch chuẩn (SD) ước tính sai số chuẩn (σD) trong dân số.

Trong ví dụ tỷ lệ quan sát P1 = 96/110 = 0.873, và tỷ lệ quan sát P2 = 72/108 = 0.667.

Bước 4. Tính khoảng tin cậy

Khoảng tin cậy 95% cho sự khác biệt dân số theo hai tỷ lệ là:

(P1−P2) − (Z* × SD) đến (P1−P2) + (Z* × SD)

trong đó Z * là giá trị tới hạn đã chọn. Ví dụ: đối với CI 95%, Z * = 1.96. Không giống như phân phối t (t-distribution), giá trị tới hạn này không phụ thuộc vào cỡ mẫu.

Trong ví dụ trên, khoảng tin cậy được tính là:

(P1−P2) − (Z* × SD) đến (P1−P2) + (Z* × SD)

(0.873−0.667) − (1.96 × 0.055) đến (0.873−0.667) + (1.96 × 0.055) = (0.10 đến 0.31).

Kết luận, khoảng tin cậy (CI 95%) loại trừ 0, nên tỉ lệ các nhóm là khác nhau đáng kể.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x