Bài 3. Kiểm tra Mann-Whitney U
Kiểm tra Mann-Whitney U được sử dụng để so sánh sự khác biệt giữa hai nhóm độc lập khi biến phụ thuộc là thứ tự hoặc liên tục, nhưng không phân phối chuẩn. Ví dụ: bạn có thể sử dụng bài kiểm tra Mann-Whitney U để hiểu liệu thái độ đối với sự phân biệt trả lương, trong đó thái độ được đo lường trên thang thứ tự, có khác nhau dựa trên giới tính hay không (nghĩa là, biến phụ thuộc của bạn sẽ là “thái độ đối với sự phân biệt trả lương” và biến độc lập là “giới tính”, có hai nhóm: “nam” và “nữ”). Ngoài ra, bạn có thể sử dụng bài kiểm tra Mann-Whitney U để hiểu liệu tiền lương, được đo trên thang đo liên tục, có khác nhau dựa trên trình độ học vấn hay không (nghĩa là, biến phụ thuộc của bạn sẽ là “lương” và biến độc lập của bạn sẽ là “trình độ học vấn”, trong đó có hai nhóm: “trung học” và “đại học”). Phép thử Mann-Whitney U thường được coi là phương pháp thay thế phi tham số cho phép thử t-test độc lập (independent t-test) mặc dù điều này không phải lúc nào cũng đúng.
Không giống như thử nghiệm t-test độc lập, thử nghiệm Mann-Whitney U cho phép bạn đưa ra các kết luận khác nhau về dữ liệu của mình tùy thuộc vào các giả định bạn đưa ra về phân phối dữ liệu của mình. Những kết luận này có thể bao gồm từ việc chỉ đơn giản cho biết liệu hai quần thể có khác nhau hay không đến việc xác định xem có sự khác biệt về các trung vị (medians) giữa các nhóm hay không. Những kết luận khác nhau này phụ thuộc vào hình dạng của các phân phối dữ liệu của bạn, mà chúng ta sẽ giải thích thêm về sau.
1. Khi nào sử dụng?
Đây là phép thử về sự khác biệt giữa hai mẫu ngẫu nhiên độc lập, được sử dụng để xác định xem hai mẫu có thể đến hợp lý từ cùng một quần thể hay không. Phép thử Mann-Whitney U nhạy cảm với sự khác biệt về vị trí của xu hướng trung tâm của các phân phối. Nếu hai phân phối có hình dạng và độ phân tán tương tự nhau thì đó thực sự là một phép thử về sự khác biệt về các trung vị (medians) giữa hai nhóm.
Khi các giả định về phân phối chuẩn cơ bản không được thỏa mãn hoặc dữ liệu đã ở dạng thứ bậc, phép thử Mann-Whitney U là một giải pháp thay thế hữu ích và mạnh mẽ cho phép thử t-test độc lập (independent t-test). Vì nó dựa trên điểm xếp hạng, trong thực tế, quy trình có thể được sử dụng với các mức thứ tự, mức khoảng và mức tỷ lệ của đo lường. Phép thử đặc biệt hữu ích khi các phân phối có nhiều đuôi, đó là phân phối chứa nhiều giá trị khác xa giá trị trung bình (xem kiểm tra kurtosis trong phân phối chuẩn). Hai (nhóm) mẫu không nhất thiết phải có cùng kích thước.
2. Suy luận thống kê và giả thuyết vô hiệu
Giả thuyết vô hiệu được kiểm tra là hai mẫu ngẫu nhiên là từ một tổng thể, nghĩa là không có sự khác biệt về giá trị thứ tự xếp hạng được tìm thấy trong hai phân phối dữ liệu được so sánh. Việc bác bỏ giả thuyết vô hiệu thường được diễn giải là hai vùng phân phối đại diện cho hai quần thể có sự phân phối khác nhau. Khi hình dạng và độ phân tán của hai phân phối tương tự nhau thì đó là phép thử về sự khác biệt trong các trung vị dân số (population medians). Giả thuyết thay thế có thể là định hướng “kiểm tra một chiều”, ví dụ: phần lớn điểm xếp hạng lớn hơn được tìm thấy trong một mẫu và mẫu này có điểm xếp hạng trung bình lớn hơn; hoặc không có hướng, ví dụ, điều này chỉ đơn giản nói rằng hai mẫu phân phối điểm xếp hạng là khác nhau.
Kiểm định Mann-Whitney U dựa trên ý tưởng rằng nếu có hai quần thể chứ không phải một (tức là H0 sai) thì điểm thứ tự xếp hạng trong một mẫu nói chung sẽ lớn hơn điểm xếp hạng trong mẫu kia. Nếu H0 là đúng, chúng ta mong đợi điểm xếp hạng được thể hiện tương tự trong cả hai mẫu (nhóm) và xếp hạng trung bình (mean) trong mỗi nhóm trong hai nhóm sẽ bằng nhau. Chúng ta sẽ không bác bỏ giả thuyết vô hiệu và kết luận rằng không có sự khác biệt trong hai phân phối được so sánh. Nếu hai mẫu khác nhau, nghĩa là đến từ hai quần thể khác nhau, thì chúng ta sẽ mong đợi tổng số thứ hạng cao hơn (hoặc thấp hơn) (cho phép có sự khác biệt về kích thước mẫu) ở một trong các mẫu.
3. Giả định kiểm tra
Khi chúng ta chọn phân tích dữ liệu của mình bằng kiểm định Mann-Whitney U, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu bạn muốn phân tích thực sự có thể được phân tích bằng kiểm định Mann-Whitney U. Chúng ta cần phải làm điều này vì dữ liệu có thể thích hợp sử dụng kiểm định Mann-Whitney U nếu dữ liệu của bạn “vượt qua” bốn giả định được yêu cầu dưới đây. Trên thực tế, việc kiểm tra bốn giả định này chỉ làm tăng thêm một chút thời gian cho phân tích của bạn trong SPSS, cũng như suy nghĩ thêm một chút về dữ liệu của bạn, nhưng nó là không phải là một nhiệm vụ khó khăn.
- Biến phụ thuộc nên được đo lường ít nhất là ở mức thứ tự (ordinal level) hoặc liên tục (continuous level). Ví dụ về các biến thứ tự bao gồm các mục Likert (ví dụ: thang điểm 7 từ “rất đồng ý” đến “hoàn toàn không đồng ý”), trong số các cách xếp hạng danh mục khác (ví dụ: thang điểm 5 giải thích mức độ thích một sản phẩm của khách hàng, từ “Không nhiều lắm” đến “Có, rất nhiều”). Ví dụ về các biến liên tục bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100),…
- Biến độc lập nên bao gồm hai nhóm phân loại, độc lập. Ví dụ các biến độc lập đáp ứng tiêu chí này bao gồm giới tính (2 nhóm: nam hoặc nữ), tình trạng việc làm (2 nhóm: có việc làm hoặc thất nghiệp), người hút thuốc (2 nhóm: có hoặc không), v.v.
- Các quan sát là độc lập, có nghĩa là không có mối quan hệ nào giữa các quan sát trong mỗi nhóm hoặc giữa các nhóm với nhau. Ví dụ, phải có nhiều người tham gia khác nhau trong mỗi nhóm và không có người tham gia nào ở nhiều hơn một nhóm. Đây là vấn đề thiết kế nghiên cứu nhiều hơn là thứ bạn có thể kiểm tra, nhưng nó là một giả định quan trọng của bài kiểm tra Mann-Whitney U. Nếu nghiên cứu của bạn không đạt giả định này, bạn sẽ cần sử dụng một bài kiểm tra thống kê khác thay cho bài kiểm tra Mann-Whitney U (ví dụ: bài kiểm tra xếp hạng có chữ ký của Wilcoxon).
- Các điểm bằng nhau (sau khi xếp hạng) được ban cho mức trung bình của các thứ hạng mà chúng sẽ có nếu không có bằng nhau nào xảy ra. Một số lượng nhỏ của các điểm bằng nhau có ít ảnh hưởng đến kết quả kiểm định Z, tuy nhiên khi tỷ lệ số điểm bằng nhau là lớn và đặc biệt khi kích thước mẫu nhỏ, giá trị p bị thổi phồng và điều chỉnh cho các mối quan hệ nên được áp dụng. Hiệu ứng của các giá trị bằng nhau là làm giảm sai số chuẩn của thống kê thử nghiệm dẫn đến sự gia tăng tổng thể trong giá trị Z.
- Một kiểm định Mann-Whitney U có thể được sử dụng khi hai biến của bạn không được phân phối chuẩn. Tuy nhiên, để biết cách giải thích kết quả từ bài kiểm tra Mann-Whitney U, bạn phải xác định xem hai phân phối của mình (tức là phân phối điểm cho cả hai nhóm của biến độc lập; ví dụ: ‘nam’ và ‘ giống cái ‘đối với biến độc lập,’ giới tính ‘) có hình dạng giống nhau không. Điều đó có nghĩa rằng hai phân phối được so sánh phải có phương sai tương tự là yêu cầu đối với kiểm định Mann-Whitney U. Xem hình dáng bên dưới kết hợp với mục 2 – suy luận thống kê liên quan.
Trong hai biểu đồ trên, sự phân bố điểm số của ‘nam’ và ‘nữ’ có cùng hình dạng. Trong biểu đồ bên trái, bạn không thể thấy sự phân bổ điểm số cho ‘nam’ (được minh họa bằng màu xanh lam trên biểu đồ bên phải) vì hai phân phối giống hệt nhau (tức là cả hai phân phối đều giống hệt nhau, vì vậy chúng ‘nằm trên nhau ‘trong sơ đồ, với phân phối màu xanh lam ‘nam’ bên dưới màu đỏ ‘nữ’). Tuy nhiên, trong sơ đồ bên phải, mặc dù cả hai bản phân phối có hình dạng giống nhau, nhưng chúng có vị trí khác nhau (tức là, phân phối của một trong các nhóm của biến độc lập có giá trị cao hơn hoặc thấp hơn so với phân phối thứ hai – cụ thể, nữ có giá trị ‘cao hơn’ so với nam).
Trong thực tế, rất ít khả năng hai bản phân phối sẽ giống hệt nhau, nhưng chúng có thể có hình dạng giống nhau (hoặc ‘tương tự’). Nếu chúng có hình dạng giống nhau, bạn có thể sử dụng SPSS Statistics để thực hiện kiểm tra Mann-Whitney U để so sánh các giá trị trung vị (medians) của biến phụ thuộc. Tuy nhiên, nếu hai phân phối của bạn có hình dạng khác nhau, bạn chỉ có thể sử dụng thử nghiệm Mann-Whitney U để so sánh thứ hạng trung bình (mean ranks).
Do đó, khi thực hiện kiểm tra Mann-Whitney U, bạn cũng phải sử dụng Thống kê SPSS để xác định xem hai bản phân phối có cùng hình dạng hay hình dạng khác nhau. Trong bài học về phân phối chuẩn, chúng tôi đã giới thiệu cho bạn cách kiểm tra hình dạng và tính chuẩn của dữ liệu (xin xem lại trong bài phân phối chuẩn). Trong hướng dẫn nhanh này, chúng tôi chỉ cho bạn cách thực hiện kiểm tra Mann-Whitney U với giả định rằng hai bản phân phối của bạn không có hình dạng giống nhau, do đó bạn chỉ có thể so sánh các thứ hạng trung bình (mean ranks) chứ không phải trung vị (medians).
4. Thủ tục Kiểm tra Mann-Whitney U trong SPSS
Ví dụ, một nhà nghiên cứu giáo dục có thể quan tâm đến sự khác biệt về các điểm GPA và giới tính của các sinh viên. Biến phụ thuộc là điểm GPA của các sinh viên được đánh giá theo thang tín chỉ. Trong khi giới tính sinh viên nam có giá trị 1 và sinh viên nữ có giá trị 2. Nếu chúng ta không gắn nhãn hai nhóm giới tính, thống kê SPSS sẽ không thể phân biệt giữa chúng và bài kiểm tra Mann-Whitney U sẽ không thể chạy.
Các bước chạy Mann-Whitney U trong SPSS như sau:
Bước 1: Kiểm tra hình dạng phân phối của biến độc lập
Chúng ta kiểm tra hình dạng phân phối bằng cách vẽ biểu đồ phân phối trong SPSS.
Trong hai biểu đồ trên, sự phân phối điểm số của ‘nam’ và ‘nữ’ là không chuẩn, có hình dạng tương đối giống nhau, mặc dù không thực sự rõ ràng do cỡ mẫu nhỏ. Do hai mẫu không phân phối chuẩn, có hình dạng tương đối giống nhau nên bài kiểm tra Mann-Whitney được thực hiện để so sánh sự khác biệt trung vị của hai nhóm. Điểm trung vị GPA của sinh viên nam (3.25) nhỏ hơn chút ít điểm trung vị GPA của sinh viên nữ (3.375) nhưng chúng ta chưa thể khẳng định ý nghĩa của sự khác biệt này, chúng ta cần dựa vào kết quả kiểm tra Mann-Whitney được thực hiện sau đây.
Bước 2. Click Analyze > Nonparametric Tests > Legacy Dialogs > 2 Independent Samples…
Bước 3. Trong hộp thoại Two-Independent-Samples Tests, chúng ta kiểm tra và check vào box Mann-Whitney U trong vùng Test Type. Sau đó chúng ta đưa biến phụ thuộc (trong ví dụ này là GPA) vào hộp Test Variables List. Trong vùng Grouping Variable, chúng ta đưa biến độc lập (trong ví dụ là giới tính).
Bước 4. Click vào nút Define Groups…, nhập giá trị 1 vào hộp Group 1, giá trị 2 vào hộp Group 2. Hãy nhớ rằng chúng ra gắn nhãn 1 là sinh viên nam, 2 là sinh viên nữ. Sau đó bấm vào nút Continue.
Bước 5. Click vào nút Options…, đánh dấu vào hộp Descriptive và Quatiles để tạo thống kê mô tả. Sau đó bấm vào nút Continue.
Bước 6. Bấm vào nút OK trong hộp thoại Two-Independent-Samples Tests để chạy kết quả đầu ra.
Đọc kết quả:
Bảng thống kê mô tả (Descriptive Statistics) tạo ra bởi bài kiểm tra Mann-Whitney U là không thực sự hữu ích lắm. Thứ nhất, để so sánh các nhóm, chúng ta cần các giá trị nhóm riêng lẻ, không phải giá trị tổng hợp. Bảng này không cung cấp cho chúng ta thông tin quan trọng này, vì vậy chúng ta không thể so sánh bất kỳ sự khác biệt nào có thể có giữa các nhóm sinh viên nam và nữ. Thứ hai, chúng ta chọn bài kiểm tra Mann-Whitney U vì một trong các nhóm (nam hoặc nữ) không được phân phối bình thường. Tuy nhiên, chúng ta chưa thử nghiệm để xem liệu sự kết hợp của hai nhóm có dẫn đến việc nhóm lớn hơn được phân phối bình thường hay không. Do đó, chúng ta không biết nên sử dụng giá trị trung bình và độ lệch chuẩn hay trung vị và phân vị – interquartile range (IQR). IQR là phân vị thứ 25 đến 75 phần trăm, nếu dữ liệu được phân phối bình thường. Vì những lý do này, chúng tôi khuyên bạn nên bỏ qua bảng này.
Bảng các thứ hạng (Ranks) là rất hữu ích vì nó cho biết nhóm nào có thể được coi là có GPA cao hơn, về tổng thể; cụ thể là nhóm có trung bình thứ hạng cao nhất. Trong trường hợp này, nhóm sinh viên nữ có GPA cao nhất, nhưng cao hơn chút ít so với nhóm sinh viên nam.
Bảng thống kê kiểm tra (Test Statistics) cung cấp thống kê U, phép xấp xỉ gần đúng chuẩn Z, cũng như giá trị xác suất p tiệm cận có ý nghĩa (2 phía) – Asymp. Sig. (2-tailed).
Giá trị Z thu được là -1.026 và có giá trị p liên quan là .305 > .05, giá trị gần nhất trong Bảng phân phối Z (tra bảng Z tại đây). Điều này có nghĩa là giả thuyết vô hiệu không bị bác bỏ ở mức 5%. Chúng ta kết luận rằng điểm trung vị GPA là không khác nhau giữa nhóm sinh viên nam và sinh viên nữ (Z=-1.026, p=.305). Vì đây là một thử nghiệm hai phía, nên một giá trị |Z| (trị tuyệt đối Z) ≥1.96 sẽ được yêu cầu để kết quả có ý nghĩa thống kê ở mức 5%, nhưng đây không phải là thuộc trường hợp này.
Giá trị Exact Sig. [2*(1-tailed Sig.)] là 0.329 xuất hiện khi trong mẫu có các điểm bằng nhau. Đó là giá trị xác xuất chưa được sửa đổi cho điểm số bằng nhau của mẫu. Chúng ta thường không sử dụng giá trị này.
Chú ý rằng: Việc bác bỏ giả thuyết vô hiệu thường được hiểu là sự khác biệt về xu hướng trung tâm của hai phân phối. Tuy nhiên, cần thận trọng với cách giải thích này vì giả thuyết vô hiệu có thể bị bác bỏ khi trung bình của hai mẫu rất giống nhau (nhưng chúng có thể không phải như vậy trong ví dụ này). Điều này là do phép thử Mann-Whitney U rất nhạy cảm với sự khác biệt về phương sai trong hai mẫu. Theo giả thuyết vô hiệu, kiểm định Mann-Whitney giả định rằng hai mẫu đến từ một tập hợp duy nhất có phân phối liên tục cơ bản mặc dù phép đo chỉ ở mức thứ tự. Nếu chúng ta giả định rằng hai phân phối giống nhau, chúng ta cũng giả định rằng các phương sai là như nhau. Nếu không, các trung bình có thể vẫn tương tự nhưng rõ ràng các phân bố không giống nhau. |
Tài liệu tham khảo
- Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
- Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
- Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
- McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
- Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
- Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.