Bài 6. Kiểm tra giả thuyết (Hypothesis Testing)
1. Giả thuyết vô hiệu và giả thuyết thay thế
Chúng ta hãy bắt đầu với một ví dụ dưới đây để hiểu logic kiểm tra giả thuyết.
| Ví dụ, một nhà nghiên cứu muốn xem xét liệu âm nhạc có ảnh hưởng đến nỗ lực tri giác cần thiết để thực hiện một bài thể dục hay không. Biến phụ thuộc là “nỗ lực tri giác để thực hiện bài thể dục” và biến độc lập là “loại nhạc”, bao gồm ba nhóm: “không nhạc”, “nhạc cổ điển” và “nhạc sôi động”. Để kiểm tra xem âm nhạc có ảnh hưởng đến nỗ lực tri giác cần thiết để thực hiện một bài thể dục hay không, nhà nghiên cứu đã tuyển chọn 20 vận động viên, mỗi người chạy ba lần trên máy chạy bộ trong 30 phút. Để nhất quán, tốc độ máy chạy bộ là như nhau cho cả ba lần chạy. Theo thứ tự ngẫu nhiên, mỗi đối tượng chạy: (a) không nghe nhạc gì cả; (b) nghe nhạc cổ điển; và (c) nghe nhạc sôi động. Vào cuối mỗi lần chạy, các đối tượng được yêu cầu ghi lại mức độ khó của phiên chạy trên thang điểm từ 1 đến 10, với 1 là dễ và 10 là cực kỳ khó.
Câu hỏi nghiên cứu được đặt ra là “liệu âm nhạc có ảnh hưởng đến nỗ lực tri giác cần thiết để thực hiện một bài thể dục chạy bộ hay không?” Giả thuyết vô hiệu (H0) được kiểm tra là các loại nhạc khác nhau không ảnh hưởng đến mức độ nỗ lực tri giác cần thiết để thực hiện bài thể dục ‘chạy bộ’. Giả thuyết thay thế (H1) là ít nhất một cặp phép đo lặp lại (cặp loại nhạc) có xu hướng hướng tâm khác nhau (trung vị). Một bài kiểm tra Friedman ANOVA được sử dụng để kiểm tra giả thuyết. Kết quả cho thấy Có sự khác biệt tổng thể có ý nghĩa thống kê giữa các trung bình thứ hạng (mean ranks) về tri giác độ khó của phiên chạy trong thử nghiệm không nghe nhạc, nhạc cổ điển và nhạc sôi động (χ2=6.667, p=.036). Phân tích post hoc với các bài kiểm tra Wilcoxon được thực hiện với áp dụng hiệu chỉnh Bonferroni, dẫn đến mức ý nghĩa được cài đặt ở p <0.017. Trung vị của tri giác độ khó của phiên chạy không nghe nhạc, nhạc cổ điển và nhạc sôi động lần lượt là 6.5 (5.75 đến 9.0), 7.5 (6.0 đến 9.0) và 6.0 (5.0 đến 7.0). Kết quả post hoc cho thấy p>0.017 trong tất cả các trường hợp biểu lộ rằng không có sự khác biệt giữa các cặp điều kiện. |
Trong ví dụ trên, giả thuyết vô hiệu (kí hiệu là H0) được gọi là giả thuyết thống kê, giả thuyết của sự không khác biệt. Nếu giả thuyết vô hiệu là đúng thì không có sự khác biệt về sự nỗ lực tri giác cần thiết để thực hiện một bài thể dục giữa các tình huống không nghe nhạc, nghe nhạc cổ điển; và nghe nhạc sôi động. Giả thuyết vô hiệu thường không được giải thích bằng từ ngữ cụ thể trong các bài báo khoa học, mà mặc định các nhà thống kê cần hiểu ý nghĩa của nó.
Giả thuyết vô hiệu được coi là tồn tại cho đến khi dữ liệu thu thập được từ một mẫu mang lại kết quả cho thấy rằng nó không còn hợp lý để tin vào giả thuyết vô hiệu. Nếu giả thuyết vô hiệu không đúng, thì âm nhạc có ảnh hưởng đến nỗ lực tri giác cần thiết để thực hiện một bài thể dục chạy bộ. Nói cách khác nếu giả thuyết vô hiệu không đúng thì một (hoặc một số) giả thuyết thay thế khác phải đúng, vấn đề là chúng ta không thể biết chính xác phương án này là gì. Tất cả những gì chúng ta có thể nói là không có sự khác biệt giữa các biến quan sát.
Nói chung, quy luật của sự logic trong kiểm tra giả thuyết nói rằng nếu giả thuyết vô hiệu không đúng thì một (hoặc một số) giả thuyết thay thế phải đúng.
2. Ý nghĩa của giả thuyết vô hiệu và giả thuyết thay thế trong kiểm tra giả thuyết
Trong ví dụ trên, bạn có thể đang nghĩ, tại sao các nhà nghiên cứu lại sử dụng một thủ tục mạch lạc như vậy khi kiểm tra một giả thuyết? Đó là lý do tại sao, khi câu hỏi quan tâm thực sự là giả thuyết thay thế, chúng ta có giả vờ tin điều ngược lại của nó, giả thuyết vô hiệu (H0), và hy vọng điều này có thể được bác bỏ để sau đó chúng ta có thể coi giả thuyết thay thế là có thể chấp nhận? Nói một cách đơn giản, tại sao không kiểm tra trực tiếp giả thuyết thay thế?
Có ba lí do thích đáng được đưa ra:
– Thứ nhất, các nhà thống kê thường rất thận trọng và trong nhiều năm đã phát triển một “cách tiếp cận đã thử và kiểm tra” (tried-and-tested approach) để đưa ra các suy luận về một dân số quan tâm. Đầu tiên, họ làm việc với ý tưởng về giả thuyết vô hiệu. Quy ước được chấp nhận là giả định rằng không có sự khác biệt giữa hai tham số và duy trì niềm tin này cho đến khi chúng ta có thể cung cấp bằng chứng rằng nó không còn có thể sử dụng được nữa. Cách tiếp cận gián tiếp này đã hoạt động tốt trong quá khứ và vì vậy nó được sử dụng cho đến nay.
– Lý do thứ hai, các suy luận thống kê không thể chứng minh bất cứ điều gì, chúng chỉ có thể cung cấp bằng chứng dưới dạng xác suất, rằng một mệnh đề là không hợp lý.
– Lý do thứ ba là nếu chúng ta kiểm tra trực tiếp giả thuyết thay thế, chúng ta sẽ gặp rắc dối của sự lựa chọn, khi chọn và kiểm tra những giả thuyết phù hợp với suy nghĩ của chúng ta.
Do đó, giả thuyết vô hiệu là bằng chứng chắc chắn phù hợp với suy nghĩ của chúng ta và hỗ trợ giả thuyết thay thế đã chọn của chúng ta. Hơn nữa, sự logic sẽ cho thấy rằng hầu như không thể chứng minh được sự vắng mặt của bất cứ thứ gì. Tốt hơn nên giả định sự vắng mặt của bằng chứng, tức là giả thuyết vô hiệu, cho đến khi chúng ta có bằng chứng xác thực.
3. p-value và ý nghĩa thống kê
Các bài kiểm tra thống kê cung cấp các xác suất hoặc giá trị p cho thống kê kiểm tra. Các xác suất này cho biết khả năng xảy ra rằng các kết quả thu được là những khác biệt đáng kể hoặc có ý nghĩa thống kê, tức là khi sự khác biệt giữa các phương pháp điều trị, “âm nhạc có ảnh hưởng đến nỗ lực tri giác cần thiết để thực hiện một bài thể dục chạy bộ”.
Theo quy ước, các giá trị p nhỏ hơn 0.05 thường được coi là có ý nghĩa thống kê. Giá trị p ≤0.05 thu được từ một thử nghiệm thống kê thể hiện cơ hội quan sát các kết quả mà cho rằng giả thuyết vô hiệu là đúng. Lưu ý rằng chúng ta đang kiểm tra giả thuyết vô hiệu. Khi chúng ta tuyên bố rằng các kết quả là có ý nghĩa ở p≤0.05, điều này ngụ ý rằng xác suất (một cách tình cờ) để thu được các kết quả cho rằng H0 là đúng nhỏ hơn hoặc bằng 1/20 (hoặc 5%) . Trong nghiên cứu giáo dục và tâm lý, tỉ lệ cược quy ước là 1 trên 20 (p≤0.05) hoặc 1 trên 100 (p≤0.01) được sử dụng làm cơ sở để bác bỏ giả thuyết vô hiệu.
Giá trị nào của p (tức là chọn mức ý nghĩa 5% hay 1%) nên được coi là quan trọng là tùy thuộc vào nhà nghiên cứu. Mức ý nghĩa thống kê được nhà nghiên cứu lựa chọn, được gọi là mức ALPHA, α, (thường là 5% hoặc 1%) nên được phân biệt với giá trị p liên quan đến một thống kê kiểm tra. Điều này đôi khi gây nhầm lẫn khi sử dụng các gói thống kê vì chúng thường báo cáo giá trị p thực tế cho một thử nghiệm thống kê hơn là p≤ 0.05 hoặc p≤0.01.
Mức ý nghĩa alpha do nhà nghiên cứu chọn, trước khi các giả thuyết thống kê được kiểm tra, được so sánh với giá trị p thu được từ thống kê kiểm tra. Nếu giá trị p thu được của phép thử thống kê nhỏ hơn hoặc bằng mức alpha đã chọn thì giả thuyết vô hiệu (H0) bị bác bỏ và kết quả được cho là có ý nghĩa ở mức alpha đã chọn. Chúng ta nên nhớ rằng ngay cả khi chúng ta nói rằng một kết quả có ý nghĩa thống kê ở mức 1%, vẫn có khả năng kết quả đó là kết quả may rủi (chance result), chúng ta chỉ chắc chắn 99% chứ không chắc chắn 100%.
Lưu ý rằng mức ý nghĩa thống kê không đồng nghĩa với ý nghĩa giáo dục. Hơn nữa, mức độ của bất kỳ sự khác biệt nào (hoặc quy mô ảnh hưởng) có thể mang nhiều thông tin hơn là liệu kết quả có đáng kể hay không. Một chiến lược thay thế để đơn giản báo cáo của các giá trị p như ý nghĩa hoặc không ý nghĩa, là sử dụng và báo cáo các khoảng tin cậy cùng với các giá trị p.
Khoảng tin cậy cung cấp một loạt các giá trị hợp lý trong đó tham số quan tâm nằm trong đó. Trong ví dụ của Bài 4 – Biến ngẫu nhiên rời rác, chúng ta đã ước tính CI0.95 cho tỉ lệ sinh viên không thể hoàn thành chính xác đầy đủ bài thi.
Cũng như mức ý nghĩa 5% thường được sử dụng, khoảng tin cậy CI0.95 thường được sử dụng. Tương tự với mức ý nghĩa 1%, khoảng tin cậy CI0,99 tương ứng cũng được sử dụng. Khi báo cáo kết quả kiểm tra giả thuyết sử dụng khoảng tin cậy, cần bao gồm các nội dung sau: ước lượng mẫu, khoảng tin cậy, thống kê kiểm tra và bậc tự do liên quan và giá trị p liên quan. Nếu khoảng tin cậy của một sự khác biệt loại trừ 0 thì đây là bằng chứng về một sự khác biệt đáng kể và sẽ đi cùng với một giá trị p có ý nghĩa. Ưu điểm của việc báo cáo khoảng tin cậy là nó truyền đạt một phạm vi giá trị cho sự khác biệt về dân số mặc dù sự khác biệt về dân số thực tế có thể nằm gần trung tâm của khoảng tin cậy.
4. Kiểm tra ý nghĩa một phía (One-tailed) và hai phía (Two-tailed)
Khi giả thuyết vô hiệu là không đúng thì một hoặc một số giả thuyết thay thế là đúng. Giả thuyết thay thế có ký hiệu đặc biệt H1. Việc kiểm tra ý nghĩa thống kê có thể là một phía hoặc hai phía tùy thuộc vào bản chất của giả thuyết thay thế. Ví dụ, khi xem xét tỉ lệ học sinh vào đại học của một tỉnh A so với tỉ lệ trung bình của quốc gia là 39,9%? Giả thuyết vô hiệu H0 là: P = π (π là tỉ lệ trung bình quốc gia, P là tỉ lệ mẫu). Tức là tỉ lệ học sinh vào đại học của tỉnh A là bằng với tỉ lệ trung bình quốc gia.
Khi giả thuyết vô hiệu là không đúng, ba lựa chọn giả thuyết thay thế có thể là:
- H1: P ≠ π (Tỉ lệ học sinh vùng A không bằng (≠) tỉ lệ chung quốc gia)
- H1: P> π (Tỉ lệ học sinh vùng A lớn hơn (>) tỉ lệ chung quốc gia)
- H1: P <π (Tỉ lệ học sinh vùng A nhỏ hơn (<) tỉ lệ chung quốc gia)
Trong tình huống đầu tiên, nhà nghiên cứu quan tâm đến việc kiểm tra xem liệu tỉ lệ học sinh vào đại học của tỉnh A có khác với tỉ lệ quốc gia hay không (có thể nhỏ hơn, hoặc lớn hơn). Đây là một bài kiểm tra hai phía vì xem xét các tỉ lệ vừa nhỏ hơn 39.9% vừa lớn hơn 39.9%.
Tình huống thứ ba, nhà nghiên cứu chỉ xem xét khả năng xảy ra là tỉ lệ học sinh vào đại học của tỉnh A thấp hơn tỉ lệ trung bình quốc gia. Đây là một bài kiểm tra một phía vì sẽ không quan tâm đến các giá trị P > 39.9%.
Nói chung, lời khuyên được đưa ra là không nên sử dụng các bài kiểm tra một phía trừ khi có lý do thuyết phục để làm như vậy. Bởi vì nó có thể tạo ra sự thiên vị khi đưa ra lựa chọn một tình huống thiên vị trước khi kiểm tra giả thuyết. Mục đích của việc kiểm tra giả thuyết không phải là để kiểm tra những gì được mong đợi mà là để xác định những gì là không đúng sự thật.
Tóm lại, cách tiếp cận chung để kiểm tra giả thuyết dựa trên suy luận và là một con đường để quyết định xem dữ liệu có phù hợp với giả thuyết vô hiệu không. Các bước thông thường để kiểm tra một giả thuyết thống kê là:
- Tuyên bố những giả thuyết vô hiệu và giả thuyết thay thế.
- Quyết định xem thử nghiệm một phía hay hai phía là phù hợp và nêu mức ý nghĩa alpha của thử nghiệm. Alpha là mức xác suất để bác bỏ giả thuyết vô hiệu, thường trong khoa học xã hội p≤0.05).
- Tính toán một thống kê kiểm tra và khoảng tin cậy từ dữ liệu thu được trong một mẫu.
- Báo cáo liệu khoảng tin cậy đã chọn có loại trừ 0 hay không và so sánh giá trị xác suất p liên quan với thống kê kiểm tra ở mức alpha đã chọn (ví dụ: p≤0.05). Nếu giá trị p thu được cho thống kê kiểm tra nhỏ hơn hoặc bằng alpha thì đây là bằng chứng cho thấy dữ liệu không phù hợp với giả thuyết vô hiệu (khoảng tin cậy cũng sẽ loại trừ 0). Chúng ta bác bỏ giả thuyết vô hiệu và kết luận rằng một giả thuyết thay thế là khả thi. Nếu giá trị p liên quan với thống kê kiểm tra là lớn hơn alpha, thì không hợp lý khi bác bỏ giả thuyết vô hiệu (khoảng tin cậy sẽ bao gồm cả 0).
Tài liệu tham khảo
- Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
- Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
- Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
- McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
- Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
- Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.




















