Bài 3. Chọn một bài kiểm tra thống kê
1. Giới thiệu chung
Làm thế nào để chọn một bài kiểm tra thống kê để rút ra kết luận mới từ dữ liệu mẫu?
Vấn đề đối với một nhà nghiên cứu mới khi lựa chọn một bài kiểm tra thống kê là thiếu kinh nghiệm với các bài thống kê được áp dụng. Họ có thể đã học một khóa học về thống kê nhưng sẽ không có kinh nghiệm về các phương pháp áp dụng trong lĩnh vực cụ thể, chẳng hạn lĩnh vực tâm lí và giáo dục. Do vậy, bài này là sự tập trung vào việc hướng dẫn các nhà nghiên cứu “bằng cách nào để chọn một bài kiểm tra thống kê và tại sao” thay vì học vẹt và bắt chước chi tiết trong các tài liệu bài báo hiện có.
Khi quyết định một thử nghiệm thống kê gì được sử dụng, ba vấn đề có liên quan với nhau dưới đây cần được xem xét cẩn thận:
- Đầu tiên sẽ là câu hỏi nghiên cứu. Nó quan tâm đến mối liên kết / mối quan hệ, sự phụ thuộc / dự đoán giữa các phép đo, hoặc so sánh / khác biệt giữa các nhóm không?
- Thứ hai là thiết kế nghiên cứu. Có bao nhiêu nhóm trong nghiên cứu và có mối quan hệ nào giữa chúng không? Ví dụ, nếu có hai hoặc nhiều nhóm dữ liệu thì chúng có liên quan hay độc lập với nhau không? Nếu mỗi tập điểm số thu được từ một mẫu đối tượng khác nhau, các nhóm sẽ độc lập. Nếu các đo lường khác nhau được thực hiện từ cùng một nhóm đối tượng trong hai (hoặc nhiều) trường hợp, tức là cùng một đối tượng thực hiện hai bài kiểm tra trở lên hoặc các đối tượng thực hiện một bài kiểm tra trong hai lần trở lên, thì các biện pháp đó có liên quan hoặc phụ thuộc.
- Thứ ba là phân phối dữ liệu. Sự phân phối của các biến quan trọng rời rạc với các suy luận dựa trên dữ liệu đếm, ví dụ, dữ liệu nhị thức, danh nghĩa hoặc được xếp hạng hay không? Hoặc là các phân phối liên tục, ví dụ, chuẩn, chuẩn nhiều chiều với các suy luận dựa trên phân phối chuẩn?
2. Các câu hỏi nghiên cứu
2.1. Tương quan (Correlation), mối quan hệ (relationship) và mối liên kết (association)
Nếu mục đích của nghiên cứu là kiểm tra mối quan hệ giữa các quan sát thì thống kê kiểu tương quan được sử dụng. Thống kê về các mối quan hệ (relationship) thường được gọi là tương quan (Correlation). Chúng thường được sử dụng nhưng thường không được hiểu rõ. Khái niệm ý nghĩa trong mối tương quan không hữu ích lắm. Tương quan thể hiện mức độ gần gũi giữa hai biến. Hệ số tương quan cung cấp một chỉ báo về độ mạnh mẽ của những mối quan hệ. Ngay cả những tương quan rất yếu (hệ số tương quan nhỏ) cũng có thể có ý nghĩa thống kê với cỡ mẫu lớn.
Khi dữ liệu là loại xếp hạng, tương quan Spearman’s Rho, rs là một thống kê tương quan thích hợp để sử dụng. Khi dữ liệu liên tục và có phân phối chuẩn cơ bản, tương quan Pearson r nên được sử dụng. Trong cả hai trường hợp, giả thuyết vô hiệu là:
H0: ρ = 0, tức là tương quan dân số (ρ, rho) bằng không.
Kiểm tra Chi bình phương (χ2) một mẫu về tính độc lập thường là một thống kê loại tương quan cho dữ liệu danh nghĩa (nominal data). Thử nghiệm này cung cấp một thước đo về mức độ của sự độc lập về thống kê của hai biến, hay nói một cách đơn giản là thước đo mối quan hệ giữa hai biến khi dữ liệu là được phân loại (hai hoặc nhiều danh mục). Bài kiểm tra này thích hợp khi một mẫu từ một dân số có thể được phân loại chéo thành hai hoặc nhiều loại. Giả thuyết vô hiệu rằng hai biến là độc lập, tức là không tồn tại mối quan hệ giữa chúng.
Kiểm tra χ2 mẫu r × 2 về tính đồng nhất (homogeneity) là phép thử về sự bằng nhau của các phân phối của hai tập dân số. Nó thích hợp khi dữ liệu là được phân loại. Giả thuyết vô hiệu rằng sự phân phối tỷ lệ trong mỗi dân số là như nhau. Bài kiểm tra χ2 hai mẫu đề cập đến hai dân số, r đề cập đến số lượng các loại trong một bảng phát sinh r × 2 và 2 đề cập đến hai dân số.
2.2. Sự phụ thuộc (dependence) và dự đoán (prediction)
Khi câu hỏi nghiên cứu tập trung vào sự dự đoán thì một phân tích hồi quy cần được xem xét. Dạng đơn giản nhất của hồi quy tuyến tính là khi một biến phản ứng Y, phụ thuộc vào một biến dự đoán X và cả Y và X đều là các biến liên tục (continuous variables) với một mối quan hệ tuyến tính đơn. Một phương trình hồi quy có thể được sử dụng để dự đoán sự phụ thuộc của Y vào X. Đường biểu diễn tốt nhất mối quan hệ tuyến tính giữa X và Y trong dân số có thể được mô tả bằng hai tham số: (β0) xác lập giá trị của Y khi X = 0 và (β1) – hệ số hồi quy, thước đo độ dốc của đường hồi quy (sự thay đổi của Y trên một đơn vị thay đổi của X). Các tham số được ước lượng bởi phương trình hồi quy và các kiểm định giả thuyết có thể được xây dựng cho (β0) và (β1). Một số sách thống kê nói rằng biến phản ứng trong một hồi quy tuyến tính phải được phân phối chuẩn; điều này không hoàn toàn chính xác. Giả định quan trọng là phần dư được phân phối chuẩn và độc lập. Biến phản ứng không nhất thiết phải được phân phối chuẩn hoặc thậm chí là một phép đo liên tục.
Mô hinnhf hồi quy tuyến tính đơn giản có thể được mở rộng thành mô hình thống kê phù hợp mô tả mối quan hệ giữa một biến phản ứng và nhiều hơn một biến dự báo. Đây được gọi là hồi quy đa biến (multiple regression). Khi biến kết quả (biến phản ứng) là nhị phân (binary), thì một mô hình xác suất cơ bản thích hợp là mô hình hồi quy logistic (logistic regression model). Các biến dự báo có thể liên tục (continuous) hoặc nhị phân (binary).
2.3. Sự khác biệt giữa hai mẫu
Khi một nghiên cứu được thiết kế để đánh giá hiệu quả can thiệt, có lẽ thống kê đầu tiên được nghĩ đến là t-test. Thống kê phổ biến này thường thích hợp cho thiết kế so sánh hai mẫu. Là một thủ tục thống kê tham số, các giả định phải được đáp ứng trước khi t-test có thể được sử dụng đúng cách. Một cân nhắc quan trọng khác là liệu phép so sánh hai mẫu là giữa các mẫu độc lập hay liên quan. Nếu một biến phản hồi như chiều cao được đo cho hai mẫu cá nhân độc lập, chẳng hạn như trẻ em trai và trẻ em gái, thì để kiểm tra xem có sự khác biệt có ý nghĩa thống kê nào giữa chiều cao trung bình của trẻ em trai và trẻ em gái (sự khác biệt giữa hai mẫu độc lập), một bài kiểm tra t-test độc lập (independent sample t-test) nên được sử dụng. Tuy nhiên, nếu một nhóm trẻ trai được cân hai lần, ví dụ, trước và sau khi ăn kiêng, hai phép đo được thực hiện cho một nhóm đối tượng, thì một bài kiểm tra t-test liên quan (related t-test, paired sample t-test) nên được sử dụng, vì các phép đo trên hai mẫu là có liên quan với nhau. Một thiết kế thay thế khác, sự khác biệt giữa cặp trùng khớp của các đối tượng trên các biến nhất định, thì “paired sample t-test” nên được sử dụng. Giả thuyết vô hiệu đối với t-test độc lập là hai giá trị trung bình bằng nhau (µ1 = µ2), và đối với t-test liên quan, sự khác biệt trung bình bằng 0 (µ1 − µ2 = 0).
Tuy nhiên, khi bài kiểm tra t-test độc lập được coi là không phù hợp thì một thủ tục phi tham số thay thế là Mann-Whitney U. Giả thuyết vô hiệu là hai mẫu có cùng phân phối dân số. Một thủ tục phi tham số thay thế cho các phép đo t-test lặp lại là Kiểm tra dấu hạng Wilcoxon.
Một bài kiểm tra phép đo lặp lại phi tham số cho sự thay đổi, khi bất kì sự thay đổi nào được biểu thị đơn giản là + hoặc –, đó là Kiểm tra dấu (Sign test). Bài kiểm tra này chỉ sử dụng trung vị (median), chỉ có một giả định phân phối, biến phản hồi, về mặt lý thuyết có phân phối liên tục. Bài kiểm tra dấu cung cấp một sự biểu lộ của chỉ bất kì chiều hướng của bất kì sự khác biệt nào, không đo lường bất kì sự khác biệt nào giữa hai lần đo. Giả thuyết vô hiệu được kiểm tra là sự khác biệt trung vị giữa hai bộ điểm số bằng không (0).
Kiểm tra dấu hạng Wilcoxon là một bài kiểm tra phép đo lặp lại mạnh mẽ hơn các bài kiểm tra dấu, bởi vì nó sử dụng nhiều thông tin dữ liệu hơn, đó là các vị trí được xếp hạng của điểm số cá nhân, thay vì chỉ trung vị của các phân phối. Tương tự như t-test, nó là một bài kiểm tra không khác biệt. Giả thuyết vô hiệu được phát biểu là tổng các xếp hạng dương bằng tổng các xếp hạng âm.
Kiểm tra Tỷ lệ hai mẫu (Two-Sample Proportions test) là một bài kiểm tra thuận tiện cho sự khác biệt giữa hai tỷ lệ hoặc phần trăm. Nó dựa trên sự gần đúng về nhị thức với phân phối chuẩn, vậy nên một kích thước mẫu kết hợp tối thiểu phải là khoảng 40 và tối thiểu là 20 trong mỗi nhóm. Phép gần đúng chuẩn cũng kém chính xác hơn khi tỷ lệ P trong mỗi nhóm lệch ra khỏi 0.5. Bài kiểm tra tỷ lệ một mẫu (one-sample proportions test) có thể được sử dụng khi chúng ta muốn đưa ra suy luận cho một tỷ lệ duy nhất – một tỷ lệ dân số chưa biết có thể được ước lượng từ một tỷ lệ mẫu.
Kiểm tra nhị thức (Binomial test), tương tự như kiểm tra dấu (sign test) và kiểm tra tỷ lệ (proportions test), sử dụng dữ liệu nhị thức. Không giống như hai bài kiểm tra này, nó là một bài kiểm tra mẫu duy nhất và một dân số nhị thức được phân loại thành hai nhóm. Khi sử dụng phép thử này, hai tỷ lệ (hoặc phần trăm) phải cộng lại đến 1 hoặc 100 phần trăm (tổng cỡ mẫu). Bài kiểm tra nhị thức là rất hữu ích khi chúng ta muốn xác định xem liệu tỷ lệ quan sát được – có / không, nam / nữ, v.v. – có khác với những gì là mong đợi bởi cơ hội may rủi hay không. Khi dữ liệu trong một bảng phát sinh 2 × 2 và tần số ô nhỏ (<5), bài kiểm tra chính xác Fisher (Fisher’s extact test) nên được sử dụng.
2.4. Sự khác biệt giữa ba mẫu và nhiều hơn
Khi nhiều hơn hai mẫu được so sánh và biến phản ứng được phân phối chuẩn thì một phân tích kiểu ANOVA (Phân tích của phương sai) nên được xem xét ưu tiên hơn một loạt các kiểm tra t-test. Thủ tục so sánh nhiều mẫu phổ biến nhất là F-test. Đây là một thủ tục tham số với các yêu cầu tương tự như t-test. Giả thuyết vô hiệu được kiểm tra với F-test là các trung bình nhóm là bằng nhau, tức là H0: µ1 = µ2 = µ3 = µn. Tương tự như t-test, một ANOVA phép đo lặp lại (repeated measures ANOVA) cũng sử dụng F-test. Trong ANOVA liên quan (related ANOVA) không giống như ANOVA độc lập, phương sai trong các điểm số do các đối tượng riêng lẻ có thể được đối xử như một nguồn sai số riêng biệt.
Các phương pháp phi tham số tương đương của F-test là ANOVA một chiều Kruskal-Wallis (Kruskal-Wallis one way ANOVA) cho các mẫu độc lập và Friedman’s ANOVA cho các phép đo liên quan. Cả Kruskal-Wallis và Friedman đều kiểm tra giả thuyết vô hiệu rằng các mẫu (hoặc các phép đo lặp lại) đến từ tất cả dân số với cùng các trung vị (median). Cả hai thủ tục đều yêu cầu dữ liệu phải theo thứ tự (được xếp hạng).
Khi ba mẫu hoặc nhiều hơn được so sánh và dữ liệu ở dạng số đếm (tần số) thì hai thủ tục tham số cần được xem xét. Nếu các mẫu (ba nhóm hoặc nhiều hơn) là độc lập và mối quan tâm tập trung vào mối liên kết giữa các mẫu (nhóm) khác nhau thì kiểm tra χ2 mẫu r × k (r×k Sample χ2 test), nên được sử dụng. Khi ba mẫu (và nhiều hơn) có liên quan được so sánh, thì kiểm tra Cochran Q (Cochran’s Q-test) nên được xem xét. Nó có thể được coi như một phần mở rộng của bài kiểm tra tỉ lệ hai mẫu, giả thuyết vô hiệu rằng các tỷ lệ là bằng nhau trong mỗi nhóm.