Bài 6. Xử lí khi dữ liệu không phân phối chuẩn

admin
21055 4 phút đọc

1. Giới thiệu

Chúng ta có thể làm gì khi dữ liệu không là phân phối chuẩn?

Nếu bạn phải đối mặt với vấn đề dữ liệu không chuẩn, có bốn chiến lược khả thi dưới đây.

  1. Kiểm tra để đảm bảo rằng không có điểm ngoại lệ (kì dị) nào được chỉ ra bởi các điểm dữ liệu riêng lẻ trong một biểu đồ xác suất chuẩn, cái mà khác biệt đáng kể so với cả đường thẳng và các điểm dữ liệu khác. Nếu các giá trị ngoại lệ quá lớn, hãy loại bỏ chúng và kiểm tra lại xem có tính chuẩn không.
  2. Cân nhắc sử dụng các thủ tục thống kê phi tham số (Nonparametric).
  3. Cân nhắc việc chuyển đổi dữ liệu.

Chiến lược (1) có thể cải thiện việc phân phối và luôn cần được xem xét. Nó là một phần thiết yếu của việc phân tích dữ liệu ban đâu. Tuy nhiên, bạn nên xem xét các tác động của việc loại bỏ các giá trị ngoại lệ trong phần kết quả của bạn và trong bất kỳ cách giải thích nào trong bài báo.

Chiến lược (2) hữu ích khi dữ liệu có thể được xếp hạng.

Chiến lược (3) hữu ích trong những trường hợp nếu dữ liệu bị lệch. Việc biến đổi dữ liệu sẽ giảm thiểu ảnh hưởng của các giá trị ngoại lệ nhưng các quan sát cực đoan cần được xử lý như trong chiến lược (1). Các phép biến đổi cũng không nên được áp dụng trực tiếp vào dữ liệu khi có một số lượng lớn số “0” trong dữ liệu. Một hằng số chẳng hạn như “0,5” phải được thêm vào tất cả các giá trị dữ liệu trước khi chuyển đổi (điều này là do các giá trị bằng 0 không thể nhân lên và do đó không hoạt động tốt trong các phép biến đổi, ví dụ: logarit chỉ được xác định cho các số dương khác 0). Tuy nhiên, các phép biến đổi không nên được sử dụng thường xuyên bởi vì các thủ tục thống kê như F-test và t-test nói chung là mạnh mẽ và việc giải thích các giá trị đã biến đổi có thể có vấn đề.

2. Chuyển đổi dữ liệu

Các phép biến đổi phải là ngoại lệ chứ không phải là quy tắc và thường được thực hiện với mục đích: i) làm cho các phân phối lệch đối xứng hơn và gần với phân phối chuẩn hơn; ii) để có được sự đồng nhất của phương sai trong các ‘điểm số’; và iii) để đạt được một thang đo ý nghĩa hơn của sự đo lường. Điều này không phải lúc nào cũng hoạt động và dữ liệu đã chuyển đổi nên được kiểm tra bằng cách sử dụng các đồ thị xác suất chuẩn (Q-Q plot) để xem liệu có bất kỳ sự cải thiện nào về tính chuẩn hay không.

Thông thường, có hai phép biến đổi có thể xảy ra đối với dữ liệu có độ lệch dương, phép biến đổi căn bậc hai cho độ lệch vừa phải và phép biến đổi logarit đối với dữ liệu có độ lệch dương nghiêm trọng. Cả hai phép biến đổi đều “kéo vào” phần đuôi bên phải của một phân phối. Độ xiên bị ảnh hưởng bởi các yếu tố ngoại lai, vì vậy hãy kiểm tra những yếu tố này trước. Phép biến đổi logarit thường sử dụng log10 (log với cơ số 10). Log10 (10) = 1, có nghĩa là lũy thừa mà 10 phải được đưa đến “1”. Tương tự, log10 (1000) = 3. Khi có một số số “0” trong tập dữ liệu, hằng số 0,5 được thêm vào mỗi giá trị dữ liệu. Sau đó, phép biến đổi trở thành log10 (xi + 0,5), trong đó xi = giá trị dữ liệu ban đầu.

Cách thực hiện chuyển đổi dữ liệu trong SPSS:

– Bước 1: Chọn Transform\ Compute Varialbe…

– Đặt tên biến chuyển đổi mới tạo thành, chẳng hạn là LogPreTest trong ô Target Varialbe. Nhấp chuột vào ô Numeric Expression, sau đó nhấp chuột vào tùy chọn thuật toán Arithmetic trong ô Function group, chọn Lg10 (tức là log với cơ số 10). Sau đó, chọn biến Pre-test cho hàn Lg10. Cuối cùng, nhấp OK.

Hình 1. Thủ tục và kết quả chuyển đổi dữ liệu

– Kết quả (Hình 1) chúng ta đã có thêm một biến mới, LogPreTest, được tạo bằng hàm Log10 chuyển đổi từ biến Pre-test trong dữ liệu.

Đến đây, bạn tiến hành kiểm tra tính chuẩn của dữ liệu như bình thường (Xin vui lòng đọc bài phân phối chuẩn).

Hình 2. Kết quả kiểm tra phân phối

Việc giải thích các điểm số được chuyển đổi đôi khi rất khó khăn. Ví dụ, nếu sử dụng phép biến đổi log thì điểm log trung bình là 0.47 (Hình 2), rất khó hiểu. Điểm số trung bình này phải được chuyển đổi ngược lại thành chỉ số ban đầu. Antilogarit (cơ số 10) của giá trị 0.47 là 2.95. Điều này hiện có thể so sánh với giá trị trung bình ban đầu là ‘3.01′. Giá trị trung bình đã có sự thay đổi sau khi chuyển đổi dữ liệu.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.
  7. Kim, H. Y. (2013). Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis. Restorative dentistry & endodontics, 38(1), 52-54. https://doi.org/10.5395/rde.2013.38.1.52

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x