Bài 2. Làm sạch dữ liệu
1. Kiểm tra danh sách dữ liệu và số lượng tần suất
Sau khi xử lí dữ liệu, công việc tiếp theo là làm sạch dữ liệu. Ba lần kiểm tra đơn giản dưới đây sẽ đủ:
- Kiểm tra số lượng quan sát. Đôi khi dữ liệu là được nhập hai lần hoặc một điểm dữ liệu có thể bị bỏ qua. Trong ví dụ tại hình dưới đây, tần suất quan sát tại biến Gioitinh có số lượng là 11, trong khi tập dữ liệu có 10 quan sát. Điều đó có nghĩa rằng khả năng một điểm dữ liệu đã bị nhập hai lần, và bạn cần kiểm tra lại dữ liệu này và nhập lại.
- Kiểm tra xem giá trị tối đa và tối thiểu, nếu dữ liệu của bạn có giới hạn này không. Ví dụ trong hình dưới đây (xem bảng tần suất), biến nhóm ngành (Nganh) sinh viên là một biến định danh, được mã hóa tương ứng (1 = Kinh tế; 2 = Cơ khí; 3 = Điện; 4 = CNTT), tức là phạm vi dữ liệu phải trong khoảng từ 1 đến 4. Tuy nhiên, một điểm số của 5 đã được tìm thấy trong biến ‘Nganh’ tại hàng thứ 6 cho biết một điểm dữ liệu bị lỗi.
- Kiểm tra các trường hợp thiếu giá trị cho các biến. Các giá trị bị thiếu thường có chỉ báo của riêng chúng, chẳng hạn như dấu chấm (.) cho các giá trị số và một khoảng trống cho các giá trị ký tự. Trong hình dưới đây là một chỉ báo giá trị số bị thiếu trong SPSS. Bảng tần suất thể hiện một giá trị bị thiếu của biến ‘điểm cuối kì Toán’. Bạn cũng có thể nhận thấy giá trị số bị thiếu được chỉ báo bằng dấu (.) của biến DiemToan tại hàng thứ 5.
2. Xử lý dữ liệu bị thiếu
Các tập hợp dữ liệu lớn, đặc biệt nếu được thu thập bằng phương pháp bảng hỏi khảo sát, chắc chắn sẽ bị thiếu các giá trị dữ liệu. Tuy nhiên, vấn đề này không chỉ giới hạn trong nghiên cứu khảo sát. Trong các thiết kế thử nghiệm, người tham gia có thể trở nên mệt mỏi, buồn chán hoặc đơn giản là bất hợp tác. Nếu thiếu dữ liệu, nhà nghiên cứu phải quyết định phải làm gì.
Đầu tiên, bạn cần phân biệt rõ là liệu các phản hồi bị thiếu là ngẫu nhiên hay có hệ thống. Làm thế nào để bạn biết liệu dữ liệu bị thiếu có phải là ngẫu nhiên hay không? Về cơ bản, điều này liên quan đến việc xem xét kỹ lưỡng dữ liệu để xác định bất kỳ mô hình mẫu nào trong các giá trị bị thiếu. Không đơn giản chỉ là kiểm tra dữ liệu thô, bạn có thể vẽ một bảng giá trị bị thiếu (ký hiệu là ‘.’), giá trị hợp lệ (ký hiệu là ‘+’ trống) cho tất cả các cấp của biến khả nghi so với các biến quan tâm khác. Nếu không phát hiện bất kì mô hình mẫu nào, tức là không tìm thấy một quy tắc cho dữ liệu bị thiếu, thì dữ liệu bị thiếu là ngẫu nhiên.
Nếu dữ liệu bị thiếu có vẻ không phải là ngẫu nhiên thì những trường hợp thiếu dữ liệu đó nên được giữ lại để điều tra thêm. Nếu dữ liệu bị thiếu dường như là ngẫu nhiên thì tồn tại hai tùy chọn chung, ước tính giá trị bị thiếu hoặc xóa các trường hợp hoặc các biến cụ thể có dữ liệu bị thiếu.
Làm thế nào để bạn quyết định áp dụng chiến lược nào trong hai chiến lược này?
Quy trình triệt để nhất là loại bỏ bất kỳ trường hợp nào có dữ liệu bị thiếu. Đây là tùy chọn mặc định trong nhiều chương trình thống kê. Nếu dữ liệu bị thiếu nằm rải rác ngẫu nhiên trong các trường hợp và biến, việc giảm một số lượng lớn các trường hợp với bất kỳ dữ liệu bị thiếu nào có thể dẫn đến mất một lượng lớn dữ liệu. Hậu quả của các trường hợp mất dữ liệu nghiêm trọng hơn trong một số thiết kế nghiên cứu, ví dụ, thiết kế thử nghiệm cân bằng với số lượng đối tượng nhỏ, hơn là trong các thiết kế khảo sát lớn trong đó biên độ cho mất dữ liệu là được thiết kế vào chiến lược lấy mẫu. Trong những trường hợp này, có thể tốt hơn là ước tính các giá trị còn thiếu miễn là hợp lý.
Nên xóa các trường hợp khi chỉ một vài trường hợp bị thiếu dữ liệu. Xóa biến nhưng giữ lại các trường hợp là một giải pháp thay thế nhưng nói chung chỉ phù hợp khi biến không quan trọng đối với phân tích.
Một giải pháp thay thế khác với xóa trường hợp hoặc loại bỏ biến là thay thế các giá trị bị thiếu bằng ‘ước lượng tốt nhất’. Nói chung, có năm tùy chọn khác nhau về mức độ tinh chỉnh này. Những giá trị này thay thế một giá trị bị thiếu bằng:
- một giá trị phỏng đoán tốt nhất;
- Một giá trị trung bình tổng thể cho biến đó;
- một giá trị trung bình nhóm xác đáng, thích hợp;
- một phương trình hồi quy dựa trên dữ liệu đầy đủ để dự đoán các giá trị còn thiếu;
- một cách tiếp cận tổng quát dựa trên hàm sác xuất xảy ra.
Lời khuyên khi sử dụng từng tùy chọn này là: (1) Hoàn toàn không sử dụng. (2) và (3) không sử dụng với dữ liệu nhị phân. Ví dụ: nếu biến giới tính được mã hóa là 0 cho nan và 1 cho nữ, sẽ không hợp lý khi thay thế một trung bình. Việc sử dụng giá trị trung bình tổng thể cho một biến làm giảm sự biến thiên (phương sai) của biến đó, đặc biệt nếu thiếu một lượng lớn dữ liệu. Điều này là do giá trị trung bình được thay thế gần với chính nó hơn giá trị bị thiếu (trừ khi giá trị bị thiếu là cùng giá trị với giá trị trung bình tổng thể). Việc giảm sự biến thiên của một biến có tác động làm giảm mối tương quan giữa biến đó với các biến khác. Điều này có thể có tác động đáng kể trong một số thủ tục thống kê như phân tích nhân tố. Tùy chọn (4) chỉ hữu ích khi các biến khác trong tập dữ liệu có khả năng dự đoán (các) biến có giá trị bị thiếu, biến phụ thuộc. Nếu không có biến độc lập (dự báo) phù hợp thì sử dụng phương án (2) hoặc (3) có lẽ là tốt nhất. Cuối cùng, tùy chọn (5) khá phức tạp và nói chung là không cần thiết. Nó sử dụng thuật toán hai bước lặp lại, kỳ vọng, tối đa hóa để lấy các ước tính khả năng xảy ra tối đa cho các giá trị không đầy đủ.
Các bước làm sạch dữ liệu là điều kiện tiên quyết cần thiết để tiến hành mô tả dữ liệu và phân tích tiếp theo. Mặc dù vậy, nó là một chủ đề bị bỏ quên và được coi là điều hiển nhiên trong hầu hết các sách thống kê. Bất kỳ lỗi dữ liệu nào do lỗi xử lý hoặc các giá trị nằm ngoài phạm vi được ghi lại sẽ làm cho phân tích sau đó không hợp lệ.
Tài liệu tham khảo
- Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
- Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
- Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
- McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
- Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
- Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.