Bài 1. Xử lý dữ liệu

admin
6911 10 phút đọc

Mục đích của phân tích dữ liệu ban đầu là xử lý dữ liệu để có thể đánh giá chất lượng của nó trước khi tiến hành bất kỳ phân tích nào khác. Có ba bước cơ bản trong phân tích dữ liệu gồm: i) xử lý dữ liệu (data processing), ii) làm sạch dữ liệu (data cleaning), và iii) mô tả dữ liệu (data description). Xử lý dữ liệu bao gồm việc mã hóa và nhập dữ liệu vào tập dữ liệu có định dạng phù hợp cho các bài kiểm tra thống kê. Làm sạch dữ liệu là kiểm tra chất lượng và cấu trúc của dữ liệu và sửa chữa bất kỳ sai sót nào do quá trình mã hóa và xử lý. Mô tả dữ liệu liên quan đến việc tóm tắt và hiển thị các đặc điểm chính của phân phối dữ liệu.

1. Các xem xét của xử lí dữ liệu

Sau khi đã thu thập, các cân nhắc sơ bộ nên bao gồm:

  • Đầu tiên là việc kiểm tra chặt chẽ số lượng quan sát và số lượng các biến trong phép đo. Xem xét liệu các ‘con số’ được sử dụng cho các biến thống kê có đại diện cho các mức đo lường danh nghĩa, thứ tự, khoảng hoặc tỷ lệ hay không. Cũng cần lưu ý rằng việc lấy các con số ở giá trị bề mặt mà không xem xét cách thu thập dữ liệu có thể dẫn đến các kết quả sai lệch. Ngoài ra, việc kiểm tra dữ liệu thô ban đầu này cũng là để xem xét ở giai đoạn thiết kế, liệu tất cả dữ liệu thu thập được có cần thiết cho phân tích thống kê tiếp theo hay không. Nhiều nhà nghiên cứu có thể đã thu thập thông tin không phải là trọng tâm của mục đích điều tra. Có một lượng nhỏ dữ liệu có chất lượng cao hơn là một lượng lớn dữ liệu ‘không sạch’, tức là dữ liệu không đầy đủ hoặc không thể đọc được.
  • Thứ hai là cần xem xét chính xác cách dữ liệu được ghi lại. Ví dụ, những câu hỏi được người trả lời đánh dấu hay khoanh tròn? Các giá trị số có được nhập bởi nhà nghiên cứu không? Các giá trị là số nguyên được sử dụng xuyên suốt trong các trường hợp hay là các giá trị số thập phân? Đảm bảo bạn có thể phân biệt giữa các giá trị bị thiếu – không có giá trị được mã hóa, giá trị nằm ngoài phạm vi – một giá trị được mã hóa nhưng được biết là không thể, và đối với dữ liệu bảng câu hỏi, câu trả lời “không biết”“không áp dụng”.
  • Thận trọng với vấn đề khi dữ liệu từ các nguồn khác nhau được kết hợp thành một tập dữ liệu. Cùng một biến số có thể được đo lường theo nhiều cách khác nhau, chẳng hạn như bằng cách đặt các câu hỏi hơi khác nhau hoặc mã hóa với một số chữ số thập phân khác nhau.
  • Việc xem xét các biến có vai trò gì trong thiết kế nghiên cứu tổng thể là quan trọng. Ví dụ, liệu một biến danh nghĩa đã được sử dụng như một yếu tố phân tầng trong thiết kế mẫu hay liệu một biến liên tục sẽ được chuyển thành một biến phân loại và được sử dụng để phân tầng. Biến phân tầng hay yếu tố phân tầng là một biến được sử dụng để tách dân số mục tiêu thành một số nhóm hoặc tầng lớp trong đó các thành viên của mỗi tầng lớp có một đặc điểm chung, chẳng hạn như phân tầng sinh viên đại học theo tình trạng nơi ở, tầng i) Thành thị; và tầng ii) Nông thôn; hoặc phân tầng sinh viên theo tình trạng tài chính, tầng i) đủ sinh hoạt, và tầng ii) không đủ chi trả sinh hoạt. Tương tự, một biến có thể được sử dụng làm yếu tố kiểm soát trong thiết kế thử nghiệm, như một hiệp biến (covariate) hoặc biến chặn (blocking variable) trong thiết kế giai thừa. Biến đóng vai trò hiệp biến sẽ cần phải là một số đo liên tục và biến chặn là một biến phân loại. Trong một số thiết kế, điều quan trọng là phải phân biệt giữa các biến phản ứng (kết quả) và các biến giải thích (độc lập), chẳng hạn như một thiết kế hồi quy.
Giải thích rõ hơn thuật ngữ “hiệp biến”

Chúng ta biết rằng với một biến X hay Y, có ba thông số thống kê mô tả: số cỡ mẫu, số trung (mean), và phương sai (variance). Nhưng để mô tả mối quan hệ giữa hai biến X và Y, chúng ta cần đến hiệp biến.

Có thể hiểu hiệp biến qua hình học lượng giác như sau. Chúng ta biết rằng cho một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b, Định lí Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai cạnh kia: c2 = a2 + b2

Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai cạnh a và b phức tạp hơn với mối liên hệ được định lượng bằng hàm cosine của góc C như sau: c2 = a2 + b2 – 2ab × Cos (C)

Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc lập với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng phương sai của X cộng với phương sai của Y: var(X+Y) = var(X) + var(Y)  . trong đó, “var” là viết tắt của phương sai (tức variance). Chú ý rằng X+Y là một biến mới.

Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế bằng một công thức khác với hiệp biến: var(X+Y) = var(X) + var(Y) + 2×Cov(X,Y) . trong đó, “Cov” là viết tắt của hiệp biến (covariance).

Ví dụ, trong phân tích tương quan Pearson (r), hiệp biến đối với mỗi cá nhân của xi và yi được cho bởi công thức:

Nhưng ở đây chúng ta có n đối tượng, cho nên cần phải cộng tất cả lại và chia cho số đối tượng:

Công thức trên chính là định nghĩa của hiệp biến. Từ hai công thức trên, chúng ta có thể rút ra vài nhận xét:

  • Một hiệp biến là số dương có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng thuận với y.
  • Một hiệp biến là số âm có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng nghịch với y.
  • Nếu hiệp biến là 0, thì hai biến x và y độc lập nhau, tức không có tương quan gì với nhau.

Tương quan Pearson (r) là lấy tỉ số của hai chỉ số này:

Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng; nếu giá trị của r là âm, x và y liên hệ đảo ngược: tức khi khi x tăng thì y giảm, và ngược lại.

2. Mã hóa dữ liệu

Sau khi xem xét sơ bộ, chúng ta tiến hành mã hóa dữ liệu để có thể phân tích thống kê. Chúng ta nên suy nghĩ về sự lựa chọn của định dạng biến, cụ thể là định dạng số học hay kí tự của mỗi biến, và con số của các cột khi biến là số thập phân.

Đối với mỗi biến, thông tin sau là bắt buộc:

  • mô tả biến đầy đủ;
  • tên biến ngắn;
  • định dạng cột cho biến (con số của các cột, nếu cần, cho dấu thập phân);
  • phạm vi biến có thể có (giá trị nhỏ nhất và lớn nhất), chẳng hạn, thật vô lí khi có điểm thi là 11 trong khi giới hạn thang đo là 10 điểm;
  • các giá trị cho dữ liệu bị thiếu (biểu thị là dấu chấm (.) cho các giá trị số bị thiếu);
  • Gán “nhãn” cho các biến danh nghĩa. Đối với giới tính, 0 = Nam, 1 = Nữ; đối với nhóm ngành sinh viên, 1 = Kỹ thuật, 2 = Kinh tế, 3 = Ngoại ngữ.

Sau khi dữ liệu đã được mã hóa, nó sẽ được nhập vào tệp dữ liệu máy tính của chương trình thống kê bạn sử dụng, chẳng hạn SPSS.

3. Hướng dẫn nhập dữ liệu trong SPSS

Ví dụ 1, chúng ta có dữ liệu về giới tính, nhóm ngành học, số giờ ôn tập toán, điểm thi cuối kì toán (thang điểm 100) của 10 sinh viên tham gia khảo sát và muốn nhập vào SPSS. Số liệu thu thập được thể hiện trong bảng dưới đây:

STT 1 2 3 4 5 6 7 8 9 10
Giới tính Nam Nam Nữ Nam Nữ Nữ Nữ Nữ Nam Nam
Nhóm ngành Kinh tế Cơ khí Cơ khí Điện CNTT CNTT Cơ khí Kinh tế Điện Điện
Giờ ôn tập 5 10 5 3 8 5 8 5 1 6
Điểm cuối kì Toán 70 93 69 74 88 69 79 80 55 78

Giai đoạn 1: Mã hóa dữ liệu

Chúng ta cần mã hóa tên biến và các lựa chọn cho biến trước khi thực hiện thao tác trên SPSS. Không có quy định ràng buộc cho việc mã hóa này, tuy nhiên chúng ta mã hoá sao cho khi phân tích dễ nhận biết tên biến cũng như những lựa chọn của biến.

Ở ví dụ trên, chúng ta có thể mã hóa như sau:

Bảng 1: Mã hóa biến và dữ liệu

Tên biến Mã tên biến Mã lựa chọn
Giới tính Gioitinh 0 = Nam, 1 = Nữ
Nhóm ngành Nganh 1 = Kinh tế; 2 = Cơ khí; 3 = Điện; 4 = CNTT
Giờ ôn tập Thoigian
Điểm cuối kì Toán DiemToan

Lưu ý rằng các biến giờ ôn tập, điểm cuối kì Toán là một giá trị định lượng cụ thể nên chúng ta không cần mã mà nhập trực tiếp vào SPSS.

Giai đoạn 2: Nhập dữ liệu trong SPSS

– Bước 1: Mở phần mềm SPSS và khai báo biến

Chương trình SPSS sau khi được mở có hai khu vực làm việc là Data View và Variable View. Bước 1 khai báo biến là được thực hiện ở khu vực Variable View. Chúng ta tiến hành đặt tên từng biến cũng như vào tất cả các cột để khai báo cho biến.

  • Cột Name: Ở cột này chúng ta đặt mã cho tên biến chỉ cần click vào ô và đặt tên. Trong ví dụ này chúng ta có 4 biến (giới tính, nhóm ngành, giờ ôn tập, điểm cuối kì Toán). Theo Bảng 1, trên trong SPSS chúng ta có 4 biến Gioitinh, Nganh, Thoigian, DiemToan.
  • Cột Type: Dữ liệu của chúng ta có nhiều kiểu như số, văn bản, tiền tệ, mũ… Nếu chúng ta không xác định chính xác kiểu dữ liệu khi khai báo biến thì sau này khi nhập liệu hoặc phân tích sẽ gặp nhiều rắc rối không đáng có. SPSS cho phép khai báo dữ liệu kiểu Numeric (kiểu số), Comma (giá trị số với những ‘dấu phẩy’ chèn vào hàng trăm, hàng nghìn…, dấu chấm dùng cho hàng thập phân), Dot (giống như Comma, nhưng dấu ngăn cách nhóm 3 số là dấu ‘.’, và dấy phẩy dùng cho hàng thập phân), Scientific Notation (dùng kí tự E để hiển thị số mũ, ví dụ 2014 = 2.014E3, 0.0005 = 5E-4), Date (năm, tháng, ngày, giờ, phút, giây), Dollar (giá trị tiền tệ), Custom Currency (tùy chỉnh cho tiền tệ), String (định dạng kiểu ký tự không phải số), Restricted Numeric (giống như Numeric nhưng số chữ số hiển thị là bằng nhau).
  • Cột Width: Thiết lập độ rộng trong định nghĩa của biến xác định số lượng ký tự được sử dụng để hiển thị giá trị.
  • Cột Decimals: Số chữ số thập phân hiển thị ở giá trị khai báo.
  • Cột Label: Giống như Name khi có cùng chung mục đích dùng để mô tả biến. Khác với Name là nó cho phép mô tả chi tiết tên biến với bất kỳ kí tự nào.
  • Cột Value: Cột Value là nơi mà chúng ta gán mã cho tất cả các lựa chọn của biến. Ví dụ, với biến giới tính thì giá trị 0 gán nhãn Nam, giá trị 1 gán nhãn Nữ.
  • Cột Missing: chỉ định một giá trị thích hợp để lấp đầy khoản trống dữ liệu. Ví dụ, chúng ta có biến hỏi về điểm thi cuối kì Toán của những người được điều tra, vì lý do tế nhị nào đó đã từ chối trả lời biến hỏi này, biến này sẽ không có giá trị. Tuy nhiên, chúng ta có thể chỉ định một giá trị để thay thế khoảng trống này, chẳng hạn giá trị trung bình là một lựa chọn phù hợp.
  • Cột Columns: nơi khai báo độ rộng của cột biến khi ta nhập liệu, thông thường chọn là 8.
  • Cột Align: dữ liệu được căn trái, căn phải hoặc căn giữa của cột.
  • Cột Measure: khai báo thang đo đo thể hiện dữ liệu với ba loại chính là Scale (gồm cả Interval và Ratio tức thang đo khoảng cách và tỉ lệ), Ordinary (thang đo thứ bậc), Norminal (thang đo danh nghĩa).

Kết quả khai báo biến trong ví dụ trên được thể hiện trong hình dưới đây:

– Bước 2: Nhập dữ liệu

Sau khi thực hiện xong bước 1, chúng ta chuyển qua làm việc ở khu vực Data View để tiến hành nhập liệu. Sau đó, chúng ta tiến hành nhập số liệu vào SPSS cho từng biến. Cuối cùng, chúng ta phải nhấp lưu dữ liệu thường xuyên để tránh trường hợp máy bị treo hoặc cúp điện đột ngột gây mất dữ liệu đã nhập.

Kết quả nhập dữ liệu trong ví dụ trên được thể hiện trong hình dưới đây:

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x