Bài 3. Phân phối mẫu (Sampling Distributions)

admin
14250 4 phút đọc

1. Giới thiệu

Lý thuyết xác suất cho phép chúng ta mô tả toán học những kết quả của các sự kiện ngẫu nhiên. Một khía cạnh quan trọng là dữ liệu được cung cấp phải được hình thành bởi một quá trình ngẫu nhiên, các giá trị của các thống kê mẫu là ngẫu nhiên. Việc ‘lấy mẫu lặp lại’ có cùng kích thước từ cùng một dân số đưa đến một khái niệm về ‘phân phối mẫu’ của một thống kê. Chúng ta có thể hiểu “phân phối mẫu” của một thống kê mẫu là sự phân phối các giá trị của thống kê đó trên các mẫu lặp lại có cùng kích thước từ cùng một dân số. Mặc dù các giá trị riêng lẻ của một biến có thể khác nhau và các thống kê mẫu riêng lẻ lặp lại được lấy mẫu từ cùng một dân số là khác nhau, nhưng phân phối mẫu của một thống kê mẫu là có một mô hình mẫu có thể dự đoán được. Suy luận thống kê phụ thuộc vào ‘mô hình mẫu có thể dự đoán được’ của phân phối mẫu.

2. Phân phối mẫu của thống kê kiểm tra

Các thống kê kiểm tra, chẳng như t-test, F-test và χ2, tất cả đều có phân phối mẫu của riêng nó. Các bảng thống kê kết quả được hiển thị trong phụ lục của các thống kê là các bảng giản đơn của xác suất mong đợi dựa trên các phân phối mẫu lý thuyết của các thống kê kiểm tra.

Ví dụ, thống kê Chi-bình phương χ2 thường được sử dụng để trả lời các câu hỏi kiểu ‘Có mối quan hệ giữa hai biến phân loại hay không, chẳng hạn như loại trường học và đặc điểm nhân khẩu học của học sinh’. Ví dụ: chúng ta có thể chọn một mẫu ngẫu nhiên học sinh và phân loại chéo chúng vào hai biến (loại trường) để xem liệu có mối liên hệ đáng kể về mặt thống kê giữa loại trường học (công và tư) và biến còn lại, nhân khẩu học (giới tính, khu vực thành thị/nông thôn…) của học sinh.

Trong ví dụ trên, giả thuyết vô hiệu (null hypothesis) tương ứng sẽ là tỷ lệ dân số ở hai đặc điểm nhân khẩu học của học sinh là bằng nhau trong hai nhóm học sinh (trường công / tư). Giả thuyết vô hiệu (H0) là một giả thuyết không có sự khác biệt và đóng một vai trò quan trọng trong phân tích thống kê (nó còn được gọi là giả thuyết thống kê – statistical hypothesis).

Chúng ta có thể nhận được phân phối mẫu của thống kê χ2 khi H0 là đúng bằng cách lấy ra một số lượng rất lớn các cặp mẫu ngẫu nhiên của giới tính và khu vực của học sinh. Nếu sử dụng cách này, các giả thuyết H0 phải đúng vì tỷ lệ dân số ở tất cả các mục của đặc điểm nhân khẩu học sẽ bằng nhau. Bất kỳ sự khác biệt nào giữa tỷ lệ mẫu của nhóm dân số 1 và nhóm dân số 2 sẽ thuộc về sự biến thiên mẫu. Nếu việc lấy mẫu được lặp lại vô số lần, trong cùng điều kiện, chúng ta có thể vẽ biểu đồ của tất cả các giá trị của thống kê χ2 thu được. Điều này sẽ cung cấp phân phối mẫu cho χ2 khi H0 là đúng với cỡ mẫu cố định.

Bây giờ chúng ta có thể chọn một mẫu ngẫu nhiên của dữ liệu, cùng cỡ mẫu, tính giá trị χ2 và so sánh giá trị này với những gì chúng ta mong đợi từ phân phối mẫu. Chúng ta có thể bác bỏ giả thuyết H0 nếu giá trị χ2 của chúng ta không là những gì chúng ta mong đợi khi giả thuyết H0 là đúng.

Mỗi phân phối mẫu χ2 là phụ thuộc vào một tham số duy nhất – bậc tự do df. Mỗi khi thay đổi bậc tự do, chúng ta phải sử dụng một phân phối mẫu khác nhau. May mắn thay, các phân phối mẫu lý thuyết đã được đánh giá cho tất cả các bậc tự do có thể có và đây là các bảng χ2 thường được trình bày trong phần phụ lục của các tài liệu thống kê. Xin vui lòng xem bảng phân phối χ2.

Trong lí thuyết xác suất, phân phối mẫu χ2 với k bậc tự do (df) là một phân phối mẫu lý thuyết được sử dụng trong thống kê suy luận như kiểm định giả thuyết hay xây dựng khoảng tin cậy. Phân phối mẫu χ2 được dùng trong thống kê để suy luận phương sai tổng thể khi dân số được giả thiết là có phân phối chuẩn.

Bằng cách tương tự, các nhà thống kê có thể tính toán và lập được bảng phân phối mẫu của thống kê kiểm tra t-test, F-test.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x