Bài 2. Xác suất về thống kê (Statistical Probability)
1. Xác suất về thống kê là gì?
Xác suất về thống kê là cơ sở của tất cả các bài kiểm tra ý nghĩa thống kê. Xác suất là một cách gán một số cho khả năng xảy ra của một sự kiện hoặc kết quả. Nói một cách khác, xác suất là một cách đo lường cơ hội và cho phép chúng ta đặt khả năng xảy ra của một sự kiện trên một chuỗi liên tục từ ‘chắc chắn’ có giá trị xác suất “1” đến ‘không thể xảy ra’ bằng “0”. Xác suất càng gần 1 thì sự kiện càng chắc chắn xảy ra.
Trong thống kê, một sự kiện (Event) đề cập đến một kết quả có thể quan sát hoặc đo lường được của một lần “thử nghiệm” (Experiment) trong xác suất. Ví dụ, giới tính của một đứa trẻ khi sinh ra là một kết quả có thể quan sát được, số trẻ em cải thiện được kỹ năng đọc trong chương trình phần mềm tiếng Anh là một kết quả có thể quan sát được.
Hầu hết các sự kiện hoặc kết quả này đều có một mức độ không chắc chắn gắn liền với chúng và có thể được coi là ngẫu nhiên. Chúng ta sử dụng ý tưởng về một “biến ngẫu nhiên” (Random varialbe) để mô tả các sự kiện quan tâm. Biến ngẫu nhiên là các biến nhận một giá trị ngẫu nhiên đại diện cho kết quả của phép thử. Biến ngẫu nhiên có 2 dạng:
– Rời rạc (discrete): tập giá trị của nó là rời rạc, tức là đếm được. Ví dụ như giới tính của một đứa trẻ.
– Liên tục (continous): tập giá trị là liên tục, tức là lấp đầy một khoảng trục số. Ví dụ như điểm học tập của học sinh trong khoảng từ 1 đến 10 điểm.
Ví dụ, giới tính của một đứa trẻ có thể là các biến số ngẫu nhiên được quan tâm, một biến ngẫu nhiên được quan tâm có thể là tỉ lệ trẻ em trai được sinh năm 2020. Hoặc nếu chúng ta tổ chức một bài kiểm tra thành tích toán học cho một lớp trẻ 8 tuổi, một biến ngẫu nhiên có thể là giá trị của điểm kiểm tra của một học sinh, nhưng một biến ngẫu nhiên khác có thể là điểm kiểm tra trung bình của lớp.
Trong một biến ngẫu nhiên, kết quả của nó được xác định bởi một yếu tố may rủi và có mức độ không chắc chắn đi kèm với nó. Có nghĩa là kết quả của mỗi phép thử là không thể dự đoán được, nhưng là một trong nhiều kết quả có thể xảy ra, mỗi kết quả được gán một giá trị số (giá trị xác suất).
2. Bản chất của mô hình xác suất
Mục đích của nghiên cứu giáo dục và tâm lý là mô tả và dự đoán thế giới và từ đó có được cái nhìn sâu sắc về tất cả các loại hiện tượng giáo dục và tâm lý. Khi chúng ta sử dụng suy luận thống kê, là khi chúng ta muốn lập mô hình các phép thử ngẫu nhiên của mình và có thể cung cấp các giá trị liên quan đến mỗi kết quả. Chúng là một mô hình xác suất mô tả đầy đủ về từng phần của thế giới mà chúng ta quan tâm.
Chúng ta không thể mô hình hóa kết quả của một sự kiện ngẫu nhiên đơn lẻ, chẳng hạn như một điểm kiểm tra đơn lẻ cho một cá nhân, hoặc giới tính của một đứa trẻ, bởi vì bản chất của ngẫu nhiên của giới tính đứa trẻ khi sinh, hoặc điểm kiểm tra đạt được là không chắc chắn. Vì vậy, mỗi sự kiện đơn lẻ không thể hoặc không có cơ hội để đạt được một giá trị ‘chắc chắn’ với giá trị 1 của xác suất. Tuy nhiên, về lâu dài, và với điều kiện thử nghiệm là ngẫu nhiên, thì một mô hình mẫu của kết quả có thể được phát hiện. Mô hình mẫu có thể dự đoán này là cơ sở của mô hình xác suất và là lý do tại sao chúng ta có thể sử dụng suy luận thống kê và kiểm tra thống kê. Điều này không khó hiểu khi những sự kiện ngẫu nhiên không chắc chắn, ‘về lâu dài’, với tính ổn định lâu dài của các hiện tượng ngẫu nhiên có thể được mô tả bằng một mô hình toán học hoặc mô hình xác suất. Thuật ngữ ‘về lâu dài’ là nói đến việc lật đồng xu lặp đi lặp lại, hoặc quan sát nhiều đứa trẻ sinh ra, hoặc điểm thi lặp lại nhiều lần.
Ví dụ, trong nhiều lần lật đồng xu, tỷ lệ hoặc tần suất tương đối của các mặt đồng xu sẽ tiếp cận giá trị ‘0.5’, nghĩa là một nửa kết quả sẽ là mặt đầu và một nửa sẽ là mặt sấp.
Ở một tình huống khác, một cá nhân thường chỉ làm bài kiểm tra một lần, không lặp lại trong cùng một điều kiện và chúng ta không bao giờ có thể quan sát được vô số lần như lật đồng xu. Điều tốt nhất chúng ta có thể làm là quan sát một số lượng rất lớn các cá nhân làm bài kiểm tra. Trong những trường hợp này, chúng ta sử dụng một phân phối xác suất lý thuyết (theoretical probability distribution). Đó là phân phối xác suất được xác định bằng toán học, mô tả tần suất tương đối của các kết quả trong một vô số các thử nghiệm, mỗi kết quả có thể xảy ra là có một giá trị xác suất trên thang điểm từ 0 đến 1. Phân phối xác suất (probability distribution) là phương pháp xác định xác suất của biến ngẫu nhiên được phân phối ra sao.
Để có thể sử dụng ý tưởng của phân phối xác suất và các các mô hình mẫu dài hạn được kỳ vọng này, các thiết kế nghiên cứu phải có sự ngẫu nhiên hoặc tính ngẫu nhiên được lên kế hoạch cho chúng. Ví dụ, lấy mẫu ngẫu nhiên (random sampling) hoặc ngẫu nhiên hóa (randomization) trong các thử nghiệm.
Tóm lại, các kết quả nghiên cứu phải đến từ các sự kiện ngẫu nhiên nằm ngoài những ảnh hưởng có chủ ý của con người.
Tài liệu tham khảo
- Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
- Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
- Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
- McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
- Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
- Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.