Bài 5. Biến ngẫu nhiên liên tục (Continuous Random Variables)

admin
22822 8 phút đọc

Một biến ngẫu nhiên liên tục được ký hiệu là X, có thể nhận bất kỳ giá trị nào trong một phạm vi tùy thuộc vào độ nhạy của công cụ đo. Phân phối xác suất liên tục biểu thị phân phối xác suất được gán cho một khoảng của một biến ngẫu nhiên liên tục. Phân phối xác suất cho một biến ngẫu nhiên rời rạc có thể được biểu diễn bằng biểu đồ thanh, với một số lượng lớn các thanh với điểm giữa của đỉnh của mỗi thanh được nối với nhau, thì khi số lượng thanh tăng dần về phía vô cùng, đường nối các đỉnh của các thanh sẽ gần đúng và gần hơn với một đường cong trơn liên tục. Khi chúng gần đến vô cùng, đường cong trở thành đường cong chuẩn (normal curve). Đường cong chuẩn là một phân phối xác suất liên tục, chẳng hạn như các phân phối F-test, t-test và χ2. Với một phân phối xác suất liên tục, các xác suất được gán không phải cho các kết quả rời rạc mà cho một khu vực dưới đường cong chuẩn. Diện tích này bằng khoảng giữa hai giá trị của biến ngẫu nhiên liên tục.

1. Phân phối chuẩn (Normal Distributions)

Phân phối chuẩn là một mô hình mô tả phân phối xác suất cho một dân số xác định. Nhiều bài kiểm tra thống kê dựa trên giả định về tính chuẩn của dân số, bao gồm t-test, F-test và tương quan Pearson.

Theo ‘Định lý Giới hạn Trung tâm’ (Central Limit Theorem), khi kích thước của một mẫu tăng lên, thì hình dạng của phân phối mẫu tiến tới chuẩn bất kể hình dạng của dân số mẹ. Ý nghĩa của lý thuyết quan trọng này là nó cho phép chúng ta sử dụng phân phối xác suất chuẩn ngay cả với các trung bình mẫu từ các dân số không có phân phối chuẩn. Ví dụ: mẫu nhị thức (chẳng hạn như đúng / sai) và tỷ lệ gần đúng một phân phối xác suất chuẩn khi kích thước mẫu là lớn.

Chúng ta có thể coi phân phối chuẩn là một mô tả toán học với các đặc điểm quan trọng sau:

  • Các phép đo phải là một thang đo khoảng (interval) hoặc thang tỷ lệ (ratio) và có ít nhất một phân phối liên tục về lý thuyết.
  • Các giá trị được phân phối đối xứng về giá trị trung bình.
  • Các giá trị gần giá trị trung bình xảy ra tương đối thường xuyên hơn các giá trị ở xa hơn, tần suất rơi vào một đường cong hình chuông được xác định rõ.
  • Các đơn vị đo lường có thể được chuẩn hóa dưới dạng đo độ chênh lệch về giá trị trung bình là 0, còn được gọi là Z-scores.
  • Khoảng 68 phần trăm (68,26%) số đo lường trong một phân phối chuẩn nằm giữa độ lệch chuẩn −1.0 và +1.0 mức trung bình tương ứng. Giá trị trung bình là 0 nếu các thước đo được tiêu chuẩn hóa.
  • Khoảng 95 phần trăm (95,44%) số đo nằm trong khoảng từ −2.0 đến +2.0 độ lệch chuẩn trên dưới mức trung bình.
  • Khoảng 99 phần trăm (99,74%) số đo nằm trong khoảng từ −3.0 đến +3.0 độ lệch chuẩn trên dưới mức trung bình.

Có nhiều đường cong chuẩn khác nhau, mỗi đường cong cụ thể được mô tả bằng cách xác định hai tham số, điểm uốn đường cong, đó là giá trị trung bình µ, và mức độ phân bố trải ra xung quanh tâm của nó, σ, độ lệch chuẩn. Với giá trị trung bình và độ lệch chuẩn xác định, xác suất để một biến liên tục ngẫu nhiên, X, với một giá trị cụ thể nằm trong một khoảng xác định trên trục hoành, bằng diện tích dưới đường cong chuẩn. Trục tung, được gọi là mật độ và có liên quan đến tần suất hoặc xác suất xuất hiện của biến X.

Nếu chúng ta muốn xây dựng các bảng phân phối chuẩn, chúng ta sẽ gặp vấn đề bởi vì mỗi phân phối chuẩn phụ thuộc vào µ và σ cụ thể. Thay vì lập bảng riêng biệt, các nhà thống kê đã sử dụng đường cong chuẩn chuẩn hóa (standard normal) hoặc đường cong Z. Điểm Z phân phối chuẩn và các giá trị xác suất liên quan được trình bày trong bảng phân phối chuẩn hóa (Vui lòng xem Bảng phân phối chuẩn hóa). Đường cong Z có giá trị trung bình µ là 0 và một độ lệch chuẩn σ và phương sai là ‘1’, kí hiệu là N (µ, σ) hoặc N (µ, σ2).

2. Chuyển phân phối chuẩn thành phân phối chuẩn chuẩn hóa

Ví dụ 1: Hình dưới đây là thống kê mô tả điểm số học tập môn Toán của học sinh. Điểm số trung bình là 72/ 100 điểm và độ lệch chuẩn là 12 điểm. Đối với ví dụ này, hãy coi các giá trị này đại diện cho dân số của tất cả học sinh. Chúng ta có thể sử dụng giá trị trung bình của mẫu và độ lệch chuẩn để ước tính các tham số dân số tương ứng.

Chúng ta muốn biết xác suất quan sát được một học sinh có tần số điểm số từ 96 trở lên là bao nhiêu?

Trước tiên, chúng ta sẽ tiến hành bằng cách chuyển đổi phân phối điểm học tập thành phân phối chuẩn chuẩn hóa.

Điểm số thô được chuyển thành điểm số Z bằng công thức: Z = (xi − µ) / σ

Do đó: tại điểm số 72, Z = (72 – 72) / 12 = 0

tại điểm số 84, Z = (84 – 72) / 12 = 1

Phép chuyển đổi này không làm thay đổi hình dạng của một phân phối, nghĩa là các quan sát vẫn ở cùng một vị trí tương đối với nhau. Do đó, nếu hình dạng của phân phối không chuẩn ngay từ đầu thì phép biến đổi Z sẽ không tạo ra một phân phối chuẩn.

Tổng diện tích dưới đường cong chuẩn chuẩn hóa là 1. Để tìm diện tích dưới đường cong chuẩn nằm trên hai độ lệch chuẩn, chúng ta sẽ tìm vùng trên Z = 2.

Để trả lời câu hỏi: xác suất quan sát được một học sinh có điểm số từ 96 trở lên là bao nhiêu?

– Đầu tiên, chúng ta chuyển điểm số thô ’96’ thành điểm Z là: (96 – 72) / 12 = 2

– Sau đó chuyển đến bảng phân phối chuẩn hóa (vui lòng xem bảng phân phối Z), và tìm cột Z. Di chuyển dọc xuống hàng cho đến khi đạt đến giá trị ‘2.00‘. Đi dọc theo hàng cho đến gặp cột ‘.00’ (tại số thập số thứ 2), giá trị là p = 0.0228. Điều này có nghĩa là 2.28% diện tích dưới đường cong nằm vượt ra ngoài (bên phải) giá trị Z của 2 (tức là 2 độ lệch chuẩn). Phần lớn hơn bên trái của Z chiếm 97,72% diện tích dưới đường cong chuẩn. Do đó, xác suất quan sát được học sinh đạt điểm số từ 96 trở lên là p = 0.0228. Trên thực tế, điểm Z chỉ là 1.65 để xác suất p <0.05 (cho một cực của phân phối). Chúng ta sẽ kết luận rằng xác suất quan sát được một học sinh có điểm số 96 trở lên không chắc đến từ cùng một dân số học sinh (p<0.05).

Như vậy, chúng ta có thể chuyển đổi bất kỳ điểm thô “xi” nào thành điểm Z, tất cả những gì được yêu cầu là giá trị trung bình và độ lệch chuẩn của phân phối điểm. Một điểm Z sẽ hiển thị vị trí tương đối của điểm trên hoặc dưới trung bình của một phân phối. Điểm Z có thể có giá trị âm, với tất cả những giá trị dưới giá trị trung bình. Vì phân phối chuẩn là đối xứng nên chúng ta có thể sử dụng nó để đánh giá điểm Z âm. Ví dụ, xác suất điểm Z <−2.0 tương đương với xác suất điểm Z> 2.0, cụ thể là 0.0228.

Ví dụ ứng dụng chuyển điểm thô thành điểm Z

Ví dụ 2: Trong một bài kiểm tra năng lực công nghệ thông tin, các sinh viên được yêu cầu làm ba bài kiểm tra bao gồm Bài kiểm tra 1- Tính toán (xi = 25, mean = 10, SD = 3); Bài kiểm tra 2- Lập trình Máy tính (xi = 50, mean = 35, SD = 6); và Bài kiểm tra 3- Lập luận tư duy bằng lời nói (xi = 120, mean = 100, SD = 10). Vậy sinh viên đó làm tốt nhất ở bài kiểm tra nào nhất?

  • Bài kiểm tra 1: Z = (25 – 10) / 3 = 5.0
  • Bài kiểm tra 2: Z = (50 – 32) / 6 = 3.0
  • Bài kiểm tra 3: Z = (120 – 100) / 10 = 1.2

Điểm tốt nhất là trong bài kiểm tra tính toán, (bài kiểm tra 1): Z = + 5.0

3. Giới hạn xác suất có thể sử dụng Z

Trong ví dụ 1, nếu chúng ta muốn biết các mức điểm số có thể có là lớn hơn hoặc nhỏ hơn các giá trị chúng ta mong chờ 95% của tất cả học sinh được lấy mẫu. Các giá trị này được gọi là giới hạn có thể xảy ra Dưới (Lower) và Trên (Upper). Điều này tương đương với việc tìm các giá trị Z cho 5% (100% – 95%) của các trường hợp ở các cực trị của của phân phối. Theo tính đối xứng, một nửa diện tích phải ở mỗi đuôi, do vậy chúng ta cần các giá trị Z cho p = 0.025. Giá trị Z là −1.96 và +1.96 (tra bảng phân phối Z).

Các giá trị Z này có thể được chuyển đổi thành điểm số của học sinh.

-1.96 = (Lower – 72) / 12

+1.96 = (Upper – 72) / 12

Giới hạn dưới (Lower) = (12) × (- 1.96) + 72 = 48.48

Giới hạn trên (Upper) = (12) × (+ 1.96) + 72 = 95.52

Nói cách khác, giới hạn trên và giới hạn dưới mà 95% tỷ lệ điểm số học sinh sẽ rơi vào giữa 48 đến 96.

Chúng ta không nên nhầm lẫn giữa việc mô tả ‘các giới hạn có thể xảy ra’ (Probable Limits) đối với một quan sát với ‘khoảng tin cậy’ (Confidence Intervals) 95% của phân phối mẫu. Các giới hạn có thể xảy ra là khoảng mà 95% các quan sát rơi vào. Trong khi, khoảng tin cậy liên quan đến việc ước tính các tham số chưa biết và có tính chất suy luận.

4. Nhận biết một phân phối chuẩn trong SPSS

Có nhiều cách để đánh giá một phân phối chuẩn trong SPSS.

  1. Đơn giản nhất là xem biểu đồ với đường cong chuẩn (Histograms with normal curve) với dạnh hình chuông đối xứng với tần suất cao nhất nằm ngay giữa và các tần số thấp dần nằm ở 2 bên. Giá trị trung bình (mean) và trung vị (mediane) gần bằng nhau và độ lệch (skewness) gần bằng zero.
  2. Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot). Phân phối chuẩn khi biểu đồ xác suất này có quan hệ tuyến tính (đường thẳng).
  3. Dùng phép kiểm định Kolmogorov-Smirnov khi cỡ mẫu lớn hơn 50 hoặc phép kiểm Shapiro-Wilk khi cỡ mẫu nhỏ hơn 50. Được coi là có phân phối chuẩn khi mức ý nghĩa (p) lớn hơn “0.05”.
  4. Trong khi thử nghiệm Shapiro-Wilk và thử nghiệm Kolmogorov-Smirnov có thể được sử dụng để xác nhận phân phối chuẩn với các mẫu cỡ nhỏ đến trung bình (nhỏ hơn 300), chúng có thể không đáng tin cậy đối với các mẫu lớn. Thử nghiệm độ lệch (skewness) và thử nghiệm kurtosis có thể được sử dụng để xác định phân phối chuẩn cho cỡ mẫu lớn. Giá trị tuyệt đối của skewness nhỏ hơn 2 và giá trị tuyệt đối của kurtosis (proper) nhỏ hơn 7 cho thấy dữ liệu chắc chắn được phân phối chuẩn. Trong đó, thử nghiệm SPSS cung cấp kurtosis dư thừa bằng cách trừ đi 3 từ proper kurtosis.

Xin vui lòng đọc bài hướng dẫn kiểm tra phân phối chuẩn trong SPSS.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.
  7. Kim, H. Y. (2013). Statistical notes for clinical researchers: assessing normal distribution (2) using skewness and kurtosis. Restorative dentistry & endodontics, 38(1), 52-54. https://doi.org/10.5395/rde.2013.38.1.52

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x