Bài 7. Thống kê mô tả (Descriptive Statistics)

admin
23937 14 phút đọc

Một phần quan trọng của mô tả dữ liệu là việc sử dụng thống kê tóm tắt để mô tả các đặc trưng quan trọng của một phân phối. Ba thống kê mô tả thiết yếu giúp mô tả phân phối dữ liệu là các thước đo về vị trí hoặc xu hướng trung tâm, các thước đo về hình dạng và các thước đo về độ phân tán (lan truyền).

1. Đo lường xu hướng hướng tâm

Các thống kê phổ biến để xác định trung tâm của phân phối bao gồm mode, trung vị (median) và trung bình cộng số học (arithmetic mean). Các phép đo trung tâm ít phổ biến hơn là trung bình có trọng số (Weighted mean), trung bình đã cắt bớt (trimmed mean) và trung bình cộng hình học (geometric mean).

  • Mode là giá trị xuất hiện thường xuyên nhất trong một phân phối. Ví dụ, trong phân phối của 10 giá trị sau: 2 10 8 2 13 12 0 6 11 4, mode là 2. Trong phân phối tần suất được nhóm gộp, khoảng lớp có tần số lớn nhất được gọi là khoảng phương thức (modal interval).
  • Trung vị là phân vị thứ 50 hoặc giá trị giữa trong một tập hợp các quan sát là thứ tự được trong độ lớn. Trong một chuỗi có thứ tự có số lẻ của các giá trị, trung vị là giá trị giữa. Trong một chuỗi có thứ tự có số chẵn, ví dụ, 0 2 2 4 6 8 10 11 12 13, trung vị là giá trị trung bình của hai giá trị ở giữa. Trong ví dụ này, trung vị là nằm giữa giá trị thứ 5 và thứ 6, tức là (6 + 8) /2=7.
  • Trung bình cộng số học (arithmetic mean) là bằng tổng các giá trị trong một phân phối chia cho tổng số giá trị. Đối với 10 số sau, 2 10 8 2 13 12 0 6 11 4, trung bình cộng số học là: (2+10+8+2+13+12+0+6+11+4)/10 = 68/10 = 6.8 . Giá trị trung bình tương ứng với trung tâm của một phân phối.

Ba thước đo xu hướng trung tâm, mode, trung vịtrung bình sẽ đủ cho phần lớn các tình huống bạn có thể gặp phải. Tuy nhiên, có hai tình huống khi trung bình cộng số học (arithmetic mean) có thể không phù hợp. Khi tất cả các giá trị trong một phân phối không có tầm quan trọng như nhau hoặc khi chúng ta muốn tính một trung bình tổng thể từ hai mẫu được kết hợp. Trong những trường hợp này, chúng ta nên đưa ra trọng số tương đối cho các giá trị.

Khi kết hợp các giá trị từ hai hoặc nhiều mẫu, trung bình cộng số học sẽ bị sai lệch trừ khi các mẫu được kết hợp có kích thước bằng nhau. Mỗi mẫu được kết hợp phải được tính trọng số bằng số lượng quan sát trong mẫu. Điều này là do độ tin cậy của trung bình mẫu tỷ lệ với số lượng của giá trị trong mẫu. Các mẫu nhỏ hơn kém tin cậy hơn các mẫu lớn hơn và do đó nên có trọng số nhỏ hơn khi tính giá trị trung bình tổng thể. Hãy xem xét một mẫu với 10 quan sát, 2 10 8 2 13 12 0 6 11 4, và mẫu thứ hai với 5 quan sát, 18 8 20 15 15.

  • Trung bình cộng số học của mẫu một là 68/10 = 6.8 và mẫu hai là 76/5 = 15.2. Bạn có thể nghĩ rằng giá trị trung bình tổng thể chỉ đơn giản là trung bình cộng của cả hai mẫu, có nghĩa là, (6.8 + 15.2)/2=11. Tuy nhiên, điều này không chính xác vì trọng số bằng nhau được cân bằng cho cả hai mẫu.
  • Trung bình có trọng số (weighted mean) cho hai mẫu là tổng của các trung mẫu nhân với trọng số thích hợp của nó, tất cả chia cho tổng của các trọng số.
  • Trung bình có trọng số = [(6.8 × 10) + (15.2 × 5)]/(10+5) = 9.6

Giá trị 9.6 này là giá trị tương tự mà bạn sẽ nhận được nếu bạn thực hiện 15 quan sát là một mẫu. Kết hợp hai trung bình mẫu mà không trọng số chúng dẫn đến giá trị cao hơn của 11 so với giá trị trung bình có trọng số của 9.6. Giá trị trung bình tổng thể được kéo lên bởi giá trị trung bình tương đối lớn hơn của mẫu nhỏ hơn.

  • Trung bình đã cắt bớt (trimmed mean) có thể được sử dụng với các mẫu lớn và tương tự như giá trị trung bình cộng số học (arithmetic mean) nhưng có một số giá trị nhỏ nhất và lớn nhất bị loại bỏ trước khi tính toán. Thông thường, 5% giá trị dưới cùng và trên cùng bị loại bỏ và giá trị trung bình được tính trên 90% giá trị còn lại. Hiệu ứng là giảm thiểu ảnh hưởng của quan sát ngoại lệ cực trị trong tính toán giá trị trung bình.
  • Trung bình cộng hình học (geometric mean) rất hữu ích để tính trung bình của các tỉ lệ. Giả sử một ngôi nhà mới giảm giá trị còn 95% giá trị ban đầu của nó trong năm đầu tiên. Trong năm tiếp theo, giá trị giảm xuống còn 90% giá trị mà nó có vào đầu năm thứ hai và trong năm thứ ba, giá trị vẫn tiếp tục giảm xuống còn 80% giá trị vào đầu năm thứ ba. Tỷ lệ giảm giá trị trung bình trong khoảng thời gian ba năm sẽ dẫn đến cùng một giá trị của ngôi nhà vào cuối ba năm được cho bởi trung bình cộng hình học của ba tỷ lệ.
  • Tỷ lệ giảm giá trung bình trong 3 năm là: tỷ lệ1 × tỷ lệ2 × tỷ lệ3 = 95 × 90 × 80 = 684000 = tỷ lệ3, vì vậy tỷ lệ = căn bậc ba của 684000 = 88.1 phần trăm.
  • Ký hiệu chung là căn thứ n của tích (phép nhân) của các giá trị tỷ lệ, trong đó n đề cập đến số lượng giá trị
  • Một cách đơn giản hơn để tính toán trung bình cộng hình học là lấy đối số của lôgarit (Antilogarit) của trung bình của lôgarit tự nhiên của các tỷ lệ. Logarit cơ số e, được ký hiệu là logexi (với xi là một số thực dương bất kỳ) được gọi là logarit tự nhiên. Ví dụ: loge2 = 0,693. Trung bình cộng hình học của ba tỷ lệ, 95%, 90% và 80% là = (loge95 + loge90 + loge80)/3=13.436/3=4.479. Đối số của logarit của giá trị này là = 88.1. Tức là loge88.1 = 4.479.

2. Đo lường hình dạng

Hình dạng của một phân phối là thường được so sánh với những gì được gọi là một phân phối chuẩn. Đây thực sự là một phân bố lý thuyết được xác định bằng toán học cho một dân số và đặc trưng bởi các thuộc tính:

  • Đường cong là trơn, có một điểm cao nhất nằm ở trung tâm của phân phối.
  • Mode, trung vị và trung bình đều có cùng giá trị và chỉ ra trung tâm của phân phối.
  • Đường cong là đặc trưng hình chuông. Điểm cao nhất của đường cong nằm ở trung tâm và các đuôi kéo dài ra cả hai bên của trung tâm đến các đầu của đường phân phối một cách mượt mà.
  • Đường cong là đối xứng.

Phân phối chuẩn là hữu ích không chỉ cung cấp một tiêu chuẩn cho các phân phối thực nghiệm có thể được so sánh, mà nó còn đóng một vai trò rất quan trọng trong thống kê suy luận. Lý do là vì nhiều hiện tượng xảy ra tự nhiên, chẳng hạn như chiều cao hoặc cân nặng của các đối tượng, gần đúng với một phân phối chuẩn trong dân số. Nhiều thử nghiệm thống kê giả định các giá trị trong tập dữ liệu đại diện một mẫu từ một dân số có phân phối chuẩn cơ bản.

Khi nhìn vào một phân phối dữ liệu, đôi khi rất khó để đánh giá mức độ không chuẩn của dữ liệu. Hai thước đo kiểm tra mức độ chuẩn của dữ liệu, đó là độ lệch (skewness) độ nhọn (kurtosis).

Độ lệch là một chỉ số về mức độ phân bố không đối xứng hoặc không chuẩn. Một phân phối lệch (skewed distribution) có phần đuôi của đường phân phối có thể kéo dài sang một bên hơn là bên kia. Nếu phần đuôi của một phân phối kéo dài sang bên phải thì nó có một độ lệch dương (positive skewness). Trung bình được kéo về bên phải của trung vị. Nếu phần đuôi của một bản phân phối kéo dài sang bên trái, nó sẽ có độ lệch âm (negative skewness). Trung bình được kéo về bên trái của trung vị.

Nếu một phân phối là đối xứng, độ lệch gần bằng không. Nếu một phân phối bị lệch phải thì nó có hệ số độ lệch dương và nếu lệch trái sẽ có hệ số âm. Cẩn thận trọng khi giải thích các hệ số lệch đặc biệt là khi các mẫu nhỏ (<30 lần quan sát). Kiến thức về hệ số độ xiên không cung cấp bất kỳ thông tin nào về hình dạng của đường cong, nó cung cấp một dấu hiệu, miễn là đường cong là trơn, về mức độ không đối xứng của đường cong phân phối.

Độ nhọn – một hệ số hình dạng này phản ánh ‘độ nặng’ (heaviness) của các đuôi của một phân phối, và trong phân phối chuẩn có giá trị gần bằng không. Các đuôi nặng hơn được biểu thị bằng các giá trị hệ số dương và các đuôi nhẹ hơn có hệ số âm. Độ nhọn, tương tự như độ lệch, là một ước lượng không đáng tin cậy của tham số dân số tương ứng khi các mẫu nhỏ. Trong các mẫu nhỏ, bạn chỉ nên chú ý đến các giá trị lớn của các hệ số này.

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x