Bài 6. Bảng tần suất được nhóm gộp (Grouped Frequency Table) và đồ thị Histogram

admin
18174 7 phút đọc

1. Giới thiệu

Bảng tần suất được nhóm gộp là một phương pháp thống kê để tổ chức và đơn giản hóa một tập hợp dữ liệu lớn thành các “nhóm” nhỏ hơn, được gọi là một khoảng lớp (class interval). Khi một dữ liệu bao gồm hàng trăm giá trị, tốt hơn nên nhóm chúng thành một phần nhỏ hơn để dễ hiểu hơn. Khi bảng tần số nhóm được tạo, các nhà khoa học và nhà thống kê có thể quan sát các xu hướng thú vị trong dữ liệu. Mục đích chính của bảng tần suất được nhóm gộp là để tìm hiểu tần suất xuất hiện của mỗi giá trị trong mỗi nhóm của toàn bộ dữ liệu. Phân phối tần suất nhóm về cơ bản là một bảng có hai cột. Cột đầu tiên có tiêu đề “Nhóm” (Groups) đại diện cho tất cả các nhóm có thể có của dữ liệu và cột thứ hai có tiêu đề “Tần suất” (Frequency) biểu thị tần suất xuất hiện của mỗi giá trị trong mỗi nhóm.

Đồ thị histogram là tương tự ở một số khía cạnh với một đồ thị thanh. Tuy nhiên, nó không giống biểu đồ thanh theo ba cách quan trọng. Tỷ lệ ngang là liên tục, trong một biểu đồ thanh, nó là rời rạc. Chiều rộng của thanh trong một đồ thị histogram, không giống như trong biểu đồ thanh, rất quan trọng đối với việc diễn giải. Trong một đồ thị histogram, các thanh có chiều rộng không đổi biểu thị các khoảng bằng nhau trên thang đo liên tục. Một đồ thị thanh thường có độ rộng thanh thống nhất nhưng điều này không có ý nghĩa diễn giải. Khu vực rõ ràng có liên quan đến chiều rộng của mỗi thanh. Chiều cao của thanh trong đồ thị có thể đại diện cho tần suất hoặc tỷ lệ phần trăm.

2. Xác định số lượng nhóm

Ví dụ, một nhà nghiên cứu đã tiến hành một nghiên cứu để cải thiện từ vựng tiếng Anh của học sinh tiểu học bằng phương pháp kể chuyện. Họ đã chọn ngẫu nhiên 20 học sinh tham gia một cuộc thử nghiệm. Sau thử nghiệm, các học sinh tham gia một bài kiểm tra về khả năng từ vựng tiếng Anh. Dữ liệu điểm số từ 20 học sinh là: 70, 93, 74, 88, 79, 80, 78, 73, 90, 71, 69, 69, 55, 78, 50, 97, 70, 60, 61 và 67. Do bài kiểm tra sử dụng thang điểm 100, do vậy dữ liệu nên nhóm chúng thành một nhóm lớp nhỏ để dễ quan sát tần suất phân phối.

– Bước 1: Đầu tiên, chúng ta sắp xếp lại dữ liệu để nó bắt đầu bằng số nhỏ nhất và kết thúc bằng số cao nhất. Trong ví dụ này, dữ liệu này sẽ được sắp xếp lại như sau: 50, 55, 60, 61, 67, 69, 69, 70, 70, 71, 73, 74, 78, 78, 79, 80, 88, 90, 93 và 97.

– Bước 2: Để ước lượng con số gần đúng của các khoảng lớp, hãy chia phạm vi phân phối cho độ rộng khoảng đã chọn. Phạm vi của phân phối là giá trị dữ liệu tối đa trừ đi giá trị giá trị dữ liệu tối thiểu +1. Trong ví dụ này, chúng ta sẽ trừ giá trị thấp nhất của “50” từ giá trị cao nhất của “97”, sau đó +1 và kết quả là (97-50)+1 = 48. Đây là phạm vi điểm số cho 20 quan sát.

– Bước 3: Xác định số lượng nhóm (khoảng lớp): Hầu hết dữ liệu có số lượng từ 5 đến 10 nhóm. Bạn quyết định chọn số lượng nhóm cho dữ liệu của mình. Trong ví dụ này, vì chúng ta chỉ có 20 giá trị, chúng ta có thể chọn tổng cộng 6 nhóm (đó là một trực quan nhạy cảm bởi vì 48 chia hết cho 6, mặc dù sự chia hết ít khi xảy ra).

– Bước 4: Xác định độ rộng của khoảng lớp. Chiều rộng chỉ đơn giản có nghĩa là con số của giá trị trên mỗi nhóm. Chiều rộng của nhóm (khoảng lớp) có được bằng cách chia phạm vi phân phối của dữ liệu cho số lượng nhóm. Trong ví dụ này, chia “48” cho “6” và kết quả là 8. Nếu phép chia là lẻ thì chúng ta nên làm tròn đến số nguyên gần nhất. Với bước này, chúng ta xác định rằng sẽ chỉ có 8 giá trị cho mỗi nhóm.

Tất cả 6 nhóm sẽ như sau: 50-57, 58-65, 66-73, 74-81, 82-89, 90-97

Công việc tiếp theo là tạo bảng và xác định tần suất cho cả 6 nhóm bằng cách kiểm đếm dữ liệu. Trong ví dụ này, nhóm đầu tiên là 50-57, hãy kiểm đếm và xem có bao nhiêu giá trị thuộc nhóm này. Bạn có thể thấy rằng trong nhóm 50-57 đầu tiên, có 2 giá trị (50, và 55). Bạn sẽ viết 2 trong cột ” Tần suất”. Tiếp tục kiểm đếm cho 5 nhóm còn lại. Sau khi bạn hoàn thành tất cả 6 nhóm và đếm tần suất của nó, bảng tần suất của bạn đã hoàn thành. Mở rộng hơn, bạn có thể tính thêm tỉ lệ phần trăm mỗi nhóm, ‘tần suất tích lũy’ (Cumulative Frequency), và ‘phần trăm tích lũy’ (Cumulative Percent).

Khoảng điểm Tần suất Phần trăm Tần suất tích lũy Phần trăm tích lũy
50-57 2 10 2 10
58-65 2 10 4 20
66-73 7 35 11 55
74-81 5 25 16 80
82-89 1 5 17 85
90-97 3 15 20 100

Ngoài ra, lời khuyên tốt để ước lượng con số gần đúng của các khoảng lớp là dựa vào đồ thị Thân và Lá, bởi vì chúng hiển thị các giá trị thấp nhất và cao nhất, và từ thấp đến cao để dễ dàng quan sát.

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x