Bài 3. Hồi quy Logistic thứ tự (Ordinal Logistic Regression)

admin
9266 19 phút đọc

1. Khi nào sử dụng?

Hồi quy logistic thứ tự (còn được gọi là mô hình logit thứ tự hoặc mô hìnhOdds theo tỉ lệ) là một mô hình hồi quy cho một biến phụ thuộc thứ tự (ordinal dependent variable). Ví dụ: nếu một câu hỏi trong cuộc khảo sát được trả lời bằng lựa chọn giữa “kém”, “khá”, “tốt” và “xuất sắc”và mục đích của phân tích là để xem phản ứng đó có thể được dự đoán tốt như thế nào bằng các câu trả lời cho các câu hỏi khác, được gọi là biến độc lập (có thể là phân loại hoặc liên tục), sau đó có thể sử dụng hồi quy logistic thứ tự. Bạn có thể sử dụng hồi quy logistic thứ tự để xác định xem một số biến độc lập, chẳng hạn như “tuổi”, “giới tính”, “mức độ hoạt động thể chất”, dự đoán biến phụ thuộc thứ tự “béo phì”, được đo bằng cách sử dụng ba danh mục có thứ tự: “bình thường”, “thừa cân” và “béo phì”. Nó có thể được coi là một phần mở rộng của mô hình hồi quy logistic nhị thức áp dụng cho các biến phụ thuộc lưỡng phân, nhưng cho phép nhiều hơn hai loại phản hồi (có thứ tự).

Một vấn đề nữa, nhiều nhà nghiên cứu gặp khó khăn khi làm thế nào để lựa chọn giữa hồi quy logistic thứ tự và hồi quy logistic đa thức? Có một lưu ý rằng một biến là thứ tự khi các loại của nó là có thứ tự tự nhiên. Đây chính là cơ sở để lựa chọn hồi quy logistic thứ tự chứ không phải hồi quy logistic đa thức, điều mà hay gây nhầm lẫn giữa các nhà nghiên cứu.

2. Mô hình logit thứ tự

Mô hình logit thứ tự (còn được gọi là mô hình Odds về tỉ lệ). Trong mô hình logit thứ tự, có một biến thứ tự quan sát, Y. Sau đó, Y, là một hàm của một biến khác, Y*, không được đo lường. Trong mô hình logit thứ tự, có một biến tiềm ẩn Y* liên tục, không được đo lường, có giá trị xác định kết quả biến thứ tự quan sát Y. Biến tiềm ẩn liên tục Y* có các điểm ngưỡng khác nhau (kí hiệu là κ, đọc là Kappa theo tiếng Hy Lạp). Giá trị của bạn trên biến quan sát Y phụ thuộc vào việc bạn có vượt qua một ngưỡng cụ thể hay không. Ví dụ, khi M = 3.

  • Yi = 1 nếu Y*i là ≤ κ1
  • Yi = 2 nếu κ1 ≤ Y*i ≤ κ2
  • Yi = 3 khi Y*i ≥ κ2

Ví dụ: có thể là nếu điểm của bạn trên biến tiềm ẩn không quan sát được, Y*, là 37 hoặc ít hơn, thì điểm của bạn trên Y sẽ là 1; nếu điểm Y* của bạn từ 37 đến 53, Y sẽ bằng 2; và nếu điểm Y* của bạn trên 53, Y sẽ bằng 3. Nói cách khác, bạn có thể coi Y là phiên bản thu gọn của Y*, ví dụ: Y* có thể nhận một phạm vi giá trị vô hạn, sau đó có thể được thu gọn thành 5 loại Y.

Vậy, Y* bằng gì? Làm thế nào để bạn ước tính mô hình này?

Trong dân số, biến tiềm ẩn liên tục Y* bằng:

Lưu ý rằng có một thuật ngữ sai số ngẫu nhiên, ε, trong trường hợp này, có phân phối logistic chuẩn hóa (trung bình 0 và phân phối N (0, 1)).

Mô hình logit thứ tự ước lượng một phần những điều trên bằng công thức:

Lưu ý rằng, do sai số ngẫu nhiên, ε, biến tiềm ẩn không đo lường được (Y*) có thể cao hơn hoặc thấp hơn Z. Theo cách tương tự, một học sinh cụ thể với 12 năm học có thể kiếm được 5.000 đô la một năm; nhưng bất kỳ người cụ thể nào với 12 năm giáo dục có thể kiếm được nhiều hơn hoặc ít hơn thế. Do sai số ngẫu nhiên, tức là vì Z không phải là thước đo hoàn hảo của Y*, bạn sẽ phân loại không chính xác một số trường hợp là rơi vào phạm vi này khi chúng thực sự nằm trong phạm vi khác. Tuy nhiên, bởi vì bạn biết phân phối của sai số ngẫu nhiên, bạn cũng có thể ước tính xác suất sai số là bao nhiêu.

Công thức xác suất tính là:

Diễn giải đơn giản hơn:

Nếu M=3, chúng ta có:

Như vậy, sử dụng giá trị ước tính của Z và phân phối logistic giả định của sai số ngẫu nhiên, mô hình logit thứ tự có thể được sử dụng để ước tính xác suất mà biến không được quan sát (Y*) nằm trong các giới hạn ngưỡng khác nhau.

Giả thuyết vô hiệu H0 (Y = p0), tương ứng với mô hình độc lập cho xác suất p0 bất kể giá trị của các biến giải thích. Chúng ta tìm cách kiểm tra xem mô hình đã điều chỉnh là mạnh hơn đáng kể so với mô hình này hay không. Ba bài kiểm tra có sẵn: bài kiểm tra likelihood ratio, kiểm tra Điểm và kiểm tra Wald. Ba thống kê tuân theo phân phối Chi-bình phương.

3. Các loại hồi quy logistic thứ tự

Có nhiều hơn một loại hồi quy thứ tự có thể được sử dụng để phân tích các biến phụ thuộc thứ tự. Để hiểu các loại khác nhau này, hãy xem định nghĩa của biến thứ tự là biến phân loại với các danh mục có thứ tự. Câu hỏi quan trọng là, “Làm thế nào để chúng ta thể hiện thứ tự của các danh mục trong phân tích của chúng ta?”, Vì đây là điều bạn phải làm khi thực hiện hồi quy theo thứ tự.

Để nắm bắt bản chất có thứ tự của các danh mục này, một số phương pháp đã được phát triển, dựa trên việc sử dụng các danh mục tích lũy (cumulative), liền kề (adjacent) hoặc tiếp nối/ tuần tự (continuation/ sequential). Để phân biệt rõ hơn ba loại mô hình hồi quy thứ tự này, hãy xem xét một biến phản ứng thứ tự được quan sát Y và một yếu tố dự báo X.

– Mô hình tích lũy: Y bắt nguồn từ việc phân loại một biến tiềm ẩn Y*, ví dụ, sử dụng giới tính để dự đoán biến phản hồi đối với một danh mục Likert 5-7 điểm.

– Mô hình liền kề: Y là được mô hình hóa như quyết định giữa hai danh mục liền kề của Y*, dự đoán số lượng của danh mục phụ (subitem) được giải quyết chính xác trong một bài toán phức tạp.

– Mô hình tuần tự: Y là kết quả của một quá trình tuần tự. Ví dụ, sử dụng tuổi để dự đoán số lượng xe mọi người đã mua.

Nói chung, trong ba mô hình này, mô hình tích lũy là loại mô hình hồi quy thứ tự được sử dụng phổ biến nhất.

4. Các giả định kiểm tra

Các giả định cơ bản của hồi quy logistic thứ bậc bao gồm:

– Biến phụ thuộc của bạn nên được đo lường ở mức thứ tự (ordinal). Ví dụ về các biến thứ tự bao gồm các mục của Likert (ví dụ: thang điểm 5-7 từ “rất đồng ý” đến “rất không đồng ý”), hoặc các cách khác để xếp hạng danh mục (ví dụ: thang điểm 3 giải thích mức độ thích một sản phẩm của khách hàng , từ “Không nhiều lắm”, đến “Cũng được”, đến “Có, rất nhiều”).

– Một hoặc độc lập nhiều biến đó là liên tục (continuous), thứ tự (ordinal) hoặc định danh (nominal). Tuy nhiên, các biến độc lập thứ tự phải được coi là liên tục hoặc phân loại. Chúng không thể được coi là biến thứ tự khi chạy hồi quy logistic thức tự. Ví dụ về các biến liên tục bao gồm tuổi (đo bằng năm), thời gian ôn tập (đo bằng giờ), thu nhập (đo bằng đô la Mỹ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100), cân nặng (đo bằng kg)… Ví dụ về các biến danh nghĩa, chẳng hạn 0 = nam, 2= nữ.

– Không có đa cộng tuyến. Đa cộng tuyến xảy ra khi bạn có hai hoặc nhiều biến độc lập có tương quan cao với nhau. Điều này dẫn đến các vấn đề trong việc hiểu biến nào góp phần giải thích biến phụ thuộc và các vấn đề kỹ thuật trong tính toán hồi quy logistic thứ tự. Thật không may, việc kiểm tra giả định này có thể yêu cầu tạo các biến giả cho các biến phân loại của bạn (nghĩa là các biến giả là các biến mới dựa trên các giá trị của dữ liệu hiện có của bạn). Xác định xem có đa cộng tuyến hay không là một bước quan trọng trong hồi quy logistic thứ tự.

– Bạn có Odds về tỷ lệ (proportional odds), đó là một giả định cơ bản của loại mô hình hồi quy thứ tự này. Giả định về Odds về tỷ lệ có nghĩa là mỗi biến độc lập có tác động giống hệt nhau tại mỗi lần tích lũy của biến phụ thuộc thứ tự. Nó được kiểm tra trong SPSS bằng cách sử dụng kiểm tra “likelihood ratio” so sánh mô hình vị trí được lắp phù hợp (fitted location model) đến một mô hình với các tham số vị trí khác nhau.

Bạn có thể kiểm tra các giả định 3 và 4 bằng cách sử dụng thống kê SPSS. Các giả định 1 và 2 nên được kiểm tra trước tiên, trước khi chuyển sang các giả định 3 và 4. Nếu bạn không chạy kiểm tra thống kê trên các giả định này một cách chính xác, kết quả bạn nhận được khi chạy hồi quy logistic thứ tự có thể không hợp lệ.

Cuối cùng, hồi quy thứ tự là yêu cầu một kích thước mẫu đủ lớn. Lớn như thế nào là chủ đề của một số cuộc tranh luận, nhưng chúng hầu như luôn luôn yêu cầu nhiều trường hợp hơn hồi quy OLS.

 

5. Phân tích hồi quy logistic thứ tự trong SPSS

Ví dụ, tăng học phí luôn là chủ đề gây ra phản ứng mạnh mẽ ở nhiều sinh viên nghĩ rằng nó quá cao, trong khi một số người khác nghĩ rằng nó phù hợp với sự phát triển xã hội. Một nhà nghiên cứu đã tiến hành một nghiên cứu đơn giản, với một tuyên bố được đưa ra với những người được khảo sát: “học phí ở trường này  quá cao?”, và hỏi các sinh viên có đồng ý với tuyên bố này. Một thang Likert 5 mức độ đã được sử dụng để thu thập phản ứng của sinh viên từ ‘hoàn thành không đồng ý’, ‘không đồng ý’, ‘trung lập’, ‘đồng ý’, ‘đồng ý mạnh mẽ’. Các phản hồi theo thứ tự này là các danh mục của biến phụ thuộc ‘tăng học phí’. Bên cạnh đó, nhà nghiên cứu hỏi sinh viên thêm một số câu hỏi đơn giản khác như khu vực sống (thành thị hay nông thôn), điểm trung bình ‘thành tích học tập’ của học kì gần nhất (theo thang điểm 10). Nhà nghiên cứu muốn biết liệu có mối quan hệ giữa biến phụ thuộc ‘tăng học phí’ và các biến độc lập ‘khu vực sống’ và ‘thành tích học tập’ hay không. Mức ý nghĩa alpha được xác định là 5%.

Trong SPSS, ba biến đã được tạo bao gồm (1) Biến phụ thuộc ‘Tanghocphi’ có 5 mục được xếp hạng, 1=hoàn toàn không đồng ý, 2=không đồng ý, 3=trung lập, 4=đồng ý, 5=đồng ý mạnh mẽ; (2) Biến độc lập ‘Khuvuc’ có 2 danh mục, 0=thành thị, 1=nông thôn; (3) Biến độc lập ‘ThanhtichHT’ là biến liên tục, được nhập giá trị trực tiếp.

Do biến phụ thuộc là bao gồm các dạnh mục Likert 5 điểm nên chúng ta sẽ áp dụng mô hình hồi quy thứ tự sử dụng các danh mục tích lũy.

Các bước phân tích hồi quy logistic thứ tự trong SPSS như sau (với tất cả giả định đã được đáp ứng):

Bước 1: Chọn Analyze > Regression > Ordinal…

Bước 2: Trong hộp thoại Ordinal Regression, chúng ta chuyển biến phụ thuộc ‘Tanghocphi’ vào ô Dependent, chuyển biến độc lập liên tục ‘ThanhtichHT’ vào Covariate(s), chuyển biến giới tính ‘Khuvuc’ vào ô Factor(s).

Bước 3: Nhấp vào nút Output, đánh dấu vào ô Cell Information, Test of Parallet lines. Điều này là cần thiết vì nó sẽ yêu cầu SPSS thực hiện kiểm tra giả định về Odds về tỷ lệ (hoặc các đường song song) nằm trong mô hình hồi quy thứ tự. Bạn cũng co thể đánh dấu thêm vào ô Estimated response probabilities. Điều này sẽ lưu, đối với mỗi trường hợp trong tệp dữ liệu, xác suất dự đoán để đạt được từng loại kết quả, trong trường hợp này là xác suất ước tính của sinh viên đạt được từng cấp độ phản ứng với tăng học phí. Các nút khác giữ nguyên mặc định như trong hình dưới đây. Sau đó nhấp Continue.

Bước 4: Nhấp OK để chạy kết quả.

admin

Chịu trách nhiệm học thuật, PGS.TS. Nguyễn Văn Hạnh
Chuyên gia nghiên cứu Khoa học Giáo dục và Phân tích định lượng.

error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x