Các thắc mắc ngoài dịch vụ, bạn vui lòng thảo luận tại nhóm Facebook này nhé.
😄

Đa cộng tuyến: Nguyên nhân, hậu quả, dấu hiệu và cách khắc phục

Cộng tuyến và đa cộng tuyến là hai thuật ngữ thường được sử dụng trong thống kê, đặc biệt là trong phân tích hồi quy. Cộng tuyến và đa cộng tuyến là hiện tượng trong mô hình hồi quy tuyến tính khi có mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập. Điều này dẫn đến việc các biến độc lập không còn độc lập với nhau, gây khó khăn cho việc ước lượng chính xác các tham số của mô hình.

- Cộng tuyến (Collinearity): Cộng tuyến xảy ra khi hai biến độc lập có mối tương quan tuyến tính quá mạnh với nhau. 

- Đa cộng tuyến (Multicollinearity): Đa cộng tuyến xảy ra khi ba biến độc lập trở lên có tương quan tuyến tính quá mạnh với nhau. Nó là một trường hợp tổng quát hơn của cộng tuyến.

Xử lý đa cộng tuyến

1. Nguyên nhân gây ra đa cộng tuyến

Có nhiều nguyên nhân gây ra hiện tượng cộng tuyến và đa cộng tuyến, tuy nhiên, ở các đề tài về kinh tế xã hội, có 2 nguyên nhân chủ yếu là:

- Do khi lập bảng khảo sát, chúng ta xây dựng nên các nhân tố không khác biệt nhau nhiều về tính chất, ý nghĩa. Ví dụ: Tiền lương và Thu nhập/ Sở thích và Điều quan tâm... 

- Do đặc trưng của chính môi trường được khảo sát gây nên hiện tượng đa cộng tuyến. Cùng một bảng khảo sát nhưng có thể mở môi trường khảo sát số 1 không có đa cộng tuyến xảy ra nhưng ở môi trường số 2 lại có đa cộng tuyến. Bởi vì đặc điểm môi trường khảo sát số 2 có điểm khác biệt rất nhiều so với môi trường 1. Tại môi trường số 2, các nhóm nhân tố dù ban đầu khi lập cơ sở lý luận thì chúng không có mối tương quan quá cao nhưng ở môi trường này giữa chúng lại có sự tương quan mạnh, điều này dẫn đến đa cộng tuyến khi thu thập dữ liệu khảo sát. Chính vì vậy, ở mỗi môi trường đặc trưng, bạn cần điều chỉnh bảng khảo sát cho hợp lý.

3. Hậu quả hiện tượng đa cộng tuyến

Đa cộng tuyến trong hồi quy tuyến tính có thể dẫn đến nhiều hậu quả tiêu cực, làm suy giảm độ tin cậy và độ chính xác của các ước lượng. Cụ thể, hậu quả của đa cộng tuyến bao gồm:

- Hệ số hồi quy không ổn định

Đa cộng tuyến làm cho các hệ số hồi quy của mô hình trở nên rất nhạy cảm với các thay đổi nhỏ trong dữ liệu. Điều này có nghĩa là khi có sự thay đổi nhỏ trong dữ liệu hoặc khi thêm/bớt một biến độc lập, hệ số hồi quy có thể thay đổi lớn, dẫn đến sự thiếu ổn định trong ước lượng.

- Sai số chuẩn của hệ số hồi quy tăng cao

Đa cộng tuyến làm tăng sai số chuẩn của các hệ số hồi quy, khiến chúng trở nên không chính xác và không ổn định. Khi sai số chuẩn lớn, khoảng tin cậy của các hệ số hồi quy cũng mở rộng, làm giảm độ tin cậy của mô hình.

- Kiểm định ý nghĩa của hệ số hồi quy không chính xác

Do sai số chuẩn của các hệ số hồi quy tăng cao, các kiểm định ý nghĩa (như kiểm định t) có thể dẫn đến kết luận sai lầm. Có thể một hệ số hồi quy của biến độc lập là thực sự có ý nghĩa nhưng lại thành không có ý nghĩa, ngược lại, một biến độc lập không có ý nghĩa lại trở thành có ý nghĩa. 

- Khó khăn trong việc xác định biến độc lập nào quan trọng

Khi có đa cộng tuyến, rất khó để xác định được biến độc lập nào có ảnh hưởng mạnh nhất đến biến phụ thuộc bởi vì lúc này hệ số hồi quy chuẩn hóa của các biến độc lập đã bị sai lệch. Biến tác động mạnh có thể trở thành biến tác động yếu, biến tác động yếu lại trở thành tác động mạnh. 

- Biến đổi chiều tác động của biến độc lập

Đa cộng tuyến thậm chí làm biến đổi chiều tác động của biến độc lập. Có thể hệ số của một biến dương nhưng thực chất, nếu phân tích đúng, nó có thể là âm (do tương tác phức tạp giữa các biến).

Những hậu quả trên làm giảm độ chính xác và hiệu quả của mô hình hồi quy, do đó cần được xử lý để cải thiện chất lượng phân tích.

2. Dấu hiệu nhận biết hiện tượng đa cộng tuyến

Dưới đây là một số dấu hiệu nhận biết hiện tượng cộng tuyến:

2.1 Dựa vào kết quả tương quan giữa các biến độc lập

Tiến hành phân tích tương quan Pearson giữa các biến độc lập trên SPSS. Tại ma trận trương quan, chúng ta sẽ chú ý vào giá trị sig giữa các biến độc lập với nhau. Nếu cặp biến độc lập nào có hệ số tương quan từ 0.7 trở lên là biểu hiện của sự cộng tuyến (Hair và cộng sự, 2009, Multivariate Data Analysis, Pearson, New Jersey).

Ví dụ bên dưới, các biến DN, CV, TL, DT đều là các biến độc lập cùng tác động lên biến phụ thuộc HL. Khi đánh giá cộng tuyến, chúng ta đánh giá hệ số tương quan (hàng Pearson Correlation) giữa các cặp biến độc lập với nhau chứ không đánh giá độc lập với phụ thuộc.

hien tuong cong tuyen va da cong tuyen

Bảng kết quả tương quan này cho thấy cặp biến DT với TL có hệ số tương quan rất cao là 0.883 > 0.7. Như vậy, xuất hiện hiện tượng cộng tuyến giữa DT và TL.

2.2 Dựa vào hệ số VIF các biến độc lập ở hồi quy

Hệ số phóng đại phương sai (VIF) càng lớn, càng tăng khả năng xảy ra cộng tuyến. Hair và cộng sự (2009) cho rằng, ngưỡng VIF từ 10 trở lên sẽ xảy ra đa cộng tuyến mạnh. Nhà nghiên cứu nên cố gắng để VIF ở mức thấp, bởi thậm chí ở mức VIF bằng 5, bằng 3 đã có thể xảy ra cộng tuyến. Như vậy, nếu VIF lớn hơn 3 hoặc VIF lớn hơn 5 (tạm chấp nhận) chúng ta sẽ kết luận xảy ra hiện tượng cộng tuyến. 

hien tuong cong tuyen va da cong tuyen

Bảng kết quả Coefficients hồi quy ở trên cho thấy biến DT với TL có hệ số VIF lớn hơn 3. Như vậy, xuất hiện hiện tượng cộng tuyến ở DT và TL (tác giả sử dụng ngưỡng 3 để đánh giá, không sử dụng ngưỡng 5).

3. Cách khắc phục hiện tượng đa cộng tuyến

- Giải pháp 1: Loại bỏ biến độc lập có hệ số VIF vượt qua giá trị tiêu chuẩn. Bạn nên bỏ biến có VIF lớn nhất rồi chạy lại phân tích hồi quy xem thử có còn hiện tượng đa cộng tuyến hay không. Trong ví dụ ở trên, tác giả loại bỏ biến TL (VIF = 4.582) thì khi chạy lại hồi quy không còn hiện tượng đa cộng tuyến.

- Giải pháp 2: Bởi vì cộng tuyến là vấn đề dữ liệu của 2 biến khá tương đồng nhau. Như vậy, mặc dù trên hình thức đây là 2 biến nhưng bản chất chỉ là 1 biến. Do đó thay vì loại bỏ 1 trong 2, chúng ta có thể tạo một biến mới bằng cách kết hợp 2 biến bị cộng tuyến này lại với nhau.

- Giải pháp 3: Có thể đa cộng tuyến xảy ra do cỡ mẫu thu thập nhỏ. Bạn hãy thử thu thập thêm phiếu trả lời để tăng cỡ mẫu lên khoảng gấp 1,5 đến 2 lần. Khi cỡ mẫu lớn hơn sẽ làm giảm phương sai và ý nghĩa các kiểm định cũng sẽ có giá trị hơn.

- Giải pháp 4: Nếu vấn đề xuất phát từ chính bước chọn mô hình nghiên cứu và lập bảng khảo sát. Bạn có thể sẽ phải hủy bỏ dữ liệu thu thập và điều chỉnh lại mô hình, tiến hành khảo sát lại. Cho nên, bước lập cơ sở lý luận để đưa ra mô hình đề xuất và bảng khảo sát là rất quan trọng, các bạn nên làm cho thật tốt phần này qua sự hướng dẫn của giảng viên, những người có chuyên môn.

--------

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi quy vì vấn đề đa cộng tuyến, bạn có thể tham khảo dịch vụ chạy thuê SPSS của Phạm Lộc Blog hoặc liên hệ trực tiếp email xulydinhluong@gmail.com

1 nhận xét

  1. Mình thắc mắc là VIF > 2 xác suất đa cộng tuyến thì có nguồn tiếng anh nào không nhỉ? Mình kiếm mãi không ra