Website hiện chỉ đăng tải bài viết và cung cấp dịch vụ, không hỗ trợ tư vấn các vấn đề ngoài dịch vụ. Mong bạn thông cảm!
😄

Giá trị R bình phương, R bình phương hiệu chỉnh trong hồi quy

Một công việc quan trọng của bất kỳ thủ tục thống kê xây dựng mô hình từ dữ liệu nào cũng đều là chứng minh sự phù hợp của mô hình. Để biết mô hình hồi quy tuyến tính đã xây dựng trên dữ liệu mẫu phù hợp đến mức độ nào với dữ liệu, chúng ta cần dùng một thước đo nào đó về độ phù hợp của nó.

R bình phương hiệu chỉnh trong hồi quy

1. R bình phương là gì?

Một thước đo sự phù hợp của mô hình tuyến tính thường dùng là hệ số xác định R bình phương (Coefficient of Determination). Công thức tính R bình phương (R square) xuất phát từ ý tưởng xem toàn bộ biến thiên quan sát được của biến phụ thuộc được chia thành 2 phần: phần biến thiên do Hồi quy (Regression) và phần biến thiên do Phần dư (Residual). Nếu phần biến thiên do Phần dư càng nhỏ, nghĩa là khoảng cách từ các điểm quan sát đến đường ước lượng hồi quy càng nhỏ thì phần biến thiên do Hồi quy sẽ càng cao, khi đó giá trị R bình phương sẽ càng cao. 

Hệ số R bình phương là hàm không giảm theo số biến độc lập được đưa vào mô hình, nếu chúng ta càng đưa thêm biến độc lập vào mô hình thì R bình phương càng tăng. Tuy nhiên, điều này cũng được chứng minh rằng không phải phương trình càng có nhiều biến thì càng tốt hơn.

2. R bình phương hiệu chỉnh là gì?

Ý nghĩa của R bình phương hiệu chỉnh cũng giống như R bình phương là phản ánh mức độ phù hợp của mô hình. R bình phương hiệu chỉnh được tính từ R bình phương thường được sử dụng hơn vì giá trị này phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến. R bình phương hiệu chỉnh không nhất thiết tăng lên khi chúng ta đưa thêm các biến độc lập vào mô hình.

So sánh 2 giá trị như ở hình trên, giá trị R bình phương hiệu chỉnh (Adjusted R Square) nhỏ hơn giá trị R bình phương (R Square), dùng nó để đánh giá độ phù hợp của mô hình sẽ an toàn hơn vì nó không thổi phồng mức độ phù hợp của mô hình.

3. Ý nghĩa của R bình phương hiệu chỉnh

Mức dao động của R bình phương hiệu chỉnh là từ 0 đến 1, tuy nhiên việc đạt được mức giá trị bằng 1 là gần như không tưởng dù mô hình đó tốt đến nhường nào. 

Ý nghĩa của giá trị R bình phương hiệu chỉnh

Về ý nghĩa của R bình phương hiệu chỉnh, như đã đề cập ở trên. Chỉ số này phản ánh mức độ giải thích của các biến độc lập đối với biến phụ thuộc trong mô hình hồi quy. 

Trong ví dụ đọc kết quả hồi quy trên SPSS ở trên, giá trị R bình phương hiệu chỉnh là 0.725. Như vậy, các biến độc lập giải thích được 72.5% sự biến thiên của biến phụ thuộc. Phần còn lại 27.5% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên.

4. R bình phương hiệu chỉnh dưới 0.5 (50%)

Không có tiêu chuẩn chính xác R bình phương hiệu chỉnh ở mức bao nhiêu thì mô hình mới đạt yêu cầu, chỉ số này nếu càng tiến về 1 thì mô hình càng có ý nghĩa, càng tiến về 0 thì ý nghĩa mô hình càng yếu. Mức R bình phương này phụ thuộc vào số lượng biến độc lập tác động vào biến phụ thuộc của phép hồi quy đó. Nhiều biến độc lập tác động vào biến phụ thuộc Y chúng ta thường sẽ kỳ vọng mức R2 cao hơn so với chỉ có 1 biến độc lập tác động vào Y bởi Y sẽ được giải thích bởi nhiều yếu tố hơn.

Thường với hồi quy SPSS ở mô hình đơn giản nhiều độc lập tác động vào 1 phụ thuộc, chúng ta chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu, từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, điều này chỉ phù hợp trong một số ít tình huống, việc yêu cầu giá trị R2 phải lớn hơn 0.5 là đi ngược với lý thuyết thống kê. 

Như vậy, nếu kết quả hồi quy bạn phân tích được có R bình phương hiệu chỉnh dưới 50% (0.5) thì kết quả vẫn được chấp nhận.

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi quy vì số liệu khảo sát không tốt, vi phạm các tiêu chí kiểm định. Bạn có thể tham khảo dịch vụ chạy SPSS của Phạm Lộc Blog hoặc zalo 093 395 1549 để tối ưu thời gian làm bài và đạt kết quả tốt hơn nhé.

5. Cách tăng giá trị R bình phương và R bình phương hiệu chỉnh trong SPSS

Một trong các kỹ thuật giúp tăng R bình phương và R bình phương hiệu chỉnh đó là loại bỏ các điểm dị biệt (giá trị ngoại lai, outliers) trong kết quả hồi quy.

5.1 Tăng R bình phương bằng đồ thị Scatter Plot hồi quy

Xét ví dụ phép phân tích hồi quy bên dưới với hai biến độc lập F_TL và F_CV tác động vào biến phụ thuộc F_HL. Giá trị R bình phương hiệu chỉnh Adjusted R Square trong bảng Model Summary bằng 0.478. Đây là một chỉ số thể hiện mức độ phù hợp của mô hình hồi quy, chỉ số này càng tiến về 1, càng cho thấy mô hình hồi quy là phù hợp.

cách tăng r bình phương spss

Để xuất hiện được đồ thị Scatter, khi thực hiện phân tích hồi quy tuyến tính bội, các bạn vào mục Plots, tích chọn kéo biến ZRESID thả vào ô Y, kéo biến ZPRED thả vảo ô X như hình bên dưới. 

cách tăng r bình phương hiệu chỉnh spss

Các bạn nên phân tích hồi quy chính xác theo hướng tại bài viết Phân tích và đọc kết quả hồi quy tuyến tính bội trên SPSS để xuất ra đầy đủ các bảng, đồ thị cần dùng cho nhận xét kết quả, bao gồm cả đồ thị Scatter.

cách tăng r bình phương hiệu chỉnh spss

Theo quy luật Empirical hay còn gọi là quy luật 68-95-99.7 trong phân phối chuẩn, các điểm dữ liệu nằm ngoài vùng -3 đến 3 ở cả hai trục hoành và trục tung sẽ là các điểm dị biệt (phần giải thích sẽ được trình bày ở mục kế tiếp). Nếu kết quả hồi quy không tốt, chúng ta nên xem xét loại bỏ các điểm này để cải thiện mô hình. Có năm điểm đánh dấu bằng màu xanh lá nằm ngoài khu vực tô vàng chính là các điểm dị biệt.

cách tăng r bình phương hiệu chỉnh spss

Chúng ta sẽ yêu cầu phần mềm hiện tên quan sát của điểm dữ liệu để xác định ID của năm điểm dị biệt trên bằng cách nhấp đôi chuột vào đồ thị, chọn vào biểu tượng khoanh tròn như ảnh bên dưới, sau đó nhấp vào nút Close để đóng cửa sổ.

cách tăng r bình phương hiệu chỉnh spss

Như vậy, năm điểm dị biệt được xác định là các quan sát: 11, 149, 45, 208, 253.

cách tăng r bình phương hiệu chỉnh spss

Chúng ta sẽ xóa 5 hàng 11, 149, 45, 208, 253 trong dữ liệu. Lưu ý rằng, bạn nên tạo một cột dữ liệu số thứ tự để xóa cho chính xác vị trí các hàng. Khi xóa dữ liệu, cần xóa từ hàng có thứ tự cao tới hàng có thứ tự thấp. Thực hiện hồi quy tuyến tính bội với tập dữ liệu đã được loại bỏ các quan sát dị biệt để xem xét sự thay đổi.

cách tăng r bình phương hiệu chỉnh spss

Giá trị Adjusted R Square mới bằng 0.553, lớn hơn rất nhiều so với giá trị ban đầu 0.478, độ phù hợp mô hình hồi quy đã cải thiện rất đáng kể. Đánh đổi sự cải thiện này, chúng ta loại đi 5 quan sát dị biệt. Số lượng 5 quan sát so với cỡ mẫu 350 là rất nhỏ, do vậy, chúng ta nên loại bỏ các quan sát dị biệt này để có được kết quả hồi quy tốt hơn.

5.2 Tăng R bình phương bằng bảng Casewise Diagnostics

Khi thực hiện phân tích hồi quy tuyến tính, SPSS có chức năng nhận diện tự động điểm dị biệt. Để làm được điều này, trong tùy chọn Statistics, chúng ta tích vào mục Casewise diagnostics và nhập giá trị 2 hoặc 3 standard deviation (độ lệch chuẩn) vào ô Outliers outside. Thường chúng ta sẽ xét điểm dị biệt ngoài vùng 3 độ lệch chuẩn trước, nếu xử lý xong các điểm dị biệt này nhưng kết quả vẫn không khả quan, chúng ta mới xét điểm dị biệt ngoài vùng 2 độ lệch chuẩn.

cách tăng r2 spss

Tiếp tục thực hành phân tích hồi quy tác động từ F_TL, F_CV lên F_HL. Tại Casewise diagnostics nhập giá trị 3 để phát hiện điểm dị biệt nằm ngoài vùng 3 độ lệch chuẩn. Kết quả hồi quy cho chúng ta giá trị Adjusted R Square bằng 0.478 và bảng Casewise Diagnostics chứa các quan sát dị biệt gồm: 45, 208, 238, 249, 253.

cách tăng r2 spss

Chúng ta sẽ xóa 5 hàng 45, 208, 238, 249, 253 trong dữ liệu. Lưu ý rằng, bạn nên tạo một cột dữ liệu số thứ tự để xóa cho chính xác vị trí các hàng. Khi xóa dữ liệu, cần xóa từ hàng có thứ tự cao tới hàng có thứ tự thấp. Thực hiện hồi quy tuyến tính bội với tập dữ liệu đã được loại bỏ các quan sát dị biệt để xem xét sự thay đổi.

cách tăng r2 spss

Giá trị Adjusted R Square mới bằng 0.612 > 0.478. Có thể thấy độ phù hợp của mô hình đã tốt hơn rất nhiều sau khi loại bỏ 5 quan sát dị biệt.

Đăng nhận xét