Chúng ta đã khá quen với việc sử dụng các biến độc lập là các biến định lượng. Tuy nhiên, trong nhiều tình huống chúng ta cần phân tích hồi quy với các biến độc lập là biến định tính. Nếu một biến là định danh, chúng ta không thực hiện hồi quy ngay trên các con số mã hóa nhóm giá trị bởi kết quả phân tích sẽ không mang lại bất kỳ một ý nghĩa gì cả. Và để có thể thực hiện được hồi quy với biến định tính, các nhà nghiên cứu đã đưa ra khái niệm biến giả hay còn gọi là biến Dummy.
1. Biến giả - Tại sao chúng ta phải sử dụng chúng?
Điều kiện để thực hiện phân tích hồi quy là các biến phải là biến định lượng, biến cần có đơn vị đo lường, phải có thang đo đơn vị. Ví dụ:
- Biến Thu nhập có đơn vị là đồng. Người A có thu nhập là 10.000 đồng, người B có thu nhập là 15.000 đồng, người C có thu nhập 20.000 đồng. Như vậy người B hơn người A 5.000 đồng, người C hơn người A 10.000 đồng, thu nhập người C hơn người A 2 lần.
→ Biến này có thể phân tích được hồi quy vì nó có đơn vị. Chúng ta xác định được sự cao hơn, thấp hơn là bao nhiêu đơn vị tính.
- Biến Tình trạng hôn nhân không có đơn vị tính. Người A có tình trạng là Độc thân, người B có tình trạng là Đã lập gia đình, người C có tình trạng là Ly hôn. Chúng ta mã hóa Độc thân mang giá trị 1, Đã lập gia đình mang giá trị 2, Ly hôn mang giá trị 3 nhưng các con số này chỉ là con số đại diện, chúng ta không thể thực hiện cộng trừ nhân chia với nó để xem nhóm này hơn nhóm kia bao nhiêu đơn vị. Chúng ta không thể nói: người Đã lập gia đình có tình trạng hôn nhân nhiều hơn người Độc thân 1 đơn vị, người Ly hôn có tình trạng hôn nhân cao hơn người Đã lập gia đình 2 đơn vị.
→ Biến này không thể phân tích hồi quy. Chúng ta không xác định được giữa Đã lập gia đình, Độc thân, Ly hôn cái nào cao hơn cái nào, cái nào gấp bao nhiêu lần cái nào bao nhiêu đơn vị.
Chính vì vậy mà chúng ta cần chuyển các biến định đính không có thước đo đơn vị này về một dạng biến khác có thước đo đơn vị để có thể lượng hóa, đó là biến giả Dummy.
2. Cách xây dựng biến giả
Biến giả là một biến được đặt giá trị tương đương với 0 hoặc 1, phụ thuộc vào việc liệu các quan sát có chứa các tính chất được quan tâm hay không.
Ví dụ, xem xét biến giới tính có thể giữ 2 giá trị: Nam và Nữ. Giới tính chuyển thành biến giả X1 như sau:
X1 = 1 nếu là Nam
X1 = 0 nếu là Nữ
Do vậy, tập hợp dữ liệu về giới tính bao gồm Nam và Nữ giờ sẽ tương ứng với giá trị 0 và 1 của X1. Các bạn có thể mã hóa ngược lại Nữ là 1, Nam là 0, không có sự khác biệt về việc mã hóa ở đây.
Nếu biến giới tính chỉ có 2 là giá trị khá đơn giản và không gặp khó khăn trong khâu chuyển sang biến giả thì biến từ 3 giá trị trở lên sẽ phức tạp hơn. Ví dụ biến tình trạng hôn nhân gồm: Đã lập gia đình, Độc thân, Ly hôn. Trường hợp này biến tình trạng hôn nhân có 3 giá trị, để giải thích cho tất cả các khả năng xảy ra, chúng ta cần 2 biến giả. Chúng có thể mã hóa như sau:
X1 = 1 nếu Đã lập gia đình, X1 = 0 nếu ngược lại
X2 = 1 nếu Độc thân, X2 = 0 nếu ngược lại
Nếu một người đồng thời không ở trong tình trạng Đã lập gia đình (X1 = 0) và Độc thân (X2 = 0) thì người đó sẽ rơi vào nhóm còn lại là Ly hôn. Chính vì vậy mà chúng ta không cần phải có biến X3 cho nhóm thứ 3 - Ly hôn.
(X1 = 1 và X2 = 0): Đã lập gia đình
(X1 = 0 và X2 = 1): Độc thân
(X1 = 0 và X2 = 0): Ly hôn
Từ đây chúng ta có thể suy ra rằng, để phân biệt m tính chất, người ta dùng m-1 biến giả. Hay nói một cách dễ hiểu, nếu biến định tính có m đáp án thì cần m-1 biến giả để giải thích cho tất cả các trường hợp xảy ra của biến định tính này.
3. Tạo biến giả và thực hiện hồi quy với biến giả trong SPSS
Ở đây mình có một tập data mẫu với các biến như sau:
- Biến phụ thuộc: HL - Sự hài lòng (biến định lượng)
- Biến độc lập: TN, CV - Thu nhập (biến định lượng)
- Biến độc lập: PhongBan - Phòng ban (biến định tính cần chuyển về biến giả Dummy) gồm 4 giá trị:
1 = Phòng Marketing
2 = Phòng Triển khai
3 = Phòng Ý tưởng
4 = Phòng Content
3.1 Cách tạo biến giả Dummy trên SPSS
Thực hiện tạo biến giả cho biến PhongBan. Biến này có 4 giá trị, chúng ta cần 3 biến giả biểu diễn các tình huống có thể xảy ra. Mình đặt tên 3 biến giả lần lượt là: Marketing, TrienKhai, YTuong.
Từ giao diện SPSS, vào Transform > Recode into Different Variables...
Tại cửa sổ mở ra, đưa biến PhongBan từ bên trái vào mục Numeric Variable -> Output Variable. Trong phần Name, đặt tên biến giả đầu tiên là Marketing. Tiếp tục nhấp vào Old and New Values...
Chúng ta có 2 phần: Old Value và New Value. Trong Old Value, mục Value nhập giá trị 1, bởi vì trong biến PhongBan, nhóm Marketing có giá trị là 1.
Trong New Value, mục Value nhập giá trị 1. Nhớ lại lý thuyết, biến giả Dummy có 2 giá trị: 0 - không xảy ra và 1 - xảy ra. Cách hiểu: Thực hiện chuyển giá trị 1 từ biến PhongBan thành giá trị 1 của biến Marketing. Sau đó nhấp vào nút Add để xác nhận chuyển giá trị.
Tiếp tục chọn vào All other values trong Old Value. Trong New Value, nhập giá trị 0. Cách hiểu: Chuyển tất cả các giá trị còn lại (ngoại trừ giá trị 1) của biến PhongBan thành giá trị 0 của biến Marketing. Nhấp vào Add để xác nhận chuyển giá trị. Sau đó nhấp vào Continue.
Tiếp tục vào Transform > Recode into Different Variables... Nhấp vào nút Reset để bắt đầu tạo biến TrienKhai tương tự các thao tác với biến Marketing ở trên.
Lưu ý rằng, nhóm Triển khai mang giá trị 2 trong biến PhongBan. Do vậy mà ở tùy chọn Old and New Values..., tại mục Value trong Old Value chúng ta nhập 2, tương tự là 3 với biến YTuong. Trong khi đó phần New Value vẫn là 1 và 0.
3.2 Hồi quy với biến giả Dummy trên SPSS
Sau khi tạo xong 3 biến giả Marketing, TrienKhai, YTuong. Quay lại giao diện Variable View trên SPSS, chúng ta sẽ thấy các biến mới này xuất hiện. Chuyển Measure 3 biến này từ Nominal về Scale.
Tiến hành chạy hồi quy bình thường theo hướng dẫn tại bài viết Phân tích và đọc kết quả hồi quy tuyến tính bội trong SPSS, chúng ta có kết quả bảng Coefficients như sau:
3.2 Đọc kết quả hồi quy với biến giả Dummy trên SPSS
Chỉ cần 1 trong 3 hệ số hồi quy của các biến giả nhỏ hơn 0.05 thì chúng ta đã có thể kết luận rằng biến PhongBan có sự tác động lên biến HL. Nếu cả 3 giá trị sig đều lớn hơn 0.05, chúng ta kết luận biến PhongBan không có sự tác động lên biến HL tại mức ý nghĩa 5%.
Bây giờ chúng ta sẽ đi chi tiết vào sự tác động đó là cao thấp như thế nào ở từng nhóm giá trị. Trong hồi quy với biến giả, chúng ta sẽ có một nhóm giá trị làm tham chiếu, các nhóm còn lại sẽ so sánh kết quả với nhóm tham chiếu này. Bằng việc sử dụng 3 biến giả cho 3 giá trị đầu trong biến PhongBan, chúng ta đã ngầm chọn nhóm 4 - Phòng Content làm giá trị tham chiếu:
- 1 = Phòng Marketing (nhóm so sánh)
- 2 = Phòng Triển khai (nhóm so sánh)
- 3 = Phòng Ý tưởng (nhóm so sánh)
- 4 = Phòng Content (nhóm tham chiếu)
Khi đó, chúng ta sẽ diễn giải kết quả theo lối:
- Hài lòng của nhân viên thuộc phòng Marketing là cao hơn/thấp hơn phòng Content.
- Hài lòng của nhân viên thuộc phòng Triển khai là cao hơn/thấp hơn phòng Content.
- Hài lòng của nhân viên thuộc phòng Ý tưởng là cao hơn/thấp hơn phòng Content.
Nếu hệ số hồi quy B (hoặc Beta) dương, nghĩa là Sự hài lòng (biến HL) của nhân viên ở phòng ban đó cao hơn phòng Content. Ngược lại, B hoặc Beta âm nghĩa là Sự hài lòng của nhân viên sẽ thấp hơn so với phòng Content.
Cụ thể trong ví dụ ở trên, hệ số hồi quy của cả 3 biến Marketing, TrienKhai và YTuong đều âm và đều có sig nhỏ hơn 0.05. Như vậy, có sự khác biệt thống kê rằng Sự hài lòng là khác nhau giữa các phòng ban. Nhân viên ở phòng Marketing, phòng Triển khai, phòng Ý tưởng có sự hài lòng thấp hơn so với nhân viên phòng Content.
Để làm rõ hơn sự khác đó là như thế nào các bạn có thể chạy thêm phân tích phương sai một yếu tố ANOVA hoặc Independent Sample T-Test để có thêm dữ liệu.