Các thắc mắc ngoài dịch vụ, bạn vui lòng thảo luận tại nhóm Facebook này nhé.
😄

Cách xử lý, hiệu chỉnh số liệu xấu trong SPSS

Unknown

Trong quá trình làm bài nghiên cứu marketing có sử dụng SPSS phân tích định lượng, gần như chúng ta đều gặp khó khăn ít hoặc nhiều khi số liệu gặp phải những trục trặc đau đầu. Bài viết này sẽ chia sẻ cách xử lý, hiệu chỉnh số liệu xấu khi phân tích SPSS.

Hiệu chỉnh số liệu xấu trong SPSS

Các trường hợp số liệu xấu cần hiệu chỉnh, xử lý phổ biến:

  1. Kiểm định độ tin cậy của thang đo Cronbach Alpha nhỏ hơn 0.6
  2. EFA bị lỗi "This matrix is not positive definite", không có bảng KMO
  3. Ma trận xoay sắp xếp lộn xộn, mất hết các nhân tố ban đầu
  4. Tương quan giữa các biến độc lập khá cao và hệ số VIF ở hồi quy lớn hơn hoặc bằng 2 (khả năng cao xảy ra đa cộng tuyến)
  5. Hồi quy giá trị R bình phương hiệu chỉnh cực kỳ thấp, các nhân tố bị loại bỏ gần hết

Hôm nay, mình sẽ đề xuất một số phương án xử lý những lỗi trên. Mình đưa ra hướng giải quyết trên lý thuyết, còn vận dụng là ở các bạn.  

Xem thêm: Dịch vụ xử lý dữ liệu SPSS cấp tốc

Xem thêm: Tại sao có sự chênh lệch giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa?

1/ Cronbach Alpha nhỏ hơn 0.6

Thực hiện kiểm định Cronbach Alpha là bước đầu tiên khi thực hiện phân tích định lượng với SPSS. Và ngay từ bước khởi đầu này, không ít bạn chán nản mệt mỏi muốn vứt ngay cái laptop với mớ dữ liệu hỗn độn vô sọt rác.

Lật lại khái niệm độ tin cậy Cronbach Alpha tí xíu, khi một nhân tố bạn đưa ra sẽ gồm nhiều biến quan sát nhỏ, các biến quan sát này phản ánh được tính chất của nhân tố mẹ thì khi đó giá trị Cronbach Alpha (về sau mình gọi bằng CA cho tiện) sẽ cao. Giá trị CA nhỏ hơn 0.6 đồng nghĩa thang đo không đạt yêu cầu, một hoặc một vài biến quan sát không thể hiện được tính chất của nhân tố.

Cách xử lý dữ liệu xấu:

  • Xác định lại các câu hỏi quan sát trong nhân tố có phản ánh được tính chất của nhân tố hay không, những câu hỏi nào không có cơ sở lý luận nguồn gốc rõ ràng thì loại bỏ, chỉnh sửa lại bảng câu hỏi và khảo sát lại.
  • Bảng câu hỏi bạn lấy từ nguồn rõ ràng, từ các nghiên cứu lớn đã được các nhà nghiên cứu công nhận. Các câu hỏi của bạn cũng đã được giảng viên đánh giá và chấp nhận thì lỗi xuất hiện phần lớn là do người được khảo sát. Chi phí khảo sát không hề nhỏ, vậy nên ở trường hợp này khó mà chúng ta có thể khảo sát lại. Do vậy, các bạn cần tập trung loại bỏ những bảng câu hỏi xấu đi để cải thiện số liệu hơn.

2/ EFA bị lỗi "This matrix is not positive definite", không có bảng KMO

Một lỗi khá phổ biến khi chạy phân tích nhân tố khám phá là không hiện bảng KMO và thay vào vị trí đó là dòng chữ "This matrix is not positive definite".

Lý do xuất hiện lỗi này thường là vì trong dữ liệu của các bạn có sự chồng chéo giữa các nhân tố độc lập với nhau. Giá trị các biến quan sát của nhân tố độc lập 1 khá giống với giá trị các biến quan sát 2, 3, 4.. Sự trùng lắp này quá nhiều làm cho tính phân biệt trong EFA bị loại bỏ, nên sẽ nhận được thông báo như trên.

Cách xử lý dữ liệu xấu:

  • Các bạn hãy tìm và loại bớt các biến có tương quan mạnh với nhau như thế, vì đây gần như là có sự trùng lắp dữ liệu. 
  • Nếu các câu hỏi đó là quan trọng và không được loại bỏ, chỉ còn cách bạn phải thay đổi số liệu, đừng để số liệu biến quan sát trong nhân tố này lại giống đến hơn 70% số liệu biến quan sát trong nhân tố khác.
  • Thủ thuật để nhận biết biến nào đang trùng lắp dữ liệu với biến khác đó là sử dụng tương quan Pearson. Thực hiện phân tích tương quan giữa các nhân tố độc lập, nhìn ở các giá trị sig nhỏ hơn 0.05, cặp nhân tố nào có tương quan r từ 0.6 trở lên thì khả năng lớn sẽ có đa cộng tuyến giữa 2 biến này, đồng nghĩa giữa 2 biến đang có sự trùng lặp dữ liệu đáng kể.

3/ Ma trận xoay sắp xếp lộn xộn, mất hết các nhân tố ban đầu

Tại ma trận xoay khi phân tích nhân tố khám phá, các biến quan sát chạy nhảy lung tung, từ 4 nhân tố lại xuất hiện 5, 6, 7... tố, biến quan sát nhóm này lại gom chung với nhóm khác, nhân tố ban đầu gần như bị mất hết.

Lý do dẫn đến tình trạng này đó là các biến quan sát trong nhóm này lại tương đồng giá trị với các biến quan sát của nhóm khác. Đồng nghĩa với việc, biến quan sát bạn đưa ra là không rõ ràng, nó vừa thuộc một phần của nhân tố độc lập 1, nhưng lại cũng là 1 phần trong nhân tố độc lập 2.
Hoặc trường hợp các biến quan sát này lấy từ bảng câu hỏi chuẩn thì lỗi xảy ra là do dữ liệu thu thập. Có thể là người được khảo sát họ đánh cho có lệ nên dẫn đến số liệu có quá nhiều trục trặc xảy ra.

Cách xử lý dữ liệu xấu:

  • Từ bảng ma trận xoay lộn xộn, tìm kiếm xem những biến quan sát nào đang chạy nhảy loạn xạ, loại bỏ chúng hoặc chỉnh sửa lại để dữ liệu của biến không bị trùng lắp với dữ liệu các biến quan sát trong nhân tố khác.
  • Hãy nhớ EFA có 2 yêu cầu: phân biệt & hội tụ. Hội tụ nhĩa là các biến quan sát cùng nhóm sẽ gom về 1 cột trong ma trận xoay. Phân biệt nghĩa là giữa các nhân tố sẽ có sự tách biệt rõ ràng, mỗi nhóm nhân tố biểu hiện bằng một cột trong ma trận xoay. Một khi dữ liệu cột này hao hao cột kia thì sẽ dẫn đến tình trạng biến quan sát của nhân tố này sẽ nhảy sang nhân tố khác.

4/ Tương quan giữa các biến độc lập khá cao và hệ số VIF ở hồi quy lớn hơn 5

Nếu gặp trường hợp này, khả năng rất cao giữa các nhân tố độc lập đã xảy ra đa cộng tuyến. Nghĩa là nhân tố này có giá trị khá giống với nhân tố khác.

Cách xử lý dữ liệu xấu:

  • Căn cứ vào độ quan trọng, cùng với đó là dẫn chứng kết quả số liệu đưa ra, hãy loại 1 trong 2 nhân tố độc lập mà giữa chúng bị đa cộng tuyến. Nhớ chú ý, trên thực tế, bạn thấy yếu tố nào quan trọng hơn thì nên giữ lại.
  • Hoặc đã loại 1 trong 2 rồi mà kết quả vẫn còn rất tệ, bạn buộc phải loại bỏ cả 2 biến. 

5/ Hồi quy giá trị R bình phương hiệu chỉnh cực kỳ thấp, các nhân tố bị loại bỏ gần hết

Giá trị R bình phương hiệu chỉnh phản ánh mức độ giải thích biến phụ thuộc của các biến độc lập. Giá trị này càng cao nghĩa là các biến độc lập bạn đưa ra trong mô hình càng đầy đủ và chính xác, không bị thiếu sót biến.

Thường chúng ta chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu, từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, tùy vào dạng nghiên cứu và dạng dữ liệu, không phải lúc nào cũng bắt buộc rằng mô hình hồi quy phải đạt giá trị R bình phương hiệu chỉnh lớn hơn 0.5 mới có ý nghĩa.

Như vậy, nếu kết quả hồi quy bạn phân tích được có R bình phương hiệu chỉnh dưới 50% (0.5) thì kết quả vẫn có thể được chấp nhận.

Tuy nhiên, nếu mô hình hồi quy đa biến với nhiều biến độc lập tham gia vào hồi quy nhưng R bình phương hiệu chỉnh quá thấp, điều này đồng nghĩa các biến độc lập chúng ta xây dựng không phù hợp với nghiên cứu.

Cách xử lý dữ liệu xấu:

  • R bình phương hiệu chỉnh quá nhỏ là do biến độc lập không phản ánh được tính chất biến phụ thuộc. Bạn cần rà soát lại toàn bộ dữ liệu, những phiếu khảo sát nào chưa hợp lý thì cần loại đi. Ví dụ giả thuyết ban đầu các biến độc lập của bạn đều tác động tích cực đến biến phụ thuộc, nhưng khi bạn nhập liệu thì biến độc lập giá trị thiên về giá trị đồng ý, rất đồng ý nhưng biến phụ thuộc lại là rất không đồng ý, không đồng ý. Đó là các các bảng hỏi cần được loại bỏ để không ảnh hưởng đến kết quả chung cũng như là của giá trị R bình hiệu chỉnh.

1 nhận xét

  1. Em gặp vấn đề t3 ạ