Xin chào các bạn đến với phần 2 bài viết "Làm thế nào để có dữ liệu đẹp, tốt khi khảo sát?". Kết thúc phần 1, chúng ta đã có một bảng khảo sát tốt nhất để tiến hành khảo sát chính thức với cỡ mẫu lớn, nếu bạn chưa xem phần 1, hãy xem tại đây. Phần này, chúng ta sẽ đi vào làm sạch dữ liệu sau khi đã thu thập.
2. Làm sạch dữ liệu sau khảo sát
Đầu mục 1: Loại bỏ các bảng khảo sát kém chất lượng
Dựa vào 2 kỹ thuật câu hỏi gài và đảo ngược đáp án, loại bỏ các phiếu khảo sát kém chất lượng, tiến hành nhập liệu các bảng khảo sát tốt vào Excel (nên nhập dữ liệu vào Excel, sau đó cần xử lý hãy import vào SPSS, không nên nhập trực tiếp vào SPSS). Xem chi tiết 2 kỹ thuật này ở ebook "Hướng dẫn sử dụng SPSS 26".
Sẽ có thể xuất hiện phiếu khảo sát bị thiếu một vài cột mà đáng lẽ nó phải có giá trị, thống kê gọi đó là missing value. Nếu thiếu giá trị thì một số kiểm định sẽ không thực hiện được, do vậy, một trong các cách giải quyết đối với trường hợp này đó là lấy trung bình toàn bộ các giá trị của cột đó rồi làm tròn điền vào giá trị missing.
Đầu mục 2: Làm sạch dữ liệu
Dùng kỹ thuật bảng tần số và bảng kết hợp để tìm ra những lỗi phát sinh do quá trình nhập liệu. Ví dụ, biến giới tính bạn chỉ có 2 giá trị là 1-Nam và 2-Nữ, nhưng khi chạy bảng thống kê tần số, dữ liệu lại xuất hiện giá trị 3, 4, 5... nghĩa là bạn đã nhập sai con số.
Hoặc bằng kỹ thuật bảng kết hợp, dựa trên nguyên tắc logic trong các đặc điểm nhân khẩu học, đặc điểm thông tin liên quan đến đối tượng khảo sát, chúng ta sẽ xem có sự bất hợp lý khi kết hợp 2 hay nhiều đặc điểm này lại với nhau hay không. Ví dụ, với bảng dưới đây, có sự bất hợp lý khi có 1 phiếu khảo sát có độ tuổi dưới 18 nhưng trình độ học vấn là trên đại học. Bạn cần rà soát và kiểm tra lại phiếu khảo sát này.
3. Tìm kiếm các điểm bị biệt và loại bỏ
Sau khi đã làm tốt bước chuẩn bị bảng khảo sát và làm sạch dữ liệu. Khả năng rất cao chúng ta đã có một bộ số liệu tương đối tốt.
Tuy nhiên, 300 người khảo sát thì sẽ có một vài cá nhân gọi là "dị biệt" khi kết quả của họ đánh giá đi lệch với xu hướng chung của phần lớn dữ liệu. Và các điểm dị biệt này ở một số lượng đáng kể hoặc tính dị biệt của nó lớn sẽ ảnh hưởng lên các kiểm định.
Do vậy, khi xử lý các kiểm định, phân tích, kết quả không ra không đúng như kỳ vọng hoặc khác biệt nhiều so với thực tế đánh giá, hãy tìm kiếm các điểm bị diệt này và loại bỏ chúng để xem các kết quả kiểm định có tốt hơn hay không. Ví dụ ở hình bên dưới, dùng đồ thị Normal Q-Q để phát hiện điểm dị biêt đi lệch khỏi phân phối chuẩn của biến. Vùng bôi đỏ là 5 phiếu khảo sát thứ tự: 24, 90, 131, 154, 179 trong bảng dữ liệu. Trong khi xu hướng chung của dữ liệu tập hợp ở gần giá trị 0 ở trục tung thì 5 phiếu khảo sát này có giá trị tách biệt rất nhiều so với phần lớn dữ liệu.
Do kỹ thuật này khá phức tạp và xử lý bằng thủ công khá nhiều nên mình sẽ có một bài viết chi tiết hơn trong thời gian tới. Các bạn có thể tìm kiếm các video hướng dẫn nước ngoài với tiêu đề "Identify Outlier in SPSS" để xem cách thực hiện nhé.
Nếu bạn đang gặp phải khó khăn trong xử lý dữ liệu trên SPSS, biến bị loại nhiều, các tiêu chí kiểm định không đảm bảo. Phạm Lộc Blog nhận chạy SPSS với chi phí tốt và thời gian nhanh chóng giúp bạn có được kết quả tốt và tiết kiệm thời gian.
Mình xin kết thúc phần 2 tại đây, nếu có những kỹ thuật mới giúp có được một bộ số liệu tốt nhất có thể, mình sẽ viết tiếp phần 3, 4. Mỗi đầu mục mình trình bày ở 2 phần sẽ có những kỹ thuật mà các bạn đã biết rồi, nhưng kết quả vẫn không tốt mấy.
Mình chỉ muốn nhấn mạnh, hãy làm thật tốt khâu chuẩn bị bảng khảo sát, đừng để khảo sát số lượng lớn mất tiền, thời gian, công sức rồi phải căng sức xử lý số liệu xấu. Các kỹ thuật mà bạn đã biết rồi nhưng làm chưa kỹ, hoặc biết nhưng không làm, hãy làm chúng tốt thật tốt vào.
Để có một kết quả tốt, bạn cần phải làm tốt toàn bộ quy trình từ bước đầu tiên, chứ không phải chỉ tập trung mỗi bước cuối cùng. Chúc các bạn có một nghiên cứu chất lượng. Nếu bạn quan tâm về ebook SPSS của mình, các bạn có thể tham khảo tại link này nhé.