Phần mềm SPSS là một công cụ quan trọng mà bất kỳ ai từng nghiên cứu khoa học hoặc làm luận văn đều quen thuộc. Mặc dù phổ biến, không phải ai cũng hiểu rõ và biết cách sử dụng hiệu quả phần mềm này. Vì vậy, trong bài viết dưới đây, Phạm Lộc Blog sẽ hướng dẫn bạn cách xử lý số liệu trong SPSS một cách đơn giản, nhanh chóng và dễ hiểu nhất.
1. Tải và cải đặt phần mềm SPSS
Trước khi đi vào xử lý số liệu trong SPSS, chúng ta cần có phần mềm đã được kích hoạt bản quyền đầy đủ để hiển thị đủ các công cụ, tính năng phục vụ cho bước phân tích số liệu.
Bạn có thể tự tải, cài đặt và kích hoạt theo hướng dẫn chi tiết tại bài viết này. Trường hợp bạn không thành thạo về công nghệ, máy tính có thể sử dụng dịch vụ cài đặt SPSS full bản quyền của bên mình tại đây nhé.
2. Làm quen với giao diện xử lý số liệu trên phần mềm SPSS
a. Giao diện Variable View
Khởi chạy phần mềm lên, chúng ta sẽ làm quen với hai giao diện Variable View và Data View trên SPSS. Variable View là giao diện chúng ta sẽ sử dụng để khai báo biến.
- Name: Khai báo tên biến. Nên đặt tên biến không có dấu Tiếng Việt, không được sử dụng dấu cách trắng, không được đặt ký tự đầu tiên là một con số, không đặt tên biến trùng với cụm cấm trong SPSS. Chúng ta không cần quan tâm những cụm nào cấm sử dụng cho đặt tên trong SPSS, khi vô tình đặt tên biến rơi vào các cụm này, phần mềm sẽ báo tên biến không hợp lệ, chúng ta chỉ cần đặt một tên khác đi là được. Nếu muốn liên kết từ trong tên biến, chúng ta sử dụng dấu gạch dưới ( _ ). Cách đặt tên phù hợp: GioiTinh, Dotuoi, Hoc_Van, ChiPhi1, Giaca_2. Cách đặt tên không phù hợp: Giớitính, Do Tuoi, Học vấn, 1NgheNghiep.
- Type: Khai báo kiểu dữ liệu. Có nhiều tùy chọn kiểu dữ liệu, tuy nhiên, tác giả sẽ chỉ trình bày 2 kiểu dữ liệu thường dùng nhất khi làm luận văn là Numeric và String. Nếu giá trị nhập vào là một con số, chúng ta sẽ khai báo là Numeric; nếu giá trị nhập vào là ký tự văn bản, chúng ta khai báo là String. Ví dụ: Chúng ta có biến Giới tính, trường hợp không mã hóa Nam thành 1, Nữ thành 2 mà muốn nhập dạng văn bản “Nam” – “Nữ” vào SPSS thì chúng ta sẽ phải khai báo kiểu dữ liệu là String; trường hợp nhập vào con số đã mã hóa 1 – 2 đại diện cho Nam – Nữ thì chúng ta sẽ khai báo kiểu dữ liệu là Numeric.
- Width: Số lượng ký tự tối đa. Nếu chúng ta nhập vào giá trị có số ký tự lớn hơn 8, chúng ta cần tăng giá trị Width lên phù hợp. Cũng không nên tăng quá cao như 500, 1000 vì chúng ta gần như không bao giờ nhập vào một ô giá trị có số ký tự cao như vậy. Việc để thừa số ký tự trống quá nhiều sẽ làm tệp dữ liệu nặng hơn một cách không cần thiết.
Khi nhập liệu, nếu ô giá trị không hiển thị đầy đủ các ký tự chúng ta nhập vào mà bị cắt mất một đoạn phía sau, nghĩa là Width của ô đó quá nhỏ, không đủ chứa số ký tự chúng ta đã nhập vào. Như ví dụ bên dưới, biến NgheNghiep1 có giá trị Width rất nhỏ nên không thể chứa đủ chuỗi văn bản nhập vào, do đó nghề nghiệp được nhập trong cột biến NgheNghiep1 không được hiển thị đầy đủ.
- Decimals: Số ký tự thập phân. Nếu dữ liệu thu thập là các con số nguyên, chúng ta nên để là 0. Nếu dữ liệu có phần thập phân, chúng ta sẽ tùy chỉnh Decimals tăng lên 1, 2, 3… tùy vào số ký tự thập phân muốn thể hiện.
- Label: Khai báo nhãn cho biến. Đây là phần chúng ta giải thích ý nghĩa cho cột tên biến Name. Trong Label chúng ta không bị giới hạn bởi các quy tắc đặt tên, có thể viết dài, viết ngắn, viết có dấu Tiếng Việt và tự do sử dụng dấu cách trắng.
- Values: Khai báo giá trị của biến. Mỗi giá trị sẽ tương ứng với một trường hợp xảy ra của biến và được xác định bằng một con số (value) đi kèm với một nhãn giải thích (label). Ví dụ, biến Bộ phận làm việc có các giá trị là Phòng nhân sự, Phòng kế toán, Phòng sản xuất, Phòng marketing. Tác giả sẽ khai báo value = 1 tương ứng label “Phòng Nhân sự”, tương tự cho các giá trị 2, 3, 4.
- Missing: Khai báo các giá trị khuyết trong dữ liệu. Một số trường hợp dữ liệu chúng ta xuất hiện các giá trị khuyết, nghĩa là tại ô dữ liệu đó không có giá trị nào được nhập. Lý do xuất hiện giá trị khuyết đến từ nhiều nguyên nhân: bản chất câu hỏi khảo sát, đáp viên không trả lời, do sơ sót từ người nhập liệu… Chúng ta sẽ cần khai báo giá trị khuyết để phần mềm hiểu được giá trị khuyết có tồn tại và giá trị khuyết đó đến từ nguyên nhân nào. Điều này rất quan trọng, bởi một số kiểm định, phần mềm sẽ dựa vào khai báo missing value để quyết định có đưa quan sát đó vào tính toán không.
Ở hàng Discrete missing values có ba ô, tương ứng phần mềm cho phép bạn khai báo ba loại giá trị khuyết. Giả sử trong cùng một biến của dữ liệu có hai loại giá trị khuyết. Loại thứ nhất là do câu hỏi, người nào phù hợp mới trả lời câu hỏi đó, người nào không phù hợp sẽ không trả lời, điều này dẫn đến các ô dữ liệu của người không phù hợp sẽ là các ô khuyết. Thay vì để trống ô, chúng ta nhập vào các ô đó giá trị 99, đồng thời khai báo missing value của biến đó ở ô số một là 99. Loại giá trị khuyết thứ hai là do một số đáp viên bỏ sót câu hỏi. Chúng ta cũng khai báo cho phần mềm biết đó là missing value, để tránh trùng với giá trị 99 – nguyên nhân do bản chất câu hỏi, chúng ta khai báo là 88 cho loại giá trị khuyết thứ hai, nhập vào ô thứ hai ở Discrete missing values là 88.
- Measure: Chọn loại thang đo thể hiện dữ liệu: Thang đo định danh (Nominal), Thang đo thứ bậc (Ordinal), Thang đo mức độ (Scale).
b. Giao diện Data View
Giao diện tiếp theo là Data View dùng để nhập liệu. Nếu Variable View làm nhiệm vụ tạo khuôn, thì Data View làm nhiệm vụ đưa nội dung vào khuôn dữ liệu đã tạo. Trong giao diện Data View, các cột sẽ biểu diễn danh sách biến, các hàng được đánh dấu số thứ tự 1, 2, 3,… đại diện cho từng quan sát của mẫu. Kết quả giá trị được nhập vào ở mỗi hàng đại diện cho câu trả lời của một đáp viên.
3. Tạo biến, nhập liệu vào SPSS trước khi xử lý
Trước khi đi vào xử lý dữ liệu trên SPSS, chúng ta cần khai báo biến và nhập liệu. Từ kết quả khảo sát thô thu được trên các phiếu khảo sát giấy hoặc khảo sát online. Chúng ta cần xử lý chúng để có được các con số, văn bản có thể thực hiện phân tích được. Việc làm này gọi là mã hóa và nhập liệu.
Sẽ có nhiều dạng câu hỏi khác nhau và cách thức nhập liệu khác nhau như: câu hỏi định tính một trả lời, câu hỏi định tính nhiều trả lời, câu hỏi định lượng một trả lời, câu hỏi mở, câu hỏi xếp hạng... Bạn vui lòng xem đầy đủ cách thức thực hiện ở video bên dưới.
Tóm tắt thông tin mã hóa, nhập liệu hai dạng câu hỏi phổ biến:
1. Câu định tính một trả lời
Toàn bộ các câu hỏi phần thông tin chung như giới tính, độ tuổi, học vấn,… là điển hình cho dạng câu hỏi định tính một trả lời.
Đối với câu hỏi định tính một trả lời, mỗi câu hỏi sẽ tương ứng với một biến trong khuôn dữ liệu.
- Name: Nếu có thể, nên đặt tên ngắn gọn nhưng có thể mô tả được nội dung biến. Ví dụ, thay vì đặt tên là Cau_1, chúng ta nên dùng tên biến là GioiTinh để mã hóa cho câu hỏi về giới tính.
- Type: Có thể để dạng Numeric hoặc String. Tuy nhiên, trừ một số trường hợp đặc biệt bắt buộc phải để dạng String, thông thường chúng ta nên chọn Numeric để dễ dàng dùng các biến này cho các tính toán liên quan đến con số.
- Label: Nên đặt tên Label để tăng thẩm mỹ cho các bảng kết quả xuất ra.
- Measure: Tùy dạng câu hỏi mà sẽ là Nominal hoặc Ordinal.
- Values: Gán mỗi đáp án lần lượt với một con số. Các con số nên đặt theo thứ tự tăng dần liên tục.
Khi nhập liệu, mỗi hàng tương ứng với một đáp viên. Ví dụ, người số 1 có giới tính nam (mã hóa là 1), tuổi từ 26 - 35 tuổi (mã hóa là 2), học vấn đại học (mã hóa 3), thâm niên 3 - 5 năm (mã hóa 3), thu nhập từ 15 – dưới 20 triệu (mã hóa 3). Chúng ta sẽ nhập ở hàng thứ nhất lần lượt các con số tương ứng các cột là: 1, 2, 3, 3, 3. Sau khi hoàn thành nhập liệu toàn bộ đáp án các câu hỏi còn lại của người thứ nhất, chúng ta chuyển sang hàng thứ hai và thực hiện tương tự.
2. Câu định lượng một trả lời
Câu hỏi định lượng một trả lời là các câu hỏi mà đáp án trả lời sẽ là một con số duy nhất. Ví dụ các câu hỏi về chiều cao, cân nặng, số thành viên trong gia đình, số khách hàng đã mua sản phẩm… hoặc các câu hỏi sử dụng thước đo Likert.
Đối với câu hỏi định lượng một trả lời, mỗi câu hỏi sẽ tương ứng với một biến trong khuôn dữ liệu.
- Name: Nên đặt tên ngắn gọn nhưng có thể mô tả được nội dung biến. Trường hợp không thể đặt tên ngắn gọn, chúng ta có thể chỉ dùng ký hiệu câu như Cau_1, Cau_2, Q1, Q2, C1, C2… và giải thích nội dung biến ở Label.
- Type: Numeric.
- Label: Nên đặt tên Label để tăng thẩm mỹ cho các bảng kết quả xuất ra (riêng với các câu hỏi Likert là các biến quan sát của một thang đo, chúng ta không nên điền Label).
- Measure: Scale.
- Values: Không gán giá trị.
Khi nhập liệu, mỗi hàng tương ứng với một đáp viên. Ví dụ, người số 1 có chiều cao là 170cm, cân nặng là 68kg, số thành viên trong gia đình là 3 người. Chúng ta sẽ nhập ở hàng thứ nhất lần lượt các con số tương ứng các cột là: 170, 68, 3. Sau khi hoàn thành nhập liệu toàn bộ đáp án các câu hỏi còn lại của người số 1, chúng ta chuyển sang hàng thứ hai và thực hiện tương tự.
4. Tiến hành xử lý dữ liệu trong SPSS
4.1 Thống kê tần số trên SPSS
Tại cửa sổ Frequencies, đưa các biến cần thống kê tần số từ cột bên trái vào mục Variable(s) bên phải. Trong hướng dẫn này, tác giả sẽ thực hành mẫu với các biến định tính thông tin cá nhân, chúng ta hoàn toàn có thể linh động sử dụng cho các biến khác tùy vào mục đích thống kê tần số của mình. Nếu muốn xem xét tỷ lệ đáp viên chọn vào đáp án 1, 2, 3, 4, 5 trên thang đo Likert 5 mức độ, chúng ta sẽ đưa các câu này vào để thống kê tần số.
Sau khi đã đưa các biến cần thống kê tần số vào mục Variable(s), nhìn sang bên phải có các tùy chọn Statistics, Charts, Format, Style và Bootstrap, đây là các mục để chúng ta mô tả sâu hơn dữ liệu. Tuy nhiên, hai mục được sử dụng nhiều nhất là Statistics và Charts. Trong tùy chọn Statistics, SPSS cung cấp cho chúng ta các thông số thống kê tiêu chuẩn như mean, median, std. deviation,… và hai thông số phân phối dữ liệu skewness, kurtosis.
Tùy vào mong muốn cần đọc kết quả gì, chúng ta sẽ tích chọn vào các mục tương ứng. Cụ thể trong trường hợp này, tác giả chỉ muốn đánh giá cơ bản về thông tin mẫu nên để mặc định các thông số của phần mềm, không tích chọn gì thêm. Nhấp Continue để quay về cửa sổ ban đầu.
Tiếp đến là tùy chọn Charts. Tùy chọn này cho phép SPSS xuất ra biểu đồ cơ cấu cho các biến đưa vào thống kê tần số. Các dạng biểu đồ được tích hợp trong tùy chọn Charts gồm: Bar charts (biểu đồ cột), Pie charts (biểu đồ tròn), Histograms (biểu đồ phân phối tần suất). Mục Chart Values bên dưới sẽ sáng lên và cho phép chọn dạng hiển thị tần số Frequencies (số người trả lời) hay phần trăm Percentages (tỷ trọng số người trả lời) khi chúng ta chọn hai dạng biểu đồ Bar charts hoặc Pie charts. Với dạng thống kê tần số cho các biến thông tin cá nhân, tác giả sẽ tích vào biểu đồ Pie charts kèm với lựa chọn Chart Values là Percentages để xuất biểu đồ tròn tỷ lệ cơ cấu. Sau đó nhấp Continue để quay lại cửa sổ ban đầu, tiếp tục nhấp vào OK để xuất kết quả ra output.
Bảng đầu tiên chúng ta sẽ chú ý là Statistics. Bảng này cho chúng ta thông tin chung về biến đưa vào chạy thống kê. Valid cho biết số quan sát có giá trị hợp lệ (số người có trả lời), Missing cho biết số quan sát bị thiếu dữ liệu (số người không trả lời). Trường hợp có Missing, chúng ta cần kiểm tra lại giá trị trống đó là bản chất câu hỏi hay do chúng ta có sai sót trong khi nhập liệu để xử lý giá trị này một cách phù hợp.
Tiếp theo là bảng tần số của từng biến và biểu đồ tương ứng, mỗi biến đưa vào thực hiện thống kê tần số sẽ có một bảng riêng, ví dụ như biến Độ tuổi bên dưới. Ý nghĩa các thông số của bảng:
- Frequency: Tần số (Có 81 người thuộc nhóm Từ 18 - 25 tuổi; có 134 người thuộc nhóm Từ 26 - 35 tuổi,…).
- Percent: Tỷ lệ phần trăm (Nhóm Từ 18 - 25 tuổi chiếm tỷ lệ 23.1%; nhóm Từ 26 - 35 tuổi chiếm tỷ lệ 38.3%,…).
- Valid Percent: Tỷ lệ phần trăm chỉ tính trên các giá trị hợp lệ. Nếu không có Missing, giá trị cột Valid Percent sẽ bằng với giá trị cột Percent.
- Cumulative Percent: Tỷ lệ phần trăm tích lũy chỉ tính trên các giá trị hợp lệ. Tỷ lệ phần trăm sẽ cộng dồn tới khi đủ 100% (Nhóm Từ 18 - 25 tuổi chiếm tỷ lệ 23.1%; nhóm Từ 18 - 25 tuổi và Từ 26 - 35 tuổi chiếm tổng tỷ lệ 61.4%,…).
Trong tổng số 350 người tham gia trả lời phiếu khảo sát, có 81 người thuộc độ tuổi từ 18 đến 25 tuổi chiếm tỷ trọng 23.1%, 134 người thuộc độ tuổi từ 26 đến 35 tuổi chiếm tỷ trọng 38.3%, 89 người thuộc độ tuổi từ 36 đến 45 tuổi chiếm tỷ trọng 25.4% và có 46 người trên 45 tuổi chiếm tỷ trọng 13.1%. Từ kết quả này có thể thấy, nhân viên trong công ty đa phần có độ tuổi dưới 45, tập trung nhiều nhất ở độ tuổi 26 đến 35 tuổi. Đây là độ tuổi lao động lý tưởng, có sự kết hợp giữa nhóm lao động trẻ giàu năng lượng cùng với nhóm lao động có khá nhiều kinh nghiệm làm việc.
Nếu bạn đang gặp phải khó khăn trong xử lý dữ liệu trên SPSS, biến bị loại nhiều, các tiêu chí kiểm định không đảm bảo. Phạm Lộc Blog nhận xử lý dữ liệu SPSS với chi phí tốt và thời gian nhanh chóng giúp bạn có được kết quả tốt và tiết kiệm thời gian.
4.2 Thống kê trung bình trên SPSS
Bước thứ hai trong quy trình xử lý dữ liệu SPSS, chúng ta sẽ thống kê trung bình các câu hỏi 5-7-9 mức độ của các thang đo trong mô hình. Dựa trên kết quả thống kê trung bình, chúng ta sẽ biết được phạm vi giá trị của biến thông qua giá trị nhỏ nhất/giá trị lớn nhất. Từ đó chúng ta sẽ đánh giá khoảng giá trị đó có phù hợp với tính chất bài nghiên cứu hay không.
Từ giao diện SPSS, vào Analyze > Descriptive Statistics > Descriptives…
Tại cửa sổ Descriptives, đưa các biến cần thống kê trung bình vào mục Variable(s), có thể đưa cùng lúc nhiều biến vào thực hiện thống kê. Trong hướng dẫn này, tác giả sẽ thực hành mẫu với nhóm biến Tiền lương (từ TL1 đến TL4) nên tác giả sẽ đưa các biến này vào mục Variable(s).
Bên phải có các mục Options, Style và Bootstrap để chúng ta lựa chọn loại thống kê trung bình cũng như định dạng kết quả xuất ra. Tuy nhiên, thường chúng ta chỉ sử dụng đến mục Options.
Trong Options, có các loại thống kê để chúng ta lựa chọn tùy theo mục đích đánh giá, SPSS thiết lập mặc định các mục trong phần này gồm:
- Mean: giá trị trung bình
- Std. deviation: độ lệch chuẩn. Xem thêm: Độ lệch chuẩn bao nhiêu thì chấp nhận được?
- Minimum: giá trị nhỏ nhất
- Maximum: giá trị lớn nhất
Tác giả không tích vào thống kê nào thêm mà chỉ sử dụng mặc định SPSS đề xuất. Nhấp chuột vào Continue để quay lại cửa sổ ban đầu, nhấp vào OK để xuất kết quả ra output.
Chúng ta sẽ đọc kết quả ở bảng Descriptive Statistics. N là cột cần quan tâm trước nhất để xem có dữ liệu giá trị khuyết Missing hay không, nếu có Missing Value thì giá trị N này sẽ khác với cỡ mẫu. Tiếp tục nhìn vào kết quả giá trị nhỏ nhất, lớn nhất để xem có tình trạng giá trị vượt ngoài giới hạn thang đo hay không. Hai giá trị còn lại là trung bình và độ lệch chuẩn thường sẽ đi theo kết quả của giá trị nhỏ nhất, lớn nhất. Nếu có tình trạng giá trị vượt ngoài thang điểm đánh giá, giá trị trung bình và độ lệch chuẩn sẽ có sự đột biến.
Để đọc kết quả một cách trực quan hơn, với thống kê trung bình, chúng ta nên đưa nội dung câu hỏi vào bảng kết quả và tùy chỉnh lại bảng như bên dưới.
Đọc kết quả theo hướng đánh giá thứ nhất (làm tròn toán học), giá trị trung bình của TL2, TL3 xấp xỉ bằng 3, như vậy đáp viên có ý kiến trung lập với quan điểm “Phân phối công bằng tiền lương, thưởng và phụ cấp theo đóng góp của nhân viên” và “Chính sách tăng lương của công ty hợp lý”. Giá trị trung bình của TL1, TL4 xấp xỉ 4, như vậy đáp viên có xu hướng đồng ý với các quan điểm “Anh/Chị được trả lương tương xứng với kết quả làm việc của mình”, “Mức lương hiện tại của Anh/Chị phù hợp so với mặt bằng chung của thị trường lao động”.
Nhìn chung, kết quả này cho thấy rằng công ty đang có chính sách về Tiền lương khá tốt khi nhân viên đều cảm thấy tương đối hài lòng với mức lương họ được nhận, về chính sách tăng lương, phân phối lương giữa các nhân viên.
4.3 Kiểm định độ tin cậy thang đo Cronbach Alpha trên SPSS
Bước thứ ba trong quy trình phân tích dữ liệu trong SPSS, chúng ta sẽ kiểm định độ tin cậy các thang đo của bảng hỏi. Bên dưới sẽ là bài hướng dẫn phân tích Cronbach Alpha bằng video và hình ảnh. Nếu bạn chỉ tập trung ngắn gọn vào thao tác, bạn vui lòng xem ở phần hướng dẫn hình ảnh ngay sau video. Nội dung trình bày trong video mình sẽ giải thích thêm các yếu tố khó diễn giải bằng câu chữ nên sẽ dài hơn một chút.
Để thực hiện kiểm định độ tin cậy thang đo Cronbach’s Alpha trong SPSS, chúng ta vào Analyze > Scale > Reliability Analysis…
Lần lượt phân tích Cronbach's Alpha cho từng thang đo, không được đưa tất cả các biến quan sát ở nhiều thang đo vào chạy một lần, lý do bạn xem chi tiết hơn ở bài viết này.
Dưới đây mình sẽ phân tích mẫu cho 4 thang đo đại diện cho 4 trường hợp phổ biến hay gặp khi thực hiện kiểm định Cronbach Alpha trên SPSS:
Trường hợp 1: Thang đo đạt độ tin cậy, biến quan sát có ý nghĩa
Thực hiện phân tích Cronbach's Alpha cho thang đo TN, đưa 5 biến quan sát TN1-TN5 vào mục Items bên phải. Tiếp theo chọn vào Statistics…
Trong tùy chọn Statistics, các bạn tích vào các mục giống như hình. Sau đó chọn Continue để cài đặt được áp dụng.
Sau khi nhấp Continue, SPSS sẽ quay về giao diện ban đầu, các bạn nhấp chuột vào OK để xuất kết quả ra Output:
Kết quả kiểm định độ tin cậy thang đo Cronbach’s Alpha của thang đo TN như sau:
→ Kết quả kiểm định cho thấy: (1) hệ số độ tin cậy thang đo Cronbach's Alpha của TN bằng 0.790 > 0.6 và (2) các biến quan sát đều có tương quan biến - tổng (Corrected Item – Total Correlation) lớn hơn 0.3. Như vậy thang đo đạt độ tin cậy, các biến quan sát đều có ý nghĩa giải thích tốt cho nhân tố TN.
4.4 Phân tích nhân tố khám phá EFA trên SPSS
Bước thứ tư trong quy trình xử lý dữ liệu SPSS, chúng ta sẽ đi tới phần phân tích nhân tố khám phá nhằm xem các biến quan sát đầu vào trích được thành bao nhiêu nhân tố, đồng thời đánh giá tính hội tụ, phân biệt của các thang đo nhân tố.
a. Chạy EFA cho biến độc lập
Lần lượt chạy phân tích nhân tố khám phá cho biến độc lập và biến phụ thuộc. Lưu ý, các biến quan sát bị loại ở bước Cronbach Alpha trước đó sẽ không được đưa vào để kiểm định EFA.
Để thực hiện phân tích nhân tố khám phá EFA trong SPSS 20, chúng ta vào Analyze > Dimension Reduction > Factor…
Đưa biến quan sát của các biến độc lập cần thực hiện phân tích EFA vào mục Variables, nếu có biến quan sát nào bị loại ở bước trước đó, chúng ta sẽ không đưa vào phân tích EFA. Chú ý 4 tùy chọn được đánh số ở ảnh bên dưới.
- Descriptives: Tích vào mục KMO and Barlett’s test of sphericity để xuất bảng giá trị KMO và giá trị sig của kiểm định Barlett. Nhấp Continue để quay lại cửa sổ ban đầu.
- Extraction: Ở đây, chúng ta sẽ sử dụng phép trích PCA (Principal Components Analysis). Với SPSS 20 và các phiên bản 21, 22, 23, 24, PCA sẽ được viết gọn lại là Principal Components như hình ảnh bên dưới, đây cũng là tùy chọn mặc định của SPSS. Bên cạnh PCA, chúng ta cũng thường sử dụng PAF, cách dùng hai phép quay phổ biến này, các bạn có thể xem tại bài viết Phép trích Principal Components Analysis (PCA) và Principal Axis Factoring (PAF).
Khi các bạn nhấp chuột vào nút mũi tên hướng xuống sẽ có nhiều tùy chọn phép trích khác nhau. Số lượng nhân tố được trích ra ở ma trận xoay phụ thuộc khá nhiều vào việc lựa chọn phép trích, tuy nhiên, tài liệu này sẽ chỉ tập trung vào phần PCA.
- Rotation: Ở đây có các phép quay, thường chúng ta hay sử dụng Varimax và Promax. Riêng với dạng đề tài đã xác định được biến độc lập và biến phụ thuộc, chúng ta sử dụng phép quay Varimax. Bạn có thể tìm hiểu sự khác nhau cũng như khi nào dùng phép xoay nào tại bài viết Phép quay vuông góc Varimax và phép quay không vuông góc Promax. Nhấp Continue để quay lại cửa sổ ban đầu.
- Options: Tích vào Sorted by size để ma trận xoay sắp xếp thành từng cột dạng bậc thang để dễ đọc kết quả hơn, chúng ta có thể tích hoặc không tích, việc này không ảnh hưởng đến kết quả. Cần nhớ rằng, thứ tự các nhân tố trong kết quả ma trận xoay không phản ánh mức độ quan trọng của nhân tố đó. Với mục Suppress small coefficients, nếu không tích chọn, ma trận xoay sẽ hiển thị toàn bộ hệ số tải của mỗi biến quan sát ở từng nhân tố.
Trường hợp chỉ muốn ma trận xoay hiện lên những ô có hệ số tải từ 0.3, 0.4 hay 0.5 … trở lên, chúng ta sẽ tích vào Suppress small coefficients. Lúc này hàng Absolute value below sẽ sáng lên và cho phép nhập vào ngưỡng hệ số tải mà nếu hệ số tải dưới ngưỡng đó sẽ không hiển thị trong bảng ma trận xoay. Trong ví dụ thực hành này, để tiện cho việc theo dõi kết quả, tác giả muốn ma trận xoay chỉ hiển thị các ô có hệ số tải từ 0.4 trở lên nên sẽ nhập vào 0.4. Sau đó nhấp vào Continue để đóng cửa sổ.
Tại cửa sổ tiếp theo, chọn OK để xuất kết quả ra output.
Có khá nhiều bảng ở output, tất cả các bảng này đều đóng góp vào việc đánh giá kết quả phân tích EFA là tốt hay tệ. Tuy nhiên, ở đây tác giả tập trung vào ba bảng kết quả chính: KMO and Barlett’s Test, Total Variance Explained và Rotated Component Matrix, bởi sử dụng ba bảng này chúng ta đã có thể đánh giá được kết quả phân tích EFA phù hợp hay không phù hợp.
Kết quả lần EFA đầu tiên: KMO = 0.887 > 0.5, sig Bartlett’s Test = 0.000 < 0.05, như vậy phân tích nhân tố khám phá EFA là phù hợp. Có 6 nhân tố được trích với tiêu chí eigenvalue lớn hơn 1 với tổng phương sai tích lũy là 63.109%. Tác giả mong muốn chọn ra các biến quan sát chất lượng nên sẽ sử dụng ngưỡng hệ số tải là 0.5 thay vì chọn hệ số tải tương ứng theo cỡ mẫu. So sánh ngưỡng này với kết quả ở ma trận xoay, có hai biến xấu là DN4 và LD5 cần xem xét loại bỏ:
- Biến DN4 tải lên ở cả hai nhân tố là Component 4 và Component 6 với hệ số tải lần lượt là 0.612 và 0.530, mức chênh lệch hệ số tải bằng 0.612 – 0.530 = 0.082 < 0.2.
- Biến LD5 có hệ số tải ở tất cả các nhân tố đều nhỏ 0.5.
Tác giả sử dụng phương thức loại một lượt các biến xấu trong một lần phân tích EFA. Từ 28 biến quan sát ở lần phân tích EFA thứ nhất, loại bỏ DN4 và LD5 và đưa 26 biến quan sát còn lại vào phân tích EFA lần thứ hai.
Hệ số KMO = 0.879 > 0.5, sig Barlett’s Test = 0.000 < 0.05, như vậy phân tích nhân tố là phù hợp.
Có 6 nhân tố được trích dựa vào tiêu chí eigenvalue lớn hơn 1, như vậy 6 nhân tố này tóm tắt thông tin của 26 biến quan sát đưa vào EFA một cách tốt nhất. Tổng phương sai mà 6 nhân tố này trích được là 63.357% > 50%, như vậy, 6 nhân tố được trích giải thích được 63.357% biến thiên dữ liệu của 26 biến quan sát tham gia vào EFA.
Kết quả ma trận xoay cho thấy, 26 biến quan sát được phân thành 6 nhân tố, tất cả các biến quan sát đều có hệ số tải nhân tố Factor Loading lớn hơn 0.5 và không còn các biến xấu.
Như vậy, phân tích nhân tố khám phá EFA cho các biến độc lập được thực hiện hai lần. Lần thứ nhất, 28 biến quan sát được đưa vào phân tích, có 2 biến quan sát không đạt điều kiện là DN4 và LD5 được loại bỏ để thực hiện phân tích lại. Lần phân tích thứ hai (lần cuối cùng), 26 biến quan sát hội tụ và phân biệt thành 6 nhân tố.
b. Chạy EFA cho biến phụ thuộc
Thực hiện tương tự các bước như cách làm với biến độc lập. Thay vì đưa biến quan sát của các biến độc lập vào mục Variables, chúng ta sẽ đưa các biến quan sát của biến phụ thuộc vào. Cụ thể trong ví dụ này, biến phụ thuộc Sự hài lòng gồm 3 biến quan sát là HL1, HL2, HL3.
Kết quả output, chúng ta cũng sẽ có các bảng KMO and Barlett’s Test, Total Variance Explained, Rotated Component Matrix. Bảng KMO and Barlett’s Test giống hoàn toàn như biến độc lập, cách đọc kết quả cũng vậy.
Bảng Total Variance Explained khi chỉ có một nhân tố được trích sẽ hiển thị như bên dưới (không có cột Rotation Sums of Squared Loadings). Trường hợp nếu có từ hai nhân tố được trích, sẽ xuất hiện thêm cột Rotation Sums of Squared Loadings.
Kết quả phân tích cho thấy có một nhân tố được trích tại eigenvalue bằng 2.170 > 1. Nhân tố này giải thích được 72.339% biến thiên dữ liệu của 3 biến quan sát tham gia vào EFA.
Riêng bảng Rotated Component Matrix sẽ không xuất hiện mà thay vào đó là dòng thông báo: Only one component was extracted. The solution cannot be rotated.
Điều này xảy ra khi EFA chỉ trích được một nhân tố duy nhất từ các biến quan sát đưa vào. Dòng thông báo này tạm dịch là: Chỉ có một nhân tố được trích. Ma trận không thể xoay. Chúng ta luôn kỳ vọng đưa vào 1 biến phụ thuộc thì EFA cũng sẽ chỉ trích ra một nhân tố. Việc trích được chỉ một nhân tố là điều tốt, nghĩa là thang đo đó đảm bảo được tính đơn hướng, các biến quan sát của biến phụ thuộc hội tụ khá tốt. Lúc này, việc đọc kết quả sẽ dựa vào bảng ma trận chưa xoay Component Matrix thay vì bảng ma trận xoay Rotated Component Matrix.
4.5 Phân tích tương quan Pearson trên SPSS
Bước thứ năm trong quy trình phân tích dữ liệu SPSS, chúng ta thực hiện phân tích tương quan để đánh giá mối quan hệ giữa các biến trong mô hình. Tại giao diện SPSS, truy cập vào Analyze > Correlate > Bivariate…
Tại đây, chúng ta đưa hết tất cả các biến muốn chạy tương quan Pearson vào mục Variables. Để tiện cho việc đọc kết quả, chúng ta nên đưa biến phụ thuộc lên trên cùng. Trong ví dụ bên dưới biến phụ thuộc là F_HL, các biến còn lại là độc lập. Nhấp vào OK để xác nhận thực hiện lệnh.
Kết quả tương quan Pearson sẽ được thể hiện trong bảng Correlations. Điểm qua các ký hiệu trong bảng này: Pearson Correlation là hệ số tương quan Pearson (r), Sig. (2-tailed) là giá trị sig của kiểm định t đánh giá hệ số tương quan Pearson có ý nghĩa thống kê hay không, N là cỡ mẫu.
a. Tương quan giữa biến độc lập với biến phụ thuộc
Trong bảng kết quả bên trên là các giá trị sig được tô màu đỏ. Khi xây dựng mô hình nghiên cứu chúng ta đã tìm hiểu rất kỹ để tìm ra các biến độc lập có sự tác động lên biến phụ thuộc. Việc đưa ra các biến độc lập này dựa trên nền tảng cơ sở lý thuyết, các nghiên cứu tương tự trước đó và sự đánh giá tình hình thực tế tại môi trường khảo sát. Do đó, chúng ta kỳ vọng rằng kết quả phân tích từ dữ liệu sẽ cho thấy các biến độc lập có sự tương quan với biến phụ thuộc hoặc có sự tác động lên biến phụ thuộc. Nếu chúng ta thực hiện phân tích tương quan trước hồi quy, kết quả từ tương quan Pearson cho thấy biến độc lập có tương quan với biến phụ thuộc, khả năng biến độc lập đó sẽ tác động lên biến phụ thuộc ở hồi quy sẽ cao hơn.
Trong bảng kết quả ví dụ, sig kiểm định t tương quan Pearson các giữa sáu biến độc lập F_LD, F_DN, F_CV, F_TL, F_DT, F_DK với biến phụ thuộc F_HL đều nhỏ hơn 0.05. Như vậy, có mối liên hệ tuyến tính giữa các biến độc lập này với biến phụ thuộc.
Kỳ vọng: sig tương quan giữa độc lập với phụ thuộc nhỏ hơn 0.05 và hệ số tương quan càng cao càng tốt.
b. Tương quan giữa các biến độc lập với nhau
Trong bảng kết quả bên trên là các giá trị sig được tô màu xanh dương. Tên gọi “biến độc lập” phần nào nói lên được đặc điểm kỳ vọng của dạng biến này: chúng độc lập về ý nghĩa với nhau. Giữa hai biến độc lập nếu có sự tương quan quá mạnh, có khả năng hai biến này bản chất chỉ là một biến, một khái niệm. Hai biến độc lập không có tương quan (sig lớn hơn 0.05) thì gần như không có khả năng xảy ra cộng tuyến giữa hai biến này. Hai biến độc lập có tương quan (sig nhỏ hơn 0.05) và trị tuyệt đối hệ số tương quan lớn hơn 0.7 thì khả năng xảy ra cộng tuyến giữa chúng là tương đối cao (Carsten F. Dormann và các cộng sự, 2013).
Cần lưu ý, khi đánh giá đa cộng tuyến chúng ta nên kết hợp hệ số tương quan Pearson ở bước này cùng với chỉ số VIF trong phân tích hồi quy tuyến tính để có thể đưa ra đánh giá một cách chính xác nhất. Bạn xem cách đánh giá VIF tại bài viết Đa cộng tuyến: Nguyên nhân, dấu hiệu nhận biết và cách khắc phục.
Kỳ vọng: (1) sig tương quan giữa các biến độc lập lớn hơn 0.05 hoặc (2) sig nhỏ hơn 0.05 và hệ số tương quan sẽ càng thấp càng tốt (nên dưới 0.7).
4.6 Phân tích hồi quy tuyến tính bội trên SPSS
Bước thứ sáu trong quy trình xử lý dữ liệu SPSS và gần như là bước quan trọng nhất để kết luận mô hình, chúng ta sẽ thực hiện phân tích hồi quy tuyến tính bội để đánh giá sự tác động của các biến độc lập lên biến phụ thuộc.
Ở cửa sổ SPSS, chúng ta vào Analyze > Regression > Linear…
Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Independents.
Vào mục Statistics, tích chọn các mục như trong ảnh và chọn Continue.
Vào mục Plots, tích chọn vào Histogram và Normal probability plot, kéo biến ZRESID thả vào ô Y, kéo biến ZPRED thả vào ô X như hình bên dưới. Tiếp tục chọn Continue.
Các mục còn lại chúng ta sẽ để mặc định. Quay lại giao diện ban đầu, mục Method là các phương pháp đưa biến vào, tùy vào dạng nghiên cứu mà chúng ta sẽ chọn Enter hoặc Stepwise. Tính chất đề tài thực hành là nghiên cứu khẳng định, do vậy tác giả sẽ chọn phương pháp Enter đưa biến vào một lượt. Tiếp tục nhấp vào OK.
SPSS sẽ xuất ra rất nhiều bảng, chúng ta sẽ tập trung vào các bảng ANOVA, Model Summary, Coefficients và ba biểu đồ Histogram, Normal P-P Plot, Scatter Plot.
Bảng ANOVA cho chúng ta kết quả kiểm định F để đánh giá giả thuyết sự phù hợp của mô hình hồi quy. Giá trị sig kiểm định F bằng 0.000 < 0.05, do đó, mô hình hồi quy là phù hợp.
Khi chúng ta đưa thêm biến độc lập vào phân tích hồi quy, R2 có xu hướng tăng lên. Điều này dẫn đến một số trường hợp mức độ phù hợp của mô hình hồi quy bị thổi phồng khi chúng ta đưa vào các biến độc lập giải thích rất yếu hoặc không giải thích cho biến phụ thuộc. Trong SPSS, bên cạnh chỉ số R2, chúng ta còn có thêm chỉ số R2 Adjusted (R2 hiệu chỉnh). Chỉ số R2 hiệu chỉnh không nhất thiết tăng lên khi nhiều biến độc lập được thêm vào hồi quy, do đó R2 hiệu chỉnh phản ánh độ phù hợp của mô hình chính xác hơn hệ số R2.
R2 hay R2 hiệu chỉnh đều có mức dao động trong đoạn từ 0 đến 1. Nếu R2 càng tiến về 1, các biến độc lập giải thích càng nhiều cho biến phụ thuộc, và ngược lại, R2 càng tiến về 0, các biến độc lập giải thích càng ít cho biến phụ thuộc.
Trong ví dụ ở trên, bảng Coefficients cho chúng ta kết quả kiểm định t để đánh giá giả thuyết ý nghĩa hệ số hồi quy, chỉ số VIF đánh giá đa cộng tuyến và các hệ số hồi quy.
Biến F_DN có giá trị sig kiểm định t bằng 0.777 > 0.05 , do đó biến này không có ý nghĩa trong mô hình hồi quy, hay nói cách khác, biến này không có sự tác động lên biến phụ thuộc F_HL. Các biến còn lại gồm F_LD, F_CV, F_TL, F_DT, F_DK đều có sig kiểm định t nhỏ hơn 0.05, do đó các biến này đều có ý nghĩa thống kê, đều tác động lên biến phụ thuộc F_HL. Hệ số hồi quy các biến độc lập này đều mang dấu dương, như vậy các biến độc lập có tác động thuận chiều lên biến phụ thuộc.
Xem thêm: Giáo trình xử lý SPSS toàn tập có dữ liệu thực hành
Trên đây là quy trình các kiểm định cơ bản thường sử dụng trong xử lý số liệu trên phần mềm SPSS. Một số tính chất đề tài sẽ phát sinh thêm những loại kiểm định khác như kiểm định T-test, ANOVA, Chi bình phương, bảng kết hợp, phân tích phi tham số hoặc bổ sung thêm phân tích CFA trên AMOS sau bước EFA... Các bạn nên làm việc theo sự hướng dẫn, góp ý từ phía giảng viên hướng dẫn để đưa ra được một quy trình nghiên cứu phù hợp nhất.
Nếu các bạn gặp khó khăn trong quá trình xử lý dữ liệu trên SPSS, bạn không thành thạo về phần mềm này cũng như không có thời gian tìm hiểu, bạn có thể liên hệ qua dịch vụ phân tích SPSS của Phạm Lộc Blog để bên mình có thể hỗ trợ bạn một cách nhanh chóng, chính xác nhé.