Cách phân biệt EFA, PEARSON và hồi quy tuyến tính chuẩn nhất

Nội dung bài viết

1 Phần 1: Bức Tranh Tổng Thể – “Tam Giác Vàng” Trong Nghiên Cứu Định Lượng
2 Phần 2: Phân Tích Nhân Tố Khám Phá (EFA – Exploratory Factor Analysis)
3 Phần 3: Phân Tích Tương Quan Pearson (Pearson Correlation)
4 Phần 4: Phân Tích Hồi Quy Tuyến Tính (Linear Regression)
5 Phần 5: Lời Kết

Phần 1: Bức Tranh Tổng Thể – “Tam Giác Vàng” Trong Nghiên Cứu Định Lượng

Trước khi đi vào phân biệt chi tiết, bạn cần phải hiểu rõ vị trí của 3 công cụ này trong toàn bộ quy trình phân tích số liệu. Chúng không đứng độc lập mà là một chuỗi logic liên hoàn, bước trước là tiền đề bắt buộc cho bước sau. Giống như việc bạn xây một ngôi nhà, bạn không thể lợp mái (Hồi quy) nếu chưa xây móng (EFA) và dựng cột (Tương quan). Chính vì vậy, việc nắm rõ cách phân biệt EFA Pearson và hồi quy là bước sống còn để bài nghiên cứu định lượng của bạn đi đúng hướng và không bị hội đồng gạch bỏ.

Quy trình phân tích dữ liệu chuẩn trên SPSS bao gồm 5 bước theo đúng thứ tự sau:

Thống kê mô tả (Descriptive Statistics): Vẽ chân dung người tham gia khảo sát (Giới tính, độ tuổi, thu nhập…).
Kiểm định độ tin cậy Cronbach’s Alpha: Loại bỏ những câu hỏi (biến quan sát) rác, không nhất quán.
Phân tích Nhân tố Khám phá (EFA): Nhóm các câu hỏi lại với nhau thành các nhân tố đại diện, thu gọn mô hình. (Bước này đóng vai trò tinh lọc dữ liệu).
Phân tích Tương quan Pearson: Kiểm tra xem các nhân tố vừa gộp được có “liên quan” gì đến nhau không. Đặc biệt là tìm kiếm dấu hiệu của Đa cộng tuyến. (Bước này đóng vai trò cảnh báo).
Phân tích Hồi quy Tuyến tính (Linear Regression): Chạy mô hình cuối cùng để xem xét yếu tố nào thực sự tác động (nhân – quả) và tác động mạnh hay yếu đến kết quả. (Bước này đóng vai trò kết luận).

Như vậy, EFA -> Pearson -> Hồi quy là con đường một chiều. Bạn bắt buộc phải thông qua EFA trót lọt mới được chạy Pearson, và Pearson phải thỏa mãn thì mới được chạy Hồi quy. Để có dữ liệu sạch chạy EFA, trước đó bạn phải có một bảng hỏi chuẩn mực. Xem lại ngay [Cách thiết kế bảng hỏi khảo sát Google Form chuẩn NCKH] để không thu về dữ liệu rác.”

phân biệt efa pearson và hồi quy — *Nắm vững bức tranh tổng thể trong nghiên cứu định lượng*

Phần 2: Phân Tích Nhân Tố Khám Phá (EFA – Exploratory Factor Analysis)

2.1. Bản chất của EFA là gì?

EFA là kỹ thuật “Rút gọn dữ liệu” (Data Reduction).

Hãy tưởng tượng bạn có một giỏ trái cây khổng lồ lộn xộn gồm táo, cam, chuối, lê, quýt. Thay vì cầm từng quả lên để phân tích, EFA giúp bạn gom tất cả táo và lê vào một rổ gọi là “Nhân tố Táo Lê”, gom cam và quýt vào một rổ gọi là “Nhân tố Cam Quýt”.

Trong NCKH, bạn có thể thiết kế một bảng hỏi gồm 30 câu hỏi (biến quan sát). Nếu đưa cả 30 câu này vào chạy mô hình ngay, thuật toán sẽ bị nhiễu loạn. EFA sẽ tự động tìm kiếm những câu hỏi có ý nghĩa tương đồng nhau và gom chúng lại thành 5 hoặc 6 “Nhóm” (Nhân tố / Factor) đại diện. EFA là linh hồn của [Nghiên cứu định lượng], nơi mọi khái niệm phải được lượng hóa bằng con số cụ thể chứ không dừng lại ở cảm tính.

2.2. Mục đích chính của EFA

Thu gọn biến số: Chuyển từ hàng chục câu hỏi lẻ tẻ thành một vài biến đại diện.
Kiểm tra tính giá trị hội tụ (Convergent Validity): Xem các câu hỏi đo lường cùng một khái niệm có thực sự gom chung vào một nhóm hay không.
Kiểm tra tính giá trị phân biệt (Discriminant Validity): Xem các câu hỏi thuộc khái niệm này có bị lẫn lộn, chạy sang “nhà” của nhóm khái niệm khác hay không.

2.3. Đường dẫn thao tác trong SPSS

Để chạy EFA, bạn vào: Analyze > Dimension Reduction > Factor...

2.4. Các chỉ số cốt lõi cần đọc trong EFA và Tiêu chuẩn “Pass”

Khi SPSS xuất ra hàng loạt bảng, bạn chỉ cần tập trung vào 4 bảng quan trọng nhất này (những bảng khác có thể lờ đi):

A. Bảng KMO and Bartlett’s Test:

Hệ số KMO (Kaiser-Meyer-Olkin): Đây là chỉ số xem xét sự thích hợp của việc chạy EFA. KMO phải nằm trong khoảng 0.5 <= KMO <= 1. Nếu KMO < 0.5, dữ liệu của bạn không phù hợp để chạy EFA (số lượng mẫu có thể quá ít). Đẹp nhất là KMO > 0.7.
Kiểm định Bartlett (Bartlett’s Test of Sphericity): Kiểm tra xem các biến quan sát trong tổng thể có tương quan với nhau hay không. Yêu cầu giá trị Sig. (p-value) phải < 0.05.

B. Bảng Total Variance Explained (Tổng phương sai trích):

Bảng này cho biết các nhân tố bạn vừa gom lại giải thích được bao nhiêu phần trăm sự biến thiên của dữ liệu ban đầu.
Chỉ số Eigenvalue: Nhân tố nào có Eigenvalue > 1 mới được giữ lại. Các nhân tố có Eigenvalue < 1 sẽ bị loại vì mức độ đại diện thông tin của nó còn thua cả một biến quan sát đơn lẻ.
Cumulative % (Phương sai trích cộng dồn): Phải > 50%. Ví dụ nó báo 65%, nghĩa là các nhân tố rút gọn này đại diện được 65% thông tin của toàn bộ 30 câu hỏi ban đầu. (Nếu < 50%, bạn đã làm mất quá nhiều thông tin khi gom nhóm).

C. Bảng Rotated Component Matrix (Ma trận nhân tố xoay):

Đây là bảng quan trọng nhất để xem câu nào rơi vào rổ nào.
Hệ số tải nhân tố (Factor Loading): Thể hiện mức độ gắn kết của câu hỏi với nhóm đó. Yêu cầu Factor Loading phải >= 0.5. Nếu có câu hỏi nào hệ số tải < 0.5, bạn phải xóa câu đó đi và chạy lại EFA từ đầu.
Hiện tượng Tải chéo (Cross-loading): Một câu hỏi xuất hiện hệ số tải ở cả 2 cột (ví dụ cột 1 là 0.55, cột 2 là 0.52). Theo quy tắc, nếu chênh lệch giữa hai hệ số tải này < 0.3, câu hỏi đó bị coi là “nước đôi”, không rõ ràng, và bạn cũng phải thẳng tay loại bỏ nó.

2.5. Lỗi thường gặp và cách khắc phục

Lỗi phổ biến nhất của sinh viên là Biến quan sát nhảy lung tung. Ví dụ: Câu hỏi số 3 của biến Lương thưởng lại nhảy sang nằm chung cột với biến Cơ hội thăng tiến.

Giải pháp: Bạn phải kiểm tra lại nội dung câu hỏi đó. Nếu nó thực sự mang ý nghĩa của cả 2 biến, bạn buộc phải loại bỏ nó khỏi mô hình để đảm bảo tính phân biệt, sau đó chạy lại lệnh EFA cho đến khi các biến gom nhóm “sạch sẽ”.

Phần 3: Phân Tích Tương Quan Pearson (Pearson Correlation)

3.1. Bản chất của Tương quan Pearson là gì?

Nếu EFA giúp bạn gom nhóm, thì Phân tích tương quan Pearson giúp bạn trả lời câu hỏi: “Hai nhóm này có đi cùng nhau hay không?”.

Nó đo lường mức độ liên hệ tuyến tính giữa hai biến số. Sự tương quan này được đánh giá qua 2 khía cạnh:

Chiều hướng: Tương quan thuận (A tăng thì B tăng) hay Tương quan nghịch (A tăng thì B giảm).
Độ mạnh yếu: Mức độ gắn kết chặt chẽ đến đâu.

Lưu ý cực kỳ quan trọng: Tương quan KHÔNG đồng nghĩa với Nhân quả. Ví dụ: Bạn thấy doanh số bán kem tăng và tỷ lệ người chết đuối cũng tăng (tương quan thuận). Nhưng bán kem không gây ra chết đuối. Thực chất do mùa hè nóng nực (biến ẩn) làm người ta ăn kem nhiều và cũng đi bơi nhiều. Pearson chỉ chỉ ra rằng chúng “cùng biến động”, chứ không khẳng định ai sinh ra ai.

3.2. Mục đích chính của Pearson

Xem xét liệu các biến độc lập (Nguyên nhân) có thực sự có mối liên hệ với biến phụ thuộc (Kết quả) để đủ điều kiện đưa vào mô hình hồi quy hay không.
Cảnh báo sớm hiện tượng Đa cộng tuyến (Multicollinearity) – căn bệnh ung thư của hồi quy.

3.3. Đường dẫn thao tác trong SPSS

Để chạy Pearson, bạn vào: Analyze > Correlate > Bivariate...

3.4. Cách đọc bảng Correlations và Tiêu chuẩn “Pass”

Bảng này là một ma trận đối xứng. Bạn cần nhìn vào giao điểm giữa các hàng và cột để đọc kết quả của từng cặp biến.

A. Mức ý nghĩa Sig. (2-tailed):

Yêu cầu đầu tiên là giá trị Sig. phải < 0.05 (đôi khi cho phép < 0.1 tùy nghiên cứu). Nếu Sig. < 0.05, ta kết luận: Có tồn tại mối tương quan có ý nghĩa thống kê giữa hai biến này. Nếu Sig. > 0.05, hai biến này hoàn toàn chẳng liên quan gì đến nhau trong thực tế.
SPSS có một tính năng rất thân thiện là tự động đánh dấu sao * hoặc ** bên cạnh hệ số Pearson nếu Sig. đạt chuẩn. Bạn cứ thấy có dấu sao là thở phào nhẹ nhõm.

B. Hệ số tương quan Pearson (r):

Hệ số này dao động trong khoảng từ -1 đến 1.

Dấu của r: Nếu r > 0 là tương quan thuận. Nếu r < 0 là tương quan nghịch. r = 0 là không tương quan.
Độ lớn của r:
- Từ 0.1 đến 0.3: Tương quan yếu.
- Từ 0.3 đến 0.5: Tương quan trung bình.
- Từ 0.5 đến 1.0: Tương quan mạnh.

3.5. Bẫy tử thần: Đa cộng tuyến phát hiện qua Pearson

Khi chạy Pearson, sinh viên thường chỉ mải mê nhìn tương quan giữa Biến độc lập và Biến phụ thuộc. Tuy nhiên, bạn BẮT BUỘC phải nhìn vào tương quan giữa các Biến độc lập với nhau.

Nếu hai biến độc lập (ví dụ X1 và X2) có hệ số Pearson r > 0.8, đây là một cờ đỏ cảnh báo hiện tượng Đa cộng tuyến. Tức là X1 và X2 quá giống nhau, giống như “hai anh em sinh đôi” cùng làm một nhiệm vụ. Khi đưa cả hai vào mô hình hồi quy, chúng sẽ triệt tiêu nhau và làm méo mó kết quả đo lường. Nếu phát hiện r > 0.8, bạn nên cân nhắc gộp 2 biến này lại làm một hoặc mạnh dạn loại bỏ 1 trong 2 biến trước khi chạy hồi quy.

Phần 4: Phân Tích Hồi Quy Tuyến Tính (Linear Regression)

4.1. Bản chất của Hồi quy tuyến tính là gì?

Đây là đích đến cuối cùng của hầu hết mọi luận văn định lượng. Trong khi Pearson chỉ cho biết hai biến “đi dạo cùng nhau”, thì Hồi quy (Regression) khẳng định sự Nhân – Quả và Mức độ tác động.

Nó giúp bạn xây dựng một phương trình toán học mô tả cách mà các biến độc lập (X1, X2, X3…) tạo ra biến phụ thuộc (Y).

Phương trình hồi quy tuyến tính bội có dạng (khi sử dụng hệ số chưa chuẩn hóa):

Y = beta0 + beta1.X1 + beta2.X2 + … + betan.Xn + epsilon

Trong đó:

Y: Biến phụ thuộc (Ví dụ: Quyết định mua hàng).
X: Các biến độc lập (Ví dụ: Giá cả, Thương hiệu, Khuyến mãi).
beta0: Hằng số (Tung độ gốc).
beta: Hệ số hồi quy (Mức độ tác động).
epsilon: Sai số.

4.2. Mục đích chính của Hồi quy

Kiểm định giả thuyết nghiên cứu: Khẳng định xem giả thuyết H1 (Giá cả tác động đến Quyết định mua) là đúng hay sai.
Đo lường mức độ tác động: Trả lời câu hỏi: Yếu tố nào tác động mạnh nhất? Yếu tố nào tác động yếu nhất? Để từ đó đưa ra hàm ý quản trị (kiến nghị) chính xác.
Dự báo tương lai: Nếu công ty tăng chi phí Khuyến mãi lên 1 đơn vị thì Quyết định mua sẽ tăng lên bao nhiêu phần trăm?

4.3. Đường dẫn thao tác trong SPSS

Để chạy Hồi quy, bạn vào: Analyze > Regression > Linear...

Bạn đưa biến Phụ thuộc vào ô Dependent, và tất cả các biến Độc lập vào ô Independent(s). Đừng quên tick vào ô Collinearity diagnostics trong phần Statistics để kiểm tra đa cộng tuyến lần cuối.

4.4. Cách đọc 3 bảng Thần thánh trong Hồi quy

A. Bảng Model Summary (Đánh giá độ phù hợp của mô hình):

Bạn chỉ cần quan tâm đến cột Adjusted R Square (R^2 hiệu chỉnh).
Ý nghĩa: Nó cho biết các biến độc lập mà bạn đưa vào giải thích được bao nhiêu % sự thay đổi của biến phụ thuộc.
Tiêu chuẩn: R^2 hiệu chỉnh phải nằm trong khoảng từ 0 đến 1. Thông thường, mô hình tốt trong nhóm ngành Kinh tế/Xã hội nên có R^2 > 0.5 (50%). Nếu R^2 = 0.65, bạn tự hào tuyên bố: “Các biến độc lập trong mô hình giải thích được 65% sự biến thiên của biến phụ thuộc; 35% còn lại là do các yếu tố bên ngoài mô hình chưa được nghiên cứu”.

B. Bảng ANOVA (Kiểm định độ phù hợp tổng thể):

Bảng này kiểm định xem cái phương trình R^2 kia có thực sự có ý nghĩa trong tổng thể hay không, hay chỉ là do ăn may trên mẫu dữ liệu hiện tại.
Bạn nhìn vào cột Sig. trong bảng ANOVA. Nếu Sig. < 0.05, mô hình hồi quy của bạn hoàn toàn phù hợp với dữ liệu tổng thể và có thể dùng để suy rộng ra ngoài. Nếu Sig. > 0.05, mô hình thất bại, bạn không thể sử dụng kết quả này.

C. Bảng Coefficients (Bảng Hệ số hồi quy – Bảng “Phán quyết”):

Đây là bảng quan trọng nhất để trả lời các giả thuyết bài luận văn.

Cột Sig.: Kiểm tra từng biến độc lập. Biến nào có Sig. < 0.05 thì biến đó CÓ tác động đến biến phụ thuộc (Chấp nhận giả thuyết). Biến nào Sig. > 0.05, tức là nó vô dụng trong mô hình này, bạn phải kết luận là KHÔNG có tác động (Bác bỏ giả thuyết).
Cột Standardized Coefficients (Hệ số chuẩn hóa Beta – beta): Dùng để so sánh độ mạnh yếu. Bạn KHÔNG được dùng cột chưa chuẩn hóa (Unstandardized B) để so sánh vì các biến có đơn vị đo khác nhau. Hãy nhìn vào giá trị Beta, biến nào có trị tuyệt đối của Beta lớn nhất thì biến đó tác động mạnh nhất. Dấu dương (+) thể hiện tác động thuận, dấu âm (-) thể hiện tác động nghịch.
Cột Collinearity Statistics (VIF – Hệ số phóng đại phương sai): Đây là chốt chặn cuối cùng kiểm tra Đa cộng tuyến. Yêu cầu bắt buộc VIF < 2 (một số tài liệu nới lỏng cho phép VIF < 10). Nếu VIF > 2, biến đó đang bị bệnh đa cộng tuyến nặng, bạn phải loại biến đó ra và chạy lại hồi quy.

Phần 5: Lời Kết

Hành trình chinh phục SPSS chưa bao giờ là dễ dàng, đặc biệt là khi bạn phải đối mặt với áp lực thời gian của kỳ bảo vệ khóa luận. Việc hiểu sâu và phân biệt EFA Pearson và hồi quy không chỉ giúp bạn thao tác đúng trên phần mềm SPSS, mà còn tạo ra sự tự tin tuyệt đối khi đứng trước những câu hỏi phản biện.

Hãy nhớ nguyên tắc bất di bất dịch: EFA để lọc dữ liệu, Pearson để tìm sự liên hệ đồng hành, và Hồi quy để chốt hạ chân lý nhân quả. Dữ liệu là tiếng nói của thực tiễn, và bạn – với tư cách là một nhà nghiên cứu khoa học – chính là người “phiên dịch” những con số vô tri vô giác đó thành những giải pháp hữu ích cho xã hội. Chúc các bạn có một bộ dữ liệu thật “đẹp” và một điểm số thật cao!

Or check our Popular Categories...

PHÂN BIỆT EFA, TƯƠNG QUAN PEARSON VÀ HỒI QUY TUYẾN TÍNH TỪ A-Z

Phần 1: Bức Tranh Tổng Thể – “Tam Giác Vàng” Trong Nghiên Cứu Định Lượng