Trong lĩnh vực phân tích dữ liệu, đặc biệt là khi thực hiện các nghiên cứu kinh tế học hay phân tích hành vi người tiêu dùng, có một nguyên tắc vàng mà bất kỳ nhà nghiên cứu nào cũng phải thuộc nằm lòng: “Garbage In, Garbage Out” (Rác vào thì Rác ra). Dù bạn có sử dụng một mô hình kinh tế lượng phức tạp đến đâu, chạy SPSS mượt mà thế nào, thì kết quả cũng sẽ hoàn toàn vô nghĩa nếu bộ dữ liệu đầu vào chứa đầy lỗi, thiếu sót hoặc nhiễu loạn.
Bài viết này sẽ cung cấp cho bạn một hướng dẫn toàn tập, chi tiết từ A đến Z về quy trình làm sạch dữ liệu (Data Cleaning) trên SPSS. Chúng ta sẽ tập trung giải quyết triệt để hai “nỗi đau” lớn nhất của dân nghiên cứu: Missing Data (Dữ liệu bị thiếu) và Outliers (Giá trị ngoại lai).
Nội dung bài viết
Phần 1: Tại Sao Việc Làm Sạch Dữ Liệu Lại Quan Trọng Đến Vậy?
Làm sạch dữ liệu không đơn thuần là việc xóa đi những dòng trống. Đây là một quá trình rà soát, đánh giá và điều chỉnh bộ số liệu nhằm tối ưu hóa chất lượng thông tin trước khi đưa vào các thuật toán phân tích. Việc này mang lại những lợi ích cốt lõi:
- Đảm bảo tính đại diện và độ tin cậy: Xóa bỏ các quan sát từ những người khảo sát không nghiêm túc (ví dụ: đánh toàn số 3 cho tất cả các câu hỏi Likert) giúp mẫu nghiên cứu phản ánh đúng thực tế.
- Đáp ứng các giả định thống kê nghiêm ngặt: Hầu hết các kiểm định tham số trong SPSS (như T-test, ANOVA, Hồi quy tuyến tính OLS) đều yêu cầu dữ liệu có phân phối chuẩn và không bị bóp méo bởi các giá trị cực đoan.
- Bảo vệ độ chính xác của các hệ số hồi quy: Chỉ một vài giá trị ngoại lai (outliers) có thể kéo lệch giá trị trung bình (Mean) và làm sai lệch hoàn toàn hướng tác động của một biến số trong mô hình.

Phần 2: Xử Lý Dữ Liệu Bị Thiếu (Missing Data) Toàn Tập
Dữ liệu bị thiếu xảy ra khi người tham gia khảo sát bỏ trống một số câu hỏi, do lỗi hệ thống khi trích xuất dữ liệu, hoặc do thiết kế bảng hỏi có lỗi logic. Nếu không được xử lý đúng cách, Missing Data sẽ làm giảm kích thước mẫu và gây sai lệch (bias) cho kết quả ước lượng.
2.1. Phân loại Missing Data về mặt bản chất
Trước khi vội vàng ấn “Delete” bất kỳ dòng dữ liệu nào, bạn cần hiểu nguyên nhân tại sao dữ liệu đó lại bị thiếu. Theo lý thuyết thống kê, có 3 loại cơ bản:
- MCAR (Missing Completely at Random – Thiếu hoàn toàn ngẫu nhiên): Việc dữ liệu bị thiếu không phụ thuộc vào bất kỳ biến số nào khác, kể cả biến bị thiếu. Ví dụ: Người dùng vô tình làm rớt tờ khảo sát, hoặc hệ thống bị lỗi mạng lưu sót dữ liệu.
- MAR (Missing at Random – Thiếu ngẫu nhiên): Việc thiếu dữ liệu có thể được giải thích hoặc dự đoán bởi các biến quan sát được khác trong bộ dữ liệu. Ví dụ: Nam giới thường có xu hướng bỏ qua câu hỏi về tần suất mua sắm mỹ phẩm hơn nữ giới.
- MNAR (Missing Not at Random – Thiếu không ngẫu nhiên): Đây là trường hợp phức tạp nhất. Việc thiếu dữ liệu liên quan trực tiếp đến giá trị của chính biến đó. Ví dụ điển hình trong nghiên cứu kinh tế: Những người có thu nhập quá cao hoặc quá thấp thường có xu hướng từ chối trả lời câu hỏi “Thu nhập trung bình hàng tháng của bạn là bao nhiêu?”.
2.2. Cách phát hiện Missing Data trong SPSS
Đừng tìm dữ liệu thiếu bằng mắt thường trên Data View. SPSS cung cấp các công cụ đắc lực để bạn quét toàn bộ bộ số liệu:
- Sử dụng Frequencies:
- Vào
Analyze>Descriptive Statistics>Frequencies. - Đưa tất cả các biến vào khung
Variables. - Bấm
OK. - Đọc kết quả: Trong bảng Statistics đầu tiên, hãy nhìn vào hàng Missing. Biến nào có giá trị lớn hơn 0 tức là biến đó đang có dữ liệu bị khuyết.
- Vào
- Sử dụng công cụ Missing Value Analysis (Chuyên sâu):
- Vào
Analyze>Missing Value Analysis. - Công cụ này giúp bạn đánh giá xem dữ liệu bị thiếu có phải là MCAR hay không (thông qua kiểm định Little’s MCAR test), từ đó quyết định phương pháp xử lý phù hợp.
- Vào
2.3. Các phương pháp xử lý Missing Data hiệu quả
Tùy thuộc vào tỷ lệ dữ liệu bị thiếu (quy tắc ngón tay cái là dưới 5% thì ít đáng lo ngại) và loại Missing Data, bạn có thể chọn một trong các cách sau:
Phương pháp 1: Xóa bỏ dữ liệu (Deletion Methods)
Đây là phương pháp phổ biến và dễ thực hiện nhất nếu mẫu của bạn đủ lớn.
- Listwise Deletion (Xóa theo danh sách): SPSS sẽ tự động loại bỏ hoàn toàn một đáp viên (một dòng / case) ra khỏi TẤT CẢ các phân tích nếu đáp viên đó thiếu dữ liệu ở bất kỳ biến nào đang được đưa vào mô hình. (Cách này tốt nếu thiếu ngẫu nhiên MCAR, nhưng gây lãng phí dữ liệu).
- Pairwise Deletion (Xóa theo cặp): SPSS chỉ loại bỏ đáp viên trong phép tính thống kê cụ thể mà biến đó bị thiếu. Đáp viên vẫn được giữ lại cho các phép tính khác không liên quan đến biến bị thiếu đó.
Phương pháp 2: Thay thế dữ liệu (Imputation Methods)
Nếu bộ dữ liệu của bạn quá nhỏ (ví dụ mẫu chỉ khoảng 150 – 200) và việc xóa đi sẽ làm ảnh hưởng đến tính đại diện, bạn cần dùng thuật toán để “điền bù” vào chỗ trống.
- Thay thế bằng giá trị trung bình (Mean Substitution):
- Cách làm: Vào
Transform>Replace Missing Values. Đưa biến bị thiếu vào và chọnSeries mean. - Lưu ý: Phương pháp này làm giảm phương sai tự nhiên của dữ liệu. Chỉ nên dùng nếu biến bị thiếu dưới 5%.
- Cách làm: Vào
- Thay thế bằng trung vị (Median Substitution): Tương tự như Mean, nhưng dùng số trung vị. Rất hữu ích đối với dữ liệu thứ bậc (Ordinal Data) như thang đo Likert.
- Hồi quy thay thế (Regression Imputation): SPSS sẽ dùng các biến có sẵn để chạy phương trình hồi quy và dự đoán ra giá trị của biến bị thiếu.
- Multiple Imputation (Thay thế đa luồng): Đây là kỹ thuật tiên tiến và chuẩn mực nhất hiện nay cho nghiên cứu học thuật. SPSS sẽ tạo ra nhiều bộ dữ liệu (thường là 5), điền các giá trị thiếu bằng thuật toán, sau đó gộp kết quả lại để đưa ra một ước lượng chính xác nhất. Vào
Analyze>Multiple Imputation>Impute Missing Data Values.

Phần 3: Nhận Diện Và Xử Lý Outliers (Giá Trị Ngoại Lai)
Outliers là những giá trị khác biệt một cách bất thường so với phần lớn các quan sát còn lại trong tập dữ liệu. Ví dụ: Trong một nhóm sinh viên có độ tuổi từ 18-22, bỗng nhiên xuất hiện một sinh viên khai báo 99 tuổi.
3.1. Outliers từ đâu mà ra?
- Lỗi Data Entry (Lỗi nhập liệu): Do người gõ phím bấm nhầm (ví dụ: tuổi 20 nhập thành 200).
- Lỗi đo lường: Máy móc thiết bị ghi nhận sai.
- Outliers thực sự (True Outliers): Giá trị hoàn toàn có thật nhưng thuộc nhóm cực đoan. Ví dụ: Khảo sát thu nhập của người dân, vô tình có một tỷ phú lọt vào mẫu nghiên cứu.
3.2. Cách phát hiện Outliers trong SPSS
Có hai loại giá trị ngoại lai cần quan tâm: Ngoại lai đơn biến (Univariate Outliers) và Ngoại lai đa biến (Multivariate Outliers).
A. Phát hiện Outliers Đơn Biến
Cách 1: Sử dụng Boxplot (Biểu đồ hộp)
Trực quan và dễ nhìn nhất.
- Vào
Analyze>Descriptive Statistics>Explore. - Đưa biến định lượng cần kiểm tra vào ô
Dependent List. - Vào
Plots, tích chọnBoxplots(Factor levels together). - Nhấp
OK.Cách đọc: Trên biểu đồ Boxplot, những chấm tròn (O) nằm ngoài râu của hộp là những Outliers nhẹ. Những dấu sao (*) là các giá trị cực đoan (Extreme Outliers) cần phải can thiệp ngay.
Cách 2: Sử dụng điểm chuẩn Z-score
Z-score cho biết một giá trị cách giá trị trung bình bao nhiêu độ lệch chuẩn.
Công thức:
$$Z = \frac{X – \mu}{\sigma}$$
- Vào
Analyze>Descriptive Statistics>Descriptives. - Đưa biến vào
Variables. - Đặc biệt: Tích chọn ô “Save standardized values as variables” ở góc dưới cùng bên trái. Bấm OK.
- SPSS sẽ tạo ra một cột mới trong Data View có tiền tố “Z” (ví dụ ZTuoi).Nguyên tắc xử lý: Bất kỳ giá trị nào có $|Z| > 3$ (hoặc $> 3.29$ trong mẫu lớn) đều được coi là Outlier.
B. Phát hiện Outliers Đa Biến bằng Khoảng cách Mahalanobis (Mahalanobis Distance)
Trong mô hình hồi quy đa biến, một quan sát có thể không ngoại lai ở từng biến riêng lẻ, nhưng khi kết hợp các biến lại thì nó lại trở nên dị biệt.
- Vào
Analyze>Regression>Linear. - Đưa biến phụ thuộc và các biến độc lập vào đúng vị trí.
- Click vào nút
Save..., trong mục Distances, chọn Mahalanobis. Bấm Continue > OK. - SPSS sẽ tính ra một biến mới tên là
MAH_1. - Để kiểm tra, bạn cần so sánh giá trị MAH_1 này với phân phối Chi-bình phương ($X^2$) với số bậc tự do (df) bằng số biến độc lập. Thường những case có mức ý nghĩa $p < 0.001$ trong kiểm định Mahalanobis sẽ bị coi là Outlier đa biến và cần loại bỏ khỏi mô hình hồi quy.
3.3. Xử lý Outliers như thế nào cho khoa học?
Sẽ không có câu trả lời duy nhất. Quyết định phụ thuộc vào lý do sinh ra Outliers:
- Nếu do lỗi nhập liệu: Sửa lại cho đúng. Nếu không thể tra cứu lại bản gốc, hãy xử lý nó như Missing Data.
- Xóa bỏ (Trim/Delete): Nếu Outlier thực sự là một đối tượng không thuộc nhóm dân số mục tiêu của nghiên cứu, bạn có quyền xóa toàn bộ dòng dữ liệu của đáp viên đó.
- Winsorizing (Biến đổi giới hạn): Thay vì xóa, bạn “kéo” giá trị cực đoan đó về một giá trị tối đa/tối thiểu được chấp nhận. Ví dụ: Bất kỳ ai có thu nhập trên 100 triệu/tháng sẽ được ghi nhận chung là 100 triệu/tháng (nhóm phân vị thứ 99).
- Chuyển đổi dữ liệu (Data Transformation): Nếu biến của bạn có phân phối bị lệch nặng do outliers, hãy áp dụng phép biến đổi Logarit cơ số 10 (Log10) hoặc lấy căn bậc 2 (Square Root). Việc này sẽ làm “co” các đuôi phân phối lại, giảm tác động của giá trị cực đoan. Thực hiện qua lệnh
Transform>Compute Variable.
Phần 4: Các Bước Làm Sạch Bổ Sung Cần Lưu Ý
Ngoài hai “trùm cuối” là Missing Data và Outliers, bạn đừng quên các bước dọn dẹp cơ bản sau:
4.1. Kiểm tra tính Logic của dữ liệu (Logic Checks)
Hãy lọc ra những đáp viên trả lời phi logic. Ví dụ: Khai báo là Nam nhưng lại trả lời phần câu hỏi dành riêng cho người dùng băng vệ sinh. Hoặc tuổi bằng 15 nhưng lại khai báo số năm kinh nghiệm làm việc là 10 năm. Việc rà soát này có thể dùng lệnh Data > Select Cases.
4.2. Xóa các quan sát Unengaged Responses (Thiếu cam kết)
Đây là hiện tượng người khảo sát đánh bừa (straight-lining), chọn 3-3-3-3-3 cho toàn bộ ma trận câu hỏi, hoặc xếp hạng theo đường chéo 1-2-3-4-5 một cách máy móc. Hãy sử dụng lệnh tính độ lệch chuẩn (Standard Deviation) cho từng cá nhân trên các biến quan sát. Nếu SD = 0, tức là họ chỉ đánh đúng 1 mức điểm, cần phải loại bỏ ngay để tránh làm nhiễu mô hình đo lường.
4.3. Mã hóa ngược (Reverse Coding)
Nhiều thang đo được thiết kế có các câu hỏi ngược (Reverse-coded items) để bẫy sự tập trung của người trả lời. Trước khi chạy phân tích độ tin cậy Cronbach’s Alpha hay EFA, bạn BẮT BUỘC phải đảo ngược điểm số của các câu này.
- Cách thực hiện: Vào
Transform>Recode into Same Variables(hoặcDifferent Variables). Nếu thang điểm 1-5, bạn sẽ đổi 1->5, 2->4, 3->3, 4->2, 5->1.
Phần 5: Kết Luận
Làm sạch dữ liệu là một quá trình tốn thời gian và đôi khi là nhàm chán nhất trong toàn bộ chuỗi phân tích định lượng. Bạn có thể mất đến 60-70% thời gian của dự án nghiên cứu chỉ để “dọn dẹp” file Excel/SPSS của mình.
Tuy nhiên, một bộ dữ liệu sạch chính là nền móng vững chắc cho bất kỳ bài luận văn, báo cáo nghiên cứu hay luận án nào. Việc xử lý khéo léo Missing Data và Outliers không chỉ bảo vệ tính toàn vẹn của dữ liệu mà còn thể hiện tư duy thống kê chặt chẽ của nhà nghiên cứu. Hãy đảm bảo bạn luôn lưu trữ lại file Data gốc (Raw Data) trước khi thực hiện bất kỳ thao tác xóa/sửa nào để có thể đối chiếu khi cần thiết. Chúc các bạn có những mô hình SPSS chạy ra chỉ số đẹp như mơ!
Nếu bạn vẫn còn lăn tăn về các vấn đề như APA, tạo bảng hỏi chuẩn Google Forms thì có thể tham khảo các bài viết trên trang nhé!