Hồi quy đa biến là một phương pháp thống kê mạnh mẽ được sử dụng để khám phá mối quan hệ giữa một biến phụ thuộc và nhiều biến độc lập. Phương pháp này không chỉ giúp xác định các yếu tố ảnh hưởng mà còn cho phép dự đoán giá trị của biến phụ thuộc dựa trên các biến độc lập. Trong bài viết này, chúng ta sẽ đi sâu vào lý thuyết hồi quy đa biến, các tiêu chí quan trọng trong phân tích hồi quy, và cách thực hiện phân tích hồi quy đa biến trên phần mềm SPSS.
1. Lý thuyết về hồi quy đa biến
Khác với tương quan Pearson, trong hồi quy các biến không có tính chất đối xứng như phân tích tương quan. Vai trò giữa biến độc lập và biến phụ thuộc là khác nhau. X và Y hay Y và X có tương quan với nhau đều mang cùng một ý nghĩa, trong khi đó với hồi quy, ta chỉ có thể nhận xét: X tác động lên Y hoặc Y chịu tác động bởi X.
Đối với phân tích hồi quy tuyến tính bội, chúng ta giả định các biến độc lập X1, X2, X3 sẽ tác động đến biến phụ thuộc Y. Ngoài X1, X2, X3… còn có rất nhiều những nhân tố khác ngoài mô hình hồi quy tác động đến Y mà chúng ta không liệt kê được.
2. Kiểm tra các giả định hồi quy
Kiểm tra các giả định hồi quy là một bước quan trọng trong phân tích hồi quy nhằm đảm bảo mô hình phân tích đưa ra các kết quả chính xác và đáng tin cậy. Các giả định phổ biến bao gồm: phân phối chuẩn của phần dư, liên hệ tuyến tính giữa biến phụ thuộc và các biến độc lập, cũng như tính đồng nhất phương sai. Dưới đây là các biều đồ thường được sử dụng trong quá trình kiểm tra các giả định hồi quy.
Biều đồ histogram: giả định phân phối chuẩn của phần dư
Biểu đồ histogram giúp kiểm tra giả định phân phối chuẩn của phần dư, một trong những điều kiện quan trọng để đảm bảo rằng các phần dư được phân phối theo quy luật chuẩn (normal distribution). Nếu các phần dư (residuals) không tuân theo phân phối chuẩn, kết quả hồi quy có thể bị sai lệch, ảnh hưởng đến tính chính xác của các ước lượng mô hình.
Khi vẽ biểu đồ histogram, trục hoành biểu diễn giá trị phần dư và trục tung biểu diễn tần suất xuất hiện của các phần dư. Đường cong chuẩn lý tưởng sẽ có hình dáng như hình chuông, đối xứng quanh giá trị trung bình bằng 0. Nếu biểu đồ histogram cho thấy các phần dư phân phối lệch về một phía, thì mô hình hồi quy có thể vi phạm giả định này, đòi hỏi các biện pháp xử lý như biến đổi biến hoặc loại bỏ các giá trị ngoại lệ (outliers).
Biều đồ Normal P-P Plot of Regression Standardized Residual: giả định phân phối chuẩn của phần dư
Biểu đồ Normal P-P Plot (Probability-Probability Plot) là một công cụ khác để kiểm tra phân phối chuẩn của phần dư trong mô hình hồi quy. Trên biểu đồ P-P Plot, các điểm dữ liệu biểu diễn giá trị phân vị (percentile) của phần dư thực tế so với giá trị phân vị của phân phối chuẩn lý tưởng. Nếu phần dư tuân theo phân phối chuẩn, các điểm sẽ nằm trên đường chéo (đường chuẩn). Ngược lại, nếu các điểm lệch nhiều khỏi đường chéo, điều này chỉ ra rằng phần dư có thể không tuân theo phân phối chuẩn, vi phạm giả định hồi quy.
Biểu đồ P-P Plot mang tính chất trực quan cao, giúp nhà nghiên cứu nhận diện các xu hướng sai lệch trong phân phối phần dư, từ đó đưa ra các điều chỉnh thích hợp cho mô hình phân tích.
Biều đồ Scatterplot: giả định liên hệ tuyến tính
Giả định về tính tuyến tính giữa biến phụ thuộc và các biến độc lập là một trong những điều kiện cơ bản để mô hình hồi quy tuyến tính đưa ra kết quả chính xác. Biểu đồ scatterplot giúp kiểm tra mối quan hệ này bằng cách biểu diễn giá trị phần dư chuẩn hóa (standardized residuals) so với các giá trị dự đoán (predicted values). Trên biểu đồ scatterplot, các điểm dữ liệu được kỳ vọng sẽ phân bố ngẫu nhiên quanh trục hoành, không tạo thành mô hình hay cấu trúc cụ thể.
Nếu biểu đồ scatterplot cho thấy một xu hướng phi tuyến tính (ví dụ: dạng cong hoặc bậc thang), điều này cho thấy mô hình hồi quy tuyến tính không phù hợp và có thể cần điều chỉnh bằng cách sử dụng mô hình hồi quy phi tuyến tính hoặc biến đổi dữ liệu để đạt được tính tuyến tính. Scatterplot cũng giúp phát hiện các giá trị ngoại lệ, làm tăng tính hiệu quả của mô hình.
Kiểm tra tự tương quan giữa các phần dư
Tự tương quan giữa các phần dư xảy ra khi các phần dư trong mô hình hồi quy không độc lập với nhau. Điều này vi phạm một trong những giả định cơ bản của hồi quy tuyến tính, là các phần dư phải độc lập. Nếu tự tương quan tồn tại, các ước lượng trong mô hình sẽ không còn hiệu quả, và kết quả phân tích sẽ thiếu độ tin cậy.
Phương pháp Durbin-Watson (D-W test) là một trong những công cụ phổ biến để kiểm tra tự tương quan. Giá trị thống kê Durbin-Watson dao động từ 0 đến 4:
- Giá trị gần 2: Không có tự tương quan.
- Giá trị gần 0: Tồn tại tự tương quan dương, nghĩa là phần dư có xu hướng nối tiếp nhau.
- Giá trị gần 4: Tồn tại tự tương quan âm, tức là phần dư có sự luân phiên giữa các dấu dương và âm.
Trong thực tiễn, nếu giá trị Durbin-Watson nằm trong khoảng từ 1.0 đến 3.0, thì mô hình có thể được coi là không có tự tương quan đáng kể. Nếu giá trị vượt ngoài khoảng này, cần xem xét lại mô hình hồi quy hoặc sử dụng các phương pháp khác để điều chỉnh, chẳng hạn như mô hình hồi quy chuỗi thời gian hoặc hồi quy phi tuyến tính.
Kiểm tra hiện tượng đa cộng tuyến
Đa cộng tuyến là tình trạng các biến độc lập trong mô hình hồi quy có mối quan hệ chặt chẽ với nhau, dẫn đến việc khó ước lượng chính xác ảnh hưởng riêng lẻ của từng biến lên biến phụ thuộc. Điều này có thể làm sai lệch các kết quả phân tích và gây ra hiện tượng hệ số hồi quy không ổn định.
Để kiểm tra đa cộng tuyến, chỉ số Variance Inflation Factor (VIF) được sử dụng. VIF đo lường mức độ mà một biến độc lập có thể dự đoán được bởi các biến độc lập khác trong mô hình. Công thức tính VIF là:
Trong đó R2 là hệ số xác định từ việc hồi quy biến độc lập đó với các biến độc lập khác trong mô hình.
Ý nghĩa của VIF:
- VIF = 1: Không có đa cộng tuyến.
- VIF từ 1 đến 5: Đa cộng tuyến mức độ thấp, có thể chấp nhận được.
- VIF > 5: Đa cộng tuyến ở mức độ cao, cần xử lý.
- VIF > 10: Đa cộng tuyến nghiêm trọng, mô hình cần được điều chỉnh.
Khi phát hiện đa cộng tuyến, một số phương pháp xử lý bao gồm: loại bỏ các biến độc lập có tương quan cao, kết hợp các biến độc lập liên quan lại thành một biến tổng hợp, hoặc sử dụng các kỹ thuật hồi quy phi truyền thống như hồi quy Ridge (Ridge Regression) hoặc hồi quy Principal Component Analysis (PCA).
3. Đọc kết quả hồi quy đa biến
Bảng Model summary
Bảng model summary trình bày kết quả tóm tắt của mô hình hồi quy về độ phù hợp của mô hình (R2 và R2 điều chỉnh), sai số của ước lượng và giá trị d của kiểm định Durbin – Watson.
Cột R-square cho biết giá trị R2. R2 đo tỉ lệ thay đổi trong biến phụ thuộc được giải thích bởi sự thay đổi của các biến độc lập.
Cột Adjusted R-square cho biết giá trị R2 hiệu chỉnh. R2 hiệu chỉnh đo lường tỉ lệ phương sai trong biến phụ thuộc được giải thích bởi sự thay đổi của các biến độc lập trong mô hình.
Cột Std Error of Estimate cho biết sai số chuẩn của ước lượng. Sai số chuẩn của ước lượng đo lường mức độ phân tán của các hệ số ước lượng của biến phụ thuộc quanh giá trị trung bình. So sánh nó với giá trị trung bình dự đoán (Predicted) của biến phụ thuộc. Nếu tỉ lệ này lớn hơn 10% thì được xem là phân tán cao.
Ngoài ra, cột Durbin-Watson cho biến giá trị thống kê d của kiểm định Durbin – Watson.
Bảng ANOVA
Bảng ANOVA tóm tắt các kết quả về độ phù hợp của mô hình nghiên cứu
Hệ số ý nghĩa (sig.) trong bảng sẽ cho thấy mô hình có giải thích được sự thay đổi của biến phụ thuộc hay không. Thông thường, nếu mức ý nghĩa này lớn hơn 0.05 chúng ta có thể kết luận mô hình nghiên cứu không phù hợp với dữ liệu thu thập.
Cột F trong bảng ANOVA so sánh giá trị kiểm định F trong mô hình hồi quy tuyến tính đa biến với mô hình null chỉ bao gồm hệ số cắt (α). Hay nói cách khác, F sẽ kiểm định giả thuyết cho rằng tất cả các hệ số ước lượng của các biến giải thích đều bằng 0 (beta1 = beta 2 = beta3 = …=0). Nếu F không có ý nghĩa thống kê thì chúng ta không thể nói mô hình hồi quy tuyến tính đa biến là tốt hơn so với mô hình null.
Cột Sum of square cho biết tổng bình phương (TSS) các sai số của mô hình hồi quy tuyến tính đa biến. TSS chính là tổng thay đổi trong biến phụ thuộc. Ta có TSS = ESS + RSS, trong đó: ESS: tổng bình phương thay đổi của biến phụ thuộc được giải thích bởi mô hình và RSS: tổng bình phương của phần dư. Khả năng giải thích của mô hình R2 chính là tỉ số ESS/TSS hay là phần thay đổi được giải thích bởi mô hình trên tổng thay đổi.
Coefficients
Bảng Coefficients cung cấp các hệ số hồi quy, giá trị t và p-value tương ứng. Các hệ số hồi quy cho biết mức độ ảnh hưởng của từng biến độc lập lên biến phụ thuộc.
Bảng này chứa các hệ số hồi quy (Beta), giá trị t và Sig., là một phần quan trọng trong việc đánh giá mức độ ảnh hưởng của các biến độc lập đến biến phụ thuộc:
- Unstandardized Coefficients (B): Đây là các hệ số hồi quy không chuẩn hóa, cho biết sự thay đổi của biến phụ thuộc khi biến độc lập thay đổi một đơn vị.
- Standardized Coefficients (Beta): Giúp so sánh mức độ ảnh hưởng tương đối của các biến độc lập. Biến nào có Beta lớn hơn sẽ ảnh hưởng mạnh hơn đến biến phụ thuộc.
- Nếu Sig. < 0.05, biến độc lập có ảnh hưởng đáng kể đến biến phụ thuộc.
4. Hướng dẫn phân tích hồi quy đa biến trên SPSS
Để chạy hồi quy đa biến: vào menu Analyze->Regression-> Linear.
Chọn nhân tố độc lập và phụ thuộc vào các ô bên phải. Cụ thể bài ví dụ này có 6 nhân tố độc lập Điều kiện làm việc (ĐK), Thu nhập phúc lợi (TNPL), Đào tạo phát triển (ĐTPT), Đặc điểm công việc (CV), Quản lý cấp trên (QL) và Đồng nghiệp (ĐN) sẽ được đưa vào ô Independent(s) và 1 nhân tố phụ thuộc Động lực làm việc (ĐL) sẽ được đưa vào ô Dependent. ( đưa vào ô bằng cách bấm chọn biến và ấn nút mũi tên)
Sau đó bấm vào Statistics chọn Collinearity diagnostics ( để tính ra hệ số VIF – hệ số phóng đại phương sai- để đánh giá hiện tượng đa cộng tuyến) và chọn Durbin-watson dùng để kiểm tra khuyết tật của mô hình hồi quy về hiện tượng tự tương quan giữa các phần dư .Sau đó bấm OK, bạn sẽ được một bảng kết quả.
Vào mục Plots, tích chọn vào Histogram và Normal probability plot, kéo biến ZRESID thả vào ô Y, kéo biến ZPRED thả vào ô X như hình bên dưới. Tiếp tục chọn Continue
Các mục còn lại để mặc định. Trở lại giao diện ban đầu, mục Method chúng ta sẽ chọn Enter hoặc Stepwise. Tính chất đề tài thực hành là nghiên cứu khẳng định, do vậy chúng ta sẽ chọn phương pháp Enter. Tiếp tục nhấp vào OK.
Đọc kết quả phân tích hồi quy đa biến trong SPSS
Kết quả chạy hồ quy đa biến trong SPSS sẽ xuất ra nhiều bảng, chúng ta sẽ tập trung vào các bảng ANOVA, Model Summary, Coefficients và ba biểu đồ Histogram, Normal P-P Plot, Scatter Plot.Dựa vào ý nghĩa chỉ số trong hồi quy ở phần trước, chúng ta sẽ tiến hành đọc kết quả hồi quy đa biến trong SPSS lần lượt trong các bảng:
Bảng Model Summary
- Ý nghĩa: R2 điều chỉnh = 0.706. Hệ số này cho biết khoảng 70.6% sự biến thiên của biến phụ thuộc (Động lực làm việc – ĐL) được giải thích bởi các biến độc lập (Điều kiện làm việc – ĐK, Thu nhập phúc lợi – TNPL, Đào tạo phát triển – ĐTPT, Đặc điểm công việc – CV, Quản lý cấp trên – QL, Đồng nghiệp – ĐN).
- Giá trị cao(0.706) cho thấy mô hình có độ phù hợp tốt, tức là các biến độc lập có khả năng giải thích khá cao đối với biến phụ thuộc.
Bảng ANOVA
Với giá trị F = 68.557, đây là một con số khá cao, cho thấy mô hình hồi quy phù hợp và có khả năng giải thích mối quan hệ giữa các biến độc lập và biến phụ thuộc. Với giá trị Sig. = 0.000, mô hình hồi quy của bạn có ý nghĩa thống kê rất cao (vì giá trị p nhỏ hơn 0.05). Điều này có nghĩa là các biến độc lập có ảnh hưởng đáng kể đến biến phụ thuộc.
Mô hình hồi quy với các biến độc lập (ĐK, TNPL, ĐTPT, CV, QL, ĐN) có ý nghĩa thống kê và giải thích được mối quan hệ với biến phụ thuộc (Động lực làm việc – ĐL), với F-statistic cao và p-value rất nhỏ (0.000).
Bảng Coefficients
Kết quả hồi quy cho thấy các biến độc lập Điều kiện làm việc (ĐK), Thu nhập phúc lợi (TNPL), Đào tạo phát triển (ĐTPT), Đặc điểm công việc (CV), Quản lý cấp trên (QL) đều có Sig. nhỏ hơn 0.05 nên các biến đều có ý nghĩa ở độ tin cậy 95%. Vì vậy ở độ tin cậy 95% các biến độc lập trên đều ảnh hưởng đến biến phụ thuộc (động lực làm việc của nhân viên – ĐL). Riêng biến Đồng nghiệp (ĐN) có giá trị sig. = 0.525 > 0.05 nên biến này không có tác động có ý nghĩa thống kê đến động lực làm việc của nhân viên.
Các biến tác động có hệ số beta > 0 nên có tác động cùng chiều với biến động lực làm việc
So sánh hệ số beta chuẩn hóa, thứ tự tác động của các biến lên Động lực làm việc theo thứ tự giảm dần gồm: Thu nhập phúc lợi (TNPL) (beta = 0.342, sig. < 5%), Quản lý cấp trên (QL) (beta = 0.293, sig. < 5%), Đào tạo phát triển (ĐTPT) (beta = 0.229, sig. < 5%), Điều kiện làm việc (ĐK) (beta = 0.198, sig. < 5%) và cuối cùng là biến Đặc điểm công việc (CV) (beta = 0.180, sig. < 5%).
Đánh giá giả định hồi quy đa biến qua 3 biểu đồ
Biểu đồ tần số phần dư chuẩn hóa Histogram
Xem xét tần số của phần dư chuẩn hóa, phân phối phần dư xấp xỉ chuẩn Std.Dev = 0.982 tức gần bằng 1. Do đó có thể kết luận rằng giả thuyết phân phối chuẩn không bị vi phạm.
Biểu đồ P-Plot cho thấy rằng các biến quan sát không phân tán quá xa đường thẳng kỳ vọng nên có thể khẳng định rằng giả thuyết phân phối chuẩn không bị vi phạm.
Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính
Biểu đồ trên hiển thị mối quan hệ giữa Residuals chuẩn hóa (trục hoành) và Giá trị dự đoán chuẩn hóa (trục tung). Đây là một bước quan trọng để kiểm tra giả định về tính tuyến tính trong mô hình hồi quy.
Các điểm dữ liệu phân bố khá đều và không tạo thành mô hình cong hoặc phi tuyến tính rõ ràng. Điều này cho thấy không có dấu hiệu vi phạm nghiêm trọng giả định tuyến tính.
Biểu đồ Scatter Plot cho thấy mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc được đảm bảo trong mô hình hồi quy. Phân bố đồng đều của residuals gợi ý rằng mô hình hồi quy này đáp ứng giả định về tính tuyến tính và đồng nhất phương sai.
Giả định về tính độc lập của sai số
Đại lượng thống kê Durbin-Waston (d) dùng để kiểm định tương quan của các sai số kề nhau (tương quan chuỗi bậc nhất) với nguyên tắc kinh nghiệm:
– Nếu 1 < d < 3: Mô hình không có tự tương quan.
– Nếu 0 < d < 1: Mô hình có tự tương quan dương.
– Nếu 3 < d < 4: Mô hình có tự tương quan âm.
Durbin-Watson: 1.732. Với giá trị 1.732, mô hình không có hiện tượng tự tương quan đáng kể, tức là các phần dư độc lập với nhau, đây là một dấu hiệu tốt cho mô hình hồi quy.