R2 và R2 hiệu chỉnh, ý
nghĩa và sự khác biệt
1. Định nghĩa
1.1. R2 (Hệ số xác định)
Định nghĩa: R2 thể hiện tỷ lệ phần
trăm của tổng phương sai của biến phụ thuộc (biến đầu ra) được giải thích bởi
các biến độc lập (biến đầu vào) trong mô hình. Giá trị của R2 dao động từ 0 đến
1 (hoặc từ 0% đến 100%).
Công thức tính R2 như sau:
Trong đó, SSresidual
là tổng bình phương phần dư và SStotal là tổng bình phương tổng
thể.
Ý nghĩa: R2 càng cao, mô hình
càng có khả năng giải thích sự biến động của biến phụ thuộc. Tuy nhiên, chỉ số
này không tính đến số lượng biến độc lập trong mô hình. Do đó, có thể dẫn đến
việc đánh giá quá cao mức độ phù hợp của mô hình khi thêm nhiều biến vào.
1.2. R2 hiệu chỉnh
(Adjusted R2)
Định nghĩa: R2 hiệu chỉnh là
phiên bản điều chỉnh của R2, được tính toán thêm yếu tố số lượng biến độc lập
và kích thước mẫu để tránh việc mô hình trở nên quá phức tạp (overfitting) khi
thêm nhiều biến độc lập.
Công thức tính R2 hiệu chỉnh như sau:
• n là số lượng quan sát (kích thước mẫu),
• k là số lượng biến độc lập.
Ý nghĩa: R2 hiệu chỉnh thường
thấp hơn R2, đặc biệt khi số lượng biến độc lập tăng lên. Nó chỉ tăng khi biến
độc lập mới thực sự có ý nghĩa trong việc giải thích biến phụ thuộc.
2. Sự khác biệt giữa
R2 và R2 hiệu chỉnh
Tác động của biến số
và kích thước mẫu: R2 hiệu chỉnh xem xét số lượng biến độc lập và kích thước mẫu, trong khi
R2 thì không. Do đó, R2 hiệu chỉnh cung cấp đánh giá chính xác hơn về mức độ
phù hợp của mô hình, đặc biệt khi so sánh các mô hình với số lượng biến độc lập
khác nhau.
Tăng trưởng giá trị: Khi thêm biến độc lập
vào mô hình, R2 thường tăng bất kể biến đó có thực sự cải thiện mô hình hay
không. Ngược lại, R2 hiệu chỉnh chỉ tăng nếu biến mới thực sự hữu ích.
Tóm lại, khi so sánh
các mô hình, đặc biệt là khi số lượng biến độc lập khác nhau, R2 hiệu chỉnh thường
được ưa chuộng hơn vì nó cung cấp cái nhìn thực tế hơn về khả năng dự báo của
mô hình.
3. Tài liệu tham khảo
Kutner, M. H.,
Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied linear
statistical models. McGraw-hill.