R2 và R2 hiệu chỉnh, ý nghĩa và sự khác biệt

 

1. Định nghĩa

1.1. R2 (Hệ số xác định)

Định nghĩa: R2 thể hiện tỷ lệ phần trăm của tổng phương sai của biến phụ thuộc (biến đầu ra) được giải thích bởi các biến độc lập (biến đầu vào) trong mô hình. Giá trị của R2 dao động từ 0 đến 1 (hoặc từ 0% đến 100%).

Công thức tính R2 như sau:


Trong đó, SSresidual là tổng bình phương phần dư và SStotal là tổng bình phương tổng thể.

Ý nghĩa: R2 càng cao, mô hình càng có khả năng giải thích sự biến động của biến phụ thuộc. Tuy nhiên, chỉ số này không tính đến số lượng biến độc lập trong mô hình. Do đó, có thể dẫn đến việc đánh giá quá cao mức độ phù hợp của mô hình khi thêm nhiều biến vào.

1.2. R2 hiệu chỉnh (Adjusted R2)

Định nghĩa: R2 hiệu chỉnh là phiên bản điều chỉnh của R2, được tính toán thêm yếu tố số lượng biến độc lập và kích thước mẫu để tránh việc mô hình trở nên quá phức tạp (overfitting) khi thêm nhiều biến độc lập.

Công thức tính R2 hiệu chỉnh như sau:


Trong đó:

                 • n là số lượng quan sát (kích thước mẫu),

                 • k là số lượng biến độc lập.

Ý nghĩa: R2 hiệu chỉnh thường thấp hơn R2, đặc biệt khi số lượng biến độc lập tăng lên. Nó chỉ tăng khi biến độc lập mới thực sự có ý nghĩa trong việc giải thích biến phụ thuộc.

2. Sự khác biệt giữa R2 và R2 hiệu chỉnh

Tác động của biến số và kích thước mẫu: R2 hiệu chỉnh xem xét số lượng biến độc lập và kích thước mẫu, trong khi R2 thì không. Do đó, R2 hiệu chỉnh cung cấp đánh giá chính xác hơn về mức độ phù hợp của mô hình, đặc biệt khi so sánh các mô hình với số lượng biến độc lập khác nhau.

Tăng trưởng giá trị: Khi thêm biến độc lập vào mô hình, R2 thường tăng bất kể biến đó có thực sự cải thiện mô hình hay không. Ngược lại, R2 hiệu chỉnh chỉ tăng nếu biến mới thực sự hữu ích.

Tóm lại, khi so sánh các mô hình, đặc biệt là khi số lượng biến độc lập khác nhau, R2 hiệu chỉnh thường được ưa chuộng hơn vì nó cung cấp cái nhìn thực tế hơn về khả năng dự báo của mô hình.

3. Tài liệu tham khảo

Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied linear statistical models. McGraw-hill.

0971202308