Mở đầu
Bài viết giúp những ai gặp khó khăn trong việc hiểu ý nghĩa của hệ số R2 trong phân tích hồi quy tuyến tính (linear regression).
Giá trị R2 càng cao là một dấu hiệu cho thấy mối liên hệ giữa biến độc lập và biến phụ thuộc càng chặt chẽ.
Giá trị R2 càng cao cho thấy mô hình sử dụng để phân tích có khả năng giải thích càng tốt khác biệt về biến phụ thuộc giữa các quan sát.
Ví dụ
Để dễ hiểu, ta có thể xem xét một ví dụ cụ thể:
Giả sử cần phân tích mối quan hệ giữa biến y là nồng độ cholesterol trong máu và biến x là độ tuổi.
- Đầu tiên, ta thu thập số liệu của y và x thông qua khảo sát một nhóm người. Ta số liệu thu thập được:
|
Người
|
Cholesterol
|
Độ tuổi
|
|
1
|
3.5
|
46
|
|
2
|
1.9
|
20
|
|
...
|
...
|
...
|
|
30
|
4.0
|
50
|
- Tiếp theo ta chạy số liệu theo một mô hình có dạng: y = a + bx trong một phần mềm thống kê (SPSS, Eviews, Stata...)
- Ta có kết quả của hệ số a và b. Dấu và giá trị của b sẽ nói lên biến x có tác động thế nào đến biến y.
- Một hệ số quan trọng nữa cần lưu ý là R2 hay còn được biết đến với nhiều tên gọi như: R squared / R bình phương / coefficient of determination / hệ số xác định bội / goodness of fit statistics
- R2 có giá trị từ 0 đến 1
- Giả sử: R2 có giá trị là 0.88. Điều này có nghĩa là: Mô hình y = a + bx nói trên giải thích khoảng 88% các khác biệt về nồng độ cholesterol giữa các cá nhân. Giá trị R2 càng cao là một dấu hiệu cho thấy mối liên hệ giữa biến độ tuổi và biến nồng độ cholesterol càng chặt chẽ.
Mở rộng
Brooks (2008) viết về R2 như sau:
It is desirable to have some measure of how well the regression model actually fits the data. In other words, it is desirable to have an answer to the question, ‘how well does the model containing the explanatory variables that was proposed actually explain variations in the dependent variable?’ Quantities known as goodness of fit statistics are available to test how well the sample regression function (SRF) fits the data -- that is, how ‘close’ the fitted regression line is to all of the data points taken together.
Note that it is not possible to say how well the sample regression function fits the population regression function -- i.e. how the estimated model compares with the true relationship between the variables, since the latter is never known.
Brooks, C. (2008) Introductory Econometrics for Finance, 2nd edition, Cambridge: Cambridge University Press