결정계수
📋 문서 버전
이 문서는 9개의 버전이 있습니다. 현재 버전 3을 보고 있습니다.
결정계수
개요
결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석의 적합도를 평가하는 대표적인 지표로, R²(R-squared)라고도 불린다. 결정계수는 종속변수의 변동성 중 독립변수(또는 설명변수)에 의해 설명될 수 있는 비율을 나타내며, 0에서 1 사이의 값을 가진다. 이 값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미하며, 0에 가까울수록 설명력이 낮다는 것을 나타낸다.
결정계수는 단순 선형회귀뿐만 아니라 다중회귀분석에서도 널리 사용되며, 모델 선택 및 변수 중요도 평가에 중요한 역할을 한다.
정의와 수식
결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Explained Sum of Squares, ESS), 그리고 잔차제곱합(Residual Sum of Squares, RSS)을 기반으로 정의된다.
주요 제곱합 정의
-
총제곱합(TSS): 관측값과 종속변수의 평균 간의 편차 제곱의 합
[ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ] -
회귀제곱합(ESS): 예측값과 종속변수의 평균 간의 편차 제곱의 합
[ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ] -
잔차제곱합(RSS): 관측값과 예측값 간의 잔차 제곱의 합
[ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]
이때, 다음의 관계가 성립한다: [ \text{TSS} = \text{ESS} + \text{RSS} ]
결정계수 수식
결정계수 ( R^2 )는 다음과 같이 정의된다: [ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} ]
이 수식은 "전체 변동 중 회귀모델이 설명하는 변동의 비율"을 나타낸다.
해석과 의미
결정계수의 해석은 다음과 같다:
| ( R^2 ) 값 | 해석 |
|---|---|
| 1 | 모델이 종속변수의 모든 변동을 완벽하게 설명함 |
| 0.8 이상 | 높은 설명력을 가짐 (강한 적합도) |
| 0.5 ~ 0.8 | 보통 수준의 설명력 |
| 0.3 ~ 0.5 | 낮은 설명력 |
| 0 이하 | 모델이 평균보다 더 나쁘게 예측함 (과적합 또는 잘못된 모델) |
주의사항
- ( R^2 = 0 )은 독립변수가 종속변수를 전혀 설명하지 못함을 의미한다.
- ( R^2 )가 높다고 해서 반드시 모델이 우수하다는 의미는 아니다. 과적합(overfitting)일 수 있으며, 변수가 많아질수록 ( R^2 )는 인위적으로 증가할 수 있다.
조정 결정계수 (Adjusted R²)
다중회귀분석에서 설명변수의 수가 증가하면 ( R^2 )는 항상 증가하는 경향이 있다. 이 문제를 보완하기 위해 도입된 지표가 조정 결정계수(Adjusted R²)이다.
[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]
여기서: - ( n ): 표본 크기 - ( k ): 독립변수의 개수
조정 결정계수는 변수 추가 시 모델 성능 향상이 실질적인 경우에만 증가하므로, 모델 비교에 더 적합하다.
활용 사례
- 경제학: 소비와 소득 간의 관계를 설명하는 회귀모델의 적합도 평가
- 의학 연구: 약물 복용량과 치료 효과 간의 상관관계 분석
- 기계학습: 선형회귀 모델의 성능 지표로 활용 (보조 지표)
- 마케팅: 광고비 지출이 매출에 미치는 영향 분석
한계와 주의점
- 인과관계를 의미하지 않음: 높은 ( R^2 )는 상관관계를 나타낼 뿐, 인과관계를 보장하지 않는다.
- 비선형 관계 무시 가능: ( R^2 )는 선형 관계에 기반하므로, 비선형 관계가 존재해도 낮은 값을 가질 수 있다.
- 이상치에 민감: 극단적인 값이 TSS와 RSS에 큰 영향을 미쳐 ( R^2 ) 왜곡 가능
- 단일 지표로 해석 제한: 반드시 다른 지표(예: RMSE, AIC, BIC)와 함께 사용해야 함
관련 개념
- 상관계수(r): 단순 선형회귀에서 ( R^2 )는 상관계수의 제곱과 같다. ( R^2 = r^2 )
- 잔차 분석: 결정계수와 함께 잔차의 정규성, 등분산성 등을 확인해야 모델 타당성 평가 가능
- F-검정: 전체 회귀모델의 유의성을 검정할 때 사용되며, ( R^2 )와 밀접한 관련 있음
참고 자료
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
- 한국통계학회 (2020). 기초통계학. 박영사.
✅ 요약: 결정계수는 회귀모델의 설명력을 수치화한 핵심 지표로, 0에서 1 사이의 값을 가지며, 조정 결정계수와 함께 사용하여 보다 정확한 모델 평가가 가능하다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.