결정계수
📋 문서 버전
이 문서는 9개의 버전이 있습니다. 현재 버전 2을 보고 있습니다.
결정계수
개요
결정계수(決定係數, 영어: Coefficient of Determination)는 회귀분석에서 독립변수(설명변수)가 종속변수(반응변수)의 변동성을 얼마나 잘 설명하는지를 나타내는 통계량이다. 일반적으로 R²(R-squared)로 표기되며, 그 값은 0에서 1 사이의 실수로 표현된다. 결정계수는 회귀 모형의 적합도(Goodness-of-fit)를 평가하는 데 널리 사용되며, 모형이 관측 데이터를 얼마나 잘 설명하는지를 수치적으로 보여준다.
예를 들어, R² 값이 0.85라면, 종속변수의 변동 중 약 85%가 모형에 포함된 독립변수들에 의해 설명된다는 의미이다. 이 값이 높을수록 모형의 설명력이 뛰어나다고 평가할 수 있지만, 무조건 높은 R²가 항상 좋은 모형을 의미하는 것은 아니며, 과적합(overfitting) 등의 문제를 유발할 수 있으므로 주의가 필요하다.
수학적 정의
결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Explained Sum of Squares, ESS), 잔차제곱합(Residual Sum of Squares, RSS)의 관계를 기반으로 정의된다.
-
총제곱합 (TSS): 관측값의 평균으로부터의 편차 제곱합
[ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ] -
회귀제곱합 (ESS): 예측값과 평균값의 차이 제곱합
[ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ] -
잔차제곱합 (RSS): 관측값과 예측값의 차이 제곱합
[ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]
이 세 가지 요소 사이에는 다음의 관계가 성립한다: [ \text{TSS} = \text{ESS} + \text{RSS} ]
결정계수는 다음 식으로 계산된다: [ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} ]
이 식은 "모형이 설명하는 변동의 비율"을 나타낸다.
해석과 의미
R²의 범위와 해석
- R² = 1: 모형이 종속변수의 모든 변동을 완벽하게 설명함 (잔차 없음)
- R² = 0: 모형이 종속변수의 변동을 전혀 설명하지 못함 (모형의 예측력 없음)
- R² < 0: 모형의 예측이 평균보다 더 나쁨 (예: 잘못된 모형 설정 또는 제약 조건이 있을 때 발생 가능)
✅ 참고: R²는 음수가 될 수 있지만, 일반적인 최소제곱법(OLS)에서는 0 이상이다. 그러나 교차검증이나 특정 모형에서는 음수 값이 나올 수 있으며, 이는 모형이 무작위 추측보다 성능이 낮음을 의미한다.
결정계수의 장점과 한계
장점
- 직관적 해석 가능: "X%의 변동을 설명한다"는 표현은 비전문가도 이해하기 쉬움.
- 모형 비교 용이: 동일한 종속변수에 대해 여러 모형을 비교할 때 유용.
- 표준화된 척도: 단위에 영향을 받지 않으며, 절대적인 비교가 가능.
한계
- 항상 증가하는 성향: 독립변수를 추가할수록 R²는 감소하지 않고 항상 같거나 증가함 → 과적합 유발 가능성.
- 인과관계를 의미하지 않음: 높은 R²가 독립변수와 종속변수 사이에 인과관계가 있음을 보장하지 않음.
- 비선형 관계에서 오해 가능: 선형 회귀에 기반하므로 비선형 구조를 잘 포착하지 못할 수 있음.
수정된 결정계수 (Adjusted R²)
다중회귀분석에서 독립변수를 무분별하게 추가하면 R²가 인위적으로 증가하는 문제가 발생한다. 이를 보완하기 위해 제안된 지표가 수정된 결정계수(Adjusted R²)이다.
[ \bar{R}^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]
여기서: - ( n ): 관측치의 수 - ( k ): 독립변수의 수
수정된 R²는 변수 추가 시 정보 이득이 충분하지 않으면 오히려 감소할 수 있으므로, 모형 선택 시 더 신뢰할 수 있는 기준이 된다.
활용 사례
- 경제학: 소비지출이 소득, 이자율 등에 의해 얼마나 설명되는지 분석.
- 의학: 환자의 혈압이 나이, 체중, 운동량 등으로 설명되는 정도 평가.
- 기계학습: 선형 회귀 모형의 성능 평가 지표로 사용 (보조 지표로 활용).
관련 개념
| 개념 | 설명 |
|---|---|
| 상관계수 | 두 변수 간 선형 관계의 강도와 방향을 나타냄. 단순회귀에서 R²는 상관계수의 제곱과 같음. |
| RMSE (Root Mean Square Error) | 예측 오차의 크기를 절대적 수치로 나타냄. R²와 함께 사용하면 보완적. |
| AIC/BIC | 모형 적합도와 복잡성의 균형을 평가하는 정보 기준. |
참고 자료
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
- Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models. McGraw-Hill.
- Khan Academy - R-squared intuition
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.