결정계수
📋 문서 버전
이 문서는 9개의 버전이 있습니다. 현재 버전 1을 보고 있습니다.
결정계수
개요
결정계수(決定, Coefficient of Determination)는 회귀분석에서 모형의 적합도(fit)를 평가하는 대표적인 지표로, R²(아르제곱)이라고도 불린다. 결정계수는 종속변수의 변동성 중 몇 퍼센트가 독립변수(들)에 의해 설명되는지를 나타내는 값으로, 회귀 모형이 데이터를 얼마나 잘 설명하는지를 수치적으로 평가할 수 있게 해준다.
결정계수는 일반적으로 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 모형의 설명력이 높다고 판단할 수 있다. 예를 들어, 결정계수가 0.85라면 종속변수의 변동성 중 85%가 모형에 의해 설명된다는 의미이다.
정의와 수식
결정계수 $ R^2 $는 다음과 같은 공식으로 정의된다:
$$ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} $$
여기서:
- $ SS_{\text{res}} $: 잔차제곱합 (Sum of Squares of Residuals)
$$
SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$
관측값 $ y_i $와 회귀모형이 예측한 값 $ \hat{y}_i $의 차이(잔차)를 제곱하여 합한 값이다.
- $ SS_{\text{tot}} $: 총제곱합 (Total Sum of Squares)
$$ SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$ 관측값 $ y_i $와 종속변수의 평균 $ \bar{y} $의 차이를 제곱하여 합한 값으로, 종속변수의 전체 변동성을 나타낸다.
결정계수는 "기본 모형(평균만 사용하는 모형)
- $ R^2 = 1 $: 잔차가 없음 → 완벽한 설명
- $ R^2 = 0 $: 회귀모형이 평균 모형과 동일한 설명력
- $ R^2 < 0 $: 회귀모형이 평균보다 더 나쁨 (모형이 잘못 설정되었을 수 있음)
결정계수의 해석
1. 설명력의 척도
결정계수는 회귀모형의 설명력(explanatory power)을 나타내며, 독립변수가 종속변수의 변동을 얼마나 잘 설명하는지를 보여준다. 예를 들어, 어떤 경제 모형에서 소비지출을 소득으로 설명할 때 $ R^2 = 0.72 $라면, 소득이 소비지출의 변동 중 72%를 설명할 수 있다는 의미이다.
2. 주의사항
-
결정계수가 높다고 해서 인과관계를 의미하지 않는다.
높은 $ R^2 $는 단지 상관관계 또는 수학적 적합도가 높다는 것이며, 변수 간 인과관계를 보장하지 않는다. -
과적합(Overfitting)의 위험
독립변수를 지나치게 많이 추가하면 결정계수는 인위적으로 증가할 수 있다. 이 경우 모형이 훈련 데이터에는 잘 맞지만 새로운 데이터에 대해서는 예측력이 낮아질 수 있다. -
비선형 관계의 무시 가능성
결정계수는 선형 관계를 기반으로 하므로, 비선형 관계가 존재하더라도 $ R^2 $가 낮게 나올 수 있다.
수정 결정계수 (Adjusted R²)
다중회귀분석에서 독립변수의 수가 증가하면 결정계수는 항상 증가하는 경향이 있다. 이를 보완하기 위해 수정 결정계수(Adjusted R²)를 사용한다.
$$ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) $$
여기서: - $ n $: 표본 크기 - $ k $: 독립변수의 수
수정 결정계수는 변수 추가 시 그 변수가 실제로 설명력을 향상시키지 않으면 값이 감소할 수 있도록 조정한다. 따라서 모형 비교 시 더 신뢰할 수 있는 지표이다.
결정계수의 활용 분야
- 경제학: 소비, 투자, 성장률 등의 모형 평가
- 의학 및 보건학: 질병 발생률과 위험 요인 간의 관계 분석
- 사회과학: 교육 수준, 소득, 범죄율 등 복합적 사회 현상 설명
- 공학 및 자연과학: 실험 데이터의 모델링 및 예측 정확도 평가
관련 개념
| 개념 | 설명 |
|---|---|
| 상관계수(r) | 두 변수 간 선형 관계의 강도와 방향을 나타냄. 단순회귀에서 $ R^2 = r^2 $ |
| 잔차 분석 | 결정계수 외에 잔차의 패턴을 분석해 모형의 가정(선형성, 등분산성 등)을 검증 |
| AIC/BIC | 정보 기준으로, 결정계수와 달리 모형의 복잡성도 고려한 평가 지표 |
참고 자료
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
- Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
- 한국통계진흥원 (2023). 기초 통계 분석 가이드북.
결정계수는 회귀분석에서 핵심적인 평가 지표이지만, 단독으로 해석하기보다는 잔차 분석, 수정 결정계수, 다른 정보 기준과 함께 종합적으로 활용하는 것이 바람직하다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.