결정계수
📋 문서 버전
이 문서는 9개의 버전이 있습니다. 현재 버전 4을 보고 있습니다.
결정계수
개요
결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석 모형의 적합도를 평가하는 대표적인 지표입니다. 기호로는 일반적으로 R²(R-squared)로 표기되며, 종속변수의 변동성 중 독립변수(들)에 의해 설명되는 비율을 나타냅니다. 즉, 회귀모형이 데이터를 얼마나 잘 설명하는지를 0에서 1 사이의 값으로 수치화한 것입니다.
결정계수는 모형의 성능을 빠르게 판단할 수 있게 해주며, 특히 여러 모형을 비교할 때 유용하게 사용됩니다. 그러나 높은 R² 값이 항상 좋은 모형을 의미하지는 않기 때문에, 해석 시 주의가 필요합니다.
정의와 수식
결정계수는 다음과 같은 공식으로 정의됩니다:
[ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} ]
여기서: - ( SS_{\text{res}} )는 잔차제곱합(Sum of Squares of Residuals)으로, 관측값과 회귀모형의 예측값의 차이를 제곱한 총합입니다. [ SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 ] - ( SS{\text{tot}} )는 총제곱합(Total Sum of Squares)으로, 관측값과 전체 평균의 차이를 제곱한 총합입니다. [ SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ] - ( y_i ): 관측된 종속변수 값 - ( \hat{y}_i ): 회귀모형이 예측한 값 - ( \bar{y} ): 종속변수의 평균
해석
- ( R^2 = 1 ): 모형이 종속변수의 모든 변동을 완벽히 설명함 (잔차 없음)
- ( R^2 = 0 ): 모형이 종속변수의 변동을 평균값보다 더 잘 설명하지 못함
- ( 0 < R^2 < 1 ): 모형이 종속변수의 변동 중 일부를 설명함
예를 들어, ( R^2 = 0.85 )라면 종속변수의 변동 중 85%가 회귀모형에 의해 설명된다는 의미입니다.
특징과 해석 시 주의점
장점
- 직관적인 해석: 0에서 1 사이의 값으로, 설명력이 얼마나 되는지 쉽게 이해 가능
- 모형 비교 용이: 동일한 종속변수를 사용하는 여러 모형 간 비교에 유용
- 모형 진단 도구: 모형 개선의 기준으로 활용 가능
주의사항
-
과적합(Overfitting) 문제
변수를 지나치게 많이 추가하면 R²는 항상 증가하지만, 이는 모형이 훈련 데이터에만 과도하게 맞춰졌을 가능성을 나타냅니다. 따라서 조정 결정계수(Adjusted R²)를 함께 고려해야 합니다. -
인과관계의 오해
높은 R²는 강한 상관관계를 의미할 수 있지만, 인과관계를 보장하지 않습니다. 예를 들어, 아이스크림 판매량과 수영장 사고 건수 사이에 높은 R²가 나올 수 있으나, 이는 모두 기온이라는 제3의 변수 때문일 수 있습니다. -
비선형 관계의 무시
R²는 선형 회귀를 기반으로 하므로, 비선형 관계가 존재하는 경우에도 낮은 값을 보일 수 있습니다. 이때는 다른 적합도 지표와 함께 분석이 필요합니다.
조정 결정계수 (Adjusted R²)
다중회귀분석에서 독립변수의 수가 증가하면 R²는 자동으로 증가하는 경향이 있습니다. 이를 보정하기 위해 사용하는 것이 조정 결정계수입니다.
[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]
- ( n ): 관측치의 수
- ( k ): 독립변수의 수
조정 R²는 변수 추가 시 실제 설명력 향상이 없으면 감소할 수 있으므로, 모형 선택(Model Selection) 시 더 신뢰할 수 있는 지표입니다.
활용 사례
1. 경제학
GDP 성장률을 설명하기 위해 소비, 투자, 수출 등의 변수를 포함한 회귀모형에서 R²를 통해 모형의 설명력을 평가합니다.
2. 의학 연구
혈압과 나이, 체중, 흡연 여부 등의 관계를 분석할 때, 결정계수를 통해 변수들이 혈압 변동을 얼마나 설명하는지 판단합니다.
3. 마케팅
광고비 지출과 매출 간의 회귀모형에서 R²가 0.7이라면, 매출 변동의 70%가 광고비에 의해 설명됨을 의미합니다.
관련 지표
| 지표 | 설명 |
|---|---|
| R² (결정계수) | 모형이 설명하는 변동의 비율 |
| 조정 R² | 변수 수를 고려한 R² 보정값 |
| RMSE | 잔차의 평균 제곱근 오차, 절대적 오차 크기 평가 |
| MAE | 평균 절대 오차, 이상치에 덜 민감 |
참고 자료 및 관련 문서
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
- 관련 문서: 회귀분석, 잔차분석, 상관계수
결정계수는 통계적 모형 평가에서 핵심적인 역할을 하지만, 단독으로 해석하기보다는 다른 지표들과 함께 종합적으로 분석하는 것이 중요합니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.