결정계수
개요
결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석 모형의 적합도를 평가하는 데 사용되는 중요한 지표입니다. 기호로는 일반적으로 R²(R-squared)로 표기되며, 종속변수의 변동성 중 독립변수(또는 독립변수들)에 의해 설명될 수 있는 비율을 나타냅니다. 결정계수는 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 회귀모형이 데이터를 잘 설명한다고 판단할 수 있습니다.
이 문서에서는 결정계수의 정의, 계산 방법, 해석 방법, 한계점 및 활용 예시를 중심으로 설명합니다.
결정계수의 정의와 수학적 표현
정의
결정계수는 회귀모형이 관측된 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다. 즉, 실제 관측값과 회귀식을 통해 예측된 값 사이의 일치 정도를 수치화한 것입니다.
수식 표현
결정계수 ( R^2 )는 다음과 같이 정의됩니다:
[
R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}
]
여기서:
- ( SS_{\text{res}} )는 잔차제곱합(Residual Sum of Squares)으로, 관측값과 예측값의 차이(잔차)를 제곱하여 합한 값입니다.
[
SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}i)^2
]
- ( SS{\text{tot}} )는 총제곱합(Total Sum of Squares)으로, 관측값과 종속변수의 평균 간의 차이를 제곱하여 합한 값입니다.
[
SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2
]
이 식을 통해 ( R^2 )는 "모형이 설명하지 못하는 변동성의 비율"을 1에서 뺀 값으로 이해할 수 있습니다.
결정계수의 해석
결정계수의 값은 다음과 같이 해석됩니다:
| ( R^2 ) 값 |
해석 |
| 0 |
모형이 종속변수의 변동성을 전혀 설명하지 못함 |
| 0.5 |
종속변수의 변동성 중 50%가 모형에 의해 설명됨 |
| 1 |
모형이 종속변수의 모든 변동성을 완벽히 설명함 |
예를 들어, ( R^2 = 0.85 )라면, 종속변수의 변동성 중 85%가 독립변수들에 의해 설명되고, 나머지 15%는 오차나 설명되지 않은 요인에 기인한다고 해석할 수 있습니다.
결정계수의 특성과 한계
장점
- 직관적인 해석: 0과 1 사이의 값으로, 모형의 설명력을 쉽게 이해할 수 있음.
- 모형 비교에 유용: 동일한 데이터셋에 대해 서로 다른 회귀모형을 비교할 때 기준으로 활용 가능.
한계점
- 과적합(Overfitting)에 민감함: 독립변수를 추가할수록 ( R^2 )는 항상 증가하거나 변하지 않기 때문에, 무의미한 변수를 추가해도 결정계수가 높아질 수 있습니다.
- 인과관계를 보장하지 않음: 높은 ( R^2 ) 값이 반드시 인과관계를 의미하지는 않습니다.
- 음의 값 가능성: 비선형 모형이나 제약 조건이 있는 회귀에서는 ( R^2 )가 음수가 나올 수 있음 (이는 모형이 평균보다 더 나쁘게 예측하고 있음을 의미).
이러한 한계를 보완하기 위해 수정된 결정계수(Adjusted R²)가 사용됩니다. 수정된 결정계수는 변수의 수를 고려하여 패널티를 부여하므로, 변수를 무분별하게 추가해도 증가하지 않습니다.
[
\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right)
]
여기서 ( n )은 샘플 크기, ( k )는 독립변수의 수입니다.
활용 예시
결정계수는 다음과 같은 분야에서 널리 사용됩니다:
- 경제학: 소비지출과 소득 간의 관계 모형에서 설명력 평가
- 의학: 약물 복용량과 혈중 농도의 관계 분석
- 기계학습: 회귀 모델의 성능 평가 지표 중 하나로 활용
예를 들어, 학생들의 공부 시간과 시험 점수 간의 회귀분석에서 ( R^2 = 0.72 )가 나왔다면, 공부 시간이 시험 점수의 72%를 설명한다고 해석할 수 있습니다.
참고 자료 및 관련 문서
참고 문헌
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
결정계수는 회귀분석의 핵심 평가 지표로서, 모형의 설명력을 직관적으로 파악할 수 있게 해주는 중요한 도구입니다. 그러나 그 한계를 인지하고, 수정된 결정계수나 다른 평가 지표(예: RMSE, AIC 등)와 함께 종합적으로 활용하는 것이 바람직합니다.
# 결정계수
## 개요
**결정계수**(決定係數, Coefficient of Determination)는 통계학에서 회귀분석 모형의 적합도를 평가하는 데 사용되는 중요한 지표입니다. 기호로는 일반적으로 **R²**(R-squared)로 표기되며, 종속변수의 변동성 중 독립변수(또는 독립변수들)에 의해 설명될 수 있는 비율을 나타냅니다. 결정계수는 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 회귀모형이 데이터를 잘 설명한다고 판단할 수 있습니다.
이 문서에서는 결정계수의 정의, 계산 방법, 해석 방법, 한계점 및 활용 예시를 중심으로 설명합니다.
---
## 결정계수의 정의와 수학적 표현
### 정의
결정계수는 회귀모형이 관측된 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다. 즉, 실제 관측값과 회귀식을 통해 예측된 값 사이의 일치 정도를 수치화한 것입니다.
### 수식 표현
결정계수 \( R^2 \)는 다음과 같이 정의됩니다:
\[
R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}
\]
여기서:
- \( SS_{\text{res}} \)는 **잔차제곱합**(Residual Sum of Squares)으로, 관측값과 예측값의 차이(잔차)를 제곱하여 합한 값입니다.
\[
SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\]
- \( SS_{\text{tot}} \)는 **총제곱합**(Total Sum of Squares)으로, 관측값과 종속변수의 평균 간의 차이를 제곱하여 합한 값입니다.
\[
SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2
\]
이 식을 통해 \( R^2 \)는 "모형이 설명하지 못하는 변동성의 비율"을 1에서 뺀 값으로 이해할 수 있습니다.
---
## 결정계수의 해석
결정계수의 값은 다음과 같이 해석됩니다:
| \( R^2 \) 값 | 해석 |
|-------------|------|
| 0 | 모형이 종속변수의 변동성을 전혀 설명하지 못함 |
| 0.5 | 종속변수의 변동성 중 50%가 모형에 의해 설명됨 |
| 1 | 모형이 종속변수의 모든 변동성을 완벽히 설명함 |
예를 들어, \( R^2 = 0.85 \)라면, 종속변수의 변동성 중 85%가 독립변수들에 의해 설명되고, 나머지 15%는 오차나 설명되지 않은 요인에 기인한다고 해석할 수 있습니다.
---
## 결정계수의 특성과 한계
### 장점
- **직관적인 해석**: 0과 1 사이의 값으로, 모형의 설명력을 쉽게 이해할 수 있음.
- **모형 비교에 유용**: 동일한 데이터셋에 대해 서로 다른 회귀모형을 비교할 때 기준으로 활용 가능.
### 한계점
1. **과적합**(Overfitting)에 민감함: 독립변수를 추가할수록 \( R^2 \)는 항상 증가하거나 변하지 않기 때문에, 무의미한 변수를 추가해도 결정계수가 높아질 수 있습니다.
2. **인과관계를 보장하지 않음**: 높은 \( R^2 \) 값이 반드시 인과관계를 의미하지는 않습니다.
3. **음의 값 가능성**: 비선형 모형이나 제약 조건이 있는 회귀에서는 \( R^2 \)가 음수가 나올 수 있음 (이는 모형이 평균보다 더 나쁘게 예측하고 있음을 의미).
이러한 한계를 보완하기 위해 **수정된 결정계수**(Adjusted R²)가 사용됩니다. 수정된 결정계수는 변수의 수를 고려하여 패널티를 부여하므로, 변수를 무분별하게 추가해도 증가하지 않습니다.
\[
\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right)
\]
여기서 \( n \)은 샘플 크기, \( k \)는 독립변수의 수입니다.
---
## 활용 예시
결정계수는 다음과 같은 분야에서 널리 사용됩니다:
- **경제학**: 소비지출과 소득 간의 관계 모형에서 설명력 평가
- **의학**: 약물 복용량과 혈중 농도의 관계 분석
- **기계학습**: 회귀 모델의 성능 평가 지표 중 하나로 활용
예를 들어, 학생들의 공부 시간과 시험 점수 간의 회귀분석에서 \( R^2 = 0.72 \)가 나왔다면, 공부 시간이 시험 점수의 72%를 설명한다고 해석할 수 있습니다.
---
## 참고 자료 및 관련 문서
- [회귀분석](https://ko.wikipedia.org/wiki/회귀분석)
- [잔차분석](https://ko.wikipedia.org/wiki/잔차)
- [최소자승법](https://ko.wikipedia.org/wiki/최소자승법)
- [수정된 결정계수](https://ko.wikipedia.org/wiki/결정계수#수정된_결정계수)
> **참고 문헌**
> Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). *Introduction to Linear Regression Analysis*. Wiley.
---
결정계수는 회귀분석의 핵심 평가 지표로서, 모형의 설명력을 직관적으로 파악할 수 있게 해주는 중요한 도구입니다. 그러나 그 한계를 인지하고, 수정된 결정계수나 다른 평가 지표(예: RMSE, AIC 등)와 함께 종합적으로 활용하는 것이 바람직합니다.