회귀모형 적도(Regression Model Fit)는 통계학에서 회귀분석을 구축한 모형이 관측된 데이터를 얼마나 잘 설명하는지를 평가하는 척도이다. 적합도 분석은 모형의 유용성과 신뢰성을 판단하는 데 핵심적인 역할을 하며, 모형이 데이터에 과적합(overfitting)되었는지, 또는 부적합(underfitting) 상태인지 진단하는 데도 활용된다. 이 문서에서는 회귀모형 적합도를 평가하는 주요 지표들과 해석 방법, 그리고 실전에서의 활용 사례를 다룬다.
개요
회귀분석은 독립변수(설명변수)와 종속변수(반응변수) 간의 관계를 수학적 모형으로 설명하고 예측하는 데 사용된다. 그러나 단순히 모형을 추정하는 것만으로는 충분하지 않으며, 그 모형이 실제 데이터에 얼마나 잘 맞는지를 평가해야 한다. 이를 위해 다양한 적합도 지표(Goodness-of-fit measures)가 개발되었으며, 대표적으로 결정계수($R^2$), 수정된 결정계수($R^2_{\text{adj}}$), 잔차 분석, AIC/BIC 정보 기준 등이 있다.
적합도가 낮은 모형은 예측 정확도가 낮거나 변수 간의 관계를 잘못 해석할 수 있으므로, 분석의 신뢰성 확보를 위해 반드시 평가 절차를 거쳐야 한다.
주요 적합도 평가 지표
결정계수 (R-squared, $R^2$)
결정계수는 전체 변동 중 회귀모형이 설명할 수 있는 비율을 나타낸다. 값의 범위는 0에서 1 사이이며, 1에 가까울수록 모형이 데이터를 잘 설명한다는 의미이다.
[
R^2 = 1 - \frac{\text{잔차제곱합 (SSE)}}{\text{총제곱합 (SST)}}
]
- SSE (Sum of Squared Errors): 관측값과 예측값의 차이 제곱합
- SST (Total Sum of Squares): 관측값과 전체 평균의 차이 제곱합
예를 들어, $R^2 = 0.85$는 종속변수의 변동 중 85%가 모형에 의해 설명됨을 의미한다.
⚠️ 주의: $R^2$는 독립변수를 추가할수록 항상 증가하므로, 모형의 복잡성 증가를 반영하지 못한다. 따라서 단일 기준으로 사용하기에는 한계가 있다.
수정된 결정계수 (Adjusted $R^2$)
수정된 결정계수는 독립변수의 수를 고려하여 $R^2$를 보정한 값이다. 변수가 추가되더라도 그 변수가 실제로 설명력에 기여하지 않으면 값이 증가하지 않거나 감소할 수 있다.
[
R^2_{\text{adj}} = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)
]
여기서:
- $n$: 관측치의 수
- $p$: 독립변수의 수
이 지표는 다중회귀분석에서 특히 유용하며, 변수 선택 과정에서 모형의 효율성을 비교하는 데 자주 사용된다.
잔차 분석 (Residual Analysis)
잔차는 관측값과 모형의 예측값 사이의 차이로, 모형의 적합도를 진단하는 데 핵심적인 정보를 제공한다. 이상적인 회귀모형은 다음과 같은 잔차 특성을 가져야 한다:
- 무작위성: 잔차가 특정 패턴 없이 무작위로 분포
- 등분산성(Homoscedasticity): 잔차의 분산이 독립변수의 값에 관계없이 일정
- 정규성: 잔차가 정규분포를 따름
- 독립성: 잔차 간에 상관관계가 없음 (특히 시계열 데이터에서 중요)
잔차 분석은 잔차 vs. 예측값 산점도, Q-Q 플롯(정규성 검사), 자기상관 함수(ACF) 등을 통해 시각적으로 또는 통계적으로 수행된다.
정보 기준 (AIC, BIC)
AIC(Akaike Information Criterion)와 BIC(Bayesian Information Criterion)는 모형의 적합도와 복잡성 사이의 균형을 평가하는 데 사용된다. 값이 낮을수록 더 우수한 모형으로 간주된다.
[
\text{AIC} = 2k - 2\ln(\hat{L}), \quad \text{BIC} = k\ln(n) - 2\ln(\hat{L})
]
- $k$: 모형의 매개변수 수
- $\hat{L}$: 최대우도
- $n$: 샘플 크기
BIC는 AIC보다 복잡성에 더 강한 패널티를 부여하므로, 더 단순한 모형을 선호하는 경향이 있다. 변수 선택(예: 단계적 회귀)에서 널리 사용된다.
과적합과 부적합의 진단
과적합 (Overfitting)
- 훈련 데이터에는 매우 잘 맞지만, 새로운 데이터(검증 데이터)에서는 성능이 급격히 저하됨
- 원인: 독립변수가 너무 많거나, 고차항/상호작용항 과도하게 포함
- 진단 방법: 훈련 세트와 검증 세트의 $R^2$ 차이가 클 경우 의심
부적합 (Underfitting)
- 데이터의 기본 구조를 포착하지 못한 단순한 모형
- 낮은 $R^2$, 체계적인 잔차 패턴(예: 곡선 형태)
- 해결법: 변수 변환(예: 로그, 제곱항), 비선형 모형 도입
실전 적용 예시
예를 들어, 주택 가격을 예측하는 회귀모형을 만들 때 다음과 같은 절차로 적합도를 평가할 수 있다:
- 기본 모형 추정: 방 수, 면적, 위치 등을 독립변수로 사용
- $R^2$와 $R^2_{\text{adj}}$ 계산 → 각각 0.78, 0.76
- 잔차 플롯 확인 → 등분산성 위반 시 로그 변환 고려
- AIC/BIC를 이용해 여러 후보 모형 중 최적 선택
- 교차검증(Cross-validation)을 통해 예측 성능 검증
관련 문서 및 참고 자료
🔍 참고 문헌:
- Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models. McGraw-Hill.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
회귀모형 적합도 평가는 데이터 기반 의사결정의 신뢰성을 확보하는 핵심 단계이다. 단순히 높은 $R^2$를 추구하기보다는, 다양한 지표를 종합적으로 활용하고 잔차 분석을 철저히 수행함으로써 과학적이고 타당한 모형을 구축해야 한다.
# 회귀모형 적합도
회귀모형 적도(Regression Model Fit)는 통계학에서 회귀분석을 구축한 모형이 관측된 데이터를 얼마나 잘 설명하는지를 평가하는 척도이다. 적합도 분석은 모형의 유용성과 신뢰성을 판단하는 데 핵심적인 역할을 하며, 모형이 데이터에 과적합(overfitting)되었는지, 또는 부적합(underfitting) 상태인지 진단하는 데도 활용된다. 이 문서에서는 회귀모형 적합도를 평가하는 주요 지표들과 해석 방법, 그리고 실전에서의 활용 사례를 다룬다.
---
## 개요
회귀분석은 독립변수(설명변수)와 종속변수(반응변수) 간의 관계를 수학적 모형으로 설명하고 예측하는 데 사용된다. 그러나 단순히 모형을 추정하는 것만으로는 충분하지 않으며, 그 모형이 실제 데이터에 얼마나 잘 맞는지를 평가해야 한다. 이를 위해 다양한 **적합도 지표**(Goodness-of-fit measures)가 개발되었으며, 대표적으로 결정계수($R^2$), 수정된 결정계수($R^2_{\text{adj}}$), 잔차 분석, AIC/BIC 정보 기준 등이 있다.
적합도가 낮은 모형은 예측 정확도가 낮거나 변수 간의 관계를 잘못 해석할 수 있으므로, 분석의 신뢰성 확보를 위해 반드시 평가 절차를 거쳐야 한다.
---
## 주요 적합도 평가 지표
### 결정계수 (R-squared, $R^2$)
결정계수는 전체 변동 중 회귀모형이 설명할 수 있는 비율을 나타낸다. 값의 범위는 0에서 1 사이이며, 1에 가까울수록 모형이 데이터를 잘 설명한다는 의미이다.
\[
R^2 = 1 - \frac{\text{잔차제곱합 (SSE)}}{\text{총제곱합 (SST)}}
\]
- **SSE (Sum of Squared Errors)**: 관측값과 예측값의 차이 제곱합
- **SST (Total Sum of Squares)**: 관측값과 전체 평균의 차이 제곱합
예를 들어, $R^2 = 0.85$는 종속변수의 변동 중 85%가 모형에 의해 설명됨을 의미한다.
> ⚠️ 주의: $R^2$는 독립변수를 추가할수록 항상 증가하므로, 모형의 복잡성 증가를 반영하지 못한다. 따라서 단일 기준으로 사용하기에는 한계가 있다.
---
### 수정된 결정계수 (Adjusted $R^2$)
수정된 결정계수는 독립변수의 수를 고려하여 $R^2$를 보정한 값이다. 변수가 추가되더라도 그 변수가 실제로 설명력에 기여하지 않으면 값이 증가하지 않거나 감소할 수 있다.
\[
R^2_{\text{adj}} = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)
\]
여기서:
- $n$: 관측치의 수
- $p$: 독립변수의 수
이 지표는 다중회귀분석에서 특히 유용하며, 변수 선택 과정에서 모형의 효율성을 비교하는 데 자주 사용된다.
---
### 잔차 분석 (Residual Analysis)
잔차는 관측값과 모형의 예측값 사이의 차이로, 모형의 적합도를 진단하는 데 핵심적인 정보를 제공한다. 이상적인 회귀모형은 다음과 같은 잔차 특성을 가져야 한다:
- **무작위성**: 잔차가 특정 패턴 없이 무작위로 분포
- **등분산성**(Homoscedasticity): 잔차의 분산이 독립변수의 값에 관계없이 일정
- **정규성**: 잔차가 정규분포를 따름
- **독립성**: 잔차 간에 상관관계가 없음 (특히 시계열 데이터에서 중요)
잔차 분석은 **잔차 vs. 예측값 산점도**, **Q-Q 플롯**(정규성 검사), **자기상관 함수**(ACF) 등을 통해 시각적으로 또는 통계적으로 수행된다.
---
### 정보 기준 (AIC, BIC)
**AIC**(Akaike Information Criterion)와 **BIC**(Bayesian Information Criterion)는 모형의 적합도와 복잡성 사이의 균형을 평가하는 데 사용된다. 값이 낮을수록 더 우수한 모형으로 간주된다.
\[
\text{AIC} = 2k - 2\ln(\hat{L}), \quad \text{BIC} = k\ln(n) - 2\ln(\hat{L})
\]
- $k$: 모형의 매개변수 수
- $\hat{L}$: 최대우도
- $n$: 샘플 크기
BIC는 AIC보다 복잡성에 더 강한 패널티를 부여하므로, 더 단순한 모형을 선호하는 경향이 있다. 변수 선택(예: 단계적 회귀)에서 널리 사용된다.
---
## 과적합과 부적합의 진단
### 과적합 (Overfitting)
- 훈련 데이터에는 매우 잘 맞지만, 새로운 데이터(검증 데이터)에서는 성능이 급격히 저하됨
- 원인: 독립변수가 너무 많거나, 고차항/상호작용항 과도하게 포함
- 진단 방법: 훈련 세트와 검증 세트의 $R^2$ 차이가 클 경우 의심
### 부적합 (Underfitting)
- 데이터의 기본 구조를 포착하지 못한 단순한 모형
- 낮은 $R^2$, 체계적인 잔차 패턴(예: 곡선 형태)
- 해결법: 변수 변환(예: 로그, 제곱항), 비선형 모형 도입
---
## 실전 적용 예시
예를 들어, 주택 가격을 예측하는 회귀모형을 만들 때 다음과 같은 절차로 적합도를 평가할 수 있다:
1. **기본 모형 추정**: 방 수, 면적, 위치 등을 독립변수로 사용
2. $R^2$와 $R^2_{\text{adj}}$ 계산 → 각각 0.78, 0.76
3. 잔차 플롯 확인 → 등분산성 위반 시 로그 변환 고려
4. AIC/BIC를 이용해 여러 후보 모형 중 최적 선택
5. 교차검증(Cross-validation)을 통해 예측 성능 검증
---
## 관련 문서 및 참고 자료
- [회귀분석](https://ko.wikipedia.org/wiki/회귀분석)
- [결정계수](https://ko.wikipedia.org/wiki/결정계수)
- [잔차](https://ko.wikipedia.org/wiki/잔차)
- [정보 기준](https://ko.wikipedia.org/wiki/정보_기준)
> 🔍 참고 문헌:
> - Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). *Applied Linear Statistical Models*. McGraw-Hill.
> - James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). *An Introduction to Statistical Learning*. Springer.
---
회귀모형 적합도 평가는 데이터 기반 의사결정의 신뢰성을 확보하는 핵심 단계이다. 단순히 높은 $R^2$를 추구하기보다는, 다양한 지표를 종합적으로 활용하고 잔차 분석을 철저히 수행함으로써 과학적이고 타당한 모형을 구축해야 한다.