회귀모형 적합도

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2025.09.19
조회수
1
버전
v1

회귀모형 적합도

회귀모형 적도(Regression Model Fit)는 통계학에서 회귀분석을 구축한 모형이 관측된 데이터를 얼마나 잘 설명하는지를 평가하는 척도이다. 적합도 분석은 모형의 유용성과 신뢰성을 판단하는 데 핵심적인 역할을 하며, 모형이 데이터에 과적합(overfitting)되었는지, 또는 부적합(underfitting) 상태인지 진단하는 데도 활용된다. 이 문서에서는 회귀모형 적합도를 평가하는 주요 지표들과 해석 방법, 그리고 실전에서의 활용 사례를 다룬다.


개요

회귀분석은 독립변수(설명변수)와 종속변수(반응변수) 간의 관계를 수학적 모형으로 설명하고 예측하는 데 사용된다. 그러나 단순히 모형을 추정하는 것만으로는 충분하지 않으며, 그 모형이 실제 데이터에 얼마나 잘 맞는지를 평가해야 한다. 이를 위해 다양한 적합도 지표(Goodness-of-fit measures)가 개발되었으며, 대표적으로 결정계수($R^2$), 수정된 결정계수($R^2_{\text{adj}}$), 잔차 분석, AIC/BIC 정보 기준 등이 있다.

적합도가 낮은 모형은 예측 정확도가 낮거나 변수 간의 관계를 잘못 해석할 수 있으므로, 분석의 신뢰성 확보를 위해 반드시 평가 절차를 거쳐야 한다.


주요 적합도 평가 지표

결정계수 (R-squared, $R^2$)

결정계수는 전체 변동 중 회귀모형이 설명할 수 있는 비율을 나타낸다. 값의 범위는 0에서 1 사이이며, 1에 가까울수록 모형이 데이터를 잘 설명한다는 의미이다.

[ R^2 = 1 - \frac{\text{잔차제곱합 (SSE)}}{\text{총제곱합 (SST)}} ]

  • SSE (Sum of Squared Errors): 관측값과 예측값의 차이 제곱합
  • SST (Total Sum of Squares): 관측값과 전체 평균의 차이 제곱합

예를 들어, $R^2 = 0.85$는 종속변수의 변동 중 85%가 모형에 의해 설명됨을 의미한다.

⚠️ 주의: $R^2$는 독립변수를 추가할수록 항상 증가하므로, 모형의 복잡성 증가를 반영하지 못한다. 따라서 단일 기준으로 사용하기에는 한계가 있다.


수정된 결정계수 (Adjusted $R^2$)

수정된 결정계수는 독립변수의 수를 고려하여 $R^2$를 보정한 값이다. 변수가 추가되더라도 그 변수가 실제로 설명력에 기여하지 않으면 값이 증가하지 않거나 감소할 수 있다.

[ R^2_{\text{adj}} = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right) ]

여기서: - $n$: 관측치의 수 - $p$: 독립변수의 수

이 지표는 다중회귀분석에서 특히 유용하며, 변수 선택 과정에서 모형의 효율성을 비교하는 데 자주 사용된다.


잔차 분석 (Residual Analysis)

잔차는 관측값과 모형의 예측값 사이의 차이로, 모형의 적합도를 진단하는 데 핵심적인 정보를 제공한다. 이상적인 회귀모형은 다음과 같은 잔차 특성을 가져야 한다:

  • 무작위성: 잔차가 특정 패턴 없이 무작위로 분포
  • 등분산성(Homoscedasticity): 잔차의 분산이 독립변수의 값에 관계없이 일정
  • 정규성: 잔차가 정규분포를 따름
  • 독립성: 잔차 간에 상관관계가 없음 (특히 시계열 데이터에서 중요)

잔차 분석은 잔차 vs. 예측값 산점도, Q-Q 플롯(정규성 검사), 자기상관 함수(ACF) 등을 통해 시각적으로 또는 통계적으로 수행된다.


정보 기준 (AIC, BIC)

AIC(Akaike Information Criterion)와 BIC(Bayesian Information Criterion)는 모형의 적합도와 복잡성 사이의 균형을 평가하는 데 사용된다. 값이 낮을수록 더 우수한 모형으로 간주된다.

[ \text{AIC} = 2k - 2\ln(\hat{L}), \quad \text{BIC} = k\ln(n) - 2\ln(\hat{L}) ]

  • $k$: 모형의 매개변수 수
  • $\hat{L}$: 최대우도
  • $n$: 샘플 크기

BIC는 AIC보다 복잡성에 더 강한 패널티를 부여하므로, 더 단순한 모형을 선호하는 경향이 있다. 변수 선택(예: 단계적 회귀)에서 널리 사용된다.


과적합과 부적합의 진단

과적합 (Overfitting)

  • 훈련 데이터에는 매우 잘 맞지만, 새로운 데이터(검증 데이터)에서는 성능이 급격히 저하됨
  • 원인: 독립변수가 너무 많거나, 고차항/상호작용항 과도하게 포함
  • 진단 방법: 훈련 세트와 검증 세트의 $R^2$ 차이가 클 경우 의심

부적합 (Underfitting)

  • 데이터의 기본 구조를 포착하지 못한 단순한 모형
  • 낮은 $R^2$, 체계적인 잔차 패턴(예: 곡선 형태)
  • 해결법: 변수 변환(예: 로그, 제곱항), 비선형 모형 도입

실전 적용 예시

예를 들어, 주택 가격을 예측하는 회귀모형을 만들 때 다음과 같은 절차로 적합도를 평가할 수 있다:

  1. 기본 모형 추정: 방 수, 면적, 위치 등을 독립변수로 사용
  2. $R^2$와 $R^2_{\text{adj}}$ 계산 → 각각 0.78, 0.76
  3. 잔차 플롯 확인 → 등분산성 위반 시 로그 변환 고려
  4. AIC/BIC를 이용해 여러 후보 모형 중 최적 선택
  5. 교차검증(Cross-validation)을 통해 예측 성능 검증

관련 문서 및 참고 자료

🔍 참고 문헌:
- Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models. McGraw-Hill.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.


회귀모형 적합도 평가는 데이터 기반 의사결정의 신뢰성을 확보하는 핵심 단계이다. 단순히 높은 $R^2$를 추구하기보다는, 다양한 지표를 종합적으로 활용하고 잔차 분석을 철저히 수행함으로써 과학적이고 타당한 모형을 구축해야 한다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?