결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.12
조회수
9
버전
v2

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 2을 보고 있습니다.

결정계수

개요

결정계수(決定係數, 영어: Coefficient of Determination)는 회귀분석에서 독립변수(설명변수)가 종속변수(반응변수)의 변동성을 얼마나 잘 설명하는지를 나타내는 통계량이다. 일반적으로 (R-squared)로 표기되며, 그 값은 0에서 1 사이의 실수로 표현된다. 결정계수는 회귀 모형의 적합도(Goodness-of-fit)를 평가하는 데 널리 사용되며, 모형이 관측 데이터를 얼마나 잘 설명하는지를 수치적으로 보여준다.

예를 들어, R² 값이 0.85라면, 종속변수의 변동 중 약 85%가 모형에 포함된 독립변수들에 의해 설명된다는 의미이다. 이 값이 높을수록 모형의 설명력이 뛰어나다고 평가할 수 있지만, 무조건 높은 R²가 항상 좋은 모형을 의미하는 것은 아니며, 과적합(overfitting) 등의 문제를 유발할 수 있으므로 주의가 필요하다.


수학적 정의

결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Explained Sum of Squares, ESS), 잔차제곱합(Residual Sum of Squares, RSS)의 관계를 기반으로 정의된다.

  • 총제곱합 (TSS): 관측값의 평균으로부터의 편차 제곱합
    [ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ]

  • 회귀제곱합 (ESS): 예측값과 평균값의 차이 제곱합
    [ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ]

  • 잔차제곱합 (RSS): 관측값과 예측값의 차이 제곱합
    [ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]

이 세 가지 요소 사이에는 다음의 관계가 성립한다: [ \text{TSS} = \text{ESS} + \text{RSS} ]

결정계수는 다음 식으로 계산된다: [ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} ]

이 식은 "모형이 설명하는 변동의 비율"을 나타낸다.


해석과 의미

R²의 범위와 해석

  • R² = 1: 모형이 종속변수의 모든 변동을 완벽하게 설명함 (잔차 없음)
  • R² = 0: 모형이 종속변수의 변동을 전혀 설명하지 못함 (모형의 예측력 없음)
  • R² < 0: 모형의 예측이 평균보다 더 나쁨 (예: 잘못된 모형 설정 또는 제약 조건이 있을 때 발생 가능)

참고: R²는 음수가 될 수 있지만, 일반적인 최소제곱법(OLS)에서는 0 이상이다. 그러나 교차검증이나 특정 모형에서는 음수 값이 나올 수 있으며, 이는 모형이 무작위 추측보다 성능이 낮음을 의미한다.


결정계수의 장점과 한계

장점

  • 직관적 해석 가능: "X%의 변동을 설명한다"는 표현은 비전문가도 이해하기 쉬움.
  • 모형 비교 용이: 동일한 종속변수에 대해 여러 모형을 비교할 때 유용.
  • 표준화된 척도: 단위에 영향을 받지 않으며, 절대적인 비교가 가능.

한계

  • 항상 증가하는 성향: 독립변수를 추가할수록 R²는 감소하지 않고 항상 같거나 증가함 → 과적합 유발 가능성.
  • 인과관계를 의미하지 않음: 높은 R²가 독립변수와 종속변수 사이에 인과관계가 있음을 보장하지 않음.
  • 비선형 관계에서 오해 가능: 선형 회귀에 기반하므로 비선형 구조를 잘 포착하지 못할 수 있음.

수정된 결정계수 (Adjusted R²)

다중회귀분석에서 독립변수를 무분별하게 추가하면 R²가 인위적으로 증가하는 문제가 발생한다. 이를 보완하기 위해 제안된 지표가 수정된 결정계수(Adjusted R²)이다.

[ \bar{R}^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

여기서: - ( n ): 관측치의 수 - ( k ): 독립변수의 수

수정된 R²는 변수 추가 시 정보 이득이 충분하지 않으면 오히려 감소할 수 있으므로, 모형 선택 시 더 신뢰할 수 있는 기준이 된다.


활용 사례

  • 경제학: 소비지출이 소득, 이자율 등에 의해 얼마나 설명되는지 분석.
  • 의학: 환자의 혈압이 나이, 체중, 운동량 등으로 설명되는 정도 평가.
  • 기계학습: 선형 회귀 모형의 성능 평가 지표로 사용 (보조 지표로 활용).

관련 개념

개념 설명
상관계수 두 변수 간 선형 관계의 강도와 방향을 나타냄. 단순회귀에서 R²는 상관계수의 제곱과 같음.
RMSE (Root Mean Square Error) 예측 오차의 크기를 절대적 수치로 나타냄. R²와 함께 사용하면 보완적.
AIC/BIC 모형 적합도와 복잡성의 균형을 평가하는 정보 기준.

참고 자료

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
  • Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models. McGraw-Hill.
  • Khan Academy - R-squared intuition

📌 관련 문서: 회귀분석, 최소제곱법, 상관계수

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?