결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.19
조회수
3
버전
v3

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 3을 보고 있습니다.

결정계수

개요

결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석의 적합도를 평가하는 대표적인 지표로, (R-squared)라고도 불린다. 결정계수는 종속변수의 변동성 중 독립변수(또는 설명변수)에 의해 설명될 수 있는 비율을 나타내며, 0에서 1 사이의 값을 가진다. 이 값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미하며, 0에 가까울수록 설명력이 낮다는 것을 나타낸다.

결정계수는 단순 선형회귀뿐만 아니라 다중회귀분석에서도 널리 사용되며, 모델 선택 및 변수 중요도 평가에 중요한 역할을 한다.


정의와 수식

결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Explained Sum of Squares, ESS), 그리고 잔차제곱합(Residual Sum of Squares, RSS)을 기반으로 정의된다.

주요 제곱합 정의

  • 총제곱합(TSS): 관측값과 종속변수의 평균 간의 편차 제곱의 합
    [ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ]

  • 회귀제곱합(ESS): 예측값과 종속변수의 평균 간의 편차 제곱의 합
    [ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ]

  • 잔차제곱합(RSS): 관측값과 예측값 간의 잔차 제곱의 합
    [ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]

이때, 다음의 관계가 성립한다: [ \text{TSS} = \text{ESS} + \text{RSS} ]

결정계수 수식

결정계수 ( R^2 )는 다음과 같이 정의된다: [ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} ]

이 수식은 "전체 변동 중 회귀모델이 설명하는 변동의 비율"을 나타낸다.


해석과 의미

결정계수의 해석은 다음과 같다:

( R^2 ) 값 해석
1 모델이 종속변수의 모든 변동을 완벽하게 설명함
0.8 이상 높은 설명력을 가짐 (강한 적합도)
0.5 ~ 0.8 보통 수준의 설명력
0.3 ~ 0.5 낮은 설명력
0 이하 모델이 평균보다 더 나쁘게 예측함 (과적합 또는 잘못된 모델)

주의사항

  • ( R^2 = 0 )은 독립변수가 종속변수를 전혀 설명하지 못함을 의미한다.
  • ( R^2 )가 높다고 해서 반드시 모델이 우수하다는 의미는 아니다. 과적합(overfitting)일 수 있으며, 변수가 많아질수록 ( R^2 )는 인위적으로 증가할 수 있다.

조정 결정계수 (Adjusted R²)

다중회귀분석에서 설명변수의 수가 증가하면 ( R^2 )는 항상 증가하는 경향이 있다. 이 문제를 보완하기 위해 도입된 지표가 조정 결정계수(Adjusted R²)이다.

[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

여기서: - ( n ): 표본 크기 - ( k ): 독립변수의 개수

조정 결정계수는 변수 추가 시 모델 성능 향상이 실질적인 경우에만 증가하므로, 모델 비교에 더 적합하다.


활용 사례

  1. 경제학: 소비와 소득 간의 관계를 설명하는 회귀모델의 적합도 평가
  2. 의학 연구: 약물 복용량과 치료 효과 간의 상관관계 분석
  3. 기계학습: 선형회귀 모델의 성능 지표로 활용 (보조 지표)
  4. 마케팅: 광고비 지출이 매출에 미치는 영향 분석

한계와 주의점

  • 인과관계를 의미하지 않음: 높은 ( R^2 )는 상관관계를 나타낼 뿐, 인과관계를 보장하지 않는다.
  • 비선형 관계 무시 가능: ( R^2 )는 선형 관계에 기반하므로, 비선형 관계가 존재해도 낮은 값을 가질 수 있다.
  • 이상치에 민감: 극단적인 값이 TSS와 RSS에 큰 영향을 미쳐 ( R^2 ) 왜곡 가능
  • 단일 지표로 해석 제한: 반드시 다른 지표(예: RMSE, AIC, BIC)와 함께 사용해야 함

관련 개념

  • 상관계수(r): 단순 선형회귀에서 ( R^2 )는 상관계수의 제곱과 같다. ( R^2 = r^2 )
  • 잔차 분석: 결정계수와 함께 잔차의 정규성, 등분산성 등을 확인해야 모델 타당성 평가 가능
  • F-검정: 전체 회귀모델의 유의성을 검정할 때 사용되며, ( R^2 )와 밀접한 관련 있음

참고 자료

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
  • 한국통계학회 (2020). 기초통계학. 박영사.

요약: 결정계수는 회귀모델의 설명력을 수치화한 핵심 지표로, 0에서 1 사이의 값을 가지며, 조정 결정계수와 함께 사용하여 보다 정확한 모델 평가가 가능하다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?