결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.19
조회수
7
버전
v4

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 4을 보고 있습니다.

결정계수

개요

결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석 모형의 적합도를 평가하는 대표적인 지표입니다. 기호로는 일반적으로 (R-squared)로 표기되며, 종속변수의 변동성 중 독립변수(들)에 의해 설명되는 비율을 나타냅니다. 즉, 회귀모형이 데이터를 얼마나 잘 설명하는지를 0에서 1 사이의 값으로 수치화한 것입니다.

결정계수는 모형의 성능을 빠르게 판단할 수 있게 해주며, 특히 여러 모형을 비교할 때 유용하게 사용됩니다. 그러나 높은 R² 값이 항상 좋은 모형을 의미하지는 않기 때문에, 해석 시 주의가 필요합니다.


정의와 수식

결정계수는 다음과 같은 공식으로 정의됩니다:

[ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} ]

여기서: - ( SS_{\text{res}} )는 잔차제곱합(Sum of Squares of Residuals)으로, 관측값과 회귀모형의 예측값의 차이를 제곱한 총합입니다. [ SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 ] - ( SS{\text{tot}} )는 총제곱합(Total Sum of Squares)으로, 관측값과 전체 평균의 차이를 제곱한 총합입니다. [ SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ] - ( y_i ): 관측된 종속변수 값 - ( \hat{y}_i ): 회귀모형이 예측한 값 - ( \bar{y} ): 종속변수의 평균

해석

  • ( R^2 = 1 ): 모형이 종속변수의 모든 변동을 완벽히 설명함 (잔차 없음)
  • ( R^2 = 0 ): 모형이 종속변수의 변동을 평균값보다 더 잘 설명하지 못함
  • ( 0 < R^2 < 1 ): 모형이 종속변수의 변동 중 일부를 설명함

예를 들어, ( R^2 = 0.85 )라면 종속변수의 변동 중 85%가 회귀모형에 의해 설명된다는 의미입니다.


특징과 해석 시 주의점

장점

  • 직관적인 해석: 0에서 1 사이의 값으로, 설명력이 얼마나 되는지 쉽게 이해 가능
  • 모형 비교 용이: 동일한 종속변수를 사용하는 여러 모형 간 비교에 유용
  • 모형 진단 도구: 모형 개선의 기준으로 활용 가능

주의사항

  1. 과적합(Overfitting) 문제
    변수를 지나치게 많이 추가하면 R²는 항상 증가하지만, 이는 모형이 훈련 데이터에만 과도하게 맞춰졌을 가능성을 나타냅니다. 따라서 조정 결정계수(Adjusted R²)를 함께 고려해야 합니다.

  2. 인과관계의 오해
    높은 R²는 강한 상관관계를 의미할 수 있지만, 인과관계를 보장하지 않습니다. 예를 들어, 아이스크림 판매량과 수영장 사고 건수 사이에 높은 R²가 나올 수 있으나, 이는 모두 기온이라는 제3의 변수 때문일 수 있습니다.

  3. 비선형 관계의 무시
    R²는 선형 회귀를 기반으로 하므로, 비선형 관계가 존재하는 경우에도 낮은 값을 보일 수 있습니다. 이때는 다른 적합도 지표와 함께 분석이 필요합니다.


조정 결정계수 (Adjusted R²)

다중회귀분석에서 독립변수의 수가 증가하면 R²는 자동으로 증가하는 경향이 있습니다. 이를 보정하기 위해 사용하는 것이 조정 결정계수입니다.

[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

  • ( n ): 관측치의 수
  • ( k ): 독립변수의 수

조정 R²는 변수 추가 시 실제 설명력 향상이 없으면 감소할 수 있으므로, 모형 선택(Model Selection) 시 더 신뢰할 수 있는 지표입니다.


활용 사례

1. 경제학

GDP 성장률을 설명하기 위해 소비, 투자, 수출 등의 변수를 포함한 회귀모형에서 R²를 통해 모형의 설명력을 평가합니다.

2. 의학 연구

혈압과 나이, 체중, 흡연 여부 등의 관계를 분석할 때, 결정계수를 통해 변수들이 혈압 변동을 얼마나 설명하는지 판단합니다.

3. 마케팅

광고비 지출과 매출 간의 회귀모형에서 R²가 0.7이라면, 매출 변동의 70%가 광고비에 의해 설명됨을 의미합니다.


관련 지표

지표 설명
R² (결정계수) 모형이 설명하는 변동의 비율
조정 R² 변수 수를 고려한 R² 보정값
RMSE 잔차의 평균 제곱근 오차, 절대적 오차 크기 평가
MAE 평균 절대 오차, 이상치에 덜 민감

참고 자료 및 관련 문서

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
  • 관련 문서: 회귀분석, 잔차분석, 상관계수

결정계수는 통계적 모형 평가에서 핵심적인 역할을 하지만, 단독으로 해석하기보다는 다른 지표들과 함께 종합적으로 분석하는 것이 중요합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?