결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.31
조회수
None
버전
v8

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 8을 보고 있습니다.

결정계수

개요

결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석 모형의 적합도를 평가하는 데 사용되는 중요한 지표입니다. 기호로는 일반적으로 (R-squared)로 표기되며, 종속변수의 변동성 중 독립변수(또는 독립변수들)에 의해 설명될 수 있는 비율을 나타냅니다. 결정계수는 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 회귀모형이 데이터를 잘 설명한다고 판단할 수 있습니다.

이 문서에서는 결정계수의 정의, 계산 방법, 해석 방법, 한계점 및 활용 예시를 중심으로 설명합니다.


결정계수의 정의와 수학적 표현

정의

결정계수는 회귀모형이 관측된 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다. 즉, 실제 관측값과 회귀식을 통해 예측된 값 사이의 일치 정도를 수치화한 것입니다.

수식 표현

결정계수 ( R^2 )는 다음과 같이 정의됩니다:

[ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} ]

여기서: - ( SS_{\text{res}} )는 잔차제곱합(Residual Sum of Squares)으로, 관측값과 예측값의 차이(잔차)를 제곱하여 합한 값입니다. [ SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 ] - ( SS{\text{tot}} )는 총제곱합(Total Sum of Squares)으로, 관측값과 종속변수의 평균 간의 차이를 제곱하여 합한 값입니다. [ SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ]

이 식을 통해 ( R^2 )는 "모형이 설명하지 못하는 변동성의 비율"을 1에서 뺀 값으로 이해할 수 있습니다.


결정계수의 해석

결정계수의 값은 다음과 같이 해석됩니다:

( R^2 ) 값 해석
0 모형이 종속변수의 변동성을 전혀 설명하지 못함
0.5 종속변수의 변동성 중 50%가 모형에 의해 설명됨
1 모형이 종속변수의 모든 변동성을 완벽히 설명함

예를 들어, ( R^2 = 0.85 )라면, 종속변수의 변동성 중 85%가 독립변수들에 의해 설명되고, 나머지 15%는 오차나 설명되지 않은 요인에 기인한다고 해석할 수 있습니다.


결정계수의 특성과 한계

장점

  • 직관적인 해석: 0과 1 사이의 값으로, 모형의 설명력을 쉽게 이해할 수 있음.
  • 모형 비교에 유용: 동일한 데이터셋에 대해 서로 다른 회귀모형을 비교할 때 기준으로 활용 가능.

한계점

  1. 과적합(Overfitting)에 민감함: 독립변수를 추가할수록 ( R^2 )는 항상 증가하거나 변하지 않기 때문에, 무의미한 변수를 추가해도 결정계수가 높아질 수 있습니다.
  2. 인과관계를 보장하지 않음: 높은 ( R^2 ) 값이 반드시 인과관계를 의미하지는 않습니다.
  3. 음의 값 가능성: 비선형 모형이나 제약 조건이 있는 회귀에서는 ( R^2 )가 음수가 나올 수 있음 (이는 모형이 평균보다 더 나쁘게 예측하고 있음을 의미).

이러한 한계를 보완하기 위해 수정된 결정계수(Adjusted R²)가 사용됩니다. 수정된 결정계수는 변수의 수를 고려하여 패널티를 부여하므로, 변수를 무분별하게 추가해도 증가하지 않습니다.

[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

여기서 ( n )은 샘플 크기, ( k )는 독립변수의 수입니다.


활용 예시

결정계수는 다음과 같은 분야에서 널리 사용됩니다:

  • 경제학: 소비지출과 소득 간의 관계 모형에서 설명력 평가
  • 의학: 약물 복용량과 혈중 농도의 관계 분석
  • 기계학습: 회귀 모델의 성능 평가 지표 중 하나로 활용

예를 들어, 학생들의 공부 시간과 시험 점수 간의 회귀분석에서 ( R^2 = 0.72 )가 나왔다면, 공부 시간이 시험 점수의 72%를 설명한다고 해석할 수 있습니다.


참고 자료 및 관련 문서

참고 문헌
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.


결정계수는 회귀분석의 핵심 평가 지표로서, 모형의 설명력을 직관적으로 파악할 수 있게 해주는 중요한 도구입니다. 그러나 그 한계를 인지하고, 수정된 결정계수나 다른 평가 지표(예: RMSE, AIC 등)와 함께 종합적으로 활용하는 것이 바람직합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?