결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.31
조회수
None
버전
v7

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 7을 보고 있습니다.

결정계수

개요

결정계수(Coefficient of Determination)는 회귀분석에서 모델의 적합도를 평가하는 가장 중요한 지표 중 하나이다. 기호로는 일반적으로 (R-squared)로 표기되며, 종속변수의 변동성 중 독 수치화한 것이다.

결정계수는 모델의 예측력과 설명력을 간접적으로 평가하는 데 사용되며, 통계학, 경제학, 사회과학, 기계학습 등 다양한 분야에서 널리 활용된다.


정의와 계산 방법

수학적 정의

결정계수 $ R^2 $는 다음과 같이 정의된다:

$$ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} $$

여기서: - $ SS_{\text{res}} $는 잔차제곱합(Sum of Squares of Residuals)으로, 관측값과 회귀모델의 예측값 사이의 차이의 제곱합이다. $$ SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ - $ SS_{\text{tot}} $는 총제곱합(Total Sum of Squares)으로, 관측값과 전체 평균 사이의 차이의 제곱합이다. $$ SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$

해석

  • $ R^2 = 1 $: 모델이 종속변수의 모든 변동을 완벽하게 설명함 (잔차 없음).
  • $ R^2 = 0 $: 모델이 평균값보다 더 나은 설명력을 제공하지 않음.
  • $ 0 < R^2 < 1 $: 독립변수가 종속변수의 변동 중 $ R^2 \times 100\% $를 설명함.

예를 들어, $ R^2 = 0.85 $라면 종속변수의 변동 중 85%가 회귀 모델에 의해 설명된다는 의미이다.


특성과 주의사항

장점

  • 해석이 직관적: 백분율 형태로 설명 가능하여 비전문가도 이해하기 쉬움.
  • 모델 비교에 유용: 동일한 데이터셋에 적용된 여러 회귀모델의 성능 비교에 사용 가능.

한계점

  1. 항상 증가하는 경향: 독립변수를 추가할수록 $ R^2 $는 감소하지 않고 항상 같거나 증가한다. 이는 과적합(overfitting)의 위험을 숨길 수 있다.

  2. 인과관계를 의미하지 않음: 높은 $ R^2 $ 값이 독립변수와 종속변수 간의 인과관계를 의미하지는 않는다.

  3. 음수값 가능성: 비선형 모델이나 제약 조건이 있는 모델에서는 $ R^2 $가 음수가 될 수도 있다. 이는 모델이 평균보다 더 나쁘게 예측하고 있음을 의미한다.


수정 결정계수 (Adjusted R²)

결정계수의 단점을 보완하기 위해 수정 결정계수(Adjusted R²)가 제안되었다. 이는 독립변수의 수를 고려하여 $ R^2 $에 패널티를 부여한다.

$$ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) $$

여기서: - $ n $: 표본 크기 - $ k $: 독립변수의 개수

수정 결정계수는 변수를 추가했을 때 모델의 설명력 향상이 통계적으로 의미가 있어야만 증가하므로, 변수 선택 과정에서 더 신뢰할 수 있는 지표가 된다.


활용 예시

다음은 간단한 선형회귀 모델에서의 결정계수 계산 예시이다.

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# 예시 데이터
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1.1, 1.9, 3.0, 4.1, 5.2])

# 모델 학습
model = LinearRegression()
model.fit(X, y)

# 예측 및 R² 계산
y_pred = model.predict(X)
r2 = r2_score(y, y_pred)

print(f"결정계수 (R²): {r2:.4f}")  # 출력 예: 0.9975

이 결과는 모델이 데이터의 변동성을 약 99.75% 설명하고 있음을 보여준다.


관련 개념

개념 설명
상관계수(r) 두 변수 간 선형 관계의 강도와 방향을 나타냄. 단순회귀에서 $ R^2 = r^2 $
잔차 분석 $ R^2 $는 전반적인 적합도를 보여주지만, 잔차 분석을 통해 모델의 가정 충족 여부 확인 필요
AIC/BIC 정보 기준으로, $ R^2 $보다 모델 선택에 더 적합한 경우 있음

참고 자료

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
  • 한국통계학회 (2020). 통계학 개론. 박영사.

관련 문서


결정계수는 회귀분석의 핵심 평가 지표로서, 모델의 성능을 빠르게 파악하는 데 매우 유용하지만, 단독으로 해석하기보다는 다른 진단 도구와 함께 종합적으로 평가하는 것이 바람직하다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?