결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.12
조회수
7
버전
v1

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 1을 보고 있습니다.

결정계수

개요

결정계수(決定, Coefficient of Determination)는 회귀분석에서 모형의 적합도(fit)를 평가하는 대표적인 지표로, (아르제곱)이라고도 불린다. 결정계수는 종속변수의 변동성 중 몇 퍼센트가 독립변수(들)에 의해 설명되는지를 나타내는 값으로, 회귀 모형이 데이터를 얼마나 잘 설명하는지를 수치적으로 평가할 수 있게 해준다.

결정계수는 일반적으로 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 모형의 설명력이 높다고 판단할 수 있다. 예를 들어, 결정계수가 0.85라면 종속변수의 변동성 중 85%가 모형에 의해 설명된다는 의미이다.


정의와 수식

결정계수 $ R^2 $는 다음과 같은 공식으로 정의된다:

$$ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} $$

여기서: - $ SS_{\text{res}} $: 잔차제곱합 (Sum of Squares of Residuals)
$$ SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ 관측값 $ y_i $와 회귀모형이 예측한 값 $ \hat{y}_i $의 차이(잔차)를 제곱하여 합한 값이다.

  • $ SS_{\text{tot}} $: 총제곱합 (Total Sum of Squares)
    $$ SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$ 관측값 $ y_i $와 종속변수의 평균 $ \bar{y} $의 차이를 제곱하여 합한 값으로, 종속변수의 전체 변동성을 나타낸다.

결정계수는 "기본 모형(평균만 사용하는 모형)
- $ R^2 = 1 $: 잔차가 없음 → 완벽한 설명
- $ R^2 = 0 $: 회귀모형이 평균 모형과 동일한 설명력
- $ R^2 < 0 $: 회귀모형이 평균보다 더 나쁨 (모형이 잘못 설정되었을 수 있음)


결정계수의 해석

1. 설명력의 척도

결정계수는 회귀모형의 설명력(explanatory power)을 나타내며, 독립변수가 종속변수의 변동을 얼마나 잘 설명하는지를 보여준다. 예를 들어, 어떤 경제 모형에서 소비지출을 소득으로 설명할 때 $ R^2 = 0.72 $라면, 소득이 소비지출의 변동 중 72%를 설명할 수 있다는 의미이다.

2. 주의사항

  • 결정계수가 높다고 해서 인과관계를 의미하지 않는다.
    높은 $ R^2 $는 단지 상관관계 또는 수학적 적합도가 높다는 것이며, 변수 간 인과관계를 보장하지 않는다.

  • 과적합(Overfitting)의 위험
    독립변수를 지나치게 많이 추가하면 결정계수는 인위적으로 증가할 수 있다. 이 경우 모형이 훈련 데이터에는 잘 맞지만 새로운 데이터에 대해서는 예측력이 낮아질 수 있다.

  • 비선형 관계의 무시 가능성
    결정계수는 선형 관계를 기반으로 하므로, 비선형 관계가 존재하더라도 $ R^2 $가 낮게 나올 수 있다.


수정 결정계수 (Adjusted R²)

다중회귀분석에서 독립변수의 수가 증가하면 결정계수는 항상 증가하는 경향이 있다. 이를 보완하기 위해 수정 결정계수(Adjusted R²)를 사용한다.

$$ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) $$

여기서: - $ n $: 표본 크기 - $ k $: 독립변수의 수

수정 결정계수는 변수 추가 시 그 변수가 실제로 설명력을 향상시키지 않으면 값이 감소할 수 있도록 조정한다. 따라서 모형 비교 시 더 신뢰할 수 있는 지표이다.


결정계수의 활용 분야

  • 경제학: 소비, 투자, 성장률 등의 모형 평가
  • 의학 및 보건학: 질병 발생률과 위험 요인 간의 관계 분석
  • 사회과학: 교육 수준, 소득, 범죄율 등 복합적 사회 현상 설명
  • 공학 및 자연과학: 실험 데이터의 모델링 및 예측 정확도 평가

관련 개념

개념 설명
상관계수(r) 두 변수 간 선형 관계의 강도와 방향을 나타냄. 단순회귀에서 $ R^2 = r^2 $
잔차 분석 결정계수 외에 잔차의 패턴을 분석해 모형의 가정(선형성, 등분산성 등)을 검증
AIC/BIC 정보 기준으로, 결정계수와 달리 모형의 복잡성도 고려한 평가 지표

참고 자료

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
  • Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
  • 한국통계진흥원 (2023). 기초 통계 분석 가이드북.

결정계수는 회귀분석에서 핵심적인 평가 지표이지만, 단독으로 해석하기보다는 잔차 분석, 수정 결정계수, 다른 정보 기준과 함께 종합적으로 활용하는 것이 바람직하다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?