결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.31
조회수
5
버전
v9

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 최신 버전을 보고 있습니다.

결정계수

개요

결정계수(決定係數, 영어: Coefficient of Determination)는 회귀분석에서 독립변수(설명변수)가 종속변수(반응변수)의 변동을 얼마나 잘 설명하는지를 나타내는 통계량이다. 일반적으로 (R-squared)로 표기되며, 그 값은 0에서 1 사이의 실수로 표현된다. 결정계수는 회귀 모형의 적합도(Goodness of Fit)를 평가하는 데 핵심적인 지표로, 모형이 데이터를 얼마나 잘 설명하는지를 직관적으로 이해할 수 있게 해준다.

예를 들어, R² 값이 0.85라면, 종속변수의 변동 중 약 85%가 모형에 포함된 독립변수들에 의해 설명됨을 의미한다.


정의와 계산 방법

결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Regression Sum of Squares, RSS 또는 ESS), 그리고 잔차제곱합(Residual Sum of Squares, SSE)의 관계를 통해 정의된다.

1. 제곱합의 정의

  • 총제곱합 (TSS): 관측값의 평균으로부터의 편차 제곱합
    [ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ]

  • 회귀제곱합 (ESS): 회귀식으로 예측된 값과 평균 간의 편차 제곱합
    [ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ]

  • 잔차제곱합 (SSE): 관측값과 회귀식 예측값 간의 편차 제곱합
    [ \text{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]

이들 사이에는 다음의 관계가 성립한다: [ \text{TSS} = \text{ESS} + \text{SSE} ]

2. 결정계수의 계산

결정계수 ( R^2 )는 다음과 같이 정의된다: [ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{SSE}}{\text{TSS}} ]

이 식에서 ( R^2 )가 1에 가까울수록 모형이 데이터를 잘 설명하고 있음을 의미하며, 0에 가까울수록 설명력이 낮음을 나타낸다.


해석과 활용

R² 값의 해석

R² 값 범위 해석
0 ~ 0.3 설명력이 매우 낮음
0.3 ~ 0.5 설명력이 낮음
0.5 ~ 0.7 설명력이 보통
0.7 ~ 0.9 설명력이 높음
0.9 ~ 1.0 설명력이 매우 높음

⚠️ 주의: 높은 R² 값이 항상 좋은 모형을 의미하지는 않는다. 과적합(overfitting)일 가능성도 있으며, 변수가 많을 경우 인위적으로 R²가 증가할 수 있다.

단순 회귀와 다중 회귀에서의 차이

  • 단순 선형 회귀(독립변수 1개): ( R^2 )는 피어슨 상관계수 ( r )의 제곱과 같다. [ R^2 = r^2 ]

  • 다중 회귀분석(독립변수 여러 개): ( R^2 )는 종속변수와 여러 독립변수의 선형결합 사이의 결정계수로 해석된다.


한계와 보정 결정계수

R²의 한계

  1. 변수 추가 시 항상 증가: 새로운 독립변수를 추가하면 SSE는 감소하거나 그대로이므로 R²는 항상 증가하거나 유지된다. 이는 의미 없는 변수도 모형에 포함시키면 R²가 높아지는 문제가 발생한다.
  2. 과적합 가능성: 변수를 지나치게 많이 추가하면 훈련 데이터에는 잘 맞지만, 새로운 데이터에는 잘 적용되지 않을 수 있다.

보정 결정계수 (Adjusted R²)

이러한 문제를 보완하기 위해 보정 결정계수(Adjusted R²)가 사용된다. 이는 변수의 수를 고려하여 R²를 조정한다.

[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

여기서: - ( n ): 표본 크기 - ( k ): 독립변수의 수

Adjusted R²는 변수를 추가해도 모형의 설명력이 충분히 증가하지 않으면 감소할 수 있으므로, 모형 선택 시 더 신뢰할 수 있는 지표로 사용된다.


관련 개념

1. 잔차 분석

결정계수가 높다고 해서 반드시 모형이 적절하다는 보장은 없다. 잔차(residual)의 패턴을 분석하여 선형성, 등분산성, 독립성 등의 가정이 만족되는지 확인해야 한다.

2. 결정계수와 p-값

결정계수는 설명력의 크기를 나타내지만, 회귀계수의 통계적 유의성을 판단하는 데는 p-값이 필요하다. 높은 R²와 유의미하지 않은 회귀계수가 함께 나타날 수 있다.


참고 자료 및 관련 문서

📘 추천 도서:
- Applied Linear Statistical Models by Kutner et al.
- Introduction to Statistical Learning by James, Witten, Hastie, and Tibshirani


결정계수는 회귀모형의 성능 평가에서 가장 기본적이면서도 중요한 지표이지만, 단독으로 해석하기보다는 다른 통계량과 함께 종합적으로 평가하는 것이 바람직하다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?