결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.28
조회수
None
버전
v6

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 6을 보고 있습니다.

결정계수

개요

결정계수(Coefficient of Determination)는 통계학에서 회귀분석 모델의 적합도를 평가하는 대표적인 지표로, 영어로는 R-squared(R²)라고 한다. 결정계수는 독립변수(또는 설명변수)가 종속변수(또는 반응변수)의 변동성 중 얼마나 잘 설명하는지를 나타내는 값으로, 0에서 1 사이의 값을 가진다. 값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미하며, 0에 가까울수록 설명력이 낮음을 나타낸다.

이 문서에서는 결정계수의 정의, 계산 방법, 해석 방법, 한계점, 그리고 실제 활용 예시에 대해 상세히 설명한다.


결정계수의 정의와 수식

기본 개념

결정계수는 회귀 모델이 관측된 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 비율이다. 수식적으로는 다음과 같이 정의된다:

[ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} ]

여기서: - ( SS_{\text{res}} )는 잔차제곱합(Sum of Squares of Residuals)으로, 모델의 예측값과 실제값의 차이를 제곱한 합이다. - ( SS_{\text{tot}} )는 총제곱합(Total Sum of Squares)으로, 실제값과 종속변수의 평균값의 차이를 제곱한 합이다.

각각의 수식은 다음과 같다: [ SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 ] [ SS{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ]

여기서: - ( y_i ): 관측된 종속변수 값 - ( \hat{y}_i ): 회귀 모델에 의해 예측된 값 - ( \bar{y} ): 종속변수의 평균값 - ( n ): 관측치의 수


결정계수의 해석

값의 범위와 의미

  • ( R^2 = 1 ): 모델이 데이터의 모든 변동성을 완벽하게 설명함 (잔차가 없음).
  • ( R^2 = 0 ): 모델이 종속변수의 변동성을 전혀 설명하지 못함 (모델의 예측력이 평균값과 동일).
  • 0 < ( R^2 ) < 1: 모델이 일부 변동성을 설명함. 예를 들어, ( R^2 = 0.8 )은 종속변수의 변동성 중 80%가 독립변수에 의해 설명됨을 의미.

주의사항

결정계수는 높을수록 좋다고 단정 지을 수 없다. 모델이 과적합(overfitting)된 경우, 훈련 데이터에 대해서는 높은 ( R^2 ) 값을 보일 수 있지만, 새로운 데이터에 대해서는 일반화 성능이 낮을 수 있다.


조정 결정계수 (Adjusted R-squared)

다중 회귀분석에서 독립변수의 수가 증가하면, 결정계수는 자동으로 증가할 수 있다. 이 문제를 보완하기 위해 조정 결정계수(Adjusted R-squared)를 사용한다.

[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

여기서: - ( n ): 샘플 크기 - ( k ): 독립변수의 수

조정 결정계수는 변수 추가 시 실제 설명력 향상이 없으면 값이 감소할 수 있도록 조정되므로, 모델 비교에 더 적합하다.


결정계수의 한계와 주의점

  1. 인과관계를 보장하지 않음: 높은 ( R^2 ) 값은 상관관계를 의미할 뿐, 독립변수가 종속변수를 원인으로 유발한다는 것을 보장하지 않는다.
  2. 비선형 관계의 무시: 결정계수는 선형 회귀에 기반하므로, 비선형 관계가 강해도 ( R^2 ) 값이 낮게 나올 수 있다.
  3. 이상치에 민감: 극단적인 값(이상치)이 ( SS_{\text{res}} )에 큰 영향을 미쳐 ( R^2 )를 왜곡할 수 있다.
  4. 모델 선택의 유일한 기준이 될 수 없음: ( R^2 ) 외에도 AIC, BIC, RMSE 등의 지표와 함께 종합적으로 평가해야 한다.

활용 예시

가령, 어떤 회사가 광고비를 기반으로 매출을 예측하는 회귀모델을 만들었다고 하자. 분석 결과 ( R^2 = 0.75 )가 나왔다면, 이는 광고비가 전체 매출 변동성의 75%를 설명할 수 있음을 의미한다. 나머지 25%는 다른 요인(예: 계절성, 경쟁사 활동 등)에 의해 영향을 받을 수 있다.


관련 문서 및 참고 자료

결정계수는 회귀분석의 핵심 평가 지표 중 하나이지만, 맹목적으로 해석해서는 안 된다. 데이터의 특성과 모델의 목적을 고려하여 신중하게 활용해야 한다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?