결정계수

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.28
조회수
None
버전
v5

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 5을 보고 있습니다.

결정계수

개요

결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석 모델의 적합도를 평가하는 대표적인 지표로, 영어로는 R-squared(R²)라고 불립니다. 이 값은 독립변수들이 종속변수의 변동성을 얼마나 잘 설명하는지를 나타내며, 0에서 1 사이의 값을 가집니다. 결정계수는 회귀분석 결과의 신뢰성과 설명력을 판단하는 데 핵심적인 역할을 하며, 경제학, 사회과학, 공학 등 다양한 분야에서 널리 사용됩니다.


정의와 수식

결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Regression Sum of Squares, RSS 또는 ESS), 그리고 잔차제곱합(Residual Sum of Squares, SSE)을 기반으로 계산됩니다.

수식 표현

[ R^2 = 1 - \frac{\text{SSE}}{\text{TSS}} ]

여기서:

  • SSE(잔차제곱합): 관측값과 회귀모형의 예측값 사이의 차이의 제곱합
    [ \text{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]

  • TSS(총제곱합): 관측값과 종속변수의 평균 사이의 차이의 제곱합
    [ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ]

  • R² = 1일 경우: 모델이 종속변수의 모든 변동을 완벽히 설명함

  • R² = 0일 경우: 모델이 종속변수의 변동을 전혀 설명하지 못함
  • R² < 0일 수도 있음: 모델이 평균 모델보다 성능이 나쁠 때 (예: 잘못된 모델 설정)

또한, 결정계수는 관측값 (y_i)와 예측값 (\hat{y}_i) 사이의 피어슨 상관계수의 제곱과도 동일합니다 (단순 선형회귀의 경우).


해석과 의미

결정계수는 다음과 같이 해석할 수 있습니다:

  • R² = 0.85 → 독립변수들이 종속변수의 변동성 중 약 85%를 설명함
  • R² = 0.30 → 설명력이 낮아, 모델 외 다른 요인들이 중요한 영향을 미칠 수 있음

주의사항

  • 결정계수는 설명력의 척도이지, 인과관계를 의미하지 않습니다.
  • 높은 R² 값이 항상 좋은 모델을 의미하는 것은 아닙니다. 과적합(overfitting)일 수 있음
  • 독립변수를 추가할수록 R²는 항상 증가하거나 유지되며, 이는 모델 선택 시 주의가 필요함

수정 결정계수 (Adjusted R²)

다중회귀분석에서 독립변수를 추가하면 결정계수는 기계적으로 증가할 수 있습니다. 이를 보완하기 위해 도입된 개념이 수정 결정계수(Adjusted R²)입니다.

수식

[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

  • (n): 표본 크기
  • (k): 독립변수의 수

수정 결정계수는 독립변수의 수를 고려하여 과도한 변수 추가를 억제하며, 모델 비교 시 더 신뢰할 수 있는 지표입니다.


활용 예시

예를 들어, 어떤 기업이 광고비를 기반으로 매출을 예측하는 회귀모델을 만들었다고 가정합시다.

  • 모델의 결정계수 R² = 0.72
  • 이는 광고비가 매출의 변동성 중 약 72%를 설명한다는 의미
  • 나머지 28%는 가격, 경쟁사 전략, 계절성 등 다른 요인에 기인함

이 정보는 마케팅 전략 수립 시 중요한 의사결정 자료로 활용될 수 있습니다.


한계와 오해

결정계수는 유용하지만 다음과 같은 오해가 발생할 수 있습니다:

  1. R²가 높다고 해서 모델이 항상 좋은 것은 아님: 비선형 관계를 선형 모델로 강제하면 R²가 높을 수 있으나, 해석이 부정확할 수 있음
  2. 아웃라이어에 민감함: 극단값이 R²에 큰 영향을 줄 수 있음
  3. 예측 정확도와 직접적인 상관관계 없음: R²는 설명력이지, 예측 오차를 직접 나타내지 않음

따라서 결정계수는 다양한 평가 지표(예: RMSE, MAE, AIC, BIC)와 함께 종합적으로 고려되어야 합니다.


관련 문서 및 참고 자료

참고 문헌

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.

결정계수는 회귀모형의 성능 평가에서 기초적이면서도 필수적인 지표입니다. 그러나 그 해석에는 신중함이 필요하며, 모델의 전반적인 타당성을 판단하기 위해서는 여러 통계적 도구와 함께 종합적으로 활용되어야 합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?