결정계수
📋 문서 버전
이 문서는 9개의 버전이 있습니다. 현재 버전 5을 보고 있습니다.
결정계수
개요
결정계수(決定係數, Coefficient of Determination)는 통계학에서 회귀분석 모델의 적합도를 평가하는 대표적인 지표로, 영어로는 R-squared(R²)라고 불립니다. 이 값은 독립변수들이 종속변수의 변동성을 얼마나 잘 설명하는지를 나타내며, 0에서 1 사이의 값을 가집니다. 결정계수는 회귀분석 결과의 신뢰성과 설명력을 판단하는 데 핵심적인 역할을 하며, 경제학, 사회과학, 공학 등 다양한 분야에서 널리 사용됩니다.
정의와 수식
결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Regression Sum of Squares, RSS 또는 ESS), 그리고 잔차제곱합(Residual Sum of Squares, SSE)을 기반으로 계산됩니다.
수식 표현
[ R^2 = 1 - \frac{\text{SSE}}{\text{TSS}} ]
여기서:
-
SSE(잔차제곱합): 관측값과 회귀모형의 예측값 사이의 차이의 제곱합
[ \text{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ] -
TSS(총제곱합): 관측값과 종속변수의 평균 사이의 차이의 제곱합
[ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ] -
R² = 1일 경우: 모델이 종속변수의 모든 변동을 완벽히 설명함
- R² = 0일 경우: 모델이 종속변수의 변동을 전혀 설명하지 못함
- R² < 0일 수도 있음: 모델이 평균 모델보다 성능이 나쁠 때 (예: 잘못된 모델 설정)
또한, 결정계수는 관측값 (y_i)와 예측값 (\hat{y}_i) 사이의 피어슨 상관계수의 제곱과도 동일합니다 (단순 선형회귀의 경우).
해석과 의미
결정계수는 다음과 같이 해석할 수 있습니다:
- R² = 0.85 → 독립변수들이 종속변수의 변동성 중 약 85%를 설명함
- R² = 0.30 → 설명력이 낮아, 모델 외 다른 요인들이 중요한 영향을 미칠 수 있음
주의사항
- 결정계수는 설명력의 척도이지, 인과관계를 의미하지 않습니다.
- 높은 R² 값이 항상 좋은 모델을 의미하는 것은 아닙니다. 과적합(overfitting)일 수 있음
- 독립변수를 추가할수록 R²는 항상 증가하거나 유지되며, 이는 모델 선택 시 주의가 필요함
수정 결정계수 (Adjusted R²)
다중회귀분석에서 독립변수를 추가하면 결정계수는 기계적으로 증가할 수 있습니다. 이를 보완하기 위해 도입된 개념이 수정 결정계수(Adjusted R²)입니다.
수식
[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]
- (n): 표본 크기
- (k): 독립변수의 수
수정 결정계수는 독립변수의 수를 고려하여 과도한 변수 추가를 억제하며, 모델 비교 시 더 신뢰할 수 있는 지표입니다.
활용 예시
예를 들어, 어떤 기업이 광고비를 기반으로 매출을 예측하는 회귀모델을 만들었다고 가정합시다.
- 모델의 결정계수 R² = 0.72
- 이는 광고비가 매출의 변동성 중 약 72%를 설명한다는 의미
- 나머지 28%는 가격, 경쟁사 전략, 계절성 등 다른 요인에 기인함
이 정보는 마케팅 전략 수립 시 중요한 의사결정 자료로 활용될 수 있습니다.
한계와 오해
결정계수는 유용하지만 다음과 같은 오해가 발생할 수 있습니다:
- R²가 높다고 해서 모델이 항상 좋은 것은 아님: 비선형 관계를 선형 모델로 강제하면 R²가 높을 수 있으나, 해석이 부정확할 수 있음
- 아웃라이어에 민감함: 극단값이 R²에 큰 영향을 줄 수 있음
- 예측 정확도와 직접적인 상관관계 없음: R²는 설명력이지, 예측 오차를 직접 나타내지 않음
따라서 결정계수는 다양한 평가 지표(예: RMSE, MAE, AIC, BIC)와 함께 종합적으로 고려되어야 합니다.
관련 문서 및 참고 자료
참고 문헌
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
결정계수는 회귀모형의 성능 평가에서 기초적이면서도 필수적인 지표입니다. 그러나 그 해석에는 신중함이 필요하며, 모델의 전반적인 타당성을 판단하기 위해서는 여러 통계적 도구와 함께 종합적으로 활용되어야 합니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.