잔차 제곱합
📋 문서 버전
이 문서는 2개의 버전이 있습니다. 현재 버전 1을 보고 있습니다.
잔차 제곱합
개요
잔차 제곱합(Sum of Squared Residuals, SSR)은 회귀분석에서 모형의 예측값과 실제 관측값 사이의 차이(잔차)를 제곱한 값의 총합을 나타내는 통계량입니다. 이는 모형이 데이터의 변동성을 설명하지 못하는 부분을 수치화하여 모형의 적합도를 평가하는 데 활용됩니다. SSR이 작을수록 회귀모형이 데이터를 더 정확하게 설명한다는 의미이며, 다양한 통계적 지표(예: R², MSE) 계산에 필수적인 요소로 사용됩니다.
수학적 정의
기본 공식
잔차 제곱합(SSR)은 다음과 같이 정의됩니다:
SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
- $ y_i $: 실제 관측값
- $ \hat{y}_i $: 회귀모형이 예측한 값
- $ n $: 데이터 포인트의 수
구성 요소 설명
- 잔차(Residual): $ e_i = y_i - \hat{y}_i $
예측값과 실제값의 차이를 나타냅니다. - 제곱: 잔차의 부호를 제거하고 큰 오차에 더 많은 가중치를 부여합니다.
- 총합: 모든 데이터 포인트의 제곱 잔차를 합산하여 모형 전반의 오차를 측정합니다.
의미와 해석
SSR의 해석
- 낮은 SSR: 모형이 데이터를 잘 설명함을 의미합니다.
예: $ SSR = 10 $ vs. $ SSR = 100 $ → 첫 번째 모형이 더 정확함. - 높은 SSR: 모형이 데이터의 패턴을 충분히 포착하지 못함을 나타냅니다.
모형 비교
SSR은 동일한 데이터에 적용된 다양한 회귀모형을 비교하는 기준으로 사용됩니다.
예: 선형 회귀 모형 A와 다항 회귀 모형 B의 SSR을 비교하여 더 나은 모형을 선택할 수 있습니다.
다른 통계량과의 관계
총제곱합(SST)과 회귀제곱합(SSR)
회귀분석에서 총변동(SST)은 회귀제곱합(SSR)과 잔차제곱합(SSE)으로 분해됩니다:
SST = SSR + SSE
- 회귀제곱합(SSR): $ \sum (\hat{y}_i - \bar{y})^2 $, 모형이 설명한 변동성
- 잔차제곱합(SSE): $ \sum (y_i - \hat{y}_i)^2 $, 모형이 설명하지 못한 변동성
R²(결정계수)
R²는 SSR과 SST의 비율로 계산됩니다:
R^2 = 1 - \frac{SSE}{SST}
활용 예시
예제: 단순 선형 회귀
다음 데이터를 기반으로 SSR을 계산해 봅시다:
x | y (실제) | ŷ (예측) | 잔차 $ e_i $ | $ e_i^2 $ |
---|---|---|---|---|
1 | 2 | 2.2 | -0.2 | 0.04 |
2 | 4 | 3.8 | 0.2 | 0.04 |
3 | 5 | 5.0 | 0.0 | 0.00 |
계산:
$ SSR = 0.04 + 0.04 + 0.00 = 0.08 $
이 결과는 모형이 데이터에 매우 잘 맞는다는 것을 보여줍니다.
관련 개념
평균제곱오차(MSE)
MSE는 SSR을 샘플 수 $ n $으로 나눈 값입니다:
MSE = \frac{SSE}{n}
조정된 R²(Adjusted R²)
변수 추가 시 SSR의 감소를 보정하여 과적합(overfitting)을 방지하는 지표입니다.
참고 자료
- Wikipedia - Residual sum of squares
- Khan Academy - R-squared
- Montgomery, D. C., & Peck, E. A. (2012). Introduction to Linear Regression Analysis.
잔차 제곱합은 회귀분석의 핵심 개념으로, 모형의 성능을 정량적으로 평가하는 데 없어서는 안 되는 지표입니다. 이를 이해하면 데이터에 적합한 모형을 선택하고 개선 방향을 도출하는 데 큰 도움이 됩니다.
이 문서는 AI 모델(qwen-3-235b-a22b)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.