등분산성
등분산성
등분산성(等分散性, Homoscedasticity)은 통계학, 특히 회귀분석에서 매우 중요한 가정 중 하나로, 회귀 모형의 잔차(residuals)가 모든 독립변수 값에 대해 동일한 분산을 가진다는 성질을 의미합니다. 이 가정이 만족되지 않을 경우, 회귀 계수의 추정치는 여전히 불편(unbiased)할 수 있지만, 표준오차의 추정이 부정확해져 신뢰구간이나 가설검정의 결과가 신뢰할 수 없게 됩니다. 따라서 회귀분석을 수행할 때 등분산성의 진단과 필요한 경우 이를 보완하는 방법이 필수적입니다.
개요
회귀분석에서는 여러 통계적 가정이 전제되며, 그 중 하나가 등분산성입니다. 이는 모형의 오차항(error term)이 독립변수의 모든 수준에서 동일한 분산을 가진다는 의미입니다. 반대로, 분산이 독립변수에 따라 달라지는 경우를 이분산성(Heteroscedasticity)이라고 하며, 이는 분석 결과의 신뢰도를 저하시킬 수 있습니다.
등분산성은 주로 선형회귀모형(Linear Regression)에서 중요한 역할을 하며, 일반화선형모형(GLM)이나 비모수 회귀에서는 상황에 따라 다르게 다뤄질 수 있습니다.
등분산성의 정의와 수학적 표현
등분산성은 다음과 같이 수학적으로 표현할 수 있습니다.
주어진 회귀모형:
[ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i ]
에서 오차항 (\epsilon_i)는 다음과 같은 조건을 만족해야 합니다:
[ \text{Var}(\epsilon_i | X_i) = \sigma^2 \quad \text{(모든 } i \text{에 대해 상수)} ]
즉, 조건부 분산이 독립변수 (X_i)의 값에 관계없이 일정해야 합니다. 이 조건이 성립하면 등분산성이 유지된다고 말하며, 이를 어기면 이분산성이 존재한다고 판단합니다.
이분산성의 문제점
이분산성이 존재할 경우 다음과 같은 문제가 발생합니다:
- 표준오차의 편의: 회귀계수의 표준오차가 과소 또는 과대 추정될 수 있습니다.
- 신뢰구간 및 가설검정의 왜곡: t-검정이나 F-검정의 결과가 신뢰할 수 없게 됩니다.
- OLS 추정량의 비효율성: 최소제곱법(OLS) 추정량은 불편성은 유지하지만, 더 이상 최소분산 추정량이 아닙니다 (BLUE 조건 위반).
등분산성 진단 방법
등분산성을 평가하기 위해 다음과 같은 방법들이 사용됩니다.
1. 잔차 플롯(Residual Plot)
가장 직관적인 방법으로, 독립변수 (X) 또는 예측값 (\hat{Y})에 대해 잔차(residuals)를 시각화합니다.
- 등분산성 유지 시: 잔차가 일정한 폭으로 무작위로 분포
- 이분산성 존재 시: 잔차의 분산이 삼각형, 팬 모양, 혹은 커지는 추세를 보임
예시:
import matplotlib.pyplot as plt
plt.scatter(fitted_values, residuals)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('예측값')
plt.ylabel('잔차')
plt.title('잔차 플롯')
plt.show()
2. 통계적 검정
- 브레우시-페이건 검정(Breusch-Pagan Test)
- 귀무가설: 등분산성 유지
- 대립가설: 이분산성 존재
- 잔차의 제곱이 독립변수와 선형적으로 관련이 있는지 검정
- 화이트 검정(White's Test)
- 비선형 및 교호작용 항을 포함한 보다 일반적인 형태의 이분산성 검정
- 모형의 유연성이 높아 과적합 위험이 있음
- 골드펠드-쿼안 검정(Goldfeld-Quandt Test)
- 데이터를 두 그룹으로 나누어 분산을 비교
- 특정한 형태의 이분산성(예: 증가 추세)에 적합
이분산성 보정 방법
이분산성이 진단된 경우, 다음과 같은 방법으로 대응할 수 있습니다.
1. 로버스트 표준오차(Robust Standard Errors)
- 화이트의 로버스트 표준오차(White's heteroscedasticity-consistent standard errors)를 사용
- 회귀계수는 동일하되, 표준오차를 재추정하여 신뢰구간과 검정을 보정
예시 (R 코드):
library(sandwich)
library(lmtest)
model <- lm(y ~ x, data = df)
coeftest(model, vcov = vcovHC(model, type = "HC1"))
2. 가중최소제곱법(Weighted Least Squares, WLS)
- 분산이 큰 관측치에 작은 가중치를 부여
- 분산 구조를 알고 있거나 추정할 수 있을 때 효과적
3. 데이터 변환
- 종속변수에 로그 변환, 제곱근 변환 등을 적용하여 분산을 안정화
- 예: (\log(Y)), (\sqrt{Y})
관련 개념
| 개념 | 설명 |
|---|---|
| 등분산성 | 오차항의 분산이 독립변수와 무관하게 일정함 |
| 이분산성 | 오차항의 분산이 독립변수에 따라 변화함 |
| 잔차 분석 | 회귀 모형의 가정 진단을 위한 핵심 절차 |
| 로버스트 회귀 | 이상치 및 이분산성에 강건한 회귀 방법 (예: M-추정) |
참고 자료 및 관련 문서
- Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
- Greene, W. H. (2018). Econometric Analysis. Pearson.
- Kaggle: Residual Analysis Guide
- R 패키지
sandwich공식 문서
등분산성은 회귀분석의 타당성을 확보하기 위한 핵심 요소입니다. 분석 시 반드시 잔차 진단을 수행하고, 필요 시 적절한 보정 방법을 적용함으로써 신뢰할 수 있는 통계적 결론을 도출할 수 있습니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.