등분산성

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2025.12.07
조회수
2
버전
v1

등분산성

등분산성(等分散性, Homoscedasticity)은 통계학, 특히 회귀분석에서 매우 중요한 가정 중 하나로, 회귀 모형의 잔차(residuals)가 모든 독립변수 값에 대해 동일한 분산을 가진다는 성질을 의미합니다. 이 가정이 만족되지 않을 경우, 회귀 계수의 추정치는 여전히 불편(unbiased)할 수 있지만, 표준오차의 추정이 부정확해져 신뢰구간이나 가설검정의 결과가 신뢰할 수 없게 됩니다. 따라서 회귀분석을 수행할 때 등분산성의 진단과 필요한 경우 이를 보완하는 방법이 필수적입니다.


개요

회귀분석에서는 여러 통계적 가정이 전제되며, 그 중 하나가 등분산성입니다. 이는 모형의 오차항(error term)이 독립변수의 모든 수준에서 동일한 분산을 가진다는 의미입니다. 반대로, 분산이 독립변수에 따라 달라지는 경우를 이분산성(Heteroscedasticity)이라고 하며, 이는 분석 결과의 신뢰도를 저하시킬 수 있습니다.

등분산성은 주로 선형회귀모형(Linear Regression)에서 중요한 역할을 하며, 일반화선형모형(GLM)이나 비모수 회귀에서는 상황에 따라 다르게 다뤄질 수 있습니다.


등분산성의 정의와 수학적 표현

등분산성은 다음과 같이 수학적으로 표현할 수 있습니다.

주어진 회귀모형:

[ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i ]

에서 오차항 (\epsilon_i)는 다음과 같은 조건을 만족해야 합니다:

[ \text{Var}(\epsilon_i | X_i) = \sigma^2 \quad \text{(모든 } i \text{에 대해 상수)} ]

즉, 조건부 분산이 독립변수 (X_i)의 값에 관계없이 일정해야 합니다. 이 조건이 성립하면 등분산성이 유지된다고 말하며, 이를 어기면 이분산성이 존재한다고 판단합니다.


이분산성의 문제점

이분산성이 존재할 경우 다음과 같은 문제가 발생합니다:

  1. 표준오차의 편의: 회귀계수의 표준오차가 과소 또는 과대 추정될 수 있습니다.
  2. 신뢰구간 및 가설검정의 왜곡: t-검정이나 F-검정의 결과가 신뢰할 수 없게 됩니다.
  3. OLS 추정량의 비효율성: 최소제곱법(OLS) 추정량은 불편성은 유지하지만, 더 이상 최소분산 추정량이 아닙니다 (BLUE 조건 위반).

등분산성 진단 방법

등분산성을 평가하기 위해 다음과 같은 방법들이 사용됩니다.

1. 잔차 플롯(Residual Plot)

가장 직관적인 방법으로, 독립변수 (X) 또는 예측값 (\hat{Y})에 대해 잔차(residuals)를 시각화합니다.

  • 등분산성 유지 시: 잔차가 일정한 폭으로 무작위로 분포
  • 이분산성 존재 시: 잔차의 분산이 삼각형, 팬 모양, 혹은 커지는 추세를 보임

예시:

import matplotlib.pyplot as plt
plt.scatter(fitted_values, residuals)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('예측값')
plt.ylabel('잔차')
plt.title('잔차 플롯')
plt.show()

2. 통계적 검정

- 브레우시-페이건 검정(Breusch-Pagan Test)

  • 귀무가설: 등분산성 유지
  • 대립가설: 이분산성 존재
  • 잔차의 제곱이 독립변수와 선형적으로 관련이 있는지 검정

- 화이트 검정(White's Test)

  • 비선형 및 교호작용 항을 포함한 보다 일반적인 형태의 이분산성 검정
  • 모형의 유연성이 높아 과적합 위험이 있음

- 골드펠드-쿼안 검정(Goldfeld-Quandt Test)

  • 데이터를 두 그룹으로 나누어 분산을 비교
  • 특정한 형태의 이분산성(예: 증가 추세)에 적합

이분산성 보정 방법

이분산성이 진단된 경우, 다음과 같은 방법으로 대응할 수 있습니다.

1. 로버스트 표준오차(Robust Standard Errors)

  • 화이트의 로버스트 표준오차(White's heteroscedasticity-consistent standard errors)를 사용
  • 회귀계수는 동일하되, 표준오차를 재추정하여 신뢰구간과 검정을 보정

예시 (R 코드):

library(sandwich)
library(lmtest)
model <- lm(y ~ x, data = df)
coeftest(model, vcov = vcovHC(model, type = "HC1"))

2. 가중최소제곱법(Weighted Least Squares, WLS)

  • 분산이 큰 관측치에 작은 가중치를 부여
  • 분산 구조를 알고 있거나 추정할 수 있을 때 효과적

3. 데이터 변환

  • 종속변수에 로그 변환, 제곱근 변환 등을 적용하여 분산을 안정화
  • 예: (\log(Y)), (\sqrt{Y})

관련 개념

개념 설명
등분산성 오차항의 분산이 독립변수와 무관하게 일정함
이분산성 오차항의 분산이 독립변수에 따라 변화함
잔차 분석 회귀 모형의 가정 진단을 위한 핵심 절차
로버스트 회귀 이상치 및 이분산성에 강건한 회귀 방법 (예: M-추정)

참고 자료 및 관련 문서


등분산성은 회귀분석의 타당성을 확보하기 위한 핵심 요소입니다. 분석 시 반드시 잔차 진단을 수행하고, 필요 시 적절한 보정 방법을 적용함으로써 신뢰할 수 있는 통계적 결론을 도출할 수 있습니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?