분산

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2025.09.19
조회수
1
버전
v1

분산

개요

분산(Variance)은 통계학에서 데이터의 산포도, 즉 데이터 값들이 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 대표적인 척도이다. 분산은 회귀분석, 추정, 가설 검정 등 다양한 통계적 분석에서 핵심적인 역할을 하며, 데이터의 변동성과 불확실성을 정량적으로 평가하는 데 사용된다. 특히 회귀분석에서는 잔차의 분산, 설명변수의 분산, 그리고 오차항의 분산 등을 분석함으로써 모델의 적합도와 신뢰도를 판단할 수 있다.

분산의 값이 작을수록 데이터는 평균 근처에 밀집되어 있으며, 값이 클수록 데이터가 넓게 퍼져 있음을 의미한다. 분산은 항상 0 이상의 값을 가지며, 단위는 원래 변수의 단위의 제곱이다.


분산의 정의와 계산

수학적 정의

모집단의 분산(σ²)은 각 데이터 값($x_i$)과 모평균(μ)의 차이의 제곱을 데이터 수($N$)로 나눈 값으로 정의된다:

$$ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 $$

표본 분산($s^2$)은 모집단 분산의 추정치로, 자유도를 고려하여 $n-1$로 나누는 것이 일반적이다:

$$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$

여기서, - $x_i$: 개별 관측값 - $\bar{x}$: 표본 평균 - $n$: 표본 크기

$n-1$으로 나누는 이유는 불편 추정량(unbiased estimator)을 얻기 위해서이다. 이는 표본 분산이 모분산을 과소평가하지 않도록 보정하는 과정이다.


분산의 성질

분산은 다음과 같은 중요한 수학적 성질을 가진다:

  1. 항등성: 상수 $c$에 대해 $\text{Var}(c) = 0$
  2. 선형 변환: 상수 $a, b$에 대해 $\text{Var}(aX + b) = a^2 \text{Var}(X)$
  3. 독립 변수의 합: $X$와 $Y$가 독립이면 $\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)$
  4. 비음수성: 모든 분산은 0 이상이다. 즉, $\text{Var}(X) \geq 0$

회귀분석에서의 분산

회귀분석에서는 분산이 여러 측면에서 중요한 의미를 가진다.

1. 잔차 분산 (Residual Variance)

잔차 분산은 관측값과 회귀모형의 예측값 사이의 차이(잔차)의 분산을 의미한다. 이는 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 척도이며, 작을수록 모델의 적합도가 높다고 판단할 수 있다.

$$ \text{잔차 분산} = \frac{1}{n-p-1} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

여기서, - $n$: 관측치 수 - $p$: 독립변수의 수 - $y_i$: 실제 관측값 - $\hat{y}_i$: 회귀모형의 예측값

2. 오차항의 분산 (Error Variance)

회귀모형에서 오차항(ε)의 분산은 모델이 설명하지 못하는 변동성의 정도를 나타낸다. 이는 모델의 정확도와 직결되며, 통계적 추론(예: 신뢰구간, 가설 검정)에서 중요한 역할을 한다. 예를 들어, 회귀계수의 표준오차는 오차분산에 비례한다.

3. 설명변수의 분산

독립변수의 분산이 클수록 회귀계수의 추정이 더 정밀해지는 경향이 있다. 분산이 너무 작으면(예: 모든 값이 거의 동일), 회귀계수의 추정이 불안정해지고 표준오차가 커진다.


분산과 관련된 개념

표준편차 (Standard Deviation)

분산의 제곱근을 표준편차라고 하며, 원래 데이터와 같은 단위를 가지므로 해석이 더 직관적이다.

$$ \sigma = \sqrt{\text{Var}(X)} $$

변동계수 (Coefficient of Variation)

분산 또는 표준편차를 평균으로 나눈 값으로, 상대적 변동성을 비교할 때 사용된다. 단위에 영향을 받지 않기 때문에 서로 다른 데이터 집합의 변동성을 비교하는 데 유용하다.

결정계수 (R²)

분산의 개념을 활용하여 회귀모형의 설명력을 평가하는 지표. 전체 변동성(Total Sum of Squares) 중 회귀모형이 설명하는 비율을 나타낸다.

$$ R^2 = 1 - \frac{\text{잔차 제곱합}}{\text{총 제곱합}} $$


참고 자료 및 관련 문서

참고 문헌
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
- 이태림, 김재홍 (2020). 『기초통계학』. 박영사.


분산은 통계학의 기초이자 핵심 개념으로, 데이터 분석의 모든 단계에서 그 중요성이 드러난다. 특히 회귀분석에서는 모델의 신뢰성과 해석 가능성에 직접적인 영향을 미치므로, 분산의 이해는 통계적 사고력을 기르는 데 필수적이다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?