CHI 제곱 검정
CHI 제곱 검정
개요
CHI 제곱 검정(Chi-Square Test, 카이제곱 검정)은 통계학에서 범주형 변수(categorical variable) 간의 독립성 또는 관찰된 빈도와 기대 빈도 간의 차이를 평가하기 위해 널리 사용되는 비모수적(non-parametric) 가설 검정 방법입니다. 이 검정은 영국의 통계학자 카를 피어슨(Karl Pearson)이 1900년에 제안하여 피어슨의 카이제곱 검정(Pearson's Chi-Square Test)으로도 불립니다.
CHI 제곱 검정은 주로 다음과 같은 두 가지 목적에 사용됩니다:
- 적합도 검정(Goodness-of-fit test): 관찰된 빈도 분포가 기대되는 이론적 분포와 일치하는지 검정
- 독립성 검정(Test of independence): 두 범주형 변수가 서로 독립적인지 여부를 판단
이 검정은 빈도 데이터를 기반으로 하며, 정규성 가정이 필요 없어 다양한 사회과학, 의학, 마케팅 등 실제 현장에서 자주 활용됩니다.
검정의 원리와 수식
CHI 제곱 검정의 핵심은 관찰 빈도(observed frequency, $ O_i $)와 기대 빈도(expected frequency, $ E_i $) 간의 차이를 제곱하여 합산하는 것입니다. 이 값이 클수록 관찰값과 기대값의 차이가 크다는 의미이며, 통계적으로 유의미한 차이가 있다고 판단할 수 있습니다.
CHI 제곱 통계량 계산식
[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} ]
- $ O_i $: i번째 범주에서 관찰된 빈도
- $ E_i $: i번째 범주에서 기대되는 빈도
- 합계는 모든 범주에 대해 수행됨
이 통계량은 자유도에 따라 카이제곱 분포(Chi-Square Distribution)를 따릅니다. 자유도는 검정의 종류에 따라 달라집니다.
검정의 종류
1. 적합도 검정 (Goodness-of-fit Test)
적합도 검정은 한 개의 범주형 변수에 대해, 관찰된 빈도가 특정 이론적 분포(예: 균일분포, 이항분포 등)와 일치하는지를 검정합니다.
예시
- 주사위를 60번 던졌을 때, 각 눈이 10번씩 나와야 한다는 균일분포 가정을 검정
- 특정 지역의 종교 분포가 전체 국가 평균과 일치하는지 확인
자유도
[ df = k - 1 ] - $ k $: 범주의 수
2. 독립성 검정 (Test of Independence)
독립성 검정은 두 개의 범주형 변수가 서로 독립적인지 여부를 판단하는 데 사용됩니다. 일반적으로 교차표(contingency table)를 사용하여 분석합니다.
예시
- 성별과 선호 음료(커피 vs 차) 간의 관계가 있는지 검정
- 흡연 여부와 폐 질환 발생 간의 연관성 평가
기대 빈도 계산
교차표에서 각 셀의 기대 빈도는 다음과 같이 계산됩니다:
[ E_{ij} = \frac{(\text{행 합계}_i) \times (\text{열 합계}_j)}{\text{전체 표본 수}} ]
자유도
[ df = (r - 1)(c - 1) ] - $ r $: 행의 수 - $ c $: 열의 수
검정 절차
CHI 제곱 검정은 다음과 같은 단계로 수행됩니다:
- 가설 설정
- 귀무가설 $ H_0 $: 관찰 빈도와 기대 빈도는 차이가 없다. (또는 두 변수는 독립이다.)
-
대립가설 $ H_1 $: 관찰 빈도와 기대 빈도는 차이가 있다. (또는 두 변수는 독립이 아니다.)
-
유의수준 설정
-
일반적으로 $ \alpha = 0.05 $
-
CHI 제곱 통계량 계산
-
위의 수식을 사용하여 $ \chi^2 $ 값 산출
-
자유도 계산 및 임계값 도출
-
자유도에 따라 카이제곱 분포표에서 임계값을 찾거나, p-값 계산
-
결정
- 계산된 $ \chi^2 $ 값이 임계값보다 크거나 p-값이 유의수준보다 작으면 귀무가설 기각
사용 조건과 제한 사항
CHI 제곱 검정은 유용하지만, 다음과 같은 조건을 충족해야 신뢰할 수 있는 결과를 얻을 수 있습니다:
- 랜덤 표본: 데이터는 무작위 표본에서 추출되어야 함
- 독립성: 각 관찰은 독립적이어야 함
- 기대 빈도 조건:
- 대부분의 셀에서 기대 빈도가 5 이상이어야 함
- 5 미만의 기대 빈도를 가진 셀이 전체의 20%를 초과하면 결과가 왜곡될 수 있음
- 이 경우 피셔의 정확 검정(Fisher's Exact Test) 사용을 고려
실용적 예시 (R 코드 예시)
# 예: 성별과 음료 선호의 독립성 검정
data <- matrix(c(30, 10, 20, 25), nrow = 2,
dimnames = list(성별 = c("남성", "여성"),
음료 = c("커피", "차")))
chisq.test(data)
출력 예:
Pearson's Chi-squared test with Yates' continuity correction
X-squared = 6.63, df = 1, p-value = 0.01
p-값이 0.05보다 작으므로, 성별과 음료 선호는 독립이 아니며 통계적으로 유의한 관계가 있다고 결론지을 수 있습니다.
관련 개념 및 대체 방법
- 피셔의 정확 검정(Fisher's Exact Test): 표본 크기가 작거나 기대 빈도가 낮을 때 사용
- G 검정(G-test): 로그우도 기반의 대안 검정
- 연속성 보정(Yates' correction): 2×2 표에서 과도한 유의성 방지를 위해 사용
참고 자료
- Agresti, A. (2018). An Introduction to Categorical Data Analysis. Wiley.
- Field, A. (2018). Discovering Statistics Using R. Sage Publications.
- Wikipedia. "Chi-squared test". https://en.wikipedia.org/wiki/Chi-squared_test
관련 문서
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.