기대 빈도

작성자

익명

작성일

2026.06.20

조회수

버전

기대 빈도 카이제곱 검정 통계학 확률론 관측 빈도 통계적 유의성 Chi-squared 중급

기대 빈도 (Expected Frequency)

기대 빈도(Expected Frequency)는 확률론과 통계학에서 특정 사건이나 결과가 이론적으로 얼마나 자주 발생할 것으로 예측되는 횟수를 의미합니다. 이는 관측된 데이터(Observed Frequency)와 비교하여 통계적 유의성을 검정하거나, 확률 분포의 특성을 이해하는 데 핵심적인 개념으로 사용됩니다. 특히 카이제곱 적합도 검정(Chi-squared goodness-of-fit test)과 같은 비모수 통계 방법론에서 기대 빈도는 관측치와 이론치 간의 차이를 정량화하는 기준이 됩니다.

1. 개요 및 정의

기대 빈도는 무작위 실험에서 특정 결과類別(class)가 나타날 것으로 기대되는 횟수입니다. 이는 해당 결과의 사건 발생 확률과 전체 시료의 크기(Sample Size)의 곱으로 계산됩니다.

수학적으로, $n$개의 독립적인 시행(trials)에서 사건 $A$가 발생할 확률이 $p$일 때, 사건 $A$의 기대 빈도 $E$는 다음과 같이 정의됩니다.

$$ E = n \times p $$

여기서: * $E$: 기대 빈도 (Expected Frequency) * $n$: 전체 시료의 크기 (Total Sample Size) * $p$: 해당 사건이 발생할 이론적 확률 (Theoretical Probability)

기대 빈도는 실제 실험에서 얻어지는 관측 빈도(Observed Frequency, $O$)와 구별됩니다. 관측 빈도는 실제 데이터에서 확인된 횟수이며, 기대 빈도는 확률 모델에 기반한 예측값입니다. 통계적 검정 과정에서는 이 두 값의 차이가 우연에 의한 것인지, 아니면 통계적으로 유의미한 차이인지 판단하는 데 활용됩니다.

2. 기대 빈도의 계산 방법

기대 빈도를 계산하기 위해서는 먼저 각 범주(category)에 대한 이론적 확률 분포가 알려져 있어야 합니다. 확률 분포가 알려져 있지 않을 경우, 귀무가설(null hypothesis) 하에서 각 범주가 균등하게 분포한다고 가정하거나, 다른 표본의 비율을 적용하여 추정할 수 있습니다.

2.1 균등 분포 가정 시

만약 귀무가설 하에서 모든 범주가 동일한 확률을 가진다고 가정한다면, 기대 빈도는 전체 시료 크기를 범주의 수로 나눈 값이 됩니다.

$$ E_i = \frac{n}{k} $$

$E_i$: $i$번째 범주의 기대 빈도
$n$: 전체 시료 크기
$k$: 범주의 총 개수

2.2 특정 확률 분포 적용 시

각 범주마다 다른 확률이 주어지는 경우, 각 범주의 확률 $p_i$에 전체 시료 크기 $n$을 곱하여 계산합니다.

$$ E_i = n \times p_i $$

이때, 모든 범주의 기대 빈도의 합은 전체 시료 크기와 일치해야 합니다. 즉, $\sum E_i = n$이어야 합니다.

3. 통계적 검정에서의 역할

기대 빈도는 주로 카이제곱($\chi^2$) 적합도 검정에서 핵심적인 역할을 합니다. 이 검정은 관측된 빈도와 기대된 빈도 간의 불일치가 통계적으로 유의한지 평가합니다.

3.1 카이제곱 통계량 계산

카이제곱 통계량($\chi^2$)은 다음과 같은 공식을 통해 계산됩니다.

$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$

$O_i$: $i$번째 범주의 관측 빈도
$E_i$: $i$번째 범주의 기대 빈도
$k$: 범주의 수

이 공식에서 분모에 기대 빈도 $E_i$가 사용되는 이유는, 기대 빈도가 작을 때 발생하는 절대적 오차가 상대적으로 더 큰 영향을 미치기 때문입니다. 즉, 기대 빈도가 매우 작은 범주에서의 편차는 통계적으로 더 민감하게 반응하도록 조정하는 역할을 합니다.

3.2 기대 빈도의 최소 기준

카이제곱 검정을 수행할 때, 기대 빈도가 너무 작으면 검정의 정확도가 떨어질 수 있습니다. 일반적으로 각 범주의 기대 빈도가 5 이상이어야 한다는 규칙이 널리 인용됩니다. 만약 기대 빈도가 5 미만인 범주가 다수 존재할 경우, 인접한 범주를 통합하거나 피셔 정확도 검정(Fisher's exact test)과 같은 다른 방법을 고려해야 합니다.

4. 실제 적용 예시

주사위 1개를 60회 던졌을 때, 각 눈(1~6)이 나올 기대 빈도를 계산해 보겠습니다.

전체 시료 크기 ($n$): 60회
각 눈이 나올 확률 ($p$): 주사위가 공정하다고 가정하면 각 눈의 확률은 $1/6$입니다.
기대 빈도 ($E$) 계산: $$ E = 60 \times \frac{1}{6} = 10 $$

따라서, 각 눈(1부터 6까지)이 나올 기대 빈도는 모두 10회입니다. 만약 실제 실험 결과에서 '1'이 15회 나왔다면, 이는 기대 빈도(10)보다 5회 많은 것입니다. 이러한 편차가 통계적으로 유의한지 판단하기 위해 카이제곱 검정을 수행하게 됩니다.

5. 주의사항 및 한계

이론적 가정 의존성: 기대 빈도는 설정된 확률 모델(예: 정규분포, 균등분포)에 전적으로 의존합니다. 따라서 확률 모델의 선택이 잘못되면 기대 빈도도 왜곡되어 잘못된 통계적 결론을 초래할 수 있습니다.
작은 표본의 문제: 시료 크기가 매우 작을 경우, 기대 빈도가 1 미만이 될 수 있으며, 이 경우 카이제곱 검정의 가정이 위반되어 신뢰도가 낮아집니다.
관측 빈도와의 차이 해석: 기대 빈도와 관측 빈도가 다르다고 해서 반드시 귀무가설이 기각되는 것은 아닙니다. 통계적 검정은 이러한 차이가 우연의 범위 내에 있는지 여부를 확률적으로 평가합니다.

6. 관련 문서 및 참고 자료

기술통계 (Descriptive Statistics): 데이터를 요약하고 기술하는 통계 방법론
확률 분포 (Probability Distribution): 확률 변수가 취할 수 있는 값과 그 확률의 관계를 나타내는 함수
카이제곱 검정 (Chi-squared Test): 범주형 데이터의 독립성 또는 적합도를 검정하는 통계적 방법
관측 빈도 (Observed Frequency): 실제 데이터에서 확인된 사건 발생 횟수

본 문서는 통계학의 기본 개념인 기대 빈도에 대해 설명하며, 학술적 연구나 실무 적용 시에는 관련 통계 소프트웨어(R, Python, SPSS 등)의 공식과 최신 통계학 교재를 참조하시기 바랍니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 기대 빈도 (Expected Frequency)

**기대 빈도**(Expected Frequency)는 확률론과 통계학에서 특정 사건이나 결과가 이론적으로 얼마나 자주 발생할 것으로 예측되는 횟수를 의미합니다. 이는 관측된 데이터(Observed Frequency)와 비교하여 통계적 유의성을 검정하거나, 확률 분포의 특성을 이해하는 데 핵심적인 개념으로 사용됩니다. 특히 카이제곱 적합도 검정(Chi-squared goodness-of-fit test)과 같은 비모수 통계 방법론에서 기대 빈도는 관측치와 이론치 간의 차이를 정량화하는 기준이 됩니다.

## 1. 개요 및 정의

기대 빈도는 무작위 실험에서 특정 결과類別(class)가 나타날 것으로 기대되는 횟수입니다. 이는 해당 결과의 **사건 발생 확률**과 전체 **시료의 크기(Sample Size)**의 곱으로 계산됩니다.

수학적으로, $n$개의 독립적인 시행(trials)에서 사건 $A$가 발생할 확률이 $p$일 때, 사건 $A$의 기대 빈도 $E$는 다음과 같이 정의됩니다.

$$ E = n \times p $$

여기서:
*   $E$: 기대 빈도 (Expected Frequency)
*   $n$: 전체 시료의 크기 (Total Sample Size)
*   $p$: 해당 사건이 발생할 이론적 확률 (Theoretical Probability)

기대 빈도는 실제 실험에서 얻어지는 **관측 빈도(Observed Frequency, $O$)**와 구별됩니다. 관측 빈도는 실제 데이터에서 확인된 횟수이며, 기대 빈도는 확률 모델에 기반한 예측값입니다. 통계적 검정 과정에서는 이 두 값의 차이가 우연에 의한 것인지, 아니면 통계적으로 유의미한 차이인지 판단하는 데 활용됩니다.

## 2. 기대 빈도의 계산 방법

기대 빈도를 계산하기 위해서는 먼저 각 범주(category)에 대한 이론적 확률 분포가 알려져 있어야 합니다. 확률 분포가 알려져 있지 않을 경우, 귀무가설(null hypothesis) 하에서 각 범주가 균등하게 분포한다고 가정하거나, 다른 표본의 비율을 적용하여 추정할 수 있습니다.

### 2.1 균등 분포 가정 시
만약 귀무가설 하에서 모든 범주가 동일한 확률을 가진다고 가정한다면, 기대 빈도는 전체 시료 크기를 범주의 수로 나눈 값이 됩니다.

$$ E_i = \frac{n}{k} $$

*   $E_i$: $i$번째 범주의 기대 빈도
*   $n$: 전체 시료 크기
*   $k$: 범주의 총 개수

### 2.2 특정 확률 분포 적용 시
각 범주마다 다른 확률이 주어지는 경우, 각 범주의 확률 $p_i$에 전체 시료 크기 $n$을 곱하여 계산합니다.

$$ E_i = n \times p_i $$

이때, 모든 범주의 기대 빈도의 합은 전체 시료 크기와 일치해야 합니다. 즉, $\sum E_i = n$이어야 합니다.

## 3. 통계적 검정에서의 역할

기대 빈도는 주로 **카이제곱($\chi^2$) 적합도 검정**에서 핵심적인 역할을 합니다. 이 검정은 관측된 빈도와 기대된 빈도 간의 불일치가 통계적으로 유의한지 평가합니다.

### 3.1 카이제곱 통계량 계산
카이제곱 통계량($\chi^2$)은 다음과 같은 공식을 통해 계산됩니다.

$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$

*   $O_i$: $i$번째 범주의 관측 빈도
*   $E_i$: $i$번째 범주의 기대 빈도
*   $k$: 범주의 수

이 공식에서 분모에 기대 빈도 $E_i$가 사용되는 이유는, 기대 빈도가 작을 때 발생하는 절대적 오차가 상대적으로 더 큰 영향을 미치기 때문입니다. 즉, 기대 빈도가 매우 작은 범주에서의 편차는 통계적으로 더 민감하게 반응하도록 조정하는 역할을 합니다.

### 3.2 기대 빈도의 최소 기준
카이제곱 검정을 수행할 때, 기대 빈도가 너무 작으면 검정의 정확도가 떨어질 수 있습니다. 일반적으로 각 범주의 기대 빈도가 **5 이상**이어야 한다는 규칙이 널리 인용됩니다. 만약 기대 빈도가 5 미만인 범주가 다수 존재할 경우, 인접한 범주를 통합하거나 피셔 정확도 검정(Fisher's exact test)과 같은 다른 방법을 고려해야 합니다.

## 4. 실제 적용 예시

주사위 1개를 60회 던졌을 때, 각 눈(1~6)이 나올 기대 빈도를 계산해 보겠습니다.

1.  **전체 시료 크기 ($n$)**: 60회
2.  **각 눈이 나올 확률 ($p$)**: 주사위가 공정하다고 가정하면 각 눈의 확률은 $1/6$입니다.
3.  **기대 빈도 ($E$) 계산**:
    $$ E = 60 \times \frac{1}{6} = 10 $$

따라서, 각 눈(1부터 6까지)이 나올 기대 빈도는 모두 **10회**입니다. 만약 실제 실험 결과에서 '1'이 15회 나왔다면, 이는 기대 빈도(10)보다 5회 많은 것입니다. 이러한 편차가 통계적으로 유의한지 판단하기 위해 카이제곱 검정을 수행하게 됩니다.

## 5. 주의사항 및 한계

*   **이론적 가정 의존성**: 기대 빈도는 설정된 확률 모델(예: 정규분포, 균등분포)에 전적으로 의존합니다. 따라서 확률 모델의 선택이 잘못되면 기대 빈도도 왜곡되어 잘못된 통계적 결론을 초래할 수 있습니다.
*   **작은 표본의 문제**: 시료 크기가 매우 작을 경우, 기대 빈도가 1 미만이 될 수 있으며, 이 경우 카이제곱 검정의 가정이 위반되어 신뢰도가 낮아집니다.
*   **관측 빈도와의 차이 해석**: 기대 빈도와 관측 빈도가 다르다고 해서 반드시 귀무가설이 기각되는 것은 아닙니다. 통계적 검정은 이러한 차이가 우연의 범위 내에 있는지 여부를 확률적으로 평가합니다.

## 6. 관련 문서 및 참고 자료

*   **기술통계 (Descriptive Statistics)**: 데이터를 요약하고 기술하는 통계 방법론
*   **확률 분포 (Probability Distribution)**: 확률 변수가 취할 수 있는 값과 그 확률의 관계를 나타내는 함수
*   **카이제곱 검정 (Chi-squared Test)**: 범주형 데이터의 독립성 또는 적합도를 검정하는 통계적 방법
*   **관측 빈도 (Observed Frequency)**: 실제 데이터에서 확인된 사건 발생 횟수

---
*본 문서는 통계학의 기본 개념인 기대 빈도에 대해 설명하며, 학술적 연구나 실무 적용 시에는 관련 통계 소프트웨어(R, Python, SPSS 등)의 공식과 최신 통계학 교재를 참조하시기 바랍니다.*

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen/qwen3.6-35b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나