CDF

작성자

익명

작성일

2026.06.20

조회수

버전

누적 분포 함수 CDF 확률론 통계학 확률 변수 확률 밀도 함수 가설 검정 몬테카를로 시뮬레이션

누적 분포 함수 (Cumulative Distribution Function, CDF)

개요

누적 분포 함수(Cumulative Distribution Function, 약자 CDF)는 확률론 및 통계학에서 확률 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수입니다. 즉, 어떤 확률 변수 $X$가 가질 수 있는 값들의 분포를 전체적으로 파악할 수 있게 해주는 핵심적인 수학적 도구입니다.

CDF는 이산 확률 변수(Discrete Random Variable)와 연속 확률 변수(Continuous Random Variable) 모두에 적용되며, 확률 밀도 함수(PDF)와 함께 확률 분포를 완전히 규정하는 두 가지 주요 함수 중 하나입니다. 통계적 가설 검정, 신뢰 구간 계산, 몬테카를로 시뮬레이션 등 다양한 통계 분석 분야에서 기초적인 역할을 수행합니다.

수학적 정의

확률 변수 $X$에 대한 누적 분포 함수 $F_X(x)$는 다음과 같이 정의됩니다.

$$ F_X(x) = P(X \le x) $$

여기서 $P(X \le x)$는 확률 변수 $X$가 $x$보다 작거나 같은 값을 가질 확률을 의미합니다. 이 정의는 $x$가 실수 전체 범위($-\infty < x < \infty$)에서 정의됩니다.

주요 성질

누적 분포 함수는 다음과 같은 기본적인 수학적 성질을 만족합니다.

비감소성 (Non-decreasing): $x_1 < x_2$일 때, $F_X(x_1) \le F_X(x_2)$입니다. 확률 변수가 더 큰 값을 가질 확률의 누적량은 줄어들 수 없기 때문입니다.
경계 조건:
$\lim_{x \to -\infty} F_X(x) = 0$
$\lim_{x \to \infty} F_X(x) = 1$ 이는 확률 변수가 무한히 작은 값보다 클 확률이 0이고, 무한히 큰 값보다 작을 확률이 1(즉, 모든 사건이 발생함)임을 의미합니다.
우연속성 (Right-continuity): 모든 실수 $x$에 대해 $\lim_{\epsilon \to 0^+} F_X(x + \epsilon) = F_X(x)$입니다. 즉, 함수는 오른쪽에서 연속입니다.

이산 확률 변수와 연속 확률 변수에서의 차이

CDF의 형태와 해석은 확률 변수의 종류에 따라 다소 차이가 있습니다.

1. 이산 확률 변수 (Discrete Random Variable)

이산 확률 변수는 특정 값들만 취할 수 있는 경우입니다 (예: 주사위 눈금, 동전 던지기 결과). 이 경우 CDF는 계단 함수(Step Function) 형태를 띱니다.

특징: 확률 질량 함수(PMF)의 값을 $x$까지 누적하여 계산합니다.
계단점: 확률 질량이 있는 지점에서 CDF 값이 갑자기 뛰어오릅니다.
계산 예시: 이항분포나 포아송분포와 같은 이산 분포에서 특정 값 이하의 누적 확률을 구할 때 사용됩니다.

2. 연속 확률 변수 (Continuous Random Variable)

연속 확률 변수는 어떤 구간 내의 모든 실수 값을 취할 수 있는 경우입니다 (예: 사람의 키, 온도, 시간). 이 경우 CDF는 연속 함수이며, 미분 가능할 경우 확률 밀도 함수(PDF) $f_X(x)$와 다음과 같은 관계를 가집니다.

$$ F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt $$

반대로, CDF가 미분 가능할 경우 PDF는 다음과 같이 구할 수 있습니다.

$$ f_X(x) = \frac{d}{dx} F_X(x) $$

즉, 연속 확률 변수에서 CDF는 PDF의 적분값(면적)을 의미합니다.

주요 활용 분야

1. 확률 계산의 표준화

임의의 확률 분포에 대해 "특정 구간 $[a, b]$ 안에 값이 있을 확률"은 CDF를 이용하여 간단하게 계산할 수 있습니다.

$$ P(a < X \le b) = F_X(b) - F_X(a) $$

이 공식은 정규분포, t-분포, 카이제곱분포 등 다양한 통계 분포에서 가설 검정 시 p-value를 계산하는 기초가 됩니다.

2. 확률 변수의 변환 (Inverse Transform Sampling)

컴퓨터 과학 및 시뮬레이션 분야에서 임의의 확률 분포를 따르는 난수를 생성하는 방법 중 하나입니다. 균등 분포 $U \sim \text{Uniform}(0, 1)$에서 추출된 난수 $u$에 대해, CDF의 역함수 $F_X^{-1}(u)$를 적용하면 원하는 분포 $X$를 따르는 값을 얻을 수 있습니다.

$$ X = F_X^{-1}(U) $$

3. 통계적 가설 검정

표본 데이터가 특정 이론적 분포를 따르는지 검증할 때 사용되는 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test)은 표본의 경험적 누적 분포 함수(ECDF)와 이론적 CDF 간의 최대 차이를 기반으로 합니다.

개념	기호	정의	주요 용도
누적 분포 함수	$F(x)$	$P(X \le x)$	누적 확률 계산, 분포의 전체적 특성 파악
확률 밀도 함수	$f(x)$	$F(x)$의 미분값	특정 점에서의 확률 밀도, 연속 분포의 형태 분석
확률 질량 함수	$p(x)$	$P(X = x)$	이산 분포에서 특정 값의 확률 직접 제공
생성 함수	$M(t)$	$E[e^{tX}]$	모멘트 계산, 분포의 합성 분석

참고 자료 및 관련 문서

확률 변수 (Random Variable): 확률 실험의 결과를 실수로 표현한 변수
확률 밀도 함수 (Probability Density Function): 연속 확률 변수의 분포를 나타내는 함수
정규 분포 (Normal Distribution): 가장 널리 쓰이는 연속 확률 분포
통계적 가설 검정 (Statistical Hypothesis Testing): 표본 데이터를 통해 모수에 대한 가설을 검증하는 방법

결론

누적 분포 함수(CDF)는 확률 변수의 행동을 이해하고 분석하는 데 있어 가장 기본적이면서도 강력한 도구입니다. 이산적이지 않고 연속적인 확률의 흐름을 하나의 함수로 통합하여 표현함으로써, 복잡한 확률 계산을 단순화하고 다양한 통계적 분석의 기초를 제공합니다. 통계학을 공부하거나 데이터 과학을 다루는 모든 이에게 CDF의 개념과 성질을 정확히 이해하는 것은 필수적입니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 누적 분포 함수 (Cumulative Distribution Function, CDF)

## 개요

**누적 분포 함수**(Cumulative Distribution Function, 약자 **CDF**)는 확률론 및 통계학에서 확률 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수입니다. 즉, 어떤 확률 변수 $X$가 가질 수 있는 값들의 분포를 전체적으로 파악할 수 있게 해주는 핵심적인 수학적 도구입니다.

CDF는 이산 확률 변수(Discrete Random Variable)와 연속 확률 변수(Continuous Random Variable) 모두에 적용되며, 확률 밀도 함수(PDF)와 함께 확률 분포를 완전히 규정하는 두 가지 주요 함수 중 하나입니다. 통계적 가설 검정, 신뢰 구간 계산, 몬테카를로 시뮬레이션 등 다양한 통계 분석 분야에서 기초적인 역할을 수행합니다.

---

## 수학적 정의

확률 변수 $X$에 대한 누적 분포 함수 $F_X(x)$는 다음과 같이 정의됩니다.

$$ F_X(x) = P(X \le x) $$

여기서 $P(X \le x)$는 확률 변수 $X$가 $x$보다 작거나 같은 값을 가질 확률을 의미합니다. 이 정의는 $x$가 실수 전체 범위($-\infty < x < \infty$)에서 정의됩니다.

### 주요 성질

누적 분포 함수는 다음과 같은 기본적인 수학적 성질을 만족합니다.

1. **비감소성 (Non-decreasing)**: $x_1 < x_2$일 때, $F_X(x_1) \le F_X(x_2)$입니다. 확률 변수가 더 큰 값을 가질 확률의 누적량은 줄어들 수 없기 때문입니다.
2. **경계 조건**:
   - $\lim_{x \to -\infty} F_X(x) = 0$
   - $\lim_{x \to \infty} F_X(x) = 1$
   이는 확률 변수가 무한히 작은 값보다 클 확률이 0이고, 무한히 큰 값보다 작을 확률이 1(즉, 모든 사건이 발생함)임을 의미합니다.
3. **우연속성 (Right-continuity)**: 모든 실수 $x$에 대해 $\lim_{\epsilon \to 0^+} F_X(x + \epsilon) = F_X(x)$입니다. 즉, 함수는 오른쪽에서 연속입니다.

---

## 이산 확률 변수와 연속 확률 변수에서의 차이

CDF의 형태와 해석은 확률 변수의 종류에 따라 다소 차이가 있습니다.

### 1. 이산 확률 변수 (Discrete Random Variable)

이산 확률 변수는 특정 값들만 취할 수 있는 경우입니다 (예: 주사위 눈금, 동전 던지기 결과). 이 경우 CDF는 **계단 함수(Step Function)** 형태를 띱니다.

*   **특징**: 확률 질량 함수(PMF)의 값을 $x$까지 누적하여 계산합니다.
*   **계단점**: 확률 질량이 있는 지점에서 CDF 값이 갑자기 뛰어오릅니다.
*   **계산 예시**: 이항분포나 포아송분포와 같은 이산 분포에서 특정 값 이하의 누적 확률을 구할 때 사용됩니다.

### 2. 연속 확률 변수 (Continuous Random Variable)

연속 확률 변수는 어떤 구간 내의 모든 실수 값을 취할 수 있는 경우입니다 (예: 사람의 키, 온도, 시간). 이 경우 CDF는 **연속 함수**이며, 미분 가능할 경우 확률 밀도 함수(PDF) $f_X(x)$와 다음과 같은 관계를 가집니다.

$$ F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt $$

반대로, CDF가 미분 가능할 경우 PDF는 다음과 같이 구할 수 있습니다.

$$ f_X(x) = \frac{d}{dx} F_X(x) $$

즉, 연속 확률 변수에서 CDF는 PDF의 적분값(면적)을 의미합니다.

---

## 주요 활용 분야

### 1. 확률 계산의 표준화
임의의 확률 분포에 대해 "특정 구간 $[a, b]$ 안에 값이 있을 확률"은 CDF를 이용하여 간단하게 계산할 수 있습니다.

$$ P(a < X \le b) = F_X(b) - F_X(a) $$

이 공식은 정규분포, t-분포, 카이제곱분포 등 다양한 통계 분포에서 가설 검정 시 p-value를 계산하는 기초가 됩니다.

### 2. 확률 변수의 변환 (Inverse Transform Sampling)
컴퓨터 과학 및 시뮬레이션 분야에서 임의의 확률 분포를 따르는 난수를 생성하는 방법 중 하나입니다. 균등 분포 $U \sim \text{Uniform}(0, 1)$에서 추출된 난수 $u$에 대해, CDF의 역함수 $F_X^{-1}(u)$를 적용하면 원하는 분포 $X$를 따르는 값을 얻을 수 있습니다.

$$ X = F_X^{-1}(U) $$

### 3. 통계적 가설 검정
표본 데이터가 특정 이론적 분포를 따르는지 검증할 때 사용되는 **콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test)**은 표본의 경험적 누적 분포 함수(ECDF)와 이론적 CDF 간의 최대 차이를 기반으로 합니다.

---

## 관련 개념 비교

| 개념 | 기호 | 정의 | 주요 용도 |
| :--- | :---: | :--- | :--- |
| **누적 분포 함수** | $F(x)$ | $P(X \le x)$ | 누적 확률 계산, 분포의 전체적 특성 파악 |
| **확률 밀도 함수** | $f(x)$ | $F(x)$의 미분값 | 특정 점에서의 확률 밀도, 연속 분포의 형태 분석 |
| **확률 질량 함수** | $p(x)$ | $P(X = x)$ | 이산 분포에서 특정 값의 확률 직접 제공 |
| **생성 함수** | $M(t)$ | $E[e^{tX}]$ | 모멘트 계산, 분포의 합성 분석 |

---

## 참고 자료 및 관련 문서

*   **확률 변수 (Random Variable)**: 확률 실험의 결과를 실수로 표현한 변수
*   **확률 밀도 함수 (Probability Density Function)**: 연속 확률 변수의 분포를 나타내는 함수
*   **정규 분포 (Normal Distribution)**: 가장 널리 쓰이는 연속 확률 분포
*   **통계적 가설 검정 (Statistical Hypothesis Testing)**: 표본 데이터를 통해 모수에 대한 가설을 검증하는 방법

---

## 결론

누적 분포 함수(CDF)는 확률 변수의 행동을 이해하고 분석하는 데 있어 가장 기본적이면서도 강력한 도구입니다. 이산적이지 않고 연속적인 확률의 흐름을 하나의 함수로 통합하여 표현함으로써, 복잡한 확률 계산을 단순화하고 다양한 통계적 분석의 기초를 제공합니다. 통계학을 공부하거나 데이터 과학을 다루는 모든 이에게 CDF의 개념과 성질을 정확히 이해하는 것은 필수적입니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen/qwen3.6-35b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

CDF