중앙값(median)은 통계학에서 자료의 중심경향성을 나타내는 대표적인 척도 중 하나로, 데이터를 크기순으로 정렬했을 때 **가운데 위치하는 값을 의미한다.균과 최빈값 함께 기술통계의 세 가지 주요 중심경향성 지로 꼽히며, 특히 데이터에 극단값(outlier)이 포함되어 있을 때 평균보다 더 안정적인 대표값으로 사용된다.
중앙값은 자료의 분포 형태에 영향을 덜 받기 때문에, 소득, 집값, 소비 지출 등과 같이 일부 극단적인 값이 존재하는 현실 데이터 분석에서 자주 활용된다.
정의와 계산 방법
중앙값은 주어진 데이터셋을 오름차순 또는 내림차순으로 정렬한 후, 가운데 위치한 값을 선택함으로써 구한다. 데이터의 개수에 따라 계산 방식이 달라진다.
데이터 수가 홀수일 때
데이터의 개수가 홀수인 경우, 정확히 중앙에 위치한 하나의 값이 중앙값이 된다.
예: 데이터셋 {3, 1, 4, 2, 5}
→ 정렬: {1, 2, 3, 4, 5}
→ 중앙값: 3 (3번째 값)
데이터 수가 짝수일 때
데이터의 개수가 짝수인 경우, 가운데 두 값의 산술 평균을 중앙값으로 한다.
예: 데이터셋 {3, 1, 4, 2}
→ 정렬: {1, 2, 3, 4}
→ 가운데 두 값: 2와 3
→ 중앙값: (2 3) / 2 = 2.5
중앙값의 특성
1. 극단값에 민감하지 않음 (Robustness)
- 평균은 모든 데이터의 값을 반영하므로, 매우 큰 값이나 작은 값(이상치)에 크게 영향을 받는다.
- 반면 중앙값은 순서만 고려하므로, 양 끝단의 극단값이 아무리 커도 중앙값은 거의 변하지 않는다.
예:
- 데이터 A: {1, 2, 3, 4, 5} → 평균: 3, 중앙값: 3
- 데이터 B: {1, 2, 3, 4, 100} → 평균: 22, 중앙값: 3
→ 평균은 100의 영향으로 크게 증가했지만, 중앙값은 동일
2. 순서 척도 이상에서만 계산 가능
- 명목 척도(예: 성별, 직업)에서는 크기 순서가 없으므로 중앙값을 계산할 수 없다.
- 순서 척도(예: 학점 A~F), 간격 척도(예: 온도), 비율 척도(예: 소득) 등에서만 의미 있는 중앙값 계산이 가능하다.
3. 비대칭 분포에서 평균보다 유리
- 정규분포처럼 대칭적인 분포에서는 평균과 중앙값이 거의 일치한다.
- 하지만 우측 꼬리 긴 분포(오른쪽으로 치우친 분포)나 좌측 꼬리 긴 분포에서는 중앙값이 평균보다 중심경향성을 더 잘 반영한다.
예: 소득 분포는 일반적으로 우측 꼬리가 길기 때문에, 평균 소득이 중앙값보다 높게 나타난다.
중앙값의 활용 사례
1. 경제 통계
- 가계 소득 중앙값: 평균 소득은 소수의 고소득자에 의해 과대 평가될 수 있으므로, 중앙값이 일반 국민의 실질적인 소득 수준을 더 잘 나타낸다.
- 주택 가격 중앙값: 부동산 시장에서 "평균 가격"보다 "중간 가격"이 더 자주 사용됨.
2. 의학 및 생물 통계
- 생존 기간, 혈압, 체중 등의 분포가 비대칭일 경우, 중앙값을 사용하여 중심경향성을 보고한다.
- 예: "환자들의 중앙 생존 기간은 24개월이다."
3. 교육 평가
- 시험 점수 분포에서 극단적인 고득점자나 저득점자가 많을 경우, 학생들의 전반적인 성취도를 평가할 때 중앙값이 유용하다.
중앙값과 다른 중심경향성 지표 비교
| 지표 |
정의 |
장점 |
단점 |
| 평균(Mean) |
모든 값의 합을 데이터 수로 나눈 값 |
모든 데이터 반영, 수학적 처리 용이 |
이상치에 민감 |
| 중앙값(Median) |
정렬 후 중앙에 위치한 값 |
이상치에 강함, 비대칭 분포에 적합 |
모든 값 반영 X, 계산에 순서 필요 |
| 최빈값(Mode) |
가장 자주 나타나는 값 |
범주형 데이터에도 사용 가능 |
존재하지 않거나 다수 존재 가능 |
데이터셋 ( X = {x_1, x_2, \dots, x_n} )가 크기순으로 정렬되어 있을 때, 중앙값 ( \text{Med}(X) )는 다음과 같이 정의된다:
[
\text{Med}(X) =
\begin{cases}
x_{\frac{n+1}{2}} & \text{if } n \text{ is odd} \
\frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & \text{if } n \text{ is even}
\end{cases}
]
관련 개념
- 백분위수(Percentile): 중앙값은 50번째 백분위수(P50)와 동일하다.
- 사분위수(Quartile): Q1(25%), Q2(50% = 중앙값), Q3(75%)로 구성되며, 데이터의 분포를 파악하는 데 사용.
- 상자 수염 그림(Boxplot): 중앙값, 사분위수, 이상치를 시각화하는 데 중앙값이 중심축으로 활용된다.
참고 자료
- Moore, D. S., Notz, W., & Fligner, M. A. (2021). The Basic Practice of Statistics (9th ed.). W.H. Freeman.
- 정형진 (2020). 『기초통계학』. 학지사.
- 한국통계청. (2023). "가계동향조사 통계표". https://kostat.go.kr
중앙값은 단순한 계산 방식에도 불구하고, 현실 데이터 분석에서 매우 중요한 역할을 한다. 특히 데이터의 정규성과 이상치 여부를 사전에 알 수 없는 상황에서, 중앙값은 안정적이고 해석이 쉬운 대안적 대표값으로 널리 사용되고 있다.
# 중앙값
**중앙값**(median)은 통계학에서 자료의 중심경향성을 나타내는 대표적인 척도 중 하나로, 데이터를 크기순으로 정렬했을 때 **가운데 위치하는 값을 의미한다.균과 최빈값 함께 기술통계의 세 가지 주요 중심경향성 지로 꼽히며, 특히 데이터에 극단값(outlier)이 포함되어 있을 때 평균보다 더 안정적인 대표값으로 사용된다.
중앙값은 자료의 분포 형태에 영향을 덜 받기 때문에, 소득, 집값, 소비 지출 등과 같이 일부 극단적인 값이 존재하는 현실 데이터 분석에서 자주 활용된다.
---
## 정의와 계산 방법
중앙값은 주어진 데이터셋을 **오름차순 또는 내림차순으로 정렬**한 후, **가운데 위치한 값**을 선택함으로써 구한다. 데이터의 개수에 따라 계산 방식이 달라진다.
### 데이터 수가 홀수일 때
데이터의 개수가 홀수인 경우, 정확히 중앙에 위치한 하나의 값이 중앙값이 된다.
예: 데이터셋 `{3, 1, 4, 2, 5}`
→ 정렬: `{1, 2, 3, 4, 5}`
→ 중앙값: **3** (3번째 값)
### 데이터 수가 짝수일 때
데이터의 개수가 짝수인 경우, 가운데 두 값의 **산술 평균**을 중앙값으로 한다.
예: 데이터셋 `{3, 1, 4, 2}`
→ 정렬: `{1, 2, 3, 4}`
→ 가운데 두 값: 2와 3
→ 중앙값: **(2 3) / 2 = 2.5**
---
## 중앙값의 특성
### 1. **극단값에 민감하지 않음 (Robustness)**
- 평균은 모든 데이터의 값을 반영하므로, 매우 큰 값이나 작은 값(이상치)에 크게 영향을 받는다.
- 반면 중앙값은 순서만 고려하므로, 양 끝단의 극단값이 아무리 커도 중앙값은 거의 변하지 않는다.
예:
- 데이터 A: `{1, 2, 3, 4, 5}` → 평균: 3, 중앙값: 3
- 데이터 B: `{1, 2, 3, 4, 100}` → 평균: 22, 중앙값: 3
→ 평균은 100의 영향으로 크게 증가했지만, 중앙값은 동일
### 2. **순서 척도 이상에서만 계산 가능**
- 명목 척도(예: 성별, 직업)에서는 크기 순서가 없으므로 중앙값을 계산할 수 없다.
- **순서 척도**(예: 학점 A~F), **간격 척도**(예: 온도), **비율 척도**(예: 소득) 등에서만 의미 있는 중앙값 계산이 가능하다.
### 3. **비대칭 분포에서 평균보다 유리**
- 정규분포처럼 대칭적인 분포에서는 평균과 중앙값이 거의 일치한다.
- 하지만 **우측 꼬리 긴 분포**(오른쪽으로 치우친 분포)나 **좌측 꼬리 긴 분포**에서는 중앙값이 평균보다 중심경향성을 더 잘 반영한다.
예: 소득 분포는 일반적으로 우측 꼬리가 길기 때문에, 평균 소득이 중앙값보다 높게 나타난다.
---
## 중앙값의 활용 사례
### 1. **경제 통계**
- **가계 소득 중앙값**: 평균 소득은 소수의 고소득자에 의해 과대 평가될 수 있으므로, 중앙값이 일반 국민의 실질적인 소득 수준을 더 잘 나타낸다.
- **주택 가격 중앙값**: 부동산 시장에서 "평균 가격"보다 "중간 가격"이 더 자주 사용됨.
### 2. **의학 및 생물 통계**
- 생존 기간, 혈압, 체중 등의 분포가 비대칭일 경우, 중앙값을 사용하여 중심경향성을 보고한다.
- 예: "환자들의 중앙 생존 기간은 24개월이다."
### 3. **교육 평가**
- 시험 점수 분포에서 극단적인 고득점자나 저득점자가 많을 경우, 학생들의 전반적인 성취도를 평가할 때 중앙값이 유용하다.
---
## 중앙값과 다른 중심경향성 지표 비교
| 지표 | 정의 | 장점 | 단점 |
|------|------|------|------|
| **평균**(Mean) | 모든 값의 합을 데이터 수로 나눈 값 | 모든 데이터 반영, 수학적 처리 용이 | 이상치에 민감 |
| **중앙값**(Median) | 정렬 후 중앙에 위치한 값 | 이상치에 강함, 비대칭 분포에 적합 | 모든 값 반영 X, 계산에 순서 필요 |
| **최빈값**(Mode) | 가장 자주 나타나는 값 | 범주형 데이터에도 사용 가능 | 존재하지 않거나 다수 존재 가능 |
---
## 수학적 표현
데이터셋 \( X = \{x_1, x_2, \dots, x_n\} \)가 크기순으로 정렬되어 있을 때, 중앙값 \( \text{Med}(X) \)는 다음과 같이 정의된다:
\[
\text{Med}(X) =
\begin{cases}
x_{\frac{n+1}{2}} & \text{if } n \text{ is odd} \\
\frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & \text{if } n \text{ is even}
\end{cases}
\]
---
## 관련 개념
- **백분위수**(Percentile): 중앙값은 **50번째 백분위수**(P50)와 동일하다.
- **사분위수**(Quartile): Q1(25%), Q2(50% = 중앙값), Q3(75%)로 구성되며, 데이터의 분포를 파악하는 데 사용.
- **상자 수염 그림**(Boxplot): 중앙값, 사분위수, 이상치를 시각화하는 데 중앙값이 중심축으로 활용된다.
---
## 참고 자료
- Moore, D. S., Notz, W., & Fligner, M. A. (2021). *The Basic Practice of Statistics* (9th ed.). W.H. Freeman.
- 정형진 (2020). 『기초통계학』. 학지사.
- 한국통계청. (2023). "가계동향조사 통계표". [https://kostat.go.kr](https://kostat.go.kr)
---
중앙값은 단순한 계산 방식에도 불구하고, 현실 데이터 분석에서 매우 중요한 역할을 한다. 특히 데이터의 정규성과 이상치 여부를 사전에 알 수 없는 상황에서, 중앙값은 안정적이고 해석이 쉬운 대안적 대표값으로 널리 사용되고 있다.