개요
중값(median)은 통계학에서 자료의 중심 경향(central tendency)을 나타내는 대표적인 척도 중 하나로, 데이터를 크기 순서로 나열했을 때 가운데에 위치하는 값을 의미한다. 평균(mean)과 최빈값(mode)과 함께 대표값의 세 가지 주요 지표 중 하나로 꼽히며, 특히 이상치(outlier)에 민감하지 않다는 점에서 평균보다 더 강건한(robut) 지표로 평가된다.
중값은 데이터의 분포가 비대칭적이거나 극단적인 값이 포함된 경우에 유용하게 사용되며, 소득 분포, 주택 가격, 생존 시간 등 실제 사회·경제 지표 분석에서 자주 활용된다.
중값의 정의와 계산 방법
정의
중값은 주어진 데이터 집합을 오름차순 또는 내림차순으로 정렬했을 때, 정확히 중앙에 위치한 값이다. 데이터의 개수가 홀수일 경우 중앙의 하나의 값이 중값이 되며, 짝수일 경우 중앙에 있는 두 값의 산술 평균을 중값으로 취한다.
계산 절차
- 데이터를 크기 순서로 정렬한다.
- 데이터의 개수 $ n $에 따라 다음과 같이 계산한다:
- $ n $이 홀수일 경우:
[
\text{중값} = \left( \frac{n+1}{2} \right)\text{번째 값}
]
- $ n $이 짝수일 경우:
[
\text{중값} = \frac{\left( \frac{n}{2} \right)\text{번째 값} + \left( \frac{n}{2} + 1 \right)\text{번째 값}}{2}
]
예시
다음과 같은 데이터 집합이 있다고 가정하자:
3, 1, 7, 5, 9
- 정렬: 1, 3, 5, 7, 9
- $ n = 5 $ (홀수) → 중앙의 값은 3번째 값 → 중값 = 5
다른 예시:
2, 4, 6, 8
- 정렬: 2, 4, 6, 8
- $ n = 4 $ (짝수) → 2번째와 3번째 값의 평균 → $ \frac{4 + 6}{2} = 5 $ → 중값 = 5
중값의 특징
1. 이상치에 강건함
중값은 평균과 달리 극단적인 값(이상치)에 큰 영향을 받지 않는다. 예를 들어, 소득 데이터에서 소수의 고소득자가 있더라도 중값은 전체 데이터의 중간 위치를 반영하므로 안정적인 대표값이 된다.
- 예: 30, 35, 40, 45, 1000
- 평균: $ \frac{30+35+40+45+1000}{5} = 230 $
- 중값: 40
→ 평균은 이상치에 의해 왜곡됨. 중값은 대부분의 사람의 소득을 더 잘 대표.
2. 순서 척도(ordinal scale)에서도 사용 가능
비율 척도(ratio scale)나 간격 척도(interval scale)가 아닌 순서 척도(예: 학점 A, B, C, D, F)에서도 중값을 계산할 수 있다. 이는 평균은 불가능한 경우도 있다.
3. 비대칭 분포에서 유리
정규분포를 따르는 데이터에서는 평균과 중값이 거의 일치하지만, 오른쪽 꼬리가 긴 분포(우측 편포)나 왼쪽 꼬리가 긴 분포(좌측 편포)에서는 중값이 중심 경향을 더 잘 나타낸다.
중값과 평균의 비교
구분 |
중값 |
평균 |
정의 |
정렬 후 중앙값 |
모든 값의 총합 ÷ 개수 |
이상치 영향 |
거의 없음 (강건함) |
큼 (비강건함) |
계산 방식 |
순서 기반 |
산술 계산 기반 |
사용 가능한 척도 |
순서, 간격, 비율 척도 |
간격, 비율 척도 |
계산 복잡성 |
낮음 (정렬 필요) |
낮음 (단순 평균) |
중값의 활용 분야
1. 경제 통계
2. 의학 및 생물통계
- 생존 기간 중간값(median survival time): 임상 시험에서 환자의 생존 기간을 요약할 때 사용.
- 혈압, 콜레스테롤 수치의 중간값으로 집단 비교.
- 학생들의 시험 점수 분포에서 중간 성취도를 파악.
- 평균이 왜곡될 수 있는 경우(예: 일부 학생이 매우 낮은 점수) 중값이 더 유용.
관련 개념
1. 사분위수(Quartiles)
중값은 제2사분위수(Q2)와 동일하다. 사분위수는 데이터를 4등분하는 값으로:
- Q1: 하위 25%
- Q2 (중간 50%): 중값
- Q3: 상위 25%
사분위수는 상자 수염 그림(box plot)에서 시각화되며, 데이터의 분포와 산포를 분석하는 데 유용하다.
2. 중심극한성정과의 관계
중심극한정리(Central Limit Theorem)는 평균의 표집 분포에 초점이 있으나, 중값의 표집 분포 또한 연구 대상이다. 표본 크기가 커질수록 중값의 분포도 정규분포에 근접하지만, 평균보다 수렴 속도가 느릴 수 있다.
참고 자료
- Moore, D. S., & McCabe, G. P. (2002). Introduction to the Practice of Statistics. W.H. Freeman.
- Wilcox, R. R. (2012). Introduction to Robust Estimation and Hypothesis Testing. Academic Press.
- 한국은행, 통계청. (최신년도). 가계동향조사 보고서.
중값은 단순한 계산을 통해도 데이터의 핵심 경향을 효과적으로 파악할 수 있는 강력한 통계 도구이다. 특히 현실 세계의 비정규적 데이터를 다룰 때 그 가치가 두드러지며, 데이터 과학, 사회조사, 의학 연구 등 다양한 분야에서 필수적인 개념으로 자리 잡고 있다.
# 중값
## 개요
**중값**(median)은 통계학에서 자료의 중심 경향(central tendency)을 나타내는 대표적인 척도 중 하나로, 데이터를 크기 순서로 나열했을 때 **가운데에 위치하는 값**을 의미한다. 평균(mean)과 최빈값(mode)과 함께 대표값의 세 가지 주요 지표 중 하나로 꼽히며, 특히 **이상치**(outlier)에 민감하지 않다는 점에서 평균보다 더 강건한(robut) 지표로 평가된다.
중값은 데이터의 분포가 비대칭적이거나 극단적인 값이 포함된 경우에 유용하게 사용되며, 소득 분포, 주택 가격, 생존 시간 등 실제 사회·경제 지표 분석에서 자주 활용된다.
---
## 중값의 정의와 계산 방법
### 정의
중값은 주어진 데이터 집합을 **오름차순 또는 내림차순으로 정렬**했을 때, **정확히 중앙에 위치한 값**이다. 데이터의 개수가 홀수일 경우 중앙의 하나의 값이 중값이 되며, 짝수일 경우 중앙에 있는 두 값의 **산술 평균**을 중값으로 취한다.
### 계산 절차
1. 데이터를 크기 순서로 정렬한다.
2. 데이터의 개수 $ n $에 따라 다음과 같이 계산한다:
- $ n $이 **홀수**일 경우:
\[
\text{중값} = \left( \frac{n+1}{2} \right)\text{번째 값}
\]
- $ n $이 **짝수**일 경우:
\[
\text{중값} = \frac{\left( \frac{n}{2} \right)\text{번째 값} + \left( \frac{n}{2} + 1 \right)\text{번째 값}}{2}
\]
### 예시
다음과 같은 데이터 집합이 있다고 가정하자:
> 3, 1, 7, 5, 9
1. 정렬: 1, 3, 5, 7, 9
2. $ n = 5 $ (홀수) → 중앙의 값은 3번째 값 → **중값 = 5**
다른 예시:
> 2, 4, 6, 8
1. 정렬: 2, 4, 6, 8
2. $ n = 4 $ (짝수) → 2번째와 3번째 값의 평균 → $ \frac{4 + 6}{2} = 5 $ → **중값 = 5**
---
## 중값의 특징
### 1. 이상치에 강건함
중값은 평균과 달리 **극단적인 값**(이상치)에 큰 영향을 받지 않는다. 예를 들어, 소득 데이터에서 소수의 고소득자가 있더라도 중값은 전체 데이터의 중간 위치를 반영하므로 안정적인 대표값이 된다.
- 예: 30, 35, 40, 45, **1000**
- 평균: $ \frac{30+35+40+45+1000}{5} = 230 $
- 중값: 40
→ 평균은 이상치에 의해 왜곡됨. 중값은 대부분의 사람의 소득을 더 잘 대표.
### 2. 순서 척도(ordinal scale)에서도 사용 가능
비율 척도(ratio scale)나 간격 척도(interval scale)가 아닌 **순서 척도**(예: 학점 A, B, C, D, F)에서도 중값을 계산할 수 있다. 이는 평균은 불가능한 경우도 있다.
### 3. 비대칭 분포에서 유리
정규분포를 따르는 데이터에서는 평균과 중값이 거의 일치하지만, **오른쪽 꼬리가 긴 분포**(우측 편포)나 **왼쪽 꼬리가 긴 분포**(좌측 편포)에서는 중값이 중심 경향을 더 잘 나타낸다.
---
## 중값과 평균의 비교
| 구분 | 중값 | 평균 |
|------|------|------|
| 정의 | 정렬 후 중앙값 | 모든 값의 총합 ÷ 개수 |
| 이상치 영향 | 거의 없음 (강건함) | 큼 (비강건함) |
| 계산 방식 | 순서 기반 | 산술 계산 기반 |
| 사용 가능한 척도 | 순서, 간격, 비율 척도 | 간격, 비율 척도 |
| 계산 복잡성 | 낮음 (정렬 필요) | 낮음 (단순 평균) |
---
## 중값의 활용 분야
### 1. 경제 통계
- **가계 소득 중간값**: 평균 소득보다 국민의 실제 생활 수준을 더 정확히 반영.
- **주택 가격 중간값**: 부동산 시장에서 흔히 사용되며, 고가 아파트의 영향을 배제.
### 2. 의학 및 생물통계
- **생존 기간 중간값**(median survival time): 임상 시험에서 환자의 생존 기간을 요약할 때 사용.
- **혈압, 콜레스테롤 수치**의 중간값으로 집단 비교.
### 3. 교육 평가
- 학생들의 시험 점수 분포에서 중간 성취도를 파악.
- 평균이 왜곡될 수 있는 경우(예: 일부 학생이 매우 낮은 점수) 중값이 더 유용.
---
## 관련 개념
### 1. 사분위수(Quartiles)
중값은 **제2사분위수**(Q2)와 동일하다. 사분위수는 데이터를 4등분하는 값으로:
- Q1: 하위 25%
- Q2 (중간 50%): 중값
- Q3: 상위 25%
사분위수는 **상자 수염 그림**(box plot)에서 시각화되며, 데이터의 분포와 산포를 분석하는 데 유용하다.
### 2. 중심극한성정과의 관계
중심극한정리(Central Limit Theorem)는 평균의 표집 분포에 초점이 있으나, 중값의 표집 분포 또한 연구 대상이다. 표본 크기가 커질수록 중값의 분포도 정규분포에 근접하지만, 평균보다 수렴 속도가 느릴 수 있다.
---
## 참고 자료
- Moore, D. S., & McCabe, G. P. (2002). *Introduction to the Practice of Statistics*. W.H. Freeman.
- Wilcox, R. R. (2012). *Introduction to Robust Estimation and Hypothesis Testing*. Academic Press.
- 한국은행, 통계청. (최신년도). *가계동향조사 보고서*.
---
중값은 단순한 계산을 통해도 데이터의 핵심 경향을 효과적으로 파악할 수 있는 강력한 통계 도구이다. 특히 현실 세계의 비정규적 데이터를 다룰 때 그 가치가 두드러지며, 데이터 과학, 사회조사, 의학 연구 등 다양한 분야에서 필수적인 개념으로 자리 잡고 있다.