중값
📋 문서 버전
이 문서는 2개의 버전이 있습니다. 현재 최신 버전을 보고 있습니다.
중값
개요
중값(median)은 통계학에서 자료의 중심 경향성을 나타내는 대표적인 척도 중 하나로, 주어진 데이터를 크순으로 정렬했을 때가운데에 위치하는 값을 의미한다. 평균(mean)과 최빈값(mode)과 함께 중심경향성의 세 가지 주요 지표 중 하나로 꼽히며, 특히 극단값**(outliers)이 있는 데이터셋에서 평균보다 더 안정적인 대표값으로 사용된다.
중값은 데이터의 분포가 비대칭적이거나 이상치가 포함된 경우에 유리하며, 소득 분포, 집값, 시험 점수 등의 분석에서 자주 활용된다. 이 문서에서는 중값의 정의, 계산 방법, 특성, 장단점, 그리고 실제 응용 사례를 중심으로 설명한다.
정의와 계산 방법
중값은 데이터를 오름차순(또는 내림차순)으로 정렬했을 때, 전체 데이터의 절반은 중값보다 작고, 나머지 절반은 중값보다 큰 값을 가진다. 즉, 50번째 백분위수(50th percentile)에 해당한다.
데이터 수가 홀수일 경우
데이터의 개수가 홀수일 때는 정렬된 데이터에서 정확히 가운데에 위치한 값이 중값이 된다.
예를 들어, 다음 5개의 데이터가 있다:
3, 1, 4, 2, 5
정렬 후:
1, 2, 3, 4, 5
가운데 위치한 값은 3이므로, 중값은 3이다.
데이터 수가 짝수일
데이터의 개수가 짝수일 때는 가운데 두 값의 산술 평균을 중값으로 한다.
예:
3, 1, 4, 2
정렬 후:
1, 2, 3, 4
가운데 두 값은 2와 3이므로, 중값은 (2 + 3) / 2 = 2.5이다.
중값의 특성
1. 이상치에 민감하지 않음
중값은 평균과 달리 극단적인 값(이상치)의 영향을 덜 받는다. 예를 들어, 다음 데이터가 있다고 하자:
10, 12, 14, 15, 1000
- 평균: (10 + 12 + 14 + 15 + 1000) / 5 = 210.2
- 중값: 14
이 경우, 1000이라는 극단적인 값이 평균을 크게 왜곡하지만, 중값은 여전히 중심에 가까운 값을 유지한다.
2. 순서 척도 이상에서만 계산 가능
중값은 데이터가 순서형(ordinal) 이상의 척도를 가져야 계산할 수 있다. 명목형 데이터(예: 색상, 성별)에는 적용할 수 없다.
3. 비대칭 분포에서 유리
정규분포에서는 평균, 중값, 최빈값이 거의 일치하지만, 왼쪽 꼬리 또는 오른쪽 꼬리가 긴 편향된 분포(skewed distribution)에서는 중값이 평균보다 더 중심적인 위치를 나타낸다.
중값의 장단점
장점 | 설명 |
---|---|
이상치에 강함 | 극단값이 있더라도 데이터의 중심을 잘 반영 |
계산이 간단함 | 정렬 후 중앙 값을 선택하면 되므로 직관적 |
순서형 데이터에 적용 가능 | 평균보다 더 넓은 범위의 데이터 유형에서 사용 |
단점 | 설명 |
---|---|
모든 데이터를 반영하지 않음 | 평균은 모든 값을 반영하지만, 중값은 위치만 고려 |
수학적 처리에 제한 | 평균과 달리 대수적 연산(예: 총합 계산)에 활용하기 어려움 |
표본 크기가 작을 때 변동성 큼 | 작은 데이터셋에서는 중값이 덜 안정적일 수 있음 |
활용 사례
1. 소득 분포 분석
국가나 지역의 소득 통계에서 평균 소득은 소수의 고소득자에 의해 과대 평가되는 경향이 있다. 이때 중간소득(median income)이 더 현실적인 생활 수준을 반영한다.
예:
- 평균 소득: 5,000만 원
- 중간소득: 3,500만 원
→ 소수의 고소득자가 평균을 끌어올렸음을 의미
2. 부동산 가격
아파트 가격 데이터에서도 중값(중위가)이 자주 사용된다. 특정 고가 아파트가 많을 경우 평균이 왜곡되므로, 중간값이 일반 가계의 주거 수준을 더 잘 나타낸다.
3. 의학 및 생물 통계
생존 기간, 혈압, 체중 등의 생물학적 측정값 분석에서 비정규분포가 흔하므로, 중값이 평균보다 더 신뢰성 있게 사용된다.
관련 개념
- 백분위수(Percentile): 중값은 50번째 백분위수이다.
- 사분위수(Quartile): 제1사분위수(Q1, 25%), 제3사분위수(Q3, 75%)와 함께 중값(Q2)은 데이터의 분포를 요약하는 데 사용된다.
- 상자 수염 그림(Box plot): 중값, 사분위수, 이상치를 시각화하는 도구로, 중값은 상자 안의 선으로 표시된다.
참고 자료
- Moore, D. S. (2010). The Basic Practice of Statistics. W.H. Freeman and Company.
- 통계청 공식 통계 용어 해설: https://www.kostat.go.kr
- Wikipedia - Median: https://en.wikipedia.org/wiki/Median
중값은 통계 분석에서 핵심적인 도구로, 데이터의 진정한 중심을 이해하는 데 중요한 역할을 한다. 특히 현실 세계의 비대칭적이고 이상치가 많은 데이터에서는 평균보다 더 신뢰할 수 있는 대표값이 될 수 있으므로, 분석 목적에 따라 적절히 선택하여 사용해야 한다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.