계층적 분류

작성자

익명

작성일

2025.07.11

조회수

버전

계층적 분류 (Hierarchical Clustering)

개요/소개

계층적 분류(Hierarchical Clustering)는 데이터 포인트 간의 유사도를 기반으로 계층 구조를 형성하여 클러스터를 생성하는 비단순 군집화 방법이다. 이 기법은 계층적 구조(Dendrogram)로 시각화되며, 데이터의 자연적인 계층 구조를 탐지하는 데 유용하다. 주로 Agglomerative(병합형)과 Divisive(분할형) 두 가지 접근 방식을 사용한다.

1. 기본 개념

1.1 정의

계층적 분류는 데이터 포인트를 점차 더 큰 클러스터로 묶거나, 반대로 큰 클러스터를 작은 단위로 나누어 계층 구조를 생성하는 알고리즘이다.
- Agglomerative: 초기에는 모든 데이터가 개별 클러스터로 시작하여, 유사도 기준으로 점차 병합된다.
- Divisive: 초기에는 모든 데이터가 하나의 클러스터로 시작하여, 반대로 분할된다.

1.2 주요 특징

계층 구조 시각화: Dendrogram을 통해 클러스터 간 관계를 직관적으로 이해 가능
단계적 접근: 유사도 기준에 따라 단계별로 클러스터 생성/분할
비단순 군집화: K-means와 달리 클러스터 수를 사전에 정하지 않아도 됨

2. 알고리즘 구조

2.1 Agglomerative 계층 분류 단계

초기 상태: 모든 데이터 포인트가 개별 클러스터로 시작
유사도 계산: 두 클러스터 간 거리(예: 유클리드 거리)를 계산
최소 유사도 클러스터 병합: 가장 가까운 두 클러스터를 결합
반복: 단계 2~3을 반복하여 클러스터 수 감소

2.2 Divisive 계층 분류 단계

초기 상태: 모든 데이터가 하나의 클러스터로 시작
분할 기준 결정: 클러스터 내부의 불일치도(예: variance)를 기준으로 분할
반복: 단계 2를 반복하여 클러스터 수 증가

3. 유사도 측정 방법

3.1 거리 메트릭

유클리드 거리(Euclidean Distance): 공간 내 두 점 간의 직선 거리
맨하탄 거리(Manhattan Distance): 축 방향으로만 이동하는 거리
코사인 유사도(Cosine Similarity): 벡터 간 각도를 기반으로 한 유사도

3.2 링크 방법 (Linkage Methods)

단일 연결(Single Linkage): 두 클러스터의 가장 가까운 포인트 간 거리
완전 연결(Complete Linkage): 두 클러스터의 가장 먼 포인트 간 거리
평균 연결(Average Linkage): 모든 포인트 쌍의 평균 거리
워드 방법(Ward's Method): 클러스터 내 분산을 최소화하는 방식

4. 장단점

4.1 장점

계층 구조 탐지: 데이터의 자연적인 계층 관계를 반영
유연성: 클러스터 수 조정이 가능 (Dendrogram 기반)
비모수적: 분포 가정 없이 적용 가능

4.2 단점

시간 복잡도 높음: 대규모 데이터에 비효율적 (O(n³))
결과 해석 어려움: Dendrogram의 복잡성으로 인한 오해 가능성
감도 문제: 유사도 메트릭 선택에 따라 결과 크게 달라짐

5. 응용 분야

5.1 데이터 분석

고객 세분화: 구매 패턴 기반의 계층적 고객 그룹 생성
생물학적 분류: 유전자 데이터를 이용한 생물 종 계층 구조 탐색

5.2 이미지 처리

객체 인식: 이미지 내 물체를 계층적으로 분할 (예: 세분화된 오브제 추출)

5.3 텍스트 마이닝

문서 군집화: 토픽 간 계층적 관계 시각화 (예: 뉴스 기사 분류)

6. 관련 도구 및 라이브러리

도구	언어	특징
scikit-learn	Python	`AgglomerativeClustering` 클래스 제공
R (hclust)	R	계층적 분석 전용 함수
Weka	Java	GUI 기반 계층 분류 도구

참고 자료

Scikit-learn Hierarchical Clustering Documentation
Ward's Method in Cluster Analysis
Introduction to Statistical Learning (Chapter 10: Unsupervised Learning)

이 문서는 계층적 분류의 기초 개념부터 실무 적용까지 포괄적으로 설명하며, 데이터 과학에서 중요한 분석 도구로 활용할 수 있는 지식을 제공합니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 계층적 분류 (Hierarchical Clustering)

## 개요/소개
계층적 분류(Hierarchical Clustering)는 데이터 포인트 간의 유사도를 기반으로 계층 구조를 형성하여 클러스터를 생성하는 비단순 군집화 방법이다. 이 기법은 **계층적 구조**(Dendrogram)로 시각화되며, 데이터의 자연적인 계층 구조를 탐지하는 데 유용하다. 주로 **Agglomerative**(병합형)과 **Divisive**(분할형) 두 가지 접근 방식을 사용한다.

---

## 1. 기본 개념

### 1.1 정의
계층적 분류는 데이터 포인트를 점차 더 큰 클러스터로 묶거나, 반대로 큰 클러스터를 작은 단위로 나누어 계층 구조를 생성하는 알고리즘이다.  
- **Agglomerative**: 초기에는 모든 데이터가 개별 클러스터로 시작하여, 유사도 기준으로 점차 병합된다.  
- **Divisive**: 초기에는 모든 데이터가 하나의 클러스터로 시작하여, 반대로 분할된다.

### 1.2 주요 특징
- **계층 구조 시각화**: Dendrogram을 통해 클러스터 간 관계를 직관적으로 이해 가능  
- **단계적 접근**: 유사도 기준에 따라 단계별로 클러스터 생성/분할  
- **비단순 군집화**: K-means와 달리 클러스터 수를 사전에 정하지 않아도 됨  

---

## 2. 알고리즘 구조

### 2.1 Agglomerative 계층 분류 단계
1. **초기 상태**: 모든 데이터 포인트가 개별 클러스터로 시작  
2. **유사도 계산**: 두 클러스터 간 거리(예: 유클리드 거리)를 계산  
3. **최소 유사도 클러스터 병합**: 가장 가까운 두 클러스터를 결합  
4. **반복**: 단계 2~3을 반복하여 클러스터 수 감소  

### 2.2 Divisive 계층 분류 단계
1. **초기 상태**: 모든 데이터가 하나의 클러스터로 시작  
2. **분할 기준 결정**: 클러스터 내부의 불일치도(예: variance)를 기준으로 분할  
3. **반복**: 단계 2를 반복하여 클러스터 수 증가  

---

## 3. 유사도 측정 방법

### 3.1 거리 메트릭
- **유클리드 거리**(Euclidean Distance): 공간 내 두 점 간의 직선 거리  
- **맨하탄 거리**(Manhattan Distance): 축 방향으로만 이동하는 거리  
- **코사인 유사도**(Cosine Similarity): 벡터 간 각도를 기반으로 한 유사도  

### 3.2 링크 방법 (Linkage Methods)
1. **단일 연결**(Single Linkage): 두 클러스터의 가장 가까운 포인트 간 거리  
2. **완전 연결**(Complete Linkage): 두 클러스터의 가장 먼 포인트 간 거리  
3. **평균 연결**(Average Linkage): 모든 포인트 쌍의 평균 거리  
4. **워드 방법**(Ward's Method): 클러스터 내 분산을 최소화하는 방식  

---

## 4. 장단점

### 4.1 장점
- **계층 구조 탐지**: 데이터의 자연적인 계층 관계를 반영  
- **유연성**: 클러스터 수 조정이 가능 (Dendrogram 기반)  
- **비모수적**: 분포 가정 없이 적용 가능  

### 4.2 단점
- **시간 복잡도 높음**: 대규모 데이터에 비효율적 (O(n³))  
- **결과 해석 어려움**: Dendrogram의 복잡성으로 인한 오해 가능성  
- **감도 문제**: 유사도 메트릭 선택에 따라 결과 크게 달라짐  

---

## 5. 응용 분야

### 5.1 데이터 분석
- 고객 세분화: 구매 패턴 기반의 계층적 고객 그룹 생성  
- 생물학적 분류: 유전자 데이터를 이용한 생물 종 계층 구조 탐색  

### 5.2 이미지 처리
- 객체 인식: 이미지 내 물체를 계층적으로 분할 (예: 세분화된 오브제 추출)  

### 5.3 텍스트 마이닝
- 문서 군집화: 토픽 간 계층적 관계 시각화 (예: 뉴스 기사 분류)  

---

## 6. 관련 도구 및 라이브러리

| 도구 | 언어 | 특징 |
|------|------|------|
| **scikit-learn** | Python | `AgglomerativeClustering` 클래스 제공 |
| **R (hclust)** | R | 계층적 분석 전용 함수 |
| **Weka** | Java | GUI 기반 계층 분류 도구 |

---

## 참고 자료
1. [Scikit-learn Hierarchical Clustering Documentation](https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering)  
2. [Ward's Method in Cluster Analysis](https://en.wikipedia.org/wiki/Ward%27s_method)  
3. *Introduction to Statistical Learning* (Chapter 10: Unsupervised Learning)  

이 문서는 계층적 분류의 기초 개념부터 실무 적용까지 포괄적으로 설명하며, 데이터 과학에서 중요한 분석 도구로 활용할 수 있는 지식을 제공합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen3-30b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나