Agglomerative
Agglomerative
개요
Agglomerative는 군집화(Clustering) 기법 중 하나로, 계층적 군집화(Hierarchical Clustering)의 대표적인 하향식 접근 방식입니다. 이 알고리즘은 각 데이터 포인트를 초기에 개별 군집으로 간주한 후, 유사도가 높은 군집을 점진적으로 병합하여 하나의 큰 군집으로 만드는 하향식(bottom-up) 방식을 따릅니다. Agglomerative 군집화는 데이터의 계층적 구조를 시각화하고, 사전에 군집의 수를 지정하지 않아도 되는 장점이 있어 탐색적 데이터 분석(EDA)에서 널리 사용됩니다.
이 문서에서는 Agglomerative 군집화의 원리, 알고리즘 절차, 거리 측정 방법, 덴드로그램(Dendrogram), 장단점 및 실용적인 활용 사례를 다룹니다.
원리 및 알고리즘 절차
Agglomerative 군집화는 다음과 같은 단계를 반복적으로 수행합니다:
- 초기화: 각 데이터 포인트를 하나의 군집으로 설정합니다. (N개의 데이터 → N개의 군집)
- 유사도 계산: 모든 군집 쌍 간의 거리(또는 비유사도)를 계산합니다. 일반적으로 유클리드 거리, 맨해튼 거리 등을 사용합니다.
- 병합: 거리가 가장 가까운 두 군집을 하나로 병합합니다.
- 업데이트: 병합된 새로운 군집의 거리 행렬을 갱신합니다.
- 반복: 모든 데이터 포인트가 하나의 군집이 될 때까지 2~4단계를 반복합니다.
이 과정은 총 ( N-1 ) 번 반복되며, 최종적으로 전체 데이터를 하나의 군집으로 통합합니다.
거리 측정 방법 (Linkage Criteria)
군집 간 거리를 정의하는 방식은 군집화 결과에 큰 영향을 미칩니다. 주요 링크 방식(Linkage Criteria)은 다음과 같습니다:
| 링크 방식 | 설명 |
|---|---|
| 단일 링크(Single Linkage) | 두 군집에 속한 데이터 포인트 쌍 중 가장 가까운 거리를 군집 간 거리로 정의. 장점: 긴 선형 구조 탐지 가능, 단점: 체인 효과 발생 가능 |
| 완전 링크(Complete Linkage) | 두 군집 간 가장 먼 거리를 기준으로 삼음. 결과적으로 더 균일한 군집 형성 |
| 평균 링크(Average Linkage) | 모든 쌍 간 거리의 평균을 사용. 균형 잡힌 결과 제공 |
| 워드 링크(Ward’s Method) | 군집 내 분산의 증가량을 최소화하는 방식. 일반적으로 응집력 있는 구형 군집 생성에 효과적 |
특히 Ward’s Method는 실무에서 가장 많이 사용되며, K-Means와 유사한 결과를 도출하는 경향이 있습니다.
덴드로그램 (Dendrogram)
덴드로그램은 Agglomerative 군집화의 결과를 시각적으로 표현한 트리 구조입니다. 수직축은 군집 병합 시의 거리(비유사도), 수평축은 데이터 포인트 또는 군집을 나타냅니다.
- 덴드로그램 해석: 수직선의 길이가 길수록 두 군집 간 거리가 멀다는 의미입니다.
- 군집 수 결정: 덴드로그램에서 수평선을 그어 긴 간격을 건너는 지점을 기준으로 군집의 수를 결정할 수 있습니다. 예를 들어, 높은 비유사도에서 갑작스럽게 병합이 일어나는 지점은 자연스러운 군집 경계로 해석할 수 있습니다.
예시 덴드로그램 개략도:
+-----+
| |
+---+ +-----+
| | |
+---+ +---+ +---+
| | | | |
A B C D E
장점과 단점
✅ 장점
- 군집의 수를 사전에 지정할 필요 없음
- 덴드로그램을 통해 데이터의 계층적 구조를 직관적으로 파악 가능
- 다양한 링크 방식을 통해 유연한 군집화 가능
- 비선형 구조나 복잡한 군집 형상도 일부 탐지 가능
❌ 단점
- 계산 복잡도가 높음: ( O(N^3) ) 수준 (N: 데이터 수)
- 대규모 데이터셋에는 비효율적
- 한 번 병합된 군집은 다시 분리할 수 없음 (비가역적)
- 거리 척도와 링크 방식에 민감
활용 사례
- 생물정보학: 유전자 발현 프로파일을 기반으로 유사한 유전자 그룹을 식별
- 시장 세분화: 소비자 행동 데이터를 바탕으로 고객 세그먼트 도출
- 문서 군집화: 유사한 주제의 문서를 자동으로 그룹화
- 이미지 분석: 유사한 텍스처나 색상 패턴을 가진 영역 분류
참고 자료 및 관련 문서
- scikit-learn: Agglomerative Clustering
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
- Tan, P.-N., Steinbach, M., & Kumar, V. (2006). Introduction to Data Mining. Pearson.
관련 문서: - K-Means 클러스터링 - DBSCAN - 주성분 분석 (PCA) - 비지도 학습
Agglomerative 군집화는 탐색적 데이터 분석에서 강력한 도구로, 특히 데이터의 내재된 계층 구조를 이해하고 싶을 때 유용합니다. 다만, 계산 비용과 확장성의 한계로 대용량 데이터에는 주의가 필요하며, 적절한 전처리와 거리 척도 선택이 성공적인 군집화를 위한 핵심 요소입니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.