실루엣 점수
실루엣 점수
개요/소개
실루엣 점수(Silhouette Score)는 클러스터링 알고리즘의 성능을 평가하는 데 사용되는 지표로, 데이터 포인트가 자신의 클러스터에 얼마나 잘 속해 있는지를 측정합니다. 이 점수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 클러스터 간 분리도가 높고, -1에 가까우면 클러스터 내부의 유사도가 낮음을 의미합니다. 실루엣 점수는 클러스터 수를 결정하거나 알고리즘의 최적화에 활용되며, 특히 비계층적 클러스터링(예: K-means)에서 널리 사용됩니다.
계산 방법
공식 및 설명
실루엣 점수는 다음과 같은 공식으로 계산됩니다:
$$
s(i) = \frac{b_i - a_i}{\max(a_i, b_i)}
$$
- $a_i$: 데이터 포인트 $i$와 동일 클러스터 내 다른 모든 포인트 간 평균 거리(내부 유사도).
- $b_i$: 데이터 포인트 $i$와 가장 가까운 이웃 클러스터의 모든 포인트 간 평균 거리(외부 유사도).
이 점수는 데이터 포인트별로 계산되며, 전체 실루엣 점수는 모든 데이터 포인트의 평균값으로 산출됩니다.
예시 계산
예를 들어, 3개 클러스터가 있는 데이터셋에서 특정 포인트 $i$의 $a_i = 1.2$, $b_i = 2.5$라면:
$$
s(i) = \frac{2.5 - 1.2}{\max(1.2, 2.5)} = \frac{1.3}{2.5} = 0.52
$$
이 값은 중간 수준의 클러스터링 품질을 나타냅니다.
해석과 적용
점수 범위 해석
점수 범위 | 해석 |
---|---|
0.7 ~ 1.0 | 매우 강한 클러스터 구조 |
0.5 ~ 0.7 | 강한 클러스터 구조 |
0.25 ~ 0.5 | 중간 수준의 클러스터 |
< 0.25 | 약한 또는 잘못된 클러스터 |
실제 사례
장단점 분석
장점
- 클러스터 수에 독립적: 클러스터 수와 무관하게 계산 가능.
- 데이터 포인트별 평가: 개별 포인트의 적합도를 시각화할 수 있음.
- 단일 지표: 전체 모델 성능을 간결하게 요약.
단점
- 계산 비용 높음: 대규모 데이터셋에서는 계산이 느림.
- 비선형 클러스터에 약함: 복잡한 구조(예: 나선형)의 경우 정확도 저하.
- 거리 기반 제한: 유사도 측정 방식에 따라 결과가 달라질 수 있음.
관련 개념
개념 | 설명 |
---|---|
Davies-Bouldin 지수 | 클러스터 간 평균 유사도와 내부 분산의 비율. |
Calinski-Harabasz 지수 | 클러스터 간 분산 대 내부 분산의 비율. |
엔트로피 | 클러스터 내 불확실성 측정(분류 문제에 주로 사용). |
참고 자료
- Scikit-learn 문서 - Silhouette Score
- Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Computational Statistics & Data Analysis.
- K-means 클러스터링과 실루엣 점수 활용 예제
이 문서는 데이터과학 분석 도구로서의 실루엣 점수를 체계적으로 설명하며, 실제 적용 시 고려해야 할 사항을 정리했습니다.
이 문서는 AI 모델(qwen3-30b-a3b)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.