이상치 탐지
📋 문서 버전
이 문서는 2개의 버전이 있습니다. 현재 버전 1을 보고 있습니다.
이상치 탐지
개요
이상치 탐지(Outlier Detection)는 데이터학 및 통계 분석에서 중요한 전처리 및 분석 기법 중 하나로, 데이터셋 내에서 다른 관측치와 현저히 다른 값을 가지는 데이터 포인트를 식별하는 과정을 말한다. 이러한 이상치는 측정 오류, 데이터 입력 실수, 혹은 진정한 극단적 현상에서 비롯될 수 있으며, 분석 결과에 큰 영향을 미칠 수 있기 때문에 탐지 및 처리가 필수적이다.
이상치 탐지는 머신러닝, 금융 사기 탐지, 의료 진단, 네트워크 보안, 품질 관리 등 다양한 분야에서 활용되며, 데이터의 품질을 높이고 모델의 정확도를 개선하는 데 기여한다.
이상치의 정의와 특성
정의
이상치(Outlier)는 데이터 분포에서 다른 대부분의 관측치와 비교해 비정상적으로 멀리 떨어진 값을 의미한다. 통계학적으로는 일반적으로 데이터의 중심 경향(평균, 중앙값)에서 크게 벗어나 있거나, 분포의 꼬리 부분에 위치한 점으로 정의된다.
이상치의 유형
-
점 이상치(Point Outlier):
개별 데이터 포인트가 전체 데이터 분포와 비교해 비정상적인 경우. 예: 100명의 키 평균이 170cm일 때, 250cm인 데이터. -
맥락적 이상치(Contextual Outlier):
특정 맥락(시간, 위치 등)에서만 이상치로 간주되는 경우. 예: 겨울철에 35도의 기온은 비정상적이지만 여름철에는 정상. -
집단 이상치(Collective Outlier):
개별적으로는 정상이지만, 특정 그룹으로 묶였을 때 전체적으로 비정상적인 패턴을 보이는 경우. 예: 일련의 금융 거래에서 짧은 시간 내 다수의 고액 거래 발생.
이상치 탐지 방법
이상치 탐지는 데이터의 특성과 목적에 따라 다양한 기법을 사용할 수 있다. 주요 방법은 다음과 같다.
1. 통계 기반 방법
Z-점수(Z-Score)
- 데이터가 정규분포를 따른다고 가정할 때 사용.
- 각 데이터 포인트의 Z-점수는 다음과 같이 계산: [ Z = \frac{x - \mu}{\sigma} ] 여기서 ( \mu )는 평균, ( \sigma )는 표준편차.
- 일반적으로 |Z| > 3인 경우를 이상치로 간주.
IQR(Interquartile Range) 방법
- 사분위수를 기반으로 하며, 정규분포 가정이 필요 없음.
- 제1사분위수(Q1), 제3사분위수(Q3)를 계산하고, IQR = Q3 - Q1.
- 이상치 범위:
[ \text{하한} = Q1 - 1.5 \times IQR, \quad \text{상한} = Q3 + 1.5 \times IQR ] - 이 범위를 벗어나는 값은 이상치로 간주.
2. 기하학적 및 거리 기반 방법
K-최근접 이웃(K-Nearest Neighbors, KNN)
- 각 데이터 포인트와 그 주변 K개 이웃 간의 평균 거리를 계산.
- 거리가 큰 포인트일수록 이상치 가능성 높음.
로컬 이상치 인자(LOF, Local Outlier Factor)
- 밀도 기반 방법으로, 지역 밀도를 비교하여 이상치를 판별.
- LOF 값이 1에 가까우면 정상, 1보다 훨씬 크면 이상치.
3. 머신러닝 기반 방법
격리 숲(Isolation Forest)
- 이상치는 일반 데이터보다 분할 트리에서 더 빨리 "격리"된다는 가정 하에 작동.
- 평균 경로 길이가 짧을수록 이상치로 판단.
오토인코더(Autoencoder)
- 정상 데이터를 재구성하도록 학습한 후, 재구성 오차가 큰 데이터를 이상치로 탐지.
- 비지도 학습 기반으로 레이블이 없어도 사용 가능.
One-Class SVM
- 정상 데이터의 분포를 학습한 후, 그 범위를 벗어나는 점을 이상치로 판단.
- 고차원 데이터에 효과적.
이상치 탐지의 절차
-
탐지 방법 선택:
데이터의 분포, 차원, 레이블 유무 등을 고려해 적절한 방법 결정. -
이상치 식별:
선택한 방법을 적용해 이상치 후보 추출. -
검증 및 해석:
이상치가 오류인지, 아니면 중요한 정보인지 판단. 도메인 지식 활용. -
처리 결정:
- 제거
- 대치(예: 평균, 중앙값)
- 별도 분석 대상으로 유지
활용 분야
- 금융: 신용카드 사기 탐지, 이상 거래 감지
- 의료: 환자 생체신호 이상 감지, 질병 조기 경고
- 제조: 설비 고장 예측, 품질 결함 탐지
- 보안: 네트워크 침입 탐지, 비정상 로그인 시도
- 소매: 이상 구매 패턴 분석을 통한 마케팅 전략 수립
주의사항
- 모든 이상치가 "에러"는 아님. 중요한 신호일 수 있음.
- 탐지 방법의 과적합 방지를 위해 검증 데이터 사용.
- 다차원 데이터에서는 단변량 분석만으로는 부족하며, 다변량 기법 필요.
참고 자료 및 관련 문서
- Scikit-learn: Outlier detection
- Hawkins, D. M. (1980). Identification of Outliers. Chapman and Hall.
- Aggarwal, C. C. (2017). Outlier Analysis. Springer.
관련 위키 문서:
- 데이터 전처리
- 비지도 학습
- 이상 탐지 알고리즘 비교
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.