기계학습 기반 전처리

작성자

익명

작성일

2026.06.20

조회수

버전

기계학습 기반 전처리 결측치 대체 차원 축소 이상치 탐지 Autoencoder GAN Isolation Forest 데이터 누수

기계학습 기반 전처리 (Machine Learning-Based Preprocessing)

개요

기계학습 기반 전처리(Machine Learning-Based Preprocessing)는 전통적인 통계적 방법이나 규칙 기반 접근법을 넘어서, 머신러닝 알고리즘 자체를 활용하여 데이터의 품질을 개선하고 모델의 학습 성능을 최적화하는 과정을 의미합니다. 일반적인 데이터 전처리가 결측치 채우기, 이상치 제거, 정규화 등 고정된 수학적 변환에 의존하는 것과 달리, 기계학습 기반 전처리는 데이터의 복잡한 비선형 관계와 패턴을 학습하여 더 정교하고 적응적인 전처리를 수행합니다.

이러한 접근법은 특히 고차원 데이터, 시계열 데이터, 자연어 처리(NLP) 및 컴퓨터 비전 분야에서 기존 방법의 한계를 극복하고 모델의 정확도와 일반화 성능을显著提升시키는 핵심 요소로 자리 잡고 있습니다.

주요 기법 및 분류

기계학습 기반 전처리는 주로 데이터의 결손 처리, 차원 축소, 특징 공학, 그리고 데이터 증강 등 여러 영역에서 적용됩니다.

1. 결측치 대체 (Imputation)

전통적인 평균이나 중앙값 대체는 데이터의 분포를 왜곡시킬 수 있습니다. 기계학습 기반 접근법은 다른 특징(feature)들과의 상관관계를 학습하여 결측치를 예측합니다.

K-최근접 이웃(KNN) Imputation: 가장 유사한 k개의 관측치를 찾아 그들의 값을 기반으로 결측치를 추정합니다.
시계열 기반 예측 (ARIMA, LSTM): 시계열 데이터의 경우, 과거의 시점 데이터를 학습하여 미래의 결측값을 예측합니다.
생성 모델 활용 (MICE, GAIN): 다변량 결측 데이터 채우기(MICE) 알고리즘은 각 변수를 조건부 분포로 모델링하여 반복적으로 결측치를 채웁니다. 최근에는 생성적 적대 신경망(GAN)을 활용한 GAIN(Generative Adversarial Imputation Nets)이 비선형 관계를 잘 포착하여 높은 정확도를 보입니다.

2. 차원 축소 및 특징 선택 (Dimensionality Reduction & Feature Selection)

고차원 데이터에서 노이즈를 제거하고 중요한 특징만 추출하는 과정입니다.

Autoencoder 기반 축소: 인코더-디코더 구조의 신경망을 사용하여 원본 데이터를 압축된 잠재 공간(latent space)으로 매핑한 후, 이를 다시 복원하는 과정을 통해 중요한 특징만 남깁니다. 이는 PCA(주성분 분석)보다 비선형 구조를 잘 보존합니다.
트리 기반 특징 중요도: 랜덤 포레스트나 그래디언트 부스팅과 같은 앙상블 모델을 학습시켜 각 특징의 중요도를 계산하고, 임계값 이하의 특징을 제거합니다.

3. 이상치 탐지 및 제거 (Outlier Detection)

Isolation Forest: 무작위 분할 트리를 사용하여 이상치가 일반 데이터보다 더 빨리 분리됨을 이용하여 이상치를 식별합니다.
One-Class SVM: 정상 데이터의 경계를 학습하여 그 경계를 벗어난 데이터를 이상치로 판별합니다.