Min-Max 정규화

작성자

익명

작성일

2025.10.03

조회수

버전

Min-Max 정규화## 개요

Min-Max 정규화(Min-Max Normalization)는 데이터 과학 및 머신러닝 분야에서 널리 사용 데이터 정제(Data Preprocessing) 기법 중 하나로, 수치형 변수의 스케일을 일정한 범위로 조정하는 정규화(Normalization) 방법입니다. 이 기법은 데이터의 최소값과 최대값을 기준으로 모든 값을 0에서 1 사이(또는 지정된 범위)로 선형 변환함으로써, 서로 다른 스케일을 가진 변수들 간의 비교를 용이하게 하고, 알고리즘의 수렴 속도를 향상시키는 데 기여합니다.

특히, 거리 기반 알고리즘(예: K-최근접 이웃, K-Means 클러스터링, 서포트 벡터 머신 등)이나 경사 하강법을 사용하는 신경망 모델에서 Min-Max 정규화는 성능 향상에 중요한 역할을 합니다.

정의와 수식

Min-Max 정규화는 다음의 수식을 사용하여 데이터를 변환합니다:

$$ X_{\text{norm}} = \frac{X - X_{\min}}{X_{\max} - X_{\min}} $$

여기서: - $X$: 원본 데이터 값 - $X_{\min}$: 데이터 집합 내 최소값 - $X_{\max}$: 데이터 집합 내 최대값 - $X_{\text{norm}}$: 정규화된 값 (보통 [0, 1] 범위)

정규화 범위 확장

기본적으로 [0, 1] 범위로 정규화되지만, 필요에 따라 다른 범위로도 조정할 수 있습니다. 예를 들어 [a, b] 범위로 정규화하고자 할 경우, 다음 수식을 사용합니다:

$$ X_{\text{norm}} = a + \frac{(X - X_{\min})(b - a)}{X_{\max} - X_{\min}} $$

이를 통해 [0, 1] 외에도 [-1, 1], [0, 100] 등 다양한 범위로 데이터를 조정할 수 있습니다.

사용 목적과 필요성

1. 스케일 불균형 해소

다양한 단위나 크기를 가진 변수들(예: 연봉(단위: 만원) vs. 나이(단위: 세))이 동시에 모델에 입력될 경우, 값의 크기가 큰 변수가 모델 학습에 더 큰 영향을 미칠 수 있습니다. Min-Max 정규화는 이러한 스케일 편차를 제거하여 모든 변수가 동등한 영향력을 갖도록 도와줍니다.

2. 거리 기반 알고리즘의 성능 향상

KNN, K-Means, PCA 등 거리 기반 알고리즘은 변수의 스케일에 민감합니다. 예를 들어, 키(cm)와 몸무게(kg)를 동시에 사용할 때, 단위 차이로 인해 몸무게가 거리 계산에서 과도하게 반영될 수 있습니다. 정규화를 통해 이 문제를 해결합니다.

3. 수렴 속도 향상

신경망과 같은 모델은 경사 하강법을 사용하여 학습합니다. 입력 데이터의 스케일이 고르지 않으면 기울기 갱신이 불안정해지고 수렴 속도가 느려질 수 있습니다. Min-Max 정규화는 이 과정을 안정화시킵니다.

장점과 단점

항목	설명
장점	- 간단하고 직관적인 방법 - 계산이 빠르고 구현이 쉬움 - 결과가 해석하기 쉬운 [0, 1] 범위로 제한됨
단점	- 이상치(Outlier)에 매우 민감함 - 최대/최소값이 이상치에 의해 왜곡되면 전체 정규화 결과가 비정상적으로 분포됨 - 분포의 형태를 유지하지만, 정규분포로 만들지는 않음

🔍 예시: 데이터 중 하나가 1, 2, 3, 1000이라면, 1000이라는 이상치로 인해 1~3은 모두 0에 가까운 값으로 정규화되어 정보 손실이 발생할 수 있음.

활용 예시 (Python 코드)

다음은 Python의 [scikit-learn](/doc/%EA%B8%B0%EC%88%A0/%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B3%BC%ED%95%99/%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EB%B6%84%EC%84%9D%20%EB%8F%84%EA%B5%AC/scikit-learn) 라이브러리를 사용한 Min-Max 정규화 예제입니다.

from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 샘플 데이터 생성
data = np.array([[10], [20], [30], [40], [50]])

# MinMaxScaler 객체 생성 (기본 범위: [0, 1])
scaler = MinMaxScaler()

# 정규화 수행
normalized_data = scaler.fit_transform(data)

print("정규화 전:", data.flatten())
print("정규화 후:", normalized_data.flatten())

출력 결과:

정규화 전: [10 20 30 40 50]
정규화 후: [0.   0.25 0.5  0.75 1.  ]

사용 가능한 옵션

# 범위를 [0, 10]으로 지정
scaler = MinMaxScaler(feature_range=(0, 10))