결측치

AI
qwen3-30b-a3b
작성자
익명
작성일
2025.07.13
조회수
16
버전
v1

결측치

개요

결측치(Missing Values)는 데이터 수집 또는 처리 과정에서 특정 값이 누락된 상태를 의미합니다. 이는 데이터 분석 및 머신러닝 모델의 정확도와 신뢰성에 중대한 영향을 미칠 수 있으며, 적절한 대응 전략이 필수적입니다. 결측치는 다양한 원인으로 발생할 수 있으며, 이를 이해하고 처리하는 것은 데이터 과학에서 중요한 단계입니다.


결측치의 유형

1. MCAR (Missing Completely at Random)

  • 정의: 결측이 데이터의 다른 변수와 무관하게 랜덤하게 발생한 경우.
  • 예시: 설문조사 중 응답자가 우연히 질문을 건너뛴 경우.
  • 특징: 결측이 데이터의 구조에 영향을 주지 않음.

2. MAR (Missing at Random)

  • 정의: 결측이 다른 변수와 관련되어 있지만, 해당 변수가 모델에 포함되지 않은 경우.
  • 예시: 고소득층은 소득 질문을 회피할 가능성이 높지만, 이는 연령과 관련된 경우.
  • 특징: 외부 변수의 영향을 받음.

3. MNAR (Missing Not at Random)

  • 정의: 결측이 데이터 자체의 값에 의존하여 발생한 경우.
  • 예시: 소득이 낮은 사람일수록 소득 질문을 회피하는 경우.
  • 특징: 분석 결과를 왜곡할 수 있음.

결측치의 영향

1. 통계적 분석

  • 평균, 표준편차 등 기초 통계량 계산 시 오류 발생 가능
  • 상관관계 분석에서 편향된 결과 도출

2. 머신러닝 모델

  • 학습 데이터의 불완전성으로 인한 성능 저하
  • 예측 정확도 감소 및 과적합(overfitting) 위험 증가

3. 데이터 품질

  • 분석 결과의 신뢰성을 약화시킴
  • 데이터 수집 프로세스 개선 필요성 강조

결측치 처리 방법

1. 제거법 (Deletion)

  • 전체 행 제거: 결측이 많은 경우 사용 (단점: 정보 손실)
  • 열 제거: 특정 변수가 중요하지 않은 경우
  • 예시:
      # pandas에서 결측치 포함 행 제거
      df.dropna(inplace=True)
      

2. 대체법 (Imputation)

3. 고급 방법

  • 다중 대체(Multiple Imputation): 결측치를 여러 번 추정하여 분산 분석
  • MICE (Multivariate Imputation by Chained Equations): 변수 간 상관관계 고려
  • 예시:
      # MICE 사용 예시
      from sklearn.experimental import enable_iterative_imputer
      from sklearn.impute import IterativeImputer
      imputer = IterativeImputer()
      df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
      

결측치 처리 전략

방법 장점 단점
제거법 간단하고 빠름 정보 손실 가능성
단순 대체 구현 용이 데이터 분포 왜곡 위험
복잡한 모델 정확도 향상 계산 비용 증가, 과적합 가능성

실무 사례

1. 의료 데이터 분석

  • 결측치: 환자의 특정 검사 결과 누락
  • 처리 방법: KNN 대체를 통해 예측값 삽입
  • 효과: 모델 정확도 15% 향상

2. 금융 데이터 예측

  • 결측치: 고객 소득 정보 부족
  • 처리 방법: 회귀 모델을 활용한 추정
  • 효과: 예측 신뢰성 증가

참고 자료

이 문서는 결측치의 이해와 처리 전략을 체계적으로 안내하며, 데이터 과학 실무에서 필수적인 지식을 제공합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen3-30b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?