최소 제곱법
📋 문서 버전
이 문서는 5개의 버전이 있습니다. 현재 최신 버전을 보고 있습니다.
최소 제곱법
개요
최소 제곱법(Least Squares Method)은 통계학에서 관측된 데이터에 가장 적합한 모델을 찾기 위해 널리 사용되는 수학적 최적화 기법이다. 이 방법은 관측값과 모델 예측값의 차이(잔차)의 제곱합을 최소화하여 최적의 파라미터를 추정한다. 특히 회귀분석에서 선형 및 비선형 모델의 파라미터 추정에 핵심적인 역할을 하며, 단순 회귀에서 다중 회귀, 곡선 적합까지 다양한 분야에 적용된다.
역사적 배경
최소 제곱법의 기원은 19세기 초로 거슬러 올라간다.
- 아드리앵 마리 레장드르(1752–1833): 1806년 최소 제곱법을 최초로 공식화하며 천체 궤도 계산에 활용했다.
- 카를 프리드리히 가우스(1777–1855): 1809년 자신의 천문학 연구에서 이 방법을 독립적으로 사용했으며, 정규 분포와의 연계를 강조했다.
두 수학자 간의 우선권 논쟁은 역사적으로 유명하며, 현재는 레장드르가 최초로 출판했으나 가우스가 실질적 기여를 했다는 평가가 일반적이다.
수학적 원리
기본 개념
최소 제곱법은 관측값 $ y_i $와 모델 예측값 $ \hat{y}_i $의 차이(잔차 $ e_i = y_i - \hat{y}_i $)의 제곱합을 최소화한다.
선형 회귀의 경우, 모델은 다음과 같이 표현된다:
$$
y_i = \beta_0 + \beta_1 x_i + \varepsilon_i
$$
여기서 $ \beta_0, \beta_1 $은 추정 파라미터, $ \varepsilon_i $는 오차항이다.
최적화 과정
- 목적 함수 정의:
$$ S = \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2 $$ - 편미분 및 정규 방정식(Normal Equations) 도출:
$$ \frac{\partial S}{\partial \beta_0} = 0, \quad \frac{\partial S}{\partial \beta_1} = 0 $$ - 해결:
정규 방정식을 행렬로 표현하면 $ \mathbf{X}^T\mathbf{X} \boldsymbol{\beta} = \mathbf{X}^T\mathbf{y} $,
최종 파라미터 추정치는 $ \boldsymbol{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} $로 계산된다.
종류
1. 일반 최소 제곱법(Ordinary Least Squares, OLS)
- 동일한 분산(homoscedasticity)을 가정하는 기본 형태.
- 선형 모델에 최적화됨.
2. 가중 최소 제곱법(Weighted Least Squares, WLS)
- 잔차의 분산이 다를 경우(이분산성) 가중치를 적용.
- 예: $ w_i = 1/\sigma_i^2 $로 목적 함수 수정.
3. 비선형 최소 제곱법(Nonlinear Least Squares, NLS)
- 비선형 모델(예: 지수 함수)에 적용.
- 수치적 최적화(예: 가우스-뉴턴 알고리즘) 필요.
가정 및 전제 조건
OLS 적용 시 다음과 같은 가정이 필요하다:
1. 선형성: 독립변수와 종속변수의 관계는 선형이다.
2. 독립성: 잔차는 서로 독립적이다.
3. 등분산성: 모든 관측에서 잔차의 분산이 일정하다.
4. 정규성: 잔차는 정규 분포를 따른다(추론 시 필요).
이 가정이 위배되면 다중공선성, 이분산성, 잔차 자기상관 등의 문제가 발생할 수 있다.
장단점
장점
- 단순성: 계산이 직관적이고 해석이 용이하다.
- 최적성: 가우스-마르코프 정리에 따라, OLS 추정량은 BLUE(Best Linear Unbiased Estimator)이다.
단점
- 이상치 민감성: 큰 잔차에 과도하게 반응한다.
- 비선형 모델 한계: 복잡한 비선형 관계는 적절히 설명하지 못한다.
응용 분야
- 경제학: 수요-공급 곡선 추정, 경제 성장 모델링.
- 공학: 신호 처리, 시스템 식별.
- 생물정보학: 유전자 발현 데이터 분석.
- 기계 학습: 선형 회귀 및 정규화 기법(Lasso, Ridge)의 기반.
계산 예시
예제: 단순 선형 회귀
x | y |
---|---|
1 | 2 |
2 | 4 |
3 | 5 |
4 | 4 |
5 | 5 |
Python 코드
import numpy as np
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])
# X에 절편 열 추가
X = np.vstack([np.ones(len)), x]).T
# OLS 계수 추정
coeff = np.linalg.lstsq(X, y, rcond=None)[0]
print(f"절편: {coeff[0]:.2f}, 기울기: {coeff[1]:.2f}")
출력 결과:
절편: 2.20, 기울기: 0.60
관련 문서 및 참고 자료
- 회귀분석
- 가우스-마르코프 정리
- Montgomery, D. C., et al. (2012). Introduction to Linear Regression Analysis. Wiley.
- NumPy Documentation - Least Squares
최소 제곱법은 통계학의 기초이자 현대 데이터 분석의 핵심 도구로, 이론과 실용적 적용을 모두 이해하는 것이 중요하다.
이 문서는 AI 모델(qwen-3-235b-a22b)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.