순서형 로지스틱 회귀
순서형 로스틱 회귀
개요순서형 로지스 회귀(Ordinal Regression)는 종속(dependent variable)가 서형 범주(ordinal categorical)일 때 사용하는 통계적 회귀석 기법이다. 일반적인 로지스틱 회귀가 이진(binary) 또는 명목형(nominal) 범주형 변수를 예측하는 데 사용된다면, 순서형 로지스틱 회귀는 순서가 있는 다수의 범주(예: 낮음, 중간, 높음)를 다룬다. 이 기법은 사회과학, 의학, 마케팅, 교육 평가 등 다양한 분야에서 등급, 만족도, 리커트 척도(Likert scale)와 같은 순서형 데이터를 분석할 때 널리 활용된다.
순서형 로지스틱 회귀는 주로 누적 로짓 모델(Cumulative Logit Model)의 형태로 구현되며, 가장 일반적인 변형으로는 프로포셔널 오즈 모델(Proportional Odds Model)이 있다.
순서형 데이터의 특성
순서형 범주형 변수는 다음과 같은 특성을 가진다:
- 범주(category) 간에 명확한 순서가 존재한다.
예: 학점 (F < D < C < B < A), 만족도 (매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족) - 범주 간의 간격이 균등하지 않을 수 있다.
예: "매우 불만족"과 "불만족" 사이의 심리적 간격이 "만족"과 "매우 만족" 사이와 다를 수 있음. - 연속형 변수처럼 다룰 수 없지만, 순서 정보를 활용할 수 있어 명목형 다항 로지스틱 회귀(Multinomial Logistic Regression)보다 효율적인 모델링이 가능하다.
이러한 특성 때문에 순서형 로지스틱 회귀는 단순히 범주를 분류하는 것 이상의 정보를 활용할 수 있다.
프로포셔널 오즈 모델 (Proportional Odds Model)
가장 널리 사용되는 순서형 로지스틱 회귀 모델은 프로포셔널 오즈 모델(Proportional Odds Model). 이 모델은 다음과 같은 가정을 기반으로 한다:
"각 범주 간의 경계에서 로짓이 독립 변수에 대해 동일한 기울기를 가진다" — 즉, 오즈 비율(odds ratio)이 모든 범주 구간에서 일정하다.
모델 수식
$ K $개의 순서형 범주를 가진 종속 변수 $ Y $에 대해, 누적 확률은 다음과 같이 정의된다:
$$ P(Y \leq k | \mathbf{x}) = \frac{1}{1 + \exp(-(\alpha_k + \mathbf{\beta}^T \mathbf{x}))} $$
여기서: - $ \alpha_k $: $ k $번째 범주 경계의 절편 (cut point 또는 threshold) - $ \mathbf{\beta} $: 독립 변수의 회귀 계수 벡터 - $ \mathbf{x} $: 독립 변수 벡터
이 모델은 $ K-1 $개의 누적 로짓을 정의하며, 각각은:
$$ \log \left( \frac{P(Y \leq k)}{P(Y > k)} \right) = \alpha_k + \mathbf{\beta}^T \mathbf{x} $$
모든 $ k $에 대해 동일한 $ \mathbf{\beta} $를 사용하므로, 모델의 파라미터 수가 줄어들고 해석이 용이해진다.
가정 및 검정
순서형 로지스틱 회귀, 특히 프로포셔널 오즈 모델은 다음과 같은 핵심 가정을 포함한다:
1. 프로포셔널 오즈 가정 (Proportional Odds Assumption)
독립 변수의 효과가 모든 누적 로짓에 대해 동일하다는 가정이다. 이 가정이 성립하지 않으면 모델의 해석이 왜곡될 수 있다.
검정 방법:
- 브루어-퍼거슨 검정(Brant Test): 각 변수가 프로포셔널 오즈 가정을 만족하는지 통계적으로 검정.
- 다항 로지스틱 회귀와 비교: 각 범주별로 분리된 모델을 적합해보고 계수의 일관성을 평가.
2. 독립성 가정
관측치 간에 독립성이 있어야 한다.
3. 다중공선성 제한
독립 변수들 사이에 심한 다중공선성(multicollinearity)이 없어야 한다.
모델 적합 및 해석
모델 적합
순서형 로지스틱 회귀는 최대우도추정법(Maximum Likelihood Estimation, MLE)을 통해 파라미터를 추정한다. 주로 R의 MASS 패키지 polr() 함수, Python의 [statsmodels](/doc/%EA%B8%B0%EC%88%A0/Python%20%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC/%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EB%B6%84%EC%84%9D/statsmodels) 라이브러리 [OrderedModel](/doc/%EA%B8%B0%EC%88%A0/Python%20%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC/%ED%86%B5%EA%B3%84%20%EB%AA%A8%EB%8D%B8%EB%A7%81/OrderedModel), 또는 [mord](/doc/%EA%B8%B0%EC%88%A0/Python%20%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/mord) 패키지를 사용하여 구현할 수 있다.
예시 (Python, statsmodels):
from statsmodels.miscmodels.ordinal_model import OrderedModel
import pandas as pd
# 데이터 준비
data = pd.DataFrame({
'satisfaction': ['Low', 'Medium', 'High', ...],
'age': [25, 30, 45, ...],
'income': [30000, 50000, 70000, ...]
})
model = OrderedModel(data['satisfaction'], data[['age', 'income']],
distr='logit')
result = model.fit()
print(result.summary())
계수 해석
- 회귀 계수 $ \beta $는 독립 변수가 1단위 증가할 때, "Y가 특정 값 이하일 로짓(log-odds)"이 어떻게 변하는지 나타낸다.
- 양수 계수: 독립 변수가 클수록 낮은 범주에 속할 확률이 감소 (즉, 높은 범주로 이동할 가능성 증가)
- 음수 계수: 반대 방향 효과
관련 기법 및 대안 모델
| 모델 | 사용 사례 | 설명 |
|---|---|---|
| 다항 로지스틱 회귀(Multinomial Logistic Regression) | 순서가 없는 범주형 변수 | 순서 정보를 무시하므로 효율성이 낮음 |
| 계량적 로지스틱 회귀(Continuation Ratio Model) | 계층적 결정 과정 | 예: "합격/불합격" 이후 "우수/보통" 등 |
| 라그런지안 회귀(Stereotype Logistic Regression) | 부분적 순서 정보 | 순서를 완전히 유지하지 않지만 구조를 줄임 |
참고 자료 및 관련 문서
- Agresti, A. (2010). Analysis of Ordinal Categorical Data. Wiley.
- McCullagh, P. (1980). "Regression Models for Ordinal Data". Journal of the Royal Statistical Society, Series B.
- R 패키지:
MASS,ordinal,brant(가정 검정) - Python 라이브러리:
statsmodels,mord,scikit-learn확장
순서형 로지스틱 회귀는 순서형 반응 변수를 가진 연구에서 강력하고 해석하기 쉬운 도구이며, 데이터의 구조를 정확히 반영함으로써 보다 정교한 통계적 결론을 도출할 수 있도록 돕는다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.