R-squared
AI
qwen3-30b-a3b
R-squared
개요
R-squared(결정계수)는 회귀분석에서 모델의 설명력(예측 능력)을 측정하는 주요 통계량이다. 이 값은 종속변수의 변동성 중 독립변수가 설명할 수 있는 비율을 나타내며, 0~1 사이의 값을 가진다. R-squared는 회귀모델의 적합도를 평가하는 데 널리 사용되지만, 단순히 모델의 성능만을 판단하는 지표로 활용될 수 있으며, 다른 통계량과 함께 종합적으로 해석해야 한다.
정의 및 개념
1. R-squared의 의미
R-squared는 회귀모델이 데이터에 얼마나 잘 맞는지를 나타내는 지표이다. 이 값은 다음과 같은 방식으로 계산된다: - 총 제곱합(SStot): 종속변수의 평균을 기준으로 한 전체 변동성 - 잔차 제곱합(SSres): 모델 예측값과 실제값 간 차이의 제곱합
$$ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} $$
- $ SS_{\text{res}} = \sum (y_i - \hat{y}_i)^2 $
- $ SS_{\text{tot}} = \sum (y_i - \bar{y})^2 $
2. 해석
- R-squared = 1: 모델이 모든 데이터 포인트를 완벽하게 설명함.
- R-squared = 0: 모델이 종속변수의 변동성을 전혀 설명하지 않음.
- 일반적으로, 0.7 이상은 높은 설명력을 나타내지만, 분석 목적에 따라 기준이 달라질 수 있다.
계산 방법
1. 공식
R-squared는 위에서 언급한 공식을 통해 계산된다. 예를 들어, 다음과 같은 데이터가 있다고 가정하자:
X | Y |
---|---|
1 | 2 |
2 | 4 |
3 | 6 |
- 평균(Y) = (2 + 4 + 6)/3 = 4
- SS_tot = (2-4)² + (4-4)² + (6-4)² = 8
- 모델 예측값(Y_hat) = 2X → [2, 4, 6]
- SS_res = (2-2)² + (4-4)² + (6-6)² = 0
- R-squared = 1 - (0/8) = 1
2. Python 예제
from sklearn.linear_model import LinearRegression
import numpy as np
X = np.array([[1], [2], [3]])
y = np.array([2, 4, 6])
model = LinearRegression().fit(X, y)
r_squared = model.score(X, y)
print(f"R-squared: {r_squared:.2f}") # 출력: R-squared: 1.00
한계 및 주의사항
1. 과적합(Overfitting) 문제
- 변수 추가 시 R-squared 증가: 독립변수가 많을수록 R-squared는 자동으로 증가할 수 있다. 이로 인해 모델이 훈련 데이터에만 적합한 경우가 발생한다.
- 조정된 결정계수(Adjusted R-squared): 변수 수를 고려하여 조정된 지표로, 과적합을 방지하는 데 유용하다.
2. 비선형 관계 무시
- R-squared는 선형 회귀모델에 특화되어 있다. 데이터가 비선형 관계를 가질 경우, R-squared가 낮게 나타날 수 있다.
3. 이상치(Outlier) 영향
- 극단적인 값이 존재할 경우, R-squared가 왜곡될 수 있다. 예: 한 개의 큰 오차가 SS_res에 큰 영향을 미침.
응용 분야
1. 경제학
- GDP 성장률 예측 모델에서 독립변수(투자, 소비 등)의 설명력을 평가.
- 예: "소비자 물가지수(CPI)와 실업률 간 관계를 설명하는 모델의 R-squared는 0.65."
2. 의학
- 질병 발생 확률을 예측하는 로지스틱 회귀모델에서 R-squared(예: pseudo R-squared) 사용.
3. 공학
- 설비 고장 예측 모델의 성능 평가.
관련 개념
개념 | 설명 |
---|---|
Adjusted R-squared | 변수 수를 고려한 조정된 결정계수, 과적합 방지 |
Pseudo R-squared | 로지스틱 회귀 등 비선형 모델에서 사용되는 유사 지표 |
Cross-validation | 모델의 일반화 능력을 평가하는 방법, R-squared만으로는 부족 |
참고 자료
- Wikipedia: Coefficient of determination
- Statology: What is R-Squared?
- Kaggle: Understanding R-squared
이 문서는 R-squared의 기초 개념부터 응용까지 포괄적으로 설명하며, 통계학자 및 데이터 분석가에게 실질적인 지침을 제공한다.
AI 생성 콘텐츠 안내
이 문서는 AI 모델(qwen3-30b-a3b)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.