R-squared

AI
qwen3-30b-a3b
작성자
익명
작성일
2025.07.11
조회수
20
버전
v1

R-squared

개요

R-squared(결정계수)는 회귀분석에서 모델의 설명력(예측 능력)을 측정하는 주요 통계량이다. 이 값은 종속변수의 변동성 중 독립변수가 설명할 수 있는 비율을 나타내며, 0~1 사이의 값을 가진다. R-squared는 회귀모델의 적합도를 평가하는 데 널리 사용되지만, 단순히 모델의 성능만을 판단하는 지표로 활용될 수 있으며, 다른 통계량과 함께 종합적으로 해석해야 한다.


정의 및 개념

1. R-squared의 의미

R-squared는 회귀모델이 데이터에 얼마나 잘 맞는지를 나타내는 지표이다. 이 값은 다음과 같은 방식으로 계산된다: - 총 제곱합(SStot): 종속변수의 평균을 기준으로 한 전체 변동성 - 잔차 제곱합(SSres): 모델 예측값과 실제값 간 차이의 제곱합

$$ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} $$

  • $ SS_{\text{res}} = \sum (y_i - \hat{y}_i)^2 $
  • $ SS_{\text{tot}} = \sum (y_i - \bar{y})^2 $

2. 해석

  • R-squared = 1: 모델이 모든 데이터 포인트를 완벽하게 설명함.
  • R-squared = 0: 모델이 종속변수의 변동성을 전혀 설명하지 않음.
  • 일반적으로, 0.7 이상은 높은 설명력을 나타내지만, 분석 목적에 따라 기준이 달라질 수 있다.

계산 방법

1. 공식

R-squared는 위에서 언급한 공식을 통해 계산된다. 예를 들어, 다음과 같은 데이터가 있다고 가정하자:

X Y
1 2
2 4
3 6
  • 평균(Y) = (2 + 4 + 6)/3 = 4
  • SS_tot = (2-4)² + (4-4)² + (6-4)² = 8
  • 모델 예측값(Y_hat) = 2X → [2, 4, 6]
  • SS_res = (2-2)² + (4-4)² + (6-6)² = 0
  • R-squared = 1 - (0/8) = 1

2. Python 예제

from sklearn.linear_model import LinearRegression
import numpy as np

X = np.array([[1], [2], [3]])
y = np.array([2, 4, 6])
model = LinearRegression().fit(X, y)
r_squared = model.score(X, y)
print(f"R-squared: {r_squared:.2f}")  # 출력: R-squared: 1.00


한계 및 주의사항

1. 과적합(Overfitting) 문제

  • 변수 추가 시 R-squared 증가: 독립변수가 많을수록 R-squared는 자동으로 증가할 수 있다. 이로 인해 모델이 훈련 데이터에만 적합한 경우가 발생한다.
  • 조정된 결정계수(Adjusted R-squared): 변수 수를 고려하여 조정된 지표로, 과적합을 방지하는 데 유용하다.

2. 비선형 관계 무시

  • R-squared는 선형 회귀모델에 특화되어 있다. 데이터가 비선형 관계를 가질 경우, R-squared가 낮게 나타날 수 있다.

3. 이상치(Outlier) 영향

  • 극단적인 값이 존재할 경우, R-squared가 왜곡될 수 있다. 예: 한 개의 큰 오차가 SS_res에 큰 영향을 미침.

응용 분야

1. 경제학

  • GDP 성장률 예측 모델에서 독립변수(투자, 소비 등)의 설명력을 평가.
  • 예: "소비자 물가지수(CPI)와 실업률 간 관계를 설명하는 모델의 R-squared는 0.65."

2. 의학

  • 질병 발생 확률을 예측하는 로지스틱 회귀모델에서 R-squared(예: pseudo R-squared) 사용.

3. 공학

  • 설비 고장 예측 모델의 성능 평가.

관련 개념

개념 설명
Adjusted R-squared 변수 수를 고려한 조정된 결정계수, 과적합 방지
Pseudo R-squared 로지스틱 회귀 등 비선형 모델에서 사용되는 유사 지표
Cross-validation 모델의 일반화 능력을 평가하는 방법, R-squared만으로는 부족

참고 자료

이 문서는 R-squared의 기초 개념부터 응용까지 포괄적으로 설명하며, 통계학자 및 데이터 분석가에게 실질적인 지침을 제공한다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen3-30b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?