결정계수

작성자

익명

작성일

2026.01.12

조회수

버전

📋 문서 버전

이 문서는 9개의 버전이 있습니다. 현재 버전 2을 보고 있습니다.

결정계수

개요

결정계수(決定係數, 영어: Coefficient of Determination)는 회귀분석에서 독립변수(설명변수)가 종속변수(반응변수)의 변동성을 얼마나 잘 설명하는지를 나타내는 통계량이다. 일반적으로 R²(R-squared)로 표기되며, 그 값은 0에서 1 사이의 실수로 표현된다. 결정계수는 회귀 모형의 적합도(Goodness-of-fit)를 평가하는 데 널리 사용되며, 모형이 관측 데이터를 얼마나 잘 설명하는지를 수치적으로 보여준다.

예를 들어, R² 값이 0.85라면, 종속변수의 변동 중 약 85%가 모형에 포함된 독립변수들에 의해 설명된다는 의미이다. 이 값이 높을수록 모형의 설명력이 뛰어나다고 평가할 수 있지만, 무조건 높은 R²가 항상 좋은 모형을 의미하는 것은 아니며, 과적합(overfitting) 등의 문제를 유발할 수 있으므로 주의가 필요하다.

수학적 정의

결정계수는 총제곱합(Total Sum of Squares, TSS), 회귀제곱합(Explained Sum of Squares, ESS), 잔차제곱합(Residual Sum of Squares, RSS)의 관계를 기반으로 정의된다.

총제곱합 (TSS): 관측값의 평균으로부터의 편차 제곱합
[ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 ]
회귀제곱합 (ESS): 예측값과 평균값의 차이 제곱합
[ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 ]
잔차제곱합 (RSS): 관측값과 예측값의 차이 제곱합
[ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]

이 세 가지 요소 사이에는 다음의 관계가 성립한다: [ \text{TSS} = \text{ESS} + \text{RSS} ]

결정계수는 다음 식으로 계산된다: [ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} ]

이 식은 "모형이 설명하는 변동의 비율"을 나타낸다.

해석과 의미

R²의 범위와 해석

R² = 1: 모형이 종속변수의 모든 변동을 완벽하게 설명함 (잔차 없음)
R² = 0: 모형이 종속변수의 변동을 전혀 설명하지 못함 (모형의 예측력 없음)
R² < 0: 모형의 예측이 평균보다 더 나쁨 (예: 잘못된 모형 설정 또는 제약 조건이 있을 때 발생 가능)

✅ 참고: R²는 음수가 될 수 있지만, 일반적인 최소제곱법(OLS)에서는 0 이상이다. 그러나 교차검증이나 특정 모형에서는 음수 값이 나올 수 있으며, 이는 모형이 무작위 추측보다 성능이 낮음을 의미한다.

결정계수의 장점과 한계

장점

직관적 해석 가능: "X%의 변동을 설명한다"는 표현은 비전문가도 이해하기 쉬움.
모형 비교 용이: 동일한 종속변수에 대해 여러 모형을 비교할 때 유용.
표준화된 척도: 단위에 영향을 받지 않으며, 절대적인 비교가 가능.

한계

항상 증가하는 성향: 독립변수를 추가할수록 R²는 감소하지 않고 항상 같거나 증가함 → 과적합 유발 가능성.
인과관계를 의미하지 않음: 높은 R²가 독립변수와 종속변수 사이에 인과관계가 있음을 보장하지 않음.
비선형 관계에서 오해 가능: 선형 회귀에 기반하므로 비선형 구조를 잘 포착하지 못할 수 있음.

수정된 결정계수 (Adjusted R²)

다중회귀분석에서 독립변수를 무분별하게 추가하면 R²가 인위적으로 증가하는 문제가 발생한다. 이를 보완하기 위해 제안된 지표가 수정된 결정계수(Adjusted R²)이다.

[ \bar{R}^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

여기서: - ( n ): 관측치의 수 - ( k ): 독립변수의 수

수정된 R²는 변수 추가 시 정보 이득이 충분하지 않으면 오히려 감소할 수 있으므로, 모형 선택 시 더 신뢰할 수 있는 기준이 된다.

활용 사례

경제학: 소비지출이 소득, 이자율 등에 의해 얼마나 설명되는지 분석.
의학: 환자의 혈압이 나이, 체중, 운동량 등으로 설명되는 정도 평가.
기계학습: 선형 회귀 모형의 성능 평가 지표로 사용 (보조 지표로 활용).

개념	설명
상관계수	두 변수 간 선형 관계의 강도와 방향을 나타냄. 단순회귀에서 R²는 상관계수의 제곱과 같음.
RMSE (Root Mean Square Error)	예측 오차의 크기를 절대적 수치로 나타냄. R²와 함께 사용하면 보완적.
AIC/BIC	모형 적합도와 복잡성의 균형을 평가하는 정보 기준.

참고 자료

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models. McGraw-Hill.
Khan Academy - R-squared intuition

📌 관련 문서: 회귀분석, 최소제곱법, 상관계수

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 결정계수

## 개요

**결정계수**(決定係數, 영어: Coefficient of Determination)는 회귀분석에서 독립변수(설명변수)가 종속변수(반응변수)의 변동성을 얼마나 잘 설명하는지를 나타내는 통계량이다. 일반적으로 **R²**(R-squared)로 표기되며, 그 값은 0에서 1 사이의 실수로 표현된다. 결정계수는 회귀 모형의 적합도(Goodness-of-fit)를 평가하는 데 널리 사용되며, 모형이 관측 데이터를 얼마나 잘 설명하는지를 수치적으로 보여준다.

예를 들어, R² 값이 0.85라면, 종속변수의 변동 중 약 85%가 모형에 포함된 독립변수들에 의해 설명된다는 의미이다. 이 값이 높을수록 모형의 설명력이 뛰어나다고 평가할 수 있지만, 무조건 높은 R²가 항상 좋은 모형을 의미하는 것은 아니며, 과적합(overfitting) 등의 문제를 유발할 수 있으므로 주의가 필요하다.

---

## 수학적 정의

결정계수는 **총제곱합**(Total Sum of Squares, TSS), **회귀제곱합**(Explained Sum of Squares, ESS), **잔차제곱합**(Residual Sum of Squares, RSS)의 관계를 기반으로 정의된다.

- **총제곱합 (TSS)**: 관측값의 평균으로부터의 편차 제곱합  
  \[
  \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2
  \]

- **회귀제곱합 (ESS)**: 예측값과 평균값의 차이 제곱합  
  \[
  \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2
  \]

- **잔차제곱합 (RSS)**: 관측값과 예측값의 차이 제곱합  
  \[
  \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
  \]

이 세 가지 요소 사이에는 다음의 관계가 성립한다:
\[
\text{TSS} = \text{ESS} + \text{RSS}
\]

결정계수는 다음 식으로 계산된다:
\[
R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}
\]

이 식은 "모형이 설명하는 변동의 비율"을 나타낸다.

---

## 해석과 의미

### R²의 범위와 해석

- **R² = 1**: 모형이 종속변수의 모든 변동을 완벽하게 설명함 (잔차 없음)
- **R² = 0**: 모형이 종속변수의 변동을 전혀 설명하지 못함 (모형의 예측력 없음)
- **R² < 0**: 모형의 예측이 평균보다 더 나쁨 (예: 잘못된 모형 설정 또는 제약 조건이 있을 때 발생 가능)

> ✅ **참고**: R²는 음수가 될 수 있지만, 일반적인 최소제곱법(OLS)에서는 0 이상이다. 그러나 교차검증이나 특정 모형에서는 음수 값이 나올 수 있으며, 이는 모형이 무작위 추측보다 성능이 낮음을 의미한다.

---

## 결정계수의 장점과 한계

### 장점

- **직관적 해석 가능**: "X%의 변동을 설명한다"는 표현은 비전문가도 이해하기 쉬움.
- **모형 비교 용이**: 동일한 종속변수에 대해 여러 모형을 비교할 때 유용.
- **표준화된 척도**: 단위에 영향을 받지 않으며, 절대적인 비교가 가능.

### 한계

- **항상 증가하는 성향**: 독립변수를 추가할수록 R²는 감소하지 않고 항상 같거나 증가함 → **과적합 유발 가능성**.
- **인과관계를 의미하지 않음**: 높은 R²가 독립변수와 종속변수 사이에 인과관계가 있음을 보장하지 않음.
- **비선형 관계에서 오해 가능**: 선형 회귀에 기반하므로 비선형 구조를 잘 포착하지 못할 수 있음.

---

## 수정된 결정계수 (Adjusted R²)

다중회귀분석에서 독립변수를 무분별하게 추가하면 R²가 인위적으로 증가하는 문제가 발생한다. 이를 보완하기 위해 제안된 지표가 **수정된 결정계수**(Adjusted R²)이다.

\[
\bar{R}^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right)
\]

여기서:
- \( n \): 관측치의 수
- \( k \): 독립변수의 수

수정된 R²는 변수 추가 시 **정보 이득이 충분하지 않으면 오히려 감소**할 수 있으므로, 모형 선택 시 더 신뢰할 수 있는 기준이 된다.

---

## 활용 사례

- **경제학**: 소비지출이 소득, 이자율 등에 의해 얼마나 설명되는지 분석.
- **의학**: 환자의 혈압이 나이, 체중, 운동량 등으로 설명되는 정도 평가.
- **기계학습**: 선형 회귀 모형의 성능 평가 지표로 사용 (보조 지표로 활용).

---

## 관련 개념

| 개념 | 설명 |
|------|------|
| **상관계수** | 두 변수 간 선형 관계의 강도와 방향을 나타냄. 단순회귀에서 R²는 상관계수의 제곱과 같음. |
| **RMSE (Root Mean Square Error)** | 예측 오차의 크기를 절대적 수치로 나타냄. R²와 함께 사용하면 보완적. |
| **AIC/BIC** | 모형 적합도와 복잡성의 균형을 평가하는 정보 기준. |

---

## 참고 자료

- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). *Introduction to Linear Regression Analysis*. Wiley.
- Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). *Applied Linear Statistical Models*. McGraw-Hill.
- [Khan Academy - R-squared intuition](https://www.khanacademy.org/math/statistics-probability)

> 📌 **관련 문서**: [회귀분석](/wiki/회귀분석), [최소제곱법](/wiki/최소제곱법), [상관계수](/wiki/상관계수)

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

결정계수

📋 문서 버전

결정계수

개요

수학적 정의

해석과 의미

R²의 범위와 해석

결정계수의 장점과 한계

장점

한계

수정된 결정계수 (Adjusted R²)

활용 사례

관련 개념

참고 자료

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?