RSS

작성자

익명

작성일

2026.06.20

조회수

버전

RSS 회귀분석 모델 평가 잔차 제곱합 MSE R-squared 통계학 최소제곱법

RSS (Residual Sum of Squares)

RSS(Residual Sum of Squares, 잔차 제곱합)는 통계학, 특히 회귀분석(Regression Analysis)에서 통계 모델의 적합도(Goodness of Fit)를 평가하는 핵심 지표 중 하나입니다. RSS는 관측된 데이터 값과 모델이 예측한 값 사이의 차이인 잔차(Residual)들의 제곱을 모두 합산한 값으로 정의됩니다. 일반적으로 RSS 값이 작을수록 모델이 데이터를 더 잘 설명하고 있으며, 예측 오차가 적음을 의미합니다.

1. 개요 및 정의

회귀분석은 독립 변수($X$)를 사용하여 종속 변수($Y$)의 값을 예측하는 통계적 방법입니다. 이때 실제 관측된 값($y_i$)과 모델이 예측한 값($\hat{y}_i$) 사이에는 필연적으로 오차가 발생하는데, 이를 잔차($e_i$)라고 합니다.

$$ e_i = y_i - \hat{y}_i $$

RSS는 이러한 잔차들의 제곱합으로 계산되며, 수식으로는 다음과 같이 표현됩니다.

$$ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2 $$

여기서 $n$은 관측치의 개수입니다. RSS는 최소제곱법(Ordinary Least Squares, OLS)을 사용하는 선형 회귀 모델에서 모델의 매개변수(계수)를 추정할 때 최소화되는 대상이 됩니다. 즉, 최소제곱법 회귀 모델은 RSS를 최소화하는 계수를 찾는 과정이라고 할 수 있습니다.

2. RSS의 해석과 특징

RSS는 절대적인 크기보다는 다른 지표와의 비교를 통해 해석되는 경우가 많습니다.

작은 RSS의 의미: 잔차의 제곱합이 작다는 것은 실제 데이터 포인트들이 회귀선(또는 회귀면) 근처에 밀집되어 있음을 의미합니다. 이는 모델의 예측력이 높고 설명력이 우수함을 나타냅니다.
RSS의 한계: RSS는 데이터의 개수($n$)나 변수의 단위, 그리고 변수의 수에 따라 절대적인 값이 달라질 수 있습니다. 따라서 단순히 RSS 값만으로 모델의 우수성을 판단하기는 어렵습니다. 예를 들어, 관측치가 많을수록 RSS 값은 자연스럽게 커질 수 있습니다.
제곱의 사용: 잔차를 단순히 합산하면 양수와 음수가 상쇄되어 0에 가까워질 수 있습니다. 따라서 오차의 크기를 강조하고 방향성을 무시하기 위해 제곱을 사용합니다. 이는 큰 오차에 더 큰 페널티를 부여하여 모델이 극단적인 이상치(outlier)에 민감하게 반응하도록 만듭니다.

3. 관련 지표와의 비교

RSS 단독으로 모델 평가에는 한계가 있으므로, 다음과 같은 관련 지표들과 함께 사용되어 모델의 성능을 종합적으로 평가합니다.

3.1. MSE (Mean Squared Error) 및 RMSE (Root Mean Squared Error)

RSS를 관측치 개수($n$)로 나눈 것이 MSE이며, MSE의 제곱근이 RMSE입니다.

$$ MSE = \frac{RSS}{n} $$ $$ RMSE = \sqrt{MSE} $$

MSE와 RMSE는 RSS의 단위를 원본 데이터의 단위와 유사하게 만들어 해석을 용이하게 합니다. 특히 RMSE는 원본 데이터와 동일한 단위를 가지므로, 예측 오차가 실제 단위(예: 원, kg, 미터 등)로 얼마나 나는지를 직관적으로 이해하는 데 유용합니다.

3.2. R-squared ($R^2$, 결정 계수)

$R^2$는 모델이 종속 변수의 분산 중 얼마나 많은 비율을 설명하는지를 나타내는 지표입니다. $R^2$는 총제곱합(Total Sum of Squares, $SST$)과 RSS를 이용하여 계산됩니다.

$$ R^2 = 1 - \frac{RSS}{SST} $$

여기서 $SST = \sum (y_i - \bar{y})^2$이며, $\bar{y}$는 종속 변수의 평균입니다. * $R^2$가 1에 가까울수록: RSS가 0에 가까워짐을 의미하며, 모델의 설명력이 우수합니다. * $R^2$가 0에 가까울수록: 모델이 데이터의 분산을 거의 설명하지 못함을 의미합니다.

3.3. AIC 및 BIC (정보 기준)

다중 회귀분석에서 변수의 수가 증가하면 RSS는 항상 감소하거나 일정하게 유지됩니다. 이는 과적합(Overfitting)을 유발할 수 있습니다. 이를 보정하기 위해 모델의 복잡도(변수의 수)를 고려한 AIC(Akaike Information Criterion)나 BIC(Bayesian Information Criterion)가 사용됩니다. 이 지표들은 RSS를 기반으로 하되, 파라미터 수에 대한 페널티 항을 추가하여 더 일반화된 모델을 선택하는 데 도움을 줍니다.

4. 모델 선택에서의 활용

RSS는 주로 다음과 같은 상황에서 모델 비교의 기준으로 활용됩니다.

동일한 데이터셋 비교: 동일한 종속 변수와 동일한 관측치를 사용하는 모델들 간에는 RSS가 작은 모델이 일반적으로 더 나은 적합도를 가집니다.
교차 검증(Cross-Validation): 단일 데이터셋에서의 RSS는 과적합을 반영할 수 있으므로, 훈련 데이터와 검증 데이터를 분리하여 검증 데이터셋에서의 RSS를 계산하는 것이 더 신뢰할 수 있는 평가 방법입니다.
비선형 모델 평가: 선형 회귀가 아닌 다른 회귀 모델(예: 다항식 회귀, 리지 회귀, 라소 회귀 등)의 성능을 비교할 때도 RSS를 기본 지표로 삼되, 정규화 항이 추가된 손실 함수(Loss Function)를 최소화하는 방식으로 접근합니다.

5. 결론

RSS는 회귀 분석 모델의 예측 오차를 정량화하는 가장 기본적이고 중요한 지표입니다. 하지만 RSS의 절대값만으로는 모델의 질을 판단하기 어렵기 때문에, 관측치 수로 보정된 MSE/RMSE나 설명력을 나타내는 $R^2$, 그리고 모델 복잡도를 고려한 AIC/BIC 등과 함께 종합적으로 해석해야 합니다. 통계 모델링 과정에서 RSS를 올바르게 이해하고 활용하는 것은 더 정확하고 신뢰할 수 있는 예측 모델을 구축하는 데 필수적입니다.

참고 문헌 및 관련 문서

회귀분석 (Regression Analysis): 독립 변수와 종속 변수 간의 관계를 모델링하는 통계적 방법
최소제곱법 (Ordinary Least Squares): 잔차 제곱합을 최소화하여 모델의 계수를 추정하는 방법
결정 계수 (Coefficient of Determination, $R^2$): 모델이 데이터의 분산을 얼마나 잘 설명하는지를 나타내는 지표
과적합 (Overfitting): 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 예측 성능이 떨어지는 현상

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# RSS (Residual Sum of Squares)

**RSS**(Residual Sum of Squares, 잔차 제곱합)는 통계학, 특히 **회귀분석(Regression Analysis)**에서 통계 모델의 적합도(Goodness of Fit)를 평가하는 핵심 지표 중 하나입니다. RSS는 관측된 데이터 값과 모델이 예측한 값 사이의 차이인 **잔차(Residual)**들의 제곱을 모두 합산한 값으로 정의됩니다. 일반적으로 RSS 값이 작을수록 모델이 데이터를 더 잘 설명하고 있으며, 예측 오차가 적음을 의미합니다.

## 1. 개요 및 정의

회귀분석은 독립 변수($X$)를 사용하여 종속 변수($Y$)의 값을 예측하는 통계적 방법입니다. 이때 실제 관측된 값($y_i$)과 모델이 예측한 값($\hat{y}_i$) 사이에는 필연적으로 오차가 발생하는데, 이를 잔차($e_i$)라고 합니다.

$$ e_i = y_i - \hat{y}_i $$

**RSS**는 이러한 잔차들의 제곱합으로 계산되며, 수식으로는 다음과 같이 표현됩니다.

$$ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2 $$

여기서 $n$은 관측치의 개수입니다. RSS는 최소제곱법(Ordinary Least Squares, OLS)을 사용하는 선형 회귀 모델에서 모델의 매개변수(계수)를 추정할 때 최소화되는 대상이 됩니다. 즉, 최소제곱법 회귀 모델은 RSS를 최소화하는 계수를 찾는 과정이라고 할 수 있습니다.

## 2. RSS의 해석과 특징

RSS는 절대적인 크기보다는 다른 지표와의 비교를 통해 해석되는 경우가 많습니다.

*   **작은 RSS의 의미**: 잔차의 제곱합이 작다는 것은 실제 데이터 포인트들이 회귀선(또는 회귀면) 근처에 밀집되어 있음을 의미합니다. 이는 모델의 예측력이 높고 설명력이 우수함을 나타냅니다.
*   **RSS의 한계**: RSS는 데이터의 개수($n$)나 변수의 단위, 그리고 변수의 수에 따라 절대적인 값이 달라질 수 있습니다. 따라서 단순히 RSS 값만으로 모델의 우수성을 판단하기는 어렵습니다. 예를 들어, 관측치가 많을수록 RSS 값은 자연스럽게 커질 수 있습니다.
*   **제곱의 사용**: 잔차를 단순히 합산하면 양수와 음수가 상쇄되어 0에 가까워질 수 있습니다. 따라서 오차의 크기를 강조하고 방향성을 무시하기 위해 제곱을 사용합니다. 이는 큰 오차에 더 큰 페널티를 부여하여 모델이 극단적인 이상치(outlier)에 민감하게 반응하도록 만듭니다.

## 3. 관련 지표와의 비교

RSS 단독으로 모델 평가에는 한계가 있으므로, 다음과 같은 관련 지표들과 함께 사용되어 모델의 성능을 종합적으로 평가합니다.

### 3.1. MSE (Mean Squared Error) 및 RMSE (Root Mean Squared Error)
RSS를 관측치 개수($n$)로 나눈 것이 **MSE**이며, MSE의 제곱근이 **RMSE**입니다.

$$ MSE = \frac{RSS}{n} $$
$$ RMSE = \sqrt{MSE} $$

MSE와 RMSE는 RSS의 단위를 원본 데이터의 단위와 유사하게 만들어 해석을 용이하게 합니다. 특히 RMSE는 원본 데이터와 동일한 단위를 가지므로, 예측 오차가 실제 단위(예: 원, kg, 미터 등)로 얼마나 나는지를 직관적으로 이해하는 데 유용합니다.

### 3.2. R-squared ($R^2$, 결정 계수)
$R^2$는 모델이 종속 변수의 분산 중 얼마나 많은 비율을 설명하는지를 나타내는 지표입니다. $R^2$는 총제곱합(Total Sum of Squares, $SST$)과 RSS를 이용하여 계산됩니다.

$$ R^2 = 1 - \frac{RSS}{SST} $$

여기서 $SST = \sum (y_i - \bar{y})^2$이며, $\bar{y}$는 종속 변수의 평균입니다.
*   $R^2$가 1에 가까울수록: RSS가 0에 가까워짐을 의미하며, 모델의 설명력이 우수합니다.
*   $R^2$가 0에 가까울수록: 모델이 데이터의 분산을 거의 설명하지 못함을 의미합니다.

### 3.3. AIC 및 BIC (정보 기준)
다중 회귀분석에서 변수의 수가 증가하면 RSS는 항상 감소하거나 일정하게 유지됩니다. 이는 과적합(Overfitting)을 유발할 수 있습니다. 이를 보정하기 위해 모델의 복잡도(변수의 수)를 고려한 **AIC**(Akaike Information Criterion)나 **BIC**(Bayesian Information Criterion)가 사용됩니다. 이 지표들은 RSS를 기반으로 하되, 파라미터 수에 대한 페널티 항을 추가하여 더 일반화된 모델을 선택하는 데 도움을 줍니다.

## 4. 모델 선택에서의 활용

RSS는 주로 다음과 같은 상황에서 모델 비교의 기준으로 활용됩니다.

1.  **동일한 데이터셋 비교**: 동일한 종속 변수와 동일한 관측치를 사용하는 모델들 간에는 RSS가 작은 모델이 일반적으로 더 나은 적합도를 가집니다.
2.  **교차 검증(Cross-Validation)**: 단일 데이터셋에서의 RSS는 과적합을 반영할 수 있으므로, 훈련 데이터와 검증 데이터를 분리하여 검증 데이터셋에서의 RSS를 계산하는 것이 더 신뢰할 수 있는 평가 방법입니다.
3.  **비선형 모델 평가**: 선형 회귀가 아닌 다른 회귀 모델(예: 다항식 회귀, 리지 회귀, 라소 회귀 등)의 성능을 비교할 때도 RSS를 기본 지표로 삼되, 정규화 항이 추가된 손실 함수(Loss Function)를 최소화하는 방식으로 접근합니다.

## 5. 결론

RSS는 회귀 분석 모델의 예측 오차를 정량화하는 가장 기본적이고 중요한 지표입니다. 하지만 RSS의 절대값만으로는 모델의 질을 판단하기 어렵기 때문에, 관측치 수로 보정된 MSE/RMSE나 설명력을 나타내는 $R^2$, 그리고 모델 복잡도를 고려한 AIC/BIC 등과 함께 종합적으로 해석해야 합니다. 통계 모델링 과정에서 RSS를 올바르게 이해하고 활용하는 것은 더 정확하고 신뢰할 수 있는 예측 모델을 구축하는 데 필수적입니다.

## 참고 문헌 및 관련 문서

*   **회귀분석 (Regression Analysis)**: 독립 변수와 종속 변수 간의 관계를 모델링하는 통계적 방법
*   **최소제곱법 (Ordinary Least Squares)**: 잔차 제곱합을 최소화하여 모델의 계수를 추정하는 방법
*   **결정 계수 (Coefficient of Determination, $R^2$)**: 모델이 데이터의 분산을 얼마나 잘 설명하는지를 나타내는 지표
*   **과적합 (Overfitting)**: 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 예측 성능이 떨어지는 현상

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen/qwen3.6-35b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

RSS