재현율

작성자

익명

작성일

2026.04.13

조회수

버전

재현율 정밀도 F1 점수 혼동 행렬 임계값 조정

📋 문서 버전

이 문서는 2개의 버전이 있습니다. 현재 버전 1을 보고 있습니다.

재현율

개요

재현율(Recall)은 인공지능, 특히 머신러닝과 패턴 인식 분야에서 분류 모델의 성능을 평가하는 핵심 지표 중 하나입니다. 재현율은 양성(Positive)으로 분류되어야 할 실제 사례 중에서 모델이 얼마나 정확히 양성으로 예측했는지를 나타내는 비율로, 민감도(Sensitivity) 또는 참 양성률(True Positive Rate, TPR)이라고도 불립니다.

재현율은 특히 결과의 누락이 치명적인 상황, 예를 들어 질병 진단, 사기 탐지, 안전 시스템 등에서 중요한 평가 기준으로 사용됩니다. 이 지표는 모델이 실제 양성 사례를 얼마나 잘 찾아내는지를 측정함으로써, 모델의 '누락 방지 능력' 을 평가합니다.

재현율의 정의와 계산식

재현율은 다음과 같은 공식으로 계산됩니다:

$$ \text{재현율} = \frac{\text{참 양성}(TP)}{\text{참 양성}(TP) + \text{거짓 음성}(FN)} $$

여기서: - 참 양성(True Positive, TP): 실제가 양성이고, 모델도 양성으로 올바르게 예측한 경우 - 거짓 음성(False Negative, FN): 실제는 양성인데, 모델이 음성으로 잘못 예측한 경우

즉, 재현율은 실제 양성 샘플 중에서 모델이 올바르게 양성으로 예측한 비율을 의미합니다.

예시

예를 들어, 100명의 환자 중 10명이 암에 걸렸고(실제 양성), 모델이 이 중 8명을 암으로 진단했다면:

TP = 8
FN = 2 (실제로 암이지만 정상으로 잘못 진단됨)
재현율 = $ \frac{8}{8 + 2} = 0.8 $ → 80%

이 경우 모델은 실제 암 환자의 80%를 찾아냈으며, 20%는 누락(거짓 음성)된 것입니다.

재현율과 정밀도의 관계

재현율은 종종 정밀도(Precision)와 함께 고려됩니다. 두 지표는 서로 보완적이며, 상황에 따라 우선순위가 달라질 수 있습니다.

지표	정의	공식
재현율(Recall)	실제 양성 중에서 올바르게 예측한 비율	$ \frac{TP}{TP + FN} $
정밀도(Precision)	모델이 양성으로 예측한 것 중에서 실제로 양성인 비율	$ \frac{TP}{TP + FP} $

재현율이 높다 → 양성 사례를 거의 빠짐없이 잡아냄 (FN 적음)
정밀도가 높다 → 양성으로 예측한 것 중 허위 경보(FP)가 적음

정밀도-재현율 트레이드오프

대개 모델의 임계값(threshold)을 조정함에 따라 정밀도와 재현율은 서로 반비례 관계를 가집니다. 예를 들어: - 임계값을 낮추면 더 많은 사례를 양성으로 분류 → 재현율 ↑, 정밀도 ↓ - 임계값을 높이면 보수적으로 양성 예측 → 재현율 ↓, 정밀도 ↑

이러한 트레이드오프는 정밀도-재현율 곡선(Precision-Recall Curve)으로 시각화할 수 있으며, 모델 간 성능 비교에 유용합니다.

재현율의 활용 사례

1. 의료 진단

암, 전염병 등 조기 발견이 중요한 질병의 진단 모델에서는 재현율이 매우 중요합니다. 거짓 음성(FN)은 환자의 생명을 위협할 수 있으므로, 가능한 모든 실제 환자를 찾아내는 것이 우선시됩니다.

예: 코로나19 진단 키트는 재현율을 높이기 위해 민감도를 우선시함.

2. 사기 탐지 시스템

금융 사기 탐지에서는 실제 사기 거래를 놓치지 않도록 재현율을 높이는 것이 중요합니다. 일부 정상 거래가 사기로 오진되더라도(낮은 정밀도), 실제 사기를 놓치는 것보다 낫습니다.

3. 정보 검색 시스템

검색 엔진에서 사용자가 원하는 문서를 가능한 한 모두 검색 결과에 포함시키기 위해 재현율을 고려합니다. 다만, 이 경우 정밀도도 함께 고려되어야 합니다.

재현율의 한계와 보완 지표

재현율만으로는 모델의 전반적인 성능을 완전히 평가하기 어렵습니다. 특히 다음과 같은 문제점이 있습니다:

클래스 불균형(Imbalanced Data)에 취약: 음성 샘플이 압도적으로 많을 경우, 재현율이 높아도 의미가 없을 수 있음.
정밀도와의 균형 필요: 재현율만 높은 모델은 과도한 양성 예측으로 인해 정밀도가 낮아질 수 있음.

이를 보완하기 위해 다음과 같은 복합 지표가 사용됩니다:

F1 점수(F1 Score): 정밀도와 재현율의 조화 평균 $$ F1 = 2 \times \frac{\text{정밀도} \times \text{재현율}}{\text{정밀도} + \text{재현율}} $$
정밀도-재현율 곡선 아래 면적(AUC-PR): 다양한 임계값에서의 성능을 종합적으로 평가

결론

재현율은 머신러닝 모델의 성능 평가에서 핵심적인 역할을 하는 지표로, 특히 양성 사례의 누락이 치명적인 분야에서 필수적으로 고려되어야 합니다. 그러나 단독으로 사용하기보다는 정밀도, F1 점수 등과 함께 종합적으로 분석하는 것이 바람직합니다. 모델 개발 시에는 비즈니스 요구사항과 리스크 프로파일에 따라 재현율의 목표 수준을 설정하고, 이를 기반으로 임계값 조정 및 모델 최적화를 수행해야 합니다.

관련 문서

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 재현율

## 개요

**재현율**(Recall)은 인공지능, 특히 머신러닝과 패턴 인식 분야에서 분류 모델의 성능을 평가하는 핵심 지표 중 하나입니다. 재현율은 **양성**(Positive)으로 분류되어야 할 실제 사례 중에서 모델이 얼마나 정확히 양성으로 예측했는지를 나타내는 비율로, **민감도**(Sensitivity) 또는 **참 양성률**(True Positive Rate, TPR)이라고도 불립니다.

재현율은 특히 **결과의 누락이 치명적인 상황**, 예를 들어 질병 진단, 사기 탐지, 안전 시스템 등에서 중요한 평가 기준으로 사용됩니다. 이 지표는 모델이 실제 양성 사례를 얼마나 잘 찾아내는지를 측정함으로써, **모델의 '누락 방지 능력'** 을 평가합니다.

---

## 재현율의 정의와 계산식

재현율은 다음과 같은 공식으로 계산됩니다:

$$
\text{재현율} = \frac{\text{참 양성}(TP)}{\text{참 양성}(TP) + \text{거짓 음성}(FN)}
$$

여기서:
- **참 양성**(True Positive, TP): 실제가 양성이고, 모델도 양성으로 올바르게 예측한 경우
- **거짓 음성**(False Negative, FN): 실제는 양성인데, 모델이 음성으로 잘못 예측한 경우

즉, 재현율은 **실제 양성 샘플 중에서 모델이 올바르게 양성으로 예측한 비율**을 의미합니다.

### 예시

예를 들어, 100명의 환자 중 10명이 암에 걸렸고(실제 양성), 모델이 이 중 8명을 암으로 진단했다면:

- TP = 8
- FN = 2 (실제로 암이지만 정상으로 잘못 진단됨)
- 재현율 = $ \frac{8}{8 + 2} = 0.8 $ → **80%**

이 경우 모델은 실제 암 환자의 80%를 찾아냈으며, 20%는 누락(거짓 음성)된 것입니다.

---

## 재현율과 정밀도의 관계

재현율은 종종 **정밀도**(Precision)와 함께 고려됩니다. 두 지표는 서로 보완적이며, 상황에 따라 우선순위가 달라질 수 있습니다.

| 지표 | 정의 | 공식 |
|------|------|------|
| **재현율**(Recall) | 실제 양성 중에서 올바르게 예측한 비율 | $ \frac{TP}{TP + FN} $ |
| **정밀도**(Precision) | 모델이 양성으로 예측한 것 중에서 실제로 양성인 비율 | $ \frac{TP}{TP + FP} $ |

- **재현율이 높다** → 양성 사례를 거의 빠짐없이 잡아냄 (FN 적음)
- **정밀도가 높다** → 양성으로 예측한 것 중 허위 경보(FP)가 적음

### 정밀도-재현율 트레이드오프

대개 모델의 임계값(threshold)을 조정함에 따라 정밀도와 재현율은 서로 반비례 관계를 가집니다. 예를 들어:
- 임계값을 낮추면 더 많은 사례를 양성으로 분류 → 재현율 ↑, 정밀도 ↓
- 임계값을 높이면 보수적으로 양성 예측 → 재현율 ↓, 정밀도 ↑

이러한 트레이드오프는 **정밀도-재현율 곡선**(Precision-Recall Curve)으로 시각화할 수 있으며, 모델 간 성능 비교에 유용합니다.

---

## 재현율의 활용 사례

### 1. **의료 진단**
암, 전염병 등 조기 발견이 중요한 질병의 진단 모델에서는 재현율이 매우 중요합니다. 거짓 음성(FN)은 환자의 생명을 위협할 수 있으므로, 가능한 모든 실제 환자를 찾아내는 것이 우선시됩니다.

> 예: 코로나19 진단 키트는 재현율을 높이기 위해 민감도를 우선시함.

### 2. **사기 탐지 시스템**
금융 사기 탐지에서는 실제 사기 거래를 놓치지 않도록 재현율을 높이는 것이 중요합니다. 일부 정상 거래가 사기로 오진되더라도(낮은 정밀도), 실제 사기를 놓치는 것보다 낫습니다.

### 3. **정보 검색 시스템**
검색 엔진에서 사용자가 원하는 문서를 가능한 한 모두 검색 결과에 포함시키기 위해 재현율을 고려합니다. 다만, 이 경우 **정밀도**도 함께 고려되어야 합니다.

---

## 재현율의 한계와 보완 지표

재현율만으로는 모델의 전반적인 성능을 완전히 평가하기 어렵습니다. 특히 다음과 같은 문제점이 있습니다:

- **클래스 불균형**(Imbalanced Data)에 취약: 음성 샘플이 압도적으로 많을 경우, 재현율이 높아도 의미가 없을 수 있음.
- **정밀도와의 균형 필요**: 재현율만 높은 모델은 과도한 양성 예측으로 인해 정밀도가 낮아질 수 있음.

이를 보완하기 위해 다음과 같은 복합 지표가 사용됩니다:

- **F1 점수**(F1 Score): 정밀도와 재현율의 조화 평균
  $$
  F1 = 2 \times \frac{\text{정밀도} \times \text{재현율}}{\text{정밀도} + \text{재현율}}
  $$
- **정밀도-재현율 곡선 아래 면적**(AUC-PR): 다양한 임계값에서의 성능을 종합적으로 평가

---

## 결론

재현율은 머신러닝 모델의 성능 평가에서 핵심적인 역할을 하는 지표로, 특히 **양성 사례의 누락이 치명적인 분야**에서 필수적으로 고려되어야 합니다. 그러나 단독으로 사용하기보다는 정밀도, F1 점수 등과 함께 종합적으로 분석하는 것이 바람직합니다. 모델 개발 시에는 비즈니스 요구사항과 리스크 프로파일에 따라 재현율의 목표 수준을 설정하고, 이를 기반으로 임계값 조정 및 모델 최적화를 수행해야 합니다.

---

## 관련 문서
- [정밀도](정밀도.md)
- [정확도](정확도.md)
- [F1 점수](f1-점수.md)
- [혼동 행렬](혼동-행렬.md)
- [정밀도-재현율 곡선](정밀도-재현율-곡선.md)

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

재현율