재현율
📋 문서 버전
이 문서는 2개의 버전이 있습니다. 현재 최신 버전을 보고 있습니다.
재현율
개요
재현율(Recall)은 인공지능, 특히 머신러닝 모델의 성능을 평가하는 핵심 지표 중 하나로, 정답인 사례 중에서 모델이 얼마나 많은 것을 올바르게 찾아냈는지를 나타내는 비율입니다. 주로 분류 문제, 특히 이진 분류(Binary Classification)에서 사용되며, 민감도(Sensitivity) 또는 참양성률(True Positive Rate, TPR)이라고도 불립니다.
재현율은 정밀도(Precision)와 함께 모델의 균형 잡힌 성능을 평가하는 데 중요한 역할을 하며, 특히 결과의 누락이 치명적인 상황(예: 질병 진단, 사기 탐지 등)에서 매우 중요한 지표로 여겨집니다.
재현율의 정의와 계산식
재현율은 다음과 같은 공식으로 계산됩니다:
$$ \text{재현율} = \frac{\text{참양성 (TP)}}{\text{참양성 (TP)} + \text{거짓음성 (FN)}} $$
여기서: - 참양성(True Positive, TP): 실제로 양성인 사례를 모델이 양성으로 올바르게 예측한 경우 - 거짓음성(False Negative, FN): 실제로 양성인 사례를 모델이 음성으로 잘못 예측한 경우
즉, 재현율은 전체 양성 사례 중에서 모델이 얼마나 많은 양성 사례를 찾아냈는지를 나타냅니다.
예시
예를 들어, 100명의 환자 중 10명이 암에 걸렸고(실제 양성), 모델이 그 중 8명을 암으로 진단했다면:
- TP = 8
- FN = 2 (실제로 암이지만 모델이 정상이라고 판단한 경우)
- 재현율 = $ \frac{8}{8 + 2} = 0.8 $ → 80%
이 경우 모델은 실제 암 환자의 80%를 찾아냈으며, 20%는 놓친 셈입니다.
재현율의 중요성과 활용 분야
1. 의료 진단
암, 감염병 등 질병 진단에서 거짓음성(FN)은 치명적일 수 있습니다. 환자가 병이 있는데도 "정상"이라고 판단되면 치료 시기를 놓칠 수 있기 때문에, 높은 재현율을 요구합니다. 즉, 모든 환자를 찾아내는 것이 중요합니다.
2. 사기 탐지(Fraud Detection)
금융 사기 탐지 시스템은 실제 사기 거래를 놓치지 않도록 해야 합니다. 사기를 음성(정상 거래)으로 잘못 분류하면 큰 손실이 발생할 수 있으므로, 재현율을 높이는 것이 핵심입니다.
3. 정보 검색 및 추천 시스템
사용자가 원하는 정보를 가능한 한 많이 검색 결과에 포함시키기 위해 재현율을 고려합니다. 예를 들어, 사용자가 "고양이 사진"을 검색했을 때, 실제로 고양이인 이미지를 얼마나 많이 포함했는지가 재현율로 측정될 수 있습니다.
재현율과 정밀도의 관계
재현율은 종종 정밀도(Precision)와 함께 고려됩니다. 정밀도는 다음과 같이 정의됩니다:
$$ \text{정밀도} = \frac{\text{참양성 (TP)}}{\text{참양성 (TP)} + \text{거짓양성 (FP)}} $$
- 정밀도: 모델이 양성이라고 예측한 것 중 실제로 양성인 비율 → 정확성 강조
- 재현율: 실제 양성 중 모델이 찾아낸 비율 → 누락 최소화 강조
이 두 지표는 일반적으로 트레이드오프(Trade-off) 관계에 있습니다. 예를 들어, 재현율을 높이기 위해 더 많은 사례를 양성으로 예측하면, 거짓양성(FP)이 증가하여 정밀도가 떨어질 수 있습니다.
이러한 균형을 평가하기 위해 F1 점수(F1 Score)라는 조화 평균 지표가 사용됩니다:
$$ F1 = 2 \times \frac{\text{정밀도} \times \text{재현율}}{\text{정밀도} + \text{재현율}} $$
재현율의 한계와 보완
- 불균형 데이터(Imbalanced Data)에서의 왜곡: 양성 사례가 극히 적은 경우, 재현율만으로는 모델의 전반적인 성능을 제대로 평가하기 어렵습니다. 예를 들어, 1000명 중 1명만 양성인 경우, 모델이 모두 음성으로 예측해도 재현율은 0이지만, 정확도는 99.9%로 높게 나올 수 있습니다.
- 다중 클래스 문제: 재현율은 이진 분류에서 직관적이지만, 다중 클래스 분류에서는 마이크로 재현율(Micro Recall), 마크로 재현율(Macro Recall) 등으로 확장하여 사용합니다.
관련 지표 및 참고 자료
| 지표 | 설명 |
|---|---|
| 정밀도(Precision) | 양성 예측 중 올바른 비율 |
| 정확도(Accuracy) | 전체 예측 중 올바른 비율 |
| F1 점수 | 정밀도와 재현율의 조화 평균 |
| ROC 곡선 및 AUC | 다양한 임계값에서의 재현율과 특이도(1-FPR) 관계 |
참고 자료
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Scikit-learn 공식 문서: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html
- Fawcett, T. (2006). "An introduction to ROC analysis". Pattern Recognition Letters.
재현율은 모델이 얼마나 철저하게 긍정 사례를 찾아내는지를 평가하는 핵심 지표로, 특정 도메인에서는 정확도보다 더 중요한 평가 기준이 될 수 있습니다. 모델 설계 시 문제의 특성과 비용 구조를 고려하여 재현율의 목표 수준을 설정하는 것이 중요합니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.