F1 점수
F1 점수
개요
F1 점수1 Score)는 인공지능 머신러닝 분야에서 분류 모델의 성능을 평가 데 널리 사용되는 지입니다. 특히 밀도(Precision)와 재현율(Recall)을 조화롭게 결합한 지표로, 두 값의 조화 평균(Harmonic Mean)을 계산하여 모델의 균형 잡힌 성능을 평가합니다. F1 점수는 불균형 데이터셋(Imbalanced Dataset)에서 특히 유용하게 사용되며, 단순한 정확도(Accuracy)만으로는 성능을 제대로 평가하기 어려운 상황에서 중요한 역할을 합니다.
이 문서에서는 F1 점수의 정의, 계산 방식, 활용 사례, 장단점, 그리고 관련 평가 지표와의 비교를 통해 그 중요성과 적용 방법을 다룹니다.
F1 점수의 정의
F1 점수는 정밀도와 재현율의 조화 평균으로 정의됩니다. 조화 평균은 산술 평균과 달리 두 값이 모두 높아야 높은 값을 가지므로, 정밀도와 재현율 중 어느 하나가 낮으면 F1 점수도 낮아집니다. 이는 모델이 두 지표 모두에서 좋은 성능을 내야 높은 점수를 받을 수 있음을 의미합니다.
수식
F1 점수는 다음과 같이 계산됩니다:
$$ F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$
여기서:
- 정밀도(Precision) = $\frac{TP}{TP + FP}$
(예측한 양성 중 실제 양성 비율)
- 재현율(Recall) = $\frac{TP}{TP + FN}$
(실제 양성 중 올바르게 예측한 비율)
- $TP$: 참 양성(True Positive)
- $FP$: 거짓 양성(False Positive)
- $FN$: 거짓 음성(False Negative)
F1 점수의 범위는 0에서 1 사이이며, 1에 가까울수록 모델의 성능이 우수하다고 판단할 수 있습니다.
F1 점수의 활용 사례
불균형 데이터셋에서의 중요성
예를 들어, 암 진단 모델에서 건강한 사람(음성)이 990명, 암 환자(양성)가 10명인 데이터셋이 있다고 가정해 봅시다. 단순히 모든 사람을 "건강함"으로 예측하면 정확도는 99%로 매우 높게 나옵니다. 하지만 이는 암 환자를 전혀 찾아내지 못하는 치명적인 오류입니다.
이 경우 정밀도와 재현율, 그리고 F1 점수를 함께 살펴보면 모델의 진정한 성능을 평가할 수 있습니다. 특히 재현율이 낮다면 중요한 양성 사례를 놓치고 있다는 신호이며, F1 점수는 이를 반영합니다.
다중 클래스 분류에서의 확장
F1 점수는 이진 분류(Binary Classification)뿐 아니라 다중 클래스 분류(Multiclass Classification)에서도 사용할 수 있습니다. 이때는 다음과 같은 방식으로 확장됩니다:
- 마이크로 F1 (Micro-F1): 모든 클래스의 TP, FP, FN을 합쳐서 전체 정밀도와 재현율을 계산한 후 F1을 구함. 데이터 불균형에 강함.
- 매크로 F1 (Macro-F1): 각 클래스별 F1 점수를 계산한 후 평균을 내는 방식. 모든 클래스에 동일한 가중치 부여.
- 가중 F1 (Weighted F1): 각 클래스의 샘플 수에 따라 가중 평균을 계산.
F1 점수의 장단점
장점
- 정밀도와 재현율의 균형을 반영하므로, 한쪽으로 치우친 성능을 평가하기에 적합.
- 불균형 데이터셋에서 정확도보다 더 의미 있는 지표.
- 특히 양성 예측이 중요한 도메인(예: 질병 진단, 사기 탐지)에서 유용.
단점
- 음성 클래스(Negative Class)의 성능은 반영하지 않음.
- F1 점수만으로는 모델의 전반적인 성능을 완전히 설명하기 어려움. 다른 지표와 함께 사용하는 것이 좋음.
- 특수한 상황에서는 정밀도 또는 재현율을 우선시해야 할 수 있음 (예: 재현율 우선 – 암 진단).
관련 평가 지표와 비교
지표 | 설명 | F1과의 차이점 |
---|---|---|
정확도(Accuracy) | 전체 예측 중 올바른 비율 | 불균형 데이터에서 왜곡됨 |
정밀도(Precision) | 양성 예측의 정확성 | F1은 정밀도 + 재현율 반영 |
재현율(Recall) | 실제 양성 탐지 능력 | F1은 이 둘의 균형을 잡음 |
ROC-AUC | 다양한 임계값에서의 성능 | 확률 기반, F1은 이진 결정 기반 |
참고 자료 및 관련 문서
- Scikit-learn: F1 Score Documentation
- Precision and Recall - Wikipedia
- Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition (Aurélien Géron)
F1 점수는 모델 평가의 핵심 지표 중 하나로, 특히 실용적인 응용에서 정밀도와 재현율의 트레이드오프를 고려할 때 필수적인 도구입니다. 모델 개발 과정에서 다양한 지표를 함께 분석하여 종합적인 판단을 내리는 것이 중요합니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.