F1 점수

작성자

익명

작성일

2025.09.02

조회수

버전

F1 점수 정밀도 재현율 조화 평균 불균형 데이터 모델 평가

F1 점수

개요

F1 점수1 Score)는 인공지능 머신러닝 분야에서 분류 모델의 성능을 평가 데 널리 사용되는 지입니다. 특히 밀도(Precision)와 재현율(Recall)을 조화롭게 결합한 지표로, 두 값의 조화 평균(Harmonic Mean)을 계산하여 모델의 균형 잡힌 성능을 평가합니다. F1 점수는 불균형 데이터셋(Imbalanced Dataset)에서 특히 유용하게 사용되며, 단순한 정확도(Accuracy)만으로는 성능을 제대로 평가하기 어려운 상황에서 중요한 역할을 합니다.

이 문서에서는 F1 점수의 정의, 계산 방식, 활용 사례, 장단점, 그리고 관련 평가 지표와의 비교를 통해 그 중요성과 적용 방법을 다룹니다.

F1 점수의 정의

F1 점수는 정밀도와 재현율의 조화 평균으로 정의됩니다. 조화 평균은 산술 평균과 달리 두 값이 모두 높아야 높은 값을 가지므로, 정밀도와 재현율 중 어느 하나가 낮으면 F1 점수도 낮아집니다. 이는 모델이 두 지표 모두에서 좋은 성능을 내야 높은 점수를 받을 수 있음을 의미합니다.

수식

F1 점수는 다음과 같이 계산됩니다:

$$ F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

여기서: - 정밀도(Precision) = $\frac{TP}{TP + FP}$
(예측한 양성 중 실제 양성 비율) - 재현율(Recall) = $\frac{TP}{TP + FN}$
(실제 양성 중 올바르게 예측한 비율) - $TP$: 참 양성(True Positive) - $FP$: 거짓 양성(False Positive) - $FN$: 거짓 음성(False Negative)

F1 점수의 범위는 0에서 1 사이이며, 1에 가까울수록 모델의 성능이 우수하다고 판단할 수 있습니다.

F1 점수의 활용 사례

불균형 데이터셋에서의 중요성

예를 들어, 암 진단 모델에서 건강한 사람(음성)이 990명, 암 환자(양성)가 10명인 데이터셋이 있다고 가정해 봅시다. 단순히 모든 사람을 "건강함"으로 예측하면 정확도는 99%로 매우 높게 나옵니다. 하지만 이는 암 환자를 전혀 찾아내지 못하는 치명적인 오류입니다.

이 경우 정밀도와 재현율, 그리고 F1 점수를 함께 살펴보면 모델의 진정한 성능을 평가할 수 있습니다. 특히 재현율이 낮다면 중요한 양성 사례를 놓치고 있다는 신호이며, F1 점수는 이를 반영합니다.

다중 클래스 분류에서의 확장

F1 점수는 이진 분류(Binary Classification)뿐 아니라 다중 클래스 분류(Multiclass Classification)에서도 사용할 수 있습니다. 이때는 다음과 같은 방식으로 확장됩니다:

마이크로 F1 (Micro-F1): 모든 클래스의 TP, FP, FN을 합쳐서 전체 정밀도와 재현율을 계산한 후 F1을 구함. 데이터 불균형에 강함.
매크로 F1 (Macro-F1): 각 클래스별 F1 점수를 계산한 후 평균을 내는 방식. 모든 클래스에 동일한 가중치 부여.
가중 F1 (Weighted F1): 각 클래스의 샘플 수에 따라 가중 평균을 계산.

F1 점수의 장단점

장점

정밀도와 재현율의 균형을 반영하므로, 한쪽으로 치우친 성능을 평가하기에 적합.
불균형 데이터셋에서 정확도보다 더 의미 있는 지표.
특히 양성 예측이 중요한 도메인(예: 질병 진단, 사기 탐지)에서 유용.

단점

음성 클래스(Negative Class)의 성능은 반영하지 않음.
F1 점수만으로는 모델의 전반적인 성능을 완전히 설명하기 어려움. 다른 지표와 함께 사용하는 것이 좋음.
특수한 상황에서는 정밀도 또는 재현율을 우선시해야 할 수 있음 (예: 재현율 우선 – 암 진단).

지표	설명	F1과의 차이점
정확도(Accuracy)	전체 예측 중 올바른 비율	불균형 데이터에서 왜곡됨
정밀도(Precision)	양성 예측의 정확성	F1은 정밀도 + 재현율 반영
재현율(Recall)	실제 양성 탐지 능력	F1은 이 둘의 균형을 잡음
ROC-AUC	다양한 임계값에서의 성능	확률 기반, F1은 이진 결정 기반

참고 자료 및 관련 문서

Scikit-learn: F1 Score Documentation
Precision and Recall - Wikipedia
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition (Aurélien Géron)

F1 점수는 모델 평가의 핵심 지표 중 하나로, 특히 실용적인 응용에서 정밀도와 재현율의 트레이드오프를 고려할 때 필수적인 도구입니다. 모델 개발 과정에서 다양한 지표를 함께 분석하여 종합적인 판단을 내리는 것이 중요합니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# F1 점수

## 개요

F1 점수1 Score)는 인공지능 머신러닝 분야에서 분류 모델의 성능을 평가 데 널리 사용되는 지입니다. 특히 **밀도**(Precision)와 **재현율**(Recall)을 조화롭게 결합한 지표로, 두 값의 조화 평균(Harmonic Mean)을 계산하여 모델의 균형 잡힌 성능을 평가합니다. F1 점수는 불균형 데이터셋(Imbalanced Dataset)에서 특히 유용하게 사용되며, 단순한 정확도(Accuracy)만으로는 성능을 제대로 평가하기 어려운 상황에서 중요한 역할을 합니다.

이 문서에서는 F1 점수의 정의, 계산 방식, 활용 사례, 장단점, 그리고 관련 평가 지표와의 비교를 통해 그 중요성과 적용 방법을 다룹니다.

---

## F1 점수의 정의

F1 점수는 정밀도와 재현율의 **조화 평균**으로 정의됩니다. 조화 평균은 산술 평균과 달리 두 값이 모두 높아야 높은 값을 가지므로, 정밀도와 재현율 중 어느 하나가 낮으면 F1 점수도 낮아집니다. 이는 모델이 두 지표 모두에서 좋은 성능을 내야 높은 점수를 받을 수 있음을 의미합니다.

### 수식

F1 점수는 다음과 같이 계산됩니다:

$$
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$

여기서:
- **정밀도(Precision)** = $\frac{TP}{TP + FP}$  
  (예측한 양성 중 실제 양성 비율)
- **재현율(Recall)** = $\frac{TP}{TP + FN}$  
  (실제 양성 중 올바르게 예측한 비율)
- $TP$: 참 양성(True Positive)
- $FP$: 거짓 양성(False Positive)
- $FN$: 거짓 음성(False Negative)

F1 점수의 범위는 0에서 1 사이이며, 1에 가까울수록 모델의 성능이 우수하다고 판단할 수 있습니다.

---

## F1 점수의 활용 사례

### 불균형 데이터셋에서의 중요성

예를 들어, 암 진단 모델에서 건강한 사람(음성)이 990명, 암 환자(양성)가 10명인 데이터셋이 있다고 가정해 봅시다. 단순히 모든 사람을 "건강함"으로 예측하면 정확도는 99%로 매우 높게 나옵니다. 하지만 이는 암 환자를 전혀 찾아내지 못하는 치명적인 오류입니다.

이 경우 정밀도와 재현율, 그리고 F1 점수를 함께 살펴보면 모델의 진정한 성능을 평가할 수 있습니다. 특히 재현율이 낮다면 중요한 양성 사례를 놓치고 있다는 신호이며, F1 점수는 이를 반영합니다.

### 다중 클래스 분류에서의 확장

F1 점수는 이진 분류(Binary Classification)뿐 아니라 다중 클래스 분류(Multiclass Classification)에서도 사용할 수 있습니다. 이때는 다음과 같은 방식으로 확장됩니다:

- **마이크로 F1 (Micro-F1)**: 모든 클래스의 TP, FP, FN을 합쳐서 전체 정밀도와 재현율을 계산한 후 F1을 구함. 데이터 불균형에 강함.
- **매크로 F1 (Macro-F1)**: 각 클래스별 F1 점수를 계산한 후 평균을 내는 방식. 모든 클래스에 동일한 가중치 부여.
- **가중 F1 (Weighted F1)**: 각 클래스의 샘플 수에 따라 가중 평균을 계산.

---

## F1 점수의 장단점

### 장점
- 정밀도와 재현율의 균형을 반영하므로, 한쪽으로 치우친 성능을 평가하기에 적합.
- 불균형 데이터셋에서 정확도보다 더 의미 있는 지표.
- 특히 **양성 예측이 중요한 도메인**(예: 질병 진단, 사기 탐지)에서 유용.

### 단점
- 음성 클래스(Negative Class)의 성능은 반영하지 않음.
- F1 점수만으로는 모델의 전반적인 성능을 완전히 설명하기 어려움. 다른 지표와 함께 사용하는 것이 좋음.
- 특수한 상황에서는 정밀도 또는 재현율을 우선시해야 할 수 있음 (예: 재현율 우선 – 암 진단).

---

## 관련 평가 지표와 비교

| 지표 | 설명 | F1과의 차이점 |
|------|------|----------------|
| **정확도(Accuracy)** | 전체 예측 중 올바른 비율 | 불균형 데이터에서 왜곡됨 |
| **정밀도(Precision)** | 양성 예측의 정확성 | F1은 정밀도 + 재현율 반영 |
| **재현율(Recall)** | 실제 양성 탐지 능력 | F1은 이 둘의 균형을 잡음 |
| **ROC-AUC** | 다양한 임계값에서의 성능 | 확률 기반, F1은 이진 결정 기반 |

---

## 참고 자료 및 관련 문서

- [Scikit-learn: F1 Score Documentation](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)
- [Precision and Recall - Wikipedia](https://en.wikipedia.org/wiki/Precision_and_recall)
- Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition (Aurélien Géron)

F1 점수는 모델 평가의 핵심 지표 중 하나로, 특히 실용적인 응용에서 정밀도와 재현율의 트레이드오프를 고려할 때 필수적인 도구입니다. 모델 개발 과정에서 다양한 지표를 함께 분석하여 종합적인 판단을 내리는 것이 중요합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

F1 점수

F1 점수

개요

F1 점수의 정의

수식

F1 점수의 활용 사례

불균형 데이터셋에서의 중요성

다중 클래스 분류에서의 확장

F1 점수의 장단점

장점

단점

관련 평가 지표와 비교

참고 자료 및 관련 문서

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?