매크로 F1

작성자

익명

작성일

2025.09.07

조회수

101

버전

매크로 F1

개요

매크로 F1Macro F1)은중 클래스 분류(Multiclass Classification) 문제에서 모델의 성능을 평가하기 위한 지표 중 하나로, 각 클래스별 F1 점수**(F1 Score)를 계산한 후, 이를 단순 평균하여 전체 성능을 평가하는 방식을 의미한다. 이 지표는 클래스 간 불균형이 존재하는 경우에도 각 클래스의 중요성을 동등하게 반영하기 때문에, 특히 불균형 데이터셋에서 유용하게 사용된다.

F1 점수는 정밀도(Precision)와 재현율(Recall)의 조화 평균으로 정의되며, 매크로 F1은 모든 클래스의 F1 점수를 동등한 가중치로 평균함으로써 소수 클래스의 성능 저하를 감지할 수 있다.

F1 점수의 기초

F1 점수는 다음의 수식으로 계산된다:

$$ F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

여기서: - 정밀도(Precision): 모델이 "양성"으로 예측한 샘플 중 실제로 양성인 비율 $$ \text{Precision} = \frac{TP}{TP + FP} $$ - 재현율(Recall): 실제로 양성인 샘플 중 모델이 올바르게 양성으로 예측한 비율 $$ \text{Recall} = \frac{TP}{TP + FN} $$

여기서 $TP$는 참 양성(True Positive), $FP$는 거짓 양성(False Positive), $FN$은 거짓 음성(False Negative)을 의미한다.

매크로 F1의 정의와 계산 방식

매크로 F1은 각 클래스 $i$에 대해 개별적으로 F1 점수를 계산한 후, 이를 산술 평균으로 취합하는 방식이다.

$$ \text{Macro F1} = \frac{1}{N} \sum_{i=1}^{N} F1_i $$

여기서 $N$은 클래스의 총 수이며, $F1_i$는 $i$번째 클래스에 대한 F1 점수이다.

특징

클래스 균형에 민감함: 각 클래스가 동일한 중요도를 가지므로, 소수 클래스의 성능이 낮아도 전체 점수에 큰 영향을 미친다.
단순 평균: 클래스별 샘플 수에 관계없이 동등하게 평균함 → 불균형 데이터에서 보수적인 평가 제공.
해석의 직관성: 모든 클래스가 동등하게 중요하다고 가정할 때 적합.

매크로 F1 vs 마이크로 F1 vs 가중 F1

매크로 F1 외에도 다중 클래스 평가에서 자주 사용되는 F1 변형이 존재한다. 주요 비교는 다음과 같다:

지표	설명	특징
매크로 F1	각 클래스의 F1 점수를 계산한 후 단순 평균	소수 클래스의 성능에 민감, 클래스 균형 무시
마이크로 F1	전체 TP, FP, FN을 합쳐서 한 번에 F1 계산	샘플 수가 많은 클래스에 가중치 부여, 전체 정확도와 유사
가중 F1(Weighted F1)	클래스별 F1을 샘플 수에 따라 가중 평균	데이터 불균형 반영, 실제 배포 환경에 적합

예를 들어, 세 클래스 A, B, C가 있고 각 클래스의 F1 점수가 다음과 같을 때:

A: F1 = 0.9
B: F1 = 0.8
C: F1 = 0.3 (성능 낮음)

매크로 F1 = $(0.9 + 0.8 + 0.3)/3 = 0.67$

이처럼 소수 클래스의 성능이 낮으면 전체 점수가 크게 떨어진다. 반면 마이크로 F1은 C 클래스의 샘플 수가 적으면 이 영향을 덜 받을 수 있다.

사용 사례

매크로 F1은 다음 상황에서 특히 유용하다:

의료 진단 모델: 드물지만 치명적인 질병(예: 암)의 진단 성능을 평가할 때, 소수 클래스의 재현율이 중요하므로 매크로 F1이 적합.
불균형 텍스트 분류: 스팸 감지, 감정 분석 등에서 특정 카테고리가 적더라도 동등한 평가가 필요할 때.
공정성(Fairness) 평가: 모든 클래스가 동등한 기회를 가져야 하는 사회적 애플리케이션(예: 채용 AI)에서 사용.

장점과 단점

장점

소수 클래스의 성능 저하를 쉽게 감지 가능.
각 클래스의 중요도를 동등하게 취급 → 공정한 평가 기준 제공.
해석이 직관적이고 계산이 간단.

단점

샘플 수가 매우 적은 클래스의 F1 점수가 노이즈에 민감할 수 있음.
실제 적용 환경에서 클래스별 중요도가 다를 경우 과도하게 보수적인 평가를 할 수 있음.

참고 자료 및 관련 문서

요약

매크로 F1은 클래스 불균형이 존재하는 다중 분류 문제에서 모든 클래스의 성능을 균형 있게 평가할 수 있는 강력한 지표이다. 특히 소수 클래스의 성능이 중요한 도메인에서 필수적인 평가 척도로 사용되며, 모델의 공정성과 일반화 능력을 진단하는 데 유용하다. 그러나 실제 배포 환경의 클래스 분포를 반영하고자 할 경우, 가중 F1 또는 마이크로 F1과 함께 병행 사용하는 것이 바람직하다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 매크로 F1

## 개요

**매크로 F1Macro F1)은중 클래스 분류(Multiclass Classification) 문제에서 모델의 성능을 평가하기 위한 지표 중 하나로, 각 클래스별 **F1 점수**(F1 Score)를 계산한 후, 이를 단순 평균하여 전체 성능을 평가하는 방식을 의미한다. 이 지표는 클래스 간 불균형이 존재하는 경우에도 각 클래스의 중요성을 동등하게 반영하기 때문에, 특히 불균형 데이터셋에서 유용하게 사용된다.

F1 점수는 정밀도(Precision)와 재현율(Recall)의 조화 평균으로 정의되며, 매크로 F1은 모든 클래스의 F1 점수를 동등한 가중치로 평균함으로써 소수 클래스의 성능 저하를 감지할 수 있다.

---

## F1 점수의 기초

F1 점수는 다음의 수식으로 계산된다:

$$
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$

여기서:
- **정밀도**(Precision): 모델이 "양성"으로 예측한 샘플 중 실제로 양성인 비율
  $$
  \text{Precision} = \frac{TP}{TP + FP}
  $$
- **재현율**(Recall): 실제로 양성인 샘플 중 모델이 올바르게 양성으로 예측한 비율
  $$
  \text{Recall} = \frac{TP}{TP + FN}
  $$

여기서 $TP$는 참 양성(True Positive), $FP$는 거짓 양성(False Positive), $FN$은 거짓 음성(False Negative)을 의미한다.

---

## 매크로 F1의 정의와 계산 방식

매크로 F1은 각 클래스 $i$에 대해 개별적으로 F1 점수를 계산한 후, 이를 **산술 평균**으로 취합하는 방식이다.

$$
\text{Macro F1} = \frac{1}{N} \sum_{i=1}^{N} F1_i
$$

여기서 $N$은 클래스의 총 수이며, $F1_i$는 $i$번째 클래스에 대한 F1 점수이다.

### 특징

- **클래스 균형에 민감함**: 각 클래스가 동일한 중요도를 가지므로, 소수 클래스의 성능이 낮아도 전체 점수에 큰 영향을 미친다.
- **단순 평균**: 클래스별 샘플 수에 관계없이 동등하게 평균함 → 불균형 데이터에서 보수적인 평가 제공.
- **해석의 직관성**: 모든 클래스가 동등하게 중요하다고 가정할 때 적합.

---

## 매크로 F1 vs 마이크로 F1 vs 가중 F1

매크로 F1 외에도 다중 클래스 평가에서 자주 사용되는 F1 변형이 존재한다. 주요 비교는 다음과 같다:

| 지표 | 설명 | 특징 |
|------|------|------|
| **매크로 F1** | 각 클래스의 F1 점수를 계산한 후 단순 평균 | 소수 클래스의 성능에 민감, 클래스 균형 무시 |
| **마이크로 F1** | 전체 TP, FP, FN을 합쳐서 한 번에 F1 계산 | 샘플 수가 많은 클래스에 가중치 부여, 전체 정확도와 유사 |
| **가중 F1**(Weighted F1) | 클래스별 F1을 샘플 수에 따라 가중 평균 | 데이터 불균형 반영, 실제 배포 환경에 적합 |

예를 들어, 세 클래스 A, B, C가 있고 각 클래스의 F1 점수가 다음과 같을 때:

- A: F1 = 0.9
- B: F1 = 0.8
- C: F1 = 0.3 (성능 낮음)

매크로 F1 = $(0.9 + 0.8 + 0.3)/3 = 0.67$

이처럼 소수 클래스의 성능이 낮으면 전체 점수가 크게 떨어진다. 반면 마이크로 F1은 C 클래스의 샘플 수가 적으면 이 영향을 덜 받을 수 있다.

---

## 사용 사례

매크로 F1은 다음 상황에서 특히 유용하다:

- **의료 진단 모델**: 드물지만 치명적인 질병(예: 암)의 진단 성능을 평가할 때, 소수 클래스의 재현율이 중요하므로 매크로 F1이 적합.
- **불균형 텍스트 분류**: 스팸 감지, 감정 분석 등에서 특정 카테고리가 적더라도 동등한 평가가 필요할 때.
- **공정성(Fairness) 평가**: 모든 클래스가 동등한 기회를 가져야 하는 사회적 애플리케이션(예: 채용 AI)에서 사용.

---

## 장점과 단점

### 장점
- 소수 클래스의 성능 저하를 쉽게 감지 가능.
- 각 클래스의 중요도를 동등하게 취급 → 공정한 평가 기준 제공.
- 해석이 직관적이고 계산이 간단.

### 단점
- 샘플 수가 매우 적은 클래스의 F1 점수가 노이즈에 민감할 수 있음.
- 실제 적용 환경에서 클래스별 중요도가 다를 경우 과도하게 보수적인 평가를 할 수 있음.

---

## 참고 자료 및 관련 문서

- [Scikit-learn: Classification Report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)
- [F1 Score - Wikipedia](https://en.wikipedia.org/wiki/F-score)
- [Imbalanced Classification: Macro vs Micro F1](https://towardsdatascience.com/micro-macro-weighted-averages-of-f1-score-clearly-explained-1fb3c30a74a)

---

## 요약

매크로 F1은 클래스 불균형이 존재하는 다중 분류 문제에서 **모든 클래스의 성능을 균형 있게 평가**할 수 있는 강력한 지표이다. 특히 소수 클래스의 성능이 중요한 도메인에서 필수적인 평가 척도로 사용되며, 모델의 공정성과 일반화 능력을 진단하는 데 유용하다. 그러나 실제 배포 환경의 클래스 분포를 반영하고자 할 경우, 가중 F1 또는 마이크로 F1과 함께 병행 사용하는 것이 바람직하다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

매크로 F1

매크로 F1

개요

F1 점수의 기초

매크로 F1의 정의와 계산 방식

특징

매크로 F1 vs 마이크로 F1 vs 가중 F1

사용 사례

장점과 단점

장점

단점

참고 자료 및 관련 문서

요약

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?