통계적 평
통계적 평등(Statistical Parity)은 인공지능 시스템의 공정성(fairness)을 평가하는 데 사용되는 주요 기준 중 하나로, 알고리즘이 다양한 사회적 그룹(예: 성별, 인종, 연령 등)에 대해 동일한 수준의 긍정적 결과를 제공하는지를 측정합니다. 이 개념은 기계학습 모델이 특정 집단에 대해 체계적인 편향을 보이지 않도록 설계하는 데 중요한 역할을 하며, 특히 채용, 대출 심사, 범죄 예측 등 민감한 의사결정 영역에서 그 중요성이 강조됩니다.
통계적 평등은 수학적으로 명확하게 정의할 수 있으며, 모델의 예측 결과가 특정 보호 속성(protected attribute)에 따라 불균형하게 분포되지 않도록 요구합니다. 이 문서에서는 통계적 평등의 정의, 계산 방법, 장단점, 실제 적용 사례 및 관련 공정성 기준과의 비교를 다룹니다.
기본 개념
통계적 평등은 모델이 예측한 긍정적 결과(예: "대출 승인", "채용 추천")의 비율이 다양한 그룹 간에 균등해야 한다는 원칙을 의미합니다. 예를 들어, 남성과 여성 지원자에게 대출 승인을 예측할 때, 각 집단에서 승인된 비율이 유사해야 통계적 평등이 유지된 것으로 간주됩니다.
이 기준은 "무조건적 공정성"(unconditional fairness) 또는 "동등한 기회 제공"이라고도 불립니다.
수식적 정의
집단 ( A )와 ( B )가 있고, 모델의 예측 결과를 ( \hat{Y} )라 할 때, 통계적 평등은 다음과 같이 표현됩니다:
[
P(\hat{Y} = 1 \mid A) = P(\hat{Y} = 1 \mid B)
]
여기서:
- ( \hat{Y} = 1 ): 긍정적 예측 (예: 승인됨)
- ( A, B ): 보호 속성에 따른 그룹 (예: 남성, 여성)
보다 일반적으로, 보호 속성 ( S )에 대해 모든 ( s ) 값에서 다음이 성립해야 합니다:
[
P(\hat{Y} = 1 \mid S = s) = P(\hat{Y} = 1)
]
즉, 예측 결과는 보호 속성과 독립적이어야 합니다.
계산 및 평가 방법
각 그룹별로 모델이 "긍정적"으로 예측한 비율을 계산합니다. 예:
그룹 |
전체 샘플 수 |
긍정적 예측 수 |
긍정적 예측 비율 |
여성 |
1,000 |
400 |
40% |
남성 |
1,200 |
480 |
40% |
이 경우, 두 그룹의 긍정적 예측 비율이 동일하므로 통계적 평등이 유지됩니다.
실제 분석에서는 비율 차이(difference) 대신 비율(ratio)을 사용하기도 합니다:
[
\text{SP Ratio} = \frac{P(\hat{Y} = 1 \mid A)}{P(\hat{Y} = 1 \mid B)}
]
일반적으로 이 비율이 0.8 이상 1.25 이하이면 "공정한 수준"으로 간주되기도 합니다 (예: 미국 고용기회균등위원회 EEOC 기준).
장점과 한계
장점
- 해석이 간단하고 직관적: 결과의 분포만 비교하면 되므로 이해하기 쉬움.
- 규제 및 정책 적용에 적합: 기업이나 정부 기관이 공정성 감사를 수행할 때 유용.
- 편향 감지에 효과적: 특정 집단이 체계적으로 배제되는 현상을 쉽게 드러냄.
한계
- 정확도와의 트레이드오프: 실제 데이터에 불균형이 존재할 경우, 통계적 평등을 강제하면 모델의 정확도가 떨어질 수 있음.
- 결과의 질 무시: 단순히 긍정적 예측의 비율만 동일하게 맞추므로, 예측의 질(예: 실제 적합성)은 고려하지 않음.
- 개인별 공정성 결여: 집단 평균을 맞추지만, 개별 사례에 대한 공정성은 보장하지 않음.
- 다른 공정성 기준과 충돌: 예를 들어, 동등한 정확도(Equalized Odds)와 동시에 만족하기 어려울 수 있음.
실제 적용 사례
- 금융 서비스: 대출 심사 모델에서 소수 인종 집단에 대한 승인률이 낮을 경우, 통계적 평등 위반으로 간주될 수 있음.
- 채용 시스템: AI 기반 채용 도구가 여성 지원자에게 낮은 추천률을 보일 경우, 통계적 평등 분석을 통해 편향을 확인.
- 의료 진단: 특정 인종 그룹에서 질병 진단율이 낮을 경우, 알고리즘의 접근성 문제를 드러냄.
관련 공정성 기준과 비교
기준 |
설명 |
통계적 평등과의 차이점 |
Equalized Odds |
진짜 양성률과 위양성률이 그룹 간에 동일해야 함 |
조건부 정확도 고려 |
Predictive Parity |
양성 예측의 정확도(PPV)가 그룹 간 동일해야 함 |
예측의 신뢰도 강조 |
Demographic Parity |
통계적 평등과 동의어로 사용되기도 함 |
동일 개념 |
📌 참고: 통계적 평등은 때때로 Demographic Parity와 동의어로 사용되며, 특히 미국의 AI 공정성 연구에서는 이 용어가 더 일반적입니다.
참고 자료 및 관련 문서
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning.
- Hardt, M., Price, E., & Srebro, N. (2016). "Equality of Opportunity in Supervised Learning." NeurIPS.
- U.S. Equal Employment Opportunity Commission (EEOC) - Four-Fifths Rule
🔗 관련 문서: 공정성 기준, AI 편향, 공정한 기계학습
통계적 평등은 인공지능의 공정성 평가를 위한 기초적이지만 핵심적인 지표입니다. 그러나 단독으로 사용하기보다는 다른 공정성 기준과 함께 종합적으로 고려되어야, 보다 균형 잡힌 AI 시스템을 설계할 수 있습니다.
# 통계적 평
**통계적 평등**(Statistical Parity)은 인공지능 시스템의 공정성(fairness)을 평가하는 데 사용되는 주요 기준 중 하나로, 알고리즘이 다양한 사회적 그룹(예: 성별, 인종, 연령 등)에 대해 동일한 수준의 긍정적 결과를 제공하는지를 측정합니다. 이 개념은 기계학습 모델이 특정 집단에 대해 체계적인 편향을 보이지 않도록 설계하는 데 중요한 역할을 하며, 특히 채용, 대출 심사, 범죄 예측 등 민감한 의사결정 영역에서 그 중요성이 강조됩니다.
통계적 평등은 수학적으로 명확하게 정의할 수 있으며, 모델의 예측 결과가 특정 보호 속성(protected attribute)에 따라 불균형하게 분포되지 않도록 요구합니다. 이 문서에서는 통계적 평등의 정의, 계산 방법, 장단점, 실제 적용 사례 및 관련 공정성 기준과의 비교를 다룹니다.
---
## 정의와 수학적 표현
### 기본 개념
통계적 평등은 **모델이 예측한 긍정적 결과**(예: "대출 승인", "채용 추천")의 비율이 **다양한 그룹 간에 균등**해야 한다는 원칙을 의미합니다. 예를 들어, 남성과 여성 지원자에게 대출 승인을 예측할 때, 각 집단에서 승인된 비율이 유사해야 통계적 평등이 유지된 것으로 간주됩니다.
이 기준은 "**무조건적 공정성**"(unconditional fairness) 또는 "**동등한 기회 제공**"이라고도 불립니다.
### 수식적 정의
집단 \( A \)와 \( B \)가 있고, 모델의 예측 결과를 \( \hat{Y} \)라 할 때, 통계적 평등은 다음과 같이 표현됩니다:
\[
P(\hat{Y} = 1 \mid A) = P(\hat{Y} = 1 \mid B)
\]
여기서:
- \( \hat{Y} = 1 \): 긍정적 예측 (예: 승인됨)
- \( A, B \): 보호 속성에 따른 그룹 (예: 남성, 여성)
보다 일반적으로, 보호 속성 \( S \)에 대해 모든 \( s \) 값에서 다음이 성립해야 합니다:
\[
P(\hat{Y} = 1 \mid S = s) = P(\hat{Y} = 1)
\]
즉, 예측 결과는 보호 속성과 독립적이어야 합니다.
---
## 계산 및 평가 방법
### 1. 그룹별 긍정적 예측 비율 계산
각 그룹별로 모델이 "긍정적"으로 예측한 비율을 계산합니다. 예:
| 그룹 | 전체 샘플 수 | 긍정적 예측 수 | 긍정적 예측 비율 |
|------------|--------------|------------------|--------------------|
| 여성 | 1,000 | 400 | 40% |
| 남성 | 1,200 | 480 | 40% |
이 경우, 두 그룹의 긍정적 예측 비율이 동일하므로 통계적 평등이 유지됩니다.
### 2. 통계적 평등 비율 (Statistical Parity Ratio)
실제 분석에서는 **비율 차이**(difference) 대신 **비율**(ratio)을 사용하기도 합니다:
\[
\text{SP Ratio} = \frac{P(\hat{Y} = 1 \mid A)}{P(\hat{Y} = 1 \mid B)}
\]
일반적으로 이 비율이 **0.8 이상 1.25 이하**이면 "공정한 수준"으로 간주되기도 합니다 (예: 미국 고용기회균등위원회 EEOC 기준).
---
## 장점과 한계
### 장점
- **해석이 간단하고 직관적**: 결과의 분포만 비교하면 되므로 이해하기 쉬움.
- **규제 및 정책 적용에 적합**: 기업이나 정부 기관이 공정성 감사를 수행할 때 유용.
- **편향 감지에 효과적**: 특정 집단이 체계적으로 배제되는 현상을 쉽게 드러냄.
### 한계
1. **정확도와의 트레이드오프**: 실제 데이터에 불균형이 존재할 경우, 통계적 평등을 강제하면 모델의 정확도가 떨어질 수 있음.
2. **결과의 질 무시**: 단순히 긍정적 예측의 비율만 동일하게 맞추므로, 예측의 질(예: 실제 적합성)은 고려하지 않음.
3. **개인별 공정성 결여**: 집단 평균을 맞추지만, 개별 사례에 대한 공정성은 보장하지 않음.
4. **다른 공정성 기준과 충돌**: 예를 들어, **동등한 정확도**(Equalized Odds)와 동시에 만족하기 어려울 수 있음.
---
## 실제 적용 사례
- **금융 서비스**: 대출 심사 모델에서 소수 인종 집단에 대한 승인률이 낮을 경우, 통계적 평등 위반으로 간주될 수 있음.
- **채용 시스템**: AI 기반 채용 도구가 여성 지원자에게 낮은 추천률을 보일 경우, 통계적 평등 분석을 통해 편향을 확인.
- **의료 진단**: 특정 인종 그룹에서 질병 진단율이 낮을 경우, 알고리즘의 접근성 문제를 드러냄.
---
## 관련 공정성 기준과 비교
| 기준 | 설명 | 통계적 평등과의 차이점 |
|--------------------------|----------------------------------------------------------------------|------------------------|
| **Equalized Odds** | 진짜 양성률과 위양성률이 그룹 간에 동일해야 함 | 조건부 정확도 고려 |
| **Predictive Parity** | 양성 예측의 정확도(PPV)가 그룹 간 동일해야 함 | 예측의 신뢰도 강조 |
| **Demographic Parity** | 통계적 평등과 동의어로 사용되기도 함 | 동일 개념 |
> 📌 **참고**: 통계적 평등은 때때로 **Demographic Parity**와 동의어로 사용되며, 특히 미국의 AI 공정성 연구에서는 이 용어가 더 일반적입니다.
---
## 참고 자료 및 관련 문서
- [Barocas, S., Hardt, M., & Narayanan, A. (2019). *Fairness and Machine Learning*.](https://fairmlbook.org/)
- Hardt, M., Price, E., & Srebro, N. (2016). "Equality of Opportunity in Supervised Learning." *NeurIPS*.
- U.S. Equal Employment Opportunity Commission (EEOC) - Four-Fifths Rule
> 🔗 관련 문서: [공정성 기준](/wiki/공정성_기준), [AI 편향](/wiki/AI_편향), [공정한 기계학습](/wiki/공정한_기계학습)
---
통계적 평등은 인공지능의 공정성 평가를 위한 기초적이지만 핵심적인 지표입니다. 그러나 단독으로 사용하기보다는 다른 공정성 기준과 함께 종합적으로 고려되어야, 보다 균형 잡힌 AI 시스템을 설계할 수 있습니다.