Categorical Cross-Entropy

작성자

익명

작성일

2026.06.20

조회수

버전

Categorical Cross-Entropy 손실 함수 딥러닝 다중 클래스 분류 Softmax PyTorch TensorFlow 정보 이론

Categorical Cross-Entropy (범주형 교차 엔트로피)

개요

Categorical Cross-Entropy(범주형 교차 엔트로피)는 머신러닝, 특히 딥러닝 분야에서 다중 클래스 분류(Multi-class Classification) 문제의 손실 함수(Loss Function)로 널리 사용되는 지표입니다. 이 함수는 모델이 예측한 확률 분포와 실제 정답 레이블의 확률 분포 간의 차이를 측정하여, 모델의 예측이 얼마나 부정확한지를 수치화합니다.

교차 엔트로피(Cross-Entropy)는 정보 이론에서 유래한 개념으로, 두 확률 분포가 얼마나 다른지를 나타내는 평균적인 정보량(또는 부호화 길이)의 차이입니다. 머신러닝 관점에서는 모델의 출력값(예측 확률)과 실제 타겟값(원-핫 인코딩된 레이블) 사이의 거리를 최소화하는 방향으로 모델을 학습시키는 데 핵심적인 역할을 합니다.

수학적 정의

Categorical Cross-Entropy는 단일 샘플에 대해 다음과 같이 정의됩니다.

$$ L = -\sum_{i=1}^{C} y_i \log(\hat{y}_i) $$

여기서 각 변수의 의미는 다음과 같습니다:

$L$: 손실 값(Loss value)
$C$: 클래스의 총 개수
$y_i$: 실제 정답 레이블의 $i$번째 클래스에 대한 값 (원-핫 인코딩 기준, 정답 클래스는 1, 나머지는 0)
$\hat{y}_i$: 모델이 예측한 $i$번째 클래스의 확률 값 (0과 1 사이)
$\log$: 자연로그 (자연상수 $e$를 밑으로 하는 로그)

수식의 해석

정답 클래스에 대한 기여도: 실제 레이블 $y_i$가 1인 경우(정답 클래스), 해당 항은 $-\log(\hat{y}_i)$가 됩니다. 모델이 정답 클래스에 대해 높은 확률($\hat{y}_i \approx 1$)을 예측하면 $-\log(1) = 0$이 되어 손실이 최소화됩니다. 반면, 정답 클래스에 대해 낮은 확률을 예측하면 $-\log(\epsilon)$은 매우 큰 양수 값이 되어 큰 패널티를 줍니다.
오답 클래스에 대한 기여도: 실제 레이블 $y_i$가 0인 경우, 해당 항은 $0 \times \log(\hat{y}_i) = 0$이 되어 손실 계산에 영향을 주지 않습니다.
비선형성: 로그 함수의 특성상, 확률이 0에 가까워질수록 손실 값은 무한대로 발산합니다. 이는 모델이 확실히 틀린 예측을 했을 때 강력한 학습 신호를 제공하여 모델이 빠르게 수정되도록 돕습니다.

주요 특징 및 동작 원리

1. Softmax 활성화 함수와의 결합

Categorical Cross-Entropy는 일반적으로 신경망의 마지막 층에 Softmax 활성화 함수와 함께 사용됩니다. Softmax는 신경망의 최종 출력(logits)을 0과 1 사이의 확률 분포로 변환합니다. 이때, 모든 클래스의 확률 합은 1이 됩니다.

$$ \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}} $$

Softmax와 Categorical Cross-Entropy를 결합하여 사용하는 것은 수치적 안정성(Numerical Stability) 측면에서 매우 중요합니다. 개별적으로 계산할 때 발생할 수 있는 오버플로우(Overflow)나 언더플로우(Underflow) 문제를 방지하기 위해, 많은 딥러닝 프레임워크(TensorFlow, PyTorch 등)는 두 연산을 통합된 함수로 제공합니다.

2. 클래스 불균형 문제

기본적인 Categorical Cross-Entropy는 모든 클래스를 동등하게 취급합니다. 따라서 데이터셋에서 특정 클래스의 샘플 수가 매우 적을 경우(클래스 불균형), 모델은 다수 클래스에 치중된 예측을 하여 전체 손실을 낮출 수 있습니다. 이를 해결하기 위해 Weighted Cross-Entropy나 Focal Loss와 같은 변형된 손실 함수들이 사용되기도 합니다.

3. 이진 분류와의 차이점

Categorical Cross-Entropy는 3개 이상의 클래스가 있는 다중 분류 문제에 적합합니다. 반면, 이진 분류(Binary Classification) 문제(예: 스팸 여부, 양성/음성)에는 Binary Cross-Entropy가 사용됩니다. 이진 분류에서는 출력층에 시그모이드(Sigmoid) 함수를 사용하고, 손실 함수도 이진 교차 엔트로피를 적용하는 것이 표준적입니다.

구현 예시

Python의 주요 딥러닝 프레임워크에서 Categorical Cross-Entropy를 구현하는 방법은 다음과 같습니다.

PyTorch 예시

PyTorch에서는 nn.CrossEntropyLoss를 사용합니다. 이 함수는 Softmax와 NLLLoss(Negative Log Likelihood Loss)를 내부적으로 결합합니다. 따라서 입력으로 원-핫 인코딩된 레이블이 아닌, 클래스 인덱스(int)를 직접 전달해야 합니다.

import torch
import torch.nn as nn

# 모델의 예측 출력 (Logits): 배치 크기 3, 클래스 수 3
predictions = torch.tensor([[0.1, 0.2, 0.7],  # 클래스 2가 정답일 확률이 높음
                            [0.8, 0.1, 0.1],  # 클래스 0이 정답일 확률이 높음
                            [0.3, 0.4, 0.3]]) # 클래스 1이 정답일 확률이 높음

# 실제 정답 레이블 (클래스 인덱스): 0, 1, 2 중 하나
targets = torch.tensor([2, 0, 1])

# 손실 함수 정의 (reduction='mean'은 배치 평균 손실 계산)
criterion = nn.CrossEntropyLoss()

# 손실 계산
loss = criterion(predictions, targets)
print(f"Loss: {loss.item()}")

TensorFlow/Keras 예시

TensorFlow/Keras에서는 tf.keras.losses.CategoricalCrossentropy를 사용합니다. 이 경우 입력 레이블은 원-핫 인코딩된 형태여야 합니다.

import tensorflow as tf

# 모델의 예측 출력 (확률 분포): 배치 크기 3, 클래스 수 3
predictions = tf.constant([[0.1, 0.2, 0.7],
                           [0.8, 0.1, 0.1],
                           [0.3, 0.4, 0.3]])

# 실제 정답 레이블 (원-핫 인코딩): 정답 클래스에 1, 나머지는 0
targets = tf.constant([[0, 0, 1],  # 클래스 2
                       [1, 0, 0],  # 클래스 0
                       [0, 1, 0]]) # 클래스 1

# 손실 함수 정의
criterion = tf.keras.losses.CategoricalCrossentropy()

# 손실 계산
loss = criterion(targets, predictions)
print(f"Loss: {loss.numpy()}")

관련 개념 및 참고 자료

Binary Cross-Entropy: 이진 분류 문제용 손실 함수.
Sparse Categorical Cross-Entropy: Categorical Cross-Entropy의 변형으로, 레이블을 원-핫 인코딩 대신 정수 인덱스로 입력받을 때 사용됩니다. 메모리 효율성이 높아 대규모 데이터셋에서 자주 사용됩니다.
Softmax Function: 신경망의 출력을 확률로 변환하는 함수.
Information Theory: 교차 엔트로피의 수학적 기초가 되는 정보 이론.

Categorical Cross-Entropy는 이미지 분류, 자연어 처리의 태깅, 음성 인식 등 다양한 다중 클래스 분류任务的 표준 손실 함수로 자리 잡고 있습니다. 모델의 수렴 속도와 최종 성능에 직접적인 영향을 미치므로, 문제의 특성에 맞게 올바르게 선택하고 구현하는 것이 중요합니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# Categorical Cross-Entropy (범주형 교차 엔트로피)

## 개요

**Categorical Cross-Entropy**(범주형 교차 엔트로피)는 머신러닝, 특히 딥러닝 분야에서 다중 클래스 분류(Multi-class Classification) 문제의 손실 함수(Loss Function)로 널리 사용되는 지표입니다. 이 함수는 모델이 예측한 확률 분포와 실제 정답 레이블의 확률 분포 간의 차이를 측정하여, 모델의 예측이 얼마나 부정확한지를 수치화합니다.

교차 엔트로피(Cross-Entropy)는 정보 이론에서 유래한 개념으로, 두 확률 분포가 얼마나 다른지를 나타내는 평균적인 정보량(또는 부호화 길이)의 차이입니다. 머신러닝 관점에서는 모델의 출력값(예측 확률)과 실제 타겟값(원-핫 인코딩된 레이블) 사이의 거리를 최소화하는 방향으로 모델을 학습시키는 데 핵심적인 역할을 합니다.

## 수학적 정의

Categorical Cross-Entropy는 단일 샘플에 대해 다음과 같이 정의됩니다.

$$
L = -\sum_{i=1}^{C} y_i \log(\hat{y}_i)
$$

여기서 각 변수의 의미는 다음과 같습니다:

*   $L$: 손실 값(Loss value)
*   $C$: 클래스의 총 개수
*   $y_i$: 실제 정답 레이블의 $i$번째 클래스에 대한 값 (원-핫 인코딩 기준, 정답 클래스는 1, 나머지는 0)
*   $\hat{y}_i$: 모델이 예측한 $i$번째 클래스의 확률 값 (0과 1 사이)
*   $\log$: 자연로그 (자연상수 $e$를 밑으로 하는 로그)

### 수식의 해석

1.  **정답 클래스에 대한 기여도**: 실제 레이블 $y_i$가 1인 경우(정답 클래스), 해당 항은 $-\log(\hat{y}_i)$가 됩니다. 모델이 정답 클래스에 대해 높은 확률($\hat{y}_i \approx 1$)을 예측하면 $-\log(1) = 0$이 되어 손실이 최소화됩니다. 반면, 정답 클래스에 대해 낮은 확률을 예측하면 $-\log(\epsilon)$은 매우 큰 양수 값이 되어 큰 패널티를 줍니다.
2.  **오답 클래스에 대한 기여도**: 실제 레이블 $y_i$가 0인 경우, 해당 항은 $0 \times \log(\hat{y}_i) = 0$이 되어 손실 계산에 영향을 주지 않습니다.
3.  **비선형성**: 로그 함수의 특성상, 확률이 0에 가까워질수록 손실 값은 무한대로 발산합니다. 이는 모델이 확실히 틀린 예측을 했을 때 강력한 학습 신호를 제공하여 모델이 빠르게 수정되도록 돕습니다.

## 주요 특징 및 동작 원리

### 1. Softmax 활성화 함수와의 결합
Categorical Cross-Entropy는 일반적으로 신경망의 마지막 층에 **Softmax** 활성화 함수와 함께 사용됩니다. Softmax는 신경망의 최종 출력(logits)을 0과 1 사이의 확률 분포로 변환합니다. 이때, 모든 클래스의 확률 합은 1이 됩니다.

$$
\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}
$$

Softmax와 Categorical Cross-Entropy를 결합하여 사용하는 것은 수치적 안정성(Numerical Stability) 측면에서 매우 중요합니다. 개별적으로 계산할 때 발생할 수 있는 오버플로우(Overflow)나 언더플로우(Underflow) 문제를 방지하기 위해, 많은 딥러닝 프레임워크(TensorFlow, PyTorch 등)는 두 연산을 통합된 함수로 제공합니다.

### 2. 클래스 불균형 문제
기본적인 Categorical Cross-Entropy는 모든 클래스를 동등하게 취급합니다. 따라서 데이터셋에서 특정 클래스의 샘플 수가 매우 적을 경우(클래스 불균형), 모델은 다수 클래스에 치중된 예측을 하여 전체 손실을 낮출 수 있습니다. 이를 해결하기 위해 **Weighted Cross-Entropy**나 **Focal Loss**와 같은 변형된 손실 함수들이 사용되기도 합니다.

### 3. 이진 분류와의 차이점
Categorical Cross-Entropy는 **3개 이상의 클래스**가 있는 다중 분류 문제에 적합합니다. 반면, **이진 분류(Binary Classification)** 문제(예: 스팸 여부, 양성/음성)에는 **Binary Cross-Entropy**가 사용됩니다. 이진 분류에서는 출력층에 시그모이드(Sigmoid) 함수를 사용하고, 손실 함수도 이진 교차 엔트로피를 적용하는 것이 표준적입니다.

## 구현 예시

Python의 주요 딥러닝 프레임워크에서 Categorical Cross-Entropy를 구현하는 방법은 다음과 같습니다.

### PyTorch 예시

PyTorch에서는 `nn.CrossEntropyLoss`를 사용합니다. 이 함수는 Softmax와 NLLLoss(Negative Log Likelihood Loss)를 내부적으로 결합합니다. 따라서 입력으로 원-핫 인코딩된 레이블이 아닌, 클래스 인덱스(int)를 직접 전달해야 합니다.

```python
import torch
import torch.nn as nn

# 모델의 예측 출력 (Logits): 배치 크기 3, 클래스 수 3
predictions = torch.tensor([[0.1, 0.2, 0.7],  # 클래스 2가 정답일 확률이 높음
                            [0.8, 0.1, 0.1],  # 클래스 0이 정답일 확률이 높음
                            [0.3, 0.4, 0.3]]) # 클래스 1이 정답일 확률이 높음

# 실제 정답 레이블 (클래스 인덱스): 0, 1, 2 중 하나
targets = torch.tensor([2, 0, 1])

# 손실 함수 정의 (reduction='mean'은 배치 평균 손실 계산)
criterion = nn.CrossEntropyLoss()

# 손실 계산
loss = criterion(predictions, targets)
print(f"Loss: {loss.item()}")
```

### TensorFlow/Keras 예시

TensorFlow/Keras에서는 `tf.keras.losses.CategoricalCrossentropy`를 사용합니다. 이 경우 입력 레이블은 원-핫 인코딩된 형태여야 합니다.

```python
import tensorflow as tf

# 모델의 예측 출력 (확률 분포): 배치 크기 3, 클래스 수 3
predictions = tf.constant([[0.1, 0.2, 0.7],
                           [0.8, 0.1, 0.1],
                           [0.3, 0.4, 0.3]])

# 실제 정답 레이블 (원-핫 인코딩): 정답 클래스에 1, 나머지는 0
targets = tf.constant([[0, 0, 1],  # 클래스 2
                       [1, 0, 0],  # 클래스 0
                       [0, 1, 0]]) # 클래스 1

# 손실 함수 정의
criterion = tf.keras.losses.CategoricalCrossentropy()

# 손실 계산
loss = criterion(targets, predictions)
print(f"Loss: {loss.numpy()}")
```

## 관련 개념 및 참고 자료

*   **Binary Cross-Entropy**: 이진 분류 문제용 손실 함수.
*   **Sparse Categorical Cross-Entropy**: Categorical Cross-Entropy의 변형으로, 레이블을 원-핫 인코딩 대신 정수 인덱스로 입력받을 때 사용됩니다. 메모리 효율성이 높아 대규모 데이터셋에서 자주 사용됩니다.
*   **Softmax Function**: 신경망의 출력을 확률로 변환하는 함수.
*   **Information Theory**: 교차 엔트로피의 수학적 기초가 되는 정보 이론.

Categorical Cross-Entropy는 이미지 분류, 자연어 처리의 태깅, 음성 인식 등 다양한 다중 클래스 분류任务的 표준 손실 함수로 자리 잡고 있습니다. 모델의 수렴 속도와 최종 성능에 직접적인 영향을 미치므로, 문제의 특성에 맞게 올바르게 선택하고 구현하는 것이 중요합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen/qwen3.6-35b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나