T5

작성자

익명

작성일

2025.09.30

조회수

버전

T5: Text-to-Text Transfer Transformer

개요

T5(Text-to-Text Transformer)는 구글(Google) 연구팀이 2019년에 발표한 자연어(NLP) 모델로, 다양한어 이해 및 생성을 문자 그 하나의 통일된 프레임크로 처리할 수 있도록계된 대규모 트랜스포머 기반 모델. T5는모든 자연어처리 작업은스트를 입력받아 텍스트를하는 문제로 변환할 수 있다"는 철학을 기반 하며, 이를 Text-to-Text 프임워크라고 부릅니다.

이 모델은 머신 트랜스레이션, 질의 응답, 감성 분석, 텍스트 요약, 문장 분류,역 등 거의 모든 NLP 작업에 적용 가능하며, 특히 요약(summarization) 작업에서 뛰어난 성능을 발휘하여리 사용되고 있습니다.

핵심 개념

Text-to-Text 프레임워크

T5의 가장 중요한 혁신은 NLP 작업을 입력 텍스트 → 출력 텍스트의 형식으로 통일했다는 점입니다. 예를 들어:

작업 유형	입력 예시	출력 예시
요약	`summarize: 머신러닝은 인공지능의 한 분야이다...`	`머신러닝은 데이터에서 패턴을 학습하는 기술이다.`
번역	`translate English to German: How are you?`	`Wie geht es dir?`
감성 분석	`sentiment: I love this movie!`	`positive`
질의 응답	`question: Who wrote Hamlet? context: Shakespeare wrote many plays.`	`Shakespeare`

이처럼 작업의 종류에 따라 입력 앞에 태스크 프롬프트(task prefix)를 붙여 모델이 어떤 작업을 수행해야 하는지 명시합니다.

모델 구조

T5는 인코더-디코더 구조를 가진 트랜스포머 아키텍처를 기반으로 하며, 다음과 같은 특징을 가집니다:

인코더(Encoder): 입력 텍스트를 인코딩하여 의미 정보를 추출합니다.
디코더(Decoder): 인코더의 출력을 바탕으로 토큰 단위로 출력 텍스트를 생성합니다.
자기 주의 메커니즘(Self-Attention): 입력 및 출력 시퀀스 내에서 중요한 단어 간의 관계를 파악합니다.
비마스킹된 주의(Causal Attention): 디코더에서는 이전 토큰만을 참고하여 다음 토큰을 생성합니다.

T5는 BERT와 달리 오토리그레시브 생성 모델(Autoregressive Model)이므로, 요약이나 번역과 같은 생성 작업에 최적화되어 있습니다.

T5의 변종

T5는 다양한 크기의 모델로 제공되며, 성능과 리소스 소비 간의 균형을 조정할 수 있습니다. 주요 변종은 다음과 같습니다:

모델 이름	파라미터 수	설명
`[t5-small](/doc/%EA%B8%B0%EC%88%A0/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC/%EB%8C%80%ED%98%95%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8/t5-small)`	60M	실험 및 가벼운 애플리케이션용
`[t5-base](/doc/%EA%B8%B0%EC%88%A0/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC/%EB%8C%80%ED%98%95%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8/t5-base)`	220M	중간 규모, 벤치마크 테스트에 적합
`[t5-large](/doc/%EA%B8%B0%EC%88%A0/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC/%EB%8C%80%ED%98%95%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8/t5-large)`	770M	성능과 크기의 균형
`[t5-3b](/doc/%EA%B8%B0%EC%88%A0/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC/%EB%8C%80%ED%98%95%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8/t5-3b)`	3B	대규모 모델, 고성능 요구 시
`[t5-11b](/doc/%EA%B8%B0%EC%88%A0/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC/%EB%8C%80%ED%98%95%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8/t5-11b)`	11B	최대 규모, SOTA 성능 제공

💡 11B 모델은 수천 개의 TPU에서 학습되었으며, 여러 NLP 벤치마크에서 당시 최고 성능을 기록했습니다.

학습 방식

T5는 대규모 텍스트 데이터를 사용하여 사전 학습되며, 주요 학습 전략은 다음과 같습니다:

1. Corrupted Span Masking

입력 문장에서 일부 텍스트를 제거하고, 대신 <extra_id_0>, <extra_id_1> 등의 특수 토큰으로 대체합니다.
모델은 이 토큰이 원래 무엇이었는지를 예측하도록 학습됩니다.
예:
입력: The <extra_id_0> jumped over the <extra_id_1>.
출력: <extra_id_0> cat <extra_id_1> fence <extra_id_2>

이 방식은 BERT의 MLM(Masked Language Modeling)보다 더 복잡한 구조를 가지며, 생성 능력을 향상시킵니다.

2. 다양한 데이터 소스

T5는 C4(Colossal Clean Crawled Corpus)라는 수억 개의 웹 페이지에서 정제된 데이터를 사용하여 학습됩니다.
C4는 HTML 태그를 제거하고, 중복 콘텐츠를 필터링한 대규모 영문 코퍼스입니다.

요약 작업에서의 T5 활용

T5는 문서 요약(abstractive summarization)에 매우 효과적인 모델로 평가됩니다. 기존의 추출 기반 요약과 달리, T5는 새로운 문장을 생성하여 핵심 정보를 자연스럽게 요약할 수 있습니다.

사용 예시 (Hugging Face Transformers 활용)

from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = "t5-base"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

text = "Natural language processing is a subfield of artificial intelligence. It enables computers to understand human language."
input_text = f"summarize: {text}"

inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
outputs = model.generate(inputs["input_ids"], max_length=150, min_length=30, length_penalty=2.0, num_beams=4)

summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)  # 출력: "Natural language processing enables computers to understand human language."

성능 및 평가

T5는 GLUE, SuperGLUE, SQuAD, CNN/DailyMail 요약 벤치마크 등에서 뛰어난 성능을 보였으며, 특히 다음과 같은 특징이 있습니다:

전이 학습(Transfer Learning)에 강함: 사전 학습된 모델을 미세 조정(fine-tuning)하여 다양한 작업에 적용 가능.
프롬프트 기반 제어: 태스크를 명확히 지정하면 모델이 그에 맞는 출력을 생성.
생성 품질: 자연스럽고 문법적으로 올바른 요약 생성.

참고 자료 및 관련 문서

결론

T5는 자연어처리 분야에서 통합적 접근 방식의 대표적인 사례로, 다양한 NLP 작업을 하나의 모델 아키텍처로 처리할 수 있게 해주었습니다. 특히 요약 모델로서의 활용도가 높으며, 오픈소스로 제공되어 연구 및 산업계에서 광범위하게 사용되고 있습니다. 모델의 크기 조절이 가능하고, 프롬프트 기반 입력을 통해 유연한 제어가 가능하다는 점에서, 현대 NLP 파이프라인에서 중요한 위치를 차지하고 있습니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# T5: Text-to-Text Transfer Transformer

## 개요

**T5**(Text-to-Text Transformer)는 구글(Google) 연구팀이 2019년에 발표한 자연어(NLP) 모델로, 다양한어 이해 및 생성을 **문자 그 하나의 통일된 프레임크**로 처리할 수 있도록계된 대규모 트랜스포머 기반 모델. T5는모든 자연어처리 작업은스트를 입력받아 텍스트를하는 문제로 변환할 수 있다"는 철학을 기반 하며, 이를 **Text-to-Text 프임워크**라고 부릅니다.

이 모델은 머신 트랜스레이션, 질의 응답, 감성 분석, 텍스트 요약, 문장 분류,역 등 거의 모든 NLP 작업에 적용 가능하며, 특히 **요약**(summarization) 작업에서 뛰어난 성능을 발휘하여리 사용되고 있습니다.

---

## 핵심 개념

### Text-to-Text 프레임워크

T5의 가장 중요한 혁신은 NLP 작업을 **입력 텍스트 → 출력 텍스트**의 형식으로 통일했다는 점입니다. 예를 들어:

| 작업 유형 | 입력 예시 | 출력 예시 |
|----------|---------|---------|
| 요약 | `summarize: 머신러닝은 인공지능의 한 분야이다...` | `머신러닝은 데이터에서 패턴을 학습하는 기술이다.` |
| 번역 | `translate English to German: How are you?` | `Wie geht es dir?` |
| 감성 분석 | `sentiment: I love this movie!` | `positive` |
| 질의 응답 | `question: Who wrote Hamlet? context: Shakespeare wrote many plays.` | `Shakespeare` |

이처럼 작업의 종류에 따라 입력 앞에 **태스크 프롬프트**(task prefix)를 붙여 모델이 어떤 작업을 수행해야 하는지 명시합니다.

---

### 모델 구조

T5는 **인코더-디코더 구조**를 가진 트랜스포머 아키텍처를 기반으로 하며, 다음과 같은 특징을 가집니다:

- **인코더**(Encoder): 입력 텍스트를 인코딩하여 의미 정보를 추출합니다.
- **디코더**(Decoder): 인코더의 출력을 바탕으로 토큰 단위로 출력 텍스트를 생성합니다.
- **자기 주의 메커니즘**(Self-Attention): 입력 및 출력 시퀀스 내에서 중요한 단어 간의 관계를 파악합니다.
- **비마스킹된 주의**(Causal Attention): 디코더에서는 이전 토큰만을 참고하여 다음 토큰을 생성합니다.

T5는 BERT와 달리 **오토리그레시브 생성 모델**(Autoregressive Model)이므로, 요약이나 번역과 같은 생성 작업에 최적화되어 있습니다.

---

## T5의 변종

T5는 다양한 크기의 모델로 제공되며, 성능과 리소스 소비 간의 균형을 조정할 수 있습니다. 주요 변종은 다음과 같습니다:

| 모델 이름 | 파라미터 수 | 설명 |
|----------|-------------|------|
| `t5-small` | 60M | 실험 및 가벼운 애플리케이션용 |
| `t5-base` | 220M | 중간 규모, 벤치마크 테스트에 적합 |
| `t5-large` | 770M | 성능과 크기의 균형 |
| `t5-3b` | 3B | 대규모 모델, 고성능 요구 시 |
| `t5-11b` | 11B | 최대 규모, SOTA 성능 제공 |

> 💡 `11B` 모델은 수천 개의 TPU에서 학습되었으며, 여러 NLP 벤치마크에서 당시 최고 성능을 기록했습니다.

---

## 학습 방식

T5는 **대규모 텍스트 데이터**를 사용하여 사전 학습되며, 주요 학습 전략은 다음과 같습니다:

### 1. **Corrupted Span Masking**
- 입력 문장에서 일부 텍스트를 제거하고, 대신 `<extra_id_0>`, `<extra_id_1>` 등의 특수 토큰으로 대체합니다.
- 모델은 이 토큰이 원래 무엇이었는지를 예측하도록 학습됩니다.
- 예:  
  입력: `The <extra_id_0> jumped over the <extra_id_1>.`  
  출력: `<extra_id_0> cat <extra_id_1> fence <extra_id_2>`

이 방식은 BERT의 MLM(Masked Language Modeling)보다 더 복잡한 구조를 가지며, 생성 능력을 향상시킵니다.

### 2. **다양한 데이터 소스**
- T5는 C4(Colossal Clean Crawled Corpus)라는 수억 개의 웹 페이지에서 정제된 데이터를 사용하여 학습됩니다.
- C4는 HTML 태그를 제거하고, 중복 콘텐츠를 필터링한 대규모 영문 코퍼스입니다.

---

## 요약 작업에서의 T5 활용

T5는 **문서 요약**(abstractive summarization)에 매우 효과적인 모델로 평가됩니다. 기존의 추출 기반 요약과 달리, T5는 새로운 문장을 생성하여 핵심 정보를 자연스럽게 요약할 수 있습니다.

### 사용 예시 (Hugging Face Transformers 활용)

```python
from transformers import T5Tokenizer, T5ForConditionalGeneration

model_name = "t5-base"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

text = "Natural language processing is a subfield of artificial intelligence. It enables computers to understand human language."
input_text = f"summarize: {text}"

inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
outputs = model.generate(inputs["input_ids"], max_length=150, min_length=30, length_penalty=2.0, num_beams=4)

summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)  # 출력: "Natural language processing enables computers to understand human language."
```

---

## 성능 및 평가

T5는 GLUE, SuperGLUE, SQuAD, CNN/DailyMail 요약 벤치마크 등에서 뛰어난 성능을 보였으며, 특히 다음과 같은 특징이 있습니다:

- **전이 학습**(Transfer Learning)에 강함: 사전 학습된 모델을 미세 조정(fine-tuning)하여 다양한 작업에 적용 가능.
- **프롬프트 기반 제어**: 태스크를 명확히 지정하면 모델이 그에 맞는 출력을 생성.
- **생성 품질**: 자연스럽고 문법적으로 올바른 요약 생성.

---

## 참고 자료 및 관련 문서

- [T5 논문: "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"](https://arxiv.org/abs/1910.10683)
- [Hugging Face T5 문서](https://huggingface.co/docs/transformers/model_doc/t5)
- [Google AI Blog - Introducing T5](https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html)
- [C4 데이터셋 설명](https://www.tensorflow.org/datasets/catalog/c4)

---

## 결론

T5는 자연어처리 분야에서 **통합적 접근 방식**의 대표적인 사례로, 다양한 NLP 작업을 하나의 모델 아키텍처로 처리할 수 있게 해주었습니다. 특히 **요약 모델**로서의 활용도가 높으며, 오픈소스로 제공되어 연구 및 산업계에서 광범위하게 사용되고 있습니다. 모델의 크기 조절이 가능하고, 프롬프트 기반 입력을 통해 유연한 제어가 가능하다는 점에서, 현대 NLP 파이프라인에서 중요한 위치를 차지하고 있습니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

T5