BART
BART
요
BART(Bidirectional and Autogressive Transformer)는 자연어처리LP) 분야에서 널리되는 사전 훈련된 언어 모델 중 하나로, 2019년 페이스 AI 리서치(Facebook AI Research FAIR)에서 제안. BART는 기존의 BERT와 GPT의 장점을 결합한 하이브리드 구조를 특징으로 하며, 다양한 자연어 생성 및 이해 과제에서 뛰어난 성능을 보입니다. 특히 문서 요약, 기계 번역, 질문 응답, 텍스트 생성 등 복잡한 NLP 태스크에서 강력한 결과를 제공합니다.
BART는 이상치 복원(Denoising) 기반의 사전 훈련 방식을 사용하며, 입력 텍스트에 다양한 형태의 노이즈를 추가한 후 이를 원래 형태로 복원하도록 모델을 학습시킵니다. 이 방식은 텍스트의 구조적 이해를 강화하며, 생성 과제에 매우 적합한 구조를 만듭니다.
아키텍처 및 동작 원리
인코더-디코더 구조
BART는 Transformer 기반의 인코더-디코더 아키텍처를 사용합니다. 이는 다음의 특징을 가집니다:
- 인코더(Encoder): 양방향(self-attention) 구조로, 입력 시퀀스 전체를 동시에 참조하여 문맥 정보를 포착합니다. 이는 BERT와 유사한 구조입니다.
- 디코더(Decoder): 단방향(autoregressive) 구조로, 이전 토큰만을 참조하며 다음 토큰을 예측합니다. 이는 GPT와 유사한 생성 방식입니다.
이러한 조합은 입력 텍스트를 깊이 이해하면서도 자연스러운 텍스트를 생성할 수 있도록 합니다.
사전 훈련 방식: Denoising Autoencoder
BART는 입력 텍스트에 인위적으로 노이즈 주입한 후, 원본 텍스트를 복원하는 방식으로 훈련됩니다. 주요 노이즈 유형은 다음과 같습니다:
- 문장 스크램블링(Sentence Permutation): 문장의 순서를 무작위로 섞음
- 문자 삭제(Token Deletion): 임의의 토큰을 제거
- 문자 마스킹(Text Infilling): 연속된 토큰을 하나의 마스킹 토큰으로 대체 (예: 여러 단어 →
[MASK]) - 문자 교환(Token Shuffling): 토큰의 순서를 부분적으로 변경
이러한 방식은 모델이 문장의 구조적 흐름과 의미를 보다 정교하게 파악하도록 유도합니다.
주요 특징
1. 다목적 활용성
BART는 생성(Generation)과 분류(Classification) 모두에 강점을 가집니다. 예를 들어:
이는 BERT가 주로 분류에 특화된 반면, BART는 생성과 분류를 모두 잘 수행한다는 점에서 차별화됩니다.
2. 효율적인 Fine-tuning
BART는 사전 훈련된 모델을 기반으로 다양한 downstream task에 대해 fine-tuning이 가능합니다. 예를 들어, 요약 task에서는 입력 문서를 인코더에 넣고, 디코더가 요약문을 생성하도록 학습시킵니다.
3. 다양한 버전 및 변형
BART는 다음과 같은 다양한 규모와 변형으로 제공됩니다:
| 모델 이름 | 파라미터 수 | 설명 |
|---|---|---|
| BART-base | ~1.4억 | 기본 버전, 중간 규모 |
| BART-large | ~4억 | 더 큰 모델, 높은 성능 |
| BART-phoenix | - | 멀티모달 확장 버전 |
| mBART | - | 다국어 버전 (50+ 언어 지원) |
특히 mBART(multilingual BART)는 다국어 텍스트 생성에 특화되어 있으며, 다양한 언어 간 번역 및 생성 task에서 효과적입니다.
주요 응용 분야
1. 문서 요약
BART는 CNN/Daily Mail 및 XSum과 같은 요약 벤치마크에서 SOTA(SoTA, State-of-the-Art) 성능을 기록했습니다. 입력 기사의 핵심 정보를 정확히 추출하고 자연스러운 요약문을 생성합니다.
2. 기계 번역
특히 역방향 번역(Back-translation)에서 효과적입니다. BART는 영어로 번역된 문장을 다시 원본 언어로 생성함으로써 데이터 증강에 활용됩니다.
3. 질문 응답 및 추론
SQuAD, RACE 등의 벤치마크에서 높은 정확도를 보이며, 복잡한 추론 과제에서도 강한 성능을 발휘합니다.
4. 텍스트 생성 보조
Chatbot, 콘텐츠 생성, 코드 설명 생성 등 다양한 생성형 애플리케이션에서 BART 기반 모델이 활용됩니다.
성능 및 평가
BART는 GLUE, SuperGLUE, SQuAD, XSum 등 주요 NLP 벤치마크에서 뛰어난 성능을 보였습니다. 특히, 요약 task에서 ROUGE 점수가 기존 모델 대비 크게 향상되었습니다.
예시 (CNN/Daily Mail 요약, ROUGE-2 기준): - BART-large: 20.1 - BERT-based 모델: ~15.0 - GPT-2: ~10.5
이는 BART가 생성 품질과 의미 보존 능력에서 우수함을 보여줍니다.
관련 모델 및 발전
- T5(Text-to-Text Transfer Transformer): 모든 NLP task를 텍스트 생성 문제로 통합한 모델로, BART와 유사한 denoising 접근법 사용
- Pegasus: 요약에 특화된 denoising 모델
- UniLM: 마스킹 방식을 통해 양방향/단방향 학습을 통합한 모델
BART는 이러한 모델들과 함께 denoising 기반 사전 훈련의 대표적인 사례로 꼽히며, 생성형 모델의 발전에 기여했습니다.
참고 자료
- Lewis, M., Liu, Y., Goyal, N., et al. (2019). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. arXiv:1910.13461.
- Hugging Face Transformers 라이브러리: BART 공식 구현
- mBART 문서: Multilingual BART
BART는 자연어 생성과 이해를 통합한 강력한 프레임워크로서, 현대 NLP 시스템의 핵심 구성 요소 중 하나입니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.