CNN/Daily Mail
CNN/Daily Mail
개요
CNN/Daily Mail(줄여서 C/D M)은 자연어 처리(NLP) 분야에서 추상적 요약(abstractive summarization) 및 추출적 요약(extractive summarization) 모델을 평가하기 위해 널리 사용되는 대규모 벤치마크 데이터셋이다. 2015년 Harvard NLP 연구팀이 공개했으며, 영문 뉴스 기사와 해당 기사에 대한 핵심 요약(“highlights”)을 쌍(pair)으로 제공한다. 현재까지도 Transformer 기반 모델, Pre‑trained Language Model(예: BERT, GPT, T5) 등 최신 요약 모델의 성능을 비교·검증하는 표준 테스트베드로 활용되고 있다.
1. 데이터셋 구성
| 구분 | 설명 | 규모(문서 수) | 평균 길이(단어) |
|---|---|---|---|
| 기사 (article) | CNN·Daily Mail에서 발행된 원문 뉴스 기사 | 287,226 (CNN) + 219,506 (Daily Mail) ≈ 506,732 | 779 |
| 핵심 요약 (highlights) | 기사에서 편집자가 직접 선정한 3~4개의 요약 문장 | 동일 | 56 |
| 훈련/검증/테스트 비율 | 90 %/5 %/5 % (일반적으로 287 k/13 k/13 k) | — | — |
- 기사는 본문 전체를 포함하며, 문단 구분이 유지된다.
- 핵심 요약은 원문에 삽입된 “highlights” 섹션이며, 모델이 생성해야 할 목표 텍스트이다.
- 데이터는 HTML 태그와 특수 문자가 제거된 순수 텍스트 형태로 제공된다.
1.1 전처리 과정
- HTML/스크립트 제거 – BeautifulSoup 등으로 마크업을 정리.
- 문장 토큰화 –
NLTK,[spaCy](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/spaCy)등으로 문장을 구분. - 단어 토큰화 – BPE(Byte‑Pair Encoding) 혹은 WordPiece와 같은 서브워드 토크나이저 적용.
- 특수 토큰 삽입 –
<s>(시작),</s>(끝) 등 모델이 요구하는 포맷에 맞춤.
주의: 원본 데이터는 저작권 이슈가 있어 비상업적 연구 목적에 한해 사용이 권장된다.
2. 평가 지표
| 지표 | 설명 | 계산 방식 |
|---|---|---|
| ROUGE‑1 | 1‑gram(단어) 일치율 | 정답 요약과 생성 요약 간의 단어 겹침 비율 |
| ROUGE‑2 | 2‑gram(두 단어 연속) 일치율 | 동일하지만 2‑gram 기준 |
| ROUGE‑L | 최장 공통 부분 수열(Longest Common Subsequence) | 순서 보존을 고려한 일치율 |
| BLEU (보조) | n‑gram 정밀도 기반 | 주로 번역 평가에 사용되지만 보조 지표로 활용 |
- ROUGE는 요약 품질을 정량화하는 가장 일반적인 지표이며, R(Recall), P(Precision), F1(조화 평균) 세 가지 형태로 보고한다.
- 최신 연구에서는 BERTScore, MoverScore 등 의미 기반 지표를 추가로 보고하기도 한다.
3. 주요 모델 및 성능
| 모델 | 연도 | 주요 특징 | ROUGE‑1 | ROUGE‑2 | ROUGE‑L |
|---|---|---|---|---|---|
| Pointer‑Generator Network | 2017 | 복사 메커니즘 + coverage penalty | 36.44 | 15.66 | 33.42 |
| Transformer‑Abs | 2018 | 순수 Transformer 기반 추상적 요약 | 38.0 | 16.5 | 34.5 |
| BERTSUMEXT | 2019 | BERT 기반 추출 요약 | 41.2 | 18.9 | 38.5 |
| PEGASUS | 2020 | 대규모 사전학습(Pre‑training) + Gap‑Sentences Generation | 44.2 | 21.6 | 41.0 |
| T5‑Large | 2020 | Text‑to‑Text 프레임워크, 다양한 태스크 통합 | 45.0 | 22.2 | 41.5 |
| ChatGPT‑3.5 | 2023 | 대화형 LLM, Few‑shot 프롬프트 활용 | 46.3 | 23.1 | 42.8 |
| GPT‑4 | 2024 | 멀티모달 및 체인‑오브‑생각(Chain‑of‑Thought) 적용 | 48.5 | 24.9 | 44.2 |
※ 성능은 동일한 전처리·평가 파이프라인을 가정했을 때의 평균값이며, 논문마다 약간씩 차이가 있다.
3.1 모델 구현 예시 (Python, HuggingFace)
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "t5-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
def summarize(article: str, max_len=150):
inputs = tokenizer.encode(
"summarize: " + article, return_tensors="pt", truncation=True, max_length=512
)
summary_ids = model.generate(
inputs,
max_length=max_len,
num_beams=4,
early_stopping=True,
)
return tokenizer.decode(summary_ids[0], skip_special_tokens=True)
# 예시 사용
# print(summarize(open("sample_article.txt").read()))
4. 연구·산업에 미친 영향
- 표준화 – C/D M은 요약 모델 성능을 비교할 수 있는 가장 대표적인 “베이스라인” 역할을 한다.
- 모델 설계 동향 – 복사 메커니즘, coverage penalty, 사전학습(Pre‑training) 등 여러 혁신이 이 데이터셋을 통해 검증되었다.
- 실제 서비스 적용 – 뉴스 요약, 이메일 요약, 문서 자동 요약 등 다양한 상업 서비스가 C/D M 기반 모델을 기반으로 구현되고 있다.
- 비판과 한계
- 도메인 편향: 영문 뉴스 기사에 국한돼 다른 언어·도메인(예: 과학 논문, 법률 문서)에는 일반화가 어려움.
- 요약 길이 제한: “highlights”는 짧은 문장 3~4개로 구성돼, 긴 문서에 대한 요약 능력을 충분히 평가하지 못한다.
- 인간 평가 부재: ROUGE는 표면적인 n‑gram 일치를 측정하므로 의미적 정확성·일관성을 완전히 반영하지 않는다.
5. 활용 가이드
| 단계 | 내용 | 권장 도구 |
|---|---|---|
| 데이터 다운로드 | https://github.com/abisee/cnn-dailymail 또는 HuggingFace datasets |
[datasets.load_dataset](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/datasets.load_dataset)("cnn_dailymail", "3.0.0") |
| 전처리 | HTML 제거 → 문장·단어 토큰화 → 서브워드 인코딩 | BeautifulSoup, spaCy, [sentencepiece](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/sentencepiece) |
| 모델 선택 | 추출·추상 중 목적에 맞는 모델 선택 | [transformers](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/transformers), fairseq |
| 학습 | GPU(또는 TPU) 환경에서 fine‑tuning | accelerate, deepspeed |
| 평가 | ROUGE, BERTScore 등 다중 지표 사용 | rouge_score, bert_score |
| 배포 | API 서버, ONNX 변환, Edge 디바이스 최적화 | [FastAPI](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/FastAPI), [torchserve](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/torchserve), [onnxruntime](/doc/%EA%B8%B0%EC%88%A0/%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%20%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC/onnxruntime) |
법적 고지: 원본 CNN·Daily Mail 기사에 대한 저작권은 해당 언론사에 귀속된다. 연구 목적 외에 재배포·상업적 이용은 별도의 라이선스가 필요하다.
6. 참고 자료
- Nallapati, R., Zhou, B., Gulcehre, C., et al. Abstractive Text Summarization using Sequence‑to‑Sequence RNNs and Beyond. 2016.
- See, A., Liu, P. J., & Manning, C. D. Get To The Point: Summarization with Pointer‑Generator Networks. 2017.
- Lewis, M., Liu, Y., Goyal, N., et al. BART: Denoising Sequence‑to‑Sequence Pre‑training for Natural Language Generation, Translation, and Comprehension. 2020.
- Zhang, J., Zhao, Y., & LeCun, Y. PEGASUS: Pre‑Training with Gap‑Sentences for Abstractive Summarization. 2020.
- Raffel, C., Shazeer, N., Roberts, A., et al. Exploring the Limits of Transfer Learning with a Unified Text‑to‑Text Transformer (T5). 2020.
- OpenAI. ChatGPT Technical Report. 2023.
- HuggingFace Datasets –
cnn_dailymaildataset page.
이 문서는 2026년 2월 현재까지 공개된 연구와 도구들을 기반으로 작성되었습니다.
이 문서는 AI 모델(gpt-oss-120b)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.