# OpenWebText ## 개요 **OpenWebText**(OpenWebText Corpus)는 대규모 자연어 처리(NLP) 연구 및 언어 모델 개발을 위해 사용되는 공개 텍스트 코퍼스입니다. 이 코퍼스는 Reddit 플랫폼에서 공유된 외부 웹사이트 링크를 기반으로 수집된 웹 페이지의 텍스트를 크롤링하고 정제하여 구성되었습니다. OpenWebTex...
검색 결과
"The Pile"에 대한 검색 결과 (총 2개)
# WebText2 ## 개요 **WebText2**는 대규모 텍스트 데이터셋 중 하나로, 주로 자연어(NLP) 및 언어 모델 훈련을 위한 목적으로 개발된 데이터 수집 프로젝트의 결과물입니다. 이 데이터셋은 인터넷 상의 다양한 공개 텍스트 자원을 크롤링하여 구축되었으며, 특히 **GPT-2**(Generative Pre-trained Transforme...