# 서브워드 (Subword) **서브워드(Subword)**는 자연어 처리(Natural Language Processing, NLP) 분야에서 단어(Word)와 문자(Character)의 중간 단계에 해당하는 어휘 단위(Vocabulary Unit)를 의미합니다. 기존 단어 기반 토큰화(Tokenization) 방식이 가진 한계, 특히 희귀어 처리 문...
검색 결과
"Byte-Pair Encoding"에 대한 검색 결과 (총 4개)
# 토큰 (Token) **토큰(Token)**은 컴퓨팅 및 언어 처리 분야에서 원시 데이터 스트림을 의미 있는 최소 단위인 '토큰'으로 분할하는 과정을 지칭합니다. 이는 주로 프로그래밍 언어의 컴파일 과정인 **렉싱(Lexing)**이나 자연어 처리(NLP)의 전처리 단계에서 핵심적인 역할을 수행합니다. 토큰은 문맥에 따라 문자, 단어, 구절, 또는 특...
# WordPiece ## 개요 **WordPiece**는 자연어 처리(Natural Language Processing, NLP 분야에서 널리 사용되는 하위 어휘(subword) 토큰화 기법 중 하나로, 특히 **BERT**(Bidirectional Encoder Representations from Transformers) 모델에서 기본 토큰화 방식...
# RoBERTa ## 개요 RoBERTa(**Robustly Optimized BERTtraining Approach**)는 자연어 처리(NLP) 분야에서 널리 사용되는 언어 모델로, BERT(Bidirectional Encoder Representations from Transformers)를 개선하여 더 강력하고 효율적인 성능을 발휘하도록 설계된 ...