# 서브워드 (Subword) **서브워드(Subword)**는 자연어 처리(Natural Language Processing, NLP) 분야에서 단어(Word)와 문자(Character)의 중간 단계에 해당하는 어휘 단위(Vocabulary Unit)를 의미합니다. 기존 단어 기반 토큰화(Tokenization) 방식이 가진 한계, 특히 희귀어 처리 문...
검색 결과
검색어를 입력하세요.
# 토큰 (Token) **토큰(Token)**은 컴퓨팅 및 언어 처리 분야에서 원시 데이터 스트림을 의미 있는 최소 단위인 '토큰'으로 분할하는 과정을 지칭합니다. 이는 주로 프로그래밍 언어의 컴파일 과정인 **렉싱(Lexing)**이나 자연어 처리(NLP)의 전처리 단계에서 핵심적인 역할을 수행합니다. 토큰은 문맥에 따라 문자, 단어, 구절, 또는 특...
# Out-of-Vocabulary ## 개요 자연어처리(Natural Language Processing, NLP) 분야에서 **Out-of-Vocabulary**(OoV)는 모델이 학습 과정에서 접하지 못한 단어를 의미합니다. 이는 텍스트 데이터를 처리하는 시스템이 사전에 정의된 어휘 집합(Vocabulary)에 포함되지 않은 단어를 마주했을 때 발...
# WordPiece ## 개요 **WordPiece**는 자연어 처리(Natural Language Processing NLP)에서 널리되는 서브워드(Subword) 토크이제이션(Subword Tokenization) 기법 중 하나로, 특히BERT**(Bidirectional Representations from Transformers와 같은 트랜스머...
# WordPiece ## 개요 **WordPiece**는 자연어 처리(Natural Language Processing, NLP 분야에서 널리 사용되는 하위 어휘(subword) 토큰화 기법 중 하나로, 특히 **BERT**(Bidirectional Encoder Representations from Transformers) 모델에서 기본 토큰화 방식...
# Vocabulary 자연어 처리(Natural Language Processing, NLP) 분야에서 **어휘**(Vocabulary)는 언어를 컴퓨터가 이해하고 처리할 수 있도록 구성하는 가장 기본적이면서도 핵심적인 요소입니다. 어휘는 특정 언어나 텍스트 집합에서 사용되는 모든 단어 또는 토큰(token)의 집합을 의미하며, 자연어 처리 시스템의 성...
# Out-of-Vocabulary ## 개요 **Out-of-V**(OOV, 어휘 외어)는 자연처리(Natural Language Processing, NLP) 분야에서, 언어 모델이나 텍 처리 시스템 학습 과정에서하지 못한 단어를 의미합니다. 이러한 단어는 모델 어휘 사전(vocabulary)에 포함되어 있지 않기 때문에, 정상적으로 처리하거나 이해...