# Vocabulary Augmentation 개요 **Vocabulary Augmentation어휘 증강)은 자연어(Natural Language Processing, N) 분야에서 언어 모델의 성능 향상을 위해 기존 어휘 집합(vocabulary)을 확장하거나 보완하는 기술을 의미합니다. 특히, 기계 번역, 텍스트 생성, 감성 분석, 질의 응답 시...
검색 결과
"미등록 단어"에 대한 검색 결과 (총 7개)
# WordPiece ## 개요 **WordPiece**는 자연어 처리(Natural Language Processing, NLP 분야에서 널리 사용되는 하위 어휘(subword) 토큰화 기법 중 하나로, 특히 **BERT**(Bidirectional Encoder Representations from Transformers) 모델에서 기본 토큰화 방식...
어휘 확장자연어처리(NLP, Natural Language Processing) 모델 성능은 모델이 이해하고 처리할 수 있는 어휘의 범위에 크게 영향을 받습니다. 특히 언어는 지속적으로 진화하고, 새로운 단어, 줄임말, 신조어, 전문 용어 등이 등장하기 때문에, 모델의 어휘가 고정되어 있을 경우 성능 저하가 불가피합니다. **어휘 확장**(Vocabular...
# Byte Pair Encoding **Byte Pair Encoding**(BPE, 바이 쌍 인코딩)은 자연 처리(NLP) 분야에서 널리 사용되는 하위 단어(Subword) 토큰화 기법 중 하나로, 언어 어휘를 고정된 크기의 어휘 집합(Vocabulary)으로 효율적으로 압축하고, 미등록 단어(Out-of-Vocabulary, OOV) 문제를 완화하는...
# Tokenization ## 개요 **토큰화(Tokenization)**는 자연어처리(Natural Language Processing, NLP)의 핵심 전처리 단계 중 하나로, 텍스트를 있는 단위인 **토큰**(Token)으로 나누는 과정을 의미합니다. 이 과정은 언어의 구조를 컴퓨터가 이해하고 처리할 수 있도록 변환하는 첫 번째 단계로, 이후의 ...
# Vocabulary 자연어 처리(Natural Language Processing, NLP) 분야에서 **어휘**(Vocabulary)는 언어를 컴퓨터가 이해하고 처리할 수 있도록 구성하는 가장 기본적이면서도 핵심적인 요소입니다. 어휘는 특정 언어나 텍스트 집합에서 사용되는 모든 단어 또는 토큰(token)의 집합을 의미하며, 자연어 처리 시스템의 성...
# Embedding ## 개요 **임베딩**(Embedding)은공지능, 특히 자연어 처리(NLP), 컴퓨터 비전, 추천 시스템 등 다양한 분야에서 핵심적인 기술로 사용되는 **고차원 데이터를 저차원의 밀집 벡터**(dense vector)로 변환하는 과정을 의미합니다. 이 기술은 원시 데이터(예: 단어, 문장, 이미지, 사용자 행동)의 의미적 또는 ...