# 어휘 크기 ## 개요 **어휘 크기**(ocabulary Size)는 자연어처리(NLP, Natural Language Processing) 모델 설계에서 중요한 하이퍼파라미터 중 하나로, 모델이 인식하고 처리할 수 있는 고유 단어(또는 서브워드 토큰)의 총 수를 의미합니다. 어휘 크기는 언어 모델의 표현 능력, 메모리 사용량, 학습 및 추론 속도,...
검색 결과
"서브워드 토큰"에 대한 검색 결과 (총 4개)
# Vocabulary 자연어 처리(Natural Language Processing, NLP) 분야에서 **어휘**(Vocabulary)는 언어를 컴퓨터가 이해하고 처리할 수 있도록 구성하는 가장 기본적이면서도 핵심적인 요소입니다. 어휘는 특정 언어나 텍스트 집합에서 사용되는 모든 단어 또는 토큰(token)의 집합을 의미하며, 자연어 처리 시스템의 성...
# 토큰화 (Tokenization) ## 개요/소개 토큰화는 자연어 처리(NLP) 및 데이터 분석에서 텍스트를 의미 있는 단위로 나누는 기초적인 프로세스입니다. 이 과정은 텍스트를 컴퓨터가 이해할 수 있는 형태로 변환하는 데 필수적이며, 이후 모델 학습, 검색 엔진 구축, 데이터 분석 등 다양한 응용에 활용됩니다. 토큰화는 단어, 문장, 문자 등으로 나...
# Tokenization ## 개요 **토큰화(Tokenization)**는 자연어처리(Natural Language Processing, NLP)의 핵심 전처리 단계 중 하나로, 텍스트를 있는 단위인 **토큰**(Token)으로 나누는 과정을 의미합니다. 이 과정은 언어의 구조를 컴퓨터가 이해하고 처리할 수 있도록 변환하는 첫 번째 단계로, 이후의 ...