# TF-IDF ## 개 TF-IDF(Term Frequencyverse Document Frequency) 자연어 처리(NLP와 정보 검색Information Retrieval) 분야에서 널 사용되는 **텍스트 데이터의 중요도를 수치화하는 가중치 기**입니다. 이은 특정 단어(term)가 하나의 문서(document) 내에서 얼마나 중요한지를 평가하기...
검색 결과
"문서 유사도 분석"에 대한 검색 결과 (총 4개)
# 레벤슈타인 거리## 개요 **레벤슈타인 거리Levenshtein)는 두 문자열 간의 유사도를 측정하는 **편집 거리**(Edit Distance)의 형태로, 러시아 수학자 **블라디미르 레벤슈타인**(Vladimir Levenshtein)이 1965년에 제안한 개념이다. 이 거리는 한 문자열을 다른 문자열로 변환하기 위해 필요한 **최소 편집 연산 횟...
# Levenshtein 거리 Levenshtein 거리(LD, 레벤슈타인 거리)는 두 문자열 간의 유사도를정하는 데 사용 **편집 거리Edit Distance)의 형태로, 하나 문자열을 다른 문자로 변환하는 필요한 최소 편집 연산수를 나타냅니다. 이 개념 1965년 러시아 수학자블라디미르 레슈타인**(ladimir Levenshtein)에 의해 제안되었...
# Doc2Vec **Doc2Vec**은 문서)를 고정된 차원의 밀 벡터(dense vector)로 변환하는 **임베딩 기법**으로, 자연어 처리(NLP) 분야에서 문서 간의 의미적 유사도를 계산하거나 문서 분류, 군집화 등의 작업에 널리 사용됩니다. 이 기법은 단어를 벡터로 표현하는 Word2Vec의 확장판으로, 단어뿐만 아니라 전체 문서를 하나의 벡터...