위키너와나

WordPiece

기술 > 데이터과학 > 분석 | 익명 | 2025-10-04 | 조회수 63

# WordPiece ## 개요 **WordPiece**는 자연어 처리(Natural Language Processing NLP)에서 널리되는 서브워드(Subword) 토크이제이션(Subword Tokenization) 기법 중 하나로, 특히BERT**(Bidirectional Representations from Transformers와 같은 트랜스머...

#WordPiece #서브워드 토크나이제이션 #BERT #자연어처리 #NLP 토크나이저

WordPiece

기술 > 자연어처리 > 토큰화 | 익명 | 2025-09-10 | 조회수 87

# WordPiece ## 개요 **WordPiece**는 자연어 처리(Natural Language Processing, NLP 분야에서 널리 사용되는 하위 어휘(subword) 토큰화 기법 중 하나로, 특히 **BERT**(Bidirectional Encoder Representations from Transformers) 모델에서 기본 토큰화 방식...

#WordPiece #하위 어휘 토큰화 #BERT #NLP #토큰화 기법

플러그인 아키텍처

기술 > 소프트웨어 아키텍처 > 확장성 | 익명 | 2026-06-20 | 조회수 3

# 플러그인 아키텍처 (Plugin Architecture) ## 개요 **플러그인 아키텍처**(Plugin Architecture)는 소프트웨어 시스템의 핵심 기능과 부가 기능을 분리하여, 실행 중인 애플리케이션의 재시작 없이도 새로운 기능을 동적으로 추가하거나 제거할 수 있도록 설계된 소프트웨어 설계 패턴입니다. 이 아키텍처는 시스템의 **확장성**...

#플러그인 아키텍처 #소프트웨어 설계 패턴 #확장성 #느슨한 결합 #동적 로딩 #모듈화 #호스트 애플리케이션 #인터페이스

서브워드

기술 > 자연어처리 > 어휘 구조 | 익명 | 2026-06-20 | 조회수 2

# 서브워드 (Subword) **서브워드(Subword)**는 자연어 처리(Natural Language Processing, NLP) 분야에서 단어(Word)와 문자(Character)의 중간 단계에 해당하는 어휘 단위(Vocabulary Unit)를 의미합니다. 기존 단어 기반 토큰화(Tokenization) 방식이 가진 한계, 특히 희귀어 처리 문...

#서브워드 #토큰화 #자연어처리 #NLP #BPE #WordPiece #Unigram #SentencePiece #LLM #중급

로컬 포워딩

기술 > 보안 > 데이터 보호 | 익명 | 2026-06-13 | 조회수 3

# 로컬 포워딩 (Local Forwarding) ## 개요 **로컬 포워딩(Local Forwarding)**은 네트워크 보안 및 원격 접속 기술에서 사용되는 중요한 개념으로, 원격 서버의 특정 포트가 로컬 컴퓨터(클라이언트 측)의 특정 포트에 매핑되어 트래픽이 전달되는 방식을 의미합니다. 주로 SSH(Secure Shell) 프로토콜을 통해 구현되며...

#로컬 포워딩 #SSH #포트 포워딩 #네트워크 보안 #터널링 #암호화 #원격 접속 #보안 정책

토큰

기술 > 컴퓨터과학 > 구문 분석 | 익명 | 2026-06-13 | 조회수 3

# 토큰 (Token) **토큰(Token)**은 컴퓨팅 및 언어 처리 분야에서 원시 데이터 스트림을 의미 있는 최소 단위인 '토큰'으로 분할하는 과정을 지칭합니다. 이는 주로 프로그래밍 언어의 컴파일 과정인 **렉싱(Lexing)**이나 자연어 처리(NLP)의 전처리 단계에서 핵심적인 역할을 수행합니다. 토큰은 문맥에 따라 문자, 단어, 구절, 또는 특...

#토큰 #토큰화 #자연어처리 #NLP #렉싱 #컴파일러 #서브워드 #BPE #WordPiece #컨텍스트 윈도우

Out-of-Vocabulary

기술 > 자연어처리 > 오류 정정 | 익명 | 2026-04-15 | 조회수 25

# Out-of-Vocabulary ## 개요 자연어처리(Natural Language Processing, NLP) 분야에서 **Out-of-Vocabulary**(OoV)는 모델이 학습 과정에서 접하지 못한 단어를 의미합니다. 이는 텍스트 데이터를 처리하는 시스템이 사전에 정의된 어휘 집합(Vocabulary)에 포함되지 않은 단어를 마주했을 때 발...

#Out-of-Vocabulary #서브워드 토크나이제이션 #자연어처리 #WordPiece #BPE

결합도

기술 > 소프트웨어공학 > 소프트웨어품질 | 익명 | 2026-04-09 | 조회수 28

# 결합도 ## 개요 **결합도**(Coupling)는 소프트웨어 공학에서 모듈 간의 상호 의존성 정도를 나타내는 척도입니다. 즉, 한 모듈이 다른 모듈의 내부 구조나 동작에 얼마나 의존하고 있는지를 측정하는 개념으로, 소프트웨어의 **품질**, **유지보수성**, **재사용성**, **테스트 용이성**에 큰 영향을 미칩니다. 일반적으로 결합도가 낮을수...

#결합도 #소프트웨어 품질 #의존성 역전 #디자인 패턴 #소프트웨어 공학

Remote

기술 > 네트워크 > 원격 저장소 | 익명 | 2026-04-09 | 조회수 18

# Remote ## 개요 "Remote"는 네트워크 기술 분야에서 **원격 저장소**(Remote Repository) 또는 **원격 시스템**(Remote System)을 지칭하는 일반적인 용어로, 사용자가 현재 작업 중인 로컬 환경과 물리적으로 분리된 위치에 존재하는 저장소나 서버를 의미합니다. 특히 소프트웨어 개발, 데이터 저장, 버전 관리, 원...

#원격 저장소 #Git #클라우드 스토리지 #버전 관리 #보안

플러그인 아키텍처

기술 > 소프트웨어아키텍처 > 확장성 | 익명 | 2026-03-28 | 조회수 37

# 플러그인 아키텍처 ## 개요 **플러그인 아키텍처**(Plugin Architecture)는 소프트웨어 시스템의 기본 기능을 확장하고 커스터마이징할 수 있도록 설계된 소프트웨어 디자인 패턴입니다. 이 아키텍처 방식은 메인 애플리케이션 코어와 외부 모듈(플러그인)을 분리하여, 플러그인을 추가하거나 제거함으로써 시스템의 기능을 유연하게 변경할 수 있게 ...

#일반 #문서

CNN/Daily Mail

기술 > 자연어처리 > 벤치마크 | 익명 | 2026-02-26 | 조회수 44

# CNN/Daily Mail ## 개요 **CNN/Daily Mail**(줄여서 **C/D M**)은 자연어 처리(NLP) 분야에서 **추상적 요약(abstractive summarization)** 및 **추출적 요약(extractive summarization)** 모델을 평가하기 위해 널리 사용되는 대규모 벤치마크 데이터셋이다. 2015년 **...

#CNN/Daily Mail #abstractive summarization #extractive summarization #ROUGE metric #transformer model #pre‑trained language model #news summarization #고급

질문 응답 시스템

기술 > 자연어처리 > 질문 응답 | 익명 | 2026-02-25 | 조회수 36

# 질문 응답 시스템 ## 개요 질문 응답 시스템(Question Answering, QA)은 사용자가 자연어로 제시한 질문에 대해 **정확하고 간결한 답변**을 자동으로 생성하는 기술이다. 전통적인 정보 검색(IR) 시스템이 “문서 목록”을 반환한다면, QA 시스템은 “답변 자체”를 제공한다는 점에서 차별화된다. 최근 딥러닝, 특히 **대규모 사전학습 ...

#질문 응답 #추출형 QA #생성형 QA #RAG #FAISS #KoBERT #멀티모달 QA #중급

BERT-Base

기술 > 자연어처리 > 대규모 언어 모델 | 익명 | 2026-01-13 | 조회수 51

# BERT-Base BERT-Base는 자연어 처리(NLP) 분야에서 혁신적인 전환을 가져온 **Bidirectional Encoder Representations from Transformers**(BERT) 모델의 기본 버전 중 하나로, 구글 연구팀에 의해 2018년에 발표되었습니다. BERT는 이전의 단방향 언어 모델과 달리 문장 내 모든 단어를 ...

#BERT-Base #자연어처리 #트랜스포머 #사전학습모델 #MLM

KoBERT

기술 > 자연어처리 > 딥러닝 모델 | 익명 | 2025-12-17 | 조회수 42

# KoBERT ## 개요 **KoBERT**(Korean Bidirectional Encoder Representations from Transformers)는 한국어 자연어 처리(NLP)를 위해 특화된 딥러닝 기반 언어 모델로, Google에서 제안한 BERT 아키텍처를 기반으로 하여 한국어 코퍼스에 추가 학습(Fine-tuning)을 거쳐 개발된 ...

#KoBERT #자연어처리 #BERT #형태소 분석 #Hugging Face #한국어 NLP #사전 학습 모델 #감성 분석 #개체명 인식 #초급

임베딩 계층

기술 > 인공지능 > 임베딩 | 익명 | 2025-10-02 | 조회수 64

# 임베딩 계층## 개요 **임베 계층**(Embedding Layer)은 인공지능, 특히 자연어(NLP)와천 시스템 등에서 범주형 데이터를 고차원 실수 벡터로 변환하는 핵심적인 신경망 구성 요소입니다.로 단어, 토큰, 사용자 ID, 상품 카테고리와 같은 이산적(discrete)이고 정수로 표현되는 입력값을 밀집된(dense) 실수 벡터 형태로 매핑하여,...

#임베딩 계층 #자연어 처리 #신경망 #PyTorch #Transformer

BERT

기술 > 인공지능 > 머신러닝 | 익명 | 2025-09-17 | 조회수 77

# BERT ## 개요 **BERT**(Bidirectional Encoder Represent from Transformers)는어 처리(NLP)야에서 혁신적인과를 이룬러닝 기반 언어 모델로, 구글(Google) 연구팀이 2018년에 발표한 머신러닝 모델이다. BERT는 이전의 단방향 언어 모델들과 달리 **양방향 컨텍스트**(Bidirectional...

#BERT #트랜스포머 #자연어 처리 #사전 훈련 모델 #MLM

VDI

기술 > 가상화 > 가상 하드웨어 | 익명 | 2025-09-16 | 조회수 82

# VDI ## 개요 VDI(Virtual Desktop Infrastructure 가상 데스크톱 인프라는 물리적 컴퓨터 대신 중앙의 서버에서 가상 머신(VM)을 실행하여 사용자에게 데스크톱 환경을 제공하는 기술. 사용자는 클라이언트 장치예: 스마트폰, 태블릿, 저사양 PC 등)를 통해 원격으로 가상 데스크톱에 접속하며, 모든 컴퓨팅 리소스와 애플리케이...

#VDI #가상 데스크톱 #하이퍼바이저 #VMware Horizon #Azure Virtual Desktop #Non-Persistent VDI #디스플레이 프로토콜 #중앙 집중 관리 #원격 근무

OOV

기술 > 자연어처리 > 어휘 문제 | 익명 | 2025-09-16 | 조회수 87

# OOV (Out-Vocabulary) ## 개요 **OOV**(Out-ofocabulary)는 자연어처리(Natural Language Processing, NLP) 분야에서 자 등장하는 핵심 개념으로, 모델이 학습 과정에서 접하지 못한 단어를 의미합니다. 이는 특히 토큰화(tokenization) 단계 이후 모델의 어휘 집합(vocabulary)에...

#OOV #서브워드 토크나이제이션 #자연어처리 #언어 모델 #토큰화

Vocabulary Augmentation

기술 > 자연어처리 > 전처리 | 익명 | 2025-09-12 | 조회수 83

# Vocabulary Augmentation 개요 **Vocabulary Augmentation어휘 증강)은 자연어(Natural Language Processing, N) 분야에서 언어 모델의 성능 향상을 위해 기존 어휘 집합(vocabulary)을 확장하거나 보완하는 기술을 의미합니다. 특히, 기계 번역, 텍스트 생성, 감성 분석, 질의 응답 시...

#어휘 증강 #서브워드 토크나이제이션 #OOV 문제 #자연어처리 #파인튜닝

어휘 크기

기술 > 자연어처리 > 모델 설계 | 익명 | 2025-09-10 | 조회수 73

# 어휘 크기 ## 개요 **어휘 크기**(ocabulary Size)는 자연어처리(NLP, Natural Language Processing) 모델 설계에서 중요한 하이퍼파라미터 중 하나로, 모델이 인식하고 처리할 수 있는 고유 단어(또는 서브워드 토큰)의 총 수를 의미합니다. 어휘 크기는 언어 모델의 표현 능력, 메모리 사용량, 학습 및 추론 속도,...

#어휘 크기 #서브워드 토크나이징 #임베딩 레이어 #NLP 모델 설계 #하이퍼파라미터

검색 결과