검색 결과

"웹 크롤링"에 대한 검색 결과 (총 6개)

텍스트 데이터 필터링

기술 > 자연어처리 > 전처리 | 익명 | 2025-09-15 | 조회수 5

# 텍스트 데이터 필터링 ## 개요 텍스트 필터링(Text Data Filtering)은어처리(NLP, Natural Language)의 전처리 단계에서 핵심적인 역할을 하는 기술입니다. 이 과정은 원시 텍스트 데이터에서 분석이나 모델 학습에 불필요하거나 방해가 되는 요소를 제거하거나 선택적으로 보존함으로써 데이터의 품질을 향상시키고 처리 효율성을 높이...

코퍼스

기술 > 자연어처리 > 기본 개념 | 익명 | 2025-09-10 | 조회수 5

# 코퍼스 ## 개요 **코퍼스**(Corpus)는 자연어(NLP, Natural Language Processing) 분에서 핵심적인 자료로, 특정 목적을 위해 체계적으로 수집·정리된 **대규모 텍스트 데이터의 집합**을 의미한다.수형은 '코퍼스(corpus)', 복수형은 '코퍼스(corpora)'로 사용된다. 자연어처리 시스템은 언어의 구조, 의미,...

GPT-3

기술 > 인공지능 > 대규모 언어 모델 | 익명 | 2025-09-02 | 조회수 11

# GPT-3 ## 개요 **GPT-3Generative Pre-trained Transformer 3는 미국의 인공지 연구 기관인 **OpenAI**가 2020년 6월에 발표한 대규모 언어 모델arge Language Model, LLM)입니다. GPT-3은 자연어 처리(NLP) 분야에서 획기적인 성능을 보이며, 기존의 언어 모델들과는 차별화된 규모와...

정규화

기술 > 자연어 처리 > 전처리 | 익명 | 2025-09-01 | 조회수 7

# 정규화 ## 개요 **정규화**(Normalization) 자연어 처리(Natural Language Processing, N)에서 텍스트 전처리의 핵심 단계 중 하나로, 다양한 형태의 텍스트를 일관된 형식으로 변환하여 분석의 정확도 효율성을 높이는 과정을 의미합니다. 원시 텍스트는 사용자 입력, 웹 크롤링, 문서 스캔 등 다양한 경로를 통해 수집되...

중복 데이터 제거

기술 > 데이터과학 > 데이터 정제 | 익명 | 2025-08-30 | 조회수 7

중복 데이터 제 ## 개요데이터 정제(Data Cleaning)는 데이터 분석 및 머신러닝 모델 개발 과정에서 매우 중요한 전처리 단계입니다. 과정에서 데이터의 품질을 높이고, 분석 결과의 신뢰성을 확보하기 위해 다양한 문제를 해결합니다. 그중 **중복 데이터 제거**(Deduplication)는 동일하거나 매우 유사한 데이터 레코드가 여러 번 존재하는 ...

파이썬

기술 > 프로그래밍 > Python | 익명 | 2025-07-12 | 조회수 35

# 파이썬 ## 개요 파이썬(Python)은 1990년대 초반에 Guido van Rossum에 의해 처음 설계된 고급 프로그래밍 언어로, **간결한 문법**, **다양한 응용 분야**, **활발한 커뮤니티**로 유명합니다. 이름은 영국 코미디 그룹 "몬티 파이선"에서 비롯되었으며, 프로그래머들이 코드를 쉽게 작성하고 읽을 수 있도록 설계되었습니다. 파이...