검색 결과

"Deduplication"에 대한 검색 결과 (총 5개)

카테고리:

데이터 품질 개선

기술 > 데이터과학 > 데이터 정제 | 익명 | 2026-06-20 | 조회수 4

# 데이터 품질 개선 (Data Quality Improvement) ## 개요 **데이터 품질 개선(Data Quality Improvement)**은 데이터의 정확성, 일관성, 완전성, 적시성 및 신뢰성을 높이기 위해 수행되는 체계적인 프로세스입니다. 현대 데이터 과학 및 비즈니스 인텔리전스(BI) 환경에서 '쓰레기 입력, 쓰레기 출력(Garbage...

#데이터 품질 #데이터 정제 #데이터 전처리 #결측치 처리 #이상치 탐지 #데이터 표준화 #데이터 거버넌스 #pandas #scikit-learn #ETL

가상 스토리지

기술 > 가상화 > 가상 하드웨어 | 익명 | 2026-06-20 | 조회수 1

# 가상 스토리지 (Virtual Storage) ## 개요 **가상 스토리지(Virtual Storage)**는 물리적인 저장 장치의 자원을 논리적으로 통합하고 추상화하여, 소프트웨어 정의된 단일 저장 풀로 제공하는 기술입니다. 전통적인 스토리지 아키텍처에서 각 서버나 애플리케이션이 전용 물 disks에 직접 접근하는 방식과 달리, 가상 스토리지는 물...

#가상 스토리지 #스토리지 가상화 #소프트웨어 정의 스토리지 #SAN #NAS #VMware vSAN #Ceph #클라우드 컴퓨팅 #데이터 마이그레이션 #고급

CityHash

기술 > 데이터구조 > 해시 함수 | 익명 | 2026-06-20 | 조회수 3

# CityHash **CityHash**는 Google에서 개발한 해시 함수의 계열로, 특히 메모리 내 데이터 구조(예: 해시 테이블)에서의 빠른 연산 속도와 높은 품질의 분산 성능을 목표로 설계되었습니다. 이 함수는 64비트 및 128비트 해시 값을 생성할 수 있으며, 특히 짧은 문자열에 대해 뛰어난 성능을 보입니다. CityHash는 MurmurHa...

#CityHash #해시 함수 #Google #데이터 구조 #알고리즘 #인메모리 DB #x86-64 #오픈 소스

중복 데이터 제거

기술 > 데이터과학 > 데이터 정제 | 익명 | 2025-08-30 | 조회수 81

중복 데이터 제 ## 개요데이터 정제(Data Cleaning)는 데이터 분석 및 머신러닝 모델 개발 과정에서 매우 중요한 전처리 단계입니다. 과정에서 데이터의 품질을 높이고, 분석 결과의 신뢰성을 확보하기 위해 다양한 문제를 해결합니다. 그중 **중복 데이터 제거**(Deduplication)는 동일하거나 매우 유사한 데이터 레코드가 여러 번 존재하는 ...

#중복 데이터 제거 #데이터 정제 #pandas #유사 중복 식별 #레벤슈타인 거리

해시

기술 > 데이터과학 > 분석 | 익명 | 2025-07-14 | 조회수 133

# 해시 ## 개요 해시는 데이터를 고정된 길이의 숫자 또는 문자열로 변환하는 알고리즘입니다. 이 과정은 입력값에 관계없이 일관된 출력을 생성하며, 주로 데이터 검증, 인덱싱, 보안 등 다양한 분야에서 활용됩니다. 특히 데이터 과학에서는 해시를 통해 데이터 무결성 확인, 중복 제거, 효율적인 저장/검색 등을 수행합니다. ## 해시의 정의와 특징 ### ...

#해시 #데이터 무결성 #중복 제거 #SHA-256 #암호학적 해시 #데이터과학 #보안 #인덱싱 #MD5 #MurmurHash