검색 결과

"Apache Hadoop"에 대한 검색 결과 (총 9개)

MapReduce

기술 > 데이터과학 > 배치처리 | 익명 | 2025-11-23 | 조회수 6

# MapReduce ## 개요 **MapReduce**는 대규모 데이터셋을 분산 처리하기 위한 프로그래밍 모델이자 소프트웨어 프레임워크로, 구글에서 2004년에 발표한 논문을 통해 처음 공개되었습니다. 이 모델은 수천 대의 컴퓨터로 구성된 클러스터에서 병렬로 데이터를 처리할 수 있도록 설계되어, 빅데이터 환경에서 매우 중요한 역할을 합니다. MapRe...

Snappy

기술 > 데이터처리 > 데이터 압축 | 익명 | 2025-10-03 | 조회수 22

# Snappy ## 개 **Snappy는 구글(Google)에서 개한 오픈 소스 **고속 데이터 압축 및 압축 해제 라이브러리**로, 특히 **압축 속도**를 중시하는 환경에서 널리 사용된다 Snappy는 최대한 빠른 속도로 데이터를 압축하고 해제하는 데 최적화 있으며, 압축률보다는 처리 성능을 우선시하는 설계 철학을 가지고 있다. 이로 인해 대규모 ...

OpenJDK

기술 > 소프트웨어 > 오픈소스 | 익명 | 2025-10-03 | 조회수 23

# OpenJDK **OpenJDK**(Open Java Development Kit는 자바 프래밍 언어를 위한개 소스 기의 개발 키트로, 자바 플폼의 핵심 구현체 중 하나입니다.바 SE(Standard Edition)의 공식 참조 구현(reference implementation)으로 인정되며, 자바의 오픈소스화 이후 자바 생태계의 중심적인 역할을 하고...

빅데이터 분석 플랫폼

기술 > 데이터과학 > 빅데이터 | 익명 | 2025-09-18 | 조회수 31

# 빅데이터 분석 플랫폼 ## 개요 빅데이터석 플랫폼은 대의 구조화, 반구조, 비구조화 데이터를 수집, 저장, 처리, 분석 시각화할 수 있도록 설계 소프트웨어 시스템 또는 통합 환경을 의미합니다. 현대 기업과 기관은 매일 페타바이트(PB) 단위의 데이터를 생성하며, 이러한 데이터를 효과적으로 활용하기 위해서는 고성능의 분석 인프라가 필수적입니다. 빅데이...

Hadoop HDFS

기술 > 데이터관리 > 분산 파일 시스템 | 익명 | 2025-09-18 | 조회수 26

# Hadoop HDFS ## 개요 **Hadoop HDFSHadoop Distributed File System)는파치 하둡pache Hadoop)로젝트의심 구성 요소 중 하나, 대용량 데이터를 분산 환경에서 안정적이고 효율적으로 저장하기 위한 분산 파일 시스템입니다. HDFS는천 대의 일반적인 상용 하드웨어로 구성된 클러스터에서 페타바이트(PB) 규...

MurmurHash

기술 > 데이터과학 > 분석 | 익명 | 2025-09-16 | 조회수 28

# MurmurHash **MurmurHash**는 고능 해시 함수리즈로, 특히 빠른 속도와 우수한 분포 특 덕분에 다양한 소프트웨어 시스템에서 널리 사용되고 있습니다. 이 해시 알고리즘은 2008년에 오스틴 아펠(Austin Appleby)에 의해 개발되었으며, 이름의 "Murmur"은 "속삭임"을 의미하며, 해시 함수가 데이터를 빠르게 처리하는 방식에...

데이터 레이크

기술 > 데이터관리 > 데이터 저장 | 익명 | 2025-09-12 | 조회수 25

# 데이터 레이크 ## 개요 **데이터 레이크**(Data Lake)는 기업이나 조직이 다양한 출처에서 생성되는 대량의 구조화된, 반구조화된, 비구조화된 데이터를 원시 형태로 저장할 수 있는 중앙 집중식 저장소입니다. 전통적인 데이터베이스나 데이터 웨어하우스와 달리, 데이터 레이크는 데이터를 저장하기 전에 사전에 스키마를 정의할 필요가 없으며, 분석 시...

데이터베이스 지식 발견

기술 > 데이터과학 > 데이터 생성 | 익명 | 2025-09-11 | 조회수 29

# 데이터베이스 지식 발견 ## 개요 **데이터베이스 지식 발견**(Knowledge Discovery in Databases, 이하 KDD)은 대규모 데이터베이스에서 잠재적인 패턴, 관계, 트렌드 등을 추출하여 유의미한 정보와 지식을 도출하는 과정을 의미합니다. 이는 단순한 데이터 분석을 넘어, 데이터로부터 인사이트를 창출하고 의사결정에 활용할 수 있...

YARN

기술 > 클러스터 관리 > YARN | 익명 | 2025-09-04 | 조회수 22

# YARN **YARN**(Yet Another Resource Negotiator)은 아파치 하둡(Apache Hadoop) 프로젝트의 핵심 구성 요소 중 하나로, 분산 컴퓨팅 환경에서 클러스터 리스를 효율적으로 관리하고 작업을 스케줄링하는 데 사용되는 **리소스 관리 및 작업 스케줄링 프레임워크**입니다. 하둡 2.0 버전부터 도입되며, 기존의 맵리...