위키너와나

Hadoop

기술 > 데이터과학 > Hadoop | 익명 | 2026-04-16 | 조회수 18

# Hadoop ## 개요 아파치 하둡(Apache Hadoop)은 대용량 데이터를 분산 처리하기 위한 오픈소스 프레임워크로, 구글의 맵리듀스(MapReduce)와 구글 파일 시스템(GFS)을 기반으로 개발되었습니다. 하둡은 수천 대의 일반적인 하드웨어 서버로 구성된 클러스터에서 페타바이트(PB) 규모의 데이터를 저장하고 분석할 수 있는 능력을 제공합니...

#하둡 #빅데이터 #HDFS #YARN #MapReduce

Hadoop HDFS

기술 > 데이터관리 > 분산 파일 시스템 | 익명 | 2025-09-18 | 조회수 74

# Hadoop HDFS ## 개요 **Hadoop HDFSHadoop Distributed File System)는파치 하둡pache Hadoop)로젝트의심 구성 요소 중 하나, 대용량 데이터를 분산 환경에서 안정적이고 효율적으로 저장하기 위한 분산 파일 시스템입니다. HDFS는천 대의 일반적인 상용 하드웨어로 구성된 클러스터에서 페타바이트(PB) 규...

#Hadoop HDFS #분산 파일 시스템 #NameNode #DataNode #고장 허용성 #빅데이터 저장 #배치 처리

대규모 데이터 처리

기술 > 데이터과학 > 데이터 처리 | 익명 | 2026-06-20 | 조회수 3

# 대규모 데이터 처리 (Large-Scale Data Processing) ## 개요 **대규모 데이터 처리(Large-Scale Data Processing)**는 방대한 양의 데이터(빅데이터)를 효율적으로 수집, 저장, 분석 및 시각화하기 위한 기술적 접근법과 아키텍처를 포괄하는 개념입니다. 전통적인 단일 서버 기반의 데이터 처리 방식은 데이터의 ...

#대규모 데이터 처리 #분산 컴퓨팅 #Apache Spark #Apache Flink #HDFS #스트리밍 처리 #배치 처리 #람다 아키텍처 #카파 아키텍처 #Lakehouse

CityHash

기술 > 데이터구조 > 해시 함수 | 익명 | 2026-06-20 | 조회수 3

# CityHash **CityHash**는 Google에서 개발한 해시 함수의 계열로, 특히 메모리 내 데이터 구조(예: 해시 테이블)에서의 빠른 연산 속도와 높은 품질의 분산 성능을 목표로 설계되었습니다. 이 함수는 64비트 및 128비트 해시 값을 생성할 수 있으며, 특히 짧은 문자열에 대해 뛰어난 성능을 보입니다. CityHash는 MurmurHa...

#CityHash #해시 함수 #Google #데이터 구조 #알고리즘 #인메모리 DB #x86-64 #오픈 소스

병렬 처리

기술 > 컴퓨터과학 > 병렬 처리 | 익명 | 2026-06-19 | 조회수 1

# 병렬 처리 (Parallel Processing) **병렬 처리**(Parallel Processing)란 하나의 복잡한 문제를 여러 개의 작은 하위 문제로 분할하여, 이를 동시에 처리함으로써 계산 속도를 높이고 시스템의 효율성을 극대화하는 컴퓨터 과학 및 공학 기법입니다. 단일 프로세서가 순차적으로 작업을 처리하는 직렬 처리(Serial Proces...

#병렬 처리 #GPU 컴퓨팅 #분산 처리 #CUDA #OpenMP #MPI #Apache Spark #암달의 법칙 #데이터 병렬 #작업 병렬

MapReduce

기술 > 데이터과학 > 배치처리 | 익명 | 2025-11-23 | 조회수 45

# MapReduce ## 개요 **MapReduce**는 대규모 데이터셋을 분산 처리하기 위한 프로그래밍 모델이자 소프트웨어 프레임워크로, 구글에서 2004년에 발표한 논문을 통해 처음 공개되었습니다. 이 모델은 수천 대의 컴퓨터로 구성된 클러스터에서 병렬로 데이터를 처리할 수 있도록 설계되어, 빅데이터 환경에서 매우 중요한 역할을 합니다. MapRe...

#MapReduce #하둡 #배치처리 #분산처리 #빅데이터

블록

기술 > 데이터과학 > 데이터구조 | 익명 | 2025-10-10 | 조회수 58

블록 ##요 "블(block)"은 데이터과학 및 컴퓨터 과학 전반에서 핵적인 개념으로, 데이터를율적으로 저장, 처리, 전송 위한 기본 단위 의미합니다. 특히 데이터구조의 맥락에서 블록은 연속 메모리 공간이나 저장 장치의 단위로 사용되며, 대용량 처리, 파일 시스템, 데이터이스, 분산소, 블록체인 등 다양한 분야에서 활용됩니다. 이 문서에서는 데이터과학과...

#블록 #데이터구조 #블록체인 #B-트리 #병렬 처리

Snappy

기술 > 데이터처리 > 데이터 압축 | 익명 | 2025-10-03 | 조회수 69

# Snappy ## 개 **Snappy는 구글(Google)에서 개한 오픈 소스 **고속 데이터 압축 및 압축 해제 라이브러리**로, 특히 **압축 속도**를 중시하는 환경에서 널리 사용된다 Snappy는 최대한 빠른 속도로 데이터를 압축하고 해제하는 데 최적화 있으며, 압축률보다는 처리 성능을 우선시하는 설계 철학을 가지고 있다. 이로 인해 대규모 ...

#Snappy #고속 데이터 압축 #LZ77 알고리즘 #데이터 무결성 #빅데이터 처리

OpenJDK

기술 > 소프트웨어 > 오픈소스 | 익명 | 2025-10-03 | 조회수 68

# OpenJDK **OpenJDK**(Open Java Development Kit는 자바 프래밍 언어를 위한개 소스 기의 개발 키트로, 자바 플폼의 핵심 구현체 중 하나입니다.바 SE(Standard Edition)의 공식 참조 구현(reference implementation)으로 인정되며, 자바의 오픈소스화 이후 자바 생태계의 중심적인 역할을 하고...

#OpenJDK #자바 개발 키트 #HotSpot JVM #GPLv2 라이선스 #LTS 버전 #JVM #오픈소스 자바 #Java SE #배포판 #정기 릴리스

Java

기술 > 프로그래밍 > 프로그래밍 언어 | 익명 | 2025-10-03 | 조회수 81

# Java Java는 전 세계적으로 널리 사용되는 객체 지향 프래밍 언어로, 995년에 선 마이로시스템즈(Sun Microsystems)에서 개발하여 이후 오라클(Oracle)에 인수된 언어입니다. "쓰기 한 번, 어디서나 실행(Written Once, Run Anywhere)" 철학 아래 설계된 Java는 플랫폼 독립성, 안정성, 보안성 등을 강점으로...

#Java #객체 지향 프로그래밍 #JVM #OpenJDK #Spring Framework

빅데이터 분석 플랫폼

기술 > 데이터과학 > 빅데이터 | 익명 | 2025-09-18 | 조회수 75

# 빅데이터 분석 플랫폼 ## 개요 빅데이터석 플랫폼은 대의 구조화, 반구조, 비구조화 데이터를 수집, 저장, 처리, 분석 시각화할 수 있도록 설계 소프트웨어 시스템 또는 통합 환경을 의미합니다. 현대 기업과 기관은 매일 페타바이트(PB) 단위의 데이터를 생성하며, 이러한 데이터를 효과적으로 활용하기 위해서는 고성능의 분석 인프라가 필수적입니다. 빅데이...

#빅데이터 분석 #Apache Spark #데이터 플랫폼 #머신러닝 #클라우드 분석

산업용 IoT

기술 > 산업 > 무선 모니터링 | 익명 | 2025-09-18 | 조회수 73

# 산업용 IoT ## 개요 **산업용 IoTIndustrial Internet of Things, IIo)는 사물인터넷(IoT) 기술을 산업야에 적용한 개념으로, 제조, 에너지, 물류, 농업, 인프 등 다양한 산업에서 기계, 센서, 소프트웨어 및 네트워크를 통합하여 데이터 기반의 자동화와 효율성을 극대화하는 시스템을 의미한다. 특히 **무선 모니터링*...

#산업용 IoT #무선 모니터링 #예측 정비 #스마트 팩토리 #IIoT 보안

데이터 특성

기술 > 데이터과학 > 데이터 유형 | 익명 | 2025-09-18 | 조회수 66

# 데이터 특성 데이터는 현대 정보 사회의 핵심 자원으로, 다양한 분야 의사결정, 예, 자동화 등을 가능하게 합니다. ** 특성**(Data)은 데이터의 본질 속성과 성격을 설명하는 요소들로 데이터를 수집, 저장, 분석, 활용하는 과정에서 매우 중요한 기준이 됩니다. 데이터 과학에서는 데이터의 특성을 이해함으로써 적절한 처리 방법과 분석 기법을 선택할 수...

#데이터 특성 #빅데이터 6V #데이터 과학 #데이터 품질 #분산 처리

MurmurHash

기술 > 데이터과학 > 분석 | 익명 | 2025-09-16 | 조회수 71

# MurmurHash **MurmurHash**는 고능 해시 함수리즈로, 특히 빠른 속도와 우수한 분포 특 덕분에 다양한 소프트웨어 시스템에서 널리 사용되고 있습니다. 이 해시 알고리즘은 2008년에 오스틴 아펠(Austin Appleby)에 의해 개발되었으며, 이름의 "Murmur"은 "속삭임"을 의미하며, 해시 함수가 데이터를 빠르게 처리하는 방식에...

#MurmurHash #해시 함수 #비암호화 해싱 #성능 최적화 #데이터 무결성

4차 산업혁명 기술

기술 > 미래 기술 > 4차 산업혁명 | 익명 | 2025-09-15 | 조회수 65

# 4차 산업혁명 기술 ## 개요 4차 산업혁명은지털 기술의 급속한 발전을 기반으로 산업 구조와 사회 시스템 전반에 걸쳐 근본적인 변화를 일으키는 역사적 전환기를 의미합니다. 1차 산업혁명(증기기관), 2차 산업혁명(전기와 대량생산), 3차 산업혁명(정보기술과 컴퓨터화)에 이어, 4차 산업혁명은 **사물인터넷**(IoT), **인공지능**(AI), **...

#4차 산업혁명 #인공지능 #사물인터넷 #빅데이터 #블록체인

데이터 레이크

기술 > 데이터관리 > 데이터 저장 | 익명 | 2025-09-12 | 조회수 66

# 데이터 레이크 ## 개요 **데이터 레이크**(Data Lake)는 기업이나 조직이 다양한 출처에서 생성되는 대량의 구조화된, 반구조화된, 비구조화된 데이터를 원시 형태로 저장할 수 있는 중앙 집중식 저장소입니다. 전통적인 데이터베이스나 데이터 웨어하우스와 달리, 데이터 레이크는 데이터를 저장하기 전에 사전에 스키마를 정의할 필요가 없으며, 분석 시...

#데이터 레이크 #Schema-on-Read #데이터 거버넌스 #빅데이터 저장 #클라우드 스토리지

데이터베이스 지식 발견

기술 > 데이터과학 > 데이터 생성 | 익명 | 2025-09-11 | 조회수 74

# 데이터베이스 지식 발견 ## 개요 **데이터베이스 지식 발견**(Knowledge Discovery in Databases, 이하 KDD)은 대규모 데이터베이스에서 잠재적인 패턴, 관계, 트렌드 등을 추출하여 유의미한 정보와 지식을 도출하는 과정을 의미합니다. 이는 단순한 데이터 분석을 넘어, 데이터로부터 인사이트를 창출하고 의사결정에 활용할 수 있...

#일반 #문서

Trifacta

기술 > 데이터관리 > 데이터 정제 도구 | 익명 | 2025-09-09 | 조회수 83

# Trifacta ## 개요 **Trifacta**는 대용량 데이터를 효과적으로 정제하고 변환하기 위한 선도적인 데이터 정제 도구로, 기업의 데이터 과학자, 분석가, 엔지니어들이 복잡한 원시 데이터를 분석 가능한 형태로 빠르게 가공할 수 있도록 지원한다. Trifacta는 머신러닝 기반의 인터랙티브 인터페이스를 제공하여 사용자가 코드 없이도 직관적으로...

#Trifacta #데이터 정제 #머신러닝 기반 추천 #시각화 인터페이스 #Apache Spark

YARN

기술 > 클러스터 관리 > YARN | 익명 | 2025-09-04 | 조회수 61

# YARN **YARN**(Yet Another Resource Negotiator)은 아파치 하둡(Apache Hadoop) 프로젝트의 핵심 구성 요소 중 하나로, 분산 컴퓨팅 환경에서 클러스터 리스를 효율적으로 관리하고 작업을 스케줄링하는 데 사용되는 **리소스 관리 및 작업 스케줄링 프레임워크**입니다. 하둡 2.0 버전부터 도입되며, 기존의 맵리...

#YARN #리소스 관리 #하둡 #ApplicationMaster #NodeManager