# Apache Spark ## 개요 Apache Spark는 대규모 데이터 처리를 위한 오픈소스 분산 컴퓨팅 프레임워크. 2009년 UC 버클리의 AMPLab에서 개발을 시작했으며, 2010년에 오픈소스로 공되고 203년 Apache Software Foundation 인큐베이션 프로젝트로 채택된 이후, 빅데이터 처리 분야에서 가장 널리 사용되는 도구...
검색 결과
"Spark"에 대한 검색 결과 (총 36개)
# MapReduce ## 개요 **MapReduce**는 대규모 데이터셋을 분산 처리하기 위한 프로그래밍 모델이자 소프트웨어 프레임워크로, 구글에서 2004년에 발표한 논문을 통해 처음 공개되었습니다. 이 모델은 수천 대의 컴퓨터로 구성된 클러스터에서 병렬로 데이터를 처리할 수 있도록 설계되어, 빅데이터 환경에서 매우 중요한 역할을 합니다. MapRe...
# 데이터셋 ## 개요 **데이터셋**(Dataset)은 데이터 과학 및 정보 기술 분야에서 분석, 모델링, 연구 등의 목적으로 사용되는 구화되거나 비구조화된 데이터의 집합을 의미합니다. 일반적으로 데이터셋은 테이블 형태로 구성되며, 행은 하나의 관측치 또는 샘플을, 각 열은 해당 샘플의 특성(변수)를 나타냅니다. 데이터셋은 머신러닝, 통계 분석, 데이...
블록 ##요 "블(block)"은 데이터과학 및 컴퓨터 과학 전반에서 핵적인 개념으로, 데이터를율적으로 저장, 처리, 전송 위한 기본 단위 의미합니다. 특히 데이터구조의 맥락에서 블록은 연속 메모리 공간이나 저장 장치의 단위로 사용되며, 대용량 처리, 파일 시스템, 데이터이스, 분산소, 블록체인 등 다양한 분야에서 활용됩니다. 이 문서에서는 데이터과학과...
# 데이터 필터링 ##요 데이터 필터링 Filtering)은 데이터 과학 및 분석 과정에서 핵심적인 단계 중 하나로, 원시 데이터(raw data)에서 분 목적에 부적합하거나 불필요한 데이터를 제거하거나 선택하여 유의미한 정보만 추출하는 작업. 이 과정은 데이터 품질을 향상고, 분석의확도와 효율성을 높이며, 모델 학습 시 노이즈(noise)를 줄이는 데...
# 데이터 형식 변기 ## 개요 데이터 형식환기(Data Format)는 다양한 데이터 형식의 구조적 문법적 표현을 호환 가능한 형태 변환하는 소트웨어 도구 알고리즘을합니다. 데이터 과 및 정보 기술 분에서 데이터는 다양한스에서 수집되, 각 소스마다유한 형식 사용합니다. 예 들어, 관계형베이스는나 SQL 테이블식으로 데이터를하고, IoT 장는 JSON ...
# 클라우드 기반 분석 플랫폼 ## 개 클라우 기반 분석 플폼(Cloud-based Analytics Platform)은 클라우드팅 환경에서 대량의 데이터를 수집, 저장, 처리 및 분석할 수 있도록 설계된 통합 시스템이다. 이러한 플랫폼은업 및 조직이 데이터 기반 의사결정을 효율적으로 수행할 수 있도록 지원하며, 전통적인 온프레미스(On-premises...
# OpenJDK **OpenJDK**(Open Java Development Kit는 자바 프래밍 언어를 위한개 소스 기의 개발 키트로, 자바 플폼의 핵심 구현체 중 하나입니다.바 SE(Standard Edition)의 공식 참조 구현(reference implementation)으로 인정되며, 자바의 오픈소스화 이후 자바 생태계의 중심적인 역할을 하고...
# Java Java는 전 세계적으로 널리 사용되는 객체 지향 프래밍 언어로, 995년에 선 마이로시스템즈(Sun Microsystems)에서 개발하여 이후 오라클(Oracle)에 인수된 언어입니다. "쓰기 한 번, 어디서나 실행(Written Once, Run Anywhere)" 철학 아래 설계된 Java는 플랫폼 독립성, 안정성, 보안성 등을 강점으로...
# pandas **pandas**는 파이썬 데이터 조작과 분석을 위한 강력하고수준의 오픈스 라이브러리. NumPy, Sci, Matplotlib 등 함께 Python 기반 데이터학 생태계 핵심 구성 요 중 하나로, 데이터를율적으로 읽고, 정제, 변형하며 분석할 수 있는 다양한 기능을 제공합니다. 특히 **2차원 테이블 형식의 데이터**(데이터프레임)를 ...
# 해싱 트릭## 개요 **해싱 트**(Hashing Trick)은 기 학습 및 데이터 과학 분야 고차원의 범주형 데이터를 효율적으로 처리하기 위한 기술이다. 특히 자연어 처리(NLP)나 대규모 범주형 피처를 다룰 때, 원-핫 인코딩(Oneot Encoding)과 같은 전통적인 인코 방식이 메모리와 계산 자원을 과도하게 소모하는 문제를 해결하기 위해 제안...
# 컨테이너 오케스트레이션 ## 개요**컨테이너 오케스트션**(Container Orchestration) 다수의 컨이너화된 애플케이션을 자동으로 배포, 관리, 확장,니터링하고 장애 복를 수행하는 기술 및 프로세스를 의미합니다 마이크로서비스 아키텍처의 확산과 함께 컨테이너 기술(Docker 등)이 널리 사용되면서, 수백에서 수천 개에 이르는 컨테이너 수동...
데이터 기반 자화 ## 개 **데이터 기반 자동화**(Data-Driven, DDA)는 실시간 또는 배 처리된 데이터를 기반으로 시스템이 자율적으로을 내리고을 수행하는 기술적 접근식을 의미합니다 이는 전통적인칙 기반 자화와 달리 정형·비정 데이터를 분석하여 동적 상황에 맞춰 적응하는 능력을 갖추고 있어, 제조업, 금융, 물류, 헬스케어 등 다양한 산업 ...
# 데이터 전처리 데이터 전처리(Data Preprocessing)는 데이터 과학 프로젝에서 분석 또는 기계 학습 모델을 구축하기 전에 원시 데이터를 정리하고 변환하는 과정을 의미합니다. 현실 세계의 데이터는 대부분 불완전하고, 일관되지 않으며, 중되거나 노이즈가 포함되어 있어 그대로 사용 경우 분석 결과의 신뢰도가 떨어질 수 있습니다. 따라서 데이터 전...
# 빅데이터 분석 플랫폼 ## 개요 빅데이터석 플랫폼은 대의 구조화, 반구조, 비구조화 데이터를 수집, 저장, 처리, 분석 시각화할 수 있도록 설계 소프트웨어 시스템 또는 통합 환경을 의미합니다. 현대 기업과 기관은 매일 페타바이트(PB) 단위의 데이터를 생성하며, 이러한 데이터를 효과적으로 활용하기 위해서는 고성능의 분석 인프라가 필수적입니다. 빅데이...
# Hadoop HDFS ## 개요 **Hadoop HDFSHadoop Distributed File System)는파치 하둡pache Hadoop)로젝트의심 구성 요소 중 하나, 대용량 데이터를 분산 환경에서 안정적이고 효율적으로 저장하기 위한 분산 파일 시스템입니다. HDFS는천 대의 일반적인 상용 하드웨어로 구성된 클러스터에서 페타바이트(PB) 규...
# 산업용 IoT ## 개요 **산업용 IoTIndustrial Internet of Things, IIo)는 사물인터넷(IoT) 기술을 산업야에 적용한 개념으로, 제조, 에너지, 물류, 농업, 인프 등 다양한 산업에서 기계, 센서, 소프트웨어 및 네트워크를 통합하여 데이터 기반의 자동화와 효율성을 극대화하는 시스템을 의미한다. 특히 **무선 모니터링*...
# 데이터 특성 데이터는 현대 정보 사회의 핵심 자원으로, 다양한 분야 의사결정, 예, 자동화 등을 가능하게 합니다. ** 특성**(Data)은 데이터의 본질 속성과 성격을 설명하는 요소들로 데이터를 수집, 저장, 분석, 활용하는 과정에서 매우 중요한 기준이 됩니다. 데이터 과학에서는 데이터의 특성을 이해함으로써 적절한 처리 방법과 분석 기법을 선택할 수...
# 데이터 파이프라인 자동화 ## 개요데이터 파이프라인 자화(Data Pipeline Automation는 데이터 수집, 변, 로딩(L), 검증 모니터링, 배포 데이터 처리 과정을 수작업 없이 시스적으로 수행하도록 설계하는 기술적 접근입니다 대용량 데이터가 실시간으로 생성되는 현대 기업 환경에서는동으로 데이터를 관리하는 것이 비효율며 오류 발생 가능성이 ...
# Kubernetes ## 개요 **쿠버네티스**(Kubernetes, 줄여서 K8s) 컨테이너화된 애플리케이션 자동으로 배포, 확장 및 관리하기 위한 오픈소스 컨테이너 오스트레이션 플랫이다. 구글이 내부 시스템인 **Borg**를 기반으로 개발하여 2014년에 공개한 쿠버네티스는 현재 **클라우드 네이티브 컴퓨팅 재단**(CNCF, Cloud Nat...