Hadoop HDFS
# Hadoop HDFS ## 개요 **Hadoop HDFSHadoop Distributed File System)는파치 하둡pache Hadoop)로젝트의심 구성 요소 중 하나, 대용량 데이터를 분산 환경에서 안정적이고 효율적으로 저장하기 위한 분산 파일 시스템입...
# Hadoop HDFS ## 개요 **Hadoop HDFSHadoop Distributed File System)는파치 하둡pache Hadoop)로젝트의심 구성 요소 중 하나, 대용량 데이터를 분산 환경에서 안정적이고 효율적으로 저장하기 위한 분산 파일 시스템입...
# 부모 커밋 ## 개요 **부모 커**(Parent Commit)은 버전 관리 시스템, 특히 **Git**에서 중요한 개념 중 하나로, 특정 커밋이 생성되기 이전에 존재하던 커밋을 의미합니다. 즉, 각 커밋은 자신의 변경 사항이 기반으로 삼은 하나 이상의 이전 커...
# 데이터 레이크 ## 개요 **데이터 레이크**(Data Lake)는 기업이나 조직이 다양한 출처에서 생성되는 대량의 구조화된, 반구조화된, 비구조화된 데이터를 원시 형태로 저장할 수 있는 중앙 집중식 저장소입니다. 전통적인 데이터베이스나 데이터 웨어하우스와 달리...
# 데이터 무결성 ## 개요 **데이터 무결성**(Data)은 정보의 정확성, 일관성, 신뢰성을 유지하는 상태를 의미합니다. 정보 시스템에서 데이터는 생성, 저장, 전송, 처리, 삭제 등 다양한 과정을 거치며, 이 과정 중 데이터가 변조되거나 손실되지 않고 원래의 ...
# Trifacta ## 개요 **Trifacta**는 대용량 데이터를 효과적으로 정제하고 변환하기 위한 선도적인 데이터 정제 도구로, 기업의 데이터 과학자, 분석가, 엔지니어들이 복잡한 원시 데이터를 분석 가능한 형태로 빠르게 가공할 수 있도록 지원한다. Trif...
# 데이터 무결성 개요 **데이터 무결성**(Data Integrity은 데이터의 정확성,관성, 신뢰성 및 완전성을 보장하는 개념으로, 정보 시스템에서 데이터가 생성, 저장, 전송, 처리 전 과정 동안 **의도하지 않은 변경이나 손실이 없도록 유지되는 상태**를 ...
# 직렬화 개요 **직렬화**(Serialization) 컴퓨터 과학에서 데이터 구조나 객체의 상태를 저장하거나 전송할 수 있도록 일련의 바이트(byte) 형태로 변환하는 과정을 의미합니다. 과정을 통해 메모리 상의 복잡한 데이터를 파일, 데이터베이스, 네트워크 ...
# 파일 입출력 ## 개요 **파일 입출력**(File Input/Output,하 I/O)은 컴퓨터 프로그램이 저장 장치(예: 하드디스크, SSD)에 있는 파일을 읽거나 쓰는 과정을 의미합니다. 데이터리의 핵심 요소 중 하나, 사용자 데이터의 영구 저장, 프로그램 ...
# Pandas ## 개요**Pandas** 파이썬(Python) 기반의력한 **데이터 분석 및 데이터 조작 라이브러리**로, 데이터 과학, 통계 분석, 머러닝, 금융 분석 등 다양한야에서 널리 사용되고 있습니다 Pandas는 고성능의 데이터 구조와 데이터 분석 도구...
# OpenRefine ## 개요 **OpenRefine**은 대량의 비정형적이고 불완전한 데이터를 효과적으로 정제하고 변환하기 위한 오픈소스 데이터 관리 도구입니다. 원래는 *Google Refine*이라는 이름 구글에서 개발되었으며, 이후 오픈소스 커뮤니티에 기...
# 체크아웃 ## 개요 **체크아웃**(Checkout)은 버전 관리 시스템(Version Control System, V)에서 특정 버전의 파일 또는 프로젝트를 로컬 환경으로 복사하여 작업할 수 있도록 만드는 과정을 의미합니다. 이는 소프트웨어 개발, 문서 관리,...