# Hadoop HDFS ## 개요 **Hadoop HDFSHadoop Distributed File System)는파치 하둡pache Hadoop)로젝트의심 구성 요소 중 하나, 대용량 데이터를 분산 환경에서 안정적이고 효율적으로 저장하기 위한 분산 파일 시스템입니다. HDFS는천 대의 일반적인 상용 하드웨어로 구성된 클러스터에서 페타바이트(PB) 규...
검색 결과
"데이터셋"에 대한 검색 결과 (총 208개)
# ViT (Vision Transformer## 개요 ViT(V Transformer)는 전통적인 컨루션 신경(Convolutional Neural Network,) 대신 **랜스포머**(Transformer 아키텍처를 기으로 이미지 인식 작업을 수행하는 **컴퓨터비전 모델**입니다. 2020년글 딥마인드(Google Brain) 팀이 발표한 논문 *"...
# MARD: 측정 정확도의 핵심 지표 ##요 **MARD**(Mean Absolute Relative Difference, 평균 절대 상대 오차)는 측정 기술 분야에서 측정 장치의 **정확도**(accuracy)를 평가하는 데 널리 사용되는 통계적 지표입니다. 특히 **혈당 측정 장치**, 예를 들어 연속혈당측정기(CGM, Continuous Gluc...
# BERT ## 개요 **BERT**(Bidirectional Encoder Represent from Transformers)는어 처리(NLP)야에서 혁신적인과를 이룬러닝 기반 언어 모델로, 구글(Google) 연구팀이 2018년에 발표한 머신러닝 모델이다. BERT는 이전의 단방향 언어 모델들과 달리 **양방향 컨텍스트**(Bidirectional...
# Bidirectional Encoder Represent from Transformers ## 개요 **Bid Encoder Representations from Transformers**(BERT는 자연어 처리(NLP) 분야 혁신적인 성를 이룬 언어델로, 018년글(Google) 연구에 의해 개발. BERT는 이전의 단방향 언어 모델들(예: GPT...
# EfficientNet EfficientNet은 구글(Google) 연구팀이2019년에 발표한 컨볼루션 신경망(Convolutional Neural Network,) 아키텍처, 정확도와산 효율성 사이의 최적 균형을 추하는 것을 목표로 설계되었습니다. 기존의 CNN 모델들이 네트워크의 깊이(depth), 너비(width), 해상도(resolution)를...
# 교차 검증 ## 개요 **교차 검**(Cross-Validation, CV) 기계학습 통계 모델의 성능을가하고 과적(overfitting) 방지하기 위해 사용되는 기법입니다. 모델이 훈련 데이터만 잘 맞추어져 새로운 데이터에 대해서는 성능이 저하되는 문제를 사전에 검출하기 위해, 데이터를 여러 번 나누어 학습과 검증을 반복하는 방식으로 작동합니다. ...
# Sentence-BERT **Sentence-BERT**(SBERT)는 문장 단위의 의미를 효과적으로 인코딩하기 위해 개발된 **문장 임베딩**(sentence embedding)델로, 기존 BERT 모델의계를 보완하여 문장 간 유사도 계산, 의미 비교, 클러스터링, 검색 등 다양한 자연어처리(NLP) 과제에서 뛰어난 성능을 보여줍니다. SBERT는 ...
# 필터 방법 ## 개요**필터 방법**( Method)은 데이터과학, 특히 머신러닝과 통계 모델링에서 **특성 선택**(Feature Selection)을 수행하는 대표적인 기법 중 하나입니다. 이은 모델 훈련 과정에 의존하지 않고, 데이터 자체 통계적 특성만을 기반으로 각 특성의 중요도를 평가하여 불필요하거나 중복된 변수를 제거하는 것을 목표로 합니다...
시간 영역 정규 **시간 영역 정규**(Time Domain Normalization, T)는 음성식 시스템에서 음성 신호의 시간적 변동성을 보정하기 위한 전처리 기법 중 하나이다. 인간의 발화 속도는 상, 감정, 개인 차이 등에 따라 크게 달라질 수 있으며, 이로 인해 동일한 단어나 문장이라도 길이가 다르게 나타날 수 있다. 시간 영역 정규화는 이러한 ...
파일 지오데이터이스 ## 개요 **파 지오데이터베이스File Geodatabase 이하 FGDB) 지리정보시스템IS) 환경에서 공간 데이터를 저장 관리하기 위한 파일 기반 데이터베이스식으로, Esri사에서 개발하고 제공하는 주요 데이터 저장 구조 중 하나이다. FG는 전통적인 shapefile 형식의계를 극복하고, 대용 공간 데이터를 효적으로 저장·조작...
# 데이터 검증 ## 개 **데이터 검증**(Data)은 데이터의 정확, 일관성, 완전성 및 신뢰성을 보장하기 위해 수행되는 일련의 절차와 기법을 의미합니다. 데이터 과학 및 정보 시스템 분야에서 데이터 검증은 데이터 분석, 모델링, 의사결정 과정의 신뢰도를 확보하는 핵심 단계로, 오류가 포함된 데이터가 후속 프로세스에 영향을 미치는 것을 방지하는 데 ...
# Vision Transformer ## 개요 **Vision Transformer**(ViT)는 전통적으로 이미지 인 작업에서 지배적인 위치를 차지해온합성곱 신망**(CNN)과는 다른 접근 방식을 제시한 획기적인 인공지능 모델이다. 2020년 Research 팀이 발표한 논문 *"An Image is Worth 16x16 Words: Transfor...
# zero-shot 전이 학습 ## 개요 **zero 전이 학습**(Zero-Shot Transfer Learning) 인공지능 특히 기계학습과 자연어 처리 분야에서 중요한 개념 중 하나로, 모델이 **훈련 과정에서 한 번도 본 적 없는 클래스**(unseen classes)에 대해 예측을 수행할 수 있도록 하는 기법입니다. 이는 전이 학습(Trans...
# 파인튜닝 **파인튜닝**(Fine-tuning)은 사전 훈련된(pre-trained) 머신러닝 모델을 특정 작업이나 도메인에 맞게 추가로 훈련하여 성능을 개선하는 기법입니다. 주로 딥러닝 기반의 대규모 모델, 특히 자연어 처리(NLP), 컴퓨터 비전(CV), 음성 인식 등에서 널리 사용되며, 전이 학습(Transfer Learning)의 한 형태로 간...
# Universal Sentence Encoder **Universal Encoder**(유니버설 문장 인코더, 이하 USE)는 구글이 개발한 자연어 처리(NLP) 모델로 문장을 고정된 차원의 의미 벡터(임베딩)로 변환하는 데 특화된 딥러닝 기반 임베딩 기술이다. 이 모델은 다양한 언어와 문장 구조에 대해 일반화된 의미 표현을 제공하며, 분류, 유사도 ...
# 감정 분석 ## 개요 감정 분석Sentiment Analysis)** 자연어처리(NLP의 핵심 기술 중 하나로,스트 데이터에 내재된 사용자의정, 태도, 의견 등을 자동으로 식별하고 분류하는 과정을 의미합니다. 이 기술은 소셜 미디어 리뷰, 고객 피드백, 뉴스 기사, 설문 조 응답 등 다양한 텍스트 소스에서 긍정, 부정, 중립의 감정 범주를 추출하거나...
# CLIP: 컨텍스트 기반 다중 모달 모델 ## 개요 **CLIPContrastive Language–Image Pre-training)은 OpenAI에서 2021에 발표한 **티모달 인공지능 모델**로, 이미지와 텍스트 간의 관계를 학습하여 시각적 정보와 언어 정보를 동시에 이해하는 능력을 갖춘 대표적인 모델입니다. CLIP은 전통적인 컴퓨터 비전 ...
# Altair **air**는 파썬 기반의 선적 데이터 시각 라이브러로, 사용자가 데이터를 직관적이고 효율적으로 시각화할 수 있도록 도와줍니다. Altair는 **Vega** 및 **Vega-Lite** 시각화 시스템 위에 구축되어 있으며, 통계적 데이터를 기반으로 한 시각화를 위한 간결하고 표현력 있는 문법을 제공합니다. 특히, 데이터 과학자와 분석가...
# 결측치 처리 ## 개요 결측치 처리(Missing Data Handling)는 데이터 과학 및 통계 분석에서 중요한 전처리 과정 중 하나로, 데이터셋 내에서 일부 값이 누락된 경우(NaN, NULL, 빈 값 등) 이를 어떻게 처리할지를 결정하는 절차를 의미합니다. 현실 세계의 데이터는 다양한 이유로 결측치를 포함할 수 있으며, 이를 적절히 처리하지 ...