위키너와나

ROC Curve

기술 > 데이터과학 > 데이터 시각화 | 익명 | 2026-06-20 | 조회수 0

# ROC Curve (Receiver Operating Characteristic Curve) ## 개요 **ROC 곡선**(Receiver Operating Characteristic Curve)은 이진 분류(Binary Classification) 모델의 성능을 평가하고 시각화하는 데 널리 사용되는 그래프입니다. 주로 의료 진단, 스팸 필터링, 신...

#ROC Curve #AUC #이진 분류 #모델 평가 #scikit-learn #Python #TPR #FPR #데이터 과학

Polaris

기술 > 자연어처리 > 자연어처리 도구 | 익명 | 2026-06-20 | 조회수 3

# Polaris (자연어처리 프레임워크) **Polaris**는 대규모 언어 모델(LLM) 기반의 애플리케이션 개발을 가속화하기 위해 설계된 오픈소스 자연어처리(NLP) 프레임워크입니다. 주로 데이터 엔지니어링, 모델 파인튜닝, 그리고 LLM 기반 애플리케이션의 배포 및 모니터링을 위한 통합 환경을 제공하여, 개발자가 복잡한 인프라 관리 없이도 효율적으...

#Polaris #LLM #자연어처리 #NLP #LLM Ops #파인튜닝 #데이터 파이프라인 #오픈소스

기계학습 기반 전처리

기술 > 머신러닝 > 모델 전처리 | 익명 | 2026-06-20 | 조회수 2

# 기계학습 기반 전처리 (Machine Learning-Based Preprocessing) ## 개요 **기계학습 기반 전처리(Machine Learning-Based Preprocessing)**는 전통적인 통계적 방법이나 규칙 기반 접근법을 넘어서, 머신러닝 알고리즘 자체를 활용하여 데이터의 품질을 개선하고 모델의 학습 성능을 최적화하는 과정을 ...

#기계학습 기반 전처리 #결측치 대체 #차원 축소 #이상치 탐지 #Autoencoder #GAN #Isolation Forest #데이터 누수

RepeatedKFold

기술 > 데이터과학 > 모델 평가 | 익명 | 2026-06-20 | 조회수 3

# RepeatedKFold **RepeatedKFold**(중복 K-폴드 교차 검증)는 머신러닝 모델의 성능을 평가할 때 사용되는 교차 검증(Cross-Validation) 기법 중 하나입니다. 기존의 K-폴드 교차 검증(K-Fold Cross-Validation)을 여러 번 반복하여 수행함으로써, 데이터의 분할 방식에 따른 편향(Bias)을 줄이고 모...

#Machine Learning #Cross-Validation #RepeatedKFold #scikit-learn #Model Evaluation #Bias Reduction #Data Science

MultiNLI

기술 > 자연어처리 > 데이터셋 | 익명 | 2026-06-20 | 조회수 4

# MultiNLI **MultiNLI**(Multi-Genre Natural Language Inference)는 자연어 처리(NLP) 분야에서 널리 사용되는 대규모 텍스트 데이터셋으로, **자연어 추론(Natural Language Inference, NLI)** 과제를 평가하고 발전시키기 위해 설계되었습니다. 이 데이터셋은 스탠포드 대학교의 자연어 ...

#MultiNLI #자연어추론 #NLP #데이터셋 #GLUE #일반화 #다중장르

특징 강화

기술 > 데이터과학 > 분석 | 익명 | 2026-06-20 | 조회수 0

# 특징 강화 (Feature Enhancement) ## 개요 **특징 강화**(Feature Enhancement)는 데이터 과학 및 머신러닝 분야에서 원시 데이터(Raw Data)의 품질을 개선하거나, 기존 특징(Feature)의 표현력을 높여 모델의 예측 성능을 극대화하기 위한 일련의 전처리 및 변환 기법을 포괄하는 개념입니다. 단순히 결측치를 ...

#특징 강화 #Feature Engineering #데이터 전처리 #머신러닝 #PCA #임베딩 #과적합 방지 #데이터 과학

레이블의 분포

기술 > 데이터과학 > 데이터 정제 | 익명 | 2026-06-19 | 조회수 4

# 레이블의 분포 (Label Distribution) ## 개요 **레이블의 분포(Label Distribution)**는 기계 학습(Machine Learning) 및 데이터 과학 분야에서 분류(Classification) 문제의 타겟 변수(Target Variable)가 데이터셋 내에서 어떻게 할당되어 있는지를 나타내는 통계적 특성입니다. 특히 지...

#레이블 분포 #불균형 데이터 #기계 학습 #SMOTE #오버샘플링 #언더샘플링 #F1-Score #ROC-AUC #scikit-learn #데이터 과학

zero-shot 분류

기술 > 인공지능 > 전이 학습 | 익명 | 2026-04-16 | 조회수 21

# Zero-Shot 분류 ## 개요 Zero-shot 분류(Zero-Shot Classification, ZSC)는 머신러닝 및 인공지능 분야에서 훈련 데이터에 포함되지 않은 새로운 클래스를 식별하고 범주화하는 기술입니다. 기존 지도 학습이 레이블이 명시된 데이터를 통해 모델을 최적화하는 것과 달리, zero-shot 분류는 모델이 테스트 시점에 처음 ...

#Zero-Shot 분류 #전이 학습 #다모달 인공지능 #CLIP 모델 #대조 학습 #프롬프트 엔지니어링 #고급

Out-of-Vocabulary

기술 > 자연어처리 > 오류 정정 | 익명 | 2026-04-15 | 조회수 23

# Out-of-Vocabulary ## 개요 자연어처리(Natural Language Processing, NLP) 분야에서 **Out-of-Vocabulary**(OoV)는 모델이 학습 과정에서 접하지 못한 단어를 의미합니다. 이는 텍스트 데이터를 처리하는 시스템이 사전에 정의된 어휘 집합(Vocabulary)에 포함되지 않은 단어를 마주했을 때 발...

#Out-of-Vocabulary #서브워드 토크나이제이션 #자연어처리 #WordPiece #BPE

디멘셔널리티 문제

기술 > 데이터과학 > 분석 | 익명 | 2026-04-09 | 조회수 19

# 디멘셔널리티 문제 ## 개요 **디멘셔널리티 문제**(Dimensionality Problem), 또는 **차원의 저주**(Curse of Dimensionality)는 데이터 과학 및 머신러닝 분야에서 고차원 데이터를 다룰 때 발생하는 일련의 이슈를 의미합니다. 데이터의 차원(특징 수)이 증가함에 따라 데이터 공간의 기하학적 성질이 급격히 변화하며...

#디멘셔널리티 문제 #차원의 저주 #차원 축소 #특징 선택 #정규화 #데이터 과학

편향 문제

기술 > 인공지능 > AI 윤리 | 익명 | 2026-03-02 | 조회수 26

# 편향 문제 ## 개요 인공지능(AI) 시스템은 대량의 데이터와 복잡한 알고리즘을 기반으로 의사결정을 수행한다. 그러나 학습 데이터, 모델 설계, 운영 환경 등에 내재된 **편향(bias)** 은 AI가 인간과 동일하거나 더 나은 판단을 내리지 못하고, 특정 집단에 불리한 결과를 초래할 위험을 내포한다. AI 윤리 분야에서 **편향 문제**는 공...

#AI 편향 #공정성 지표 #데이터 편향 #알고리즘 편향 #편향 완화 #AI 윤리 #규제 가이드라인 #다중공정성

Outlier Detection

기술 > 데이터과학 > 데이터 분석 | 익명 | 2026-02-26 | 조회수 36

# Outlier Detection (이상치 탐지) ## 개요 Outlier Detection(이상치 탐지)은 데이터 집합에서 **다른 관측값들과 현저히 차이가 나는 데이터 포인트**를 식별하는 과정을 말한다. 이상치는 측정 오류, 데이터 입력 실수, 혹은 실제로 중요한 특이 현상을 나타낼 수 있기 때문에, 분석 단계에서 **제거, 보정, 혹은 별도 분석...

#이상치 탐지 #Isolation Forest #Local Outlier Factor #One-Class SVM #Autoencoder #고차원 데이터 #고급

CNN/Daily Mail

기술 > 자연어처리 > 벤치마크 | 익명 | 2026-02-26 | 조회수 44

# CNN/Daily Mail ## 개요 **CNN/Daily Mail**(줄여서 **C/D M**)은 자연어 처리(NLP) 분야에서 **추상적 요약(abstractive summarization)** 및 **추출적 요약(extractive summarization)** 모델을 평가하기 위해 널리 사용되는 대규모 벤치마크 데이터셋이다. 2015년 **...

#CNN/Daily Mail #abstractive summarization #extractive summarization #ROUGE metric #transformer model #pre‑trained language model #news summarization #고급

기계학습 기반 방법

기술 > 자연어처리 > 분석 방법 | 익명 | 2026-01-29 | 조회수 39

# 기계학습 기반 방법 ## 개요 기계학습 기반 방법(Machine Learning-based Approach)은 자연어처리(Natural Language Processing, NLP) 분야에서 언어 데이터의 패턴을 자동으로 학습하고 이를 기반으로 다양한 언어 과제를 수행하는 핵심 기술입니다. 전통적인 규칙 기반 시스템과 달리, 기계학습 기반 방법은 대...

#기계학습 기반 방법 #자연어처리 #지도 학습 #비지도 학습 #트랜스포머

EfficientNet-B0

기술 > 인공지능 > 신경망 모델 | 익명 | 2026-01-10 | 조회수 55

# EfficientNet-B0 ## 개요 **EfficientNet-B0**은 구글 리서치(Google Research)에서 2019년에 제안한 컨볼루션 신경망(Convolutional Neural Network, CNN) 아키텍처로, 깊이, 너비, 해상도의 세 가지 축을 동시에 조정하여 모델의 확장성과 효율성을 극대화한 **EfficientNet**...

#EfficientNet-B0 #복합 스케일링 #MBConv #이미지 분류 #전이 학습

이미지 전처리

기술 > 이미지 처리 > 전처리 | 익명 | 2026-01-07 | 조회수 42

# 이미지 전처리 이미지 전처리(Image Preprocessing)는 디지털 이미지를 컴퓨터 비전(Computer Vision) 또는 머신러닝 모델에 입력하기 전에 특정 목적에 맞게 변환하고 개선하는 일련의 과정을 말합니다. 이 과정은 원본 이미지의 노이즈를 제거하고, 특징을 강조하며, 모델의 학습과 추론 성능을 향상시키는 데 핵심적인 역할을 합니다. ...

#이미지 전처리 #컴퓨터 비전 #정규화 #데이터 증강 #OpenCV

텍스트 정제

기술 > 데이터과학 > 데이터 생성 | 익명 | 2026-01-03 | 조회수 40

# 텍스트 정제 ## 개요 **텍스트 정제**(Text Cleaning)는 자연어 처리(NLP, Natural Language Processing) 및 데이터 과학 분야에서 원시 텍스트 데이터를 분석 가능한 형태로 변환하기 위한 전처리 과정의 핵심 단계이다. 실제 환경에서 수집되는 텍스트 데이터는 오타, 불필요한 기호, HTML 태그, 이모지, 대소문자...

#텍스트 정제 #자연어 처리 #형태소 분석 #정규표현식 #데이터 전처리

train_size

기술 > 데이터과학 > 하이퍼파라미터 | 익명 | 2026-01-03 | 조회수 43

# train_size ## 개요 `train_size`는 머신러닝 및 데이터 과학 분야에서 모델 학습을 위한 데이터 분할 과정에서 사용되는 **하이퍼파라미터** 중 하나로, 전체 데이터셋 중 **학습 데이터**(training set)로 사용할 비율 또는 개수를 지정하는 파라미터입니다. 이 파라미터는 모델의 학습 성능과 일반화 능력에 직접적인 영향을 ...

#train_size #하이퍼파라미터 #데이터 분할 #scikit-learn #머신러닝

지도 학습

기술 > 머신러닝 > 학습 방법 | 익명 | 2026-01-03 | 조회수 38

# 지도 학습 ## 개요 **지도 학습**(Supervised Learning)은 머신러닝의 핵심 학습 방법 중 하나로, **입력 데이터**(특징, features)와 그에 대응하는 **정답 레이블**(정답, labels)이 함께 주어진 상태에서 모델이 데이터의 패턴을 학습하여 새로운 입력에 대해 정확한 출력을 예측하도록 훈련하는 방식입니다. 이 방법은...

#지도 학습 #분류 #회귀 #머신러닝 #지도 학습 절차 #모델 평가 #초급

다중 클래스 분류

기술 > 데이터과학 > 분석 | 익명 | 2025-12-30 | 조회수 42

# 다중 클래스 분류 ## 개요 다중 클래스 분류(Multiclass Classification)는 머신러닝 및 데이터 과학 분야에서 중요한 분석 기법 중 하나로, 주어진 입력 데이터를 **세 개 이상의 서로 독립적인 클래스**(카테고리)로 분류하는 작업을 말합니다. 이는 이진 분류(Binary Classification)의 일반화된 형태이며, 현실 세...

#다중 클래스 분류 #소프트맥스 회귀 #OvR #OvO #교차 엔트로피 #혼동 행렬

검색 결과