위키너와나

TF-IDF

익명 • 2025-09-30 • 조회수 68

# TF-IDF ## 개 TF-IDF(Term Frequencyverse Document Frequency) 자연어 처리(NLP와 정보 검색Information Retrieval) 분야에서 널 사용되는 **텍스트 데이터의 중요도를 수치화하는 가중치 기**입니다. 이...

OneHotEncoder

익명 • 2025-09-30 • 조회수 65

기술 / 데이터과학 / 데이터 분석 도구

# OneHotEncoder ##요 **OneHotEncoder**는 머신러닝 및 데이터 과 분야에서 범주형 데이터(c data)를 모이 처리할 수 있는 수치 형태로 변환 위해 사용되는 전처리 도구입니다. 사이킷런(Scikit-learn 라이브러리에서 제공하는 `s...

OneHotEncoder 범주형 데이터 원-핫 인코딩 +2

해싱 트릭

익명 • 2025-09-30 • 조회수 64

기술 / 데이터과학 / 데이터 인코딩

# 해싱 트릭## 개요 **해싱 트**(Hashing Trick)은 기 학습 및 데이터 과학 분야 고차원의 범주형 데이터를 효율적으로 처리하기 위한 기술이다. 특히 자연어 처리(NLP)나 대규모 범주형 피처를 다룰 때, 원-핫 인코딩(Oneot Encoding)과 같...

해싱 트릭 피처 해싱 원-핫 인코딩 +2

샘플링

익명 • 2025-09-29 • 조회수 50

기술 / 데이터과학 / 샘플링

# 샘플링 ## 개요 **샘플링**()은 전체 모집(Population)에서 일부 선택하여 그 특성을 조사함으로써 모단의 성질을 추정하는 통계적 방법이다. 현실 세계 모든 데이터를 수집하거나 분석하는 것은 비용, 시간 자원 등의 제약으로 인해 불능한 경우가 많기 때...

샘플링 확률 샘플링 비확률 샘플링 +2

모델 해석성

익명 • 2025-09-28 • 조회수 54

기술 / 데이터과학 / 분석

# 모델 해석성 ## 개요 **모델 해석성**(Model Interpretability)은 머신러닝 및 데이터과학 분야에서 모델이 예측을 내놓는 과정을 인간이 이해할 수 있도록 설명하는 능력을 의미합니다. 특히 복잡한 알고리즘(예: 딥러닝, 부스팅 모델 등)이 사용...

일반 문서

오버샘플링

익명 • 2025-09-28 • 조회수 112

기술 / 데이터과학 / 데이터 전처리

# 오버샘플링 ## 개요 오버샘플(Over-sampling은 기계 학습 데이터 과학 분야에서불균형 데이터(imbalanced data)** 문제를 해결하기 위해 사용되는 데이터 전 기법 중 하나. 불균형란 특정 클래스의 샘플 수가 다른에 비해 현히 적은 경우를 말하...

오버샘플링 불균형 데이터 SMOTE +2

평균 절대 오차

익명 • 2025-09-27 • 조회수 60

기술 / 데이터과학 / 회귀 분석

# 평균 절대 오 ## 개요 **평균 절대 오차**(Mean Absolute Error, MAE)는 회귀 분석에서 예 모델의 성능을 평가하는 대표적인 지표 중입니다. MAE는 예측값과 실제 관값 사이의 차이, 즉 **오차**(error)의 절대값을 평균한 값으로, ...

일반 문서

MSE

익명 • 2025-09-27 • 조회수 60

기술 / 데이터과학 / 회귀 분석

# MSE ## 개요 **MSE**(Mean Squared Error, 평균 제곱 오차)는 회귀 분석에서 예측 모델의 정확도를 평가하는 데 널리 사용되는 지표입니다. 이 값은 예측값과 실제 관측값 사이의 차이(오차)를 제곱한 후, 그 평균을 계산함으로써 모델의 전반...

MSE 회귀 분석 손실 함수 +2

ROC 곡선

익명 • 2025-09-27 • 조회수 65

기술 / 데이터과학 / 모델 평가

# ROC 곡선 ## 개요 ROC 곡선(Receiver Operatingistic Curve, 수기 운영 특성 곡선)은 이진류 모델의 성능을각적으로 평가하고 비교하는 데 사용되는 중요한 도입니다. ROC 곡선은 다양한 분류 임계값(threshold)에 **민감도**...

ROC 곡선 AUC 이진 분류 +4

TN

익명 • 2025-09-27 • 조회수 55

기술 / 데이터과학 / 혼동 행렬

# TN ## 개요 **TN**(True Negative, 참 음성)은 통계학 및 기계학습에서 분류 모델의 성능을 평가하는 데 사용되는 **혼동 행렬**(Confusion Matrix)의 네 가지 기본 요소 중 하나입니다. TN은 모델이 '음성 클래스(Negativ...

TN 혼동 행렬 특이도 +2

FP

익명 • 2025-09-27 • 조회수 57

기술 / 데이터과학 / 혼동 행렬

FP **FP**(False Positive, 위양성)는 데이터, 특히 머신러닝과 통계 분석에서 중요한 개념 중 하나로, **모델이 실제로는 부정 클래스**(Negative) **인 사례를 잘못되어 양성 클래스**(Positive) **로 예측한 경우**를 의미합니다...

FP 혼동 행렬 정밀도 +2

ACF

익명 • 2025-09-27 • 조회수 71

기술 / 데이터과학 / 시계열 분석

# ACF ## 개요 ACF(Autorrelation Function, 자기관함수)는 시계열 분석에서 중요한 개념 중 하나로, **한 시계열 데이터 내에서 서로 다른 시점의 관측값 사이의 상관관계 측정하는 함수**입니다 시계열 데이터는 시간에 따라 순차적으로 수집된...

ACF 시계열 분석 자기상관 +6

ACF 플롯

익명 • 2025-09-27 • 조회수 71

기술 / 데이터과학 / 시계열 분석

# ACF 플롯 ## 개요 ACF 플롯utocorrelation Function Plot), 즉자기상관 함수 플롯**은 시계열 분석에서 핵심적인 시각화 도구 중 하나입니다. 이 플롯은 시계열의 각 시점 간 상관관계를 나타내며, 특히 과거 관측값이 현재 관측값에 어떤...

ACF 플롯 시계열 분석 ARIMA 모델 +6

외생 변수

익명 • 2025-09-27 • 조회수 55

기술 / 데이터과학 / 회귀분석

# 외생 변수 ## 개요 외생 변수(外生變數, exogenous variable)는 통계학, 특히 회귀분석과 계경제학에서 중요한 개념 중 하나로, 모델 외부에서 결정되며 분석 대상인 모델 내부의 변수에 영향을 미치지만, 모델 내부의 다른 변수로부터 영향을 받지 않는...

외생 변수 내생성 회귀분석 +2

예측 정확도 평가

익명 • 2025-09-27 • 조회수 60

기술 / 데이터과학 / 모델 평가

# 예측 정확도 평가 예측 정확도가는 데이터과학에서 머신러닝 모델이나 통계 모델의 성능을 판단하는 핵심 과정이다. 모델이 학습된 후, 새로운 데이터에 대해 얼마나 정확하게 예측하는지를 평가함으로써 모델의 신뢰성과 실용성을 판단할 수 있다. 특히 분류, 회귀, 시계열 ...

예측 정확도 평가 지표 분류 모델 +2

시계열 예측

익명 • 2025-09-26 • 조회수 61

기술 / 데이터과학 / 예측 분석

# 시계열 예측 ## 개요 **시계열 예측**(Time Series Forecasting)은 시간에 따라 순차적으로 수집된 데이터를 기반으로 미래의 값을 예하는 데이터 과학의 핵심법 중 하나입니다. 이법은 경제표, 주가,상 데이터, 판매량 웹 트래픽 등 시간의 흐름...

시계열 예측 ARIMA LSTM +2

데이터 기반 자동화

익명 • 2025-09-23 • 조회수 59

기술 / 데이터과학 / 분석

데이터 기반 자화 ## 개 **데이터 기반 자동화**(Data-Driven, DDA)는 실시간 또는 배 처리된 데이터를 기반으로 시스템이 자율적으로을 내리고을 수행하는 기술적 접근식을 의미합니다 이는 전통적인칙 기반 자화와 달리 정형·비정 데이터를 분석하여 동적 상...

데이터 기반 자동화 머신러닝 실시간 분석 +2

에이전트 기반 모델

익명 • 2025-09-23 • 조회수 73

기술 / 데이터과학 / 분석

# 에이전트 기반델 ## 개요 에이전트 기반 모**(Agent-Based Model 이하 ABM) 복잡한 시템의 거시 현상을 미시적준의 개별 구성 요소(에이트)들의 행동과 상호작용 통해 시뮬레이션하는 컴퓨터 기반의 모델링 기법이다. 이 모델은통적인 수학 모델링 방식...

에이전트 기반 모델 이머전스 Mesa +2

희소성

익명 • 2025-09-21 • 조회수 65

기술 / 데이터과학 / 데이터 유형

# 희소성 ## 개요 **희소성**(Sparsity은 데이터과학 및 머신러닝 분야에서 자주 등장하는 중요한 개념으로, 데이터의 대부분이 **0** 또는 비어 있는 상태를 의미합니다. 즉, 전체 데이터 구조 중에서 실제 유의미한 정보(비영 값)를 가진 요소의 비율이 ...

희소성 희소 행렬 NLP +2

데이터 전처리

익명 • 2025-09-20 • 조회수 66

기술 / 데이터과학 / 분석

# 데이터 전처리 데이터 전처리(Data Preprocessing)는 데이터 과학 프로젝에서 분석 또는 기계 학습 모델을 구축하기 전에 원시 데이터를 정리하고 변환하는 과정을 의미합니다. 현실 세계의 데이터는 대부분 불완전하고, 일관되지 않으며, 중되거나 노이즈가 포...

데이터 전처리 결측치 처리 정규화 +2