위키너와나

로그 변환

익명 • 2025-10-07 • 조회수 43

기술 / 데이터과학 / 로그 변환

# 로그 변환 ## 개요 로그 변환(log transformation)은 데이터 과학 및 통계 분석에서 자주 사용되는 **비선형 데이터 변환 기법**으로, 주로 **비대칭적이고 오른쪽으로 치우친**(right-skewed) 연속형 변수의 분포를 정규 분포에 가깝게 ...

numpy.linalg.svd

익명 • 2025-10-07 • 조회수 62

기술 / 데이터과학 / 데이터 분석 도구

# numpy.linalg.svd ## 개요 `numpy.linalg.svd는 NumPy 라이브러리에서 제공하는 **특이값 분해**(Singular Value Decomposition, SVD)를 수행하는 함수입니다. SVD는 행렬을 세 개의 특별한 행렬로 분해하는...

특이값 분해 numpy.linalg.svd SVD +2

정밀도 균형

익명 • 2025-10-06 • 조회수 56

기술 / 데이터과학 / 모델 평가

# 정밀도 균형 정밀도 균형(Precision Balance은 데이터과학, 머신러닝 모델 평가에서 중요한 중 하나로, **정밀도**(Precision)와 **재현**(Recall) 사이의 균형을 의미합니다. 이는 모델이 얼마나 정하게 긍정 클래스를 예측하는지(정밀도)...

정밀도 균형 재현율 F1 점수 +2

비즈니스 인텔리전스

익명 • 2025-10-05 • 조회수 59

기술 / 데이터과학 / 데이터시각화

# 비즈니스 인리전스 ## 개요**비즈니스 인텔전스**(Business Intelligence, 이하 BI)는 기업의 운영,략 수립, 의사결정 지원하기 위해 데이터 수집, 분석, 시각화하고 인사이트를 도출하는 기술적 프세스와 도구 집합을 의미합니다. 데이터과학의 하위...

비즈니스 인텔리전스 데이터 시각화 ETL +2

NumPy

익명 • 2025-10-05 • 조회수 65

기술 / 데이터과학 / 데이터분석도구

# NumPy ## 개요 NumPy(Numerical Python의 약자는 파이썬에서 과학 계산과 데이터 분석을 수행하기 위한 핵심 라이브러리입니다. 특히 다차원 배열과 행렬 연산을 효율적으로 처리할 수 있도록 설계되어 있으며, 머신러닝, 통계 분석, 수치 시뮬레이...

NumPy ndarray 벡터화 연산 +2

형식 오류

익명 • 2025-10-04 • 조회수 85

기술 / 데이터과학 / 데이터 정제

# 형식 오류 개요 **형식 오류Format Error)는 과학 및 데이터 정제 과정에서 자 발생하는 문제 중 하나로, 데이터가 기대되는 구조나 형식을 따르지 않을 때 나타납니다. 이러한 오류는 데이터 수집, 저장, 전송, 변환 과정에서 다양한 원인으로 발생할 수...

형식 오류 데이터 정제 정규 표현식 +2

시간 기반 데이터 처리

익명 • 2025-10-04 • 조회수 59

기술 / 데이터과학 / 시계열 분석

# 시간 기반 데이터 처리 시간반 데이터 처리(Time-based Data)는 시계열 데이터(Time Series)를 수집, 정제,석, 저장,각화하는 일련 과정을 의미합니다. 이는 데이터과학, 특히 **시계열 분석**( Series Analysis) 분에서 핵심적인 ...

시계열 분석 Pandas 리샘플링 +2

WordPiece

익명 • 2025-10-04 • 조회수 61

기술 / 데이터과학 / 분석

# WordPiece ## 개요 **WordPiece**는 자연어 처리(Natural Language Processing NLP)에서 널리되는 서브워드(Subword) 토크이제이션(Subword Tokenization) 기법 중 하나로, 특히BERT**(Bidire...

WordPiece 서브워드 토크나이제이션 BERT +2

Min-Max 정규화

익명 • 2025-10-03 • 조회수 67

기술 / 데이터과학 / 데이터 정제

# Min-Max 정규화## 개요 **Min-Max 정규화**(Min-Max Normalization)는 데이터 과학 및 머신러닝 분야에서 널리 사용 **데이터 정제**(Data Preprocessing) 기법 중 하나로, 수치형 변수의 스케일을 일정한 범위로 조정하...

Min-Max 정규화 데이터 정제 scikit-learn +2

Min-Max Scaling

익명 • 2025-10-03 • 조회수 74

기술 / 데이터과학 / 정규화

# Min-Max Scaling **Min-Max Scaling**은 데이터 과학과 기계 학습 분야에서 널리 사용되는 **규화**(Normalization) 기법 중 하나로,의 범위를 일정한 구간(보통 0에서 1 사이)으로 조정하는 방법입니다. 이 기법은 각 특성(f...

Min-Max Scaling 정규화 scikit-learn +2

Time Series Cross-Validation

익명 • 2025-10-02 • 조회수 63

기술 / 데이터과학 / 모델 평가

# Time Series Cross-Validation**Time Series Cross-Validation**(시계 교차 검증은 시계열 데이터 특화된 모 평가 기법, 일반적인 교차 검증(Cross-Validation) 방식이 가정하는의 독립성 동일 분포(i.d.) 조...

시계열 교차 검증 TimeSeriesSplit Forward Chaining +2

학습 데이터

익명 • 2025-10-02 • 조회수 57

기술 / 데이터과학 / 데이터 수집

# 학습 데이터 ## 개요 **학습 데이터**(Training Data)는신러닝(Machine Learning) 인공지능I) 모델을 훈련시키기 위해 사용되는 세트를 의미합니다. 이 데이터는델이 특정 작업(예: 이미지 분류, 자연 이해, 예측 등)을 수행할 수 패턴을...

학습 데이터 머신러닝 데이터 품질 +2

Topological Data Analysis

익명 • 2025-10-02 • 조회수 56

기술 / 데이터과학 / 공간 분석

# Topological Data Analysis 개요 **Topological Data**(TDA, 위상 데이터석)는 데이터의 형상(형태과 구조를 위상수학의 원리를 활용해 분석하는 데이터 과학의 한 분야입니다. 전적인 통계적 방법이나 머신러닝 기법이 주로 데이터...

Topological Data Analysis 지속적 호몰로지 심플렉셜 복합체 +2

Unsqueezing

익명 • 2025-10-02 • 조회수 65

기술 / 데이터과학 / 데이터 변환

# Unsqueezing **Unsqueezing**(언스퀴징)은 데이터 과학과 머신러닝, 특히 텐서(Tensor)반 프로그래밍에서 자주 사용되는 데이터 변환 기법 중 하나입니다. 이는 기존의 차원이 축소된 텐서에 새로운 차원을 추가하여 형태를 확장하는 작업을 의미하...

언스퀴징 텐서 차원 PyTorch +2

고차원 데이터

익명 • 2025-10-01 • 조회수 80

기술 / 데이터과학 / 분석

# 고차원 데이터 고차원 데이터(High-dimensional Data는 변수(특징)의가 관측치샘플)의 수보다 훨씬 많은 데이터를 의미합니다. 이러한는 현대 데이터 과학, 특히 생물정보학, 이미지 처리,어 처리, 금융 분석 등 다양한 분야에서 자주 등장하며, 분석의 ...

일반 문서

학술 논문 그래프

익명 • 2025-10-01 • 조회수 63

기술 / 데이터과학 / 데이터 시각화

# 학술 논문 그래 ## 개요 학술 논문 그래프(Academic Paper Graph)는 학술 논문 간의 관계를 그래프 구조 표현한 데이터 모델이다. 이는 각 논문 **노드**(Node)로, 인용(Citation), 공저(Co-authorship), 주제 유사성(T...

학술 논문 그래프 데이터 시각화 그래프 신경망 +2

유사도 분석

익명 • 2025-10-01 • 조회수 61

기술 / 데이터과학 / 데이터 분석

# 유사도 분석 개요 유사도 분석(Similarity Analysis)은 두 개 이상의 데이터 객체 간의 유사한 정도를 정량적으로 측정하고 평가하는 데이터 분석 기법입니다.는 데이터 과학, 머신러닝, 검색, 텍스트 마이닝, 추천 시스템 등 다양한 분야에서 핵심적인...

유사도 분석 코사인 유사도 자카드 유사도 +2

군집 샘플링

익명 • 2025-10-01 • 조회수 54

기술 / 데이터과학 / 샘플링

# 군집 샘플링**군집 샘플링**(Cluster Sampling은 통계학 데이터과학 분야에서리 사용되는 확률표본추출 방법 중 하나로, 전체 모집단을 자연스럽게 형성된 **군집**(Cluster)으로 나누, 이 군집들 중 일부를 무작위로 선택하여 표본으로 추출하는 방식입...

군집 샘플링 데이터과학 표본 추출 +2

단일 활성화

익명 • 2025-09-30 • 조회수 64

기술 / 데이터과학 / 데이터 인코딩

# 단일 활성화 ## 개요 **단일 활성화**(One-Hot Encoding)는 범주형 데이터(categorical data)를 기계학습 모델이 처리할 수 있도록 수치형 형태로 변환하는 대적인 데이터 인코딩 기 중 하나입니다.주형 변수는 특정한 카테고리나 레이블을 ...

단일 활성화 범주형 데이터 OneHotEncoder +2

PyData

익명 • 2025-09-30 • 조회수 61

기술 / 데이터과학 / 데이터공유

# PyData ## 개요 **PyData**는 파이(Python)을반으로 데이터 과학, 머신러닝, 통계 분석, 데이터 엔지니어링 다양한 데이터 관련 작업을 수행하는 데 사용되는 오픈소스 생태계와 커뮤니티를 총칭하는 용어입니다. PyData는 단순한 도구의 집합을 ...

PyData 데이터 과학 데이터 공유 +2