검색 결과

"outlier"에 대한 검색 결과 (총 47개)

최소제곱법

기술 > 데이터과학 > 최적화 알고리즘 | 익명 | 2026-01-11 | 조회수 9

# 최소제곱법 ## 개요 **최소제곱법**(Least Squares Method)은 관측된 데이터와 모델의 예측값 사이의 차이, 즉 **잔차**(residual)의 제곱합을 최소화하여 모델의 파라미터를 추정하는 통계적 방법이다. 이 방법은 회귀 분석, 데이터 피팅, 예측 모델링 등 데이터과학의 핵심 분야에서 널리 사용되며, 특히 선형 회귀 모델의 추정에...

Box plot

과학 > 통계학 > 데이터 시각화 | 익명 | 2026-01-04 | 조회수 8

# Box plot ## 개요 **박스 플롯**(Box plot), 또는 **상자 수염 그림**(box-and-whisker plot)은 데이터의 분포를 시각적으로 표현하는 통계 그래프의 일종입니다. 이 그래프는 데이터의 중심 경향, 산포도, 왜도, 이상치(outlier) 등을 한눈에 파악할 수 있게 해주며, 특히 여러 그룹 간의 분포를 비교할 때 매우...

KDD

기술 > 데이터과학 > 데이터 생성 | 익명 | 2026-01-03 | 조회수 5

# KDD ## 개요 **KDD**(Knowledge Discovery in Databases, 데이터베이스에서의 지식 발견)는 대량의 데이터에서 숨겨진 패턴, 규칙, 관계, 또는 유용한 정보를 추출하는 과정을 의미하는 데이터과학 분야의 핵심 개념입니다. KDD는 단순한 데이터 분석을 넘어서, 데이터 전처리, 데이터 마이닝, 패턴 평가, 지식 표현까지를...

MAE

기술 > 인공지능 > 모델 평가 | 익명 | 2025-12-15 | 조회수 16

# MAE ## 개요 **MAE**(Mean Absolute Error, 평균 절대 오차)는 회귀(regression) 문제에서 예측값과 실제값 사이의 오차를 평가하는 대표적인 지표 중 하나입니다. 인공지능 모델, 특히 회귀 모델의 성능을 측정할 때 널리 사용되며, 오차의 절대값을 평균하여 계산하므로 해석이 직관적이고 이해하기 쉬운 장점이 있습니다. ...

다중 선형 회귀

기술 > 인공지능 > 머신러닝 | 익명 | 2025-12-02 | 조회수 12

# 다중 선형 회귀 다중 선형 회귀(Multiple Linear Regression)는 하나의 종속 변수(dependent variable)와 두 개 이상의 독립 변수(independent variables) 간의 선형 관계를 모델링하는 통계적 기법이다. 머신러닝과 통계학에서 널리 사용되며, 특히 수치 예측 문제(regression problems)에서 ...

데이터 정규화

기술 > 데이터과학 > 데이터 정제 | 익명 | 2025-12-01 | 조회수 13

# 데이터 정규화 ## 개요 **데이터 정규화**(Data Normalization)는 데이터 과학 및 머신러닝 분야에서 자주 사용되는 **데이터 정제**(Data Cleaning) 기법 중 하나로, 다양한 특성(변수)의 스케일을 일관되게 조정하여 분석이나 모델 학습의 정확성과 효율성을 높이는 과정을 의미합니다. 특히, 여러 변수가 서로 다른 단위나 범...

Talend Data Preparation

기술 > 데이터과학 > 데이터 정제 | 익명 | 2025-10-15 | 조회수 20

Talend Data Preparation**Talend Preparation**은 복잡 불완전한 원시 데이터를제하고 변환하여 분 및 데이터 통합 작업에 적합 형태로 만드는 데 중점을 둔 사용자 친화적인 데이터 정제 도구입니다. Tal 사에서 개발한 이 솔루션은 비기술 전문가도 쉽게 사용할 수 있도록 시각적 인터페이스를 제공하며 데이터 과학자, 데이터 엔지...

비용 함수

기술 > 데이터과학 > 최적화 | 익명 | 2025-10-12 | 조회수 20

# 비용 함수 ## 개요 비용 함수(Cost Function), 손실 함수(Loss Function는 머신러닝 및 데이터과학에서 모델의 예측 성능을 정적으로 평가하는 데 사용되는 핵심 개념이다. 이 함수는 모이 실제 데이터를 기반으로 예측한 값과 실제 관측값 사이의 차이, 즉 '오차'를 수치화하여 모델이 얼마나 잘못 예측하고 있는지를 나타낸다. 비용 함...

데이터 필터링

기술 > 데이터과학 > 데이터 전처리 | 익명 | 2025-10-10 | 조회수 25

# 데이터 필터링 ##요 데이터 필터링 Filtering)은 데이터 과학 및 분석 과정에서 핵심적인 단계 중 하나로, 원시 데이터(raw data)에서 분 목적에 부적합하거나 불필요한 데이터를 제거하거나 선택하여 유의미한 정보만 추출하는 작업. 이 과정은 데이터 품질을 향상고, 분석의확도와 효율성을 높이며, 모델 학습 시 노이즈(noise)를 줄이는 데...

상자 수염 그림

통계학 > 데이터 시각화 > 그래프 유형 | 익명 | 2025-10-06 | 조회수 21

# 상자 수염 그림 ## 개요 **상자 수염 그림**(box-whisker plot, 줄여서박스플롯**, box plot)은 통계학에서 데이터의포를 시각적으로 요약하기 널리 사용되는프 유형입니다. 그래프는 데이터 중심 경향,포도, 왜도, 이상치(outlier) 등을 한눈에 파악할 수 있도록 도와주며, 특히 여러 집단 간의 분포를 비교할 때 매우 유용합니...

중앙값

통계학 > 기술통계 > 중심경향성 | 익명 | 2025-10-06 | 조회수 25

# 중앙값 **중앙값**(median)은 통계학에서 자료의 중심경향성을 나타내는 대표적인 척도 중 하나로, 데이터를 크기순으로 정렬했을 때 **가운데 위치하는 값을 의미한다.균과 최빈값 함께 기술통계의 세 가지 주요 중심경향성 지로 꼽히며, 특히 데이터에 극단값(outlier)이 포함되어 있을 때 평균보다 더 안정적인 대표값으로 사용된다. 중앙값은 자료...

시간 기반 데이터 처리

기술 > 데이터과학 > 시계열 분석 | 익명 | 2025-10-04 | 조회수 26

# 시간 기반 데이터 처리 시간반 데이터 처리(Time-based Data)는 시계열 데이터(Time Series)를 수집, 정제,석, 저장,각화하는 일련 과정을 의미합니다. 이는 데이터과학, 특히 **시계열 분석**( Series Analysis) 분에서 핵심적인 역할을 하며, 금융 기상 예보 IoT 센서 데이터, 웹 트래픽 모니터링 등 다양한 산업에서...

Min-Max 정규화

기술 > 데이터과학 > 데이터 정제 | 익명 | 2025-10-03 | 조회수 27

# Min-Max 정규화## 개요 **Min-Max 정규화**(Min-Max Normalization)는 데이터 과학 및 머신러닝 분야에서 널리 사용 **데이터 정제**(Data Preprocessing) 기법 중 하나로, 수치형 변수의 스케일을 일정한 범위로 조정하는 **정규화**(Normalization) 방법입니다. 이 기법은 데이터의 최소값과 최대...

Min-Max Scaling

기술 > 데이터과학 > 정규화 | 익명 | 2025-10-03 | 조회수 30

# Min-Max Scaling **Min-Max Scaling**은 데이터 과학과 기계 학습 분야에서 널리 사용되는 **규화**(Normalization) 기법 중 하나로,의 범위를 일정한 구간(보통 0에서 1 사이)으로 조정하는 방법입니다. 이 기법은 각 특성(feature)의 스케일을 통일하여 알고리즘의 성능을 향상시키고, 학습 속도를 개선하는 데 ...

히스토그램

과학 > 통계학 > 데이터 시각화 | 익명 | 2025-10-01 | 조회수 34

# 히스토그램 ## 개요 히스토그(Histogram)은 통계학 연속형 또는산형 수치 데이터 분포를 시각적으로 표현하는 대적인 그래프 도구이다. 데이터를 일정한 구간(빈, bin)으로 나누고, 각 구간 속하는 데이터의 빈도수(frequency) 또는 상대 빈도수(relative frequency)를 막대의 높이로 나타낸다. 히스토그램은 데이터의 중심 경향...

도수

과학 > 통계학 > 빈도 분포 | 익명 | 2025-09-30 | 조회수 27

# 도수 ## 개요 도수(度數,)는 통계에서 특정한 값이나 구간이 자료(데이터) 집합 내 얼마나 자주 나타나는지를 나타내는 수치이다 즉, 도수는 어떤 사건이나 범주가 관측된 횟수를 의미하며, 데이터의 분포를 이해하고 분석하는 데 핵심적인 역할을 한다. 도수는 빈도 분포표(frequency distribution table) 작성, 히스토그램(histog...

MSE

기술 > 데이터과학 > 회귀 분석 | 익명 | 2025-09-27 | 조회수 29

# MSE ## 개요 **MSE**(Mean Squared Error, 평균 제곱 오차)는 회귀 분석에서 예측 모델의 정확도를 평가하는 데 널리 사용되는 지표입니다. 이 값은 예측값과 실제 관측값 사이의 차이(오차)를 제곱한 후, 그 평균을 계산함으로써 모델의 전반적인 오차 크기를 수치화합니다. MSE는 회귀 모델의 성능을 비교하거나 하이퍼파라미터 최적...

픽셀 값 재조정

기술 > 영상 처리 > 이미지 변환 | 익명 | 2025-09-21 | 조회수 35

# 픽셀 값 재정 ## 개요 **셀 값 재조정**(Pixel Value Rescaling)은 디지털 이미지 처리에서 각 픽셀의 밝기 또는상 값을 특정 범위로 변환하는 기법을 말합니다. 이 과정은 이미지의 시각적 품질을 개선하거나, 머신 러닝 모델 학습을 위한 데이터 전처리 단계에서 매우 중요하게 활용됩니다. 예를 들어, 원본 이미지의 픽셀 값이 0~25...

데이터 전처리

기술 > 데이터과학 > 분석 | 익명 | 2025-09-20 | 조회수 32

# 데이터 전처리 데이터 전처리(Data Preprocessing)는 데이터 과학 프로젝에서 분석 또는 기계 학습 모델을 구축하기 전에 원시 데이터를 정리하고 변환하는 과정을 의미합니다. 현실 세계의 데이터는 대부분 불완전하고, 일관되지 않으며, 중되거나 노이즈가 포함되어 있어 그대로 사용 경우 분석 결과의 신뢰도가 떨어질 수 있습니다. 따라서 데이터 전...

노이즈 감소

기술 > 데이터과학 > 데이터 정제 | 익명 | 2025-09-20 | 조회수 28

# 노이즈 감소데이터 정제(Data Cleaning) 과정에서 **노이즈 감소**(Noise Reduction)는 데이터 품질을 향상시키기 위한 핵심 단계 중 하나입니다. 실제 환경에서 수집된 데이터는 다양한 외부 요인으로 인해 오류, 이상치, 불필요한 변동성 등이 포함되어 있으며, 이러한 요소를 '노이즈(noise)'라고 부릅니다. 노이즈는 데이터의 진짜...