# Outlier Detection (이상치 탐지) ## 개요 Outlier Detection(이상치 탐지)은 데이터 집합에서 **다른 관측값들과 현저히 차이가 나는 데이터 포인트**를 식별하는 과정을 말한다. 이상치는 측정 오류, 데이터 입력 실수, 혹은 실제로 중요한 특이 현상을 나타낼 수 있기 때문에, 분석 단계에서 **제거, 보정, 혹은 별도 분석...
검색 결과
"outlier"에 대한 검색 결과 (총 62개)
# 상관행렬 (Correlation Matrix) ## 개요 **상관행렬(Correlation Matrix)**은 통계학 및 데이터 과학에서 다변량 데이터의 변수 간 선형 상관 관계를 한눈에 파악할 수 있도록 행렬 형태로 정리한 표입니다. 특히 **상관분석(Correlation Analysis)**의 핵심 도구로서, 여러 변수들이 서로 어떻게 연관되어 ...
# 테스트 데이터 (Test Data) ## 개요 **테스트 데이터(Test Data)**는 소프트웨어 개발, 시스템 테스트, 데이터 분석 모델 검증 등 다양한 기술적 과정에서 사용 목적으로 생성되거나 수집된 가상의 또는 실제 데이터의 집합을 의미합니다. 소프트웨어 공학이나 데이터 과학 분야에서 '테스트 데이터'는 시스템의 기능적 정확성, 성능, 보안성...
# 기계학습 기반 전처리 (Machine Learning-Based Preprocessing) ## 개요 **기계학습 기반 전처리(Machine Learning-Based Preprocessing)**는 전통적인 통계적 방법이나 규칙 기반 접근법을 넘어서, 머신러닝 알고리즘 자체를 활용하여 데이터의 품질을 개선하고 모델의 학습 성능을 최적화하는 과정을 ...
# 과적합 (Overfitting) **과적합**(過適合, Overfitting)은 기계 학습(Machine Learning) 및 통계 모델링에서 모델이 훈련 데이터(Training Data)에 지나치게 맞춰져, 새로운 unseen 데이터(테스트 데이터 또는 실제 데이터)에 대한 일반화 성능이 떨어지는 현상을 의미합니다. 즉, 모델이 데이터의 실제 패턴(...
# 덴드로그램 (Dendrogram) ## 개요 **덴드로그램**(Dendrogram)은 계층적 군집 분석(Hierarchical Clustering)의 결과를 시각적으로 표현한 트리 구조의 다이어그램입니다. '덴드로그램'이라는 단어는 그리스어 'dendron'(나무)과 'gramma'(그림)에서 유래했으며, 말 그대로 '나무 그림'을 의미합니다. 이 ...
# 정확도 향상 (Accuracy Improvement) **정확도 향상**은 자동화 시스템, 알고리즘, 또는 데이터 처리 파이프라인에서 출력 결과의 신뢰성과 정밀도를 높이기 위한 일련의 기술적 접근법과 방법론을 포괄하는 개념입니다. 특히 인공지능(AI), 머신러닝, 로봇 공학, 그리고 비즈니스 프로세스 자동화(BPA) 분야에서 시스템의 성능을 평가하는 ...
# 데이터 품질 개선 (Data Quality Improvement) ## 개요 **데이터 품질 개선(Data Quality Improvement)**은 데이터의 정확성, 일관성, 완전성, 적시성 및 신뢰성을 높이기 위해 수행되는 체계적인 프로세스입니다. 현대 데이터 과학 및 비즈니스 인텔리전스(BI) 환경에서 '쓰레기 입력, 쓰레기 출력(Garbage...
# 그레이디언트 부스팅 (Gradient Boosting) ## 개요 **그레이디언트 부스팅**(Gradient Boosting)은 머신러닝 분야에서 널리 사용되는 강력한 **앙상블 학습(Ensemble Learning)** 알고리즘 중 하나입니다. 이 기법은 약한 학습기(Weak Learner), 주로 결정 트리(Decision Tree)를 순차적으로...
# 힌지 손실 (Hinge Loss) ## 개요 **힌지 손실(Hinge Loss)**은 기계 학습, 특히 서포트 벡터 머신(SVM, Support Vector Machine)과 같은 분류 모델에서 널리 사용되는 손실 함수입니다. 이 함수는 예측된 점수(predicted score)와 실제 레이블(true label) 사이의 차이를 측정하여, 모델이 올...
# 과적합 (Overfitting) **과적합**(過適合, Overfitting)은 머신러닝 및 통계 모델링에서 학습 데이터에 지나치게 맞춰져 새로운 데이터, 즉 테스트 데이터나 실제 환경에서의 예측 성능이 저하되는 현상을 의미합니다. 이는 모델이 데이터의 일반적인 패턴(신호, Signal)을 학습하는 것이 아니라, 학습 데이터에 포함된 무작위 오차나 노...
# RSS (Residual Sum of Squares) **RSS**(Residual Sum of Squares, 잔차 제곱합)는 통계학, 특히 **회귀분석(Regression Analysis)**에서 통계 모델의 적합도(Goodness of Fit)를 평가하는 핵심 지표 중 하나입니다. RSS는 관측된 데이터 값과 모델이 예측한 값 사이의 차이인 **...
# 산점도 (Scatter Plot) **산점도**(Scatter Plot)는 데이터 과학 및 통계학에서 두 변수 간의 관계를 시각화하기 위해 가장 널리 사용되는 차트 유형 중 하나입니다. 이 차트는 수평축(X축)과 수직축(Y축)으로 구성된 직교 좌표계에 데이터 포인트를 산점(산포)시켜 표시함으로써, 변수들 사이의 상관관계, 분포 패턴, 이상치(Outli...
# 수치 예측 문제 (Numerical Prediction Problem) ## 개요 수치 예측 문제는 머신러닝에서 입력 데이터의 특징을 바탕으로 연속적인 실수 값(continuous value)을 출력하는 지도 학습(Supervised Learning) 태스크입니다. 이 분야는 통계학의 **회귀 분석(Regression Analysis)**에 이론적 뿌...
# 손실 함수 ## 개요 머신러닝·딥러닝 모델은 **입력 데이터**와 **정답(라벨)** 사이의 차이를 최소화하도록 학습한다. 이 차이를 수치적으로 표현한 것이 **손실 함수(Loss Function)**이다. 손실 함수는 모델이 현재 얼마나 잘 예측하고 있는지를 정량화하고, 최적화 알고리즘(예: 경사하강법)이 **파라미터를 업데이트**하는 기준이...
# 최소제곱법 ## 개요 **최소제곱법**(Least Squares Method)은 관측된 데이터와 모델의 예측값 사이의 차이, 즉 **잔차**(residual)의 제곱합을 최소화하여 모델의 파라미터를 추정하는 통계적 방법이다. 이 방법은 회귀 분석, 데이터 피팅, 예측 모델링 등 데이터과학의 핵심 분야에서 널리 사용되며, 특히 선형 회귀 모델의 추정에...
# Box plot ## 개요 **박스 플롯**(Box plot), 또는 **상자 수염 그림**(box-and-whisker plot)은 데이터의 분포를 시각적으로 표현하는 통계 그래프의 일종입니다. 이 그래프는 데이터의 중심 경향, 산포도, 왜도, 이상치(outlier) 등을 한눈에 파악할 수 있게 해주며, 특히 여러 그룹 간의 분포를 비교할 때 매우...
# KDD ## 개요 **KDD**(Knowledge Discovery in Databases, 데이터베이스에서의 지식 발견)는 대량의 데이터에서 숨겨진 패턴, 규칙, 관계, 또는 유용한 정보를 추출하는 과정을 의미하는 데이터과학 분야의 핵심 개념입니다. KDD는 단순한 데이터 분석을 넘어서, 데이터 전처리, 데이터 마이닝, 패턴 평가, 지식 표현까지를...
# MAE ## 개요 **MAE**(Mean Absolute Error, 평균 절대 오차)는 회귀(regression) 문제에서 예측값과 실제값 사이의 오차를 평가하는 대표적인 지표 중 하나입니다. 인공지능 모델, 특히 회귀 모델의 성능을 측정할 때 널리 사용되며, 오차의 절대값을 평균하여 계산하므로 해석이 직관적이고 이해하기 쉬운 장점이 있습니다. ...
# 다중 선형 회귀 다중 선형 회귀(Multiple Linear Regression)는 하나의 종속 변수(dependent variable)와 두 개 이상의 독립 변수(independent variables) 간의 선형 관계를 모델링하는 통계적 기법이다. 머신러닝과 통계학에서 널리 사용되며, 특히 수치 예측 문제(regression problems)에서 ...