# 제곱근 변환 (Square Root Transformation) ## 개요 **제곱근 변환**(Square Root Transformation)은 통계학 및 데이터 분석에서 비정규 분포를 가진 데이터를 정규 분포에 가깝게 만들기 위해 적용하는 비선형 변환 기법 중 하나입니다. 특히 계수 데이터(count data)나 비율 데이터와 같이 0 이상의 값...
검색 결과
"선형 모델"에 대한 검색 결과 (총 26개)
# Ordinal (순서형 데이터) ## 개요 **Ordinal**(순서형 데이터)은 데이터 과학과 통계학에서 사용되는 정성적 데이터(Categorical Data)의 한 유형입니다. 이는 범주 간의 **명확한 순서나 등급(Ordering)**이 존재하지만, 각 등급 간에 **등간(Interval)이 일정하지 않거나 절대적인 수치적 차이가 정의되지 않는...
# 힌지 손실 (Hinge Loss) ## 개요 **힌지 손실(Hinge Loss)**은 기계 학습, 특히 서포트 벡터 머신(SVM, Support Vector Machine)과 같은 분류 모델에서 널리 사용되는 손실 함수입니다. 이 함수는 예측된 점수(predicted score)와 실제 레이블(true label) 사이의 차이를 측정하여, 모델이 올...
# Pattern Recognition and Machine Learning **Pattern Recognition and Machine Learning**(PRML)은 크리스 버즈비(Christopher M. Bishop)가 저술한 인공지능 및 기계 학습 분야의 고전적인 학술 교재입니다. 이 책은 패턴 인식과 기계 학습의 이론적 기초를 확률론적 관점에서...
# RSS (Residual Sum of Squares) **RSS**(Residual Sum of Squares, 잔차 제곱합)는 통계학, 특히 **회귀분석(Regression Analysis)**에서 통계 모델의 적합도(Goodness of Fit)를 평가하는 핵심 지표 중 하나입니다. RSS는 관측된 데이터 값과 모델이 예측한 값 사이의 차이인 **...
# 선형성 (Linearity) ## 개요 **선형성(Linearity)**은 통계학, 특히 **회귀분석(Regression Analysis)**의 맥락에서 가장 기본적이면서도 중요한 가정 중 하나입니다. 선형성이란 독립 변수(설명 변수)와 종속 변수(반응 변수) 사이의 관계가 직선 형태로 표현될 수 있음을 의미합니다. 즉, 독립 변수의 변화가 일정하게...
# 예측 제어 (Predictive Control) **예측 제어**(Predictive Control)는 공학 및 제어 이론에서 시스템의 미래 동작을 예측하여 최적의 제어 입력을 결정하는 고급 제어 기법입니다. 특히 **모델 예측 제어**(Model Predictive Control, MPC)라고도 불리며, 현재 상태와 미래의 시스템 거동을 수학적으로 ...
# 손실 함수 ## 개요 머신러닝·딥러닝 모델은 **입력 데이터**와 **정답(라벨)** 사이의 차이를 최소화하도록 학습한다. 이 차이를 수치적으로 표현한 것이 **손실 함수(Loss Function)**이다. 손실 함수는 모델이 현재 얼마나 잘 예측하고 있는지를 정량화하고, 최적화 알고리즘(예: 경사하강법)이 **파라미터를 업데이트**하는 기준이...
# 잔차 ## 개요 **잔차**(잔여, Residual)는 통계학 및 데이터과학, 특히 **시계열 분석**에서 매우 중요한 개념 중 하나이다. 잔차는 관측된 실제 값과 모델이 예측한 값 사이의 차이를 의미하며, 모델의 적합도와 성능을 평가하는 데 핵심적인 역할을 한다. 시계열 데이터는 시간에 따라 순차적으로 수집된 데이터이므로, 잔차를 분석함으로써 모델...
# 인코딩 ## 개요 데이터 전처리 과정에서 **인코딩**(Encoding)은 범주형 데이터(categorical data)를 머신러닝 모델이 이해할 수 있는 수치형 형식으로 변환하는 핵심 기술입니다. 대부분의 머신러닝 알고리즘은 문자열이나 라벨 형태의 범주형 데이터를 직접 처리할 수 없으므로, 이를 숫자로 변환하는 과정이 필수적입니다. 인코딩은 데이터...
# 비용 함수 ## 개요 비용 함수(Cost Function), 손실 함수(Loss Function는 머신러닝 및 데이터과학에서 모델의 예측 성능을 정적으로 평가하는 데 사용되는 핵심 개념이다. 이 함수는 모이 실제 데이터를 기반으로 예측한 값과 실제 관측값 사이의 차이, 즉 '오차'를 수치화하여 모델이 얼마나 잘못 예측하고 있는지를 나타낸다. 비용 함...
# SHAP 값 ## 개요 SHAP 값(Shapley Additive exPlanations) 머신러닝 모델의 예측 결과를 해석하기 위한모델 해석성**(Interpretability) 기법 중로, 게임 이론의 **샤플리 값**(Shapley Value) 개념을 기반으로 합니다. SHAP은 각 특성(feature)이 모델의 개별 예측에 기여한 정도를 정량...
# 등분산성 ## 개요 **등분산**(homoscedasticity)은 통계학에서 회귀 분석 분산 분석(ANOVA), t-검정 등 여러 통계적 추론 방법의 핵심적인 **통계적 가정** 중 하나입니다. 이 가정은 모델의 오차 또는 잔차(residuals)의 분산이 독립 변수의 모든 수준이나 관측값에 관계없이 **일정하다**는 것을 의미합니다. 반대로, 분...
# 원-핫 인코딩 ## 개요 **원핫 인코딩**(One-Hot Encoding)은 범주형 데이터(c data)를 기계학습 모델이 이해할 있도록 수치형 데이터로 변환하는 대표적인 방법 중 하나입니다. 이 기은 각 범주)를 고유한 이진 벡터(binary vector)로 표현하며, 벡터 내에서 해당 범주에 해당하는 위치만 1로 설정하고 나머지 모든 위치는 0...
# 정규방정식 ## 개요 정규방정식(Normal Equation)은 **선형회귀**(Linear Regression) 문제를 해결하기 위한 해석적(analytical) 방법 중 하나로, 최소제곱법(Least Squares Method)을 사용하여 선형 모델의 계수를 직접 계산하는 수식이다. 이 방정식은 손실 함수인 **잔차 제곱합**(Sum of Squ...
# 분류 ## 개요 **분류**(Classification)는 머신러닝에서 대표적인 지도 학습(Supervised Learning 과제 중 하나로, 주어 입력 데이터를 미리 정의된 **카테고리**(클래스) 중 하나로 할당하는 작업을 말합니다. 예 들어, 이메이 스팸인지 정상인지 판단하거나, 의료 데이터를 기반으로 환자가 특정 질병에 걸렸는지를 예측하는 ...
# 다항식 커널 ## 개요 다항식널(Polynomial Kernel)은 **신러닝**, 특히 **서포트 벡터 머신**(Support Vector Machine, SVM)과 같은 커널 기반 알고리즘에서 널리 사용되는 비선형 커널 함수 하나입니다. 이 커은 입력 데이터 간의 유사도를 고차원 공간에서 효과적으로 계산함으로써, 선형적으로 분리되지 않는 복잡한 ...
# 최적의 경계선 ## 개요 **최적 경계선**(Optimal Decision)은 머신러닝, 지도 학습(Supervised Learning)에서 분류(Classification) 문제 해결할 때 사용 핵심 개념 중 하나. 이는 서로 다른 클래스에 속한 데이터 포인트들을 가장 잘 구분할 수 있는 기하학적 경계를 의미합니다. 최적의 경계선은 모델이 새로운 ...
# R² ## 개요 **R²**(R-squared, 결정계수)는 통계학 및 기계학습에서 회귀 모델의 성능을가하는 대표 지표 중 하나입니다. R² 모델이 종속 변수(dependent variable)의 분산 중 얼마나 많은 부분을 설명할 수 있는지를 나타내는 값으로, 일반적으로 0에서 1 사이의 값을 가집니다. 이 값이 1에 가까울수록 모델이 데이터의 변...
# 데이터 인코딩 기법 데이터 인코딩 기법은 데이터 과학과 머신러닝 프로세스에서 매우 중요한 전처리 단계 중 하나입니다. 실제 데이터는 텍스트, 범주형 값, 날짜, 기호 등 다양한 형태로 존재하지만, 머신러닝 모델은 일반적으로 수치형 데이터만을 입력으로 처리할 수 있습니다. 따라서 범주형 변수나 텍스트 데이터를 모델이 이해할 수 있는 **수치 형태로 변환...