위키너와나

데이터셋

기술 > 데이터과학 > 데이터 준비 | 익명 | 2025-10-11 | 조회수 43

# 데이터셋 ## 개요 **데이터셋**(Dataset)은 데이터 과학 및 정보 기술 분야에서 분석, 모델링, 연구 등의 목적으로 사용되는 구화되거나 비구조화된 데이터의 집합을 의미합니다. 일반적으로 데이터셋은 테이블 형태로 구성되며, 행은 하나의 관측치 또는 샘플을, 각 열은 해당 샘플의 특성(변수)를 나타냅니다. 데이터셋은 머신러닝, 통계 분석, 데이...

#데이터셋 #데이터 정제 #Pandas #머신러닝 #데이터 준비

데이터셋 구축

기술 > 데이터과학 > 데이터 준비 | 익명 | 2025-09-12 | 조회수 62

# 데이터셋 구축 ## 개요 데이터셋 구축(Data Set Construction)은 데이터 과학 프로젝트의 첫 번째이자 가장 중요한 단계 중 하나로, 분석, 모델링, 머신러닝 등의 작업을 수행하기 위해 필요한 데이터를 체계적으로 수집, 정제, 통합하고 구조화하는 과정을 의미합니다. 고품질 데이터셋은 정확한 인사이트 도출과 신뢰할 수 있는 예측 모델 개...

#데이터셋 구축 #데이터 정제 #피처 엔지니어링 #데이터 통합 #ETL 도구

RT 코어

기술 > 하드웨어 > GPU 구성 요소 | 익명 | 2026-04-17 | 조회수 14

# RT 코어 (RT Core) ## 개요 **RT 코어(RT Core)**는 엔비디아(NVIDIA)가 개발한 GPU 내장 전용 하드웨어 가속기입니다. 실시간 레이 트레이싱(Ray Tracing) 연산을 가속화하기 위해 설계되었으며, 2018년 출시된 `터밍(Turing)` 아키텍처부터 본격적으로 탑재되기 시작했습니다. 기존 소프트웨어 기반 렌더링 파이프...

#RT 코어 #레이 트레이싱 #GPU 아키텍처 #실시간 렌더링 #BVH 탐색 #DLSS 기술

수치 예측 문제

기술 > 머신러닝 > 회귀 분석 | 익명 | 2026-04-16 | 조회수 10

# 수치 예측 문제 (Numerical Prediction Problem) ## 개요 수치 예측 문제는 머신러닝에서 입력 데이터의 특징을 바탕으로 연속적인 실수 값(continuous value)을 출력하는 지도 학습(Supervised Learning) 태스크입니다. 이 분야는 통계학의 **회귀 분석(Regression Analysis)**에 이론적 뿌...

#회귀 분석 #수치 예측 #지도 학습 #scikit-learn #랜덤 포레스트 #평가 지표 #중급

NLTK

기술 > 자연어처리 > 오픈소스도구 | 익명 | 2026-04-16 | 조회수 5

# NLTK (Natural Language Toolkit) ## 개요 NLTK(Natural Language Toolkit)는 파이썬(Python) 기반의 자연어 처리(NLP, Natural Language Processing) 오픈소스 라이브러리입니다. 2001년 미국 펜실베이니아 대학교에서 개발되어 공개되었으며, 인간 언어 데이터를 분석·처리하기 위...

#NLTK #자연어처리 #Python #텍스트 전처리 #품사 태깅 #오픈소스 라이브러리 #NLP 입문

사전 학습

기술 > 인공지능 > 모델 훈련 | 익명 | 2026-04-16 | 조회수 7

# 사전 학습 (Pre-training) ## 개요 사전 학습(Pre-training)은 인공지능, 특히 딥러닝 모델 개발 파이프라인에서 가장 초기이자 핵심적인 단계로, 방대한 양의 일반 데이터셋을 활용하여 모델이 세계에 대한 기본적인 지식과 패턴을 학습시키는 과정입니다. 이 단계에서 훈련된 모델은 특정 작업에 최적화되지 않은 '기반 모델(Foundati...

#사전학습 #딥러닝 #자기지도학습 #트랜스포머 #파인튜닝 #고급

CheXNet

기술 > 인공지능 > 의료 영상 분석 | 익명 | 2026-04-16 | 조회수 10

# CheXNet ## 개요 **CheXNet**은 딥러닝 기반의 의료 영상 분석 모델로, 흉부 X-선 이미지에서 흉부 질환을 탐지하는 데 특화되어 개발된 인공의 연구팀이 2017년에 발표한 이 모델은 의료 인공지능 분야에서 중요한 이정표로 평가, 방사선 전문의 수준의 성능을 달성했다는 점에서 주목을 받았습니다. CheXNet은 대규모 공개 흉부 X-선...

#일반 #문서

정밀도

기술 > 인공지능 > 평가지표 | 익명 | 2026-04-13 | 조회수 20

# 정밀도 정밀도(Precision)는 인공지능, 특히 머신러닝 모델의 성능을 평가하는 핵심 지표 중 하나로, **모델이 긍정으로 예측한 샘플 중 실제로 긍정인 비율**을 의미합니다. 주로 분류 문제, 특히 이진 분류(Binary Classification)에서 사용되며, 모델의 예측 결과가 얼마나 신뢰할 수 있는지를 판단하는 데 중요한 역할을 합니다. ...

#일반 #문서

F1 score

과학 > 데이터과학 > 머신러닝 | 익명 | 2026-04-13 | 조회수 15

# F1 score ## 개요 **F1 score**(F1 점수)는 머신러닝과 데이터 과학 분야에서 분류 모델의 성능을 평가하는 데 널리 사용되는 지표입니다. 특히 **정밀도**(Precision)와 **재현율**(Recall) 사이의 균형을 중요시할 때 유용하며, 두 지표의 조화 평균(Harmonic Mean)으로 정의됩니다. F1 score는 불균형...

#F1 score #정밀도 #재현율 #조화 평균 #불균형 데이터셋 #분류 모델 평가 #머신러닝 지표 #초급

인공지능성능측정

기술 > 인공지능 > 성능 평가 | 익명 | 2026-04-13 | 조회수 22

# 인공지능 성능 측정 인공지능(AI)의 성능 측정은 AI 시스템이 주어진 과제를 얼마나 효과적이고 정확하게 수행하는지를 평가하는 과정입니다. AI 기술이 급속도로 발전함에 따라, 단순한 정확도 이상의 다양한 지표를 활용하여 모델의 신뢰성, 효율성, 공정성 등을 종합적으로 평가하는 것이 중요해졌습니다. 이 문서는 인공지능 성능 측정의 주요 개념, 평가 지...

#일반 #문서

컴퓨터 비전

기술 > 컴퓨터비전 > 기초 개념 | 익명 | 2026-04-12 | 조회수 7

# 컴퓨터 비전 ## 개요 **컴퓨터 비전**(Computer Vision, CV)은 디지털 이미지나 동영상과 같은 시각 정보를 입력으로 받아, 인간의 시각 인지 능력과 유사한 방식으로 그 내용을 이해하고 해석하는 **인공지능의 한 분야**입니다. 이 기술은 컴퓨터가 "본다"는 의미에서 유래되었으며, 단순한 이미지 처리를 넘어 객체 인식, 장면 이해, ...

#컴퓨터 비전 #딥러닝 #특징 추출 #객체 인식 #OpenCV

커뮤니티 기반 데이터

기술 > 데이터 수집 > 공개 데이터셋 | 익명 | 2026-04-09 | 조회수 9

# 커뮤니티 기반 데이터 ## 개요 **커뮤니티 기반 데이터**(Community-based Data)는 특정 커뮤니티(온라인 커뮤니티, 오프라인 집단, 전문가 그룹 등)의 구성원들이 자발적으로 생성, 공유, 기여하는 정보를 의미합니다. 이러한 데이터는 전통적인 기관 중심의 데이터 수집 방식과는 달리, 분산되고 참여 기반의 특성을 가지며, 특히 **공개...

#커뮤니티 기반 데이터 #공개 데이터셋 #비정형 데이터 #데이터 수집 #OpenStreetMap #Kaggle #Hugging Face #크롤링 #데이터 품질 #윤리

부정 클래스

기술 > 인공지능 > 머신러닝 | 익명 | 2026-04-09 | 조회수 11

# 부정 클래스 ## 개요 머신러닝, 특히 **분류(Classification)** 작업에서 "부정 클래스(Negative Class)"는 특정 관심 있는 사건(또는 객체)이 **발생하지 않았음**을 나타내는 범주를 의미합니다. 이는 "양성 클래스(Positive Class)"와 대조되는 개념으로, 이진 분류(Binary Classification)에서...

#부정 클래스 #이진 분류 #특이도 #클래스 불균형 #혼동 행렬

디멘셔널리티 문제

기술 > 데이터과학 > 분석 | 익명 | 2026-04-09 | 조회수 5

# 디멘셔널리티 문제 ## 개요 **디멘셔널리티 문제**(Dimensionality Problem), 또는 **차원의 저주**(Curse of Dimensionality)는 데이터 과학 및 머신러닝 분야에서 고차원 데이터를 다룰 때 발생하는 일련의 이슈를 의미합니다. 데이터의 차원(특징 수)이 증가함에 따라 데이터 공간의 기하학적 성질이 급격히 변화하며...

#디멘셔널리티 문제 #차원의 저주 #차원 축소 #특징 선택 #정규화 #데이터 과학

BERT

기술 > 자연어처리 > 임베딩 | 익명 | 2026-04-09 | 조회수 7

# BERT ## 개요 **BERT**(Bidirectional Encoder Representations from Transformers)는 자연어 처리(NLP) 분야에서 혁신적인 영향을 미친 언어 모델로, 2018년 구글(Google) 연구팀에 의해 개발되었습니다. BERT는 기존의 단방향 언어 모델과 달리 **양방향 맥락**(bidirectiona...

#BERT #자연어처리 #트랜스포머 #사전학습모델 #MLM #NSP #파인튜닝 #임베딩 #중급

동등한 기회

기술 > 인공지능 > 공정성 | 익명 | 2026-04-09 | 조회수 8

# 동등한 기회 ## 개요 "동등한 기회(Equal Opportunity)"는 인공지능(AI) 시스템 설계 및 운영에서 중요한 공정성 원칙 중 하나로, 모든 개인이나 집단이 인공지능 기술의 혜택을 동등하게 누릴 수 있도록 보장하는 개념입니다. 이는 단순히 차별을 금지하는 것을 넘어서, 사회적 약자나 소수 집단이 기술의 영향을 받는 방식을 고려하고, 시스...

#동등한 기회 #AI 공정성 #알고리즘 편향 #공정성 지표 #사회적 책임 AI

클래스 불균형

기술 > 인공지능 > 머신러닝 | 익명 | 2026-04-08 | 조회수 9

# 클래스 불균형 ## 개요 **클래스 불균형**(Class Imbalance)은 머신러닝에서 분류 문제를 다룰 때, 특정 클래스의 샘플 수가 다른 클래스에 비해 현저히 적거나 많은 경우를 의미합니다. 예를 들어, 사기 탐지 시스템에서 정상 거래는 수백만 건인 반면 사기 거래는 수천 건에 불과할 수 있으며, 이 경우 사기 클래스(소수 클래스)는 전체 데...

#클래스 불균형 #SMOTE #재현율 #F1-score #class_weight

FastText

기술 > 인공지능 > 자연어처리 | 익명 | 2026-03-11 | 조회수 23

# FastText ## 개요 **FastText**는 페이스북(Facebook) AI 연구소에서 개발한 경량화된 자연어 처리 라이브러리로, 단어 임베딩(word embedding) 생성과 텍스트 분류(text classification) 작업을 효율적으로 수행할 수 있도록 설계되었습니다. 2016년 발표된 이후 빠른 속도와 높은 정확도로 인해 산업계와...

#FastText #자연어처리 #단어임베딩 #텍스트분류 #Subword #Skip-gram

CBOW

기술 > 인공지능 > 임베딩 | 익명 | 2026-03-04 | 조회수 50

# CBOW (Continuous Bag‑of‑Words) 모델 ## 개요 CBOW(Continuous Bag‑of‑Words)는 **워드 임베딩(word embedding)**을 학습하기 위한 대표적인 신경망 모델 중 하나이며, **Word2Vec** 프레임워크에서 제시된 두 가지 기본 아키텍처(다른 하나는 Skip‑gram) 중 첫 번째 모델이다. ...

#CBOW #Word2Vec #Word Embedding #Gensim #Negative Sampling #Skip-gram #FastText #Context Window

편향 문제

기술 > 인공지능 > AI 윤리 | 익명 | 2026-03-02 | 조회수 14

# 편향 문제 ## 개요 인공지능(AI) 시스템은 대량의 데이터와 복잡한 알고리즘을 기반으로 의사결정을 수행한다. 그러나 학습 데이터, 모델 설계, 운영 환경 등에 내재된 **편향(bias)** 은 AI가 인간과 동일하거나 더 나은 판단을 내리지 못하고, 특정 집단에 불리한 결과를 초래할 위험을 내포한다. AI 윤리 분야에서 **편향 문제**는 공...

#AI 편향 #공정성 지표 #데이터 편향 #알고리즘 편향 #편향 완화 #AI 윤리 #규제 가이드라인 #다중공정성

검색 결과