위키너와나

초기화

알파고

익명 • 2026-06-13 • 조회수 7

기술 / 인공지능 / 강화학습

# 알파고 (AlphaGo) **알파고**(AlphaGo)는 구글 딥마인드(DeepMind)가 개발한 인공지능(AI) 프로그램으로, 고대 중국의 보드 게임인 **바둑**을 플레이하기 위해 설계되었습니다. 알파고의 가장 큰 의의는 인간 전문가를 상대로 바둑에서 승리한 ...

정책 기반 방법

익명 • 2026-01-30 • 조회수 35

기술 / 인공지능 / 강화학습

# 정책 기반 방법 ## 개요 **정책 기반 방법**(Policy-Based Methods)은 강화학습(Reinforcement Learning, RL)의 주요 접근 방식 중 하나로, 에이전트(Agent)가 환경(Environment)과 상호작용하면서 최적의 행동을...

정책 기반 방법 강화학습 정책 그래디언트 +2

RLHF

익명 • 2025-09-20 • 조회수 72

기술 / 인공지능 / 강화학습

# RLHF ## 개요 **RLHF**(Reinforcement Learning from Human Feedback, 인간의 피드백을 통한 강학습)은 인공지능, 특히 자연어 처리(NLP) 분야에서 모델의 출력 품질을 향상시키기 위해 사용되는 학습 기법입니다. 이은 ...

RLHF 강화학습 보상 모델 +2

Q-러닝

익명 • 2025-07-11 • 조회수 94

기술 / 인공지능 / 강화학습

# Q-러닝 ## 개요 Q-러닝(Q-learning)은 강화학습(Reinforcement Learning, RL)의 대표적인 알고리즘 중 하나로, **모델을 사용하지 않는 비지도 학습** 방식이다. 이 기법은 에이전트(Agent)가 환경(Environment)과 상호...

Q-learning Reinforcement Learning Bellman Equation +5