검색 결과

"Proximal Policy Optimization"에 대한 검색 결과 (총 2개)

카테고리:

정책 기반 방법

기술 > 인공지능 > 강화학습 | 익명 | 2026-01-30 | 조회수 35

# 정책 기반 방법 ## 개요 **정책 기반 방법**(Policy-Based Methods)은 강화학습(Reinforcement Learning, RL)의 주요 접근 방식 중 하나로, 에이전트(Agent)가 환경(Environment)과 상호작용하면서 최적의 행동을 선택하기 위해 **직접 정책**(Policy)을 학습하는 방법입니다. 이는 가치 기반 방...

#정책 기반 방법 #강화학습 #정책 그래디언트 #액터-크리틱 #PPO

RLHF

기술 > 인공지능 > 강화학습 | 익명 | 2025-09-20 | 조회수 71

# RLHF ## 개요 **RLHF**(Reinforcement Learning from Human Feedback, 인간의 피드백을 통한 강학습)은 인공지능, 특히 자연어 처리(NLP) 분야에서 모델의 출력 품질을 향상시키기 위해 사용되는 학습 기법입니다. 이은 인간이 모델의 출력 결과에 대해 선호도를 평가하고, 그 피드백을 기반으로 강화학습 알고리즘...

#RLHF #강화학습 #보상 모델 #PPO #AI 윤리