정책 기반 방법
정책 기반 방법
개요
정책 기반 방법(Policy-Based Methods)은 강화학습(Reinforcement Learning, RL)의 주요 접근 방식 중 하나로, 에이전트(Agent)가 환경(Environment)과 상호작용하면서 최적의 행동을 선택하기 위해 직접 정책(Policy)을 학습하는 방법입니다. 이는 가치 기반 방법(Value-Based Methods)과 대비되며, 특히 연속적인 행동 공간이나 확률적 행동 선택이 중요한 문제에서 강점을 보입니다.
정책 기반 방법의 핵심 아이디어는, 각 상태(State)에서 어떤 행동을 할지 결정하는 함수인 정책 $\pi(a|s)$를 직접 매개변수화(parameterize)하고, 이를 성능 지표(예: 기대 누적 보상)를 기반으로 최적화하는 것입니다. 이 방식은 행동 선택의 불확실성을 자연스럽게 모델링할 수 있어, 확률적 정책(Stochastic Policy)을 효과적으로 학습할 수 있습니다.
정책 기반 방법의 원리
정책의 정의
정책 $\pi(a|s; \theta)$는 상태 $s$가 주어졌을 때 행동 $a$를 선택할 확률을 나타내는 함수입니다. 여기서 $\theta$는 정책을 결정하는 학습 가능한 매개변수(parameters)입니다. 예를 들어, 신경망의 가중치가 $\theta$에 해당합니다.
- 확률적 정책(Stochastic Policy): $\pi(a|s)$는 확률 분포를 출력합니다. 예: $\text{Softmax}$ 함수를 사용한 이산 행동 선택.
- 결정론적 정책(Deterministic Policy): 주어진 상태에 대해 고정된 행동을 출력합니다. 예: $\mu(s; \theta)$.
목적 함수: 기대 누적 보상
정책 기반 방법의 목표는 다음과 같은 기대 누적 보상(Expected Return)을 최대화하는 것입니다:
$$ J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \gamma^t r_t \right] $$
여기서: - $\tau$는 상태-행동-보상의 일련의 전개(trajectory)입니다. - $\gamma$는 할인율($0 \leq \gamma < 1$)입니다. - $r_t$는 시점 $t$에서의 보상입니다.
이 목적 함수 $J(\theta)$를 $\theta$에 대해 기울기 상승(Gradient Ascent)으로 최적화합니다.
정책 그래디언트 정리
정책 기반 방법의 핵심은 정책 그래디언트 정리(Policy Gradient Theorem)에 있습니다. 이 정리는 $J(\theta)$의 그래디언트를 다음과 같이 계산할 수 있음을 보장합니다:
$$ \nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot Q^{\pi}(s_t, a_t) \right] $$
이 식을 기반으로 한 알고리즘을 REINFORCE라고 하며, 몬테카를로 샘플링을 통해 $Q^{\pi}(s_t, a_t)$를 추정합니다.
REINFORCE 알고리즘 개요
- 정책 $\pi_\theta$를 사용해 에피소드(episode)를 샘플링합니다.
- 각 시간 스텝 $t$에서 보상의 누적합(리턴) $G_t$를 계산합니다.
- 손실 함수를 다음과 같이 정의하고, 그래디언트를 계산합니다: $$ \mathcal{L}(\theta) = -\sum_{t=0}^{T} \log \pi_\theta(a_t|s_t) \cdot G_t $$
- $\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)$로 매개변수를 업데이트합니다.
장점과 단점
✅ 장점
| 장점 | 설명 |
|---|---|
| 직접적인 정책 최적화 | 가치 함수를 따로 추정하지 않고 정책을 직접 학습하므로, 행동 선택에 더 직관적입니다. |
| 확률적 행동 모델링 | 확률 분포를 출력하므로 탐색(Exploration)이 자연스럽게 이루어집니다. |
| 연속 행동 공간에 적합 | 가치 기반 방법은 Q값을 각 행동에 대해 계산해야 하지만, 정책 기반은 행동을 직접 출력 가능합니다. |
❌ 단점
| 단점 | 설명 |
|---|---|
| 고차원 출력 문제 | 이산 행동의 수가 많을 경우, Softmax 계산이 비효율적일 수 있습니다. |
| 높은 분산 | 몬테카를로 기반 추정은 분산이 크기 때문에 안정적인 학습을 위해 베이스라인(Baseline)이 필요합니다. |
| 샘플 비효율성 | 한 에피소드의 모든 데이터를 사용한 후 폐기하므로, 샘플 효율이 낮습니다. |
개선된 알고리즘들
기본 정책 기반 방법의 단점을 보완하기 위해 다양한 알고리즘이 제안되었습니다.
1. 액터-크리틱 (Actor-Critic)
- 액터(Actor): 정책 $\pi_\theta$를 학습합니다.
- 크리틱(Critic): 가치 함수 $V(s)$ 또는 $Q(s,a)$를 추정하여 액터의 그래디언트 계산에 사용됩니다.
- 크리틱이 제공하는 어드밴티지 함수(Advantage: $A(s,a) = Q(s,a) - V(s)$)를 사용하면 분산을 줄일 수 있습니다.
2. A2C / A3C
- A2C(Advantage Actor-Critic): 동기화된 병렬 에이전트를 사용한 액터-크리틱.
- A3C(Asynchronous Advantage Actor-Critic): 비동기적으로 병렬 에이전트가 학습하여 샘플 효율과 안정성 향상.
3. PPO (Proximal Policy Optimization)
- 현재 가장 널리 사용되는 정책 기반 알고리즘 중 하나.
- 정책 업데이트를 클리핑(clipping)을 통해 제한함으로써 과도한 변화를 방지합니다.
- 안정적이며, 하이퍼파라미터에 민감하지 않아 다양한 환경에서 잘 작동합니다.
# 간단한 PPO 클리핑 예시 (의사코드)
ratio = pi(a|s) / pi_old(a|s)
surrogate_loss = min(ratio * advantage, clip(ratio, 1-ε, 1+ε) * advantage)
활용 사례
- 로봇 제어: 연속적인 모터 출력 제어에 적합 (예: 보행, 운전).
- 게임 AI: 확률적 행동 선택이 필요한 전략 게임 (예: StarCraft, Dota 2).
- 자율주행: 다양한 상황에서의 안전한 경로 선택.
- 자연어 생성: 토큰 선택의 확률 분포를 직접 모델링.
관련 문서 및 참고 자료
- 강화학습 개요
- 가치 기반 방법
- 액터-크리틱 구조
- PPO 알고리즘 설명서 (Schulman et al., 2017)
- Sutton & Barto, Reinforcement Learning: An Introduction (2nd Edition)
정책 기반 방법은 강화학습의 핵심 기법 중 하나로, 특히 복잡한 행동 공간과 확률적 의사결정이 필요한 문제에서 뛰어난 성능을 발휘합니다. 최신 알고리즘인 PPO와 같은 발전을 통해 산업계와 연구계에서 널리 채택되고 있으며, 인공지능의 자율성 향상에 기여하고 있습니다.
이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.
주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.