[Paper Review] TRPO and PPO
๐ง Paper Review: TRPO & PPO
์์ธํ ๋ฆฌ๋ทฐ ๋ด์ฉ์ slide link์์ ํ์ธ๊ฐ๋ฅํฉ๋๋ค.
๐ Recap: Policy Gradient
- Reinforcement Learning์์ Policy Gradient๋ Monte Carlo Approximation์ ์ด์ฉํด ๊ธฐ๋ ๋ณด์์ ์ถ์ .
- Reward-to-go ํํ๋ก ํํํ์ฌ ๊ฐ ํ๋์ ๋ฏธ๋ ๋ณด์๋ง ๊ณ ๋ ค.
- ํ์ง๋ง ์ถ์  ๊ณผ์ ์ ๋ ธ์ด์ฆ๊ฐ ์กด์ฌํ์ฌ ํ์ต์ด ๋ถ์์ ํ ์ ์์.
๐ฏ Variance Reduction
- Baseline term์ ๋์ ํ๋ฉด ๋ถ์ฐ์ ์ค์ด๋ฉด์๋ unbiased estimator๋ฅผ ์ ์งํ ์ ์์.
- Baseline์ ํ๋ผ๋ฏธํฐ ฮธ์ ๋ ๋ฆฝ์ .
โ๏ธ Motivation
Policy Gradient์ ํ์ต ์์ ์ฑ์ ๋์ด๊ธฐ ์ํด ๋ ๊ฐ์ง ์ ๊ทผ์ด ์ ์๋จ:
- Parameter Space Regularization
    - ํ๋ผ๋ฏธํฐ์ ๋ณํ๋์ ์ง์  ๊ท์  (linearization ๊ธฐ๋ฐ).
 
- Policy Space Regularization
    - ์ ์ฑ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ง์  ๊ท์  (์ฆ, ํ๋ ๋ถํฌ์ ๋ณํ ์ ํ).
 
โ ๏ธ ๋จ, ํ๋ผ๋ฏธํฐ ๊ธฐ๋ฐ ์ ๊ทํ๋ ๋คํธ์ํฌ์ parameterization์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์ โ ์ ์ฑ ๊ณต๊ฐ์์์ ์ ๊ทํ๊ฐ ๋ ์ผ๋ฐ์ .
๐ TRPO (Trust Region Policy Optimization)
๐ Theoretical Foundations
TRPO๋ Kakade & Langford (2002)์ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจ:
โApproximately optimal approximate reinforcement learning.โ
- ์๋ก์ด ์ ์ฑ ์ ๊ธฐ๋ ๋ณด์์ ๊ธฐ์กด ์ ์ฑ ์ advantage ํจ์๋ฅผ ํตํด ํํ ๊ฐ๋ฅ.
- ๋จ, ๋ ์ ์ฑ ์ด ์ถฉ๋ถํ โ๊ฐ๊น์ดโ ๊ฒฝ์ฐ์๋ง ๊ทผ์ฌ๊ฐ ์ ํจ.
- TRPO๋ ์ ์ฑ ๊ฐ์ ์ฐจ์ด๋ฅผ KL Divergence๋ก ์ ํํ๋ constrained optimization์ผ๋ก ์ ๊ทผํจ.
โ๏ธ Optimization Formulation
์ต์ข ๋ชฉ์  ํจ์: [ \max_\theta \; \hat{E}t \left[ \frac{\pi\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} A_t \right] ] subject to: [ \hat{E}t [ KL(\pi{\theta_{old}}(\cdot|s_t) | \pi_\theta(\cdot|s_t)) ] \le \delta ]
- KL ์ ์ฝ ์กฐ๊ฑด์ โtrust regionโ์ ํ์ฑํ์ฌ ํ์ต์ ์์ ์ฑ์ ๋ณด์ฅ.
- TRPO๋ on-policy ํ์ต์ด์ง๋ง, old policy์ ๋ฐ์ดํฐ๋ก ๊ทผ์ฌํ๋ฏ๋ก semi-off-policy ์ฑ๊ฒฉ๋ ๊ฐ์ง.
๐งฉ PPO (Proximal Policy Optimization)
๐ฏ Motivation
- TRPO์ constrained optimization์ ๊ณ์ฐ์ด ๋ณต์กํ๊ณ , ฮฒ(๋ผ๊ทธ๋์ฃผ ๊ณ์)์ ์ค์ ์ด ๋ฌธ์ ์.
- PPO๋ unconstrained optimization์ผ๋ก ๋จ์ํํ๋ฉด์ TRPO์ ์์ ์ฑ์ ์ ์งํ๋ ค ํจ.
๐ Approach
- 
    Probability ratio ( r_t(\theta) = \frac{\pi_\theta(a_t s_t)}{\pi_{\theta_{old}}(a_t s_t)} ) 
- 
    Clipped Objective: [ L^{CLIP}(\theta) = \hat{E}_t [\min(r_t(\theta) A_t, \; clip(r_t(\theta), 1 - \epsilon, 1 + \epsilon)A_t)] ] 
- ์ด๋ clip์ ํ๋ฅ ๋น์จ์ด (1-\epsilon)๊ณผ (1+\epsilon) ๋ฒ์๋ฅผ ๋ฒ์ด๋์ง ์๋๋ก ์ ํ.
- ๊ฒฐ๊ณผ์ ์ผ๋ก, exploit-prone update๋ฅผ ๋ฐฉ์งํ๊ณ ์์ ์ ์ธ ํ์ต์ ์ ๋.
๐งช Experiments
- ๋ค์ํ ํ๊ฒฝ์์ PPO๋ TRPO๋ณด๋ค ๋จ์ํ๋ฉด์๋ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑ.
- clipping factor ( \epsilon )์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก, ๋ฌธ์ ์ ๋ฐ๋ผ ์กฐ์  ํ์.
๐ง Summary
| ํญ๋ชฉ | TRPO | PPO | 
|---|---|---|
| ๋ชฉ์  | ์ ๋ขฐ์์ญ ๋ด ์ ์ฑ ์ ๋ฐ์ดํธ | ํด๋ฆฌํ๋ ๋ชฉ์ ํจ์๋ก ๊ทผ์ฌ | 
| ์ ์ฝ | KL-divergence ์ ์ฝ | Unconstrained (Clipping) | 
| ๊ณ์ฐ ๋ณต์ก๋ | ๋์ | ๋ฎ์ | 
| ์์ ์ฑ | ๋์ | ๋์ | 
| ์ค์ฉ์ฑ | ์ค๊ฐ | ๋งค์ฐ ๋์ | 
๐ Reference
- Schulman et al., โTrust Region Policy Optimizationโ, ICML 2015
- Schulman et al., โProximal Policy Optimization Algorithmsโ, arXiv 2017
- Kakade & Langford, โApproximately Optimal Approximate Reinforcement Learningโ, ICML 2002
๋๊ธ๋จ๊ธฐ๊ธฐ