Kevin Jamieson

(1 article)

2015

TRPO
Trust Region Policy Optimization

Advanced algorithm used in RL to ensure stable and reliable policy updates by optimizing within a trust region, thus preventing drastic policy changes.

Generality: 635

Kevin Jamieson

TRPOTrust Region Policy Optimization

TRPO
Trust Region Policy Optimization