8:["$","div",null,{"className":"min-h-screen bg-gray-100 dark:bg-gray-900 py-6","children":["$","div",null,{"className":"max-w-7xl mx-auto px-4 sm:px-6 lg:px-8","children":[["$","div",null,{"className":"bg-white dark:bg-gray-800 shadow-lg rounded-lg overflow-hidden mb-6","children":["$","div",null,{"className":"px-8 py-6","children":["$","div",null,{"className":"flex items-baseline gap-3","children":[["$","h1",null,{"className":"text-3xl font-bold text-gray-900 dark:text-white","children":"Philipp Moritz"}],["$","span",null,{"className":"text-lg text-gray-500 dark:text-gray-400","children":["(",2," article","s",")"]}]]}]}]}],["$","div",null,{"className":"grid grid-cols-2 sm:grid-cols-2 lg:grid-cols-3 xl:grid-cols-4 gap-6","children":[["$","$L13","trpo-trust-region-policy-optimization",{"href":"/trpo-trust-region-policy-optimization","className":"transform transition duration-500 hover:scale-105 block w-full","children":["$","div",null,{"className":"relative w-full pt-[133%]","children":["$","div",null,{"className":"absolute inset-0 rounded-lg overflow-hidden","children":[["$","$L14",null,{"src":"/vocab/images/articles/small/trpo-trust-region-policy-optimization.webp","alt":"TRPO (Trust Region Policy Optimization)","fill":true,"loading":"lazy","className":"object-cover","sizes":"(max-width: 640px) 50vw, (max-width: 768px) 33vw, (max-width: 1024px) 25vw, 16vw"}],["$","div",null,{"className":"absolute inset-0 bg-gradient-to-t from-black/70 to-black/0"}],false,["$","div",null,{"className":"absolute top-3 left-3","children":["$","span",null,{"className":"text-[8px] sm:text-xs text-gray-400","children":2015}]}],["$","div",null,{"className":"absolute bottom-0 p-3 w-full","children":[["$","h2",null,{"className":"text-sm font-semibold mb-1.5 text-white","dangerouslySetInnerHTML":{"__html":"

TRPO
Trust Region Policy Optimization

"}}],["$","p",null,{"className":"text-gray-200 text-xs mb-1.5","children":"Advanced algorithm used in RL to ensure stable and reliable policy updates by optimizing within a trust region, thus preventing drastic policy changes."}],["$","div",null,{"className":"flex justify-between items-center","children":["$","p",null,{"className":"text-gray-400 text-[8px] sm:text-xs","children":["Generality",": ","635"]}]}]]}]]}]}]}],["$","$L13","ppo-proximal-policy-optimization",{"href":"/ppo-proximal-policy-optimization","className":"transform transition duration-500 hover:scale-105 block w-full","children":["$","div",null,{"className":"relative w-full pt-[133%]","children":["$","div",null,{"className":"absolute inset-0 rounded-lg overflow-hidden","children":[["$","$L14",null,{"src":"/vocab/images/articles/small/ppo-proximal-policy-optimization.webp","alt":"PPO (Proximal Policy Optimization)","fill":true,"loading":"lazy","className":"object-cover","sizes":"(max-width: 640px) 50vw, (max-width: 768px) 33vw, (max-width: 1024px) 25vw, 16vw"}],["$","div",null,{"className":"absolute inset-0 bg-gradient-to-t from-black/70 to-black/0"}],false,["$","div",null,{"className":"absolute top-3 left-3","children":["$","span",null,{"className":"text-[8px] sm:text-xs text-gray-400","children":2017}]}],["$","div",null,{"className":"absolute bottom-0 p-3 w-full","children":[["$","h2",null,{"className":"text-sm font-semibold mb-1.5 text-white","dangerouslySetInnerHTML":{"__html":"

PPO
Proximal Policy Optimization

"}}],["$","p",null,{"className":"text-gray-200 text-xs mb-1.5","children":"RL algorithm that aims to balance ease of implementation, sample efficiency, and reliable performance by using a simpler but effective update method for policy optimization."}],["$","div",null,{"className":"flex justify-between items-center","children":["$","p",null,{"className":"text-gray-400 text-[8px] sm:text-xs","children":["Generality",": ","670"]}]}]]}]]}]}]}]]}]]}]}]

Philipp Moritz

TRPOTrust Region Policy Optimization

PPOProximal Policy Optimization

TRPO
Trust Region Policy Optimization

PPO
Proximal Policy Optimization