什么是TRPO?

TRPO算法,全称Trust region policy optimization,是随机策略梯度中的一种特殊的策略优化算法。我们知道,参数更新需要两个重要的“指导”变量:步长和方向。TRPO就是使用Trust Region的方式来寻找合适的步长,使得策略的始终向最优方向更新。

Trust Region原理

这里可以参考上一篇博文。

TRPO算法原理

参考

  1. http://rail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/lecture_13_advanced_pg.pdf