TRPO

Aug 28, 2018 | 技术 | 阅读 | 121 字 | 1 分钟

什么是TRPO？

TRPO算法，全称Trust region policy optimization，是随机策略梯度中的一种特殊的策略优化算法。我们知道，参数更新需要两个重要的“指导”变量：步长和方向。TRPO就是使用Trust Region的方式来寻找合适的步长，使得策略的始终向最优方向更新。

Trust Region原理

这里可以参考上一篇博文。

TRPO算法原理

参考

http://rail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/lecture_13_advanced_pg.pdf

本文作者：ZHANG Youran
本文链接：https://cheersyouran.github.io/2018/08/28/trpo/
版权声明：版权归作者所有，转载请注明出处。