TRPO
条评论什么是TRPO?
TRPO算法,全称Trust region policy optimization,是随机策略梯度中的一种特殊的策略优化算法。我们知道,参数更新需要两个重要的“指导”变量:步长和方向。TRPO就是使用Trust Region的方式来寻找合适的步长,使得策略的始终向最优方向更新。
Trust Region原理
这里可以参考上一篇博文。
TRPO算法原理
参考
- 本文链接:https://cheersyouran.github.io/2018/08/28/trpo/
- 版权声明:版权归作者所有,转载请注明出处。
分享