西部世界

西蒙的个人博客

2018

2018/08/28TRPO
2018/08/23置信域算法
2018/08/16约束优化
2018/06/19Alphago的原理
2018/06/17强化学习——从随机策略梯度到确定性策略梯度

技术5

Alphago 强化学习机器学习凸优化策略梯度

TRPO
置信域算法
约束优化
Alphago的原理
强化学习——从随机策略梯度到确定性策略梯度

Copyright © 2019 西部世界. Powered by Hexo. Theme by Cho.