西部世界
西部世界
西蒙的个人博客
首页
归档
关于
订阅
正在查看 技术 下的文章
2018
2018/08/28
TRPO
2018/08/23
置信域算法
2018/08/16
约束优化
2018/06/19
Alphago的原理
2018/06/17
强化学习——从随机策略梯度到确定性策略梯度
分类
技术
5
标签
Alphago
强化学习
机器学习
凸优化
策略梯度
最近文章
TRPO
置信域算法
约束优化
Alphago的原理
强化学习——从随机策略梯度到确定性策略梯度
友情链接
site-name1
site-name2
site-name3