西部世界

西蒙的个人博客

正在查看 Alphago 下的文章

2018

2018/06/19Alphago的原理

技术5

Alphago 强化学习机器学习凸优化策略梯度

TRPO
置信域算法
约束优化
Alphago的原理
强化学习——从随机策略梯度到确定性策略梯度

Copyright © 2019 西部世界. Powered by Hexo. Theme by Cho.