西部世界

西部世界

西蒙的个人博客

首页 归档 关于 订阅

2018

  • 2018/08/28TRPO
  • 2018/08/23置信域算法
  • 2018/08/16约束优化
  • 2018/06/19Alphago的原理
  • 2018/06/17强化学习——从随机策略梯度到确定性策略梯度
分类
  • 技术5
标签
Alphago 强化学习 机器学习 凸优化 策略梯度
最近文章
  • TRPO
  • 置信域算法
  • 约束优化
  • Alphago的原理
  • 强化学习——从随机策略梯度到确定性策略梯度
友情链接
    site-name1
      site-name2
        site-name3
        Copyright © 2019 西部世界. Powered by Hexo. Theme by Cho.