TRPO

TRPO算法,全称Trust region policy optimization,是随机策略梯度中的一种特殊的策略优化算法。我们知道,参数更新需要两个重要的“指导”变量:步长和方向。TRPO就是使用Trust Region的方式来寻找合适的步长,使得策略的始终向最优方向更新。

阅读全文

置信域算法

Trust Region和Line Search是两个最基本的最优化算法,本文主要讲解最优化算法Trust Region算法的原理。Line Search“先方向,后步长”,而Trust Region“先步长,后方向”。

阅读全文

约束优化

文章主要讲解了几种常见的约束优化问题求解方法。优化问题分为以下三种:无约束光滑优化:主要采用梯度下降的方法进行求解;无约束非光滑优化:主要采用次梯度下降的方法进行求解;有约束优化:主要采用投影梯度下降,ADMM,Uzawa等算法。

阅读全文

Alphago的原理

如今AlphaGo的名字已是家喻户晓,它是人工智能领域的非常重要的里程碑事件。我们知道,围棋的特征空间高达361!个,以至于目前的计算力在有限的时间内根本无法完成搜索。本文从纯技术角度聊一聊AlphaGo是如何解决该问题的,探究一下它成功的原因和技术细节。本文大部分细节来自于Deepmind在Nature的论文《Mastering the game of Go with deep neural networks and tree search》。

阅读全文

强化学习——从随机策略梯度到确定性策略梯度

按照"模型"分类,强化学习可以分为Model-Based、Model-Free两类,其中Model-Free又可以分为Prediction、Control两类。按照"优化目标"来分类,强化学习可以分为Value-Based、Policy-Based、Actor-Critic三类。本文主要讲解强化学习中的随机策略梯度和确定性策略梯度,包括Stochastic Policy Gradient、Deterministic policy Gradient、Deterministic 以及Actor-Critic 以及 Deep Determistic Policy Gradient 等方法。

阅读全文