强化学习-秦涛

总体

环境交互不断试错达到目标

basic

是一个闭环的系统，那什么时候可以用？

1、action是二阶效应：输出会影响数据的采样

2、长期的reward要设置得当

时间上对齐的马氏性，仅与状态相关，马尔科夫决策过程（mdp）

通过把reward 的discounted累加之后去学习使之最大的policy

q是一种E:取期望，因为有随机性

那就是在使得max的q下的action

总结：model、policy、value
有图

1.mdp过程环境的已知的，不需要采样，问题很简单，state-value(action-value) function，去找最优的policy：bellman optimality equation

①：policy evaluation：value或者policy

②：optimal contral

2.mdp过程环境的未知的，只有不断采样去学习（不知先验信息），分为model-free和model-based，即不管系统和先学reward怎么给化作第一种已知环境。

①：
蒙特卡洛采样：就像下围棋，累加reward然后平均。是model-free，只关注output，期望等于均值

temporal-difference learning：每走一步就观测一次(update)，就更快。以猜来使得猜更新，但是方差会变大

总而言之，mc找一条链走到头，td每次都去尝试（variance小，但是一定要一门四龙-greedy），dp是全部去试

②
去estimate模型：但是状态负责度很高，就不好用，因为太难去估计

对state抽取特征，不是枚举s，function approximation去做近似，很多种近似的方法

policy gradient ，推导比较麻烦

①model-free
1，value based
学习function

2，policy based

3，actor-critic
为了降低variance

②model based
error

算法内部波动性很大

不同种子点效果不同

不同任务表现不同

到底要用多少样本才能学好

multi task