qintao-rl

强化学习-秦涛

总体

环境交互 不断试错达到目标

basic

是一个闭环的系统,那什么时候可以用?

1、action是二阶效应:输出会影响数据的采样

2、长期的reward要设置得当

时间上对齐的马氏性,仅与状态相关,马尔科夫决策过程(mdp)

通过把reward 的discounted累加之后去学习使之最大的policy

q是一种E:取期望,因为有随机性

那就是在使得max的q下的action

总结:model、policy、value
有图

经典rl

1.mdp过程环境的已知的,不需要采样,问题很简单,state-value(action-value) function,去找最优的policy:bellman optimality equation

①:policy evaluation:value或者policy

②:optimal contral

2.mdp过程环境的未知的,只有不断采样去学习(不知先验信息),分为model-free和model-based,即不管系统和先学reward怎么给化作第一种已知环境。

①:
蒙特卡洛采样:就像下围棋,累加reward然后平均。是model-free,只关注output,期望等于均值

temporal-difference learning:每走一步就观测一次(update),就更快。以猜来使得猜更新,但是方差会变大

总而言之,mc找一条链走到头,td每次都去尝试(variance小,但是一定要一门四龙-greedy),dp是全部去试


去estimate模型:但是状态负责度很高,就不好用,因为太难去估计

drl

对state抽取特征,不是枚举s,function approximation去做近似,很多种近似的方法

policy gradient ,推导比较麻烦

①model-free
1,value based
学习function

2,policy based

3,actor-critic
为了降低variance

②model based
error

挑战

算法内部波动性很大

不同种子点效果不同

不同任务表现不同

到底要用多少样本才能学好

multi task