总体
环境交互 不断试错达到目标
basic
是一个闭环的系统,那什么时候可以用?
1、action是二阶效应:输出会影响数据的采样
2、长期的reward要设置得当
时间上对齐的马氏性,仅与状态相关,马尔科夫决策过程(mdp)
通过把reward 的discounted累加之后去学习使之最大的policy
q是一种E:取期望,因为有随机性
那就是在使得max的q下的action
总结:model、policy、value
有图
经典rl
1.mdp过程环境的已知的,不需要采样,问题很简单,state-value(action-value) function,去找最优的policy:bellman optimality equation
①:policy evaluation:value或者policy
②:optimal contral
2.mdp过程环境的未知的,只有不断采样去学习(不知先验信息),分为model-free和model-based,即不管系统和先学reward怎么给化作第一种已知环境。
①:
蒙特卡洛采样:就像下围棋,累加reward然后平均。是model-free,只关注output,期望等于均值
temporal-difference learning:每走一步就观测一次(update),就更快。以猜来使得猜更新,但是方差会变大
总而言之,mc找一条链走到头,td每次都去尝试(variance小,但是一定要一门四龙-greedy),dp是全部去试
②
去estimate模型:但是状态负责度很高,就不好用,因为太难去估计
drl
对state抽取特征,不是枚举s,function approximation去做近似,很多种近似的方法
policy gradient ,推导比较麻烦
①model-free
1,value based
学习function
2,policy based
3,actor-critic
为了降低variance
②model based
error
挑战
算法内部波动性很大
不同种子点效果不同
不同任务表现不同
到底要用多少样本才能学好
multi task