版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
强化学习:值函数近似ReinforcementLearning:ValueFunctionApproximation主讲:尹谦晔计算机与信息技术学院视觉智能实验室(VisInt)BeijingJiaotong
University强化学习相关的一个游戏强化学习相关的一个游戏为什么要有值函数近似实际场景的状态数过多一些基于模型的强化学习方法,都是通过维护一张价值表
V(s)
或行为价值表
Q(s,a)
,用查表(lookuptable)的方式来进行学习。但在强化学习中,可能需要解决非常大型的问题。那么多状态、行为,没有办法通过一张表存储在内存里,学习起来也非常缓慢。为了解决大规模MDP的问题,我们可以用某个近似函数来估计真实的价值函数。宇宙原子数量1080值函数表示形式s:状态(state)a:行为(action)w:函数中的参数V值衡量的是状态节点的价值,而Q值衡量的是动作节点的价值函数近似的方法一般的函数近似有Linearcombinationsoffeatures(可微,参数是特征的权重)Neuralnetwork(可微,参数是每层的连接权重)Decisiontree(参数是叶子节点的取值,和树节点分裂的阈值)NearestneighborFourier/waveletbases一般要求:参数个数要小于状态(或状态-行为)的个数参数更新的方法——梯度下降Q函数的近似函数的表达方式最小化均方差(损失函数):用梯度下降法寻找局部最优解,需要修正的权重∆w:线性函数作为近似函数如果只考虑线性组合,则(可以用神经网络等模型替代计算q_hat)采样的方式估计价值函数如果假定我们已知真实的Q函数,相当于监督学习,但在强化学习中,没有真实标记,只有奖励,所以在实际中,我们用目标值来代替真实价值函数。方法:-蒙特卡罗法(MonteCarlomethod,MC)-时序差分法(Temporal-Differencemethod,TD)蒙特卡洛和时序差分的区别在于,蒙特卡洛是从完整的从初始状态到终止状态的序列(episode)中学习,利用平均值估计价值值函数。时序差分是从不完整的序列中学习,利用自举(bootstrapping
)来更新价值值函数。蒙特卡罗法从根据策略π得到的完整序列
对完整序列中的某一状态s,计算累积奖励:
对每一个完整序列,有两种方式累积Gt,针对每一个状态只计算第一次出现(First-Visit)时的Gt,或者是累积每一次出现(Every-Visit)时的Gt。然后利用累积的Gt除以次数,也就是经验平均值来更新vπ(st),是Gt的无偏估计,为了加快计算,利用递增来更新,时序差分法为了加快收敛速度,我们可以在vπ还没有收敛的迭代过程中,就立马改进v,再循环这个过程,称之为时序差分学习。
蒙特卡洛朝着实际能到的累计奖励Gt的方向更新vπ(st),
时序差分朝着估计得到的累计奖励的方向更新vπ(st),是TD目标,是TD误差,
Q-LearningQ-learning算法是一种单步迭代算法。它的具体迭代方式是:首先利用某种策略选择系统在当前状态的动作,并得到下一状态;利用下一状态的奖励和最优动作值函数对本动作值函数进行迭代。利用MC和TD计算梯度对于MC对于TD(0)对于TD(λ)前向认识:后向认识:收敛性预测学习近似函数来寻找最优策略有明显的优势,但是相比于传统的(查表)方法是否是一直能收敛的呢,答案是:不一定,下表总结了如下:收敛性控制学习在控制学习的算法中,收敛性如图所示:DeepQ-network(DQN)使用神经网络替代Q表格作为值近似函数DQN:DeepNeuralNetworks+Q-learning1.
经验回放:为了打破数据相关性,在Q-learning的基础上引入了经验回放机制,Agent将与环境交互得到的每一步经验都存储在一个样本集中。算法内部更新时,从存储的样本池中随机抽取数据,从而消除了观测序列中的相关性,并平滑了数据分布中的变化。2.
设置离线和在线两层神经网络:创建一个双层神经网络,一个离线的训练网络Q的参数θ和一个在线的目标网络Q′的参数θ−。算法每一步更新训练网络Q的参数θ,每C步,令θ−=θ把训练网络Q的参数θ直接赋给目标网络Q′的参数θ−。总结为什么要引入值函数近似值函数表现形式和常用的函数近似方法参数更新的方法——梯度下降蒙特卡罗法和时序差分法(例子:Q-Learning)收敛性DeepQ-network参考资料/aistudio/education/group/info/1335/article/69131594084//u013010889/article/details/82259477/p/ef944678be78/yijuncheng/p/9888019.htm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 什么叫闭环隔离管理制度(3篇)
- 供水改建施工方案(3篇)
- 入境旅游安全管理制度范本(3篇)
- 关于室内活动策划方案(3篇)
- 发廊设计施工方案(3篇)
- 商场介绍活动策划方案(3篇)
- 国语监督岗管理制度(3篇)
- 外包人员管理制度的意义(3篇)
- 2026年台州科技职业学院单招职业倾向性测试题库带答案详解(综合题)
- 2026年厦门软件职业技术学院单招职业技能考试题库有答案详解
- 女职工特殊保护 政策课件
- 2026年内蒙古建筑职业技术学院单招职业技能考试题库及参考答案详解(新)
- 2026年春季学期德育工作安排方案(德育四表)
- 2026年春节后复工复产安全专题培训
- 2026年春人教PEP版(新教材)小学英语四年级下册(全册)教学设计(附目录)
- 2026内蒙古地质矿产集团有限公司社会招聘65人备考题库含答案详解(培优b卷)
- 2026年渭南职业技术学院单招职业技能考试题库带答案解析
- 智鼎在线测评题库IQT答案
- 2022年浙江省高中生物竞赛试题真题及答案详解(A卷)
- 第一章 网络与生活课件 【知识精讲+备课精研+高效课堂】 教育科学出版社选择性必修二网络基础
- GA/T 823.2-2009油漆物证的检验方法第2部分:红外吸收光谱法
评论
0/150
提交评论