版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章
基于模型的强化学习北京大学余欣航目录model-based概述model-based算法蒙特卡罗树搜索model-based概述无模型(model-free)的强化学习智能体与真实环境进行交互产生观测数据,从数据中学习,从而获得最佳策略基于模型(model-based)的强化学习智能体尝试为真实环境建立模型,模型是对真实环境的模拟,通过模型进行决策什么是模型
什么是模型基于模型和无模型基于模型(model-based)从数据中学习出一个模型利用模型规划出值函数或策略无模型(model-free)没有模型从数据中学习值函数或策略基于模型和无模型基于模型的方法利用数据效率较高,无模型的方法利用数据效率较低;物理模拟下,基于模型的方法训练周期短,无模型的方法训练周期长;基于模型的方法优化过程非常复杂,适合我们对于模型有先验知识的情况;在缺乏先验知识或模型较大的情况下,无模型的方法较为有利;模型的数学表示
训练模型的方式
……基于模型的强化学习方法智能体与真实环境交互产生数据智能体通过数据学习真实环境,建立模型通过与模型交互,规划价值函数或策略由价值函数或策略在真实环境中指示动作1111如何利用模型?
model-based算法训练模型的方法一
方法一的缺点
收集数据区域训练模型的方法二
方法二的缺点如果规划n步,则模型误差会在这n步中沿着产生的观测数据的轨迹快速累积,最终产生巨大的误差
收集数据区域1收集数据区域2收集数据区域3训练模型的方法三
模型预测控制(ModelPredictiveControl,MPC)
Backpropagatetopolicy
训练模型的方法四Backpropagatetopolicy
前面四个方法的总结:基于模型和无模型的结合—Dyna算法框架Dyna将基于模型的强化学习和无模型的强化学习进行有机结合既从模型中学习(并且模型也在学习),也从和环境的交互中学习,从而更新价值函数或策略函数Dyna算法框架流程
蒙特卡洛树搜索2016年,AlphaGovs
李世乭,4:12017年,AlphaGovs柯洁,3:0Deepmind:AlphaGo围棋的所有状态和落子决策在计算机中可以通过树的形式来表示树的节点表示棋局的状态,边表示落子决策MCTS是一种搜索算法,通过多次模拟,基于模拟结果给出最佳落子决策,是常见的model-based方法AlphaGo的核心技术—蒙特卡洛树搜索(MCTS)选择(selection)扩展(expend)仿真(simulation)回传(backpropagation))蒙特卡洛树搜索的基本步骤
选择A/B:胜利次数/模拟次数先手先手后手后手由上一步选择的节点上随机扩展一个或者多个0/0节点扩展先手先手后手后手先手利用一个相对简单的策略快速执行双方的招式,每一时刻只从策略中随机选取一个招式并执行,不断模拟直至游戏结束,并记录最终结果模拟先手先手后手后手先手……将最后得到的胜负结果回传给所有的父节点,更新父节点的值回传先手先手后手后手先手蒙特卡洛树搜索的基本步骤在计算资源允许的情况下,不断重复这个过程,MCTS结束时,最佳的移动通常是模拟次数最多的节点AlphaGoZero的主要技术AlphaGoZero不需要学习棋谱,通过自我对弈的方式完成棋力的提高,主要应用了两种技术,MCTS和神经网络AlphaGoZero的行棋主要由MCTS完成,神经网络指导MCTS完成搜索神经网络的输入围棋棋局由19×19=361个点组成,每个点的状态有两种:黑方行棋,黑棋点取值1,白棋点或无棋点取值0白方行棋,白棋点取值1,黑棋点或无棋点取值0输入为黑棋、白棋前8步对应的棋局状态,共16个单独的棋局状态用于标识当前行棋方,若为黑棋则全部标识为1,若为白棋则全部标识为0总输入维度为19×19×17神经网络的输出
均方误差交叉熵正则化神经网络的结构Convolutionblock:128个3×3卷积核,步长为1ResNetblock19层ResNet网络Outputblock策略部分:32个1×1卷积核,激活函数Softma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026春招:伊利集团题库及答案
- 2026年桥梁质量监督与管理体系
- 2026春招:信息安全顾问题库及答案
- 2026春招:消防员面试题及答案
- 2026春招:无人机组装测试题库及答案
- 货运安全生产标准化
- 护理信息化在护理质量管理与持续改进中的应用
- 医疗行业信息化与大数据
- 医学影像科技术创新与应用总结
- 2026年德阳科贸职业学院单招职业技能考试备考题库带答案解析
- 2026年历史学业水平合格考考前模拟卷(江苏专用)(考试版及全解全析)
- 资产管理全周期标准化操作流程
- 招投标业务流程及合同管理指南
- 校园小导游测试卷(单元测试)2025-2026学年二年级数学上册(人教版)
- 2025年西藏公开遴选公务员笔试试题及答案解析(综合类)
- 扬州市梅岭中学2026届八年级数学第一学期期末综合测试试题含解析
- 末梢血标本采集指南
- GB/T 46156-2025连续搬运设备安全规范通用规则
- AI赋能的虚拟仿真教学人才培养模式创新报告
- 数据管理能力成熟度评估模型(DCMM)评估师资格培训试题及答案
- 工程变更签证培训课件
评论
0/150
提交评论