版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第22章强化学习概论强化学习简介(11-26)基于动态规划的算法(27-37)蒙特卡洛算法(38-44)时差分学习(45-51)深度强化学习(52-59)汇报人:张润羲
苗颖强化学习(ReinforcementLearning)其目标区别于有监督学习和无监督学习,要解决的问题是智能体在环境中怎样执行动作以获得最大的累计奖励很多控制、决策问题都可以抽象成这种模型。系统会给算法执行的动作一个评分反馈,这种反馈一般还具有延迟性,当前动作所产生的后果在未来才会完全体现,另外还具有随机性。应用场景:游戏、机器人、自动驾驶等强化学习在AI中的定位强化学习的思路要解决的问题是智能体在环境中怎样执行动作以获得最大的累计奖励以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。强化学习的思路举例机器有一个明确的小鸟角色——代理躲避水管的方法是让小鸟用力飞一下——行动整个游戏过程中需要躲避各种水管——环境需要控制小鸟飞的更远——目标飞的越远,就会获得越多的积分——奖励强化学习的思路强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。强化学习的应用场景游戏:2016年:AlphaGoMaster击败李世石,使用强化学习的
AlphaGoZero仅花了40天时间,就击败了自己的前辈AlphaGoMaster。2019年1月25日:AlphaStar在《星际争霸2》中以10:1击败了人类顶级职业玩家。2019年4月13日:OpenAI在《Dota2》的比赛中战胜了人类世界冠军。机器人:通过强化学习,实现像人一样的平衡控制深度学习与强化学习相结合,可以训练机器臂的长期推理能力伯克利强化学习:机器人只用几分钟随机数据就能学会轨迹跟踪其他推荐系统、对话系统、教育、培训、广告、金融、自动驾驶强化学习的主流算法强化学习的算法简介免模型学习(Model-Free)vs有模型学习(Model-Based)在介绍详细算法之前,我们先来了解一下强化学习算法的2大分类。这2个分类的重要差异是:智能体是否能完整了解或学习到所在环境的模型。有模型学习(Model-Based)对环境有提前的认知,可以提前考虑规划,但是缺点是如果模型跟真实世界不一致,那么在实际使用场景下会表现的不好。免模型学习(Model-Free)放弃了模型学习,在效率上不如前者,但是这种方式更加容易实现,也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎,得到更加广泛的开发和测试。除了免模型学习和有模型学习的分类外,强化学习还有其他几种分类方式:基于概率VS基于价值回合更新VS单步更新在线学习VS离线学习22.1强化学习简介问题定义马尔科夫决策过程问题描述某些应用问题需要算法在每个时刻做出决策并执行动作。对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能战胜对手;对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证行驶安全;这类问题有一个共同的特点,要根据当前的条件做出决策和动作,以达到某一预期目标。问题定义两个对象、三个关联两个对象:智能体、环境;三个关联:动作、回报、环境感知智能体是强化学习中的动作实体,智能体根据当前状态确定一个动作,并执行该动作。之后它和环境进入下一个状态,同时系统给它一个反馈值,对动作进行奖励或惩罚,以迫使智能体执行期望的动作。问题定义
问题定义
马尔可夫决策过程(MarkovDecisionProcess)与马尔可夫过程的区别马尔可夫过程:其特点是系统下一个时刻的状态由当前时刻的状态决定,与更早的时刻无关。马尔可夫决策过程:是下一时刻的状态由当前状态以及当前采取的动作共同决定。马尔可夫决策过程马尔可夫决策过程的举例在地图上有9个地点,编号从A到I,终点是I,现在我们要以任意一个位置为起点,走到终点。这些地点之间有路连接。四个动作:u,d,l、r9个状态:A,B,C,E,E,F,G,H,I马尔可夫决策过程
马尔可夫决策过程
马尔可夫决策过程确定性策略的例子马尔可夫决策过程
马尔可夫决策过程
马尔可夫决策过程
马尔可夫决策过程
马尔可夫决策过程
马尔可夫决策过程智能体、环境、动作、回报、感知马尔可夫决策、五元组、状态价值函数、动作价值函数、最优状态价值函数、最优动作价值函数小结22.2基于动态规划的算法策略迭代算法价值迭代算法基本思路寻找状态价值函数最大的策略确定一个策略的状态价值函数,得到一个策略的状态价值函数之后,调整策略,让价值函数不断变大。求解时采用了分步骤迭代思路解决这两个问题:策略评估和策略改进动态规划算法
策略迭代算法
策略迭代算法
策略迭代算法策略迭代的原理和算法每次迭代时首先用策略估计一个策略的状态价值函数,然后根据策略改进方案调整该策略,再计算新策略的状态价值函数,如此反复直到收敛。策略迭代算法策略迭代的原理和算法策略迭代算法
价值迭代算法价值迭代的算法初始化所有状态的价值函数为任意值价值迭代算法局限性:计算过程依赖于事先知道状态转移概率和立即回报值。对于很多应用场景,无法得到准确的状态模型和回报函数策略迭代算法和价值迭代算法对于无法建立精确的环境模型的问题,只能根据一些状态、动作、回报值序列样本进行计算,估计出价值函数和最优策略。无模型的算法:基本思想是按照某种策略随机执行不同的动作,观察得到的回报,然后进行改进,即通过随机试探来学习。无模型学习典型代表:蒙特卡洛算法和时序差分算法由策略迭代算法和价值迭代算法产生的问题引起的思考22.3蒙特卡洛算法算法简介状态价值函数估计动作价值函数估计蒙特卡洛控制
算法简介
状态价值函数的估计蒙特卡洛策略评估算法状态价值函数的估计
动作价值函数的估计蒙特卡洛控制优势:从片段中直接学习;免模型的;学习的是完整的片段,不需要抽样。劣势:使用了马尔可夫过程的假设;在有些问题中,找到完整的片段是不现实的,尤其是对于没有终止状态的问题。蒙特卡洛算法22.4时序差分学习Sarsa算法Q学习
时序差分学习(TemporalDifferenceLearning)时序差分学习(TemporalDifferenceLearning)用于估计状态价值函数值的TD学习算法:时序差分学习(TemporalDifferenceLearning)
时序差分学习(TemporalDifferenceLearning)Sarsa
算法时序差分学习(TemporalDifferenceLearning)
时序差分学习(TemporalDifferenceLearning)Q学习算法22.5深度强化学习深度强化学习(DeepReinforcementLearning)深度强化学习解决的问题前面介绍的强化学习算法(如Q学习)只能用于状态和动作集合是离散的有限集且状态和动作数量较少的情况,状态和动作需要人工设计,Q函数值存储在一个二维表格中。实际应用中的场景一般很复杂,很难定义出离散的状态;即使能够定义,数量也非常大,无法用数组存储。对于高维的输入数据,显然是不现实的,如果直接以原始数据作为状态,维数太高,导致状态数量太多。深度强化学习(DeepReinforcementLearning)深度强化学习的基本思想一种解决方案是从高维数据中抽象出特征,作为状态,然后用强化学习建模,但这种做法很大程度上依赖于人工特征的设计,如从画面中提取出目标的位置、速度等信息非常困难,且通用性差。用函数来拟合价值函数或策略函数是第二种解决方案,函数的输入是原始的状态数据,输出是价值函数值或策略函数值。在有监督学习中,我们用神经网络来拟合分类或回归函数,同样,也可以用神经网络可来拟合强化学习中的价值函数和策略函数,这就是深度强化学习的基本思想,它是深度学习与强化学习相结合的产物。深度强化学习(DeepReinforcementLearning)深度强化学习的典型算法深度Q网络:用神经网络来近似动作价值函数。网络的输入是状态,输出是各种动作的价值函数值。策略梯度算法:神经网络根据输入的状态直接输出x和y方向的移动距离,从而解决连续性动作问题。免模型学习–策略优化(PolicyOptimization)
免模型学习–Q-Learning
有模型学习–纯规划这种最基础的方法,从来不显示表示策略,而是纯使用规划技术来选择行动例如模型预测控制(model-predictivecontrol,MPC)。在模型预测控制中,智能体每次观察环境的时候,都会计算得到一个对于当前模型最优的规划,这里的规划指的是未来一个固定时间段内,智能体会采取的所有行动(通过学习值函数,规划算法可能会考虑到超出范围的未来奖励)。智能体先执行规划的第一个行动,然后立即舍弃规划的剩余部分。每次准备和环境进行互动时,它会计算出一个新的规划,从而避免执行小于规划范围的规划给出的行动。MBMF:在一些深度强化学习的标准基准任务上,基于学习到的环境模型进行模型预测控制有模型学习–ExpertIteration
Q-learning代码演示描述:宝藏在最右边的位置,训练智能体去获得宝藏智能体:0环境:六个位置目标:找到宝藏行动:向左、向右奖励:找到宝藏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出纳转岗运营方案模板
- 弱电公司和物业签订协议书
- 精卫镜头运营方案设计
- 硅pu篮球场地面施工流程方案
- 油罐安全清洗施工规范
- 幼儿园阅读环境创设标准实施效果研究-基于幼儿园早期阅读指导纲要落实数据分析
- 学校颁发奖金实施方案
- 食堂客户运营方案范文
- 幼儿园午睡起床环节幼儿情绪调节策略-基于起床后行为观察与教师干预记录
- 医美机构运营推广方案
- 会计师事务所保密制度
- 学庸论语白话文
- 2023年山东聊城市纪委监委机关所属事业单位选聘10人笔试参考题库(共500题)答案详解版
- 美学原理全套教学课件
- 妇科操作技能-后穹窿穿刺术
- 《生理学》各章节题库及答案
- 抑郁病诊断证明书
- 2022年广东省外语艺术职业学院招聘考试真题及答案
- 中小学生安全知识网络答题活动题库大全及答案
- 2021年新高考重庆历史高考真题文档版(原卷)含答案
- GB/T 42449-2023系统与软件工程功能规模测量IFPUG方法
评论
0/150
提交评论