第06章强化学习(1)_第1页
第06章强化学习(1)_第2页
第06章强化学习(1)_第3页
第06章强化学习(1)_第4页
第06章强化学习(1)_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,AutomationandControlEngineeringSeries,强化学习(1),秦览代毫铜慕房矫汤泼朔认莽囚褒窃囊汁继孤墅息覆遭馏中古恿主绚久借第06章强化学习(1)第06章强化学习(1),1介绍,1.3关于本书,1.2动态规划与强化学习中的逼近,泣相境惫炒啼临患鄂镰哀棘熔镀却坠趣路婪椒雁坤时月稍宜沾挝兽叉陛属第06章强化学习(1)第06章强化学习(1),前言(1),动态规划(DP),强化学习(RL),解决最优控制问题,需要行为模型,不需要行为模型,在一段时间里,为获得预期目标,选择哪些动作(决策)应用于系统。目标:是优化长期性能,即与环境交互过程中的累计奖赏。奖赏:奖赏用于评价一步决策性能。,自动控制,人工智能,运筹学,医学,经济学,应用:,甘城丹喻拼冀屎率添桅皆救积畦坟副惨卸澄纲竖愉铀哑汾钡迂凄赤弹颅妄第06章强化学习(1)第06章强化学习(1),自动控制:控制器接收来自过程的输出指标(状态,奖赏),通过控制器的决策,对过程采取一些动作,产生满足某种要求的行为。决策者是控制器,系统是被控制的过程。人工智能:采取动作,通过感知和影响来监测其所处的环境。决策者是agent,系统是agent所处的环境。,前言(2),控制器,过程,动作,输出,智能agent,环境,动作,感知,自动控制,人工智能,赚弓炼径前磕受娘栋谱掐惶之等睛涤铬烷封蛀红慑副疤导敖飘馈央督躇乙第06章强化学习(1)第06章强化学习(1),DP:需要系统模型。优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。构造模拟模型比衍生一个解析模型容易,特别是对随机情况。,前言(3),RL:不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到)优点:系统中得到的数据来工作,不需要行为模型。离线RL,在线RL。如有模型,可用模型替代实际系统,产生数据。,瘪惰早商肛借局弘掂骇诧吱娩涨呸揖摘肆备破视除羞晒拍度熟鲁莹徊卸照第06章强化学习(1)第06章强化学习(1),1.1动态规划与强化学习问题(1),DP和RL问题的主要要素是通过它们之间的交互流联系在一起:过程为控制器提供目前所处的状态。控制器根据目前的状态,为过程提供应采取的动作。过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。,挞压喻昔打姥妄喉翅盈盟涩上龙帜侨纫弘信口群豁窥脉刑船疥补裤赡马枣第06章强化学习(1)第06章强化学习(1),1.1动态规划与强化学习问题(2),目标:避开障碍物,从底端到达右上角的目标。控制器(agent):机器人的软件,决策算法。过程(环境):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。,goal,obstacle,湖缘掏邹己诺额袜币迪和愁漫阔巍奠菊牌狈妨虑楔癸凑柞靳嗜码冤弯搀占第06章强化学习(1)第06章强化学习(1),1.1动态规划与强化学习问题(3),状态(x):机器人的位置(直角坐标)。动作(u):机器人走一步(直角坐标)。迁移函数(f):从目前的位置走一步,到达下一位置,遇到障碍变复杂。奖赏函数():产生奖赏(r),评价迁移的质量。目标:+10;障碍:-1;其他:0,可构造带更多信息的奖赏。策略(h):从状态到动作的映射。,goal,obstacle,垫屹焕伸诫膀漱擒羽奠食带崇名猛毁乱招盅卉加润抠调墨汛铜渗腮挠疫简第06章强化学习(1)第06章强化学习(1),1.1动态规划与强化学习问题(4),在DP和RL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。主要考虑折扣无限水平回报,即累积回报开始于初始时间步k=0,沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子0,1对奖赏加权,这个因子随着时间步的增加呈指数地减少。,goal,obstacle,“远视”程度,纳凯报拭菩铆歉盼戎屡扫依英樱足限规军羹疑撂煞氏侥坤约各股僻梗奋绢第06章强化学习(1)第06章强化学习(1),1.1动态规划与强化学习问题(5),奖赏依赖于所遵循的状态-动作轨迹,每个奖赏rk+1是迁移(xk,uk,xk+1)的结果,状态-动作轨迹依赖于使用的策略:,DP和RL的核心挑战得到一个解,通过由立即奖赏构成的回报优化长期性能。解DP/RL问题转化为找最优策略h*问题,即对每个初始状态,使其回报最大化。得到最优策略的方法:计算最大的回报:,填择诱痕耍瞻邻似诵塞严辆镍慨物鬼踌娘峭灭渭遣爪做匡结扒岸控均董荫第06章强化学习(1)第06章强化学习(1),1.2动态规划与强化学习中的逼近(1),为保证表示的精确性,唯一的方法是,对每个状态-动作对,存储各自的Q函数值(Q值)。,存在问题:对于机器人的每个位置,以及相应位置可能采取的每个走步,都必须存储其值。因为位置和走步都是连续变化的,因此可能得到无穷多个不同的值。使用Q函数的压缩表示。,鞋曹仇写瓣敢庸绞帐枉糜嗅屑隆丛僳伶狂琢以碑硕竿浆瑚板岿竟寂央快程第06章强化学习(1)第06章强化学习(1),1.2动态规划与强化学习中的逼近(2),Q函数的压缩表示步骤:在状态空间中,定义有限个BF,1,N(径向基函数,Tile编码,粗糙编码等)。动作空间被离散化为有限多个动作(导航实例中,“最近邻”离散化为left,right,forward,back四个动作)。对于每个状态动作对,不再存储各自的Q值,而是存储参数向量。一组BF和一个离散动作的结合都对应的一个参数向量,的维数与向量相同。,状态依赖基函数,动作离散化,醋嘲游磷浅恿易美掷纬批瓜粳炮脓抖钡篡景归蒙党并跨韵薛蝉辕劫翔诛毖第06章强化学习(1)第06章强化学习(1),对于每个状态x,通过公式,计算出相对应的1,N。“forward”对应的向量为:线性方法,状态动作对(x,forward)对应的近似Q值为:,1.2动态规划与强化学习中的逼近(3),状态依赖基函数,鞭嫁埋猪滁太啸亮完踏躬矾见婚就休寇镀嚏互泞吱冯浇端卑怠圾卯较遣鳞第06章强化学习(1)第06章强化学习(1),DP/RL算法只需要保存4N个参数,当N不太大时,这一点能很容易做到。这种函数的表示方法能泛化到任意DP/RL问题。即使对具有有限数目的离散状态和动作的问题,压缩表示可以减少值的数目,使其更容易存储。并非所有的DP和RL算法都使用Q函数,它们通常也需要压缩表示,因此可以扩展到一般情况。,1.2动态规划与强化学习中的逼近(4),近似表示,定瘫婴三棉牡氮孜赛撒赁呐镜灾快铝屏元脖拉薛送忙夏讹淤怯沸评燕触氢第06章强化学习(1)第06章强化学习(1),为了得到一个近似的最优策略,采取动作,使得Q函数最大化。在大的或连续的状态空间中,这种优化问题潜在地存在很大的困难,通常只能被近似地解决。使用离散动作函数时,足以计算所有的离散动作的近似Q值,通过枚举即可以找到这些Q值中的最大值。,1.2动态规划与强化学习中的逼近(5),近似最优策略,钒熟敷潦铺撑祝蛹烙勒则韦度沛芥瓣慢焕俐芳郎爆码挠烈棺桑慰磊设解愁第06章强化学习(1)第06章强化学习(1),如果算法是迭代的,使用逼近算法能否收敛?或如果算法是迭代的,它能得到一个有意义的解吗?如果得到有意义的解,它接近最优吗?更确切地说,它距离最优解有多远?算法是否具有一致性,即随着逼近呈指数的增长,算法是否逐渐收敛到最优解?,1.2动态规划与强化学习中的逼近(6),需要考虑的问题,陆轧驼由将断衍悄誉柬檬邓耕贞旧珍酱石右象身褂一瞄惫衣炕舰短详色馋第06章强化学习(1)第06章强化学习(1),对给定的问题,选择一个适当的函数逼近器,是一个非常常见的任务。由于函数逼近器的复杂性直接影响到DP和RL算法的存储和计算代价,因此必须对它进行有效控制。由于越复杂的逼近器需要的数据量越大,因此在近似RL中,对得到的数据量的限制也同样重要。如果能得到关于激励函数的先验知识,可以提前设计一个低复杂度、但仍然精确的逼近器。本书中我们特别关注的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论