强化学习-模仿学习_第1页
强化学习-模仿学习_第2页
强化学习-模仿学习_第3页
强化学习-模仿学习_第4页
强化学习-模仿学习_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

强化学习:模仿学习ReinforcementLearning:ImitationLearning主讲:宋奕霄计算机与信息技术学院视觉智能实验室(VisInt)BeijingJiaotong

University强化学习引入何为强化学习强化学习(ReinforcementLearning)是机器学习的方法论之一,是指智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得奖赏(Reward)从而指导行为并学习最优策略(policy),目标是使智能体达到目标或回报最大化。强化学习引入何为强化学习强化学习中由环境提供的强化信号是Agent对所产生动作的好坏作一种评价(一般为标量信号),而不是告诉Agent如何去产生正确的动作。Agent必须靠自身的经历进行学习。环境中获得知识,改进行动方案以适应环境。强化学习引入何为强化学习强化学习系统学习的目标是动态地调整参数,以达到强化信号最大。若已知强化信号r与Agent产生的动作A之间的梯度信息,则可直接可以使用监督学习算法。但是信号r与动作A一般没有明确的函数形式描述,因此,在强化学习系统中,需要某种随机单元使得Agent在可能动作空间中进行搜索并发现正确的动作。模仿学习何为模仿学习模仿学习(ImitativeLearning)是指以仿效榜样的行为方式为特征的一种学习模式。区别于通过直接对刺激作出反应、以尝试错误为特征的直接学习。模仿学习的过程是观察者以整体知觉的方式观察到示范者在一定情境中对某一刺激物的反应,并以表象的方式在意识中再现,借助语言符号系统的思维表征作用,从而熟练、牢固地掌握特定情景中的特殊反应。在此过程中,强化只是对习得的反应再现起促进作用。模仿学习为何需要模仿学习比如在无人驾驶情境中,所谓的Rewards很难被定义,比如抄近道的Reward为多少撞到各种人或物的Reward为多少等等。所以为了让Agent在学习到某些策略的同时,能遵守一定的规则,就需要模仿学习给Agent示范如何去做。在多步决策中,Agent不能及时地得到奖励,且累积Reward的学习方式存在非常巨大的搜索空间。而模仿学习能够很好地解决多步决策的问题。模仿学习行为克隆(BehaviorCloning)以自动驾驶为例,首先我们要收集一堆示例数据(Demonstration),然后人类做什么,就让机器做什么。其实就是强监督学习,让Agent对相应环境下选择的动作和示例的动作是一致的,也就是Agent复制人类对某些环境反应的操作。模仿学习行为克隆的局限由于模型是离线的,所以Agent在遇到没学习到的环境时会无法进行正确的动作。并且训练后模型存在复合误差,训练好的策略模型为πθ,执行的轨迹和训练轨迹的误差会随时间的增加而越变越大,公式如下:行为克隆数据集聚集DAgger(DatasetAggregation)行为克隆数据集聚集DAgger(DatasetAggregation)Limitation模仿学习逆强化学习(InverseReinforcementLearning)为了规避行为克隆单纯地模仿专家行为而不去推理这些行为背后产生的原因。得到这些专家轨迹之后不是简单学习一个状态到动作的映射,而是先推理出回报函数(RewardFunction)的形态,再根据回报函数去优化行为策略(正向的强化学习过程)。InverseRL:OriginalRL:•

和•

给定专家策略(专家轨迹)•

专家策略是执行器可以获得的最大预期奖励•

找到满足以上条件的RewardFunction(能够解释专家行为)•

给定RewardFunction:•

初始化执行器(Actor)π•

在每次迭代中:

通过环境影响执行动作π获得

更新执行器动作来最大化Reward•

此时执行器π为最优执行器模仿学习逆强化学习(InverseReinforcementLearning)InverseRL:OriginalRL:模仿学习生成对抗模仿学习(GenerativeAdversarialImitationLearning)模仿学习生成对抗模仿学习Algorithm:•输入专家轨迹•初始化生成策略和分类器参数D•每一次迭代中:•生成器得出轨迹•更新分类器参数,提升区分专家轨迹的能力•更新生成器参数,利用代价函数使执行器最大化Reward•迭代结束强化学习VS.模仿学习模仿学习•可能会有超越人类专家的效果•需要回报函数rewordfunction•需要大量的探索空间•潜在不收敛的情况强化学习•简单稳定的监督学习•需要demo示范•存在分布偏移的情况•最好的效果不超过demo扩展阅读CodevillaF,MüllerM,LópezA,etal.End-to-enddrivingviaconditionalimitationlearning[C]//2018IEEEInternationalConferenceonRoboticsandAutomation(ICRA).IEEE,2018.NgAY,RussellSJ.Algorithmsforinversereinforcementlearning[C]//Icml.2000.HoJ,ErmonS.Generativeadversarialimitationlearning[J].Advancesinneuralinfo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论