下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE59强化学习在机械臂上的应用挑战与研究现状国内外文献综述目录TOC\o"1-3"\h\u23126强化学习在机械臂上的应用挑战与研究现状国内外文献综述 1219051强化学习在机械臂上的应用挑战 1311052强化学习在机械臂上的研究现状 249873稀疏奖励问题研究现状 48222参考文献 51强化学习在机械臂上的应用挑战机器人技术是强化学习的一个非常具有挑战性的应用,它涉及到机器人的机械系统与外界环境之间的交互,这种交互过程可能会影响到机器人和人类本身(不理解影响人类本身)。尤其在工业机器人以及服务机器人行业中,机器人被期望和人类近距离操作,所以安全性与效率是强化学习在机器人技术上应用的关键因素。此外,智能体通过与外界环境不断地试错交互,强化学习能提高机器人的环境适应能力,这使得机器人能应对外界的复杂环境[29]。机器人的状态和动作都是内在连续的,而且状态和动作的维度都很高,所以这就造成了第一个问题-维度灾难[30],即随着状态和动作空间维度的增高,需要指数级的数据和计算量来覆盖整个状态和动作空间。此时,快速地评估每一个状态变得不可行,即使状态是离散的。强化学习需要在整个状态空间中收集数据以保证训练出来的策略是全局最优的,这也是强化学习在机器人应用的第一个挑战。另外,在真实世界中,机器人与外界环境互动次数的增多带来的时间、人力和财力等方面的消耗巨大,也带来了机器人磨损和报废等风险。因此,限制机器人与真实世界的交互次数比降低计算成本更重要,所以机器人强化学习面临着第二个挑战-从小样本中学习[31]。此外,机器人系统内部存在不确定性,例如内部摩擦力和内部元件的噪声等,造成仿真环境中建立的仿真模型往往存在一些模型的误差,所以机器人的控制算法往往被要求在处理模型误差方面具有鲁棒性,这也是机器人强化学习面对的第三个挑战-模型误差。其中,第二个挑战是目前在机器人强化学习领域中的热点问题。解决第二个挑战的主要方法为:1)使用基于模型的强化学习算法。此类算法通常有很高的样本效率,其训练速度比无模型强化学习算法快很多;2)采用并行采样[32]的方式。采用多个GPU并行训练我们的智能体,提高样本效率;3)引入人工示教[33],提供指导[34]以及将任务的先验知识给智能体[35];这三种方式都能提高算法的样本效率,让智能体少走点“弯路”。4)使用迁移学习[36-38]的方式。降低机械臂与现实世界交互成本的方法之一是在仿真中建立一个精确的动力学模型。由于在仿真模型中消耗不大,机械臂仿真模型可以在仿真环境中进行充分的交互,从而得到充分的训练。在动力学仿真模型准确的情况下,在仿真环境下训练出来的最优控制策略能成功迁移到实物机械臂上。然而,在仿真环境下建立一个完全精确的动力学模型是不太可能的,无论对真实机械臂有多么了解,建立仿真模型时考虑的多么全面,模型误差是不能避免的,通常我们只能在建立仿真模型时尽可能缩小模型误差,纵使模型误差很小,但由于模型误差带来的训练策略的误差,可能会造成在真实机械臂上性能差距巨大。因此,学者们通常在仿真环境中先预训练出一个控制策略后,再放到实物环境中训练,这样做可有效降低机械臂与真实世界的交互次数。2强化学习在机械臂上的研究现状深度神经网络兴起之前,人们对于强化学习的刻板印象是只能解决简单和低纬度问题。直到2016年AlphaGo[39]的横空出世,由于深度神经网络强大的表征能力,深度强化学习开始被用于各个领域解决复杂问题,如自然语言处理[43-45]、游戏[40-42]、计算机视觉[46,47]、计算机系统[48,49]和机器人等领域。在游戏领域中,值得一提的是星际争霸2。它提供了一个有挑战性的多智能体环境,玩家可以通过在这个多智能体环境中交互来测试和探索强化学习算法的特点。作为强化学习经典应用领域的机器人技术,机器人强化学习已经有了大量研究成果。2016年Rahmatizadeh等人[50]用带有长短期记忆网络的循环神经网络帮助控制器从虚拟示教中学习,并成功在实物机器人上执行操作任务。2016年Fu等人[51]开发了一个基于模型的强化学习算法,该算法将之前任务的先验知识和动态模型的在线适应结合,可以在一次尝试中解决各种复杂的机器人任务。2018年Kalashnikov等人[52]使用了可扩展的强化学习方法来学习基于视觉的动态操控技能,他们引入了一个可扩展的基于视觉的自监督强化学习优化Q函数目标的方法(Q-functionTargetsviaOptimization,OT-Opt),并将其应用在实物机械臂上成功完成各项抓取任务,如图1.3所示。图STYLEREF1\s1.SEQ图\*ARABIC\s13OT-Opt策略完成各项抓取任务2018年Haarnoja等人[53]研究了用最大熵强化学习算法(SoftQ-learning,SQL)[54]训练的最大熵策略应用到实物机械臂上。他们提出将SQL算法学到的多个最大熵策略合成新策略,这也提高了下次训练的速率,并成功将该方法应用到实物机械臂上,如图1.4所示。图STYLEREF1\s1.SEQ图\*ARABIC\s14SQL用于实物机械臂堆乐高近来,2019年Zhang等人[55]提出了一种基于模型的强化学习方法-潜在表示的随机最优控制(StochasticOptimalControlwithLatentRepresentations,SOLAR)用于学习表示。该方法适用于基于迭代模型的策略改进,使得基于线性二次调节器(LinearQuadraticRegulator,LQR)的强化学习方法能用于观测图像的系统,并应用在真实的机械臂上,成功让机械臂完成堆叠块和推杯子任务,如图1.5所示。图STYLEREF1\s1.SEQ图\*ARABIC\s15机械臂堆叠快(上面)和推杯子(下面)2019年Lambert等人[56]用基于模型的强化学习算法(Model-basedReinforcementLearning,MBRL)解决快速生成低级控制器这一挑战,并将其用于四旋翼飞行器上进行控制,如图1.6所示。图STYLEREF1\s1.SEQ图\*ARABIC\s16MBRL算法用于控制四旋翼飞行器2019年谷歌大脑的学者Nagabandi等人[57]提出了带有深度动力学模型的在线规划方法(OnlinePlanningwithDeepDynamicsModels,PDDM)。该方法通过对学习到的动力学模型的改进和对在线模型预测控制的改进,让灵巧机械手有效地学到灵活的操作技巧,并成功在手掌中转动两个球,如图1.7所示。图STYLEREF1\s1.SEQ图\*ARABIC\s17灵巧机械手旋转球体机器人强化学习领域已经有许多有价值的成果,特别是在连续型机械臂上的应用有了巨大的突破。但由于连续型机械臂的内部段间强耦合和非线性等特征,强化学习在其上的应用仍然有很多问题亟待解决和进一步深入研究。对于连续型机械臂,学者们尝试从其他的研究点寻找突破,这其中就包含了强化学习的经典问题-稀疏奖励问题。3稀疏奖励问题研究现状在强化学习中,智能体通过与外界的交互,来更新自己对于外部环境的认识,直到学到最优策略,每一步外界环境都会反馈给智能体一个立即奖励,该奖励反映了上一次智能体行为的好坏程度。但在现实世界中,很多情况下奖励都是稀疏的或者是不存在的。我们人类智能体已经习惯于在奖励稀疏的情况下学习,例如三岁小孩在操场上可以凭借自己的好奇心来完成某个任务;游戏中的奖励设定通常是稀疏的。为了让强化学习的智能体更加智能,稀疏奖励问题成为强化学习中的研究热点。虽然稀疏奖励问题在很早就被提出是强化学习中的研究热点,但国内外在这方面的突破寥寥无几。Kulkarni等人[58]在稀疏奖励问题中提出了一个分层DQN的框架,通过设置和完成多个子目标来完成任务。Andrychowic等人[59]提出了一种称为事后经验回放(HindsightExperienceReplay,HER)的新技术,这个技术可以让强化学习算法从稀疏或二元奖励的情况下高效采样学习,因此可以避免复杂的奖励工程,同时这个技术可以与任意的off-policy强化学习算法结合。Pathak等人[60]提出了好奇心驱动的方式引进了内部奖励从而提高智能体的探索能力,但这个方法有它的缺点,即在某些环境中智能体的好奇心会阻碍探索。Burda等人[61]对好奇心驱动机制做了简化提出了随机网络蒸馏(RandomNetworkDistillation,RND)方法,其将内部奖励和外部奖励结合增大了强化学习算法的探索能力。为了改进好奇心驱动的方式,谷歌大脑、Deepmind和苏黎世联邦理工学院Savinov等人[62]在“情景记忆”这个概念的基础上介绍了一种模型,这个模型与好奇心机制类似,也引入了内部奖励从而增大智能体探索环境的能力。整体来说,对于稀疏奖励问题的研究方法可以分为两类:分层强化学习和引入内部奖励的方法。参考文献RobinsonG,DaviesJBC.Continuumrobots-astateoftheart[C]//Proceedings1999IEEEInternationalConferenceonRoboticsandAutomation(Cat.No.99CH36288C).IEEE,2002.HannanMW,WalkerID.KinematicsandtheImplementationofanElephant'sTrunkManipulatorandOtherContinuumStyleRobots[J].Journalofroboticsystems,2003,20(2):p.45-63.SinghPK,KrishnaCM.ContinuumArmRoboticManipulator:AReview[J].UniversalJournalofMechanicalEngineering,2014,2(6):193-198.赵强,岳永恒.仿生连续体机器人的研究现状和展望[J].机械设计,2009(08):1-6.胡海燕,王鹏飞,孙立宁,等.线驱动连续型机器人的运动学分析与仿真[J].机械工程学报,2010,046(019):1-8.GravagneIA,WalkerID.Uniformregulationofamulti-sectioncontinuummanipulator[C]//RoboticsandAutomation,2002.Proceedings.ICRA'02.IEEEInternationalConferenceon.IEEE,2002.FalkenhahnV,HildebrandtA,NeumannR,etal.Model-basedfeedforwardpositioncontrolofconstantcurvaturecontinuumrobotsusingfeedbacklinearization[J].Proceedings-IEEEInternationalConferenceonRoboticsandAutomation,2015,2015:762-767.IiiR,JonesBA.DesignandKinematicModelingofConstantCurvatureContinuumRobots:AReview[J].InternationalJournalofRoboticsResearch,2010,29(13):1661-1683.NeppalliS,JonesBA.Design,construction,andanalysisofacontinuumrobot[C]//2007IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.IEEE,2007.XuK,SimaanN.AnInvestigationoftheIntrinsicForceSensingCapabilitiesofContinuumRobots[J].IEEETransactionsonRobotics,2008,24(3):576-587.WebsterIRJ,RomanoJM,CowanNJ.MechanicsofPrecurved-TubeContinuumRobots[J].IEEETransactionsonRobotics,2009,25(1):67-78.KiumarsiB,VamvoudakisKG,ModaresH,etal.OptimalandAutonomousControlUsingReinforcementLearning:ASurvey[J].IEEETransactionsonNeuralNetworks&LearningSystems,2018,29(6):2042-2062.SuttonRS,BartoAG.ReinforcementLearning:AnIntroduction[J].IEEETransactionsonNeuralNetworks,1998,9(5):1054-1054.ArulkumaranK,DeisenrothMP,BrundageM,etal.ABriefSurveyofDeepReinforcementLearning[J].IEEESignalProcessingMagazine,2017,34(6).YangC,YangJ,WangXQ,etal.ControlofSpaceFlexibleManipulatorUsingSoftActor-CriticandRandomNetworkDistillation.IEEEInternationalConferenceonRoboticsandBiomimetics(ROBIO),2019.JacobsonDH,MayneDQ.DifferentialDynamicProgramming[J].TheMathematicalGazette,1972,56(395).LevineS,FinnC,DarrellT,etal.End-to-EndTrainingofDeepVisuomotorPolicies[J].JournalofMachineLearningResearch,2015,17(1):1334-1373.DeisenrothMP,RasmussenCE.PILCO:AModel-BasedandData-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 镁氯化工风险识别模拟考核试卷含答案
- 减粘裂化装置操作工岗前能力评估考核试卷含答案
- 橡胶栽培工安全规程竞赛考核试卷含答案
- 家庭农场产销合同
- 2025福建省高速公路信息科技有限公司公开招聘运维事业部副经理1人笔试参考题库附带答案详解(3卷)
- 2025届航天科工校园招聘全面启动笔试参考题库附带答案详解(3卷)
- 2025届上海电力建设有限责任公司秋季招聘100人笔试参考题库附带答案详解(3卷)
- 2025中国旅游集团有限公司所属单位岗位合集笔试参考题库附带答案详解(3卷)
- 2026招聘文员试题及答案
- 2026招聘三七种植与加工试题及答案
- 业主授权租户安装充电桩委托书
- 化工建设综合项目审批作业流程图
- 亲子鉴定的报告单图片
- 辽宁轨道交通职业学院单招《职业技能测试》参考试题库(含答案)
- 马工程《经济法学》教学
- 新概念二单词表新版,Excel 版
- 2023年陕西西安经济技术开发区招聘120人(共500题含答案解析)笔试必备资料历年高频考点试题摘选
- 第八讲 发展全过程人民民主PPT习概论2023优化版教学课件
- 篇12pmc窗口功能指令举例讲解
- GB/T 7332-2011电子设备用固定电容器第2部分:分规范金属化聚乙烯对苯二甲酸酯膜介质直流固定电容器
- GB/T 38658-20203.6 kV~40.5 kV交流金属封闭开关设备和控制设备型式试验有效性的延伸导则
评论
0/150
提交评论