版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-PAGE53-强化学习概况综述1马尔可夫决策过程(MDP)任何强化学习问题都能抽象为马尔可夫决策过程(MDP)[94],如图1.1所示。马尔可夫决策过程可以用五元组参数来表示,其中表示状态空间,状态空间中的状态可为连续状态或离散状态;表示动作空间,与状态空间类似,它里面的动作也可为连续的或离散的;表示转移概率空间,是状态转移概率,表示从当前状态和当前动作到下一时刻的概率;表示奖励函数,与当前的状态和动作有关;是折扣因子,表示越是未来的状态和动作产生的奖励对当前的累计回报影响越小。MDP满足马尔可夫性质,即在现在状态已知的情况下,未来的状态和过去的状态条件独立。总的来说,马尔可夫性质是指当前状态的信息是所有历史状态的信息总和,知道当前的状态可以不需要知道过去的状态,这也是为什么策略分布或转移概率分布都只与当前的动作或状态相关。尤其,当智能体无法知道到全部的状态时,此时引入观测空间这个概念,类似于状态空间,观测空间中的观测可为连续或离散。不同的是,当前观测值只有当前状态的一部分信息,此时马尔可夫决策过程就变为部分观测的马尔可夫决策过程,参数空间可由七元组来表示,其中表示发射概率空间;为发射概率,表示从当前状态到当前观测的概率。图STYLEREF1\s1.SEQ图\*ARABIC\s11马尔可夫决策过程2强化学习原理根据系统或者任务反馈的数据不同可以将机器学习进行分类。其中,在监督学习中,系统或任务反馈给算法的是带有标签的训练数据集;半监督学习中系统或任务反馈给算法的数据集中有一部分数据带有标签,另一部分数据没有标签;无监督学习中系统没有给算法反馈任何信息[12]。与它们不同,强化学习(Reinforcementlearning,RL)是一种以目标为导向的学习方法,系统反馈给算法的是智能体与外界环境交互的数据,也可以称之为“经验”。它的本质就是通过与外界环境不停地交互来学习。智能体与外界交互时,通过观察其行为的结果,并适当地调整自己的行为来得到更好的奖励,从而可以改善后续行为的结果。这种试错型的学习的方式是强化学习主要的基础之一[13]。在深度神经网络没有兴起之前,另外一个主要影响强化学习的因素是最优控制,这也成为强化学习的数学基础之一,其中最常用的是动态规划。图1.2为强化学习的感知-行为-学习循环示意图[14]。智能体从外界环境中观测到当前的状态,然后在当前的状态下,当前策略会选择一个动作去与环境进行交互。当智能体执行动作之后感知到外界环境的状态变为,此时的状态是由智能体上一时刻的状态和选择的动作决定的,它能充分反映当前环境的所有信息并能影响智能体的下一个行为。同时,环境会给予智能体一个立即奖励,这个立即奖励能充分反映智能体的上一次动作的好坏,所有的累积回报反映了这次训练过程中智能体采用的动作序列的好坏。强化学习和最优控制一样,它们的目标都是学到一个最优的控制策略能最大化累积回报或者折扣累积回报,但最优控制领域中系统的动力学模型通常是已知的,而在强化学习中智能体是不知道系统的动力学模型的,也就是状态动作转移概率是未知的。在强化学习中,智能体需要通过与外界不断地交互从而以试错的方式来了解其在环境中一系列行为的后果,从而产生对于外部环境的部分了解,通过整合这些新的信息来更新自己对外部环境的认识。另外,强化学习通常考虑的是最大化预期累积回报,而不是最大化某条轨迹的累积回报。图STYLEREF1\s1.SEQ图\*ARABIC\s12强化学习感知-行为-学习循环图3强化学习算法简述根据是否需要拟合系统的动力学模型,强化学习算法一般分为基于模型(model-based)和无模型(model-free)两大类。基于模型的算法通常根据与环境交互获得的“经验”先拟合系统的动力学模型,然后根据拟合后的动力学模型求出最优行为。这种算法通常有很高的样本效率,所以其训练速度相比无模型强化学习算法会大大加快,但其实现难度较高,同时需要额外的人力监督和模型预测估计的成本[15],且拟合后的动力学模型的误差会严重影响任务的训练速度,甚至造成算法不收敛的情况。其中有代表性的基于模型的强化学习算法有迭代二次型调节器(iterationLinearQuadraticRegulator,iLQR)算法[16],引导策略搜索法(GuidePolicySearch,GPS)[17],概率推断学习控制(ProbabilisticInferenceforLearningControl,PILCO)算法[18]。其中iLQR算法是引导策略搜索法的理论基础。无模型的强化学习算法因其不需要拟合系统的动力学模型具有重要的现实意义,因为在现实中大部分任务都不知道外界的环境。相较于基于模型的强化学习算法,无模型强化学习算法更易实现,且具有更好的渐进性能。但这些方法通常面对以下两个挑战:样本复杂度高和收敛速度慢。此外,无模型强化学习方法可以分为基于策略梯度的强化学习算法、基于Actor-Critic的强化学习算法以及基于值函数的强化学习算法。基于策略梯度的强化学习算法主要是对一般强化学习目标函数求策略的梯度,通过梯度上升的方法对策略网络进行更新。它的原理是通过更新能增大累积奖励越大的轨迹出现的概率,同时减小累积奖励越小的轨迹出现的概率。最初的策略梯度算法面临着方差大、训练过程不稳定和采样效率不高的挑战。因为该算法是用当前策略先采样一段时间得到一系列的轨迹,然后用这些轨迹来更新策略,每次采样得到的一系列轨迹都不一样,所以计算出的梯度会有很大的不同,这就使得方差过大,从而影响训练过程,且此更新策略的方式也使其采样效率不高。为了解决这个问题,Schulman等人提出了信任域策略优化算法(TrustRegionPolicyOptimization,TRPO)[19]和近端策略优化算法(ProximalPolicyOptimization,PPO)[20,93]。PPO算法是根据TRPO算法改进而来的,TRPO算法涉及二阶泰勒展开,理论与实现过程十分复杂,而PPO在理论上使用了一阶泰勒展开,避免了TRPO算法训练过程中的计算共轭梯度和线性搜索的过程,大大地减少了算法的计算量,加快了训练速度。由于基于策略梯度的强化学习算法是本文第四章的理论基础,将在第三章对其进行详细推导。在深度神经网络兴起之前,传统基于值函数的强化学习算法主要是通过在网格中不断的对值函数进行估计,利用上一步估计好的值函数更新策略,这个过程不断地循环迭代直到策略变为最优。但由于运算能力的限制,上述过程只适用于状态离散和动作离散的强化学习任务。直到Mnih等人用深度神经网络对传统Q-learning算法进行改进提出了深度Q网络算法(DeepQNetwork,DQN)[21],给世人展现了其强大的能力,从而加速了基于值函数的强化学习算法的发展,该方法:1)引入了深度神经网络拟合动作状态函数(Q函数);2)引入了重放缓冲区这个概念,解决了样本相关性的问题;3)引入了目标网络,便于使用梯度下降进行更新。当Q函数估计值不准时,最大化这个不准的Q函数相当于最大化真实的Q函数值和一个随机噪声值,此时会比只最大化真实Q函数值得到的数值大,该方法会造成Q函数过估计。为了解决这个问题,2016年Hasselt等人提出了双Q-learning算法[22],该算法的思路是用不同的网络同时选择动作和估计值函数,即它使用一个网络选择动作,另一个网络估计值函数,这两个网络的估计值可能都不准确,但它们的这些误差并不相关,此时这个过度估计的问题就会被解决。此外,对DQN算法还有许多改进方法,其中具有代表性的有DuelingDQN[23]和PrioritizedReplayDQN[24]。基于Actor-Critic的强化学习算法是在解决策略梯度算法方差大问题的过程中发展的。与基于策略梯度的方法不同的是,它无需等待多条轨迹样本的采样结束,也无需计算整条轨迹的回报总和或“rewardtogo”,只需用自举估计或蒙特卡洛估计法对值函数进行估计,进而用估计好的值函数对策略进行更新。运用该算法对值函数进行估计,减小了训练过程中的方差,加快了训练过程,但同时它也引入了估计的偏差,所以权衡方差和偏差是基于Actor-Critic强化学习算法的首要任务。常用的基于Actor-Critic的强化学习算法有异步的优势Actor-Critic算法(AsynchronousAdvantageActor-Critic,A3C)[25],确定性策略梯度算法(DeepDeterministicPolicyGradient,DDPG)[26],双延迟深度确定性策略梯度算法(TwinDelayedDeepDeterministicPolicyGradient,TD3)[27],和有经验回放池的Actor-Critic算法(Actor-CriticwithExperienceReplay,ACER)[28]等。参考文献RobinsonG,DaviesJBC.Continuumrobots-astateoftheart[C]//Proceedings1999IEEEInternationalConferenceonRoboticsandAutomation(Cat.No.99CH36288C).IEEE,2002.HannanMW,WalkerID.KinematicsandtheImplementationofanElephant'sTrunkManipulatorandOtherContinuumStyleRobots[J].Journalofroboticsystems,2003,20(2):p.45-63.SinghPK,KrishnaCM.ContinuumArmRoboticManipulator:AReview[J].UniversalJournalofMechanicalEngineering,2014,2(6):193-198.赵强,岳永恒.仿生连续体机器人的研究现状和展望[J].机械设计,2009(08):1-6.胡海燕,王鹏飞,孙立宁,等.线驱动连续型机器人的运动学分析与仿真[J].机械工程学报,2010,046(019):1-8.GravagneIA,WalkerID.Uniformregulationofamulti-sectioncontinuummanipulator[C]//RoboticsandAutomation,2002.Proceedings.ICRA'02.IEEEInternationalConferenceon.IEEE,2002.FalkenhahnV,HildebrandtA,NeumannR,etal.Model-basedfeedforwardpositioncontrolofconstantcurvaturecontinuumrobotsusingfeedbacklinearization[J].Proceedings-IEEEInternationalConferenceonRoboticsandAutomation,2015,2015:762-767.IiiR,JonesBA.DesignandKinematicModelingofConstantCurvatureContinuumRobots:AReview[J].InternationalJournalofRoboticsResearch,2010,29(13):1661-1683.NeppalliS,JonesBA.Design,construction,andanalysisofacontinuumrobot[C]//2007IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.IEEE,2007.XuK,SimaanN.AnInvestigationoftheIntrinsicForceSensingCapabilitiesofContinuumRobots[J].IEEETransactionsonRobotics,2008,24(3):576-587.WebsterIRJ,RomanoJM,CowanNJ.MechanicsofPrecurved-TubeContinuumRobots[J].IEEETransactionsonRobotics,2009,25(1):67-78.KiumarsiB,VamvoudakisKG,ModaresH,etal.OptimalandAutonomousControlUsingReinforcementLearning:ASurvey[J].IEEETransactionsonNeuralNetworks&LearningSystems,2018,29(6):2042-2062.SuttonRS,BartoAG.ReinforcementLearning:AnIntroduction[J].IEEETransactionsonNeuralNetworks,1998,9(5):1054-1054.ArulkumaranK,DeisenrothMP,BrundageM,etal.ABriefSurveyofDeepReinforcementLearning[J].IEEESignalProcessingMagazine,2017,34(6).YangC,YangJ,WangXQ,etal.ControlofSpaceFlexibleManipulatorUsingSoftActor-CriticandRandomNetworkDistillation.IEEEInternationalConferenceonRoboticsandBiomimetics(ROBIO),2019.JacobsonDH,MayneDQ.DifferentialDynamicProgramming[J].TheMathematicalGazette,1972,56(395).LevineS,FinnC,DarrellT,etal.End-to-EndTrainingofDeepVisuomotorPolicies[J].JournalofMachineLearning
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 强制隔离戒毒所采购制度
- 2026上海复旦大学类脑智能科学与技术研究院招聘磁共振影像科研助理岗位1名备考题库及一套参考答案详解
- 2026山西吕梁市孝义市市政工程总公司招聘10人备考题库含答案详解(达标题)
- 2026年双鸭山饶河县植保员招聘24人备考题库附答案详解(黄金题型)
- 2026广东深圳市罗湖区水库新村幼儿园招聘1人备考题库及答案详解(考点梳理)
- 2026江苏南通市海安经济技术开发区西场办事处招聘公益性岗位人员3人备考题库附答案详解(培优b卷)
- 2026江苏南通市海安经济技术开发区西场办事处招聘公益性岗位人员3人备考题库含答案详解(精练)
- 2026紫金矿业招聘备考题库及参考答案详解1套
- 2026湖南长沙市浏阳市招聘编外合同制人员(中级雇员)9人备考题库含答案详解
- 2026广东潮安区人民医院第一批招聘合同工31人备考题库附答案详解(巩固)
- 2026年浙江省衢州市六校联谊初三百日冲刺考试英语试题含解析
- 一次性使用止血套环产品技术要求北京中诺恒康生物
- 政法单位联席会议制度
- 休克诊疗规范课件
- 2026年陕西航空职业技术学院单招职业倾向性考试题库及一套答案详解
- (甘肃一模)2026年甘肃省高三年级第一次模拟考试英语试题(含答案)+听力音频+听力原文
- 2025-2026学年教科版(新教材)初中信息科技八年级第二学期教学计划及进度表
- 2026广东阳江市江城区招聘教师102人(编制)笔试模拟试题及答案解析
- XX医院关于2025年医保基金监管专项检查工作的整改报告
- 钢丝pe施工方案(3篇)
- 2026年医疗AI辅助手术报告
评论
0/150
提交评论