【《深度强化学习分析现状文献综述》3000字】

上传人：E*** IP属地：湖北上传时间：2025-11-07 格式：DOC 页数：6 大小：158.43KB 积分：10.8 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

深度强化学习研究现状文献综述强化学习的历史发展可以追溯到早期的行为主义心理学、最优控制理论以及时序差分方法。经典强化学习方法面临维度灾难问题，因此主要被应用于状态空间和动作空间有限组合的场景[8]。然而，大量实际的问题都是高维感官输入，因此只适用于有限场景的强化学习理论一直进展迟缓。借助于深度学习的兴起，利用深度神经网络对高维状态进行直接建模使得深度强化学习近年来得到飞速的发展。神经网络与强化学习的思想其实在以前的工作中已经有所研究，Tesauro等人[8]将多层感知机和强化学习结合学习西洋双陆棋并达到专家水平，然而学者们发现将这种方法应用到例如跳棋，国际象棋等游戏上表现并不好，Pollack等人[9]分析表明之前在西洋双陆棋中的成功主要在于其本身的状态特殊性。Tsitsiklis等人[10]讨论了直接将神经网络与强化学习结合将导致策略不好收敛的问题。谷歌DeepMInd团队在2013年将经典的Q学习方法[11]与深度神经网络结合，开发了深度Q学习算法（DQN）[12]并于两年后将其进一步完善[4]。作为一种端到端的深度强化学习算法，它克服了收敛性问题，在雅达利游戏仿真环境中直接根据高维观测作为输入学习游戏控制策略，超越了之前所有算法的性能表现并且达到了和人类游戏高手相当的水平。DQN的成功吸引了国内外大量学者的关注，从此大量其改进版本不断被推出。考虑到Q学习方法始终存在对状态动作值函数（即Q值）的过估计问题，Van等人[13]提出了DoubleDQN使得策略更稳定。Wang等人[14]在深度神经网络结构设计时通过将Q值分解为状态值函数（即V值）和优势函数（即A），让策略训练过程中更直接关注到哪些动作带来高回报，加快了策略的收敛。Schaul等人[15]提出在网络更新时通过对经验样本按照重要程度赋予不同的的采样概率改善了对样本随机采样带来的数据利用低效问题。Bellemare等人[16]从近似分布的角度提出学习价值函数的分布可以使得策略训练更加稳定有效。Mnih等人[17]通过结合多步自举的思想[18]降低目标值函数估计的偏差从而加快策略训练。Fortunato等人[19]提出仅在增加较少计算量的情况下通过在网络权重上添加噪声可以达到更好的探索能力，从而增加策略的性能表现。Hessel等人[20]有效的整合DQN上述各种改进版本，在其当时取得了雅达利游戏上最先进的数据效率和性能。Hausknecht等人[21]提出利用长短期记忆网络（LSTM）[22]对历史信息进行建模来处理部分可观测强化学习任务。此外，学者们将上述各个改进版本的优势进行整合，同时结合分布式观点，提出大规模分布式训练算法框架[23][24]，加速学习的同时也取得了更好的效果。上述介绍的DQN及其后期改进版主要是基于值函数的深度强化学习算法，其通过神经网络估计值函数，然后优化值函数间接获得最优策略。近年来越来越多的强化学习算法采用基于策略的方法，将策略参数化，然后通过直接优化目标函数（例如累计回报的期望）获得最优策略。和基于值函数算法比较之下，基于策略方法一般来讲可以更好的收敛，在连续或高维动作空间中有效。Williams等人将策略梯度理论与蒙特卡洛方法结合提出了经典的REINFORCE[25]系列策略梯度算法。然而由于采用了蒙特卡洛方法，采样效率较低（需要采集完整的回合进行更新），同时梯度估计的方差会比较大，学习缓慢，基于此，一个改进思想是在其回合折扣累计奖励基础上减去一个基准，减小估计的方差而不会改变偏差，最常用的基准通常是状态值函数。策略梯度方法一个最大的缺点就是更新步长不好确定，设置太小会导致收敛缓慢，太长导致策略不收敛。置信域策略优化算法（TRPO）[26]优化了一个替代目标函数，其基本思想是限制新旧策略之间的KL散度来限制每次策略梯度的更新幅度，从而允许策略最大程度的进行更新而不会导致不收敛。然而，TRPO的约束优化需要计算二阶梯度，限制了其适用性，相比之下，近端策略优化(PPO)[27]算法只需要计算一阶梯度信息，复杂性更低，更具通用性，而效果与TRPO类似。Schulman等人[28]提出在基于策略的算法中引入广义优势估计(GAE)可以进一步权衡梯度估计过程中的偏差与方差。Konda等人[29]结合基于值函数与基于策略方法的优势提出演员评论家（actor-critic）算法，同时估计策略函数（actor网络）和值函数(critic网络)，其中actor负责动作选取，critic估计Q值（替代策略梯度中回合折扣累计奖励），负责评估动作选择的好坏并指导策略调整。Mnih等人[17]提出异步优势演员评论家算法（A3C），用critic直接估计V值作为上述策略梯度算法中的基准，在更新策略网络时相当于用到优势函数，此外，其通过在多个环境中异步执行采样与更新，使得训练速度明显加快并且样本之间相关性被打破，最终策略雅达利游戏、连续控制任务[30]等多个任务中取得了成功。上述两节主要提及的是一些无模型的强化学习方法，即事先不知道环境模型，也不需要学习环境模型，该类方法通常需要采集大量的样本训练才能取得好的效果。近年来一些基于模型的方法也被陆续提出，其主要优势在于样本利用效率高，可以减少与环境的交互次数。Wahlström等人[31]提出利用深度自动编码器和低维空间的预测转换模型仅从像素信息学习良好的动态系统预测模型，此外，类似的思想在之后的一些工作中[32][33]得到进一步发展，尤其Hafner等人提出PlaNet[33]，使用的训练回合数比无模型算法少得多，最终的表现接近甚至高于最先进的无模型算法。近年来大量的研究机构或个人学者开源了上述大多数深度强化学习算法的代码库实现，供其他研究者学习或者作为实验基准。例如OpenAI开源Baselines算法库[34]，其用Tensorflow深度学习框架[35]并遵循OpenAIGym[36]环境接口高质量的实现了大多数经典的算法，缺点主要是代码复用性较低且无文档教程。RLlib算法库[37]同样开源大多数算法实现并提供文档支持，通过模块化设计使得扩展性强，同时支持Tensorflow和PyTorch[38],但是代码嵌套复杂，不方便普通研究者二次开发。为降低初学者学习深度强化学习算法门槛，OpenAI发布了SpinningUp教程[39]并以尽量简洁的方式提供代码实现，同时支持Tensorflow和PyTorch，但其仅讲述了基于策略的强化学习系列方法。清华大学翁等人[40]于2020年基于PyTorch实现并开源其强化学习库-天授，用简洁明了的代码实现了大多算法并提供中文文档支持，可定制性较高，在其相关实验中展示出较其他框架的优异性。图1-4各类虚拟环境和仿真平台此外，也越来越多的虚拟环境以及仿真平台被提出供研究者学习、开发以及测试算法。例如提供雅达利游戏场景的ALE[5],提供第一人称射击游戏场景的Vizdoom[41]，提供多智能体研究场景的星际争霸游戏SMAC[42]、足球游戏Football[43]，用于研究视觉导航的AI2-THOR[44]、Gibson[45]，无人驾驶仿真环境Torcs[46]、CARLA[47]等。此外，也有大量仿真平台支持研究者定制搭建自己的仿真环境，例如Gazebo[48]主要用于移动机器人系统仿真环境搭建，Stage[49]可用于等定制计算高效的二维移动机器人仿真场景；Vrep[50]可用于搭建机械臂抓取仿真场景、移动机器人导航避障仿真场景；Mujoco[51]可用于搭建各种仿生机器人步态训练场景。参考文献TCReference\l1BojarskiM,DelTestaD,DworakowskiD,etal.Endtoendlearningforself-drivingcars[J].arXivpreprintarXiv:1604.07316,2016.LoquercioA,MaquedaAI,Del-BlancoCR,etal.Dronet:Learningtoflybydriving[J].IEEERoboticsandAutomationLetters,2018,3(2):1088-1095.ChenZ,HuangX.End-to-endlearningforlanekeepingofself-drivingcars[C]//2017IEEEIntelligentVehiclesSymposium(IV).IEEE,2017:1856-1860.MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].nature,2015,518(7540):529-533.BellemareMG,NaddafY,VenessJ,etal.Thearcadelearningenvironment:Anevaluationplatformforgeneralagents[J].JournalofArtificialIntelligenceResearch,2013,47:253-279.SilverD,HubertT,SchrittwieserJ,etal.Masteringchessandshogibyself-playwithageneralreinforcementlearningalgorithm[J].arXivpreprintarXiv:1712.01815,2017.BernerC,BrockmanG,ChanB,etal.Dota2withlargescaledeepreinforcementlearning[J].arXivpreprintarXiv:1912.06680,2019.TesauroG.TemporaldifferencelearningandTD-Gammon[J].CommunicationsoftheACM,1995,38(3):58-68.PollackJB,BlairAD.Whydidtd-gammonwork?[J].AdvancesinNeuralInformationProcessingSystems,1997,9(9):10-16.TsitsiklisJN,VanRoyB.Ananalysisoftemporal-differencelearningwithfunctionapproximation[J].IEEEtransactionsonautomaticcontrol,1997,42(5):674-690.WatkinsCJCH,DayanP.Q-learning[J].Machinelearning,1992,8(3-4):279-292.MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.VanHasseltH,GuezA,SilverD.Deepreinforcementlearningwithdoubleq-learning[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2016,30(1).WangZ,SchaulT,HesselM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning[C]//Internationalconferenceonmachinelearning.PMLR,2016:1995-2003.SchaulT,QuanJ,AntonoglouI,etal.Prioritizedexperiencereplay[J].arXivpreprintarXiv:1511.05952,2015.BellemareMG,DabneyW,MunosR.Adistributionalperspectiveonreinforcementlearning[C]//InternationalConferenceonMachineLearning.PMLR,2017:449-458.MnihV,BadiaAP,MirzaM,etal.Asynchronousmethodsfordeepreinforcementlearning[C]//Internationalconferenceonmachinelearning.PMLR,2016:1928-1937.Sutton

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《深度强化学习分析现状文献综述》3000字】

文档简介

温馨提示

最新文档

评论

相关文档