【《四旋翼无人机控制算法分析的文献综述》3700字】_第1页
【《四旋翼无人机控制算法分析的文献综述》3700字】_第2页
【《四旋翼无人机控制算法分析的文献综述》3700字】_第3页
【《四旋翼无人机控制算法分析的文献综述》3700字】_第4页
【《四旋翼无人机控制算法分析的文献综述》3700字】_第5页
免费预览已结束,剩余2页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四旋翼无人机控制算法研究的文献综述无人机是指具备了驱动系统,装载了无线遥控设备或自主控制程序的,用来完成一系列飞行动作的飞行器的简称[1]。由于其具有体积小,制造成本低,灵活性强,适用范围广等优势,目前已经成为了国内外新的研究热点[2~4]。按照无人机的结构与原理可以大致分为固定翼、旋翼和扑翼三种类型[5]。四旋翼飞行器是一种具有四个控制输入和六个自由度输出的多旋翼飞行器。在飞行器的结构上通常呈“十”字形或“X”字形[6]。相比较于固定翼飞行器和扑翼飞行器,四旋翼飞行器能够垂直起降,同时具有占用空间更小,灵活性和机动性更高等的优点,目前已成为了使用最为广泛的一种多旋翼无人机[7]。例如,在军事领域之中,无人机可以用于敌后侦察与战略打击等[8~9]。在农业方面,可以通过配备在无人机上的传感器等实时监控农作物的生长状态,同时可以实现远程灌溉等任务。在抗震救灾方面,无人机可以更好地搜素与寻找伤员,抢下宝贵的黄金时间[10]。在民用方面,有运用于公安方面的警用无人机,也有运用于物流行业的运输无人机,通过无线遥控设备的方式来控制无人机的飞行方向来实现的安全、便捷的新型运输方式[11~12]。想要能够针对性地解决无人机的轨迹跟踪控制问题,关键就在于所设计的控制器。无人机控制是一个复杂的控制系统。传统的控制方法都是建立于数学模型的基础之上,通过设计控制器来成功地实现无人机的悬停及跟踪控制等[13]。近年来,随着人工智能战胜世界围棋冠军,人工智能这一话题引起了各界的广泛关注。而作为人工智能的重要组成部分--强化学习也进入了人们的视野。强化学习,是一种机器学习的范式与方法论。最早运用于无人机方面的实例是YamahaR-50无人直升机,吴恩达教授通过随机策略搜素算法对无人机进行了训练,使无人机能够自主做到稳定的悬停,翻转,倒飞,转弯等。强化学习的开端源于2013年DeepMind团队所提出的Q网络神经算法,这一算法是计算机能够进行雅达利游戏,并且远远超出了人类所能操控的程度,这才引起了广泛关注。随后在2016至2017年,Google公司基于强化学习算法推出了围棋系统,并击败了顶尖围棋选手,这才掀起了全球的浪潮。1.1.2研究意义无人机的控制方法的研究是具有一定的实用价值的。目前无人机在各领域都有着广泛的应用:民用,军用,农业等。在许多的任务中,无人机的飞行都占了一定的比重,而在四旋翼飞行器所执行的任务之中,按照既定轨迹的飞行任务更是占了极大的比重。这就意味着精准是无人机所必须具备的能力。在实际的控制系统之中,通常使用的是PID控制算法来进行无人机的控制与轨迹跟踪,但使用这一算法来进行无人机的控制,除了PID控制器自身的局限性之外,还有着诸如参数调整繁琐,只能基于经验选取;抗扰动性和鲁棒性较差;难以进行实时的精确控制等劣势。因此使用一种更为便捷与精确的无人机控制算法有了重要的研究意义。通过强化学习的介入来解放PID控制所需的人工参数整定,通过智能体的训练来实现在各种干扰下的稳定飞行,使系统能够高效地完成一系列飞行任务。四旋翼国内外研究现状四旋翼飞行器的发展主要是由于近年来微型电子系统,储能电池和小型集成控制器的发展而得到突破性的进展的。科学技术的不断发展有效地解决了无人机的负载不足与工作时间不足的问题。在以上的基础之上,无人机的研究便有了许多重大的成果。大疆无人机占据了全球民用小型无人机市场销售额的70%。世界上许多的无人机的基础都是建立于大疆所自主研发的Phantom1系列无人机。该系列产品稳定性好,可操作性好,有着智能飞行模式。是一种密集且高度集成的四旋翼无人机,所有螺旋桨上都有一个高度灵敏的led传感器。该传感器协助无人机,使其能够在飞行中实现自动避障、轨迹跟踪和指挥飞行等任务[14]。图1.2(1)Phantom1无人机Fig1.2(1)Phantom1UAV斯坦福大学所研发出的基于多自主体控制的自主飞行器测试平台(STARMAC),是建立于美国Draganfly公司所研制的X8型无人机的基础之上的。该无人机设计独特,使用8个无刷电机和4个横梁,在实现了良好的升力和牵引力的同时没有增加额外的负重与大小。斯坦福大学所设计的无人机平台则由遥控器、高精度的红外传感器、超声波测距传感器和蓝牙通讯等组成,主要研究的是四旋翼飞行器在外界干扰下的飞行及轨迹跟踪控制。使用了一种精准的控制算法,融合各个单元所测得的信息,通过控制算法得到无人机的实时位置和速度信息,证明了该控制算法的有效性[15]。图1.2(2)Draganfly无人机Fig1.2(2)DraganflyUAV控制算法国内外研究现状1.2.1PID控制算法研究现状主要应用于四旋翼无人机的控制算法可以分为以下几种:基于李雅普诺夫原理的自适应控制、PID控制、LQ控制、滑模变结构控制、Backstepping控制以及现在所流行的人工智能控制。PID控制算法由具有比例(P)-积分(I)-微分(D)运算的控制器所组成,是控制行业中最为经典,最为简单,最能体现反馈思想的控制算法,通过调整P\I\D的三个参数来实现对于系统的控制,其功能框图如下所示:图1.3.1PID算法流程框图Fig1.3.1FlowchartofPIDalgorithmPID控制算法是一种性能优秀,同时实现容易算法。正是由于上述的优点,PID控制算法一直作为四旋翼无人机的经典算法被大量地使用。后来,为了能够提高PID算法的鲁棒性,BelkacemKada等人将鲁棒控制和模型降阶技术相结合,设计了一种新的方案,该方案成功地提高了无人机控制系统的时域响应性能,提高了该系统的鲁棒性。随后ALSalih对无人机模型进行数学化,提出并验证了一种基于PID算法的控制器对于无人机的控制性能的确优于传统的PID控制方法。之后,提出了线性PID控制,使得无人机能够在各种外界杂乱气流的影响下,实现自身的稳定性控制。PD控制算法建立于PID之上,侯永峰等人通过该种方法成功进一步提升了无人机的鲁棒性。PID控制算法是一种简单易学的控制方法,但在抗外界干扰和鲁棒性方面都有着严重性的不足。除此之外,PID算法中的参数整定也是一大难题,在许多时候都由以往的经验来进行选取与不断地调整,难以做到实时、精确、稳定地控制[16]。1.2.2强化学习算法研究现状按照现今对于强化学习算法的发展与原理,强化学习算法主要可以分为三大类:一是基于值估计函数的方法,二是基于策略估计函数的方法,三是基于对抗生成网络架构的方法。如图1.3.2所示,为其分类与发展历程[17]:图1.3.2强化学习算法发展历程Fig1.3.2Thedevelopmentofreinforcementlearningalgorithm基于值估计的算法,最为突出的代表便是Q学习算法(Q-Learning)。该算法是Watkins为了能够更好地优化马尔可夫决策中的控制问题,所提出的一种源于表格形式的学习算法。通过直接与环境进行不断的交互来估计出当前的状态函数,再调用值最大的动作来输出已得到最大的回报函数。在这一整个过程中,需要对智能体的每一个行为都进行考察。因此该算法的缺点也很明显,训练时间过长以及只能适用于低维度的动作空间。DQN算法(DeepQ-Learning)算法的出现挽救了以往的经典强化学习算法,使其能够胜任高维度的动作任务。DQN算法是Q算法与神经网络所结合的产物。随着处理的问题不断复杂化,环境与动作的几何化增长,Mnih等人首先想到了使用神经网络来代替以往的表格,并成功将其与Q算法相结合,用神经网络来回归状态值函数与动作值函数。在保证了拟合精度的前提下,大大减少了参数,使其在解决类似于真实环境的复杂问题时具有了良好的适应性。基于策略估计的算法,PG算法是该种算法的代表作。该种算法无需值估计函数,可以直接输出候选动作的概率分布,根据当前的分布随机发生动作。而PG算法就是在对策略函数进行建模之后,用梯度下降的方式不断更新系统网络的参数。但是在强化学习中并没有真正的损失函数,但是PG算法的目的是将累计奖励的期望值进行最大化,所以可以将损失函数设为:loss=-E[log[Π(a|s)]*Q(s,a)]。该算法可以理解为如果选择某一个动作所获得的奖励值较大,那么下次选取该动作的可能性增加的幅度也大;反之如果选择某一个动作所获得的奖励值偏小,则下次选取该动作的概率也会相应的变小。因此该算法的值观含义便是不断增加高回报函数的概率,同时不断减小低回报函数的概率。但是PG算法在实际的处理过程中仍有着一定的问题,为解决PG算法中结果收敛速度过于缓慢的问题,Schraudolph等人使用了增益向量自适应的方法;为解决PG算法中表达能力受到限制的问题,侯鹏飞等人提出了泛函数梯度的方法。基于对抗生成网络架构的方法。其中的代表是Actor-Critic算法,也被称为AC算法,该种算法成功地将上述两个方法结合了起来,评论家使用基于值估计函数的算法对值进行估计,而演员则使用基于策略估计的算法进行学习。前者与后者相互竞争,前者的目的是为了使自己所给出的评分逐渐收敛,趋向于稳定,而后者的目的是为了使评论者所给出的评分最大化。这样就可以在收敛的时候,演员模块能够给出一个符合当前情况的较为优秀的动作,而同时评论家模块能够给出一个合理的评分,最终收获并执行一个回报最高的策略行动。2014年Silver等人证明了DDPG算法的存在并提出了这一算法,该算法在AC算法的基础上再次与值估计算法相结合,利用了卷积神经网络再次对函数的收敛速度进行了加快,同时使该算法能够更好地解决高维度动作空间的问题。2016年g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论