CN115903820B 多无人艇追逃博弈控制方法 (上海大学)_第1页
CN115903820B 多无人艇追逃博弈控制方法 (上海大学)_第2页
CN115903820B 多无人艇追逃博弈控制方法 (上海大学)_第3页
CN115903820B 多无人艇追逃博弈控制方法 (上海大学)_第4页
CN115903820B 多无人艇追逃博弈控制方法 (上海大学)_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明提供了一种多无人艇追逃博弈控制控制器给出的最优控制,解算观测器的最优响2观测器根据控制器给出的最优控制,解算观测器的最优响应控制器接收观测器的最优响应,并根据所述协同观测器和强化学习的博弈,使得观测器作为跟随者以处理不确定通过观测器与控制器的序贯博弈,使得强化学习算法能够应对外部干扰和建模误差,使用势能函数设置追踪奖励和环绕奖励,势能函数在阈值距离通过观测器增强基于强化学习设计的领导者与环境的交互,提高控制性能3(2)系统误差e;=x-:其中u'GV一项代表子系统i对子观测器i的影响,且Q,R,G是对称正定矩阵,用于调节定子系统i的控制律u,在博弈开始时首先初始化为容许控制,并引入如下的子观测器哈密4(10)(14)设计控制律u;使得下式成立:(15)(16)5a,b,c,d,e,f是调节策略性能的恒定值,di,表示当前无人艇的速度和期望速度的差值,将不等长的环境状态序列转化为等长的状态序列,使用BiGRU双向循环门控单元处理不等长环境状态序列,其中o.表示追击者探测范围内探测到的第i个障碍物的状态信息,且表示当前无人艇自身的状态信息,heRet表示经由BiGRU提取的第i个追击者探测范在时间间隔(.sthl的局部动作奖励函数可定义为:6(S,U)=E,(G,IS,=S,U,=U4)(26)7航行体、水下机器人、水面无人船等)为代表的海洋智能装备是现阶段海上作业的主要载[0009]控制器接收观测器的最优响应,并根据所述最优响应重新解算追击方的最优控89[0046]步骤五:在追击者的序贯博弈决策中,需要首先考虑追击者i子观测器的最优响[0053]理想情况下此时,e,,[0072]将不等长的环境状态序列转化为等长的状态序列,使用BiGRU双向循环门控单元处理不等长环境状态序列,其中d.,表示追击self表示当前无人艇自身的状态信息,h∈Rmx1表示经由BiGRU提取的第i个追击者探oy)'(46).性能指标得到最优的辅助控制律vi,并重复此序贯博弈过程,从而完成对逃逸者的追击围[0089]本发明的发明人通过研究发现,当前使用强化学习算法完成无人艇的追逃任务[0109]以下结合附图和具体实施例对本发明提出的多无人艇追逃博弈控制方法作进一[0112]图1~7提供了本发明的实施例,本发明解决了使用强化学习算法进行追逃博弈[0143]理想情况下此时2RY,+GU,+VJ,-0,使用ADP(自适应动态规划,一种根作用的起追踪逃逸者作用的追踪势能B,以及起环航包围作用的环绕势能(即让追不同,RVO(互惠速度障碍法)是一种避障算range<de0/m[0159]起避障作用的RVO奖励函数RVO放弃危险速度的设定可以很大程度上保证智[0160]起追踪逃逸者作用的追踪势能B:它的作用是拉近当前追捕者和逃逸者之间距内三个障碍物。强化学习算法中的神经网络框架无法表示追击者探测范围内探测到的第i个障碍物(其他无人艇,不包括自己)的状态信息[0169]h为每次采样的时间间隔,设当h→0时,可近似有式入u;并最小化性能指标得到最优的辅助控制律

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论