CN113589842B 一种基于多智能体强化学习的无人集群任务协同方法 (中国电子科技集团公司第五十四研究所)_第1页
CN113589842B 一种基于多智能体强化学习的无人集群任务协同方法 (中国电子科技集团公司第五十四研究所)_第2页
CN113589842B 一种基于多智能体强化学习的无人集群任务协同方法 (中国电子科技集团公司第五十四研究所)_第3页
CN113589842B 一种基于多智能体强化学习的无人集群任务协同方法 (中国电子科技集团公司第五十四研究所)_第4页
CN113589842B 一种基于多智能体强化学习的无人集群任务协同方法 (中国电子科技集团公司第五十四研究所)_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

JP2021034050A,2021.03.01ConfrontationTaskBasedConferenceonMechanical,Controland一种基于多智能体强化学习的无人集群任本发明公开了一种基于多智能体强化学习划技术领域。本发明基于Unity搭建面向多无人系统任务规划的强化学习仿真环境;使用Gym将获取到的仿真环境的信息搭建成符合规范的强Tensorflow深度学习库搭建多智能体强化学习2能体的局部状态的平均值得到了联合状态sy,表示如下:k为无人机智能体动作,为除了无人机智能体i以外的所有无人机智能体动作将其他无人机智能体的奖励rt,k的平均值作为外部奖励,环境交互获得的i,xi,y3前应用的网络,online网络参数按照策略梯度实时优化,target网络参数以固定步长向次随机抽取一批数据来更新Actor和Cr2.根据权利要求1所述的一种基于多智能体强化学习的无人集群任务协同方法,其特43.根据权利要求1所述的一种基于多智能体强化学习的无人集群任务协同方法,其特进攻无人机的目的是进入目标区域,防御无人机负责通过摧毁进攻5动态重规划的方法:将经典的混合整数线性规划应用于动态环境中进行路径优化和避障。678[0055]采用Actor-Critic框架,每一个智能体都有Actor网络和Critic网络两个网络,i中所有的量都是有界且连续的;;rd1+rp1和dird2+rp2Critic网络表示的函数标记为Q(s,a,u),输入状态si、动作ai、其他智能体的平均动作u,输前应用的网络,online网络参数按照策略梯度实时优化,target网络参数以固定步长向9[0079]图3是协作深度确定性策略梯度方法训练结构图,其中,envir[0122]CODDPG采用Actor-Critic框架,每一个智能体都有Actor网络和Critic网络两个代表到无i中所有的量都是有界且连续的。rd1+rp1rd2+rp2[0144]其中距离奖励rd2和摧毁敌方的奖励rp2如下式所示,当目标区数标记为Q(s,a,u),输入状态si、动作ai、其他智能体的平均动作u,输出Q值。Actor和Critic都有online和target两个版本的网络分别表示实时更新的网络和目前应用的网络,一个确定的输出μ(si)。为了策略的探索性,在μ(s)基础上加一个惯性噪声(Ornstein-Uhlenbecknoise)得到具体每个智能体此轮执行的动作ai。在得到所有智能体的动作a=先用Actor的target网络决定下一时间步联合状态下的动作然后用Critic的[0168]测试结果归一化后绘制直方图,如图7所示,其中CODDPG在胜率上略微超出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论