CN119398130A 一种陆战无人装备的模拟训练方法、装置及设备 (厦门渊亭信息科技有限公司)_第1页
CN119398130A 一种陆战无人装备的模拟训练方法、装置及设备 (厦门渊亭信息科技有限公司)_第2页
CN119398130A 一种陆战无人装备的模拟训练方法、装置及设备 (厦门渊亭信息科技有限公司)_第3页
CN119398130A 一种陆战无人装备的模拟训练方法、装置及设备 (厦门渊亭信息科技有限公司)_第4页
CN119398130A 一种陆战无人装备的模拟训练方法、装置及设备 (厦门渊亭信息科技有限公司)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明公开了一种陆战无人装备的模拟训化学习的网络训练框架,包括MAPPO网络以及MAPPO网络用于提供即时反馈和策略调整的梯度全局策略的评估;通过初始化和更新MAPPO网络2创建多智能体无人装备的陆战对抗场景,定义陆战通过初始化和更新MAPPO网络以及QMIX网络的网络参数,对多智能体强化学习模型进所述全局观测空间包括红方智能体的局部观测空间、蓝方智能体所述动作空间通过红方智能体的局部观测空间以及预定义的动作进行设计得若红方智能体与最远蓝方智能体的距离小于预设距离阈值,且蓝方智能体失去50%的3.根据权利要求1所述的一种陆战无人装备的模通过输入层接收陆战对抗场景的状态向量,状态向量包括所有红方智在隐藏层中通过第一层隐藏层捕捉状态向量中的局部通过隐藏层提取全局观测空间的全局状态特征,并在隐藏层中引入所述QM4.根据权利要求1或3所述的一种陆战无人装备的模拟训练方法,其特征在于,所述3将红方智能体的局部观测空间以及当前动作输入至所述智能体网络通过每一红方智能体执行由策略网络对应的策略函数生成的动作并得到每隔k个周期从记忆池D中选取B组数据进行计算梯度Agi和梯度,并通过梯度Agi和梯度对神经网络的网络参数和网络参数co进行更新。通过进行计算,得到第i个红方智能体对应的,,,示第i个红方智能体更新后的策略函数,表示第i个红方智能体当前的策略函数,⃞'(s,a)表示对Q,(s,a)的估计值,Q;(s,a0)表示第i个红方智能体的critic网络4通过得到第i个红方智能体对应的critic网络的网,,表示更新前策略网络的权重参数,mne表场景创建单元,用于创建多智能体无人装备的陆战对抗的局部观测空间以及全局观测空间;动作空间包括红方智能体的连续动作以及离散动作,一项所述的一种陆战无人装备的模拟训练方5通过初始化和更新MAPPO网络以及QMIX网络的网络参数,对多智能体强化学习模6若红方智能体与最远蓝方智能体的距离小于预设距离阈值,且蓝方智能体失去层隐藏层提取特征并减少维度,并在第二层隐藏层中引入循环神经网络捕捉时间的依赖通过每一红方智能体执行由策略网络对应的策略函数生成的动作并每隔k个周期从记忆池D中选取B组数据进行计算梯度Agi和梯度,并通过梯7度Agi和梯度对神经网络的网络参数和网络参数co进行更新。[0011]优选的,所述每隔k个周期从记忆池D中选取B组数据进行计算梯度Agi和梯度Ai,包括:,,,⃞'(s,a)表示对Q,(s,a)的估计值,Q;(s,a0)表示第i个红方智能体的critic网络通过进行计[0012]优选的,所述通过梯度Agi和梯度对神经网络的网络参数和co进行更新,通过采用梯度上升法来更新actor网络的网络参数,得到更新后的网络参数;8通过采用梯度下降法来更新critic网络的网络参数,得到更新后的网络参数,,式中,cactor表示actor网络的学习率,表示更新前策略网络的权重参数,qrse实现如上述实施例所述的一种陆战无人装备的模拟所述计算机程序/指令被处理器执行时实现如上述实施例所述的一种陆战无人装备的模拟以上方案,通过构建多智能体强化学习的网络训练框架,并在MAPPO网络中引入[0018]以上方案,关于局部观测空间和全局观测空间的定义以9计算网络参数梯度,并采用梯度上升法和梯度下降法分别更新actor网络和critic网络的智能体之间形成有效的合作和协调,使得多智能体系统可以更加高效地学习到最优策略,[0033]MAPPO的价值网络:它侧重于为MAPPO算法提供即时的反馈和策略调整的梯度信作值函数的估计,有助于MAPPO算法在更新策略时考虑多智能体之间的协作和全局策略的[0035]参照图1所示为本发明一实施例提供的一种陆战无人装备的模拟训练方法的流程若红方智能体与最远蓝方智能体的距离小于预设距离阈值,且蓝方智能体失去[0041]确定该场景的胜负条件及其奖励函数,其中奖励函数包括过程奖励及最终奖层隐藏层提取特征并减少维度,并在第二层隐藏层中引入循环神经网络捕捉时间的依赖终输出红方智能体在当前状态下做出的可能的决策,从而利用E-greedy策略对决策进个智能体共同执行任务时,它们可以学习到如何相互协作以最大化总回报。另外这对于通过梯度Agi和梯度对神经网络的网络参数和网络参数co进行更络的网络参数和网络参数分别为actor网络的网络参数以及critic网络的网络参数。,,,⃞'(s,a)表示对Q,(s,a)的估计值,Q;(s,a0)表示第i个红方智能体的critic网络通过进行计其中,A表示所有红方智能体的联合动作,Q不x(s,A)=f(Q,(s.a).Q2(s,a)…),[0065]进一步的,所述通过梯度Agi和梯度对神经网络的网络参数和co进行更通过采用梯度上升法来更新actor网络的网络参数,得到更新后的网络参数;通过采用梯度下降法来更新critic网络的网络参数,得到更新后的网络参数,,a:络的网络参数。给定每个红方智能体i根据状态和策略函数最大化折扣[0068]给定策略函数集合为:I={T1,T2,…,T},[0071]给定优势函数表达式A[0073]进一步利用中心评价函数Q.(sr,ap[0075]采用梯度上升法来更新actor网络的网络参数,红方智能体i的actor网络的网式中,B为一次训练所选取的样本数,为红方智能体i的优势函数,式中是对的估计值;为智能体更新后的策略函络的网络参数co梯度为:池D(经验回放池然后agent执行由策略网络生成的动作并得到奖励值,[0083]在训练过程中,MAPPO网络的策略网络和价值网络的参数更新依赖于从环境中收[0084]MAPPO网络的价值网络的参数更新可以通过最小化价值函数估计的误差来实现,中,这个误差的另一部分是QMIX网络预测的联合动作价值函数和实际获得的回报的差异。将QMIX网络输出的联合动作价值与真实回报之间的差异作为价值网络损失函数的一部分,动作相对于当前策略下平均动作的优势程度。优势函数是基于价值网络的预测值来计算实现的。这个误差通过比较QMIX网络预测的联合动作价值函数和实际获得的回报来计算。[0089]QMIX网络的设计对MAPPO算法本身的反向传播算法更新网络参数具有显著的作智能体的行为时,就能够保证每个智能体的局部策略都是朝着全局最优解的方向前进的。[0091]参照图5所示为本发明一实施例提供的一种陆战无人装备的模拟训练装置的结构[0098]显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图确定触摸事件的类型,随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输处理器加载并执行以实现图1所示的陆战无人装备的模拟训练方法。所述计算机可读存储程序/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论