版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(12)发明专利(72)发明人黎健钊周宇唐泽栋李若曦邓博雅乔文远公茂果李海林审查员王朝飞务所(普通合伙)61230一种时序数据反演的博弈智能体输入输出本发明公开了一种时序数据反演的博弈智境,获取博弈任务结束后双方的输入态势数据、输出机动决策数据及我方智能体中决策网络的行上述过程直至边界特征覆盖率大于或等于特构建敌我双方飞机对抗的博弈环境,获取博弈任务结束后敌我双方的输入态势数据、翰出机动决策数据,以及我方智能体中基于深度强化学习的决策网络的输入特征、翰出特征根据翰入态势数据,计算在整个博弈任务执行过程中,我方智能体各时刻机动决策的累计奖励值根据我方智能体各时刻机动决策的累计奖励值,确定我方态势转变的性能边界时刻集合;按照性能边界时刻集合进行各时刻反演定位,得到我方的性能边界输入态势数据和性能边界翰出机动决策数据通过对输出特征进行无监督聚类,得到决策网络的边界特征对应的网络边界时刻集合;按照网络边界时刻集合进行各时刻反演定位,得到我方的网络边界输入态势数据和网络边界翰出机动决策数据迭代执行S1~54,并根据得到的性能边界输入态势数据、性能边界输出机动决策数据、网络边界枪入态势数据和网络边界输出机动决策数据,计算边界特征覆盖率,直至边界特征覆盖率大于或等于预设的特征覆盖阈值时停止迭代,得到我方最终的智能体输入翰出边界21.一种时序数据反演的博弈智能体输入输出边界定位方法,其特征在于,包括:S1,构建敌我双方飞机对抗的博弈环境,获取博弈任务结束后敌我双方的输入态势数据、输出机动决策数据,以及我方智能体中基于深度强化学习的决策网络的输入特征、输出特征;其中,我方飞机为智能体;所述决策网络的输入特征根据我方智能体的输入态势数据得到,我方智能体的输出机动决策数据根据所述决策网络的输出特征得到;S2,根据所述输入态势数据,计算在整个博弈任务执行过程中,我方智能体各时刻机动决策的累计奖励值;S3,根据所述我方智能体各时刻机动决策的累计奖励值,确定我方态势转变的性能边界时刻集合;按照所述性能边界时刻集合进行各时刻反演定位,得到我方的性能边界输入态势数据和性能边界输出机动决策数据;其中,根据所述我方智能体各时刻机动决策的累计奖励值,确定我方态势转变的性能边界时刻集合,包括:根据所述我方智能体各时刻机动决策的累计奖励值,确定累计奖励函数;计算所述累计奖励函数的一阶导数和二阶导数,根据计算结果确定我方态势由劣势转为优势的逆转时刻点,得到第一逆转时刻集合,以及确定我方态势由优势转为劣势的逆转时刻点,得到第二逆转时刻集合;将所述第一逆转时刻集合和所述第二逆转时刻集合组合得到性能边界时刻集合;S4,通过对所述输出特征进行无监督聚类,得到所述决策网络的边界特征对应的网络边界时刻集合;按照所述网络边界时刻集合进行各时刻反演定位,得到我方的网络边界输入态势数据和网络边界输出机动决策数据;S5,迭代执行S1~S4,并根据得到的性能边界输入态势数据、性能边界输出机动决策数据、网络边界输入态势数据和网络边界输出机动决策数据,计算边界特征覆盖率,直至边界特征覆盖率大于或等于预设的特征覆盖阈值时停止迭代,得到我方最终的智能体输入输出边界。2.根据权利要求1所述的时序数据反演的博弈智能体输入输出边界定位方法,其特征输出机动决策数据包括飞机的副翼状态、升降舵状态、方向舵状态、节流阀状态以及是否发弹。3.根据权利要求1所述的时序数据反演的博弈智能体输入输出边界定位方法,其特征在于,所述获取博弈任务结束后敌我双方的输入态势数据、输出机动决策数据,以及我方智能体中基于深度强化学习的决策网络的输入特征、输出特征之后,所述方法还包括:确定所述输入特征和所述输出特征的映射关系,以及,所述输入特征和我方智能体的输入态势数据的对应关系、我方智能体的输出机动决策数据和所述输出特征的对应关系。4.根据权利要求1所述的时序数据反演的博弈智能体输入输出边界定位方法,其特征在于,根据所述输入态势数据,计算在整个博弈任务执行过程中,我方智能体各时刻机动决根据各时刻的输入态势数据以及所述决策网络预设的奖励函数,计算在整个博弈任务执行过程中,我方智能体各时刻机动决策的累计奖励值。5.根据权利要求4所述的时序数据反演的博弈智能体输入输出边界定位方法,其特征在于,针对1对1博弈,所述预设的奖励函数基于距离奖励、姿态优势奖励和击落奖励加和得3所述距离奖励以公式表示为:其中,表示所述距离奖励;Pos,表示我方飞机的位置;Posb表示敌方飞机的位置;我方飞机距离敌方飞机越近,所述距离奖励设置越大;所述姿态优势奖励以公式表示为:其中,表示所述姿态优势奖励;中,表示我方飞机相对敌方飞机的方位角;中b表示敌方飞机相对我方飞机的方位角;当敌我双方飞机的方位角之和为360°时,表示我方智能体处于尾追攻击态势,此时我方角度姿态优势最大;反之,当敌我双方飞机的方位角之和为0°时,表示我方智能体处于被尾追攻击态势,此时我方角度姿态优势最小;所述击落奖励以表示,其中,我方飞机胜利给予正奖励,敌方飞机胜利给予负奖励,平局或对局未结束则给予零奖励。6.根据权利要求1所述的时序数据反演的博弈智能体输入输出边界定位方法,其特征对所述性能边界输入态势数据和所述性能边界输出机动决策数将所述性能边界对应的可视化输入态势数据和可视化输出态势数据,通过构建博弈环境时所使用的博弈仿真平台复现,并生成性能边界战场场景。7.根据权利要求1所述的时序数据反演的博弈智能体输入输出边界定位方法,其特征对所述输出特征采用密度聚类方式,筛选出其中的边界特征集合;根据所述边界特征集合中边界特征对应的时刻,得到网络边界时刻集合。8.根据权利要求1或7所述的时序数据反演的博弈智能体输入输出边界定位方法对所述网络边界输入态势数据和所述网络边界输出机动决策数据,分别根据给定的网将所述网络边界对应的可视化输入态势数据和可视化输出态势数据,通过构建博弈环境时所使用的博弈仿真平台复现,并生成网络边界战场场景。9.根据权利要求3所述的时序数据反演的博弈智能体输入输出边界定位方法,其特征在于,所述根据得到的性能边界输入态势数据、性能边界输出机动决策数据、网络边界输入态势数据和网络边界输出机动决策数据,计算边界特征覆盖率,包括:4将当前次迭代得到的性能边界输入态势数据和网络边界输入态势数据合并,得到当前次迭代的合并输入态势数据;将当前次迭代得到的性能边界输出态势数据和网络边界输出态势数据合并,得到当前次迭代的合并输出态势数据;根据已确定的所述输入特征和我方智能体的输入态势数据的对应关系、我方智能体的输出机动决策数据和所述输出特征的对应关系,计算出当前次迭代的合并输入态势数据对应的边界输入特征,以及当前次迭代的合并输出态势数据对应的边界输出特征;根据当前次迭代得到的边界输入特征和边界输出特征,以及当前次迭代之前累计得到的边界输入特征和边界输出特征,通过计算交集,得到边界特征覆盖率;直至边界特征覆盖率大于或等于预设的特征覆盖阈值时停止迭代,得到我方最终的智根据停止迭代时对应次迭代得到的边界输入特征和边界输出特征,得到我方最终的智能体输入输出边界。5技术领域[0001]本发明属于深度强化学习博弈智能体领域,具体涉及一种时序数据反演的博弈智能体输入输出边界定位方法。背景技术[0002]在对战模拟等场景中,基于深度强化学习训练的博弈智能体方法是一种常用方法,其主要目的是学习一个最优机动决策策略,使得智能体(如我方无人机)在与真实或仿真的环境交互中获得累积奖励最大化。但是,其训练得到的神经网络决策模型是一个内部执行逻辑未知的黑盒模型,网络输入和输出的映射关系复杂,机动策略可解释性差。将智能体的自主决策网络搭载到实际装备时,需要获取博弈智能体的机动输入输出边界和构建失效边界场景以增强其智能决策的可靠性和安全性。[0003]目前,博弈智能体的自主输入输出边界定义通常基于任务级的环境进行超参数采EvolutionarySamplingMethodforAutonomousSystemEmerging”中通过在战场范围、防空设备数量和火力覆盖、敌机数量和装备等提前预知的环境变量中进行采样,并在仿真系统中进行任务模拟,根据执行任务的成功与否来判断智能体的自主决策性能边界。但是,即使是在相同的环境条件设定下,智能体的每次任务中,模拟出的时序自主决策与任务结果有很大可能并不相同,且该边界定义并未考虑到实时的时序机动自主决策。而现有的可解释性强化学习博弈方法只是针对智能体的动作决策,如“基性回归设计奖励函数和修补博弈智能体策略,对智能体的网络决策归类到俯冲、盘旋、半滚倒转、筋斗等可解释的组合动作中,在机动意图层面总结了模型的输出策略。专利CN202410815001.5则是通过海萨尼转换将不完全信息动态博弈模型转换成完全信息动态博弈模型,得到博弈智能体的最优机动策略,同样是将模型输出的机动决策进行了具体的归类解释。[0004]深度强化学习博弈智能体由于模型的复杂性和不透明性,网络生成的机动决策策略难以解释,输入输出特征的复杂映射难以建模,策略的泛化场景可用性差。现有的深度强化学习可解释性的方法主要通过拟合一个转移概率矩阵学习可解释性策略,或者解译奖励函数将学习策略转化为可解释的形式。在博弈智能体自主决策中,现有的方法只是简单地把网络的决策输出归类到提前设定的组合动作中,并不具备对智能体网络在何种战场态势下决策合理性的判断,无法满足空战的高动态性、强实时性的边界确定性要求。对于深度强化学习智能体边界定位,现有的技术根据采样预设的环境变量参数进行模拟仿真,并只是根据最后的任务结果对可调节的超参数进行边界定位。缺点如下:(1)缺乏对博弈时序强关联的机动决策变量的解释,该定义并未考虑自主决策网络的时序循环关系,且并未结合实时的战场态势进行边界判断;(2)边界定义方法存在缺陷,在相同的环境设定下,每次仿真的智能体对于博弈任务的机动决策和最终结果很大程度上会不一致,而只是基于仿真任务6成功与否的边界定位,在基础概念上并不符合博弈智能体高实时性响应的要求。发明内容[0005]为了解决现有技术中存在的上述问题,本发明提供了一种时序数据反演的博弈智能体输入输出边界定位方法。本发明要解决的技术问题通过以下技术方案实现:[0006]一种时序数据反演的博弈智能体输入输出边界定位方法,包括:[0007]S1,构建敌我双方飞机对抗的博弈环境,获取博弈任务结束后敌我双方的输入态势数据、输出机动决策数据,以及我方智能体中基于深度强化学习的决策网络的输入特征、输出特征;其中,我方飞机为智能体;所述决策网络的输入特征根据我方智能体的输入态势数据得到,我方智能体的输出机动决策数据根据所述决策网络的输出特征得到;[0008]S2,根据所述输入态势数据,计算在整个博弈任务执行过程中,我方智能体各时刻机动决策的累计奖励值;[0009]S3,根据所述我方智能体各时刻机动决策的累计奖励值,确定我方态势转变的性能边界时刻集合;按照所述性能边界时刻集合进行各时刻反演定位,得到我方的性能边界输入态势数据和性能边界输出机动决策数据;[0010]S4,通过对所述输出特征进行无监督聚类,得到所述决策网络的边界特征对应的网络边界时刻集合;按照所述网络边界时刻集合进行各时刻反演定位,得到我方的网络边界输入态势数据和网络边界输出机动决策数据;[0011]S5,迭代执行S1~S4,并根据得到的性能边界输入态势数据、性能边界输出机动决策数据、网络边界输入态势数据和网络边界输出机动决策数据,计算边界特征覆盖率,直至边界特征覆盖率大于或等于预设的特征覆盖阈值时停止迭代,得到我方最终的智能体输入输出边界。[0012]本发明实施例所提供的时序数据反演的博弈智能体输入输出边界定位方法,首次构建了博弈智能体性能边界和网络边界的定位方式,通过特征级无监督聚类解释方法和行为级的实时环境态势感知判别,基于实际或仿真环境的时序数据驱动,由边界特征反演智能体的边界场景输入,实现了博弈智能体在机动策略层面的实时边界可解释性。具体具有以下有益效果:[0013]1.更深层次的决策解释能力:本发明通过特征级无监督聚类解释方法,能够深入到智能体决策的内部特征层面,通过求解累计奖励函数的一阶导数和二阶导数,能够精确地定位智能体态势逆转的区间,揭示智能体在不同战场态势下做出决策的内在逻辑。这种深入的解释能力超越了现有技术通常只能提供的动作决策层面的解释,使得决策过程更加[0014]2.更高的决策保真度和可信度:现有技术通常基于任务级的边界定义,这种方法在相同的环境设定下,智能体的每次任务模拟结果可能不一致,导致边界定位的保真度和可信度较低。本发明通过时序机动输入输出边界定位,提供了一种全新的博弈智能体性能边界和网络边界定位方式,能够更准确地反映智能体在实际博弈中的表现,提供了更全面的战场态势感知,从而提高了决策的保真度和可信度。[0015]3.更强的策略泛化和适应性:本发明通过边界特征反演智能体的边界场景输入,能够识别出智能体在哪些战场态势下的表现不佳,从而针对性地优化策略。这种能力使得7智能体的策略不仅在训练环境中有效,也能在更广泛的实际博弈环境中保持有效,提高了策略的泛化能力和适应性。[0016]4.更高效的实时响应能力:本发明能够实时地根据战场态势感知判别智能体的输入输出边界,这种实时性对于博弈高动态环境至关重要。相比之下,现有技术通常需要事附图说明[0017]图1为本发明实施例所提供的一种时序数据反演的博弈智能体输入输出边界定位方法的流程示意图;[0018]图2为本发明实施例所提供的一种时序数据反演的博弈智能体输入输出边界定位方法的原理示意图;[0019]图3为本发明实施例的战场态势函数示意图;[0020]图4为本发明实施例的单次空战数据智能体性能边界定位特征图;[0021]图5为本发明实施例的单次空战数据智能体网络边界定位特征图;[0022]图6为本发明实施例的智能体性能边界定位特征图;[0023]图7为本发明实施例的智能体网络边界定位特征图。具体实施方式[0024]下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于[0025]目前的博弈智能体边界定位方法是搜索可设定的环境变量,进行任务成功与失败的判定,其成功和失败对应的环境变量相邻变量定义为边界。但是,即使在相同的环境设定下,智能体每次仿真过程和结果并不可能完全保持一致,因此基于任务级的边界定义保真度差、可信度低。本发明根据智能体的时序机动决策,提出了全新的博弈智能体性能边界和网络边界定位方式。[0026]同时,目前大多数基于深度强化学习训练的博弈智能体其模型包含大量的参数和复杂的网络结构,其非线性特征的机动决策机理难以解释。本发明基于时序数据驱动,在机动策略特征层面定位智能体态势逆转的特征边界,并通过反演构建智能体的边界场景。[0027]具体的,本发明实施例提供了一种时序数据反演的博弈智能体输入输出边界定位方法,请结合图1所示的方法步骤以及图2所示的方法原理理解,该方法可以包括如下步骤:[0028]S1,构建敌我双方飞机对抗的博弈环境,获取博弈任务结束后敌我双方的输入态势数据、输出机动决策数据,以及我方智能体中基于深度强化学习的决策网络的输入特征、输出特征;[0029]本发明实施例中,可以通过真实环境交互或者仿真环境交互的方式构建敌我双方的博弈环境,比如可以利用博弈仿真平台构建,但所使用的博弈仿真平台在此并不做限制。在该博弈环境中,我方作为红方,敌方作为蓝方,利用各自的飞机进行博弈对抗,我方飞机为智能体,敌方飞机是否为智能体并不做限制。我方智能体中部署有训练完备的决策网络,该决策网络是一个深度强化学习网络,可以采用现有的任意一种基于深度强化学习的智能8[0031]所述决策网络能够将我方智能体通过环境交互感知到的输入态势数据转化处理络的非线性映射。博弈仿真环境通常包含空气动力学模型(如J数据和输出机动决策数据,以及我方智能体的决策网络的输入特征9[0039]其中,我方智能体的决策网络的输入特征和输出特征的映射关系可体的任意输出机动决策数据得到决策网络对应的输出特征,用于智能体输入输出边界定程对应1~T时刻,那么针对其中每个时刻t,可以计算出我方智能体在该时刻的机动决策的实时奖励值R,将该实时奖励值R与之前累计的所有时刻的实时奖励值R再求和,即可得到时刻t我方智能体机动决策的累计奖励值R°,表示1~t时刻实时奖励值之和。关于[0052]其中,RAtitude表示所述姿态优势奖励;[0055]S3,根据所述我方智能体各时刻机动决策的累计奖励值,确定我方态势转变的性[0056]该步骤对应图2中时序战场态势-态势逆转定位-性能边界定位以及对应的反演部励值R?,可以利用数据拟合等方式,确定出时刻和机动决策的累计奖励值R⁹的函数关[0060]请参见图3,图3为本发明实施例的战场态势函数示意图,战场态势函数即累计奖[0061]2),计算所述累计奖励函数的一阶导数和二阶导数,根据计算结果确定我方态势[0062]具体的,对累计奖励函数fro(t)求一阶导数,以及求二阶导数[0063]若针对累计奖励函数的曲线上的任一点,满足,且劣势转为优势的逆转时刻点,从而将所有这样的点组成集合得到性能边界集合Qu,将性能[0064]若针对累计奖励函数的曲线上的任一点,满足,且[0065]3),将所述第一逆转时刻集合和所述第二逆转时刻集合组合得到性能边界时刻集[0066]将性能边界集合Qu和Qa合并得到性能边界区间[4u,φa];将所述第一逆转时[0068]请参见图4,图4为本发明实施例的单次空战数据智能体性能边界定位特征图,其S1中保存的我方智能体的输入态势数据D和输出机动决策数据D。中进行反演定位,即进行对应时刻的数据获取,得到性能边界输入态势数据D[a]和性能边界输出机动决策[0070]得到性能边界输入态势数据D'[a]和性能边界输出机动决策数据D。[a]即完[0073]由于所述性能边界输入态势数据和所述性能边界输出机动决策数据表示的性能[0074]对性能边界输入态势数据D'[a]和性能边界输出机动决策数据,分别根据给定的性能边界定位可视化范围Tp进行时刻扩展,得到性能边界对应的可视化输入态势数据和可视化输出态势数据,即对其中每个时刻均前后增加Tp时间段。得到的性能边界对应的可视化输入态势数据D[α±Tp]和可视化输出态势数据可以组合为性能边界可视化输入输出数据只能复现当前时刻敌我双方的状态,而无法直观看出锁定前后敌我双方的时序动态决策,而通过时刻扩展后再进行博弈仿真平台复现则可以解决该问题。这部分内容可以参见图2[0077]S4,通过对所述输出特征进行无监督聚类,得到所述决策网络的边界特征对应的聚类半径8和最小聚类数M;[0087]在1对1博弈的边界定位中,最小聚集数M设置为2,即表征一个输出特征是否为[0088]步骤a2,对于输出特征集中的每个输出特征,计算该输出特征的8邻域内包含的点即输出特征的数量,将得到的数量作为该输出特征的密度P;并判断该输出特征的密度[0090]步骤a3,对于每个核心特征,找出该核心特征的8邻域内的所有点,形成一个聚[0091]步骤a4,对于核心特征的8邻域内的每个点,如果该点也是核心点,则将该点8邻征簇,从而根据边界特征簇获得边界特征集合@。[0095]请参见图5,图5为本发明实施例的单次空战数据智能体网络边界定位特征图,其势数据和网络边界输出机动决策数据,是根据所述S1中保存的我方智能体的输入态势数据D和输出机动决策数据D中进行反演定位,即进行对应时刻的数据获取,得到网络边界输入态势数据D[β]和网络边界输出机动决策[0097]得到网络边界输入态势数据和网络边界输出机动决策数据即完[0101]由于所述网络边界输入态势数据和所述网络边界输出机动决策数据表示的网络[0102]对网络边界输入态势数据D[β]和网络边界输出机动决策数据,分别根据给定的网络边界定位可视化范围TN进行时刻扩展,得到网络边界对应的可视化输入态势数据和可视化输出态势数据,即对其中每个时刻均前后增加Tn时间段。得到的网络边界对应的可视化输入态势数据D[β±Tn]和可视化输出态势数据可以组合为网络边界可视化输入输出数据受。和前面性能边界类似,比如针对于我方智能体决场景,若只有网络边界时刻集,在仿真平台上只能复现当前时刻敌我双方的状态,而无法直观看出智能体异常机动决策的时序动态决策,而通过时刻扩展后再进行博弈仿真平台复现则可以解决该问题。这部分内容可以参见图2中网络边界战场场景理解。[0105]对于S3和S4,本发明是从决策网络特征层面进行边界分析,通过反演定位并拓展复现并生成输入输出边界战场场景,从而对性能边界和网络边界进行了可视化复现展示,[0106]S5,迭代执行S1~S4,并根据得到的性能边界输入态势数据、性能边界输出机动决[0107]该步骤对应图2中迭代以及下半部分方框内的内容理解,体现深度强化学习智能[0110]1),将当前次迭代得到的性能边界输入态势数据和网络边界输入态势数据合并,[0111]针对每次迭代,都将两种边界输入态势数据合并,将两种边界输出态势数据合并,得到合并输入态势数据和合并输出态势数据。[0112]2),根据已确定的所述输入特征和我方智能体的输入态势数据的对应关系、我方[0113]如前所述,在S1的相关步骤中,已经确定出我方智能体的决策网络的[0114]3),根据当前次迭代得到的边界输入特征和边界输出特征,以及当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中国计量秤行业市场前景预测及投资价值评估分析报告
- 2026年中国煤矿用隔爆型潜水泵行业市场前景预测及投资价值评估分析报告
- 2025年小米汽车售后服务配件质量合同协议
- 2025年环境工程师兼职协议
- 药品代理合作协议书范本
- 2026年南昌交通学院单招职业倾向性测试题库及答案1套
- 2026年长沙电力职业技术学院单招综合素质考试题库附答案
- 2026年长春师范高等专科学校单招职业倾向性测试题库附答案
- 2026年罗定职业技术学院单招职业适应性考试必刷测试卷附答案
- 2026年河北建材职业技术学院单招综合素质考试题库附答案
- 2025年心理b证笔试试题及答案
- 急性阑尾炎课件
- 糖尿病伴心血管疾病的护理
- 银行物业服务承诺和质量保障措施
- 人工智能在智能水处理中的应用
- 2024-2025学年新乡市一中八年级上册期末考试数学试卷(含部分答案)
- 全国高校辅导员素质能力大赛试题(谈心谈话、案例分析)
- 人工智能安全:原理与实践 课件全套 李剑 第1-16章 人工智能安全概述- 代码漏洞检测原理与实践
- 完整版人教版小学3-6年级英语单词表,可直接打印
- 健康管理中心的建设与运营
- 三减三健课件
评论
0/150
提交评论