版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种混合博弈下高阶思维发展的多智能体本发明公开了一种混合博弈下高阶思维发博弈启发下面向学习者高阶思维的多智能体任弈启发下面向学习者高阶思维的多智能体任务习者高阶思维的具身发展提供了坚实的支持和2将捕获到的高阶思维数据经过预处理后,输入到多智能体系统中进2.根据权利要求1所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其对于一个给定的动作k,计算当智能体j提供智能体i动作信息,智能体i采取不同最优动作3若某智能体的意向动作信息对另一智能体的决策重要性超过预设的阈值,则该智能3.根据权利要求2所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其在得到无环的依赖关系图后,智能体的决策过程将遵循以4.根据权利要求1所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其=基于平均场理论,将周围智能体的平均动作作为输入,4fe"=+YB,Q,(,a'-)(8)结合深度贝叶斯策略重用方法,采用神经网络;5.根据权利要求1所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其在训练过程中,通过神经网络价值函数来评估智能体在每个将学习者高阶思维数据样本任务进行初步处理,然后输入所有任务的当通过构建一个优化的目标函数,用于最大化期望累计内外奖励的5其中,Rin(s,a)表示智能体在状态si下执行动作at时获得的内部奖励,ROU(s,a,np)6.根据权利要求1所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其首先设置多任务耦合关系矩阵,以某一智能体的多任务策略网络再以各智能体构成多智能体耦合关系矩阵,根据实际应用情况判断7.根据权利要求6所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其;其中,d(S,G)表示当前状态S到任务目6计算评价函数f(srx1,Px1,G),并选择使得评价函数值最优的8.根据权利要求1所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其',,···,F,'};行的动作;利用梯度下降优化方法更新任务表示向量z,使得新任务在任务空间中得以保Q(v,c)non-reraerve=fhon-inreraerve(v,c)(17)Q(v,c)non-ireraetve表示在非交互式环境下,当前状态v和执行动作c之间的Q值;fnon-interactive(v,c)表示在非交互式环境下,当前状态v和执行动作c之间的函数关系;Q(v,c)inreraetve=fsharea(o,z)(18)进行任务耦合规划;79.根据权利要求8所述的一种混合博弈下高阶思维发展的多智能体任务规划方法,其89[0019]将捕获到的高阶思维数据经过预处理后,输入到多智能[0024]每个智能体各自维护了一个值网络,首先独立地对其所观测到的高阶思维深[0027]通过计算V值来衡量每个接收到的意向动作信息对其决策过程的潜在影响,具体[0034]优选的,步骤S12中通过循环依赖去除算法,检测和消除依赖关系图中的循环依[0036]visited(r)是一个状态标记,用于指示节点r是否已被访问过,visited(r)=作ai;相反,若某智能体不被任何智能体所依赖[0051]为了提升智能体在非平稳环境下的策略有效性,结合深[0056]其中,T表示智能体i的策略,T-i表示除了智能体i的其他智能体[0062]在训练过程中,通过神经网络价值函数来评估智能体在si和动作at,利用神经网络价值函数k(s,a,sw)输出此时刻的评估值;定义一个损失函数ROU(s,a,np)表示由辅助函数nr产生的外部奖励,表示调节内外部奖励相对重要性的权和C中提取出与当前智能体当前任务紧密相关的信息,并将其输入至策略网络的评价网络[0080]其中,d(S,G)表示当前状态S到任务目标G的距离,c(P)表示任务规划P的成本,;[0089]首先设定一系列源任务,并将其初始化为相互正交的向量集合,[0091]Q(v,c)non-reraerve=fhon-inreraerve(v,c)(17)[0094]Q(v,c)Inreraetve=fsharea(o,z)(18)[0096]最后,将计算得到的Q值与任务表示相结合,输入到混合网络中进行新任务的生了量化源任务与新任务之间的迁移潜力,采用一种基于任务特征相似度的迁移评估模型,中的第h个任务规划,fie表示第k*个任务特征的提取函数,该函数将任务规k*个特征空间,sim()表示特征间的相似度度量,用于计算两个特征向量之间的相似[0108]因此,本发明采用上述一种混合博弈下高阶思维发展的多智能体任务规划方所收集的学习者高阶思维相关数据中的高级思维特征相较于之前呈现出显著的上升趋势。[0112]图3为本发明混合博弈启发下面向学习者高阶思维的多智能体任务耦合规划示意[0113]以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本体依据一定的规则与约束,在策略空间中采取包含纯策略与混合策略的多样化行动方案,[0129]将捕获到的高阶思维数据经过预处理后,输入到多智能的局部观测p,,还结合接收到的其他智能体的意向动作信息suma=(a,ay,…,ay-r,ay),评[0136]通过计算V值来衡量每个接收到的意向动作信息对其决策过程的潜在影响,具体[0145]visited(r)是一个状态标记,用于指示节点r是否已被访问过,visited(r)=行DFS,若w已被访问且仍在栈中(即visi作ai;相反,若某智能体不被任何智能体所依赖[0161]为了提升智能体在非平稳环境下的策略有效性,结合深[0166]其中,T表示智能体i的策略,T-i表示除了智能体i的其他智能体[0172]在训练过程中,通过神经网络价值函数来评估智能体在更新规则公式为:ROU'(s,a,n)表示由辅助函数nt产生的外部奖励,表示调节内外部奖励相对重要性的一个a,xb的多任务耦合关系矩阵,其中Isos和C中提取出与当前智能体当前任务紧密相关的信息,并将其输入至策略网络的评价网络[0191]其中,d(S,G)表示当前状态S到任务目标G的距离,c(P)表示任务规划P的成本,;[0200]本实施例基于多智能体迁移策略对学习者高阶思维任务[0207]Q(v,c)non-reraerve=fhon-inreraerve(v,c)(17)[0210]Q(v,c)Inreraetve=fsharea(o,z)(18)[0211]表示在交互式环境下,当前状态v和执行动作c之间的Q[0212]最后,将计算得到的Q值与任务表示相结合,输入到混合网络中进行新任务的生了量化源任务与新任务之间的迁移潜力,采用一种基于任务特征相似度的迁移评估模型,中的第h个任务规划,fie表示第k*个任务特征的提取函数,该函数将任务规划映射到第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网诊室工作制度
- 人民日报社工作制度
- 企业青年团工作制度
- 中医卫生室工作制度
- 信息技术部工作制度
- 体育馆防火工作制度
- 办公室各类工作制度
- 加拿大食堂工作制度
- 劳动课教师工作制度
- 区妇幼保健工作制度
- 2025年高级执法资格考试真题及答案
- 机械原理(第2版)课件 第5章 平面机构的运动分析
- 医院HIS规划方案医院信息系统
- 2025年职业技能鉴定考试(行政办事员政务服务办事员初级)历年参考题及答案
- 无机化学实验试题及答案
- 肿瘤患者评估
- 城市道路施工安全操作规程
- 建筑设备教案(2025-2026学年)
- 乡村经济振兴与体育旅游资源融合发展
- 建筑工程质量整改报告范本
- T/CRRA 2301-2024国有企业废旧物资交易平台服务流程管理规范
评论
0/150
提交评论