CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）

上传人：1*** IP属地：山西上传时间：2026-04-04 格式：DOCX 页数：26 大小：1014.19KB 积分：10.2 举报 版权申诉

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）_第2页

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）_第3页

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）_第4页

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）_第5页

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SystemsBasedQ-Lea一种基于强化学习的多智能体追逃博弈方本发明公开一种基于强化学习的多智能体本发明通过自博弈的方式实现多智能体追逃博利用模糊学习和Q学习对于环境的探索和利用，据规则产生的纳什均衡解具有全局最优性和鲁2对当前追逃双方的相对位置状态进行模糊化处理，确定所述相对位置选取追逃双方的追逃博弈训练模型状态变量，并将所述追逃博弈根据当前时刻的所述追逃博弈训练模型状态变量构建当前时刻的所述追逃博弈训练基于所述时间差分误差更新所述局部关联函数得到下一以所述下一时刻的Q值函数作为模糊推理设备的输出，采用梯度下降法更新所述模糊将所述动作输出输入追逃博弈训练模型得到下一时刻的基于给出的模糊规则中局部关联函数的更新规则获取返回执行“选取追逃双方的追逃博弈训练模型状态变量，并将所3模糊化处理模块，用于对当前追逃双方的相对位置状态进行模糊化处理，对位置状态在强化学习设备中所处的模糊状态得到当前控制量确定模块，用于利用去模糊化算法对所述最优输入状态4线性和平面动力模型下的多人追逃博弈及考虑不确定性因素的追逃微分[0008]基于所述最大Q值函数，在所述当前模糊状态变量下按照最优值选择输入状态变[0012]根据当前时刻的所述追逃博弈训练模型状态变量构建当前时刻的所述追逃博弈[0016]以所述下一时刻的Q值函数作为模糊推理设备的输出，采用梯度下降法更新所述[0018]采用加权平均法对输入的状态变量进行解模糊化操作，得到下一时刻的动作输5述相对位置状态在强化学习设备中所处的模糊状态得到当前最优值选择输入状态变量，得到追逃博弈训练模型在当前状态下的最优输入状态变量策[0039]因本发明提供的上述设备实现的技术效果与本发明提供的基于强化学习的多智67[0062]步骤2、根据当前时刻的追逃博弈训练模型状态变量构建当前时刻的追逃博弈训练模型状态变量及其邻接状态变量的局部关联函数q(i,a);所述局部关联函数q(9,a)即t更新模糊推理设备的参数Θt+1。)输入追逃博弈训练模型得到到下一时刻的模型状态变[0070]步骤10、基于给出的模糊规则中局部关联函数的更新规则获取下一时刻的回报8环境产生了反馈奖励rt+1给智能体。智能体基于新的状态st+1和反馈奖励rt+1执行新的动作p状态变量的N个分量，N依据实际追逃博弈训练模型确定，A代表模型动作变量集，{a1,9i,i＝1...N表示追逃双方的追逃博弈训练模型状态变量，Y,i=态变量和输入状态变量对应三个高斯隶属度函数其中xi代表状算时间差分误差.,更新关联函数，并求出下一时刻Q依据步骤3_2更新Q值模糊推理系统的参数为Θt+1；[0111]步骤4_6：利用Ut+1(St)带入步骤1中构建的追逃博弈训练大Q值函数Qi;[0120]对上述实施例二和实施例三中提供的基于动态模糊Q学习的多智能体追逃博弈方pn(==5,动作集p定相对位置状态在强化学习设备中所处的模糊状态得到[0133]Q值函数确定模块用于根据当前模糊状态变量和已训练完成的关联函数，得到最[0134]变量策略确定模块用于基于最大Q值函数，在当前模糊状态变量下按照最优值选[0135]控制量确定模块用于利用去模糊化算法对最优输入状态变量策略进行去模糊化

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）

文档简介

温馨提示

最新文档

评论

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备 （西北工业大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）