CN118896610B 基于深度强化学习的无人机路线规划方法及系统 (云南民族大学)_第1页
CN118896610B 基于深度强化学习的无人机路线规划方法及系统 (云南民族大学)_第2页
CN118896610B 基于深度强化学习的无人机路线规划方法及系统 (云南民族大学)_第3页
CN118896610B 基于深度强化学习的无人机路线规划方法及系统 (云南民族大学)_第4页
CN118896610B 基于深度强化学习的无人机路线规划方法及系统 (云南民族大学)_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

A,2022.03.18A,2023.04.04A,2024.03.15A,2024.06.11基于深度强化学习的无人机路线规划方法本发明提出基于深度强化学习的无人机路于固定翼无人机的含约束的无人机自主探索的部分可观测马尔可夫决策过程模型对固定翼无可夫决策过程模型构建基于深度学习的路线规划模型,并采用PPO算法对所述路线规划模型进从局部观测到值函数和策略函数的深度神经网2S2、构建基于固定翼无人机的含约束的无人机S3、根据部分可观测马尔可夫决策过程模型构建所述基于梯度的柏林噪声先生成覆盖全图的晶格矩形网格,并在每;;使用单个频率产生噪声,然后通过叠加多个不同频率的噪声进;;;;在对每个点上的高程数据采用8位二进制整型变量进行记录,均匀量化出256级高程3截取与无人机起飞的起始点位于同一水平面的三维环境制作布;根据的结果中的最大值判断该候选点是否为可行起始飞行点;若最大值不无人机自主探索的部分可观测马尔可夫决策过程模型包括飞行动力学约束模型和无人机;;;;无人机动作空间模型根据无人机的相对航向角建立离散动作空间与连续动作空间;其中,所述离散动作空间是将无人机最大航向角范围进行分离散化,得到有限可数的动作集合;4路线规划模型构建步骤包括构造局部观测和从局部观测到值函数和策略函数的深度神经其中,所述局部观测使用光线投射法来模拟无人机得到的扇入的状态为无人机观测局部地图恢复的原始局从局部观测到值函数和策略函数复杂的映射关系能够通过深度神经网;示先前的策略,ATgoia(s,a)表示状态下采取动作a的优势函数,p:表示重要性采样;着新策略对于旧策略相对变化的幅度超过1+e时就输出1+e,小于1-e时就会输出1-e路线规划模型的权重参数重要性采样p:(9)计算如下:;观测马尔可夫决策过程模型对固定翼无人机的飞路线规划优化模块,用于根据部分可观测马尔可夫决策过程所述基于梯度的柏林噪声先生成覆盖全图的晶格矩形网格,并在每5;;使用单个频率产生噪声,然后通过叠加多个不同频率的噪声进;;;;在对每个点上的高程数据采用8位二进制整型变量进行记录,均匀量化出256级高程截取与无人机起飞的起始点位于同一水平面的三维环境制作布;根据的结果中的最大值判断该候选点是否为可行起始飞行点;若最大值不678[0010]S3、根据部分可观测马尔可夫决策过程模型构建基于深每个晶格点上的梯度向量与距离向量的点积求累和即可得到P点的随机噪声值,Perlin计值的频率和振幅进行的柏林噪声运算,即第k个被叠加的噪声函数,N表示倍频数,9yy)分别表示无人机在当前时刻的位置与下一时刻的位置,pu、pi分别为表示无人机在当前时刻的方向与下一时刻的方向。[0049]从局部观测到值函数和策略函数复杂的映射关系能够通过深度神经网络进行拟[0055]其中,θ表示路线规划模型的权重参数,τ表示根据当前策略探πθ索得到的Tau表示先前的策略,Aue(s,a0表示状态st下采取动作at的优势函数,ρt表示重要性采t着新策略对于旧策略相对变化的幅度超过1+ε时就输出1+ε,小于1_ε时就会输出1_ε,;E表分可观测马尔可夫决策过程模型对固定翼无人[0063](1)本发明使用柏林噪声自主构建了三维非结构化仿真环境并恢复布尔型地图缺[0064](2)为了让学习到的自主探索策略具有更好的鲁棒性,本发明采用飞行动力学约[0065](3)本发明借助深度神经网络强大的特征表示能力,拟合强化学习的动作价值函[0066](4)本发明采用基于深度强化学习的方法,将耗时的训练过程与实时的决策过程效率。本发明运用深度强化学习的方法来解决三维不确知环境下无人机自主探索的问题,[0067]利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限值的频率和振幅进行的柏林噪声运算,即第k个被叠加的噪声函数,N表示倍频数,归一化的随机地图及其对应的数字高程图如yy)分别为无人机在当前时刻的位置与下一时刻的位置,分别为无人机在当前时刻的方向与下一时刻的方向。统的性能和策略的学习至关重要,直接影响着智能体在环境中的行为和奖励结果的获取。动作空间根据性质可以分为离散动作动作空间、连续动作动作空间和混合动作动作空间,[0115]S3、根据部分可观测马尔可夫决策过程模型构建基于深法。本部分就是在考虑了各种约束的POMDP数学模型(部分可观测马尔可夫决策过程模型)家,是一种结合策略梯度和时序差分学习的强化学习方法,其中演员是指策略函数πθ(a|[0121]从局部观测到值函数和策略函数复杂的映射关系能够通过深度神经网络进行拟无人机航向角变化幅度过大而影响无人机的安全飞行,本发明将离散状态下动作空间A等[0125]从局部观测到值函数和策略函数复杂的映射关系能够通过深度神经网络进行拟奖励函数定义了问题的目标,通过给予智能体在每个时间步采取某个动作后的即时奖励,(PPO_Penalty)和近端策略优化裁剪(PPO_Clip)。PPO_Clip相比于PPO_Penalty效果更好,[0134]其中,θ表示路线规划模型的权重参数,τ表示根据当前策略探πθ索得到的Tau表示先前的策略,Aad(s,a,)表示状态st下采取动作at的优势函数,ρt表示重要性采t着新策略对于旧策略相对变化的幅度超过1+ε时就输出1+ε,小于1_ε时就会输出1_ε,;E表代表着新策略对于旧策略相对变化的幅度超过1+ε时就输出1+ε,小于1_ε时就会输出1_ε,当得到的探索轨迹,同时也用圆点标注了起始点和终止点的位置。图10(c)为奖励曲线的变[0140]如图11所示,本发明实施例还提供了基于深度强化学习[0141]地图构建模块101,用于利用基于梯度的柏林噪声和数字高程图构建三维非结构[0142]约束模型构建模块102,用于构建基于固定翼无人机的含约束的无人机自主探索[0143]路线规划优化模块103,用于根据部分可观测马尔可夫决策过程模型构建基于深用了适用于精细控制任务与高维动作空间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论