【《基于深度强化学习的AUV避障方法分析案例》2600字】

上传人：E*** IP属地：湖北上传时间：2025-12-10 格式：DOCX 页数：7 大小：374.20KB 积分：10.8 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于深度强化学习的AUV避障方法分析案例目录TOC\o"1-3"\h\u24497基于深度强化学习的AUV避障方法分析案例 1138291.1AUV智能避障算法框架 1218731.2AUV的设计规划 369471.2.1AUV单步决策位置的计算 3319011.2.2环境状态表示 495171.2.3评价函数的设计 6对于传统的路径规划方式，无法穷举AUV在未知水域面临的复杂环境，并且会涉及到大量级的计算，很难做到从状态到动作的端到端快速反应决策。本文将利用深度强化学习算法，让AUV能够从己学习到的探索过程中，自发建立一套决策模型，并在以后的学习过程中，对此模型加以完善。此外，如上所述，本文要求算法具有对未知情况的泛化处理能力，并且要做到实时的端到端决策。1.1AUV智能避障算法框架图3-1双神经网络算法结构示意图本文拟采用的算法框架如图3-1所示，图中的DQN算法是一种基于Q-learning的实时在线学习方法，它可以支持智能体在未知环境的探索过程中，通过不断的试错来更新自身的知识库。图3-2展示的便是DQN算法的伪代码。DQN的训练过程可概括为以下过程：1.初始化记忆池D，并将其容量设为N。主网络的状态-动作值函数的初始化依据随机权值θ，而目标网络的参数θ'=θ。在AUV避障的设计中，状态s定义为AUV遭遇的障碍物信息与姿态信息，并将其初始状态s0。2.依据AUV所处状态输出需要执行的动作a，动作的选择以概率方式进行。动作a的选择策略采用ξ贪心策略，以生成的随机数β为参考标准。若ξ<β，则在动作空间中等可能性地选择输出动作；当ξ>β时，根据主网络在st下的预测值所对应的输出层最大Q值选择输出动作at。1.伴随at的输出，AUV会转移到下一状态st+1图3-2Q-learning算法伪代码当记忆池D中的样本数量达到预先设定的阈值θ后，训练模型开启。训练过程如下所示，于记忆池中抽取batch_size个数量的样本，来构成训练集合。将每个样本中的st+1输入到目标网络中，此网络会输出全部动作所对应的Qst+1,a值函数，在值函数集中选取a'所对应的最大值函数argmaxa'计算损失函数，并通过梯度下降法来更新网络的权值。当每次学习过程结束时，ε更新为ε+∆ε，以此增加智能体选择最优动作的概率。学习次数达到某一固定值时目标网络的权值会自动更新为值网络权值θ。1.2AUV的设计规划本文设计的是一种端到端的AUV规划系统，AUV会根据自身所在的环境状态，依靠声纳获得障碍物的贪睡，以获得马尔可夫四元级s,a,p,r。规划系统的大致框架如图3-3所示。图3-3AUV规划系统结构图1.2.1AUV单步决策位置的计算本文拟研究的是AUV的二维运动问题，即考虑的是AUV预先对环境一无所知的前提下，通过对周围环境的探索，通过端到端式地从“看到”到“行动”有反应式决策方法，从已有的训练经验中，获得最优的学习能力，以提高对未知环境的适应能力。AUV的动力学处理如图3-4所示，图3-4AUV平面运动模型AUV在此处被处理为一个质点，XR,YR是auv中心点在大地坐标系下的坐标，X−Y则是大地坐标系，AUV的航向角可以分为5个层级，分别是0，π9,πXR+1YR+1AUV会根据自学习到的策略进行状态的迁移，从而使其航向角发生变化，由式（3-1）（3-2）可以确定下一步的目标位置，从而构成了最终的规划路径。

1.2.2环境状态表示在AUV对周围环境都是未知的情况下，其状态通过相对位置信息。在全局环境未知的情况下，相对位置法基于栅格法的固定位置来表示智能体来说，其不必对每个未探索到的地图进行一次模型训练，因而此种表示方法更具有通过用性。特征提取是机器学习的一个重要领域，能够较为完善地对样本特征进行提取，而这也正是AUV能够正确决策并成功避障的关键。在本文中，AUV的环境提取特征主要包括：1.AUV自身的航向信息；2.AUV与障碍物的距离及相对位置信息；1.在大地坐标系下，AUV与目标点所呈现的夹角信息。现定义环境状态向量为sd其中AUV所携带的声纳传感器的扫描范围为其运动正前方180°的范围，声纳传感器的模型如图3-5所示，将0°表示为AUV的正前方向，剩余的7个角度则作为AUV获取障碍物信息的来源。如果侦测到障碍物，就会返回AUV与障碍物的最近距离d.在本文中，将声纳的探索的20m之内的距离定义为有效信息，并对此进行相关的距离量化处理（若0<d<1，则d=1；若1<d<2，则取d=2，可以此类推）。环境状态向量的部分参数可以用七个方向上AUV与障碍物的距离来表示。此外，AUV的环境信息还应包含AUV信息，障碍物与目标点的信息，其模型图如图3-4所示。其中dt表示的为AUV在各个方向与障碍物之间的距离，i=1,2,3,4,5,6,7;dg表示的是AUV与目标点间的距离测量值；α表示的则是AUV的航行方向与目标点方向连接所呈的夹角，ΨR图3-5智能体环境信息描述可以求出，AUV在t时刻的行进方向α=θrg−ag=fx式3-3表示的为AUV的前进方向与目标点之间夹角的量化结果，描述的是AUV自身与目标点的相对位置关系。定义0°为AUV行进方向与目标点连线方向，逆时针为正方向，相应地顺时针为负方向，其相对位置关系如图3-6所示。图3-6AUV运动方向与目标间的相对位置关系基于以上的讨论，可将AUV状态表示为向量sd1.2.3评价函数的设计评价函数设计的优劣可以影响到智能体学习的速度与质量，智能体会通过当前的评价函数来决定此后的动作输出优先级，若当前执行的动作为正向激励，则此后智能体选择此动作的概率会增大。依据本文中AUV所要执行的避障任务及AUV处于未知环境的前提，设计了一个基于避障模型的评价函数，以尽可能短且

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于深度强化学习的AUV避障方法分析案例》2600字】

文档简介

温馨提示

最新文档

评论

【《基于深度强化学习的AUV避障方法分析案例》2600字】

文档简介

温馨提示

最新文档

评论

相关文档