版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
)其中,为更新系数,一般取0.01。综上,DDPGwTC的算法流程如下:1.随机初始化价值网络和策略网络的权值和。2.初始化目标网络和的权值,。3.初始化经验回放池。4.forepisode=1,Ndo1)初始化随机噪声。2)初始化状态值。3)forepisode=1,Mdoa.根据当前带有噪声的策略计算动作。b.执行动作得到新的状态。c.根据5个时间段内的状态数据得到当前状态的任务类型。d.根据得到奖励。e.将交互数据存放到经验回放池中。f.从中随机采样组交互数据。g.设。h.最小化损失函数更新价值网络:i.计算样本的策略梯度更新策略网络:j.更新目标网络:endforendfor1.4网络训练1.4.1任务分类器网络训练在训练DDPGwTC算法前需要对任务分类器进行预训练,使其能够在训练DDPGwTC算法时分类出飞行器所处的任务阶段。通过对前文所得的变体飞行器系统进行仿真,获取1000份飞行器的飞行状态数据作为训练样本,其中包括各个任务阶段、不同高度速度下、不同翼展后掠角变化情况下的数据,首先把训练样本按照6:2:2的比例分为训练集、验证集和测试集,经过反复调试设置批尺寸为60,学习率为0.1,训练周期为100。最后得到的结果如REF_Ref68192366\h图1.5所示,训练好的网络在测试集上能够达到94.05%的准确率。图STYLEREF1\s5.SEQ图\*ARABIC\s15任务分类器网络训练结果图1.4.2DDPGwTC算法训练本节将前文所得的变体飞行器控制系统作为环境模型,基于MATLABReinforcementLearningToolbox软件平台进行算法训练,硬件采用NVIDIAGeForceRTX2070型号的GPU。训练过程为:在每一轮训练开始时随机设置一段时长为400s的飞行轨迹,变体飞行器按照预设的飞行轨迹飞行,期间智能体根据飞行器所处的飞行阶段调整外形的变化策略,最后直到飞行器完成这段轨迹的飞行任务视为结束一轮训练,并得到累积回报。根据已有研究的调参经验REF_Ref68511414\r\h[43],经过反复调试,设置DDPGwTC算法的超参数如REF_Ref68190876\h表1.1所示,Actor网络和Critic网络的结构如REF_Ref68192382\h图1.6、REF_Ref68192396\h图1.7所示。表STYLEREF1\s5.SEQ表\*ARABIC\s11DDPGwTC算法超参数表超参数值目标网络更新系数0.001Actor网络学习率0.0005Critic网络学习率0.001经验回放池容量106小批量样本数128折扣因子0.99最大幕数200图STYLEREF1\s5.SEQ图\*ARABIC\s16Actor网络结构图图STYLEREF1\s5.SEQ图\*ARABIC\s17Critic网络结构图经过200轮的训练,DDPG算法和DDPGwTC算法每一轮的累积回报如REF_Ref68192410\h图1.8所示。从图中可以看出未带有任务分类器的DDPG算法虽然收敛到一个稳定值,但是陷入了局部最优,而DDPGwTC算法收敛速度很快,在80次迭代时就已经收敛到奖励值较高的策略,且在后面的迭代过程中奖励值较为稳定。图STYLEREF1\s5.SEQ图\*ARABIC\s18DDPGwTC算法训练结果图1.5仿真实验为了验证DDPGwTC算法在处理变体飞行器外形决策时的效果,本节将训练好的智能体作为飞行器的外形控制器。设置飞行轨迹为:初始时飞行器以34m/s的速度在2000m高度巡航,50s时设置飞行器的速度为50m/s,120s时设置飞行器的速度为34m/s,170s时设置飞行器的高度为2050m,280s时设置飞行器高度为2000m,最后保持巡航状态至400s结束,高度和速度指令曲线如REF_Ref68192426\h图1.9所示。将训练好的深度网络运用到REF_Ref68192361\h图1.2所示的变体飞行器外形决策算法框架中进行飞行仿真,得到的速度及高度跟踪曲线如REF_Ref68192526\h图1.10和REF_Ref68192529\h图1.11所示,任务分类器输出曲线和飞行过程中的奖励值如REF_Ref68192520\h图1.12和REF_Ref68192523\h图1.13所示,REF_Ref68192532\h图1.14给出了变体飞行器的变形率曲线,相应的外形示意以小飞行器图标的形式标注在REF_Ref68192426\h图1.9所示的飞行时间段中。图STYLEREF1\s5.SEQ图\*ARABIC\s19飞行轨迹曲线及外形决策结果图STYLEREF1\s5.SEQ图\*ARABIC\s110速度跟踪曲线图STYLEREF1\s5.SEQ图\*ARABIC\s111高度跟踪曲线图STYLEREF1\s5.SEQ图\*ARABIC\s112任务分类器输出曲线图STYLEREF1\s5.SEQ图\*ARABIC\s113奖励曲线图STYLEREF1\s5.SEQ图\*ARABIC\s114变形率曲线由REF_Ref68192520\h图1.12可知,分类器输出的任务类型与预设的轨迹基本一致,说明任务分类器能准确地根据变体飞行器的飞行状态对其所处的任务阶段进行分类。REF_Ref68192523\h图1.13说明在任务类型发生变化时,智能体都会采取相应的动作使得飞行器获得的奖励值最大。REF_Ref68192532\h图1.14为智能体在飞行过程中采取的变形策略,在变体飞行器巡航、上升和减速阶段,智能体控制飞行器的机翼伸展并减小后掠角,在变体飞行器加速和下降阶段,智能体控制飞行器收缩机翼并增大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山东省荣成市高二化学下册期末考试模拟试卷【重点】附答案
- 2026年湖北省大冶市高二化学下册期末考试模拟考试卷附参考答案(满分必刷)
- 2026年辽宁省兴城市高二化学下册期末考试模拟检测卷(夺冠系列)附答案
- 2026年湖北省宜都市高二化学下册期末考试模拟卷及参考答案【满分必刷】
- 2025-2026学年服装店铺设计教学视频
- 2.1 地势西高东低 地形多种多样 第二课时 教学设计-2023-2024学年八年级地理上学期仁爱科普版
- 2025-2026学年吉他虚拟数字教学设计
- 2025-2026学年老马帽子教学设计
- 2025-2026学年俯卧式跳教学设计
- 医院医患沟通工作会议制度
- 2024年海南农垦旅游集团有限公司招聘笔试参考题库含答案解析
- 《新会计法解读》课件
- 幼儿园常见安全事故及其应对策略
- 悬挑式卸料平台监理实施细则
- 1956-1967国家科学技术发展远景规划纲要
- (JY-0001-2003)教学仪器设备产品一般质量要求
- 安全评价人员管理制度
- 20S517 排水管道出水口
- 土壤的物理性质课件
- GA 1810-2022城镇燃气系统反恐怖防范要求
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
评论
0/150
提交评论