CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置（京东城市(北京)数字科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-18 格式：DOCX 页数：37 大小：1.02MB 积分：9.6 举报 版权申诉

CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置（京东城市(北京)数字科技有限公司）_第2页

CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置（京东城市(北京)数字科技有限公司）_第3页

CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置（京东城市(北京)数字科技有限公司）_第4页

CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置（京东城市(北京)数字科技有限公司）_第5页

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

司地址100086北京市海淀区知春路76号(写基于超参优化的深度强化学习模型的训练本申请公开了一种基于超参优化的深度强第一深度强化学习模型分别对应的训练评价指第二深度强化学习模型对应的多个目标超参数超参数优化与模型训练结合起来实现深度强化2采用所述初始超参数组合中的多个超参数训练所述多个第一深度根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进采用所述目标超参数组合之中的多个超参数训练所述第二深度强化学习模型基于所述初始超参数组合中的每一组超参数分别对第一强化学习及从所述目标超参数集合之中选取至少部分超参数，并根据所述至少部分在训练所述第二深度强化学习模型的次数达到设定迭代次数时，深度强化学习模型对应的多个目标超参数对所述初始超参数组合进行如果所述预测值和标定值之间的损失值满足损失阈值，则将排序在前的所述设定个数的第一深度强化学习模型作为所述第二深度强化学习模37.一种基于超参优化的深度强化学习模型的第一训练模块，用于采用所述初始超参数组合中的多个超参第一筛选模块，用于根据所述训练评价指标从多个第一深第一处理模块，用于采用与所述第二深度强化学习模型第二训练模块，用于采用所述目标超参数组合之中的多个第二训练单元，用于基于所述初始超参数组合中的每一组超第一添加单元，用于将所述多个目标超参数补充添加至所述超参数第一选取单元，用于从所述目标超参数集合之中选取至少第二处理模块，用于在训练所述第二深度强化学习模型的次数达到设定迭代次数时，重新采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进第一训练单元，用于采用所述目标超参数组合之中的多个第一确定单元，用于如果所述预测值和标定值之得到的所述第二深度强化学习模型作为所述目标深度强第一排序单元，用于根据所述训练评价指标，对所述多个第二确定单元，用于将排序在前的所述设定个数的4所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的基于超参优化14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的基于超参优化的深度强化学习模型的训练方行时实现权利要求1-6任一项所述的基于超参优化的深度强化学习模型5[0007]采用所述初始超参数组合中的多个超参数训练所述多个[0008]根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化[0009]采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组6述一方面实施例所述的基于超参优化的深度强化学习模[0020]本申请实施例的技术方案，根据多个初始超参数组合和[0021]应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特[0023]图1为本申请实施例提供的一种基于超参优化的深度强化学习模型的训练方法的[0028]图6为本申请实施例提供的另一种基于超参优化的深度强化学习模型的训练方法[0029]图7为本申请实施例提供的一种将训练方法应用于工业领域的火力发电系统的示[0030]图8为本申请实施例提供的一种基于超参优化的深度强化学习模型的训练装置的[0031]图9为用来实现本申请实施例的基于超参优化的深度强化学习模型的训练方法的7[0033]下面参考附图描述本申请实施例的基于超参优化的深度强化学习模型的训练方[0036]图1为本申请实施例提供的一种基于超参优化的深度强化学习模型的训练方法的[0038]本申请实施例以基于超参优化的深度强化学习模型的训练方法被配置于基于超使该电子设备可以执行基于超参优化的深度强化学习8随机采样得到多个不同的初始超参数组合(例如8组)。可根据不同的应用场景获取多个深优，找到优化策略。Off-lineDeepRL技术可包括BCQ(Batch-ConstraineddeepQ-得到与多个第一深度强化学习模型分别对应的[0052]需要说明的是，训练评价指标的的大小范围可以是大于或者等于0且小于或者等9练评价指标可以筛选出第二深度强化学习模型；也可能不存在满足需求的训练评价指标，[0058]需要说明的是，超参数的优化处理的基本方式可以分为并行搜索(parallel第一深度强化学习模型，先得到与多个第一深度强化学习模型分别对应的训练评价指标，然后根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型，采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理后，应的多个目标超参数中的不属于超参数集合的目标超参数，补充添加至超参数集合之中，化学习模型对应的多个目标超参数对初始超参数[0087]S401，采用目标超参数组合之中的多个超参数迭代训练前的k个第一深度强化学习模型作为第二深度强化学习模型，从而完成第二深度强化学习的指标性能需求确定设定个数k，然后根据训练评价指标筛选出k个第二深度强化学习模量的训练资源(如GPU(GraphicsProcessingUnit，图形处理器)，内存，CPU(Central保证在有限的训练资源下使用尽量短的计算时间来达[0108]即在本申请的一个实施例中，上述步骤S102中的训练多个第一深度强化学习模[0110]基于上述各个实施例，下面结合图6描述本申请一个示例的基于超参优化的深度[0116]第三步，基于初始超参数组合中的每一组超参数分别对强化学习模型(即第一深果往往会受到超参数设置的影响。此时引入超参优化方法，可以帮助训练出优化效果更好[0124]本申请实施例还提出了一种基于超参优化的深度强化学习模型的训练装置，图8块830，用于根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学[0128]在本申请的一个实施例中，基于超参优化的深度强化学习模型的训练装置800还则将训练得到的第二深度强化学习模型作为目标深度强化学其他具体实施方式可参见前述基于超参优化的深度强化学习模型的训练方法的具体实施[0135]图9是根据本申请实施例的基于超参优化的深度强化学习模型的训练方法的电子件(包括存储器910和处理器920)的简称VESA)局域总线以及外围组件互连(PeripheralComponentInterconnection；简称[0139]电子设备900典型地包括多种计算机系统可读介质。这些介质可以是任何能够被[0140]存储器910可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储系统960可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动动器，以及对可移动非易失性光盘(例如：光盘只读存储器(CompactDiscReadOnly品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功[0141]具有一组(至少一个)程序模块970的程序/实用工具980，可以存储在例如存储器术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置（京东城市(北京)数字科技有限公司）

文档简介

温馨提示

最新文档

评论

CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置 （京东城市(北京)数字科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113723615B 基于超参优化的深度强化学习模型的训练方法、装置（京东城市(北京)数字科技有限公司）