CN113919482B 智能体训练方法、装置、计算机设备和存储介质（上海浦东发展银行股份有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-30 格式：DOCX 页数：51 大小：1.97MB 积分：9.6 举报 版权申诉

CN113919482B 智能体训练方法、装置、计算机设备和存储介质（上海浦东发展银行股份有限公司）_第2页

CN113919482B 智能体训练方法、装置、计算机设备和存储介质（上海浦东发展银行股份有限公司）_第3页

CN113919482B 智能体训练方法、装置、计算机设备和存储介质（上海浦东发展银行股份有限公司）_第4页

CN113919482B 智能体训练方法、装置、计算机设备和存储介质（上海浦东发展银行股份有限公司）_第5页

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

号US2022027743A1,20222获取多个经验动作数据，所述经验动作数据为进化种群中交互学习的经验动作；所述经验动作数据包括所述目标样本智能体交互环境的环境状态，根据所述奖励信息和预设的损失函数，对所述初始强化学习智能若所述初始强化学习智能体更新后的网络参数与目标网络参数通过进化策略对所述进化种群中的第一样本智能体进行繁殖处理，获根据所述第一样本智能体、所述第二样本智能体根据所述进化策略预设的第一适应度函数，将所述第二子代中对所述第二样本智能体中各样本智能体组进行交叉处理，得到第三子根据所述进化算法预设的第二适应度函数，将所述第四子代中将各所述目标样本智能体与环境交互学习的经验动作数据，以经验元组的3针对所述预设数量的经验元组中的各经验元组，根据所述初始强根据所述初始强化学习智能体响应于各所述经验元组中的下一环境状态输出的动作所述根据所述奖励信息和预设的损失函数，对所述初始强化学习智能根据所述奖励信息和所述均方差损失函数，通过梯度神经网络根据更新后的奖励参数和所述梯度策略损失函数，通过梯度神经网按照预设的同步周期，将所述强化学习智能体的网络参数复制至所述进经验获取模块，用于获取多个经验动作数据，所述能体输出的动作是控制机器人或自主交通工具的控制输入的空动作训练模块，用于基于所述多个经验动作数据，获取参数更新模块，用于根据所述奖励信息和预设的损失函数，对所被处理器执行时实现权利要求1至9中任一项所述的4[0002]深度强化学习(Dee[0003]深度强化学习的关键是：通过一个智能体(Agent)不断与环境进行交互来获得训5[0030]根据初始深度学习智能体响应于各经验元组中的下一环[0033]根据奖励信息和预设的损失函数，对初始强化学习智能67学习智能体的网络参数，直至初始强化学习智能体更新后的网络参数与目标网络参数相8[0074]在本申请中，进化种群中的样本智能体和初始强化学习[0075]在一些实施方式中，上述智能体(包括进化种群中的样本智能体和深度强化学习中待训练的初始强化学习智能体)的交互环境是模拟环境并且智能体被实现为与模拟环境动作可以是控制模拟用户或模拟交通工具的可能控制输入的空[0076]在一些实施方式中，上述智能体(包括进化种群中的样本智能体和深度强化学习中待训练的初始强化学习智能体)的交互环境是现实世界环境并且智能体是与现实世界环值可以具有变化的范围。例如，环境状态可以包括识别智能体的关节的当前位置(例如角法反复从循环重播缓冲区中学习。这种机制可以从每个单独的经验中最大程度地提取信9步地，将多个目标样本智能体与环境交互学习的经验动作存储在一个空的循环重播缓冲[0081]在一些实施方式中，进化种群中的样本智能体采用Actor-Critic(行动者神经网′神经网络的当前环境状态和输入至目标Actor神经网络的下一环境状态是连续的环境状据Critic神经网络更新后的参数对Actor神经网络的参数θπ进体的网络参数进行更新；若初始强化学习智能体更新后的网络参数与目标网络参数相同，深度强化学习的学习效率和效果，从而更好的控制深度强化学习智能体完成连续控制任[0094]针对深度强化学习存在的三个缺陷，关于与动作相关的短时任务具有稀疏的奖励，以及超参数敏感性和脆弱的收敛特性的问题，本申请采用进化算法(Evolutionary一种特殊的控制器设计形式，在深度网络学习中它通过扰动模型内部参数,获得多个候选ψψ理高维优化问题提供了一种有效的解决方法。一些进化策略的机制增加了搜索的鲁棒性。[0139]需要说明的是，本申请为了增加突变的多样性，预先定义一个Ornstein-一代新群体；(μ,λ)选择是从λ个第二子代中确定性地择优桃选μ个个体(要求λ>μ)组成下个样本智能体组包括第二样本智能体中任意三子代作为种群精英(该种群指的是所有第三子代所构成的新种群)，不受突变处理的影[0166]基于上述任一实施例，使用循环重播缓冲区中的经验元组来训练初始强化智能Gradient，DDPG)实例化的，因此，本申请中的初始强化学习智能体采用DDPG中的Actor-Critic(行动者神经网络-评价者神经网络)双网应于各经验元组中的当前环境状态输出的动作数据，获取初始强化学习智能体的第一奖[0173]步骤720：根据初始深度学习智能体响应于各经验元组中的下一环境状态输出的[0174]在一种可能的实现方式中，目标Actor神经网络响应于各经验元组中的下一环境状态，并基于自身初始化的网络参数，选择初始强化学习智能体输出的动作数据。目标θQ′′π表示目标Actor神经网络的目标网络参数。学习智能体响应于各经验元组中的当前环境状态和下一环境状态输出的动作数据的奖励[0182]进一步地，根据上述实施例获取初始强化学习智能体输出的动作数据的奖励信τθQ+(1-τ)θQ′(6)′[0200]针对上述图2-8所示的智能体训练方法，本申请提供的智能体训练过程可以参见络的反向传播对Actor神经网络和Critic神经网络的网络参数不断更新，直至初始强化学进化种群的popπmodω=0，则将强化学习智能体中Actor神经网络的网络参数复制到种群中，更新进化种群中最差的策略函数π,使得进化种群中的样本智能体的Actor神经网络的不断发展的样本智能体种群中。同步的频率控制着从强化学习智能体到进化种群的信息体学到的策略渗透到进化种群中的过程也有助于稳定学习并使其更[0221]上述图10所示步骤的具体实现过程和有益效果可参见上述实施例，在此不再赘而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交体的网络参数进行更新；若初始强化学习智能体更新后的网络参数与目标网络参数相同，算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113919482B 智能体训练方法、装置、计算机设备和存储介质（上海浦东发展银行股份有限公司）

文档简介

温馨提示

最新文档

评论

CN113919482B 智能体训练方法、装置、计算机设备和存储介质 （上海浦东发展银行股份有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113919482B 智能体训练方法、装置、计算机设备和存储介质（上海浦东发展银行股份有限公司）