版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种智能体的强化学习模型训练方法及系统本发明实施例提供了一种智能体的强化学述环境服务器发送的任意一个仿真环境包括的强化学习模型确定为训练得到的目标强化学习2接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据;其中,在所述经验数据的数据量不小于第一预设数据量的情况下,将在所述预设经验池中的数据量达到第二预设数据量的情况下,混合后的经验数据作为样本数据,并基于所述样本数据触发待训练强化学习模型的训练,将所述预测运行策略信息发送至所述环境服务器,以使:所述环接收所述环境服务器发送的各个仿真环境的状态信息,并基于所如果达到预设的模型训练结束条件,将当前的待训练如果未达到预设的模型训练结束条件,返回所述接收所所述在所述经验数据的数据量不小于第一预设数据量的情况下,将从所述环境服务器获取各个智能体之间的关联关在所述经验数据的数据量不小于第一预设数据量的情况下,针述关联关系,将与该智能体相关联的智能体的经验数据和该智能体的经验数据进行混合,基于所述各个仿真环境的状态信息,确定所述环境服务器中各如果所述环境服务器中各个仿真环境均运行完基于该待配置环境服务器的配置信息,创建所述中心训练3通过SSH连接向该待配置环境服务器发送仿真环境启动指令,以使该待配置环境服务基于所述传输端口信息,创建所述中心训练服务器与该仿真环境之间的信息传输通如果该待配置环境服务器中运行的仿真环境的数量未达到该待配置环境服务器对应的限制环境数量,返回执行所述通过SSH连接向该待配置环境服务器发送仿真环境启动指通过所述环境服务器中各个仿真环境与所述中心训练服收所述环境服务器发送的任意一个仿真环境包括的各基于所述预测运行策略信息中每个预测运行策略所携带的环境通过该仿真环境与所述中心训练服务器之间的信息传输通道,将该在所述预设经验池中的数据量未达到第二预设数据量的情况在预设经验池中的数据量达到第二预设数据量的情况下,从4接收所述中心训练服务器发送的所述预测运行策略信息,并使所通过SSH连接接收所述中心训练服务器发送的仿真环境启动指令;其中,为所述中心训练服务器基于所述环境服务器的配置信息所创建的与所述环境服务器之间在该仿真环境启动后向所述中心训练服务器返回该仿真所述中心训练服务器发送任意一个仿真环境包括的各个智能体的经所述接收所述中心训练服务器发送的所述预测运行策略信息,并使所述基于所述预测运行策略信息中每个预测运行策略所携带的环境标识5如果该仿真环境控制多个智能体,将该仿真环境包括的智如果该仿真环境运行结束,关闭该仿真环境与所述中心如果该仿真环境未运行结束,接收所述中心训练服如果该仿真环境控制多个智能体,确定该仿真环境控制如果该仿真环境控制的多个智能体为异步智能体,将该仿基于所述运行信息,确定该仿真环境与所述中心训练服务器之间如果该仿真环境与所述中心训练服务器之间的信息传输如果该仿真环境与所述中心训练服务器之间的信息传境与所述中心训练服务器之间的信息传输通道,向所述中心训练服务器发送环境销毁请接收所述中心训练服务器发送的环境销毁指令,并根据所述所述环境服务器,用于向所述中心训练服务器发送任意一个仿真环境基于该智能体的状态信息所确定的奖励信息和该智能体所在所述中心训练服务器,用于接收所述环境服务器发送的任意一个仿6所述环境服务器,还用于接收所述中心训练服务器发送的所述预测运使所述环境服务器中对应的仿真环境执行所述预测运行策略信息中对应的预测运行策略,7境实例数据库中的多组环境案例,基于采集的多组环境案例与服务端之间进行信息交互,态信息所确定的奖励信息和该智能体所在的仿8[0024]通过SSH连接向该待配置环境服务器发送仿真环境启动指令,以使该待配置环境练服务器返回该仿真环境对应的传输端口信[0026]如果该待配置环境服务器中运行的仿真环境的数量未达到该待配置环境服务器对应的限制环境数量,返回执行所述通过SSH连接向该待配置环境服务器发送仿真环境启运行的仿真环境的数量均达到该环境服务器对应的[0028]通过所述环境服务器中各个仿真环境与所述中心训练服务器之间的信息传输通9所述环境服务器发送的各个仿真环境的状态信息,并基于所述各个仿真环境的状态信息,连接为所述中心训练服务器基于所述环境服务器的配置信息所创建的与所述环境服务器[0042]在该仿真环境启动后向所述中心训练服务器返回该仿真环境对应的传输端口信务器与该仿真环境之间的信息传输通道,并更新所述环境服务器中运行的仿真环境的数[0044]通过所述环境服务器中各个仿真环境与所述中心训练服务器之间的信息传输通[0051]基于该仿真环境包括的智能体的经验数据,确定该仿真环境是否控制多个智能多智能体形式的经验数据,并通过该仿真环境与所述中心训练服务器之间的信息传输通[0054]如果该仿真环境未运行结束,接收所述中心训练服务器发送的预测运行策略信回所述接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据的步[0069]所述环境服务器,还用于接收所述中心训练服务器发送的所述预测运行策略信服务器基于该智能体的状态信息所确定的奖励信息和该智能体所在的仿真环境的运行策[0073]模型训练模块,用于在所述预设经验池中的数据量达到第二预设数据量的情况[0075]结束条件确定模块,用于接收所述环境服务器发送的各意一个仿真环境包括的各个智能体的经验数行策略信息包括所述环境服务器中对应的仿真环[0078]策略信息接收模块,用于接收所述中心训练服务器发送的所述预测运行策略信能体的状态信息所确定的奖励信息和该智能体所在[0085]当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优[0092]图6为本发明实施例提供的、应用于强化学习模型训练系统中的中心训练服务器[0095]图9为本发明实施例提供的分布式多智能体的强化学习模型训练的一种结构示意[0114]下面首先对本发明实施例所提供的强化学习模型训练系统进行介绍。图1为本发[0115]所述环境服务器120,用于向所述中心训练服务器发送任意一个仿真环境包括的境服务器基于该智能体的状态信息所确定的奖励信息和该智能体所在的仿真环境的运行[0116]所述中心训练服务器110,用于接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据;在所述经验数据的数据量不小于第一预设数据量的情况下,学习模型确定为训练得到的目标强化学习模型训练;如果未达到预设的模型训练结束条[0117]所述环境服务器120,还用于接收所述中心训练服务器发送的所述预测运行策略习模型确定为训练得到的目标强化学习模型训练;如果未达到预设的模型训练结束条件,返回所述接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据的[0120]在一种可能的实施方式中,图2为本发明实施例所提供的强化学习模型训练系统的另一种结构示意图,如图2所示,所述中心训练服务器110包括多智能体强化学习模块过路口1向北行驶的车辆排队数量为13、经过路口1向东行驶的车辆排队数量为1和经过路以执行先南北通行20秒然后东西通行40秒的动作作为下一次境服务器基于该智能体的状态信息所确定的奖励信息和该智能体所在的仿真环境的运行行求和或者加权求和等混合方式,具体的经验数据混合方式可以根据实际应用需求而定。服务器可以将路口1和路口2的经验数据混合,得到路口1的混合经验数据[23,12,31,51,东南西北真环境启动指令,以使该待配置环境服务器执行根据所述环境启动指令启动一个仿真环仿真环境的数量未达到该待配置环境服务器对应的限制环境数量,返回执行所述通过SSH所有环境服务器具备的仿真环境数目都为0。所述分布式仿真环境管理模块可以根据所述[0151]在一种可能的实施方式中,图3为本发明实施例所提供的强化学习模型训练系统[0152]经验收集子模块310,用于通过所述环境服务器中各个仿真环境与所述中心训练[0153]策略分发子模块320,用于基于所述预测运行策略信息中每个预测运行策略所携[0154]具体的,每个仿真环境都和中心训练服务器创建的中心确定仿真环境运行进程是否为主动结束运行。如果仿真环境进程发送了Done=True的结习模型训练方法。下面对本发明实施例所提供的智能体的强化学习模型训练方法进行介[0198]在另一种可能的实施方式中,图5为本发明实施例提供的仿真环境启动方法的一心训练服务器返回该仿真环境对应的传输端口信务器对应的限制环境数量,返回执行所述通过SSH连接向该待配置环境服务器发送仿真环器中运行的仿真环境的数量均达到该环境服务器对应的策略信息中每个预测运行策略所携带的环境标识,确定该预测运行策略对应的仿真环境;习模型训练方法。下面对本发明实施例所提供的智能体的强化学习模型训练方法进行介所述获取该仿真环境包括的智能体的经验数[0233]其中,所述环境销毁指令为所述中心训练服务器根据所述环境销毁请求所确定[0235]图9为本发明实施例提供的分布式多智能体的强化学习模型训练的一种结构示意[0236]中心训练服务器包括分布式仿真环境管理模块和多智能算法是基于单智能体强化学习算法SAC设计称A-1-1),先返回状态信息State,同时计算了一个奖励Reward和其对应的运行策略′灯30秒的同时,南北方向绿灯亮灯30秒。仿真环境1的路口1和路口2合并后的流量状态:[0255]最终训练到每个仿真环境都完成100轮次的运行后,待训练强化学习模型完成训环境服务器基于该智能体的状态信息所确定的奖励信息和该智能体所在的仿真环境的运[0260]策略信息发送模块1004,用于将所述预测运行策略信息运行策略向所述中心训练服务器发送各个仿真预测运行策略信息包括所述环境服务器中对应的仿真环智能体的状态信息所确定的奖励信息和该智能体所在的仿[0267]本发明实施例还提供了一种服务器,如图12所示,包括处理器1201、通信接口[0270]上述服务器提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,PCI)总线或扩展工业标准结构(ExtendedIndustryStandard[0273]上述的处理器可以是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 硅芯制备工岗前诚信品质考核试卷含答案
- 计算机零部件装配调试员岗位责任感考核试卷含答案
- 前沿:孤立性纤维瘤靶向教学课件:Pembrolizumab临床应用与研究进展
- 2026及未来5年中国三聚氰胺装饰板市场数据分析研究报告
- 2026及未来5年中国Y型三通快速接头行业发展研究报告
- 2026及未来5年中国PP异型管行业发展研究报告
- 2026及未来5年中国BOPP热灌装饮料瓶行业发展研究报告
- 2025年中国黑加仑啤酒市场调查研究报告
- 2025年中国高磁导率软磁合金市场调查研究报告
- 2025年中国骨骼肌萎缩图片市场调查研究报告
- 《幼儿教师口语》第七章幼儿教师交际口语训练
- 物业工程部管理方案
- 玻璃、易碎品及异物检查记录表
- 浦发银行征信异议申请书
- 夏季四防安全培训PPT
- 人教版日语七年级第三单元测试卷
- 2022-2023学年北京海淀人大附数学八年级第二学期期末复习检测试题含解析
- 12G101-4 剪力墙边缘构件钢筋图集
- 模拟产品召回演练记录
- 四年级数学下册《平行四边形和梯形》单元测试卷(附答案)
- GB/T 9348-2008塑料聚氯乙烯树脂杂质与外来粒子数的测定
评论
0/150
提交评论