版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
置本申请涉及基于深度强化学习的库存模型2通过将库存问题建模为马尔可夫决策过程,并定义状态空间、行动空采用深度神经网络作为值函数和策略函数的近似器,确定所述获取针对所述目标业务的历史库存系统运行数据,基于经验放回通过从存储在经验回放缓冲区中的所述训练样本抽取数据进行模型处获取所述目标业务所属业务主体的库存问题描述信息,确定所将所述马尔可夫决策过程中的状态变量作为所述深度神经网络设置所述库存模型基于所述深度神经网络的输入和输出,通过学习策6.根据权利要求1至5任一项所述的方法,其特征3将所述当前周期的处理数据输入至所述库存模型,根据计算出所述基于所述当前周期的资源增益数据和下一周期的库存状态作为反馈参数初始化模块,用于采用深度神经网络作为值函数和策略库存环境交互模块,用于获取针对所述目标业务的历史库存系统运模型训练模块,用于通过从存储在经验回放缓冲区中的所述训练样本抽8.一种计算机设备,包括存储器和处理器,所述存储器处理器执行时实现权利要求1至6中任一项所述的方行时实现权利要求1至6中任一项所述的方45[0018]在其中一个实施例中,所述采用深度神经网络作为值函678[0068]步骤104,通过从存储在经验回放缓冲区中的所述训练样本抽取数据进行模型处9(即业务主体的资源增益函数并可以将库存问题建模为马尔可夫决策过程,通过定义状型。[0094]Q(s,a)-f(s,a,w)平衡智能体的开发和探索行为,以极小正数e(e<1)的概率选择动作空间内的随机动作储存每步探索的历史数据(s,A,R,s',isdone),可以从中取样并根据取样数据计算Q目标基于深度强化学习的库存模型训练装置实施例中的具体限定可以参见上文中对于基于深[0115]模型训练模块504,用于通过从存储在经验回放缓冲区中的所述训练样本抽取数[0135]上述基于深度强化学习的库存模型训练装置中的各个模块可全部或部分通过软器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外易失性存储器和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read_
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园学情会商工作制度
- 幼儿园家园制度工作制度
- 幼儿园帮扶职工工作制度
- 幼儿园急救工作制度范本
- 幼儿园日常教育工作制度
- 幼儿园治理三乱工作制度
- 幼儿园疟疾防控工作制度
- 幼儿园纪律委员工作制度
- 幼儿园警校共育工作制度
- 幼儿园门禁工作制度范本
- 个人防护与手卫生规范
- JG/T 487-2016可拆装式隔断墙技术要求
- 滴滴代驾公司管理制度
- 2025年市政工程职业素养点评试题及答案
- 25春国家开放大学《药剂学(本)》形考任务1-3参考答案
- 重症医学科护理专案改善
- GB/T 37507-2025项目、项目群和项目组合管理项目管理指南
- DB31∕T 1142-2019 燃气工业锅炉能效在线监测技术规范
- 煤矿安全管理人员考试题库及解析
- 体检中心前台接待流程
- 电梯安装安全培训
评论
0/150
提交评论