版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
区西环南路26号院30号楼(嘉捷科技基于深度强化学习的半导体制造中晶圆厂本发明提供基于深度强化学习的半导体制2通过生产管理系统采集晶圆厂设备状态信息、晶圆的批次信息以及加工工艺流程信将所述状态空间向量输入预先训练的深度强化学习网络模型根据所述最优调度方案通过设备控制系统向对应设备下发加工指令将包含设备状态信息、晶圆的批次信息以及加工工艺流程信息的并经全连接层映射至统一维度的嵌入空间生成将所述状态表征向量输入价值评估网络,所述价值评估网络采用多头自注意力机制,将所述价值分数与状态表征向量拼接后输入策略网络,所述策略得到匹配概率分布后,采用均方误差和策略梯度方法对所述3将价值评估网络的价值分数作为基准函数,采用时序差分基于策略网络输出的批次与设备的匹配概率分布计算策略梯度采用交替训练方式更新价值评估网络和策略网络的参数,其中固定策略网络参数期在训练过程中监控状态价值估计的平均误差和策略网络的平均回任务确定待加工批次的优先序列,再由设备分配子任务为每个待加工批次匹配合适的设将批次与设备的匹配问题分解为批次选择策略和设备分配基于所述批次选择策略网络构建批次优先级评估函数,将所述环境法生成多个批次优先序列;针对每个批次优先序列,通过所述设备分配策略网络执行设备分配构建状态转移函数,对所生成的设备分配方案进行4奖惩函数进行评估,将多目标奖惩函数的评估结果作为蒙特卡洛树搜索算法的选择权重,通过多轮搜索迭代选出批次与设备的最优调度方案构建多目标奖惩函数,所述多目标奖惩函数包括生针对每个候选的匹配方案计算所述综合奖惩函数的即时评估值基于累积评估值确定最优调度方案,其中搜索过程在满足迭基于所述即时评估值通过玻尔兹曼分布计算选择权重,其中采用上置信界准则进行节点选择和扩展,所述上置信界准则的计在当前节点的所有子节点中选择所述上置信界准则值最大的节5在工序加工过程中采集实时加工数据,所述实时加工数据包基于所述实时加工数据构建状态影响度评估矩阵,所述状态影响针对所述状态影响度评估矩阵中的状态参数,采用滑动时间将更新后的状态空间向量输入深度强化学习网络模型,生成新8.基于深度强化学习的半导体制造中晶圆厂级实第一单元,用于通过生产管理系统采集晶圆厂设备状态信息第二单元,用于将所述状态空间向量输入预先训练的深度第三单元,用于根据所述最优调度方案通过设备控制系统向对应设备下发加工指令,其中,所述处理器被配置为调用所述存储器存储的指令,以执行程序指令被处理器执行时实现权利要求1至7中任意67采用均方误差和策略梯度方法对所述价值评估网络和策略网络进行协同训练的8构建批次设备的环境状态空间,所述环境状态空间包括待加工批次集合的加工样方法生成多个批次优先序列;9基于累积评估值确定最优调度方案,其中搜索过程在满足迭代终止条件时结束,节点访问次数与当前节点访问次数的比值计算得到;在当前节点的所有子节点中选择所述上置信界准则值最大的节点作为扩展节点,设备和批次组合的价值分数,策略网络用于根据价值分数生成批次与设备的匹配概率分[0019]图1为本发明实施例基于深度强化学习的半导体制造中晶圆厂级实时调度方法的图2为本发明实施例基于深度强化学习的半导体制造中晶圆厂级实时调度系统的[0022]图1为本发明实施例基于深度强化学习的半导体制造中晶圆厂级实时调度方法的S1.通过生产管理系统采集晶圆厂设备状态信息、晶圆的批次信息以及加工工艺S2.将所述状态空间向量输入预先训练的深度强化学习网络模型,所述深度强化S3.根据所述最优调度方案通过设备控制系统向对应设备下发加工指令,工序加128维的状态表征向量分别变换为8个64维的查询矩阵、键矩阵和值矩阵,表示8个注意力息的保留比例。重置门根据当前时刻的价值分数和状态表征向量计算历史信息的遗忘比用当前信息。双层GRU的隐状态经过带有跳跃连接的全连接层映射生成批次与设备的匹配[0028]最后,采用均方误差和策略梯度方法对价值评估网络和策略网络进行协同训采用均方误差和策略梯度方法对所述价值评估网络和策略网络进行协同训练的[0041]计算策略梯度。策略梯度的计算采用价值评估网络输出的状态价值估计作为基构建批次设备的环境状态空间,所述环境状态空间包括待加工批次集合的加工样方法生成多个批次优先序列;D1只能加工特定类型的批次;时间窗口约束验证,例如批次A必须在特定时间段内完成加基于累积评估值确定最优调度方案,其中搜索过程在满足迭代终止条件时结束,节点访问次数与当前节点访问次数的比值计在当前节点的所有子节点中选择所述上置信界准则值最大的节点作为扩展节点,根据即时评估值80分和温度参数10,通过玻尔兹曼分布计算出该方案的选择权重,例如[0068]重复进行多轮迭代搜索,直到达到预设的迭代次数或找到满足终止条件的方[0069]最终得到具有最大累积评估值均值的节点所对应的批次与设备的最优调度方[0081]图2为本发明实施例基于深度强化学习的半导体制造中晶圆厂级实时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 品牌维护与形象提升承诺书8篇范文
- 大数据分析平台数据安全合规管理手册
- 零客诉客户服务目标承诺书范文5篇
- 企业信息安全风险评估模板全方位保障
- 学校安全教育指导书手册
- 2026年环境监测员技能测试模拟试卷
- 电商平台运营策略及案例解析指南
- 2026年太仓瑞宏训练测试题及答案
- 2026年小学生创新测试题及答案
- 2026年黑色性格测试题及答案
- 2025年广东生物竞赛试卷及答案
- 2026年辽宁职业学院单招(计算机)考试备考题库必考题
- 护理人员在康复护理中的角色定位
- 反兴奋剂教育准入考试试题及答案
- 卫生事业单位招聘考试真题及答案汇编
- 国有企业领导班子和领导人员考核评价存在的问题和建议
- 视频会议设备调试要求
- 2023年昆明辅警招聘考试真题含答案详解(完整版)
- 帕金森病的药物治疗指南
- 2025年天津春考真题及答案技术
- 饮料包装货品知识培训课件
评论
0/150
提交评论