CN116048028B 一种基于强化学习的工艺参数优化方法 (大连理工大学)_第1页
CN116048028B 一种基于强化学习的工艺参数优化方法 (大连理工大学)_第2页
CN116048028B 一种基于强化学习的工艺参数优化方法 (大连理工大学)_第3页
CN116048028B 一种基于强化学习的工艺参数优化方法 (大连理工大学)_第4页
CN116048028B 一种基于强化学习的工艺参数优化方法 (大连理工大学)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明提供一种基于强化学习的工艺参数该方法通过强化学习训练出一个对工艺参数的确定性数据;2)使用低不确定性数据作为训练中对工艺参数的调控过程中人工调参的不可靠2第二步,使用生成对抗网络训练不确定性量化模型FGAN,其中模型FGAN工艺参数xterminal对应的不确定性量化值f(xterminal)在[q1,q2]内,且缺陷的预测值F第五步:测试使用该策略时输入待优化样本,根据第空间到原始数据空间的映射分布,输入原始数据通过生成对抗网络重构数据空间的分布;定性量化值在置信区间内的数据作为低不确定3离散动作a确定了需要更新的工艺参数分量及每个分量的更新方向后,对工艺参数进3.4)利用低不确定性数据集作为强化学习训练样本,基于DQN算法进行强化学习的训训练时采用两个网络——预测网络Qθ(s,a)和目标网络使用最新的参数θ的预测后对应的Q值根据两个Q网络的均方误差MSE=(q_Qθ2的梯度方向更新参数θ,并且每c步更新目每轮训练的终止条件是:更新后的工艺参数xterminal对应的不确定性量化值f(xterminal)4在[q1,q2]内,且缺陷的预测值F(xterminal)低于(1_R)F(x0),其中x0为样本的初始工艺56以判断数据的不确定性量化值。所述的基于生成对抗网络构建不确定性量化模型FGAN的具前执行优化策略的一个样本,此样本的形式与原数个数为m(m<M),本发明在每次行动中挑选m个工艺参数进行改变,并确定它们的更新方赏值。设置t时刻的状态为当前的工艺参数值xt,执行了一个动作后,工艺参数值更新为7[0021]3.4)最后利用低不确定性数据集作为[0022]每次训练在强化学习训练样本中随机选取一个样本进行一轮训练,共训练1000训练时采用两个网络——预测网络Qθ(s,a)和目标网络使用最新的参数θ的预测下一步行动后对应的Q值根据两个Q网络的均方误差轮训练的终止条件是:更新后的工艺参数xterminal对应的不确定性量化值f(xterminal)在[随机选择,其中,QΘ(xt,a)表示在工艺参数值为xt时选择动作a时对应的累计奖赏期望,在[q1,q2]内,且缺陷的预测值F(xterminal)低于(1_R)F(x0),其中x0为样本的初始工艺参数值。8[0030]图1为本发明实施案例提供的一种基于强化学习的工艺参数优化方法的实现流程器中权重优化的求解器分别为学习率0.001和0.002的Adam。生成对抗网络的训练批次为9时对样本的利用,在经验缓存样本达到50个之后开始训练Q函数,为了防止旧样本影响训练,在缓存池满之后按顺序依此替换旧样本来储存新样本。设置目标缺陷值降低比率R=效果,在原数据上添加噪声来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论