论文1_第二作者基于进化多目标优化的选择性集成学习软测量建模

上传人：我*** IP属地：北京上传时间：2020-05-30 格式：PDF 页数：12 大小：515.87KB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第 33 卷第 3 期高校化学工程学报 No.3 Vol.33 2019 年 6 月 Journal of Chemical Engineering of Chinese Universities June 2019 文章编号：1003-9015(2019)03-0680-12 基于进化多目标优化的选择性集成学习软测量建模金怀平 1, 黄思1, 王莉2, 陈祥光3, 潘贝1, 李建刚1 (1. 昆明理工大学信息工程与自动化学院, 云南昆明 650500; 2. 防灾科技学院电子科学与控制工程学院, 河北廊坊 065201; 3. 北京理工大学化学与化工学院, 北京 100081) 摘要：常规集成学习软测量方法忽略了输入变量选择的多样性，而且没有对基模型进行修剪，从而造成集成模型复杂度高、预测性能受限。为此，提出一种基于进化多目标优化(EMO)的选择性集成学习(SE)高斯过程回归(GPR)软测量建模方法，称为EMO-SEGPR。该方法融合输入特征扰动，通过结合bootstrapping随机重采样和偏互信息相关分析(PMI) 构建多样性输入变量子集，并据此建立多样性 GPR 基模型。然后，基于 EMO 算法对 GPR 基模型进行集成修剪，从而获得一组集成规模较小、多样性和准确性较高的基模型。最后，引入集成学习策略实现 GPR 基模型的融合。将 EMO-SEGPR 方法应用于青霉素发酵过程和 Tennessee Eastman 化工过程，实验结果表明了该方法的有效性和优越性。关键词：软测量；集成学习；输入特征扰动；集成修剪；进化多目标优化；高斯过程回归中图分类号：TP 277 文献标志码：A DOI：10.3969/j.issn.1003-9015.2019.03.023 Selective ensemble learning based on evolutionary multi-objective optimization for soft sensor development JIN Huai-ping1, HUANG Si 1, WANG Li2, CHEN Xiang-guang3, PAN Bei1, LI Jian-gang1 (1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China; 2. School of Electronic Science and Control Engineering, Institute of Disaster Prevention, Langfang 065201, China; 3. School of Chemistry and Chemical Engineering, Beijing Institute of Technology, Beijing 100081, China) Abstract: Traditional ensemble soft sensors usually ignore the diversity of input variable selection and simply combine all base models without pruning, which may result in high model complexity and poor prediction performance. An evolutionary multi-objective optimization (EMO) based selective ensemble Gaussian process regression (GPR) model, referred to as EMO-SEGPR, was proposed for soft sensor development. The method employed the input feature perturbation to build diverse input variable sets by combining bootstrapping resampling and partial mutual information (PMI) based relevance analysis, and then diverse base GPR models were constructed. Furthermore, these GPR models were pruned by an EMO based ensemble pruning approach to generate a set of base models with small ensemble size, high accuracy and high diversity. Finally, the selected base GPR models were integrated using ensemble methods. The effectiveness and superiority of EMO-SEGPR were verified through penicillin fermentation process and Tennessee Eastman chemical process. Key words: soft sensor; ensemble learning; input feature perturbation; ensemble pruning; evolutionary multi-objective optimization; Gaussian process regression 1 前言在过程工业中，如化工、冶金、生物、制药、污水处理等领域，很多关键的质量参数无法实时在线收稿日期：2018-09-05；修订日期：2018-12-18。基金项目：国家自然科学基金(61763020)；云南省应用基础研究计划青年项目(2018FD040)；云南省教育厅科学研究基金(2017ZZX149)。作者简介：金怀平(1987-)，男，云南宣威人，昆明理工大学讲师，博士。通讯联系人：金怀平，E-mail：jinhuaiping 第 33 卷第 3 期金怀平等：基于进化多目标优化的选择性集成学习软测量建模 681 测量，严重制约了过程的监测、控制及优化水平。软测量技术为此类难测参数的在线估计提供了有效途径1-2。随着工业生产过程的现代化，大量隐含有关生产状况的操作数据得以保存下来。因此，基于数据驱动的软测量建模方法日益受到青睐3-6。此类方法的典型代表有：偏最小二乘7、人工神经网络8、支持向量回归9、高斯过程回归10等。近年来，集成学习作为一种有效的机器学习与数据挖掘工具，在软测量领域得到了广泛应用11-15。一般而言，集成学习软测量建模包含 2 个关键步骤：基模型的生成和融合。大量研究表明，集成学习成败的关键在于能否建立一组准确性高、多样性强的基模型16-17。其中，基模型的多样性生成机制尤为重要。然而，常规集成学习软测量建模方法主要通过样本扰动方式生成基模型，如聚类18、移动窗口19、自助采样20、序列采样21等策略，忽略了输入变量选择的多样性。实际上，输入变量也是影响软测量模型性能的关键因素22-25。然而，在实际应用中，难以获得单一的最优变量组合，而获得一系列次优的输入变量组合则相对容易得多。因此，本文重点探索基于输入特征扰动的集成学习软测量建模方法。此外，构建高性能集成学习软测量模型的另一个关键步骤在于基模型的融合。根据 ZHOU 等26的研究，集成学习中会出现“Many Could Be Better Than All”的现象，即在基模型生成之后，通过移除一些基模型来获得较小的集成，不仅有助于减小模型的存储开销和计算负担，而且有可能提升模型的泛化性能。该操作称为集成修剪，是构建高性能选择性集成学习模型的关键所在。究其根本，集成修剪的目的在于确保基模型更好地满足准确性和多样性的要求，本质上这是一个优化问题。但是，现有的基于优化的修剪方法仅考虑单一的优化目标，无法有效确保准确性和多样性目标的平衡。针对上述问题，提出一种基于进化多目标优化的选择性集成高斯过程回归(evolutionary multi-objective optimization based selective ensemble Gaussian process regression，EMO-SEGPR)软测量建模方法。该方法首先引入输入特征扰动的多样性产生机制，结合 bootstrapping 随机重采样和偏互信息(partial mutual information，PMI)相关分析构建一组多样性的输入特征子集，并据此建立一组多样性的高斯过程回归(Gaussian process regression，GPR)基模型。然后，基于进化多目标优化(evolutionary multi-objective optimization， EMO)算法实现集成修剪，从而获得一组规模较小而且同时满足多样性和准确性要求的 GPR 基模型。最后，采用 Stacking 集成策略实现多样性基模型的融合。在应用案例部分，通过对青霉素发酵过程和 Tennessee Eastman (TE)化工过程的建模研究，验证了 EMO-SEGPR 软测量方法的有效性和优越性。 2 算法介绍 2.1 高斯过程回归高斯过程(Gaussian process, GP) 是任意有限个随机变量均具有联合高斯分布的集合。对于输入输出样本集 1 , n ii i y DX yx，考虑如下回归模型 2 n , 0,yfN x (1) 其中，x 为输入向量，n 为输入样本点的总数，f()为未知函数，y 是受到噪声干扰的观测值，是均值为 0、方差为 2 n 的高斯噪声。在函数 f 空间上，一个高斯过程完全由均值函数 m(x)和协方差函数 C(x,x)确定，即 Emf xx (2) ,ECfmfm x xxxxx (3) 如果数据已经进行了适当的预处理，可以假设训练样本集产生于一个零均值高斯过程，即输出观测值服从 0,NyC (4) 其中 C 为一个 nn 对称正定的协方差矩阵， x 为x的转置计算。 682 高校化学工程学报 2019年6月对于一个新的测试输入 x，训练输出 y 和测试输出y的联合先验分布为 T 0, , N Cy Cky kx x (5) 其中， T 1 =, n CC kx xx x为测试点 x与训练集输入之间的 n1 阶协方差矩阵；,C x x为测试点 x自身的协方差。给定了协方差函数，测试输出y的后验分布为 , ,yN y X y x (6) 这里， y 和 2 按下式计算 T1 Eyy k Cy (7) 2T1 1 Var,yC x xk C k (8) 其中， E 和 Var 分别表示均值和方差算子。 y 和 2 分别表示 GPR 模型测试样本点 x的预测值和预测方差。 GPR 模型的建立首先要确定协方差函数，所选的协方差函数要能在任何数据集上产生非负定协方差矩阵，同时希望相邻的输入产生相邻的输出。因此，选择带噪声项的 Maten 协方差 22 f 33 ,1exp ijij ijnij C ll xxxx x x (9) 其中， 2 f 为输出尺度，l为输入尺度， 2 n 为噪声方差；i = j时， 2 f = ij ，否则ij = 0。超参数集合 22 f,1,n 通过极大似然法求得。训练样本上的对数似然函数为 T1 11 logloglog 2 222 n p y Xy CyC (10) 对超参数求偏导： 1T11 log 11 tr 22 p y X CC Cy CCy (11) 其中， C 可以从协方差函数求得， tr 表示计算矩阵的迹。 GPR建模技术由于存在非线性处理能力强、能提供预测不确定信息、参数设定简单等独特优势，在本文中将用于构建集成学习基模型。 2.2 偏互信息互信息(mutual information，MI)是信息论里的一种非参数、非线性相关性评价指标。MI能评估输入变量与输出变量之间的相关程度，但是忽略了输入变量之间的独立性。而PMI27不仅可以评价候选变量与输出变量之间的相关性，同时还考虑了输入变量之间的冗余度问题。PMI的计算式如下： , , , PMI,lnd d X Yii X Yii XiYi fx y X Y Zfx yx y fxfy (12) 其中， E,Exxx Zyyy Z (13) 式中，x，y 表示样本数据集的冗余成分， X fX 和 Y fY 是边缘概率密度，fXY(x,y)是联合概率密度。给定已选输入变量集Z，PMI满足：(i) 对称性，即PMI,PMI,X Y ZY X Z；(ii) 非负性， PMI,0X Y Z ，在Z条件下X与Y相互独立时等号成立。Z 时，PMI,MI,X Y ZX Y。基于离散样本的PMI值可估计如下： , 1 ,1 PMI,ln n X Yii i XiYi fx y X Y Z nfxfy (14) 其中，, ii x y表示数据集中第i个样本的剩余信息。第 33 卷第 3 期金怀平等：基于进化多目标优化的选择性集成学习软测量建模 683 3 EMO-SEGPR 软测量建模 3.1 多样性 GPR 基模型构建在集成学习中，增强基模型的多样性能有效提升集成模型的泛化性能。本文通过挖掘输入特征扰动机制，从而构建一组多样性的基模型。常见的特征扰动方法如随机子空间法，更适用于特征较多的样本数据，若特征较少或冗余特征很少，反而不利于模型性能的提升28。而且，输入特征的随机选择将难以保证基模型的预测性能。一种更为有效的特征选择方法是，采用某种相关性准则评估待选变量与输出变量之间的相关性。但是，其选择结果易受建模样本选择的影响。因此，提出一种样本采样与相关分析相结合的多样性子空间构建方法。其基本思想是：首先通过bootstrapping重采样获得一组多样性的建模样本子集 1 , M mm m Xy，然后对每个子集进行PMI相关分析，从而获得一组多样性的输入子空间 1 M m m S。为了选择与输出变量相关性较强的变量，同时解决输入变量之间的冗余问题，选用PMI相关性准则。首先，采用k最近邻(k-nearest neighbor，kNN)法27对PMI值进行估计，其中使用k折交叉验证和置换检验方法29确定最优最近邻数目。然后，确定PMI阈值(决定何时停止输入变量选择)，本文使用一种统计置信限来判断输入与输出变量是否相关。对于一个候选变量，重复p次bootstrapping算法产生多个随机化变量，然后从中确定第百分位，以此作为变量相关性的重要性判别阈值。若原始变量的PMI值大于阈值，则认为该变量与输出变量相关。在本研究中，p = 100， = 95%。对于一个bootstrapping重采样子集，PMI变量选择步骤如下： (1) 初始化输入变量集 1 d i i SX ，已选变量集S ；Y为输出变量； (2) 确定kNN估计器的最佳最近邻数目，并计算每个输入变量与输出变量的PMI, i X Y S； (3) 选出(2)中PMI得分最高的变量 X ，如果该PMI值高于第95百分位随机化PMI阈值，则将其加入 S ，即, ii SSXSSX，否则终止变量选择； (4) 重复(2)和(3)直至选出所有重要变量。通过上述方法获得一组多样性的输入子空间，由对应的变量索引提取原始训练样本，从而构建一组多样性的GPR基模型 1 GPR M m 。GPR模型是一种概率性的非参数模型，其优势在于模型输出具有概率意义，可以同时提供预测均值和预测方差。其中，预测方差可以用来评估预测值的可信度。GPR m 预测模型可以描述如下： T1 ,new,new,new 2T1 ,new,new,new,new,new,new E Var, mmmmm mmmmmmm yy yC kCy xxkC k (15) 式中， T ,newnew,1new , mmm,n CC kxxxx， ,new my和 2 ,newm 分别为基模型GPR m 的预测均值和方差。 3.2 基于进化多目标优化的集成修剪在GPR基模型的构建过程中，难免存在部分GPR基模型相关性强、预测性能不佳的现象。若将所有基模型用于集成建模，势必造成集成模型复杂度的提升，甚至恶化预测性能。解决这一问题的有效方法是移除部分基模型，即集成修剪30。对初始GPR基模型执行集成修剪的核心问题在于，如何挑选一组较小规模的GPR基模型，而且尽可能保证基模型的预测性和多样性。然而，这两个指标往往存在一定程度的冲突，是典型的多目标优化问题。因此，本文将基模型的集成修剪问题转化为如下多目标优化问题： 12 max,ff (16) f1，f2为目标函数，分别衡量基模型的预测精度和多样性。为求解上述多目标优化问题，首先需要确定决策向量、约束条件、目标函数的具体形式。假设生成了M个GPR基模型，对每一个基模型进行二进制编码，其中每一位编码表示是否选中相应的GPR基模型，1表示选中该模型，0表示未选中，然后将这一组二进制变量作为决策向量。为了有效控制选择到的 684 高校化学工程学报 2019年6月模型个数，将模型选择数目Mselect作为约束条件。对于基模型的预测精度指标，先估计单个模型的预测精度，再将所有基模型的估计值平均作为整体预测精度。为此，将基模型均方根误差(root-mean-square error, RMSE)作为预测精度指标，RMSE越小，则基模型预测精度越高。给定验证样本 valvalval ,DXy，精度目标函数定义为： val 1 avg,val RMSE RMSE M i i M (17) 其中， val RMSEi为基于验证样本的单个GPRm模型的预测均方根误差。对于基模型的多样性指标，目前仍没有统一的定义。本文提出使用相关系数作为多样性衡量指标，其基本思想是：两个基模型之间的差异越大，预测误差系列之间的相关系数指标就越小。为衡量集成多样性，先估计任意两个基模型之间的差异性，即相关性系数： Cov, , VarVar ij ij ij r e e e e ee (18) 其中，, ij e e分别表示任意两个GPR基模型的预测误差， Cov 用于计算任意两个误差之间的协方差， Var 表示方差算子。最后将(18)式得出的所有相关系数值平均作为集成多样性指标： selectselect 1 11 avg,val 2 selectselect , 2 MM ij j ii r r MM e e (19) 综上分析可知，最大化基模型的预测精度和多样性相当于最小化式(17)和式(19)两个衡量指标。因此，式(16)中的最大化多目标优化问题转化为如下最小化优化问题： avg,valavg,val min RMSE,r (20) 接下来对上述多目标优化问题进行求解。传统最优化方法对目标函数、约束函数要求较高，而且最优性达到的条件太苛刻。相比而言，进化优化通过模拟生物进化过程与机制求解，其优势在于通用性较强、对优化问题没有过多的特殊要求。因此，进化多目标优化算法在实际应用中日益受到青睐31-33。本文选用的是带精英策略的非支配排序的遗传算法(non-dominated sorting genetic algorithm，NSGA-)，由2002年DEB等34对其算法NSGA的改进，是目前为止最优秀的进化多目标优化算法之一。采用NSGA-优化实现集成修剪的主要步骤如下： (1) 对基模型的选择问题进二进制编码，随机初始化每个个体的染色体，生成大小为P的初始种群 0 t P 。 (2) 对种群Pt中的每一个个体进行评估。从染色体上解码决策向量，确定被选中的GPR基模型，然后基于验证样本集评估每个被选中基模型的预测性能，并计算两个优化目标。 (3) 重复以下步骤，直到满足终止条件。 3a) 对种群进行非支配排序，并计算所有非支配解的拥挤距离。 3b) 利用二进制锦标赛选择、交叉和变异，生成一个与Pt相同大小的子代Qt。 3c) 重复步骤(2)对Qt进行评估。 3d) 结合 ttt RPQ，保留精英父代，根据非支配排序方法进行排序。 3e) 从Rt中获取P个解来创建新的一代Pt+1，增加进化代数。 (4) 使用非支配排序找出在上一代合并后的个体中的最优解。通过设置合适的种群数和迭代数进行优化，得到Pareto最优解集，其中任意一个Pareto解对应一个基模型选择的二进制变量组合。然后对二进制染色体串解码，由此选出参与集成的GPR基模型，从而实现基模型的集成修剪。 3.3 多样性 GPR 基模型集成通过3.2节的集成修剪操作，最终选出Mselect个GPR基模型参与集成。给定测试样本Xnew，相应可 1tt 第 33 卷第 3 期金怀平等：基于进化多目标优化的选择性集成学习软测量建模 685 获得Mselect个预测值。最后融合局部预测值得到最终估计值。要达到满意的预测效果，需选择合理的集成策略。由于基模型的预测性能往往存在差异，因此加权集成策略是一种合理选择。当训练数据很多时，一种强大的集成策略是学习法，即通过另一个学习器进行结合。Stacking35是学习法的典型代表，它先从初级数据集训练初级学习器，然后生成一个新数据集用于训练次级学习器。在新的训练数据中，初级学习器的预测输出被用作次级学习器的输入。本文在Stacking框架下采用偏最小二乘法(partial least squares，PLS)对GPR基模型进行集成，最佳主成分个数由交叉验证确定。假设 select 1 M m m y 、 select 2 1 M m m 为基模型的预测输出和方差，则基于PLS的Stacking 集成输出可以表示为： selectselect 01122 = + MM yww yw ywy (21) 根据不确定度合成原理，集成预测方差 2 可计算为36： selectselect 2 22 11 =2 MM iijij iij iij yyy yyy (22) 其中， i 和 j 为任意两个基模型的预测输出不确定度； ij 为不确定度变量 i 和 j 的之间的相关系数。根据式(21)可知， ii wyy ，因此式(22)所示的集成预测方差可重写为： selectselect222 11 2 MM iiijijij iij w w w (23) 由式(23)可以看出，集成预测方差取决于基模型自身的预测方差水平和预测方差之间的相关程度。如果基模型完全独立，则0 ij ，集成预测方差退化为 select 222 1 M iii w 。但在实际应用中，基模型之间难免存在某种程度的相关性，即0 ij 。由于真实的 ij 值无法获得，本文按以下方法对其进行估计。给定验证样本集 valvalval ,DXy，可获得任意两个GPR基模型在 val D上的预测均值向量和方差向量 ,val,val,val,val ,;, iijj yy。此时， ij 可估计为： ,val,val ,val,val Cov, VarVar ij ij ij (24) 除了“学习法” ，GPR基模型还可以通过其他方式进行融合。例如，一种应用较为广泛的方法是通过GPR的预测方差信息实现融合37-38。 3.4 实施原理 EMO-SEGPR软测量方法的基本原理如图1所示。具体实施步骤如下： (1) 采集输入输出样本，将样本分为训练集、验证集和测试集； (2) 通过bootstrapping随机重采样，生成多个训练样本子集； (3) 采用PMI准则对每个训练样本子集进行相关分析，从而构建多样性输入子空间，然后提取对应的原始训练样本，建立GPR基模型； (4) 通过进化多目标优化算法对(3)得到的GPR基模型实施集成修剪得到Pareto最优解集； (5) 选取一个Pareto最优解进行解码，确定最终选中的GPR基模型，并建立PLS集成模型； (6) 对新的测试样本，首先给出GPR基模型的预测输出和预测方差，然后采用PLS stacking集成融合，最终得到测试样本的集成预测输出和预测方差。 4 应用案例研究为了验证EMO-SEGPR软测量建模方法的有效性，本文以青霉素发酵过程和TE化工过程作为应用案例。实验中比较了如下方法：(1) GPR：使用单一的输入变量集建立全局模型；(2) EGPR：仅使用多样性的输入子空间进行集成建模；(3) EMO-SEGPR：本文提出的方法，使用多样性的输入子空间进行集成建模，并考虑集成修剪。此外，EGPR、EMO-SEGPR方法对比了3种集成策略：简单平均法(simple averaging rule，SA)、预测方差集成(prediction variance based ensemble, PVE)20、PLS stacking集成。 686 高校化学工程学报 2019年6月 new y 图 1 EMO-SEGPR 软测量建模方法原理框图 Fig.1 Schematic diagram of the proposed EMO-SEGPR soft sensor method 模型预测性能评价采用均方根误差RMSE和决定系数 2 R： test 2 1 test 1 RMSE N ii i yy N (25) test test 2 2 1 2 1 R1 N ii i N ii i yy yy (26) 其中， test N为测试样本的数目，iy, i y和 i y分别为估计值、实际值和实际输出的均值。 4.1 青霉素发酵过程青霉素发酵过程被广泛用于间歇过程的建模、监控和控制的研究。图2给出了青霉素发酵过程的工艺流程图。本文以青霉素浓度作为主导变量，以表1所列过程变量作为辅助变量建立软测量模型。建模数据来源于PenSim 2.039平台，发酵周期为400 h，采样时间间隔为2 h，共收集20批青霉素图 2 青霉素发酵过程流程图 Fig.2 Flowchart of the penicillin fermentation process 第 33 卷第 3 期金怀平等：基于进化多目标优化的选择性集成学习软测量建模 687 0.02000.02050.02100.02150.0220 0.54 0.56 0.58 0.60 0.62 0.64 0.66 Pareto front Mselect= 20 Objective l: Accuracy 图 3 青霉素发酵过程中 EMO-SEGPR 方法使用 NSGA-II 优化获得的 Pareto 前沿 Fig.3 Pareto front obtained from NSGA-II optimization for EMO-SEGPR in the penicillin fermentation process Objective 2: Diversity 010203040506070 0.0 0.5 1.0 1.5 base model Mselect=20 State of model selection Base model 图 4 青霉素发酵过程中 GPR 基模型二进制选择结果 Fig.4 Binary selection results of base GPR models for the penicillin fermentation process 发酵过程数据。将发酵数据分为训练集(8批， 50%)、验证集(4批，25%)、测试集(4批， 25%)。其中，训练集用于模型训练，验证集用于多目标优化适应度函数的计算，测试集用于软测量模型的性能评估。图3显示了EMO-SEGPR建模中NSGA- 优化产生的Pareto前沿图。其中，进化的种群数、迭代数、选择的基模型数分别取500、 100和20。实验中，仅选择其中一个Pareto 解进行解码，并用于EMO-SEGPR建模。本案例研究中，初始构建了66个GPR基模型，经过NSGA-II 优化最终选择其中20个基模型参与集成建模。图4显示了基模型的二进制选择结果。表2比较了不同软测量建模方法在青霉素发酵过程中的预测误差。可以看出，GPR 的预测精度远低于EGPR和EMO-SEGPR方法，这是因为GPR并未考虑输入变量选择的多样性。相比而言，EGPR和EMO-SEGPR 通过结合输入特征扰动和集成学习，获得了显著的性能提升。此外，实验比较了3种集成策略，可以看出，EMO-SEGPR方法有效剔除了冗余子模型，从而大幅度降低了集成建模的复杂度。而且，EMO-SEGPR在3种集成策略下均表现出最佳预测性能，其中 PLS stacking集成效果最佳。因此，本文提出的EMO-SEGPR方法表现出了较好的预测性能。此外，图5显示了基于EMO-SEGPR (PLS stacking)方法的青霉素浓度预测趋势曲线。由图可见，EMO-SEGPR模型预测值与实际值高度吻合，由此进一步说明 EMO-SEGPR软测量方法的良好性能。表 1 青霉素发酵过程中用于软测量建模的输入变量 Table 1 Input variables for soft sensor development in the penicillin fermentation process Variable description Variable description 1. Culture time / h 8. Substrate feed temperature / K 2. Aeration rate / (Lh1) 9. Dissolved oxygen concentration / (gL1) 3. Agitator power / W 10. Culture volume / L (stream 10) 4. Substrate feed rate / (Lh1)11. Carbon dioxide concentration (gL1) 5. Generated heat / kcal 12. Fermenter temperature / K 6. Acid flow rate / (Lh1) 13. pH (-) 7. Base flow rate / (Lh1) 14. Cooling water flow rate / (Lh1) 表 2 不同软测量方法在青霉素发酵过程中的预测误差 Table 2 Prediction results using different soft sensor methods for the penicillin fermentation process Method EnsembleRMSE R2 GPR - 0.028 7 0.996 1 EGPR (SA) All 0.018 9 0.998 3 EGPR (PVE) All 0.018 6 0.998 4 EGPR (PLS stacking) All 0.022 1 0.997 7 EMO-SEGPR (SA) Selective0.018 1 0.998 5 EMO-SEGPR (PVE) Selective0.017 9 0.998 5 EMO-SEGPR (PLS stacking) Selective0.017 1 0.998 6 0100200300400500600700800 0.0 0.4 0.8 1.2 1.6 2.0 2.4 RMSE = 0.017 16 R2 = 0.998 6 2 standard deviation actual value predicted value Test sample number 图 5 青霉素发酵过程中基于 EMO-SEGPR (PLS stacking)方法的青霉素浓度预测趋势曲线 Fig.5 Trend plots of penicillin concentration predictions using EMO-SEGPR (PLS stacking) method for the penicillin fermentation process Penicillin concentration / (gL1) 688 高校化学工程学报 2019年6月表 3 TE 化工过程中用于 EMO-SEGPR 软测量建模的输入变量 Table 3 Input variables for soft sensor development in TE chemical processes Variable Variable Variable No.1 Stripper pressure No.13 D feed flow(stream2) No.25 Reactor cooling water flow No.2 Reactor level No.14 E feed flow (stream3) No.26 Recycle flow (stream 8) No.3 Reactor temperature No.15 A feed flow (stream1) No.27 Reactor feed rate (stream 6) No.4 Stripper steam valve No.16 Compressor recycle valve No.28 Stripper underflow (stream 11) No.5 Reactor pressure No.17 Purge valve (stream 9) No.29 Stripper liquid product flow(stream 11) No.6 Agitator speed No.18 Compressor work No.30 Product separator underflow(stream 10) No.7 A feed (stream 1) No.19 Purge rate (stream 9) No.31 Reactor cooling water outlet temperature No.8 D feed (stream 2) No.20 A and C feed (stream 4) No.32 Separator pot liquid flow(stream 10) No.9 E feed (stream 3) No.21 Product separator pressure No.33 Separator cooling water outlet temperature No.10 Stripper seam flow No.22 A and C feed flow (stream 4) No.34 Condenser cooling water flow No.11 Stripper temperature No.23 Product separator pressure No.12 Stripper level No.24 Product separator level 图 6 TE 化工过程工艺流程图 Fig.6 Flowchart of the TE chemical process 4.2 TE 化工过程 TE化工过程40是基于实际工业过程的模拟仿真，其工艺流程如图6所示。TE生产过程主要有A、 C、D和E四种气态物料参与反应，生产出两种产品G、H，并伴有一种副产品F。TE过程主要包括41 个测量变量和12个操纵变量。在本实验中，选用如表3中所示的22个连续测量变量和12个操纵变量作为原始输入，Stream 9中的E成分浓度作为软测量模型的输出。输入和输出数据在5个不同操作模式下以12 min的采样间隔采集获得，并将其分为训练集(50%)、验证集(25%)、测试集(25%)。图7给出了由NSGA-II优化的Pareto前沿。其中，进化的种群数、迭代数、选择的GPR基模型数分别取300、100和30。对TE过程，通过输入特征扰动构建了85个多样性GPR基模型，然后进行优化选出30个最佳基模型，集成修剪结果如图8所示。第 33 卷第 3 期金怀平等：基于进化多目标优化的选择性集成学习软测量建模 689 Objective 1: Accuracy 图 7 TE 化工过程中 EMO-SEGPR 方法使用 NSGA-II 优化获得的 Pareto 前沿 Fig.7 Pareto front obtained from NSGA-II optimization for EMO-SEGPR method in TE chemical process Objective 2: Diversity 0.3040.3080.3120.316 0.870 0.875 0.880 0.885 0.890 0.895 Pareto front Mselect= 30 01020304050607080 0.0 0.5 1.0 1.5 base model Mselect= 30 State of model selection Base model 图 8 TE 化工过程中 GPR 基模型二进制选择结果 Fig.8 Binary selection results of base GPR models for TE chemical process 表4给出了不同软测量建模方法的预测结果。同时，图9给出了基于EMO-SEGPR (PLS stacking)的 E成分预测趋势曲线。由表4可知，基于输入特征扰动的集成学习软测量模型EGPR和EMO-SEGPR明显优于常规的全局模型GPR。相比于EGPR，集成修剪策略的引入使得EMO-SEGPR实现了模型复杂度的大幅下降，同时维持了较高的预测性能。对比不同的集成策略可看出，基于PLS stacking的集成效果显著优于其他两种集成方法。总体上，所提出的EMO-SEGPR

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

论文1_第二作者基于进化多目标优化的选择性集成学习软测量建模

文档简介

温馨提示

最新文档

评论

论文1_第二作者基于进化多目标优化的选择性集成学习软测量建模

文档简介

温馨提示

最新文档

评论

相关文档