




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 33 卷第 3 期 高 校 化 学 工 程 学 报 No.3 Vol.33 2019 年 6 月 Journal of Chemical Engineering of Chinese Universities June 2019 文章编号:1003-9015(2019)03-0680-12 基于进化多目标优化的选择性集成学习软测量建模 金怀平 1, 黄 思1, 王 莉2, 陈祥光3, 潘 贝1, 李建刚1 (1. 昆明理工大学 信息工程与自动化学院, 云南 昆明 650500; 2. 防灾科技学院 电子科学与控制工程学院, 河北 廊坊 065201; 3. 北京理工大学 化学与化工学院, 北京 100081) 摘 要:常规集成学习软测量方法忽略了输入变量选择的多样性,而且没有对基模型进行修剪,从而造成集成模型复 杂度高、预测性能受限。为此,提出一种基于进化多目标优化(EMO)的选择性集成学习(SE)高斯过程回归(GPR)软测量 建模方法, 称为EMO-SEGPR。 该方法融合输入特征扰动, 通过结合bootstrapping随机重采样和偏互信息相关分析(PMI) 构建多样性输入变量子集,并据此建立多样性 GPR 基模型。然后,基于 EMO 算法对 GPR 基模型进行集成修剪,从 而获得一组集成规模较小、多样性和准确性较高的基模型。最后,引入集成学习策略实现 GPR 基模型的融合。将 EMO-SEGPR 方法应用于青霉素发酵过程和 Tennessee Eastman 化工过程,实验结果表明了该方法的有效性和优越性。 关键词:软测量;集成学习;输入特征扰动;集成修剪;进化多目标优化;高斯过程回归 中图分类号:TP 277 文献标志码:A DOI:10.3969/j.issn.1003-9015.2019.03.023 Selective ensemble learning based on evolutionary multi-objective optimization for soft sensor development JIN Huai-ping1, HUANG Si 1, WANG Li2, CHEN Xiang-guang3, PAN Bei1, LI Jian-gang1 (1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China; 2. School of Electronic Science and Control Engineering, Institute of Disaster Prevention, Langfang 065201, China; 3. School of Chemistry and Chemical Engineering, Beijing Institute of Technology, Beijing 100081, China) Abstract: Traditional ensemble soft sensors usually ignore the diversity of input variable selection and simply combine all base models without pruning, which may result in high model complexity and poor prediction performance. An evolutionary multi-objective optimization (EMO) based selective ensemble Gaussian process regression (GPR) model, referred to as EMO-SEGPR, was proposed for soft sensor development. The method employed the input feature perturbation to build diverse input variable sets by combining bootstrapping resampling and partial mutual information (PMI) based relevance analysis, and then diverse base GPR models were constructed. Furthermore, these GPR models were pruned by an EMO based ensemble pruning approach to generate a set of base models with small ensemble size, high accuracy and high diversity. Finally, the selected base GPR models were integrated using ensemble methods. The effectiveness and superiority of EMO-SEGPR were verified through penicillin fermentation process and Tennessee Eastman chemical process. Key words: soft sensor; ensemble learning; input feature perturbation; ensemble pruning; evolutionary multi-objective optimization; Gaussian process regression 1 前 言 在过程工业中,如化工、冶金、生物、制药、污水处理等领域,很多关键的质量参数无法实时在线 收稿日期:2018-09-05;修订日期:2018-12-18。 基金项目:国家自然科学基金(61763020);云南省应用基础研究计划青年项目(2018FD040);云南省教育厅科学研究基金(2017ZZX149)。 作者简介:金怀平(1987-),男,云南宣威人,昆明理工大学讲师,博士。通讯联系人:金怀平,E-mail:jinhuaiping 第 33 卷第 3 期 金怀平等:基于进化多目标优化的选择性集成学习软测量建模 681 测量,严重制约了过程的监测、控制及优化水平。软测量技术为此类难测参数的在线估计提供了有效途 径1-2。随着工业生产过程的现代化,大量隐含有关生产状况的操作数据得以保存下来。因此,基于数据 驱动的软测量建模方法日益受到青睐3-6。此类方法的典型代表有:偏最小二乘7、人工神经网络8、支 持向量回归9、高斯过程回归10等。 近年来,集成学习作为一种有效的机器学习与数据挖掘工具,在软测量领域得到了广泛应用11-15。 一般而言,集成学习软测量建模包含 2 个关键步骤:基模型的生成和融合。大量研究表明,集成学习成 败的关键在于能否建立一组准确性高、多样性强的基模型16-17。其中,基模型的多样性生成机制尤为重 要。然而,常规集成学习软测量建模方法主要通过样本扰动方式生成基模型,如聚类18、移动窗口19、 自助采样20、序列采样21等策略,忽略了输入变量选择的多样性。实际上,输入变量也是影响软测量模 型性能的关键因素22-25。然而,在实际应用中,难以获得单一的最优变量组合,而获得一系列次优的输 入变量组合则相对容易得多。因此,本文重点探索基于输入特征扰动的集成学习软测量建模方法。 此外,构建高性能集成学习软测量模型的另一个关键步骤在于基模型的融合。根据 ZHOU 等26的研 究,集成学习中会出现“Many Could Be Better Than All”的现象,即在基模型生成之后,通过移除一些 基模型来获得较小的集成,不仅有助于减小模型的存储开销和计算负担,而且有可能提升模型的泛化性 能。该操作称为集成修剪,是构建高性能选择性集成学习模型的关键所在。究其根本,集成修剪的目的 在于确保基模型更好地满足准确性和多样性的要求,本质上这是一个优化问题。但是,现有的基于优化 的修剪方法仅考虑单一的优化目标,无法有效确保准确性和多样性目标的平衡。 针对上述问题,提出一种基于进化多目标优化的选择性集成高斯过程回归(evolutionary multi-objective optimization based selective ensemble Gaussian process regression,EMO-SEGPR)软测量建模 方法。 该方法首先引入输入特征扰动的多样性产生机制, 结合 bootstrapping 随机重采样和偏互信息(partial mutual information,PMI)相关分析构建一组多样性的输入特征子集,并据此建立一组多样性的高斯过程 回归(Gaussian process regression,GPR)基模型。然后,基于进化多目标优化(evolutionary multi-objective optimization, EMO)算法实现集成修剪, 从而获得一组规模较小而且同时满足多样性和准确性要求的 GPR 基模型。最后,采用 Stacking 集成策略实现多样性基模型的融合。在应用案例部分,通过对青霉素发 酵过程和 Tennessee Eastman (TE)化工过程的建模研究,验证了 EMO-SEGPR 软测量方法的有效性和优 越性。 2 算法介绍 2.1 高斯过程回归 高斯过程(Gaussian process, GP) 是任意有限个随机变量均具有联合高斯分布的集合。对于输入输出 样本集 1 , n ii i y DX yx,考虑如下回归模型 2 n , 0,yfN x (1) 其中,x 为输入向量,n 为输入样本点的总数,f()为未知函数,y 是受到噪声干扰的观测值, 是均值为 0、方差为 2 n 的高斯噪声。在函数 f 空间上,一个高斯过程完全由均值函数 m(x)和协方差函数 C(x,x)确 定,即 Emf xx (2) ,ECfmfm x xxxxx (3) 如果数据已经进行了适当的预处理,可以假设训练样本集产生于一个零均值高斯过程,即输出观测 值服从 0,NyC (4) 其中 C 为一个 nn 对称正定的协方差矩阵, x 为x的转置计算。 682 高 校 化 学 工 程 学 报 2019年6月 对于一个新的测试输入 x,训练输出 y 和测试输出y的联合先验分布为 T 0, , N Cy Cky kx x (5) 其中, T 1 =, n CC kx xx x为测试点 x与训练集输入之间的 n1 阶协方差矩阵;,C x x为测 试点 x自身的协方差。给定了协方差函数,测试输出y的后验分布为 , ,yN y X y x (6) 这里, y 和 2 按下式计算 T1 Eyy k Cy (7) 2T1 1 Var,yC x xk C k (8) 其中, E 和 Var 分别表示均值和方差算子。 y 和 2 分别表示 GPR 模型测试样本点 x的预测值和预 测方差。 GPR 模型的建立首先要确定协方差函数,所选的协方差函数要能在任何数据集上产生非负定协方差 矩阵,同时希望相邻的输入产生相邻的输出。因此,选择带噪声项的 Maten 协方差 22 f 33 ,1exp ijij ijnij C ll xxxx x x (9) 其中, 2 f 为输出尺度,l为输入尺度, 2 n 为噪声方差;i = j时, 2 f = ij , 否则ij = 0。 超参数集合 22 f,1,n 通过极大似然法求得。训练样本上的对数似然函数为 T1 11 logloglog 2 222 n p y Xy CyC (10) 对超参数求偏导: 1T11 log 11 tr 22 p y X CC Cy CCy (11) 其中, C 可以从协方差函数求得, tr 表示计算矩阵的迹。 GPR建模技术由于存在非线性处理能力强、能提供预测不确定信息、参数设定简单等独特优势,在 本文中将用于构建集成学习基模型。 2.2 偏互信息 互信息(mutual information,MI)是信息论里的一种非参数、非线性相关性评价指标。MI能评估输入 变量与输出变量之间的相关程度,但是忽略了输入变量之间的独立性。而PMI27不仅可以评价候选变量 与输出变量之间的相关性,同时还考虑了输入变量之间的冗余度问题。PMI的计算式如下: , , , PMI,lnd d X Yii X Yii XiYi fx y X Y Zfx yx y fxfy (12) 其中, E,Exxx Zyyy Z (13) 式中,x,y 表示样本数据集的冗余成分, X fX 和 Y fY 是边缘概率密度,fXY(x,y)是联合概率密度。 给定已选输入变量集Z,PMI满足:(i) 对称性,即PMI,PMI,X Y ZY X Z;(ii) 非负性, PMI,0X Y Z ,在Z条件下X与Y相互独立时等号成立。Z 时,PMI,MI,X Y ZX Y。 基于离散样本的PMI值可估计如下: , 1 ,1 PMI,ln n X Yii i XiYi fx y X Y Z nfxfy (14) 其中,, ii x y表示数据集中第i个样本的剩余信息。 第 33 卷第 3 期 金怀平等:基于进化多目标优化的选择性集成学习软测量建模 683 3 EMO-SEGPR 软测量建模 3.1 多样性 GPR 基模型构建 在集成学习中,增强基模型的多样性能有效提升集成模型的泛化性能。本文通过挖掘输入特征扰动 机制,从而构建一组多样性的基模型。常见的特征扰动方法如随机子空间法,更适用于特征较多的样本 数据,若特征较少或冗余特征很少,反而不利于模型性能的提升28。而且,输入特征的随机选择将难以 保证基模型的预测性能。一种更为有效的特征选择方法是,采用某种相关性准则评估待选变量与输出变 量之间的相关性。但是,其选择结果易受建模样本选择的影响。因此,提出一种样本采样与相关分析相 结合的多样性子空间构建方法。其基本思想是:首先通过bootstrapping重采样获得一组多样性的建 模样本子集 1 , M mm m Xy, 然后对每个子集进行PMI相关分析, 从而获得一组多样性的输入子空间 1 M m m S。 为了选择与输出变量相关性较强的变量, 同时解决输入变量之间的冗余问题, 选用PMI相关性准则。 首先,采用k最近邻(k-nearest neighbor,kNN)法27对PMI值进行估计,其中使用k折交叉验证和置换检 验方法29确定最优最近邻数目。然后,确定PMI阈值(决定何时停止输入变量选择),本文使用一种统计 置信限来判断输入与输出变量是否相关。对于一个候选变量,重复p次bootstrapping算法产生多个随机 化变量,然后从中确定第 百分位,以此作为变量相关性的重要性判别阈值。若原始变量的PMI值大 于阈值,则认为该变量与输出变量相关。在本研究中,p = 100, = 95%。 对于一个bootstrapping重采样子集,PMI变量选择步骤如下: (1) 初始化输入变量集 1 d i i SX ,已选变量集S ;Y为输出变量; (2) 确定kNN估计器的最佳最近邻数目,并计算每个输入变量与输出变量的PMI, i X Y S; (3) 选出(2)中PMI得分最高的变量 X ,如果该PMI值高于第95百分位随机化PMI阈值,则将其 加入 S ,即, ii SSXSSX,否则终止变量选择; (4) 重复(2)和(3)直至选出所有重要变量。 通过上述方法获得一组多样性的输入子空间,由对应的变量索引提取原始训练样本,从而构建一组 多样性的GPR基模型 1 GPR M m 。GPR模型是一种概率性的非参数模型,其优势在于模型输出具有概率 意义,可以同时提供预测均值和预测方差。其中,预测方差可以用来评估预测值的可信度。GPR m 预 测模型可以描述如下: T1 ,new,new,new 2T1 ,new,new,new,new,new,new E Var, mmmmm mmmmmmm yy yC kCy xxkC k (15) 式中, T ,newnew,1new , mmm,n CC kxxxx, ,new my和 2 ,newm 分别为基模型GPR m 的预测均值和方差。 3.2 基于进化多目标优化的集成修剪 在GPR基模型的构建过程中,难免存在部分GPR基模型相关性强、预测性能不佳的现象。若将所 有基模型用于集成建模,势必造成集成模型复杂度的提升,甚至恶化预测性能。解决这一问题的有效方 法是移除部分基模型,即集成修剪30。 对初始GPR基模型执行集成修剪的核心问题在于,如何挑选一组较小规模的GPR基模型,而且尽 可能保证基模型的预测性和多样性。然而,这两个指标往往存在一定程度的冲突,是典型的多目标优化 问题。因此,本文将基模型的集成修剪问题转化为如下多目标优化问题: 12 max,ff (16) f1,f2为目标函数,分别衡量基模型的预测精度和多样性。 为求解上述多目标优化问题,首先需要确定决策向量、约束条件、目标函数的具体形式。假设生成 了M个GPR基模型,对每一个基模型进行二进制编码,其中每一位编码表示是否选中相应的GPR基模 型,1表示选中该模型,0表示未选中,然后将这一组二进制变量作为决策向量。为了有效控制选择到的 684 高 校 化 学 工 程 学 报 2019年6月 模型个数,将模型选择数目Mselect作为约束条件。 对于基模型的预测精度指标,先估计单个模型的预测精度,再将所有基模型的估计值平均作为整体 预测精度。为此,将基模型均方根误差(root-mean-square error, RMSE)作为预测精度指标,RMSE越小, 则基模型预测精度越高。给定验证样本 valvalval ,DXy,精度目标函数定义为: val 1 avg,val RMSE RMSE M i i M (17) 其中, val RMSEi为基于验证样本的单个GPRm模型的预测均方根误差。 对于基模型的多样性指标,目前仍没有统一的定义。本文提出使用相关系数作为多样性衡量指标, 其基本思想是:两个基模型之间的差异越大,预测误差系列之间的相关系数指标就越小。为衡量集成多 样性,先估计任意两个基模型之间的差异性,即相关性系数: Cov, , VarVar ij ij ij r e e e e ee (18) 其中,, ij e e分别表示任意两个GPR基模型的预测误差, Cov 用于计算任意两个误差之间的协方差, Var 表示方差算子。最后将(18)式得出的所有相关系数值平均作为集成多样性指标: selectselect 1 11 avg,val 2 selectselect , 2 MM ij j ii r r MM e e (19) 综上分析可知, 最大化基模型的预测精度和多样性相当于最小化式(17)和式(19)两个衡量指标。 因此, 式(16)中的最大化多目标优化问题转化为如下最小化优化问题: avg,valavg,val min RMSE,r (20) 接下来对上述多目标优化问题进行求解。传统最优化方法对目标函数、约束函数要求较高,而且最 优性达到的条件太苛刻。相比而言,进化优化通过模拟生物进化过程与机制求解,其优势在于通用性较 强、对优化问题没有过多的特殊要求。因此,进化多目标优化算法在实际应用中日益受到青睐31-33。本 文选用的是带精英策略的非支配排序的遗传算法(non-dominated sorting genetic algorithm,NSGA-), 由2002年DEB等34对其算法NSGA的改进,是目前为止最优秀的进化多目标优化算法之一。 采用NSGA-优化实现集成修剪的主要步骤如下: (1) 对基模型的选择问题进二进制编码,随机初始化每个个体的染色体,生成大小为P的初始种群 0 t P 。 (2) 对种群Pt中的每一个个体进行评估。从染色体上解码决策向量,确定被选中的GPR基模型,然 后基于验证样本集评估每个被选中基模型的预测性能,并计算两个优化目标。 (3) 重复以下步骤,直到满足终止条件。 3a) 对种群进行非支配排序,并计算所有非支配解的拥挤距离。 3b) 利用二进制锦标赛选择、交叉和变异,生成一个与Pt相同大小的子代Qt。 3c) 重复步骤(2)对Qt进行评估。 3d) 结合 ttt RPQ,保留精英父代,根据非支配排序方法进行排序。 3e) 从Rt中获取P个解来创建新的一代Pt+1,增加进化代数。 (4) 使用非支配排序找出在上一代合并后的个体中的最优解。 通过设置合适的种群数和迭代数进行优化,得到Pareto最优解集,其中任意一个Pareto解对应一个 基模型选择的二进制变量组合。然后对二进制染色体串解码,由此选出参与集成的GPR基模型,从而实 现基模型的集成修剪。 3.3 多样性 GPR 基模型集成 通过3.2节的集成修剪操作,最终选出Mselect个GPR基模型参与集成。给定测试样本Xnew,相应可 1tt 第 33 卷第 3 期 金怀平等:基于进化多目标优化的选择性集成学习软测量建模 685 获得Mselect个预测值。最后融合局部预测值得到最终估计值。要达到满意的预测效果,需选择合理的集 成策略。由于基模型的预测性能往往存在差异,因此加权集成策略是一种合理选择。当训练数据很多时, 一种强大的集成策略是学习法,即通过另一个学习器进行结合。Stacking35是学习法的典型代表,它先从 初级数据集训练初级学习器,然后生成一个新数据集用于训练次级学习器。在新的训练数据中,初级学 习器的预测输出被用作次级学习器的输入。 本文在Stacking框架下采用偏最小二乘法(partial least squares,PLS)对GPR基模型进行集成,最佳 主成分个数由交叉验证确定。 假设 select 1 M m m y 、 select 2 1 M m m 为基模型的预测输出和方差, 则基于PLS的Stacking 集成输出可以表示为: selectselect 01122 = + MM yww yw ywy (21) 根据不确定度合成原理,集成预测方差 2 可计算为36: selectselect 2 22 11 =2 MM iijij iij iij yyy yyy (22) 其中, i 和 j 为任意两个基模型的预测输出不确定度; ij 为不确定度变量 i 和 j 的之间的相关系数。 根据式(21)可知, ii wyy ,因此式(22)所示的集成预测方差可重写为: selectselect222 11 2 MM iiijijij iij w w w (23) 由式(23)可以看出,集成预测方差取决于基模型自身的预测方差水平和预测方差之间的相关程度。 如果基模型完全独立,则0 ij ,集成预测方差退化为 select 222 1 M iii w 。但在实际应用中,基模型之间 难免存在某种程度的相关性,即0 ij 。由于真实的 ij 值无法获得,本文按以下方法对其进行估计。给 定验证样本集 valvalval ,DXy,可获得任意两个GPR基模型在 val D上的预测均值向量和方差向量 ,val,val,val,val ,;, iijj yy。此时, ij 可估计为: ,val,val ,val,val Cov, VarVar ij ij ij (24) 除了“学习法” ,GPR基模型还可以通过其他方式进行融合。例如,一种应用较为广泛的方法是通 过GPR的预测方差信息实现融合37-38。 3.4 实施原理 EMO-SEGPR软测量方法的基本原理如图1所示。具体实施步骤如下: (1) 采集输入输出样本,将样本分为训练集、验证集和测试集; (2) 通过bootstrapping随机重采样,生成多个训练样本子集; (3) 采用PMI准则对每个训练样本子集进行相关分析,从而构建多样性输入子空间,然后提取对应 的原始训练样本,建立GPR基模型; (4) 通过进化多目标优化算法对(3)得到的GPR基模型实施集成修剪得到Pareto最优解集; (5) 选取一个Pareto最优解进行解码,确定最终选中的GPR基模型,并建立PLS集成模型; (6) 对新的测试样本,首先给出GPR基模型的预测输出和预测方差,然后采用PLS stacking集成融 合,最终得到测试样本的集成预测输出和预测方差。 4 应用案例研究 为了验证EMO-SEGPR软测量建模方法的有效性,本文以青霉素发酵过程和TE化工过程作为应用 案例。实验中比较了如下方法:(1) GPR:使用单一的输入变量集建立全局模型;(2) EGPR:仅使用多样 性的输入子空间进行集成建模;(3) EMO-SEGPR:本文提出的方法,使用多样性的输入子空间进行集成 建模,并考虑集成修剪。 此外,EGPR、EMO-SEGPR方法对比了3种集成策略:简单平均法(simple averaging rule,SA)、预测方差集成(prediction variance based ensemble, PVE)20、PLS stacking集成。 686 高 校 化 学 工 程 学 报 2019年6月 new y 图 1 EMO-SEGPR 软测量建模方法原理框图 Fig.1 Schematic diagram of the proposed EMO-SEGPR soft sensor method 模型预测性能评价采用均方根误差RMSE和决定系数 2 R: test 2 1 test 1 RMSE N ii i yy N (25) test test 2 2 1 2 1 R1 N ii i N ii i yy yy (26) 其中, test N为测试样本的数目,iy, i y和 i y分别为估计值、实 际值和实际输出的均值。 4.1 青霉素发酵过程 青霉素发酵过程被广泛用于间歇过程的建模、监控和控 制的研究。图2给出了青霉素发酵过程的工艺流程图。本文 以青霉素浓度作为主导变量,以表1所列过程变量作为辅助 变量建立软测量模型。建模数据来源于PenSim 2.039平台, 发酵周期为400 h,采样时间间隔为2 h,共收集20批青霉素 图 2 青霉素发酵过程流程图 Fig.2 Flowchart of the penicillin fermentation process 第 33 卷第 3 期 金怀平等:基于进化多目标优化的选择性集成学习软测量建模 687 0.02000.02050.02100.02150.0220 0.54 0.56 0.58 0.60 0.62 0.64 0.66 Pareto front Mselect= 20 Objective l: Accuracy 图 3 青霉素发酵过程中 EMO-SEGPR 方法使用 NSGA-II 优化获得的 Pareto 前沿 Fig.3 Pareto front obtained from NSGA-II optimization for EMO-SEGPR in the penicillin fermentation process Objective 2: Diversity 010203040506070 0.0 0.5 1.0 1.5 base model Mselect=20 State of model selection Base model 图 4 青霉素发酵过程中 GPR 基模型 二进制选择结果 Fig.4 Binary selection results of base GPR models for the penicillin fermentation process 发酵过程数据。将发酵数据分为训练集(8批, 50%)、验证集(4批,25%)、测试集(4批, 25%)。其中,训练集用于模型训练,验证集 用于多目标优化适应度函数的计算,测试集 用于软测量模型的性能评估。 图3显示了EMO-SEGPR建模中NSGA- 优化产生的Pareto前沿图。其中,进化的 种群数、 迭代数、 选择的基模型数分别取500、 100和20。实验中,仅选择其中一个Pareto 解进行解码,并用于EMO-SEGPR建模。本案例研究中,初始构建了66个GPR基模型,经过NSGA-II 优化最终选择其中20个基模型参与集成建模。图4显示了基模型的二进制选择结果。 表2比较了不同软测量建模方法在青霉 素发酵过程中的预测误差。可以看出,GPR 的预测精度远低于EGPR和EMO-SEGPR方 法,这是因为GPR并未考虑输入变量选择 的多样性。 相比而言,EGPR和EMO-SEGPR 通过结合输入特征扰动和集成学习,获得了 显著的性能提升。此外,实验比较了3种集 成策略,可以看出,EMO-SEGPR方法有效 剔除了冗余子模型,从而大幅度降低了集成 建模的复杂度。而且,EMO-SEGPR在3种 集成策略下均表现出最佳预测性能,其中 PLS stacking集成效果最佳。因此,本文提 出的EMO-SEGPR方法表现出了较好的预 测性能。 此外, 图5显示了基于EMO-SEGPR (PLS stacking)方法的青霉素浓度预测趋势 曲线。由图可见,EMO-SEGPR模型预测值 与实 际值 高 度吻 合, 由 此进 一步 说 明 EMO-SEGPR软测量方法的良好性能。 表 1 青霉素发酵过程中用于软测量建模的输入变量 Table 1 Input variables for soft sensor development in the penicillin fermentation process Variable description Variable description 1. Culture time / h 8. Substrate feed temperature / K 2. Aeration rate / (Lh1) 9. Dissolved oxygen concentration / (gL1) 3. Agitator power / W 10. Culture volume / L (stream 10) 4. Substrate feed rate / (Lh1)11. Carbon dioxide concentration (gL1) 5. Generated heat / kcal 12. Fermenter temperature / K 6. Acid flow rate / (Lh1) 13. pH (-) 7. Base flow rate / (Lh1) 14. Cooling water flow rate / (Lh1) 表 2 不同软测量方法在青霉素发酵过程中的预测误差 Table 2 Prediction results using different soft sensor methods for the penicillin fermentation process Method EnsembleRMSE R2 GPR - 0.028 7 0.996 1 EGPR (SA) All 0.018 9 0.998 3 EGPR (PVE) All 0.018 6 0.998 4 EGPR (PLS stacking) All 0.022 1 0.997 7 EMO-SEGPR (SA) Selective0.018 1 0.998 5 EMO-SEGPR (PVE) Selective0.017 9 0.998 5 EMO-SEGPR (PLS stacking) Selective0.017 1 0.998 6 0100200300400500600700800 0.0 0.4 0.8 1.2 1.6 2.0 2.4 RMSE = 0.017 16 R2 = 0.998 6 2 standard deviation actual value predicted value Test sample number 图 5 青霉素发酵过程中基于 EMO-SEGPR (PLS stacking)方法的 青霉素浓度预测趋势曲线 Fig.5 Trend plots of penicillin concentration predictions using EMO-SEGPR (PLS stacking) method for the penicillin fermentation process Penicillin concentration / (gL1) 688 高 校 化 学 工 程 学 报 2019年6月 表 3 TE 化工过程中用于 EMO-SEGPR 软测量建模的输入变量 Table 3 Input variables for soft sensor development in TE chemical processes Variable Variable Variable No.1 Stripper pressure No.13 D feed flow(stream2) No.25 Reactor cooling water flow No.2 Reactor level No.14 E feed flow (stream3) No.26 Recycle flow (stream 8) No.3 Reactor temperature No.15 A feed flow (stream1) No.27 Reactor feed rate (stream 6) No.4 Stripper steam valve No.16 Compressor recycle valve No.28 Stripper underflow (stream 11) No.5 Reactor pressure No.17 Purge valve (stream 9) No.29 Stripper liquid product flow(stream 11) No.6 Agitator speed No.18 Compressor work No.30 Product separator underflow(stream 10) No.7 A feed (stream 1) No.19 Purge rate (stream 9) No.31 Reactor cooling water outlet temperature No.8 D feed (stream 2) No.20 A and C feed (stream 4) No.32 Separator pot liquid flow(stream 10) No.9 E feed (stream 3) No.21 Product separator pressure No.33 Separator cooling water outlet temperature No.10 Stripper seam flow No.22 A and C feed flow (stream 4) No.34 Condenser cooling water flow No.11 Stripper temperature No.23 Product separator pressure No.12 Stripper level No.24 Product separator level 图 6 TE 化工过程工艺流程图 Fig.6 Flowchart of the TE chemical process 4.2 TE 化工过程 TE化工过程40是基于实际工业过程的模拟仿真,其工艺流程如图6所示。TE生产过程主要有A、 C、D和E四种气态物料参与反应,生产出两种产品G、H,并伴有一种副产品F。TE过程主要包括41 个测量变量和12个操纵变量。在本实验中,选用如表3中所示的22个连续测量变量和12个操纵变量作 为原始输入,Stream 9中的E成分浓度作为软测量模型的输出。输入和输出数据在5个不同操作模式下 以12 min的采样间隔采集获得,并将其分为训练集(50%)、验证集(25%)、测试集(25%)。 图7给出了由NSGA-II优化的Pareto前沿。其中,进化的种群数、迭代数、选择的GPR基模型数 分别取300、100和30。对TE过程,通过输入特征扰动构建了85个多样性GPR基模型,然后进行优化 选出30个最佳基模型,集成修剪结果如图8所示。 第 33 卷第 3 期 金怀平等:基于进化多目标优化的选择性集成学习软测量建模 689 Objective 1: Accuracy 图 7 TE 化工过程中 EMO-SEGPR 方法使用 NSGA-II 优化获得的 Pareto 前沿 Fig.7 Pareto front obtained from NSGA-II optimization for EMO-SEGPR method in TE chemical process Objective 2: Diversity 0.3040.3080.3120.316 0.870 0.875 0.880 0.885 0.890 0.895 Pareto front Mselect= 30 01020304050607080 0.0 0.5 1.0 1.5 base model Mselect= 30 State of model selection Base model 图 8 TE 化工过程中 GPR 基模型二进制选择结果 Fig.8 Binary selection results of base GPR models for TE chemical process 表4给出了不同软测量建模方法的预测结果。同时,图9给出了基于EMO-SEGPR (PLS stacking)的 E成分预测趋势曲线。由表4可知,基于输入特征扰动的集成学习软测量模型EGPR和EMO-SEGPR明 显优于常规的全局模型GPR。相比于EGPR,集成修剪策略的引入使得EMO-SEGPR实现了模型复杂度 的大幅下降,同时维持了较高的预测性能。对比不同的集成策略可看出,基于PLS stacking的集成效果 显著优于其他两种集成方法。总体上,所提出的EMO-SEGPR
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度城市核心区厂房搬迁改造项目产权互换及补偿合同
- 2025年高速公路建设项目勘察与工程设计咨询服务合同
- 2025年新型周转材料供应与品牌联盟及全球市场推广合同
- 2025年新一代基因测序设备采购与服务合同
- 2025年度大型素食餐厅全面餐饮服务合作协议
- 2025年智慧物流企业员工快递信息保密协议样本下载
- 2025年医用耗材区域代理合同书-竞争限制与利益共享
- 2025年农业产业链金融服务担保合同
- 2025小青瓦古建筑修复与旅游资源整合开发服务合同
- 2025年KTV连锁品牌使用权转让与全方位经营管理合同
- 《组织行为学》(MBA)课件
- HG20615-RF法兰标准尺寸
- 计算机组装与维护完整版课件(全)
- 儿科常见疾病双向转诊指南
- 中国传媒大学-电视播音员主持人形象设计与造型(第2版)-课件
- 一键自动生成spccpkMSAPPK数据工具
- 装表接电课件(PPT 86页)
- 病例报告表(CRF)模板
- 脑卒中二级预防的指南
- 德国申克振动筛
- 常用危险化学品储存禁忌物配存表
评论
0/150
提交评论