过程回归建模综述_第1页
过程回归建模综述_第2页
过程回归建模综述_第3页
过程回归建模综述_第4页
过程回归建模综述_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

过程回归建模综述摘要:工业生产中常常需要对某些难以直接测得或者测量成本很高的变量进行软测量建模。目前已经有许多软测量建模方法,包括机理,数据驱动以及这两者的结合。本文则从其中一种软测量建模方法回归建模出发,介绍了几种常见的回归建模方法,简单分析其原理并简要简绍它们的一些应用。关键字:软测量,建模,回归引言在过程控制中,若要使生产装置处于最佳运行工况、实现卡边控制、多产高价值产品,从而提高装置的经济效益,就必须要对产品质量或与产品质量密切相关的重要过程变量进行严格控制1。由于工业生产中装置是不断运行的,生产产品的浓度、质量等指标是动态变化的,利用一些在线传感器,不仅成本较高,并且由于一定的滞后性,导致最后不能精确监测生产过程中的一些指标,难以满足生产需求。除此之外,许多复杂的化工过程中往往不能使用传感器来对某一变量进行直接测量。例如化工生产过程中,精馏塔产品组成成分,塔板效率,干点、闪点等;一些反应器中不断变化的产品浓度,转化率以及催化剂活性等等1。这就使得软测量技术被提出并不断发展起来。回归分析是建模的一种基本方法,在软测量建模中应用相当广泛2-9。常用的方法有部分最小二乘回归法(PLSR)、多元线性回归(MLR)、多元逐步回归法(MSR)、主元回归法(PCR)等。本文将简略介绍以上几种回归建模的方法以及它们的应用,并进行各自方法的特点、优势进行简单分析。1 软测量和回归分析的关系所谓软测量技术,就是将不可测变量(称为主导变量)进行间接测量,通过建立与之相关系的其他变量(辅助变量)之间的数学关系模型,进行在线的估计。这类方法响应迅速,实时性好,可靠性高。它可以很好的解决变量不可测量的问题,也为对生产过程的监测控制节省了大量成本。软测量的应用范围很广,它最原始和最主要的应用都是有关对过程变量的预测,而这些变量可以通过低频率采样或者离线分析确定。同时,这些变量经常涉及到过程输出的品质,对于过程的分析和控制显得尤为重要。由于这些原因,如何在高采样频率或者低成本的情况下利用适当的软测量建模方法来获得过程变量的信息是非常重要的。目前软测量建模也发展出多种方法10,各自都有其优缺点,选择适当的软测量建模方法,对工业生产具有很大意义。回归分析是统计数学的一个重要分支,在实验数据处理中又称为“曲线拟和”。回归分析有多种形式,按因变量和自变量是否存在线性关系可分为线性回归(Linear Regression)和非线性回归(Nonlinear Regression);按自变量的个数又可分为一元回归(Single Regression)和多元回归(Multiple Regression)。同时,回归分析也是一种建模方法,是数据驱动类软测量的一种。2 多元回归分析2.1 基本原理MLR(Multiple Linear Regression)多元线性回归问题能够阐述为m个变量与一个变量之间的线性关系。它的数学表示为: (2-1) (2-2) (2-3)上式中,为自变量,为自变量。和分别为回归系数和残差数。以上式子只描述了存在一个样本的情况,如果有n个样本,那么可以写成一个列向量,b不变,向量能写成矩阵的形式 (2-4)当自变量的个数大于样本的个数,式中的b有无穷多个解。当变量的个数等于样本的个数,这种情况在现实中很少见。尽管如此,在X满秩的前提下,b有唯一解。此时,可以把公式写成:,其中e称为残差向量,此时它为零向量。当变量的个数小于样本的个数,此时,得不到b的准确解。最常用的方法是采用最小二乘法,获得的解为:,但有可能会遇到逆不存在的情况。2.2 MLR的应用用MLR建立的线性回归模型物理意义明确,计算简单。因此它广泛应用于处理多因变量或多指标的回归分析、方差分析等统计分析问题。文献11采用MLR的方法建模,对蒸馏装置常压塔的分子筛料干点的软测量进行了仿真试验。文献12则利用多元线性回归获得系统的预估马尔科夫参数,用来进行状态空间辨识,提出一种辨识算法SSARX-MLR。MLR的缺点是仅限于解决操作点变化范围较小的线性问题或非线性不太严重的问题。3 多元逐步回归3.1 基本原理当应用回归分析去处理实际问题时,一个重要问题就是选择回归自变量。一般说来,根据问题本身的专业理论及有关经验,研究人员往往尽可能多地罗列出可能与因变量有关的自变量,避免遗漏重要变量。其中有一些变量对因变量实质上根本没有影响或影响很小。如果回归模型把这样一些变量都包含进来,不但计算量大,而且估计和预测的精度也会下降。在有些情况,获得某些自变量的观测数据所花的代价较大,如果这些自变量本身与因变量的关系很小或根本就没有关系,但错误地选进模型,会使模型应用的费用不必要地升高。正是由于这些原因,在应用回归分析时,有必要对进入模型的自变量作一定的筛选。筛选自变量的方法有很多,其中多元逐步回归(Multiple Stepwise Regression,简记MSR)是目前使用较为广泛的选择最优回归方程的方法。具体做法是,事先给定一个剔选变量的标准。按自变量对因变量的贡献大小由大到小依次挑选进入方程:每选入一个变量进入方程,则重新计算各自变量对因变量的贡献。并考察已在方程中的变量是否由于新变量的引入,其作用被新变量代替或部分代替了,抑制了它的作用并退化为不显著。如果有,则将它剔除。并重新计算各自变量对因变量的贡献。如仍有变量低于入选标准,则继续考虑剔除,直到方程内变量均符合入选标准,没有自变量可被剔除,再考虑选变量。直到方程内没有变量可被剔除,方程外没有变量可被引进为止。剔选变量的过程结束。3.2 算法分析MSR方法的基本步骤是依次拟合一系列回归方程,后一个回归方程是在前一个的基础上增加或删除一个变量,其增加或删除某个自变量的准则是用残差平方和的增加和减少量来衡量,一般采用如下的偏F检验统计量。设模型中已有个自变量,记这个自变量的集合为A,当不在A中一个自变量加入到这个模型中时,偏统计量的一般形式为: (3-1)它是MSR方法中增加一个或删除一个自变量时所用的基本统计量。式(3-1)中的SSE为残差平方和,SSR为回归平方和,MSE为均方误差,n为样本数量。首先,根据一定显著水平,给出偏检验统计量13的两个临界值,一个用作选取自变量,记为;另一个用作剔除自变量,记为。一般地,取=(关于与的具体选择见后面说明)。然后按下列步骤进行:第一步,对每个(),M为变量的个数,拟合仅包含的一元线性回归模型 (3-2)其中,为因变量,为未知参数,为误差项。这时,相应于统计量F中集合A为空集,因此SSE(A)=SST,SSR()=SST-SSE(),MSE()=MSE(),SST为总的离差平方和。对每个k,计算 (3-3)它度量了将引入模型后,残差平方和的相对减少量。设,若,则选择含的回归模型为当前模型。否则,没有自变量进入模型,选择过程结束。这时认为所有自变量对Y的影响均不显著。第二步,在第一步选出的模型的基础上,再将其余M-1个自变量个加入到此模型中,拟合模型并计算 (3-4)设,若,则选取过程结束。在第1步选择的模型(即仅含的线性回归模型)为最优模型。若,则将加入到的第1步所选的模型中,即有 (3-5)进一步考察,当进入模型后,对的影响是否仍显著。为此计算 (3-6)若,则剔除,这时仅含的回归模型为当前模型。否则(3-5)为当前模型。第3步在第2步所选模型的基础上,再将未在模型中的自变量逐个加入,拟合各模型并计算相应的偏F检验统计量的值,于疋比较以决定是否有其它变量可进入模型。若有新的自变量进入模型,再检验原模型中的自变量是否因这个新变量的进入而被删除。重复以上步骤,直到没有自变量能进入模型,同时己在模型中的自变量均不能被剔除,在选择过程结束,最后一个模型即认为是最优的。3.3 MSR的应用MSR的基本思想是将变量逐一引入回归方程。建模过程中,直到所有的老变量均不能剔除,新变量也不能加入时回归过程才结束。MSR可以剔除输入信息中的不重要部分。文献14采用MSR建立软测量模型,实现催化裂化装置柴油闪点的在线软测量。文献15则采用逐步回归思想应用到动态参数估计中,并举了3个化工过程的例子来验证其提出方法的有效性。4 偏最小二乘回归4.1 基本原理偏最小二乘回归(PartialLeast-SquaresRegression,PLS)是由Wold于1983年提出的一种新型的多元统计分析方法16。它集多元线性回归、主成分分析和典型相关分析的基本功能为一体,可以较好地解决自变量之间多重相关性和样本点容量不宜太少的问题。近20年以来,偏最小二乘回归在理论、方法和应用方面都得到了迅速发展。下面介绍偏最小二乘回归是如何提取成分来达到有效建模目的的。设有包含P个自变量行个样本点的数据和包含q个因变量n个样本点的数据。偏最小二乘回归分别在与中提取出成分和在提取这两个成分时,和必须满足下面两个条件。(1)和应尽可能多地携带它们各自数据表中的信息;(2)和的相关程度能够达到最大。在第一个成分和被提取后,偏最小二乘回归分别实施对的回归以及对的回归。如果回归归方程已经达到满意的精度,则算法终止。否则,将利用被解释后的残余信息以及被解释后的残余信息进行第二轮的成分提取。如此反复,直到能达到一个较满意的精度为止。若最终对共提取了m个成分,偏最小二乘回归将通过施行 对的回归,然后表达成关于原变量的回归方程。4.2 主要步骤设经过标准化处理之后的数据矩阵为,经过比标准化处理之后的数据矩阵为。(1) 记是的第一个成分,记是的第一个成分,。要求和能分别很好地代表与中的信息,应该有和均取得最大值。另一方面,又要求对有最大的解释能力,即与的相关程度应达到最大值因此在偏最小二乘回归中体现为与的协方差达到最大。数学表述为求解下列优化问题,即 (4-1) 利用拉格朗日法可得 (4-2)对s分别求关于的偏导数并令其等于0,则可以得到下式 (4-3)记,所以,正是优化问题的目标函数值,经推导可得 (4-4) (4-5)可见,是矩阵的特征向量,对应的特征值为,要取最大值,所以是对应于矩阵最大特征值的单位特征向量。同理,是对应于矩阵最大特征值的单位特征向量。由和,即可得到成分,。然后,即可得到和对的回归方程 (4-6)其中,为回归系数向量,和分别是两个回归方程的残差矩阵。(2) 用残差矩阵和取代和,然后,求第二个轴和以及第二个成分和,有,是对应于矩阵应最大特征值的单位特征向量,是对应于矩阵最大特征值的单位特征向量。如此计算下去,如果的秩是A,则有 (4-7) (4-8)由于均可表示成的的线性组合。因此,上式可以还原关于的回归方程形式,即 (4-9)其中是残差矩阵的第k列。4.3 PLS的应用PLS是一种单步分解和回归的方法,能用于非常复杂的混合情况,可对噪音的样本进行回归。文献17利用PLS建模,用于对间歇式蒸馏设备的监控。文献18采用偏最小二乘回归建立烟煤水分预测模型,达到了很小的误差。但PLS的缺点是计算速度慢,模型较抽象。5 主元回归法5.1 基本原理一个现实系统通常包含多个变量,这会使得对系统的分析变得复杂。但在实际问题中,多个变量之间可能存在一定的相关性,也就是它们之间可能存在重叠的信息。PCR方法就是利用多变量之间的相关性、重叠性,原来较多的变量由几个较少的相互独立变量代替并保留系统的主要过程信息,从而用这几个较少的变量对系统进行分析,减少对系统分析的复杂性。PCR最早是由Pearson于1901年提出的,其后Hotelling对PCR方法加以改进,使PCR成为了目前被广泛应用的方法。主元分析法是目前研究的较多的多元统计分析过程监测方法之一,并且已在工业过程的数据处理和故障诊断中得到了广泛的应用。5.2 算法分析假设俨代表了正常工况下离线数据中的传感器和执行器的m个测量样本,每个传感器或执行器都有n个独立样本。从而构成一个数据矩阵,其中每一行代表一个样本,每一列代表一个变量。PCR方法将的每一列减去相应的变量均值且除以相应的变量标准差。这就是对于矩阵的预处理过程,也称为标准化过程,即的各列都处理成零均值且单位标准差的变量。将矩阵进行标准化处理得到矩阵见下式 (5-1)式中和分别表示矩阵和中的每个元素,和分别表示矩阵中的列均值和列标准差。可将矩阵分解为m个向量的外积之和,即: (5-2)其中,被称为得分向量,称为负荷向量,把上式写出矩阵形式可得 (5-3)T称为得分矩阵,P称为负荷矩阵。各个得分向量彼此之间是独立正交的,负荷矩阵P是标准正交矩阵。将式(5-3)两侧同时右乘一个负荷向量pi,则可以得到下式 (5-4)上式表明每一个得分向量是原始数据矩阵在与相对应的负荷向量方向上的投影向量。得分向量的模反映了数据矩阵在与此相应的负荷向量方向上的覆盖程度。它的长度越长,表明数据矩阵在负荷向量方向上的覆盖的程度或变化的范围就越大。将得分向量按照其长度做如下排列: (5-5)其中,表示的是向量的2-范数。由此可见,负荷向量代表数据矩阵变化最大的方向,与垂直并代表数据变化的第二大方向,将代表数据矩阵变化最小的方向。定义标准化后的数据矩阵的协方差矩阵S由下式得到: (5-6)对矩阵进行主元分析实际上等效于对的协方差矩阵S进行向量分析。矩阵的负荷向量实际上是S的特征向量,得分向量的长度是S的特征值大小。如果将S的特征值做如下排列:,那么与这些特征值相对应的特征向量,.,为矩阵的负荷向量。)。将上式进行特征值分解,并且按照特征值大小降序排列,就可以将矩阵进行如下分解: (5-7)式中,由S的前k个特征向量构成。,的各列被称为主元变量,k表示主元个数,E为残差矩阵,是由测量噪声引起的,代表在到等负荷向量方向上的变化。当数据矩阵中的变量间存在一定程度的线性相关时,最前面的几个负荷向量的方向将会体现数据矩阵的主要变化,而数据矩阵在最后面的几个负荷向量上的投影将会很小,它们主要是由于测量噪声引起的。5.3 PCR的应用PCR是一种数据压缩和信息提取方法,它通过对原始数据集合进行压缩,找出变量的线性组合,以较少的变量或因子来描述数据集的主要趋势。但PCR只考虑了输入矩阵,没有充分利用所有的信息口。文献19针对核函数PCR方法中单个核函数的局限性,提出了混合核函数PCR方法将其用于软测量建模,提高了模型的推广能力和处理非线性的能力。文献20在传统的双向主元分析法(BDPCR)的基础上提出了一种改进的方法,并应用在人脸识别研究中,提高了识别效率。当前对以最小二乘原理为基础的MLR的研究已相当成熟,常用于线性模型的拟合。对于辅助变量较多的情况,为简化模型,可采用PCR和PLS等方法。从应用情况看,对于线性系统,采用PCR和PLS的效果差不多,对于非线性系统则采用PLS的效果较好。总的来讲,基于回归分析法的软测量,其特点是简单实用,但需要大量的样本数据,对测量误差较为敏感。6 总结软测量作为一种新型的过程参数检测技术,为解决复杂工业过程参数的检测问题提供了一条有效的途经,成为工业计算机优化控制的有利工具,在理论研究和实际应用中已经取得了不少成果,展示了良好的工业应用前景。而回归分析作为一种软测量建模的方法,也是被许多学者研究的一个热点,各种改进的回归分析法被提出用来提高模型精确性。但由于工业过程对象的复杂性,很难期望用一种技术来完美地解决目前存在的实际问题,因此在这方面依旧任重道远。本文则通过简单对几种回归分析法进行原理介绍以及应用文献的参考,对这方面做了简要的综述。References1俞金寿.软测量技术及其应用J.自动化仪表,2008,29(1):1-72娄可清.固定床间歇煤气化工艺的分析D.天津:天津大学,20103金涛,薛澄岐,王海燕等.基于改进后的主成分回归分析法的产品外观评估J.东南大学学报(自然科学版),2011,41(4):739-7434张纪梅,单炜航,王开林.回归分析法优化双酚A催化加氢制备氢化双酚A的工艺条件J.天津工业大学学报,2015,(1):32-355邹孝恒,郝中骐,易荣兴等.基于遗传算法和偏最小二乘法的土壤激光诱导击穿光谱定量分析研究J.分析化学,2015,(2):181-1866李远华,陶劲松,李继庚等.基于偏最小二乘法的纸张抗张强度预测模型J.化工学报,2014,65(9):3544-35517夏陆岳,潘海天,周猛飞.基于改进多尺度主元分析的丙烯聚合过程监测与故障诊断J.化工学报,2011,62(8):2312-23178朱群雄,陈希,贺彦林等.基于PCA-DEA的乙烯装置能效分析J.化工学报,2015,66(1):278-2839程静,王维庆,何山.基于回归分析与BP神经网络的风机噪声预测J.噪声与振动控制,2013,33(6):49-5310Kadlec, P., Gabrys, B., & Strandt, S. Data-driven soft sensor in the process industryJ. Computers and Chemical Engineering, 2009, 33(4): 795-81411孙平.软测量技术的应用J自动化博览,2002(4):20-2212程轶平.基于多元线性回归的线性系统状态空间辨识算法J.北京交通大学学报,2014,38(2):13-1713陈云.基于MSR和BP神经网络的多辅助

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论