




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)基于pls和lssvm的两阶段软测量建模方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于p l s 和l s s v m 的两阶段软测量建模方法 摘要 软测量技术作为一门新兴的工业建模技术,主要用于复杂工业生产过 程中难以用硬件在线测量的参数的实时估计。工业过程机理复杂,且具有 非线性、时滞性及参数的多重相关性等特点,而目前的软测量建模方法很 难同时解决这些问题。本文在传统统计建模方法的基础上,深入研究了一 种基于偏最小二乘法和最小二乘支持向量机法的两阶段软测量建模方法, 使建模精度有了一定程度的提高。 本文经过对软测量建模现状的研究和分析,围绕偏最小二乘法和支 持向量机两种建模方法做了深入的研究,主要内容有: ( 1 ) 对软测量建模的实现步骤和方法进行了全面的归纳和总结,重点分 析和总结了各个方法的优势及局限性。 ( 2 ) 深入研究了软测量建模方法中的偏最小二乘方法和支持向量机方 法。通过原理分析和数值试验,进一步分析了两种方法用于软测量建模的 优缺点。 ( 3 ) 将基于偏最d 、- - - 乘法和最小二乘支持向量机的两阶段方法应用于 熔融指数的软测量建模,通过与最d , - - 乘支持向量机方法建模结果的比 较,验证了两阶段法用于软测量建模的有效性。 关键词:软测量技术,偏最小二乘法,最小二乘支持向量机,p l s l s s v m 熔融指数 a b s t r a c t t w o s t a g es o f l 卜s e n s i n gm o d e l b a s e do np l sa n dl s s v ma l g o r i t h m a b s t r a c t a san e wa n de x p a n d i n gm e a s u r e m e n tt e c h n i q u e ,s o f t s e n s i n g t e c h n i q u ei sm a i n l ya p p l i e dt oe s t i m a t et h ep a r a m e t e r sw h i c ha r eh a r dt ob e m e a s u r e do rc a n n o tb em e a s u r e do n l i n ew i t he x i s t i n gi n s t r u m e n t s t h e p r o d u c t i o np r o c e s so fi n d u s t r yi sc o m p li c a t e d ,n o n l i n e a r , a n dt i m e d e l a y , t h e e x i s t i n gm e t h o d sc a n ts o l v ea l lt h ep r o b l e m ss i m u l t a n e o u s l y t os o l v et h i s p r o b l e m ,an e wm o d e l i n gm e t h o db a s e do np a r t i a ll e a s ts q u a r e sm e t h o da n d l e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n em e t h o di sr e s e a r c h e di nt h i sa r t i c l e t h i sp a p e rr e s e a r c h e sp a r t i a ll e a s ts q u a r e sa n ds u p p o r tv e c t o rm a c h i n e s m o d e l i n gm e t h o d sd e e p l y , f o l l o w i n gt h em a i nc o n t e n t s : ( 1 ) t h e t h e o r ya n dm e t h o d so fs o t t s e n s i n ga r es u m m a r i e d a l ls i d e d l y t h e a d v a n t a g e sa n dl i m i t a t i o n so f t h em e t h o d sa r er e s e a r c h e dd e e p l y ( 2 ) t h ep a r t i a ll e a s ts q u a r e sm e t h o da n dl e a s ts q u a r e s s u p p o r tv e c t o r m a c h i n em e t h o da r em a i n l yr e s e a r c h e di nt h i s c h a p t e r a n dt h e l i m i t a t i o no ft h et w om e t h o d sa r es u m m a r i z e dt h r o u g ht h ea n a l y s i so f t h et h e o r ya n dt h es y n t h e t i ct e s t ( 3 ) t w o s t a g es o f t s e n s i n gm e t h o db a s e do np a r t i a ll e a s ts q u a r e sm e t h o d a n dl e a s t s q u a r e s s u p p o r t v e c t o rm a c h i n em e t h o di s a p p l i e d i n l l i 北京化工人学硕十学位论文 e s t a b l i s h i n g t h em o d e lo ft h em e l ti n d e x t h r o u g hc o m p a r i n gw i t ht h e o u t c o m eo fl s s v m ,t h ee f f e c t i v e n e s so f t w o s t a g em e t h o di sv e r i f i e d k e y w o r d s :s o f t - s e n s i n gt e c h n i q u e ,p a r t i a ll e a s ts q u a r e s m e t h o d ,l e a s t s q u a r e ss u p p o r tv e c t o rm a c h i n e ,p l s l s s v m ,m e l ti n d e x 符号说明 p l s s v m l s s v m m i 符号说明 偏最小二乘法 支持向量机 最小二乘支持向量机 熔融指数 结构风险最小化 催化剂活性中心空穴 链节长度等于1 的活聚物 链节长度等于n 的活聚物 潜在的催化剂活性中心浓度,t 0 0 1 l - 1 链长为r i 的死聚体 催化剂活性中心自活化反应速率常数,s - 1 催化剂活性中心助活化反应速率常数,s _ 链引发反应速率常数,l ( m 0 1 s ) _ 链增长反应速率常数,l ( m 0 1 s ) 一 链向单体转移反应速率常数,l ( m 0 1 s ) 一 链向h 转移反应速率常数,l ( m 0 1 s ) - 1 链自发转移反应速率常数,j 一 卜 翻 啊 s 砉|凡b l q么k丘巧巧b k 北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 作者签名:憋 日期: 2 o l o 上妙 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文 的规定,。即:研究生在校攻读学位期间论文工作的知识产权单位属北 京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 学位论文。 保密论文注释:本学位论文属于保密范围,在上年解密后适用本授 权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。 作者签名: 导师签名: 珲彬珏 日期: 日期: 洳0 上。w 如io 工幻 第一章绪论 1 1 论文的背景和意义 第一章绪论 工业过程是一个非常复杂的系统。随着科技的不断进步,工业过程变得更加复杂, 具有非线性、时变性、滞后性和不确定性等特点。因此,实现对如此复杂多变的工业 过程的监测与控制是非常困难的。计算机技术的飞速发展,使工业过程变得容易监测, 可控性得以提高。如今,计算机技术已经普遍应用于生产中的质量控制、过程控制、 操作优化等方面。 石油化工行业是关系国计民生的重要行业,为人民群众的生产和生活提供能源、 燃料、生产原料等等,是国家经济发展和人民生产生活不可或缺的行业。目前,我国 的石油化工行业经过五十余年的建设和发展已经比较成熟,具备了齐全的产品种类和 比较完整的生产体系。但与其他发达国家相比,还存在着很大的差距。因此,如何最 大限度地利用现代化信息技术、提高我国化工行业的生产和管理水平是亟需解决的问 题。企业应充分依托强大的信息技术优势,使生产过程中的装置和生产条件处于最佳 状态从而获得最大的利益。 在石油化工生产过程中,为达到对产品质量和生产过程的控制,通常需要对生产 过程中与产品质量密切相关的一些参数进行监测和控制。而由于化工生产过程的条件 通常具有高温、高压、非线性、滞后性等诸多特点,因此很多与产品质量关系密切的 参数如:原料中杂质的含量、反应物的浓度和熔融指数等都很难测得。目前对这类问 题,通常采用在线分析仪和软测量技术来解决。 在线分析仪具有投资大、维护困难、时滞性大、测量精度低等局限性,而新兴的 软测量技术在这些方面有很大的优势。软测量技术是依赖于计算机技术,对于生产过 程中不能直接测量的变量( 即主导变量) ,选取一组与之关系密切的变量( 即辅助变 量) 构成某种数学模型,对主导变量进行估计和推断,达到了以软件代替硬件的目的。 此方法具有响应迅速、维护成本低等优点,因此已经成为控制领域的重要研究方向之 一【1 1 。 1 2 软测量方法及研究现状 软测量技术来源于二十世纪七十年代b r o s i l l o w 提出的推断控制理论。它主要是 通过采集生产过程中可直接测得的辅助变量来推断和估计其难以测量的主导变量【2 1 。 在既定的优化准则下,软测量技术通过选择一组与主导变量密切相关的辅助变量,并 北京化t 大学硕f :学位论文 建立辅助变量与主导变量间的数学模型关系,从而估计和推断出主导变量的值,软测 量模型结构如图1 - 1 所示。由此得到的主导变量的参数值便可作为生产过程中优化操 作的依据,并为产品质量的控制提供参数指导。 图1 - 1 软测量模型结构图 f i g 1 - 1 s t r u c t u r eo fs o f t - s e n s i n g 建立软测量的数学模型是软测量技术中至关重要的一步,按照建模的理论基础和 方式不同,可以将软测量方法大致分为以下几类【3 】: 1 2 1 基于传统方法的软测量建模 1 机理分析建模方法 机理分析建模方法主要是遵循生产过程中的反应动力学方程、物料平衡、能量守 恒等原理,对生产过程进行机理分析从而建立起主导变量与辅助变量之间的关系。这 种方法其背景明确、理论基础牢固,便于实际生产中的应用。但现代工业生产过程的 复杂性使得对过程的机理分析更加困难,得到完整而准确的机理模型是非常困难的。 2 基于状态估计的建模方法 若已知系统的状态空间模型,而同时主导变量作为系统中的状念变量对于辅助变 量是可观的,则构造软测量仪表的问题便转化为状态观测或者状态估计的问题。此方 法可以反映出主导变量与辅助变量问的动态关系,有利于处理系统中各个变量问的动 态特性差异和系统的滞后性等问题。但对于复杂的工业过程,很难确定其状态空问模 型,因此这种方法的适用范围还有待提高。 2 第一章绪论 1 2 2 基于统计回归分析的软测量建模 回归分析是一种经典的建模方法。对于辅助变量比较少的情况,只需要收集系统 中建模所需的各个参数的值,通过统计分析技术对数据中所隐含的参数关系进行提 取,从而建立主导变量与辅助变量间的数学模型;对于辅助变量较多的情况,可采取 机理分析和统计分析相结合的方法。首先通过对系统的分析得到参数问的大致关系, 然后利用统计分析确定模型参数。统计回归方法主要有以下几种: 1 多元线性回归 多元线性回归是以主导变量的绝对误差和最小为优化目标,对辅助变量进行线性 回归分析。但它要求辅助变量的变化范围较小且非线性化程度不严重,否则会严重影 响建模精度,甚至会造成建模失败。同时,模型复杂度也随辅助变量的增加变大,影 响建模速度。 2 主元回归 主元分析方法是以数据变化的方差大小为指标来确定变化方向的主次地位。它可 以从原有的辅助变量中求出几个新的变量,达到对原有数据进行信息提取的目的,同 时也降低了数据处理的维数。主元回归方法是利用主元分析的思想,提取辅助变量中 相互正交的主元,再构造主导变量和这些主元间的关系,从而可以很好地解决多元线 性回归中存在的变量的共线性问题【4 】。通常意义下的主元回归方法,还是属于线性回 归的范畴,并不能反映工业过程中复杂的非线性关系。因此又出现了很多由主元回归 发展起来的方法,如:多层感知器方法、核主元分析法等等。其中核主元分析法近年 来应用十分广泛,主要是通过将辅助变量通过非线性映射变换到高维空间,而且经它 提取的第一个主元往往已经可以包含原始数据的绝大部分信息,使得主元提取更为简 单有效。 3 偏最小二乘回归 偏最小二乘回归同主元回归一样具有数据压缩和信息提取的功能。但不同的是, 偏最小二乘回归提取主成分时不仅考虑到自变量,同时主成分中还包含了因变量的信 息。这就使得最后所建立的回归模型,对因变量可以做出更好的解释。因此,偏最小 二乘回归具有很好的鲁棒性和预测精度的稳定性。另外,由于偏最d - 乘回归只能用 于线性回归,所以近年来又出现了很多推广算法。比如:在辅助变量中加入一些原 始变量的非线性组合;将线性偏最小二乘回归中的协方差最大准则作为优化目标的 一部分,利用神经网络实现非线性的偏最小二乘外部和内部模型:保留偏最小二乘 回归的外部线性模型结构,内部采用神经网络或者非线性项实现非线性回归。 3 北京化t 火学硕上学位论文 1 2 3 人工智能建模方法 用于软测量建模的人工智能方法有很多:人工神经网络方法、基于模式识别的方 法、基于模糊理论的方法等等,其中应用最为广泛的当数人工神经网络方法。 人工神经网络方法( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) 是模拟人类神经元细胞处理 信息的方式而形成的一种人工智能方法。它不需要先验知识的支持,只依靠工业对象 的输入输出数据进行建模,并且能很好地适用于高度非线性的系统。它在处理信息过 程中具有很多独特的优势:自组织、自适应和自学习功能;对信息的分布式处理 和联想存储功能;很强的鲁棒性和容错能力。目前应用比较广泛的神经网络有b p 神经网络、r b f 神经网络等。另外,为了克服单一神经网络方法的局限性,很多研究 者将多种方法结合进行建模也取得了一定的成果。如:将遗传算法与神经网络结合的 g a - b p 和g a r b f 方法f 5 6 】经网络集成方法【7 】等等。 1 2 4 支持向量机方法 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是由v a p n i k 在统计学习理论的基础上 建立起来的基于结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 原则的人工智能技 术【8 】。传统的机器学习方法都是基于经验风险最小化( e m p i r i c a lr i s km i n i m i z a t i o n ,e r m ) 的原则来进行建模和优化的,而经验风险的最小化往往会造成“过学习”现象,使模 型结构过于复杂并且降低了泛化精度。因此基于结构风险最小化原则的支持向量机方 法在继承神经网络等人工智能方法良好的非线性处理能力的同时,也克服了“过学 习”和“局部最优”的缺点。同时,支持向量机是一种针对小样本的统计学习方法, 因此对样本的数目依赖性大大降低。 支持向量机理论相对其他统计方法和人工智能方法而言,主要有以下几个特点和 优势:一,建模所需样本数比较少。s v m 是基于统计学习理论的小样本机器,在统 计学习理论这个完整的理论框架下可以很好地解决小样本学习问题。因此突破了传统 建模方法对样本数目的要求;二,能有效地控制模型的误差。s v m 遵循的是结构风 险最小原则,它的目标函数同时要求经验风险和置信区间最小化。采用g 一不敏感函数 作为损失函数,可以根据建模精度的要求随时调整s 值。同时,通过控制s v m 中的 惩罚参数c 来控制拟合精度;三,良好的泛化能力。结构风险最小化原则使得s v m 可以使训练模型的复杂度得到控制,从而使模型具有更好的泛化能力。四,避免了“维 数灾难 。s v m 将建模过程最终转化为最优化问题,而目标函数中的h e s s i a n 矩阵的 维数与自变量个数没有关系,只与参与建模的训练样本数有关。因此自变量个数增加 也不会造成“维数灾难” 9 1 。 4 第一章绪论 支持向量机的理论基础是统计学习理论和v c 维理论,因此可以说它既是一种统 计学建模方法,又是一种人工智能方法。支持向量机理论提出之初,主要用于解决分 类问题:构造最优边界分类器成为支持向量机理论中的研究热点。而随着s v m 理论 的不断发展以及s v m 本身强大的统计理论支持,其应用领域也被大大拓宽。由于s v m 强大的非线性处理能力以及易于与模糊理论相结合,因此被广泛用于时间序列分析问 题中【l0 1 。另一方面,s v m 凭借其出色的学习能力及泛化性能已经越来越多地用于回 归分析和系统辨识当中。目前在化工、食品、医药等众多行业中,s v m 都有了广泛 的应用,具有非常好的发展前景。 1 3 软测量方法在工业过程中的实现 在复杂的工业过程中应用软测量方法,需要进行一系列的数据处理和模型选择。 具体的实现步骤和框架如图1 2 所示。 图1 - 2 软测量技术实现步骤 f i g 1 - 2t h es t e p so fs o t t - s e n s i n g 软测量技术应用于工业过程一般包括四个部分,即:根据反应机理选择辅助变量、 输入输出数据预处理、建立软测量模型和在线校正。 1 3 1 辅助变量的选取 选取辅助变量包括对变量类型、变量个数和记录点位置的选择。这三个方面是互 相联系、相互影响的,不但受具体生产过程的特性影响,而且还受到生产时的设备状 态、外部环境条件等因素的影响。 ( 1 ) 辅助变量类型的选择 5 北京化工人学硕h :学位论文 通常,辅助变量的类型要求选择与主导变量的变化特性相似、关联密切的参数。 辅助变量的类型可依照以下原则进行选取 1 1 , 1 2 】: 灵敏性可以对过程输出变量或不可测扰动作出快速的反应; 特异性对过程输出变量或目标变量之外的干扰不敏感; 过程适应性工程上容易测得并能达到理想测量精度; 精确性由它们构成的软测量估计器可以满足要求的精度; 鲁棒性由它们构成的软测量估计器对模型误差不敏感。 ( 2 ) 辅助变量个数的选择 对于辅助变量个数的选择,其最小个数应不少于输出变量的个数。首先应该通过 机理分析和回归的方法确定对被估变量影响较大的过程变量,尤其是其中的可测变 量。但目前对于辅助变量的最优个数,并没有明确的准则可以参照。通常还是需要通 过多次试验来确定预测精度最高的辅助变量个数。 ( 3 ) 记录点位置的选择 记录点位置的选择有时与辅助变量数目的选择是同步进行的。对辅助变量数目选 择的原则和方法也适用于记录点位置的确定。但位置的选择对实践经验的要求更多。 生产过程中的数据采集工作对软测量建模的影响也是至关重要的,因此根据工艺 和机理的分析选择合适的数据建模,也是非常必要的。首先,要全面掌握生产过程的 工况,尽力确定各个辅助变量的取值范围,在此范围内选取记录点。但同时应注意选 取的数据点的值应合理地分布于取值范围内,即采集的数据应具有代表性:样本应该 在某个特征点附近均匀分布。每个特征点附近的数据分布应该合理、均匀,不应在特 征点取过多样本而在边缘点取很少的样本,这样极易造成模型的泛化能力削弱甚至建 模失败。因此记录点的选择应注意合理分布,同时也要进行样本点的“精简”以确保 数据具有代表性。 1 3 2 数据预处理 在生产过程中采集的数据,通常会由于测量仪表的精度限制、生产环境等原因存 在着噪声甚至是错误。因此采集到的输入输出数据必须经过去噪及删除离群点等处理 操作才能参与建模,否则会严重降低模型的精度甚至导致建模失败。数据预处理包括 数据校正和数据变换两个部分。数据校正主要是指去噪及剔除离群点;数据变换则是 出于建模的具体需要,对数据进行无量纲化等操作。目l i 主要的数据预处理方法主要 有:通过假设检验剔除含有显著误差的数据【l3 1 ,并在装置运行平稳的状态下采集数据。 6 第一章绪论 1 3 3 软测量模型的建立 建立软测量模型应将数据分为训练数据和泛化数据两个部分。其中,训练数据用 来确定模型结构和参数,泛化数据用以检验模型的预测能力。由于工业过程的工况变 化频繁,所以数据应尽可能全面地包含生产过程的全部信息以增加对过程的解释程 度。然后选择适当的建模方法通过训练数据建立辅助变量与主导变量之间的关系,本 文采用的是基于改进的偏最小二乘法和最小二乘支持向量机法的两阶段建模方法。利 用泛化数据对训练所得模型进行预测能力检验和性能评价,以进一步改进模型。 1 3 4 模型的在线校正 由于软测量对象具有时变性、非线性以及模型本身的不完整性等特点,因此对模 型在生产过程中的在线校正是软测量建模中不可或缺的一部分。在线校正包括对模型 结构的校正和模型参数的校正。因为调整模型结构需要大量的生产数据和较长的训练 时间,所以通常意义下的在线校正主要是指对参数的修正。 1 4 本文的研究内容与结构安排 1 4 1 主要研究内容 本文主要研究了工业过程中的软测量建模方法,针对工业过程的非线性、参数的 多重相关性特点,采用基于偏最t b _ - 乘法和最小二乘支持向量机的两阶段法来解决软 测量建模中的此类问题,并将此方法应用于高密度聚乙烯生产过程中的熔融指数软测 量模型的建立,以验证方法的有效性。 论文的主要工作如下: ( 1 ) 应用改进的偏最小二乘法对初始变量进行主成分提取,实现了对非线性关系 中原始变量的信息筛选和综合,既可以克服辅助变量间的多重相关性,又实现了辅助 变量的降维。 ( 2 ) 采用最小二乘支持向量机方法建立主成分与因变量间的模型,并最终转换为 自变量与因变量间的关系。 ( 3 ) 将两阶段法应用于高密度聚乙烯熔融指数的软测量建模,验证方法的有效性。 7 北京化工人学硕1 :学位论文 1 4 2 文章结构安排 本文的结构安排如下: 一绪论:详细阐述了论文研究的理论基础和工业背景,明确课题的研究意义。 归纳了软测量建模的研究现状,对已有方法进行了综合评价。最后说明论文的结构安 排。 二基于统计回归技术的软测量方法:着重研究了统计分析的软测量建模方法, 对偏最小二乘法及支持向量机理论做了详细的阐述和研究,通过数值试验分析验证了 其局限性。 三一种基于p l s 和l s s v m 的两阶段软测量建模方法:重点研究了一种基于改 进的偏最小二乘法和最小二乘支持向量机方法的两阶段软测量建模方法,克服了传统 的统计分析方法的一些不足,并用数据仿真说明其优越性。 四两阶段法在聚乙烯熔融指数软测量建模中的应用:对高密度聚乙烯的生产工 艺和机理进行系统分析,将基于改进的p l s 和l s s v m 方法的两阶段建模方法应用于 高密度聚乙烯生产中的熔融指数软测量建模。通过与l s s v m 方法建模结果的比较,验 证了两阶段法用于软测量建模的有效性。 五结论与展望:对全文内容进行归纳和总结,并对今后的研究工作进行展望和 规划。 第二章基于统计回归技术的软测量方法 第二章基于统计回归技术的软测量方法 统计回归技术主要是通过统计学理论建立输入、输出数据的数学模型。由于它并 不完全依赖于生产过程的机理和工艺分析,因此对于复杂的工业过程来说统计回归技 术可以绕过复杂的工艺和机理分析,通过统计学习理论建立描述生产过程的数学模 型。统计回归主要分为线性回归和非线性回归:线性回归分析要求自变量与因变量之 间近似满足线性关系,因此只适用于简单的线性关系的拟合:非线性回归是指自变量 与因变量间是非线性的关系。线性回归与非线性回归都是已知方程的形式,对模型参 数进行估计和确定,常用的估计方法有:最d , - 乘法、多项式回归法、逐步回归法、 偏最d x - 乘法等等f 1 4 】。但在复杂的工业过程中,影响主导变量的因素众多,且机理方 程很难给出,所以如何脱离机理的束缚建立一个完全基于样本的模型成为众多学者研 究的课题。目前应用比较广泛的“黑箱”建模方法主要有神经网络方法和支持向量机 方法等。本章主要讨论统计回归技术中的偏最d x - 乘法和支持向量机方法。 2 1 基于偏最小二乘法的主成分提取 偏最小二乘法( p a r t i a ll e a s ts q u a r e s ,p l s ) 是在主成分分析和典型相关分析基础上 建立起来的一种统计分析方法。它采用了信息筛选和综合技术,通过提取对因变量解 释性最强的综合变量,使回归精度得以提高;同时也很好地克服了自变量问的多重相 关性,从而避免了传统最小二乘法的不足。偏最d x - - 乘法也有很多改进方法,如:丁 涛等通过对输入数据的缩放处理使其模糊化,从而大大提高了p l s 的泛化能力【l5 1 。 但偏最小二乘法是一种线性回归方法,对于复杂工业中的非线性问题很难进行回归和 预测。因此有很多学者提出了非线性的偏最小二乘法:时瑞研等提出了基于c h e b y s h e v 多项式的改进p l s 方法【l6 1 ,先将自变量利用多项式变换非线性化,再用偏最小二乘法 进行线性回归,其本质仍然属于线性回归方法。而目前在工业中应用效果比较理想的 是将主成分的提取过程非线性化,对每次提取的成分t ;和u ,进行非线性映射。本节将 重点介绍这种非线性化的改进偏最小二乘法。 2 1 1 改进偏最小二乘法原理 偏最小二乘法根据因变量的数目不同可分为单因变量回归和多因变量回归,本文 仅研究单因变量的软测量建模方法,因此只介绍单因变量的偏最d , - 乘法,为实现p l s 的非线性化,本文将提取主成分的过程用二次多项式来表示主成分与潜变量的关系, 9 北京化工人学硕上学位论文 原理如下【1 7 】: 假设有p 个白变量,取n 组样本,则自变量x o = i x l ,x :xp 唧,y 。= y 蒯。 则偏最d , - - 乘法回归的过程如下: ( 1 ) 样本数据标准化。数据标准化通常分为中心化处理和无量纲化处理两部分。 中心化处理是指对数据进行平移变换,这种变换既不改变数据间的相对位置也不改变 它们之间的相关性,但可以使操作简单化并且确保变量间的协方差等于它们的相关系 数。无量纲化处理目的主要是消除不同变量间由于度量不统一造成的假变异现象【l 引, 使每个变量的方差变为l 。变换公式通常为: ,一薯一x x = i 一 s x 其中,x 为变量x 的均值,j ,为标准差。eo 、f 。分别记为x o 、y 。标准化后的矩阵。 ( 2 ) 提取主成分。偏最小二乘法主要是通过自变量的主成分t 与因变量的潜变量u 之 间的非线性关系来体现其非线性这一特征的。设t 和u 之间存在着以下非线性关 系: u = 厂o ) + h ,厂o ) = c o + c t t + c 2 t 2 ( 2 - 2 ) 则提取主成分的过程按以下步骤迭代进行【1 9 】: 令因变量的潜变量u 地 计算自变量的权矢量w 和成分t : w r = u r x u r u , w 2 酾w ,f = 肌w 7 w ( 2 - 3 ) 根据式( 2 2 ) ,采用最小二乘法估计多项式的系数c ,得到u 的预测值,记为: ,= u = c o + g t + c 2 t 2 ( 2 - 4 ) 计算因变量的因子负荷q ,并对q 进行单位向量化处理: g7 = r t y q q r ,g = q ( 2 - 5 ) 更新因变量的潜变量u : u = 场q q 2 ( 2 6 ) 更新权向量w 。由于输入组的投影系数和权重w 都来自带有x 输入矩阵的u 成分的 协方差,使用一个非线性的方程使每对潜在变量之间相关,这样可以同时影响外部映 射和内部映射,因此可以通过将二次内部关系的一阶泰勒级数扩展来更新输入外部关 系的权重w ,然后解决权重增加( a w ) 的问题,因此可以用如下方法更新权矢量w , 用x 木w 代替t l ,即: 1 0 第二章基于统计回归技术的软测量方法 在厶附近采用泰勒级数展开,忽略高次项,则将会近似地线性化为: 会= 厶+ 乱o c c + 别g w 。w ( 2 - 8 ) i mi “ 式中,厶2 乏, 笔l o o w 。;篑w 埘,m 为自变量的个数。假设c _ 0 则 会:4+烈(2-9)yoo a w “2 + i 式( 2 9 ) 又可改写为以下形式:会:z ,其中: z = 厶瓦o f 善 ,y = 三a :! c c 2 一。, 若修正值缸,( i 为样本数目) 未被使用则: 会= z a v _ 厶豺劫犯, 材= i 厂m 旦0 l ( 2 - 1 1 ) 式中的修正值m 可以通过u 在z 上进行回归直接计算得出,a v 可以由式( 2 - 1 2 ) 计算: 式中( z t z ) 一是矩阵( z t z ) 的广义逆。应用n e w t o n r a p h s o n ,在非线性映射条件下 会:f ( t ,c ) 的估计值与真实值的偏差为: :”一a:一厶:篓h(2-13)e uua w1= ”一= 一,m = l c h v l o o a w = ( z t z ) 一z ,e ( 2 1 4 ) 更新权矢量w ,并进行单位向量化,重新计算自变量的潜变量t 的值: w=w+aw,w 2 丽w ,f2 而x w ( 2 - 1 5 ) 由u = f ( t ) + h ,采用最小二乘法计算新的u 的非线性预测值u 计算自变量因子负荷向量p : 北京化工大学硕十:学位论文 p ,:孥( 2 - 1 6 ) ff 重复以上提取主成分的步骤,直到满足模型的精度需要为止。 ( 3 ) 根据交叉有效性原则选取主成分。 p l s 中一般不会选用全部主成分参与回归,而是根据需要选取前m 个主成分t 。、t : t m 。m 通常根据交叉有效性原则来确定:记原始数据:0 y ,y h i 是取主成分t l 、f 2 t 并 用所有样本进行回归后,对第i 个样本的拟合值。y 舭。、是回归时删掉第i 个样本点, 用此模型对第i 个样本点进行计算得到的拟合值。令 s s h = ( y ,- y 埘) 2 ,= ( y ,- y ”,) ) 2 ,鳞= 1 一等( 2 - 1 7 ) i = 1i = 1 o s h i 其中,s 册为取h 个主成分对全部样本回归时的拟合误差平方和;最嘲为取h 个成 分对除去第i 个点的其他样本回归时的拟合误差平方和。显然,若增加第h 个成分后 的拟合误差平方和小于h - 1 个成分,则被认为第h 个成分的增加会提高预测精度。一 般认为当饼 0 0 9 7 5 对,引进主成分“是有效的【2 0 1 。 ( 4 ) 求f 。关于所提取主成分的回归方程。假设经过交叉性检验之后确定了m 个主成 分t 1 、t 2 t m ,则f o = ,l + r 2 t 2 + + 乞乙,5 l f h 提取主成分的过程可知:t l 、t 2 乙均 为e o 的线性组合,因此可以得到:y = 口。0 + o f :x 2 + + + o f p ,# 的回归系数为 口_ ,= r h 西( 2 - 1 8 ) 其中( a h j 是彩:的第j 个分量。 ( 5 ) 计算因变量y 关于自变量x 的回归方程。按第一步中数据标准化的逆过程,将第 四步中的回归方程还原为y 对x 的回归方程。 2 1 2 改进的偏最小二乘法数值试验 为检验改进的偏最小二乘法提取主成分的能力和有效性,采用非线性函数 y = s i n ( x 1 ) + ( 工2 ) 2 + 已砖随机生成1 0 0 组数据作为试验样本。其中,预设而= e 而+ s i n ( x 2 ) , 目的是检验当自变量间存在非线性关系的相关性时p l s 的有效性。应用改进的p l s 方 法提取主成分的步骤如下: ( 1 ) 数据准备与数据标准化:利用m a t l a b 7 0 随机生成1 0 0 组均匀分布在 一2 ,2 上的 1 2 第二章基于统计同归技术的软测量方法 符合函数y = s i n ( x 。) + ( x 2 ) 2 + e 的数据,并对数据加方差为0 2 ,均值为0 的高斯 噪声,并依照式( 2 1 ) 对数据进行标准化。 ( 2 ) 提取主成分:提取主成分后,“。= 0 0 3 2 5 + 0 7 3 6 4 t 。+ 0 2 4 8 1 t ,2 ,交叉检验值 饼= o 9 6 7 3 0 0 9 7 5 ,继续提取主成分得n t 2 ,潜变量u 2 与主成分f :的关系为: u 2 = o 1 3 7 8 0 2 5 8 7 t 2 + 0 7 5 3 7 t 2 2 ,交叉检验值鳞一0 0 6 2 1 o 为惩罚系数,c 越大表示对误差超过s 的数据点的惩罚越大。式( 2 2 2 ) 的 对偶问题为: m i n 寺( 口:一口,) ( 口;一口j ) ( 而x ,) + s ( 口? + 口,) 一y ,( 口? 一口,) o - i = 1j = li = li = l s t y f ( 一口? ) = 0 ( 2 2 3 ) o s 口f ,口冬了c ,f = 1 ,2 ,z 式中,口p 为拉格朗同乘子。( 木) 代表向量带木和不带宰两种情况。 求解( 2 2 3 ) 中的拉格朗日乘子口,口0 从而得到原始问题( 2 - 2 2 ) 关于彩的唯一解为: 回归方程的参数b 为: , = ( 口;i 一口,) 而 i = i 由式( 2 2 4 ) 和( 2 2 5 ) 可得到回归方程为: , ( x ) = c o x + b = ( 口? 一口f ) ( _ x ) + 6 + ( 2 - 2 6 ) i = 1 以上是支持向量机的线性回归算法,对于非线性回归,只需要引进非线性核函蠡 将输入数据映射到高维空间,转化为线性回归问题即可,用于非线性回归的支持向量 1 5 、j 52 - 2 ,- 0 0 o ,c ( f f ) 1 s k 一1 扭1 其中,y ,为y ,的估计值,k 为最近邻的个数,一般取k = 3 。 ( 2 ) 核参数五的确定 由于对不同的( 力,c ) 组合预测误差的变化不是很大,因此可以首先确定核参数五, 再确定c 。核参数采用核校准方法来确定:假设有某一回归问题,有,个d 维样本x i 构 成了样本集合s ,其中,i = 1 , 2 ,即s = x i i x t s ,f = 1 , 2 ,毋,样本目标值的向量形 式y = ( y 。,y :,y ,) 7 ,其中,y t = j ,i - - y ,y 为原始因变量的均值。则核校准值的计算公 式为: a ( s ,k ,y y r ) = ( k ,y y r ) f 肛蕊万瓦” 其中,k 为核矩阵, ,表示两个矩阵的内积。通过选择适当的核参数使( 2 3 6 ) 式n 大化,即可得到最优核参数。 第= 章基于统计刨归技术的轼蔫量方法 ( 3 ) 惩罚系数c 的确定 c 的确定一般有三种方法:直接确定法、反比方法、一维搜索法。通常情况下,一 维搜索法较为常用。但由于本文中所涉及到的建模过程非常复杂,c 的撞索范围很难 确定,因此先采用直接确定法来求惩罚系数c ,再在此计算值的某一邻域内用搜索法 寻优,计算公式如下: c = m 十辑忡s t | ) 2 2 5 量小二乘支持向量机数值试验 通过数值试验验证最小二乘支持向量机的非线性回归能力。采用u c i 数据集混凝 土压缩强度及其影响因素的数据集m l 。混凝土强度作为主导变量,其辅导变量有: 水泥含量、高炉熔渣、灰烬含量、水的含量、超增塑剂含量、粗骨料含量、细骨料含 量、混凝士生产时问。 ( 1 ) 数据准备:去掉数据集中为零的数据,得到1 2 4 组数据,先将数据分组,采用卜7 5 组数据作为训练样本,用7 6 - 1 2 4 组数据做泛化数据。然后将数据进行标准化,标 准化方法同式( 2 - 1 ) 。 ( 2 ) 利用2 2 4 节的参数确定方法来确定参数的值,分别为: ( c ,酌= ( 2 5 1 0 9 2 ,1 7 3 5 4 ) : ( 3 ) 所得模型的训练效果图如( 2 一1 ) 所示: 田2 - 1l s s w 数值试验训练效果图 f l l * 1 t r a i n n n gr e s u t o f l s s v m 北京化t 人学碗i 岸位论史 ( 4 ) 将预测数据集代入所得模型,得到预测效果国如下 田2 _ 2l s s 数值试验预测效果囝 豫3 - 2f i t t i n g n ! s u l t o f e s s v m ( 5 ) 埘试验所得模型的误差数据分析如表( 2 一1 ) : 衰2 - ll s s 数值试验误差分析 l 模獬参数( c ,5 )训练均方误差 泛化均方误差训练平均相对误泛化平均相对误 ( u s e )( 惦e )差( )差( ) l ( 2 5 1 0 9 2 , 1 3 2 9 824 5 7 527 839 6 1 7 3 5 4 ) 2 26 数值试验结果分析 最小二乘支持向量机作为标准支持向量机的一种改进方法,继承了s v m 在处理非 线性回归问题方面的优势。山上- 4 , 节的数值试验可以得出:( 1 ) l s s v m 有很强的非 线性回归能力,对于多个自变量的非线性回归,其模型精度仍能达到理想要求; ( 2 ) l s s v m 钏j 练时删虽然较5 v m 有了报大提高。但对十儿个样本点仍要花费1 8 秒左 右的时删。其中参数寻优过程耗时较长,而自变晕的维数直接影响这一过程。因此当 自变量的维数变大时,会大大增加l s s v m 的计算量,使训练时m 变得更长。如何降 低输入变量的维数也成为l s s v m 需要解决的一个问题。 综上可知:l s s v m 方法可以用柬处理多元的非线性回归问题,且模型精度较高。 而改进的p l s 方法能很好地解决自变景问的相关性。因此。可以考虑综合两种方法各 自的优井,对l s s v m 方法进行改进。 第二章基于统计i 廿1 归技术的软测量方法 2 3 本章小结 本章针对软测量建模中的统计分析方法做了较为深入的研究,并通过数值试验分 析了改进的偏最小二乘法和最小二乘支持向量机方法的特点。试验表明:偏最小二乘 法可以有效地解决自变量间的多重相关性问题;最小二乘支持向量机方法能很好地处 理非线性回归问题,且训练效率比较高。因此可以依据这两种方法各自的优势对l s s v l d 方法进行完善和改进。在以后的章节中,将会重点根据这两种方法做进一步的研究。 2 l 第三章一种基于p l s 和l s s v m 的两阶段软测量建模方法 第三章一种基于p l s 和l s s v m 的两阶段软测量建模方法 由第二章的研究内容不难发现:虽然软测量建模方法有很多,每一种方法用于建 模都有其独特优势,但软测量建模本身是一个完整而复杂的过程,单独应用某一种方 法很难解决整个过程中存在的所有问题。目前对于软测量建模方法的研究,主要是使 用单一方法建立模型,即直接建立一个由输入到输出的数学关系。这种建模方式使模 型的表达形式比较明确,且具有较强的鲁棒性,但对于过程中的非线性、变量的多重 相关性等问题不能给予较全面的处理。因此,针对不同工业过程和建模的不同阶段, 应考虑分别采用适当的方法来解决各个环节的不同问题。 3 1 基于p l s 和l s s v m 的两阶段法原理及算法 软测量建模主要包括有四个部分:辅助变量的选取、数据预处理、软测量模型的 建立、在线校正。对基于统计学习理论的方法来说,辅助变量的选择可以依照经验和 对数据的统计分析来共同选择,如:相关性分析等等。但在复杂的工业过程中,选定 的辅助变量之间必
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025国网电力空间技术有限公司第二批高校毕业生录用人选的考前自测高频考点模拟试题及答案详解(全优)
- 2025江西国控吉成物业管理有限公司招聘1人模拟试卷及1套完整答案详解
- 2025年福建福路通城乡发展集团有限公司招聘考前自测高频考点模拟试题及一套参考答案详解
- 2025春季四川达州市耀华中学教师招聘模拟试卷附答案详解(典型题)
- 2025广东惠州龙门县教育局招聘教师80人考前自测高频考点模拟试题及一套答案详解
- 2025重庆艺术大市场有限公司招聘笔试历年参考题库附带答案详解
- 2025年甘肃省平凉市崆峒区卫生健康系统临时聘用人员招聘模拟试卷及答案详解(新)
- 2025贵州贵阳市低空产业发展有限公司(第一批)招聘拟录用人员笔试历年参考题库附带答案详解
- 2025贵州毕节市农业发展集团有限公司第十三届贵州人才博览会人才引进拟聘用人员笔试历年参考题库附带答案详解
- 2025福建龙岩投资发展集团有限公司及所属企业招聘2人笔试历年参考题库附带答案详解
- 2025年中国零售用显示屏行业市场全景分析及前景机遇研判报告
- 吉林省长春市2024-2025学年七年级上学期生物月考试题(含答案)
- 2025至2030中国视觉点胶机市场运行状况与未来发展走势预测报告
- 种草莓劳动课件
- 雀巢牛奶购销合同范本
- 多模态交互体验评估-洞察及研究
- 100MW光伏发电场光伏电站建设与环境影响评估可行性研究报告
- 2025-2026学年华中师大版(2024)小学体育与健康一年级(全一册)教学设计(附目录P123)
- 文书档案管理培训课件
- 固态电解质界面调控-第1篇-洞察及研究
- 2025年执纪监督考试题库
评论
0/150
提交评论