(检测技术与自动化装置专业论文)精馏过程航煤干点的软测量应用研究.pdf_第1页
(检测技术与自动化装置专业论文)精馏过程航煤干点的软测量应用研究.pdf_第2页
(检测技术与自动化装置专业论文)精馏过程航煤干点的软测量应用研究.pdf_第3页
(检测技术与自动化装置专业论文)精馏过程航煤干点的软测量应用研究.pdf_第4页
(检测技术与自动化装置专业论文)精馏过程航煤干点的软测量应用研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 原油精馏装置处于石油化工厂工艺流程的最前端,其原理是根据原油中各组分的挥 发度( 沸点) 不同,利用各种设备将原油分馏成汽油、煤油、柴油等产品。航空煤油是 精馏装置的主要产品之一,干点值是衡量航煤质量的一个重要参数指标,是由化验室每 隔一定时间进行一次采样分析得到。通过现有测量手段不能得到干点的实时测量值,本 文旨在通过采用软测量技术得出航煤干点的实时监测信息。软测量技术包括变量选择、 数据处理、软测量建模和模型校正4 个部分,其中软测量建模是软测量技术的核心内 容,其主要方法包括工艺机理分析、多元回归分析、人工神经网络等。本文着重讨论基 于支持向量机回归的软测量建模方法,支持向量机是近年发展起来的一种基于统计学习 理论的学习机器,在模式识别和非线性函数回归估计方面有很多的应用。最小二乘支持 向量机用等式约束代替传统方法中的不等式约束,利用求解一组线性方程得出对象模型 参数,避免了传统支持向量机求解二次规划问题,使得模型学习时间大大缩短,同时可 以达到较高的精度。本文采用r b f 神经网络和传统支持向量机回归以及最小二乘支持 向量机分别对某炼油厂原油精馏装置航空煤油的干点进行软测量建模。对采集到的现场 数据进行计算结果表明,最小二乘支持向量机学习速度快、精度高,是一种软测量建模 的有效方法;在同样的样本条件下,比r b f 神经网络具有较好的模型逼近和泛化性 能,也比传统支持向量机方法节省了大量的计算时间。本文的工作为实现航煤干点的在 线实时估计打下了基础;为对原油精馏过程航空煤油的质量参数实施先进控制提供了前 提条件。 关键词:软测量;统计学习理论;非线性函数回归;最小二乘支持向量机 堕塑塑堕堡王盛塑堕望! 里壁旦塑塞 s o f ts e n s i n g a p p l i c a t i o n t od r yp o i n to fa v i a t i o nk e r o s e n e i n d i s t i l l a t i o i lp r o c e s s a b s t r a e t c r u d eo i ld i s t i l l a t i o np l a n ti sa tt h eb e g i n n i n go ft h ep r o c e s si n 锄o i lr e f i n e r y b yu s i n g k i n d so f f a c i l i t i e s ,o i li sf r a c t i o n a t e di n t om a n yp r o d u c t sl i k eg a s o l i n e ,k e r o s e n e ,d i e s e lo i l ,e t c a v i a t i o nk e r o s e n ei so n eo ft h em a i np r o d u c t so fd i s t i l l a t i o np r o c e s s ;d r yp o i mi sa ni n d e x r e f l e c t i n gi t sq u a l i t y w h i c hi so b t a i n e di nl a b o r a t o r ye v e r y8 h o u r s i tc a r m o tb em e a s u r e db y c o n v e n t i o n a l e n t s t h ep u r p o s eo ft h i sp a p e ri st oe s t i m a t et h ed r yp o i n tv a l u eb y a p p l y i n g s o f ts e n s o r s o f ts e n s i n gt e c h n i q u ec o n s i s t so f4p a r t s :v a r i a b l e ss e l e c t i o n , d a t a p r o c e s s i n g , m o d e l i n g ,m o d e lr e c t i f i c a t i o n , a m o n g t h e ms o f ts e n s i n gm o d e li st h ek e y p o i n t t h e m a i nm e t h o do fm o d e l i n gi n c l u d e sm e c h a n i s ma n a l y s i s ,r e g r e s s i o n ,a r t i f i c i a ln e u r a ln e t w o r k , e t c t 1 l i sp a p e re m p h a s i so i lt h em o d e l i n gm e t h o d :s u p p o r tv e c t o rm a c h i n ef s v m ) s v mi sa n e w l yd e v e l o p e dm e t h o d b a s e do ns t a t i s t i c a ll e a r n i n gt h e o r y ,a n di su s e di np a t t e r nr e c o g n i t i o n a n dn o n - l i n e a rf u n c t i o nr e g r e s s i o n b ys o l v i n gas e to fl i n e a re q u a t i o n si n s t e a do f q u a d r a t i c p r o g r a m m i n g ,l e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e ( l s - s v m ) i s a ne f f i c i e n tw a yo f1 1 0 n l i n e a rm o d e l i n g s o f ts e n s o rb a s e do r lr b fn e u r a ln e t w o r k , c o n v e n t i o n a ls v ma n dl s s v m a l ed i s c u s s e di nt h i sp a p e r a n da p p l i e dt op r e d i c tt h ed r yp o i n to fa v i a t i o nk e r o s e r i e 妞a no i l r e f i n e r y t e s t i n gr e s u l t s w i t hd a t ac o l l e c t e df r o mf i e l ds h o wl s s v mh a sa g o o da b i l i t yi n1 1 0 n l i n e a rm o d e l i n gw i t h h i 曲l e a r n i n gs p e e d a n d a c c u r a c y m e t h o d sd i s c u s s e di nt h i sp a p e rl a y t h e f o u n d a t i o no fd r yp o 血o n l i n ee s t i m a t i o no fa v i a t i o nk e r o s e n e ,a n dm a k ei tf e a s i b l et oa p p l y a d v a n c e dc o n t r o lo n q u a l i t yp a r a m e t e r so f a v i a t i o nk e r o s e n e k e y w o r d s s o t t s e n s o r ;s t a t i s t i c a l l e a r n i n g t h e o r y ;n o n - l i n e a r f u n c t i o n r e g r e s s i o n ;l e a s t s q u a r e s s u p p o r tv e c t o rm a c h i n e i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:莹叁塑日期:竺! ! ! ! ! ! : 大连理工大学硕士学位论文 引言 随着自动控制理论的发展和计算机、电子技术的进步,以及新材料的不断应用,自 动控制技术与检测技术的水平在不断提高,应用范围也越来越广泛,自动化技术已为许 多行业所熟悉。同时,现代工业过程对控制、计量、节能增效和运行可靠性等方面的要 求也在不断提高,需要测量获取的过程变量日益增多,仅获取流量、温度、压力、液位 等常规信息有时不能满足工艺操作和控制的要求;而对工业生产过程中反映原料、产品 等物质的成分、性质方面变量的测量越来越显示其重要性。 在工业过程控制中,由于现有工艺条件和检测技术等方面的限制,存在着许多 无法或难以直接测量的变量,而这些变量通常能够直接反映物质在生产过程中的作 用、性质等。例如,分馏塔产品组分浓度、生物发酵罐中的生物量参数、催化剂循环 量、汽柴油的干点等。这些反应工业过程信息的重要变量通常是由在线分析仪表测量 或离线的实验室分析得到。然而利用在线分析仪表进行检测需要很大的经济成本, 并且安装复杂及需要高昂的维护费用;离线的实验室分析结果又存在很大的时间滞 后,分析结果无法作为控制系统的反馈信号实现实时控制。这些限制将会造成产品 质量和安全方面的问题。软测量作为解决上述问题的一种新兴工业技术,通过与被测 变量相关的易测变量来估计被测变量的输出,从而解决上述变量测量的难题。先进 控制在工业生产装置中已有很多的研究【卜3 ,以软测量( 软仪表) 为核心的推断控 制就是直接以产品的质量指标作为被控对象。软测量技术的应用可以为先进控制提 供壹接的反馈信息,促进其在工业领域的应用,最终实现生产的高质量和低能耗。 软测量技术作为一个概括性的科学术语提出来,是在2 0 世纪8 0 年代中后期,并在 世界范围内掀起一股软测量技术研究的热潮【如8 】。国外很多公司开发了软测量成品软件 包,如:i n f e r e n t i a l c o n t r o l 、s e t p o i n t 、d m c 、s i m e o n 等以商品化软件形式推出各自的软 测量仪表,广泛应用于常减压塔、f c c u 主分馏塔、加氢裂化分馏塔、焦化主分馏塔、 汽油稳定塔等的先进控制和优化控制中。增加了轻质油收率,降低了能耗并减少了原油 切换时间,取得了明显的经济效益。国内也已引进包括软测量技术在内的先进控制软件 用于催化裂化、常减压等装置,但这些引进软件价格十分昂贵 9 。 国内各相关高等院校、科研机构等也就软测量技术做了很多理论研究以及工业应用 工作【l 1 7 ,如延迟焦化粗汽油干点软测量的研究,在茂名石化公司进行的加 氢裂化分馏塔航空煤油干点软测量工作,都已取得很好的成果。 精馏过程航煤干点的软测量应用研究 除了这些专用软件包形式以外,h o n e y w e l l 、n e f s o n 等集散控制系统生产商在其 生产的控制系统软件中,也都嵌入了具有同等功能的软件模块,这些模块能够更好的与 控制系统相结合,充分发挥d c s 的潜能、提高过程控制水平。如在“艾默生过程管理” ( e m e r s o np r o c e s sm a n a g e m e n t ) 的集散控制系统d e l t a v 中,根据软测量思想,集成了 一个基于多层前向人工神经网络的软件模块,直接运行在底层控制器中专门用于构建虚 拟仪表( v i r t u a ls e n s o r s ) ,即所谓的软仪表。 1 9 9 2 年国际过程控制专家t ,j m c a v o y 明确指出了软测量技术将是今后过程控制 的主要发展方向之一【18 】。 本文为解决某炼油厂精馏装置的产品之一航空煤油的质量指标干点不能在线测量的 问题,利用软仪表的思想,结合多种软测量建模方法,完成包括数据采集、数据处理、 建模、模型校正等工作,进行软测量技术的应用研究; 一2 大连理工大学硕士学位论文 l 工程背景 在本论文中,以某炼油厂精馏装置的常压塔一线航空煤油的质量指标干点为对象, 根据软测量技术原理,对现场采集的数据舞i 用r b f 神经网络、传统支持向量机和最小 二乘支持向量机回归进行软测量建模应用研究。 1 1 原油精馏工艺流程概述 原油精馏装置( 如图1 1 ) 处于石油化工厂工艺流程的最前端,其原理是根据原油 中各组分的挥发度( 沸点) 不同,利用蒸发塔、常压塔在提供塔板、塔顶冷回流和塔底 汽相热回流的条件下对原油进行蒸馏,将原油分馏成重整料、汽油、煤油、柴油、重柴 油等产品;同时为了将常压重油中的各种高沸点组分分离出来,采用在减压塔( 真空蒸 馏的方法) 塔顶使用蒸汽喷射泵及间冷器抽真空的方法,使加热后的常压重油在负压条 件下进行精馏,从而使高沸点的组分在相应钓温度下依次馏出,作为减压柴油及润滑油 料。原油精馏装置在炼油化工企业的地位十分重要,也是体现炼化企业规模大小的重要 标志之一。 图1 1 原浊精馏装置工艺过程 f i g 1 1d i s t i l l a t i o np r o c e s so f c r u d eo i l 注: v :原油罐 a :蒸发塔b :常压精馏塔 c :减压精馏塔 f l :常压塔加热炉f 2 :减压塔加热炉 3 精馏过程航煤干点的软测量应用研究 1 2 蒸发塔工艺过程 原油罐( v ) 中的原油经原油泵抽送后,分两路与各侧线及塔底等各种高温热源换 热至2 2 0 左右进入蒸发塔( a ) ,部分轻组分油气和水蒸汽由塔顶馏出。此汽相经冷 凝分离后瓦斯气引入加热炉烧掉,油一部分作为塔顶回流,一部分作为重整料或汽油出 装置。为降低塔顶的冷凝冷却负荷,在蒸发塔上部设一循环回流用以取热。另自1 7 、 l g 层塔盘引一侧线,经泵抽送后打入常压塔3 2 或3 4 层塔盘上,用以降低常压炉负 荷。蒸发塔底油经泵抽送后与各种热源换热至3 0 0 。c 左右,进入常压炉( f 1 ) 加热至 3 5 8 后进入常压塔( b ) 汽化段进行常压蒸馏。工艺过程见图1 2 所示。 图1 2 原油精馏过程蒸发塔d c s 操作画面 f i g 1 2d c so p e r a t o rp i c t u r eo f c r u d eo i le v a p o r a t i o nt o w e r 1 3 常压精馏工艺过程 图1 3 为精馏过程常压精馏部分其中b 即为常压精馏塔,b 1 b 4 为常压塔的四个 馏出侧线。其工艺过程为:蒸发塔底油分四路经加热炉加热后先汇成两路再汇成一路进 入常压塔气化段进行精馏,塔顶油气经冷凝后一部分作为汽油组分出装置,另一部分作 4 大j 毫理工大学硕士学位论文 为冷回流与在图中常压塔左侧的三个中段回流一同保证常压塔的稳定工作。在常压塔的 四个侧线分别馏出航空煤油、轻柴油、重柴油、催化料等产品。常压塔底油经泵抽送至 减压炉( f 2 ) 加热到3 9 5 c 左右进入减压塔( c ) 进行减压蒸馏。本章主要研究对象为常 压塔一线( 图1 3 中b l 处) 馏出产品航空煤油,对其质量指标干点进行软测量技术应 用研究。 图1 3 原油精馏过程常压精馏d c s 操作画面 f 酶1 3d c so p e r a t o rp i c t u r eo f c r u d eo 豇a t m o s p h e r i cd i s t i l l a t i o n 1 4 减压精馏工艺过程 图1 4 为精馏过程减压精馏部分,常压塔底油分8 路进入减压炉进一步加热后进入 减压塔( c ) ,减顶油气经间冷器真空系统使减压塔顶残压达到5 3 3 k p a ,使减压塔各 侧线馏出柴油、催化料、和各种中性润滑油料,经泵至换热器换热后,在经冷却槽冷却 出装置。减一线油经冷却槽冷却后部分作为塔顶回流,部分外送作为产品。减压四线油 在泵出口处引一线返入塔内洗涤段上部作为冲洗油;为了保证塔内热量平衡,降低塔顶 负荷,设置一中段、二中段循环回流,用以取热;同时利用中段回流控制产品质量。 5 精馏过程航煤干点的软测量应用研究 城底渣油经泵抽送后分两路作为高温热源与拔头原油及原油等换熟后,经冷却槽冷却出 装置。另外常压四线油也可由泵出口引一线进入减压塔洗涤段上部作为冲洗油。 图1 4 原油精馏过程减压精馏d c s 操作画面 f i g 1 4d c so p e r a t o rp i c t u r eo fc r u d eo i lv a c u u md i s t i l l a t i o n 1 5 航空煤油的干点 干点作为油品的质量指标在炼油厂中是通过所谓“恩氏蒸馏实验”得出。其过程就 是把1 0 0 毫升油品样本放在一个带有支管的小烧瓶里,插上温度计进行加热蒸馏,支管 经过冷凝外套后插到另一个有刻度的容器内。当油蒸汽冷凝出第一滴油时温度计所指示 的温度,叫做初馏点,当蒸出物的体积达到l o 毫升时的温度,叫做1 0 点,依次可以 得到2 0 点、3 0 点等等,直到蒸出最后一滴油,此时的温度,叫做于点。 从以上描述可以看出,虽然油品的干点是个温度值,但却无法用常规温度仪表测 量得到,通常在油品采样之后由化验室通过恩氏蒸馏实验测定。一般每天化验3 次,由 于间隔时间较大,且化验时间长,不能用于实时监控。本文所讨论的软测量技术就是根 据软测量思想,解决常压精馏过程一线航空煤油干点值的实时预测问题。 6 大连理工大学硕士学位论文 2 软测量技术概述 2 1 软测量技术的原理 软测量技术的基本思想是把自动控制理论与生产工艺过程有机结合起来,应用计算 机技术,对于一些难以测量或暂时不能测量的重要变量( 称为主导变量) ,选择另外一 些容易测量的变量( 称为辅助变量) ,通过构成某种数学关系来推断和估计出主导变量 值,以软件来代替硬件传感器功能。这类方法具有响应迅速,连续给出主导变量信息, 且投资低、维护保养简单等优点【1 8 】。其原理如图2 1 所示。 图2 i 软测量技术结构 f i g 2 1s t r u c t u r eo f s o f ts e n s i n g t e c h n i q u e 软测量思想早在复合测量上就有所体现。例如用差压法测量气体质量流量,由于气 体的可压缩性,其密度随着温度和压力而变化,使得气体质量流量的测量不同于液体质 量流量的测量。节流元件( 如孔板) 只对流速有选择性;不能直接用于测量气体质量流 量。人们通过研究找到了差压、气体压力、气体温度和气体质量流量之间的数学关系 ( 模型) q , , , = k l k z i 0 02 9 3 1 5 p 丽印 ( 2 - 1 ) 于是将差压、气体压力和气体温度3 个容易测量的变量作为辅助变量进行测量,然 后按数学关系( 模型) 便可以计算确定气体质量流量。由于计算过程用微机及软件实 7 一 精馏过程航煤干点的软测量应用研究 现,因此可用现有仪表获取辅助变量,不再需要研发专用仪表,投入少、周期短、维护 简单,可获得单独专用仪表一样的快速响应和计算控制效果 19 。 根据上述说明可以确定,软测量技术的主要内容包括辅助变量的选择和软测量模型 的建立。由于工业过程数据采集易受到干扰等因素及工业对象特性的时变性,软测量技 术还应包括对采集到的数据进行预处理,以及软测量模型的在线校正。 2 2 软测量技术的内容 1 ) 辅助变量的选择 选择辅助变量的结果在于形成软测量需要的可测变量集,为后面的软测量建模工作 提供合理的输入数据。 2 ) 数据的预处理 现场采集的数据难免会带有各种噪声,如果是人工采集的数据还可能会有人为记录 误差,读数误差等。因此在将辅助变量和主导变量应用到软测量模型之前进行必要的误 差甄别与数据处理是十分必要的。 3 ) 软测量模型的建立 从前面的阐述和图2 1 中可以看出,软测量的核心工作就是建立软测量模型,即得 出辅助变量和主导变量之间的某种数学关系( 软测量模型) 。与自动控制系统中被控对 象的建模方法类似,建立软测量模型的方法也主要有机理建模、经验建模和机理与经验 稆结合的方法。 4 ) 软测量模型的校正 一般的,工业对象特性具有非线性、时变性等特征。随着时间的推移,对象的特性 会发生变化,已经建立的模型就不能很好地反映此时的实际工况。显然,对已建立模型 的校正就变得十分重要。 软测量模型的校正分两个部分,即软测量模型的参数修正和模型的结构修正;或者 在某种程度上对应为短期校正和长期校正。 软测量模型的参数修正可以通过修改模型中的某些常量参数来实现;也可以通过短 期学习实现,由于其数据量、计算量较小,学习时间短,可以在线完成。 软测量模型的结构校正需要大量的数据和较长时间的计算,实际中基本上等同于重 新建立一个软测量模型,一般很难在线实施。可以待积累一定数量的过程数据之后离线 进行然后替代原有的在线运行模型。 8 大连理工大学硕士学位论文 2 3 软测量技术建模方法 软测量的目的是利用现有可以获得的变量信息得出主导变量的估计值,即得到从辅 助变量到主导变量的某种函数关系( 数学模型) 。因此,软测量建模是软测量技术的核 心内容,其实现方法主要有以下几种: 2 3 1 机理建模 基于工艺机理分析的软测量建模方法主要是运用化学反应动力学、物料平衡、能量 平衡原理,分析生产工艺过程和各种变量之间的相互关系,从内在工艺机理出发,找出 主导变量与有关辅助变量之间的数学关系,即数学模型,这种建模方法称为机理建模。 机理建模需要具有和工艺过程相关的多方面、综合的知识基础,如物理学、化学、生物 学等等。 机理建模从事物的本质出发,能够比较准确地反映工艺对象和过程内部的各种关 系,有较高的准确度,是建模工作首先要考虑的方法,在实际工作中也由很多成功的例 子 1 8 2 0 1 1 2 1 。但正是机理建模需要对工艺对象和过程有十分深入了解的特点,在实际 中只适用于相对较简单的生产工艺过程,而对较复杂的工艺过程则存在很大难度,尤其 象石油化工这种多输入多输出、非线性强、滞后时间不确定的对象过程。 2 3 2 回归分析建模 回归分析方法是一种常用的建模方法,它是基于一元或多元统计分析技术,以最小 二乘法为基础的一种模型参数“黑箱”辨识法。即它不需要掌握很多的关于工艺机理的 先验知识,也不需要得出有关机理的精确数学描述,只需要获得对象的输入输出数据, 并从这些数据中提取反映过程内在关系的信息,得出描述对象输入输出数据的简单数学 关系( 即数学模型) 。回归分析方法建模物理意义较明确,能显式地绱出辅助变量与主 导变量的关系,通过调整各个变量的系数,可以方便地对模型进行微小调整。适合于软 测量建模,且已有许多在软测量建模方面的应用 2 2 2 3 。 2 3 2 1 多元线性回归分析 在软测量建模中,通常情况下,都是将多个辅助变量对个主导变量进行回归,因 此多元线性回归分析是较为常用的方法。其原理如下: 若主导变量一与埘个辅助变量如,。2 ,x 。的内在关系是线性的( 或在一定范围内 是线性的) ,由测量采集和分析仪表或化验分析得到胛组有效数据 x 。l ,x 。2 ,x my i ( f = 1 ,2 ,n ) 可以建立如下的线性方程组 9 精馏过程航煤干点的软测量应用研究 y 1 = b o + b t x l l + b 2 x 1 2 + + b m x l + 占1 y 2 = b o + 6 l x 2 1 + b 2 x 2 2 + + b m x 2 m + s 2 y n = b o + b l x l + b 2 x n 2 + + 6 m 工 m + 譬n ( 2 - 2 ) 式中:b o , b l ,b 2 ,b 。是聊+ 1 个待定的参数:占1 ,e 2 ,厶是胛次测量中产生的随机误 一 t o 方程组( 2 2 ) 可以写成矩阵形式 y = 册+ 占 如前所述,用最小二乘法原理。可以获得正规方程组的矩阵形式为 f 7 x ) b = x 7 y 若n ( m + 1 ) 可得回归参数b o ,b l ,6 2 ,b 。的解的矩阵形式 式中 b = ( x 7 x ) 一1 x 7 y x = 1 x l lx 1 2 1 x 2 1x 2 2 x l r h x 2 - : x m ( 2 - 3 ) 为 ( m + 1 ) 维测量数据矩阵,h 表示测量次数,m 表示辅助变量( 自变量) 数目。 1 0 ( 2 - 4 ) ( 2 5 ) ( 2 - 6 ) 大连理工大学硕士学位论文 y = y 1 y 2 ( 2 7 ) 为测量结果列矩阵。这样,多元线性回归处理的主要工作为矩阵计算,在计算机上编 程,然后输入测量数据j 和y 便可计算出回归参数b 。,b l ,b 2 ,b 。其中,矩阵( x 7 x ) 的逆矩阵( x 7 x ) 一1 是否存在是有解的先决条件。 可用以下误差指标进行模型性能的评价 误差平方和:s s e = ( y 一,) 7 一霸 均方误差:m s e = s s e 7 1 其中f 是模型计算输出。 2 3 2 2 主元分析技术 1 8 在多元线性回归时,如果所选择的辅助变量( 自变量) _ ,也,x 。之间存在某些 相关性,则( x 7 ) _ 1 不存在,求回归参数6 0 ,b 1 ,b 2 ,b m 将无解。为了防止出现病态矩 阵x 而无解,为了尽可能在保持原有信息的基础上去掉冗余辅助变量,简化方程组结 构,可采用主元分析法。 如前所述,爿为n ( m + i ) 维测量数据矩阵,定义x 的协方差矩阵为 c 。v ( j ) :x r x m ( 2 - 8 ) 对c o v ( x ) 进行正交分解表达式为d 匕其中dc o y ( x ) 的m 个特征值按降序排 列构成的对角矩阵,匕= 喝,昱,匕 是特征矩阵,由与特征值对应的特征向量组 厂h、一1 成。又定义 l | 为第茁个主元的方差贡献率( - - 般应 8 5 ) ,通过交叉检验可 j _ l 决定主元个数。如选择前k 个主元,对x 进行正交分解,则 精馏过程航煤干点的软测量应用研究 t = x p , x = 域+ e = 【f 1 ,f 2 , + e ( 2 - 9 ) 式中,丁称为评分矩阵;& 为载荷矩阵。只要k - j t 里论开始受到越来越广泛的重视3 1 1 。 支持向量机( s u p p o r t v e c t o r m a c h i n e ) 简称s v m ,是统计学习理论中最年轻的内容 也是最实用的部分,s v m 方法可以很好地应用于函数拟合问题中。近年来,利用支持 向量机回归估计进行非线性函数的逼近有很多的应用,也为软测量建模提供了一种新 的、具有坚实理论基础的方法 3 2 3 4 】。本文在第3 章中将着重介绍统计学习理论及支持 向量机的主要内容和方法。 1 4 大连理工大学硕士学位论文 3 统计学习理论和支持向量机 统计学在解决机器学习问题中起着基础性的作用。但是传统的统计学所研究的主要 是渐进理论,都是应用于样本数目足够多的情况下,所提出的各种方法只有在样本数目 趋于无穷大时其性能才有理论上的保证。v a p n i k 等人从2 0 世纪6 0 年代起,就开始研究 有限样本情况下的机器学习问题。到2 0 世纪9 0 年代,随着其理论的不断发展和成熟, 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ) 开始受到越来越广泛的重视;1 9 9 5 年, v a p n i k 在统计学习理论基础上,提出一种新型的机器学习方法:支持向量机( s u p p o r t v e c t o r m a c h i n e ) 。支持向量机具有完备的统计学习理论基础和出色的学习性能,已成 为机器学习界的研究新热点 3 5 3 8 ,并在很多领域都得到了成功的应用,同时在此支持 向量机的基础上也衍生出了一些其它算法。 3 1 机器学习基本原理 1 ) 首先将学习问题表述如下: 已知系统的输出变量y 与输入变量x 之间存在一定的未知依赖关系,即存在一个未 知的联合概率f ( x ,y ) ( x 和y 之间的确定性关系可以看作是一个特例) ,根据”个独立 同分布观钡4 样本: 在一组函数 厂( x ,w ) 中求一个最优的函数f ( x ,w o ) ,使预测的期望风险 r ( w ) = j l ( y ,( x ,们) 卵( e y ) ( 3 1 ) ( 3 2 ) 最小。式中, f ( x ,们 称为预测函数集,w q 为函数的广义参数;l ( y ,f ( x ,w ) ) 为由 于用f ( x ,w ) 对y 进行预测而造成的损失,即损失函数。 2 ) 经验风险最小化归纳原则 在实际的机器学习的问题中,只知道样本式( 3 - 1 ) 的信息,联合概率f ( x ,y ) 是未知 的,因此期望风险是无法直接计算和最小化的。因此,传统的方法是用算术平均代替式 ( 3 - 2 ) 中的实际期望,于是定义了 1 5 精馏过程航煤干点的软测量应用研究 ( w ) = 去喜m 1 1 w ) ) ( 3 - 3 ) 来逼近式( 3 - 2 ) 定义的期望风险。由于月一( w ) 是利用已知的训练样本( 即经验数据) 定 义的,因此称为经验风险。用对参数w 求经验风险r ( w ) 的最小值来逼近期望风险 r ( w ) 的最小值,这一原则称为经验风险最小化( e m p i r i c a l 黜s l c m i n i m i z a t i o n ) 原则,简 称黜原则。 从以上描述可知,从期望风险最小化至0 经验风险最小化并没有可靠的理论依据,只 是直观上想当然的做法。但这种思想却在多年的机器学习方法研究中占据了主要的地 位,人们将大部分注意力集中到如何更好地最小化经验风险上。而实际上在很多问题中 的样本数目是十分有限的,在利用经验风险最小化原则解决有限样本问题,很难保证真 实风险的最小化。 3 ) 学习的复杂性与推广性分析 在神经网络研究中,一开始人们的注意力总是集中在如何使五( w ) 更小,有些情 况下,训练误差过小反而导致推广能力下降,这就是人们在神经网络研究中往往会遇到 的所谓“过学习”现象,这也是e r m 准则不成功的一个典型的例子。出现过学习现象 的原因,一是因为学习样本不够充分,二是学习机器的设计不够合理,这两个问题是相 互关联的。总之,在有限样本情况下经验风险最小并不一定意味着期望风险最小:学习 机器的复杂性不但与所研究的系统有关,而且要和有限的学习样本相适应。 3 2 统计学习理论 统计学习理论提供了较好的有限样本情况下机器学习的理论系统,具有严格的理论 基础,较好地解决了小样本、非线性、高维数和局部极小点等问题。统计学习理论强调 了小样本统计学的问题,被认为是目前针对小样本统计估计和学习预测的最佳理论。 3 2 1 学习过程一致性 所谓学习过程一致性,就是指当训练样本数目趋于无穷大时,经验风险的最优值能 够收敛到真实风险的最优值。 学习过程一致性:设f ( x ,w ) 为在式( 3 1 ) 中的胛个独立同分布样本下,在函数集 f ( x ,w ) 中使经验风险取得最小的预测函数,z ( y ,f ( x ,w 1 月) ) 为由此预测函数带来的损 失,其最小经验风险为r e m p ( w + i ) 。令e ( w + | 聆) 为在损失l ( y ,f ( x ,w + f 雎) ) 下,式( 3 2 ) 1 6 大连理工大学硕士学位论文 所取得的真实风险( 期望风险值) 。如果下面两个序列依概率收敛于同一个极限,则称 这个经验风险最小化学习过程是一致的。 r ( w + i 门) _ := i 呻r ( w o ),r e m p ( w 4 i n ) i :一胄( w 0 ) ( 3 4 ) 其中,r ( w 。) - - i n f 尺( 们为实际可能的最小风险,即式( 3 - 2 ) 的最小值。经验风险和真实 w 风险之间的关系,可以用图3 1 表示。 在此基础上,v a p n i k 和c h e r v o n e n k i s 提出了非平凡致性的概念,即式( 3 卸必须 对预测函数集中的所有子集都成立。非平凡一致性可以避免这样一种情况,就是预测函 数集中包含某个特殊的函数,它使得学习过程一致性条件得到满足;而如果从函数集中 去掉这个函数学习过程一致性条件就不再得到满足。后面提到的一致性就是指非平凡 一致性。 图3 1 期望风险和经验风险的关系 f i g 3 1r e l a t i o nb e t w e e ne x p e c t e d r i s ka n d e m p i r i c a lr i s k 下面的定理被称为学习理论的关键定理: 定理3 1 对于有界的损失函数,经验风险最小化原则学习过程一致的充分必要条 件是:经验风险r 。( w ) 在如下意义上一致收敛于实际风险: ! i - + m 。p 8 u p ( r ( w ) 一胄w ( w ) ) s 】- o ,v 5 o 1 7 ( 3 5 ) 精馏过程航煤干点的软测量应用研究 式中,尸表示概率;r e m p ( w ) 和r ( w ) 分别表示在疗个样本下的经验风险和真实风险。 定理中的式( 3 5 ) 称为单边一致收敛,与此相对应的是双边一致收敛: l i m p s u p i r ( w ) 一r 。( w ) ps 】= 0 ,v s 0 月 。 虽然学习理论关键定理给出了经验风险最小化原则成立的充分必要条件,但这一条 件并没有给出什么样的学习方法能够满足这些条件。为此,统计学习理论定义了一些指 标来衡量函数集的性能,其中最重要的是v c 维。 为了研究函数集在经验风险最小化原则下的学习一致性问题和一致性收敛的速度, 统计学习理论定义了一系列指标来衡量函数集的学习性能。 设有一个指示函数集f ( x ,w ) 和组有 个训练样本的样本集 z 。= ( x ,弘) ,i = 1 ,2 ,一,n ) 考虑函数集的分散性,用n ( z 。) 来表示函数集中的函数能对这组样本实现多少种不 同分类的数目。 随机熵定义指示函数集对某个样本集能实现的不同分类组合数目的对数为函数集 在这个样本集上的随机熵,记作h ( z 。) ,即 h ( z 。) = i n n ( z 。)( 3 - 7 ) 指示函数集的熵指示函数集在所有样本数为r 的样本集上的随机熵的期望值就叫 做指示函数集在样本数n 上的熵,记作日( n ) ,即 h ( n ) = e ( 1 nn ( z 。) )( 3 - 8 ) 指示函数集的熵也称做v c 熵。 生长函数函数集的生长函数g ( n ) 定义为它是在所有可能的样本集上的最大随机 熵,即 g ( n ) = i nm a x ( z 。) 钿 1 8 ( 3 9 ) 大连理工大学硕士学位论文 也就是说,生长函数反映了函数集把n 个样本分成两类的最大可能的分法数,显 然,g ( n 1 n l n 2 。 退火的v c 熵在讨论函数集的分类能力时,统计学习理论还定义了另一个重要指 标,就是退火的v c 熵,其定义是 日一( 以) = l n e ( n ( z 。) ) nh 根据j e n s e n 不等式qi n x ;i n ( q 一) ,有 i = l i = 1 h ( n ) h 。( 疗) 因此,v c 熵、退火的v c 熵和生长函数之间存在如下关系 h ( n ) 日。( ) g ( 玎) n l n 2 在这些概念定义的基础上建立了学习理论的三个定理。 定理3 2 函数集学习过程双边一致收敛的充分必要条件是 l i m 型:o n 呻 ( 3 1 0 ) ( 3 1 1 ) ( 3 - 1 2 ) ( 3 一1 3 ) 这一等式描述了e r m 原则一致性的一个充分条件,即学习过程一致性的充分条 件。在统计学习理论中,收敛速度快的定义为:如果对应任意的肝 h o 都有 p e ( w in ) 一r ( w o ) s ) 0 是常数。 定理3 3 函数集学习过程收敛速度快的充分条件是 1 9 ( 3 - 1 4 ) 精馏过程航煤千点的软测量应用研究 l i r a 丝塑! 塑:0 n n ( 3 一1 5 ) 此定理保证了收敛有快的渐进速度。 定理3 4函数集学习过程一致收敛的充分必要条件是对任意的样本分布,都有 l i m 型:o n n ( 3 1 6 ) 且这时学习过程收敛速度一定是快的。 3 2 2 学习机器推广性的界 通过前面的讨论,得出了关于机器学习一致收敛和收敛速度的一系列条件。它们在 理论上有重要的意义,但在实践中一般无法直接应用。这里我们将讨论统计学习理论中 关于经验风险和实际风险之间关系的重要结论,称为推广性的界。它是分析学习机器性 能和发展新的学习算法的重要基础。 v a d n i k 和c h e r v o n e n 姑s 在1 9 6 8 年发现以下规律: 定理3 5所有函数集的生长函数或者与样本数成正比,即 g ( n 1 = n l n 2 ( 3 - 1 7 ) 或者以样本数的某个对数函数为上界,即 g c n ,s ( t n 鲁+ ) , 门 向 ( 3 1 8 ) 式中,h 是一个整数,它是从生长函数满足式( 3 一1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论