(模式识别与智能系统专业论文)支持向量机改进方法在光谱定量分析中的应用.pdf_第1页
(模式识别与智能系统专业论文)支持向量机改进方法在光谱定量分析中的应用.pdf_第2页
(模式识别与智能系统专业论文)支持向量机改进方法在光谱定量分析中的应用.pdf_第3页
(模式识别与智能系统专业论文)支持向量机改进方法在光谱定量分析中的应用.pdf_第4页
(模式识别与智能系统专业论文)支持向量机改进方法在光谱定量分析中的应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(模式识别与智能系统专业论文)支持向量机改进方法在光谱定量分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 光谱定量分析技术是近年来迅速发展的一项间接测量技术,广泛地应用于科 研生产的各个领域。支持向量机( s v m ) 作为一种新型的非线性建模方法,适 合于处理小样本和高维数的建模问题。本文从不同角度对支持向量机基本算法进 行了改进,并将改进后的算法应用于光谱定量分析的数据建模和异常检测,具体 内容如下: 1 介绍了光谱定量分析的基本原理,并对核函数方法在非线性建模中的应 用,以及异常检测与稳健建模的主要方法进行了阐述。 2 将偏最小二乘( p l s ) 与s 讧方法进行结合,提出了偏最小二乘支持向 量机( p l s s 讧) 方法。实验表明,p l s s v m 既保持了s v m 较高的模型预测 精度,又大大加快了建模的速度。通过与p l s 、最小二乘支持向量机( l s s v m ) 以及核偏最小二乘( ,l s ) 三种建模方法进行对比发现,p l s s v m 在光谱定量 分析数据建模中的综合应用效果要优于其它三种方法。 3 对加权最小二乘支持向量机( w l s s “) 算法进行了改进,使改进后的 算法可以实现迭代运算,提高了w l s s 算法异常检测的能力。将这一算法 用于光谱定量分析,显著改善了定量分析校正模型的稳健性。 4 利用p l s s 讧和w l s s 讧改进方法建立近红外光谱测定汽油辛烷值的 校正模型,有效地提高了模型的综合性能,取得良好的检测效果。 关键词:近红外光谱定量分析支持向量机偏最小二乘稳健建模异常检测 浙江大学硕士学位论文5 3 照两。d 掰昭6 8 w 弼妒绷两蹿担p 心砝,e 端l a n 文u k :l o n g 拱麟汹雌,瓿糙t m i i l ,h a r l o w ,e s s c x ,1 9 9 3 戳臻b 戚,j + 蛰,d + l + m a s s a 礴& k 锹落,0 ,基狳n 穗 劈s ) 。酝嚣豳a l g 薛魏娃掩 a sat 0 0 1f o rw a v e l e n g t ls e l e c t i o ni nm u l t i v 州a t ec a l i b r a t i o n 爿糊正鳓删,6 7 : 4 2 拿5 4 3 0 王。 r o u s s o e u w ,p j + ( 1 9 8 4 ) + l e a s tl n e d i 蝴o f s q u a r e 蒜r e g r e 辅i o n z4 城& 跳矗册c t ,7 9 : 8 7 l 一8 8 0 装。醢姆嚣嚣w ,p j 。,a m k 霸唠霞0 6 瓣嘲燃幻嚣绷矗绷瘙鲈斑蹴f 治摊,j 礁珏w l 姆受 s 0 n s 1 9 8 7 装。驻s s e e 狂w , j 。,c j f o h x | 9 9 3 ) ,a l 拇砸矗鲢谨葚协氇om e 瘫a 鼗酶s 婊霾。d 搴诬采i o 氟z 4 棚蜘t0 础o o ,8 8 ( 4 2 4 ) :1 2 7 3 - 1 2 8 3 r 疆弛a , e l o p e z - d e 一r e l 2 1 ) 姬址e 淞k e 越e l 也a s o 硅s 镪t i s t i c 蛙p 8 t e 糖 a l l 越y s i s ,蕊直嚣狰删船c 渤凇锻”删瓶吼婚虑,1 2 ( ) :l $ 3 2 + s a n 确e z ,m s ,e b ,l a ,s a r a b i a ,m 。c 0 n i z ,m b 1 a n c o ( 2 0 0 0 ) q u a l 时 e 勰幻ld i 基。黼w 睡n 龆 妇鼢撼瓠璐蝴韶撼爵妇霸露锄翻殛妇f 五神o m 胁w 鼍峭z 洲,5 3 :6 9 埽0 s 馥。搬镡b ,a s 翔如k 醚驻l h 1 9 9 瓤n 洲洒e 瑟e o 翻攀渊e 嫩嚣嚣a l y s i s 鹪箨妇勰或 e i g e n v a l u ep r o b l em 8 “埘c b 印旗1 0 :1 2 9 9 1 3 i 9 潇a o ,x g 叶a k l e n n 韪f f c h a u ( 2 0 0 3 ) w 穗v e l e t :an e w 觚n di nc h e m i s 姆。一徽 ( 癸8 掰霞嚣。3 6 :2 7 6 0 s 3 s m o l a ,n ,u u r l e b ( 1 9 9 9 ) n e a ri n 舟a r e ds p e c 坩o s c o p ya p p l i e dt oq u a l i 哆c o 仃o lo f 掘c o m i 罐捌| 戡畦a 趣照秘a 璐黜硅蕊i 聪嚣拄y 鼠凇l 掰捌皴l 您溯漆 m m ,5 0 :2 9 6 _ 2 9 7 浙江大学硕士学位论文 v 致谢 值此论文完成之际,我衷心感谢戴连奎教授近两年来对我孜孜不倦的教育和 指导。戴澎师把我带入了近红外光谱分析研究的大门,不仅在学习过瑕中给予我 悉心的摇嚣,孬置爻我提供了一个宽拯、和谐的磅究薹| :境,弓| 导我在秘疆工 睾中 一步步蔻避,我的每一次遂梦巍驳褥翡成续都是与戴老繇兹教育、嫠韵分不开兹。 戴老师不仅在科研工作中给予我最大的帮助,同时在生活中给予了我无微不至的 关怀,在此衷心表示感谢! 裁老师勤奋敬业、知识渊博、思维敏锐、治学态度严 谨、为人乐观豁达,在学习和工作上为我树立了良好的榜样。 霜露袭心藩落吴铁军教授辩我王馋学习各方嚣戆豢动窝痘这。要教授对德学 生和蔼可裘,语言幽默,令人如沐春风。吴教授治学态度也十分严谨,对工作总 是一丝不萄、亲历亲为,他对漤业孜孜不倦的追求精神令我非常钦佩和敬仰。 衷心感谢徐伟强、张其可、韩言正等师兄以及郑旦师傅,他们在我科研学习 熬过程中给予了我辍大豹器瓒秘支持,共嗣营造了一个帮谐懿学习生溪j 环境,在 藏表示诚蘩瓣滚意。 特别感谢陈玉伦、包鑫、囱小琴同学,在一年多的相处中,他们蝓了我很大 的帮助和支持,与我共同完成科研课题,在此表示特别的谢意。 感游一年多寒与我阉一寝纛鹣吴华兵、藩洪纛郑搓露学,亵学习秘袋涟上给 予我许多热心的帮助,跟德们程一起生活非常愉抉。 对所商对关心和帮助过我的所有同学和朋友们表示感谢。 衷心感谢我豹父亲、母亲及箕德亲人,继粕爝鑫己最大豹努力帮助我完成学 犍,感谢德靛一壹 ;圭来靖我静关爱帮支簿。 昌剑游 二零零六年五冀予求楚圈 浙江大学硕士学位论文 7 空间映射到高维特征空间,在特征空间进行分类或回归等数据处理。其关键在于 通过引入核函数,可以把非线性变换后的高维特征空间的内积运算转换为原始输 入空间中的核函数的计算,即通过k ( 了,y ) _ 来实现的。这样,在特 征空间的线性运算即对应原输入空间的非线性算法( m n l l e r 等,2 0 0 1 ;r u i z 等, 2 0 0 1 ) 。上述思想如图1 2 所示。 图1 2 输入空间与高维特征空间之间的映射关系 ( 其中妒( - ) 是实现输入空间至特征空间的高维映射) a i z e m a n 虽然早在1 9 6 4 年就提出了实质上是核函数方法的势函数法,但当 时人们囿于势函数法的物理模型,未能体会到核函数方法的普遍意义。一直到 1 9 9 2 年l p n 像发表的支持向量机( s v m ) 算法巧妙地应用核函数成功( v 却n i k 1 9 9 5 ) ,才引起人们对核函数方法的重视,掀起了将传统的模式识别算法如p c a 、 p l s 、f i s h c r 法等加以“核化”( k e m e l i z e ) 的研究热潮,显著增强了这些原来以 线性投影为基础的算法处理非线性问题的能力( 陈念贻等,2 0 0 2 ) 。 概括起来,核函数方法的主要特点如下: 1 ) 核函数的计算量与特征空间的维数无关。核函数的引入避免了直接在变 换后的高维特征空间的运算,大大减小了计算量,避免了“维数灾难”。因此,甚 至可以选择一些核函数,使得特征空间的维数为无穷大,以提高模式分类或回归 能力。 2 ) 无需知道非线性变换函数伊( 的形式及其参数。原始输入空间进行的核函 数计算实质上是隐式地对应于在非线性变换函数p ( ) 变换后的高维特征空间的 运算,这样克服了一般的映射方法中非线性函数结构及其参数的确定以及特征空 间维数的限制。 3 ) 不同的核函数确定了不同的非线性变换函数。核函数的形式和参数的变 化会改变特征空间的性质,进而改变各种核函数方法的性能。常用的核函数包括 有: 1 1 2 a ) r b f ( 径向基) 核函数:k ( z ,y ) :e x p ( 二:二山 8 第一牵综逮 b ) 多顼式核懑数:鬈( x ,力= ( 算y + 1 ) “,d = i ,2 , c ) s i g m o i d 桉函数;。k ,y ) = t a n l l 0 - y + 6 ) 4 ) 核爨数方法可以帮不冠的簿法结合起来,彤或多秘不同的基于核涵数技 术的方法。而且遮两部分的设计可以单独进行,并可以为不同的殿用选择不同的 核强数和纂法。 5 ) 核函数的确定比较容易,满足m e r c e r 条件的任意对称函数都可作核函数。 1 3 2 支持向爨机 基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据( 样本) 龋发寻拽规律,利用这些舰律对来来数据或无法观灏的数据进行颈铡。包括模式 识别、神经网络镣在内,现有机器学习方法共同的重要理论基础之一是统计学。 传统统计学研究的是样本数莓趋予无穷大时的渐熹圣理论,现有学习方法识逶基予 此假设。但在实际问题中,样本数往往是有限的,因此一螳理论上很优秀的学习 方法实舔中表瑗帮可鼹不尽久意。 与传统统计学相比,统计学羽理论( s t a t i s t i c a ll e a n l i 姒g t h e o r y ) 是一种专门 磁究,j 、群零情况下掇器学习巍律豹理论,凳鼹决蠢限襻本学习闰邀提供了一个统 一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问 惩( 毙磐享枣经耀终结耱选撵闫瑟、题部援,l 、点羁题等) 。支持淘爨耄珏 是绞诗学习 理论中最年轻也是最实用的部分。其核心内容是在1 9 9 2 到1 9 9 5 年间由v 幻n i k 等提出熬,曩兹掇处在不叛发燕阶段( 张学工,2 0 0 0 ) 。 概括地说,支持向量机就是蓠先通过用内积醋数( 核函数) 定义的非线性变 换穆输入空阗变换到一个离维空阕,在这个空间申求( 广义) 最优分类露。所谓 簸优分类面就是鼹求分类面不但将两婺正确分湃( 训练错误率为o ) ,而且使 分类闻隔疑大。设分类露方程为w x + 6 。o ,我们可以对它进行! 黩一化,使褥对 线性可分的样本嶷瓴,咒 ,f = l ,行,x ,y + l ,一1 ) ,满熙 咒【( w t ) + 5 】l o , f = l ,撑 ( 1 i 2 ) 此时分类间隔等于2 川叫卜使分袭间隔最大等于使0 m 4 f 最小。满足条件( 1 2 ) 且使 1 捌啊1 2 最小的分爽面就蠲徽最优分类面。如圈l 。3 衔示 1 0第一章综述 三( w ,抚善,孝,掰,y ,+ ) :委| i 叫1 2 + c ( 杰等+ 杰茧) 一嘶【咒一w 鼍一6 + 占+ 当卜【以一w 一一6 + f 小f ( 1 5 ) 一( 疗占+ 以喜) 求拉格朗日函数三( 琳6 ,参善+ ,g ,寤。,矗,) 关于w 、矗、姜、g 的馈导,得: 羔一喜w 妻如= 。 季2 一喜慨一西,= 。 ;,。国 要:c q 一一;o d 岛 嚣垂西杀。 将( 1 6 ) 式代人( 1 + 5 ) 式褥到的对偶翊题在条搀 善( 嘶川扣o ,( 1 t 7 )j - lt l , o 域,斫c , 活1 ,玎 下,对l a 掣a n g e 因子q ,最大化目标函数 形 ,搿+ ) = 一占( 茸+ q ) + * ( 一q ) 一寺 卜q ) ( 蟛一哆) ( t _ ) ( 1 8 ) ,l 卢l 厶r ,= l 由戴可求褥翔量w 为 w = o 哎) 鼍 ( 1 。9 ) 进而解得到回归函数为 ,( 力= ( w 功+ 蚤= 裁可鞋 实现非线性函数的拟含。 s v m 在光谱定鬃分扳中戆应用避年来开始逐澎先太翻掰重携。姚迄粼等 ( 2 0 0 4 ) 提出一种基于最小二乘支持向量机( l s s v l ) 的柴油十六烷值近缎外 光谱测量方法。实验缨果表明该方法不仅可以显著减少计算蠡尊阕,在预测精度上 比常用的多元线性回归和偏鼹小二乘等方法有显著掇高。杜树新( 2 0 0 4 ) 等将 s v m 应用于紫外光谱水质分毫斥仪的数据建模,提高丁分析仪的测量精度。爨海 斌等( 2 0 0 4 ) 用s v m 建立三七药材渗漉提取液近红外光谱校正模型,并与偏最 瀵江大学疆士学经论文 小二乘强归及径自基神缀网络( r b f a n n ) 建模方法作鞋:较,研究结果表明, s v m 建模方法明显优于p 鹪和r b f a n n 。 1 3 3 其它核函数方法 ( 1 ) 棱主藏分分瓣( x e 鞠e l 擎蠢蕊玲采c 溯哆雌e 毪翘羹y s s ,| c a ) 烹成分分聿厅( p c a ) 方法是一秘数据压缩和信息提取的统诗方法。它对原始 数据熊合进行压缩,以较少的变量或因子来摘述数据集中的主瑟依息。通过主成 分分析,将数据中存在的大量相关变量映射到低维主成分空间,抽取数据的特征 信息,并用少量的主成分特 i e 信息来表示原始数据。然而,主成分分析方法主要 疲雳予线性过程,如鬃将圭成分分辑曩寒辫浃嚣线性翊题,较,l 、瓣圭袋分著不一 定表示不重要豹方差,爱褥可麓包含重要豹僚惑。所潋对于翼有 # 线性特往麓数 据域暴统,要用非线性的方法来分析。 拨主成分分析是主成分分析的一种非线一l 嫩扩展( s c h o l k o p f 等,1 9 9 8 ) ,它可 用于输入变量间有非线性关系的特征分析。核主成分分析的基本思想是首先把输 入数糖通过棱避数非线靛姨射到特征空阕,然露在特征空闻中执行主成分分析。 一毅粥a 提取圭成分豹个数最多为蠢量x 瓣擦数。瑟在璎c | a 中,翔莱样本数 量超过输入维数,主成分掇取个数可以超避输入维数。研究表明,在特征提取方 面,i 泔c a 方法要优予p c a 及独立主元分析蒋方法( c a o 等,2 0 0 3 ) 。杨国亮等 ( 2 0 0 3 ) 探讨了k p c a 结合小波分析的方法谯人脸识别中的应用,认为该方法 具有陡好的分类性能和蛰棒性。王华忠等( 2 0 0 4 ) 提出了基于剃) c a 方法提取 变蠢豹褥薤售意隧有效鲶爨饕线蛙数据,劳纛戆蕊麓上进行较溺爨建模懿方法。 莉麓该方法建立了工业黎初馏塔酚油含豢繁软测量模型,工照疲塌结果表鹱了该 方法的有效性和优越性。 ( 2 ) 核主成分回归( k e m e lp 血c i p a lc o m p o n e n tr e g r e s s i o n ,k p c r ) 核主成分霉归方法瞽巍将簸入通过菲线髅按蘧数映射到嘉缭黪镊空闽,然后 在褥摄空闯采薅n r 方法,这撙特 垂空阕豹至元线往西癌粥辩波予原辕入空蠲 的j # 线性回归。通常,肿c r 可以在k p c a 的基础上进行。 王华忠等( 2 0 0 5 b ) 针对k p c r 方法中单个核函数的局限性,提出了混合核 函数 c r 方法并将其用于工业过程软测鬟建模,以提高模型的推广能力和非 线搜鲶理l 力。 ( 3 ) 核偏最小= 蒙( k e m e lp a r t i a ll e a s ts q i 瑚r e s ,k p l s ) 拨偏最小二乘的思想怒将输入z 通过p ( 映射到特征空间,在特征空间再运 用p l s 算法,这样特征空间的线性p l s 就对成原空间的非线性关系。 王华虑等( 2 0 0 5 c ) 分别用,l s 与k p c r 建立工业丙烯臆嫩产过程丙烯脖 第一章综述 收搴软测量模型,经过对比研究发现,基于核甄数方法的软测蹙摸型要拢子线性 统计模型,藤k p l s 模型键能优予k p c r 。杨辉华等( 2 0 0 5 ) 提出应熙k p l s 进 行入侵特缝抽取和检测的方法,并将该方法应朋于基于l 协u x 主枫的入侵检测实 验,取得了比s v m 和k p c r 等方法更好的效果。 ( 4 ) 混合方法 近年还有不少理论和应用研究针对的是各种传统的数据分析和建模方法与 s 及其它核函数方法的结合,出现了一系列基予s v m 和核函数的混合建模方 法。 李元谶等( 2 0 0 4 ) 在磷究s v m 棱方法和小波框架理论的慕础上,提出了一 释称为小浚支持商蘩橇( w 甜e l e t s u p p o 矗v 。c t o f m a c 越n e s ,w s v m ) 的新的税器 学习构造方法。该方法弓| 入拳波蘩遮数构造s 蠖的核醋数,褥戮了一种新的 s v m 模型。 陈国金等( 2 0 0 5 ) 提爨了鏊于支持隧爨分类器黠过程进行性能监控帮故障检 测螅改进p c a 方法,逶过黠苯一粤苯薅缝分掺缓分离过程躲仿囊硪究表明,该 方法具有 k 传统多元绞计过程控制更为优越的性能。 俞振越等( 2 0 0 3 ) 针对基因表达数据煦特点为肿瘤鲍分类闻题提出了一个凝 的分析过稳,用p e a 或p l s 米降维,用s v m 来绘样本分类。实验表明,在大 多数情况下p l s 略优于p c a 。 王华忠等( 2 0 0 5 d ) 提出了混合支持向爨机一偏最小二乘( s v m p l s ) 方法。 该方法用p l s 进行特征提取,用s 订建立p l s 的内部模型,兼具s v m 和p l s 的优点。对工业丙烯腈生产过程丙烯腈收率软测量楚模的应用表明,采用该方法 建立的软测量模型在模型精度、推广能力等方面明显优于一些传统软测量建模方 法。 蓄葡,国内乡 辩孩豳数方法的研究正方兴来艾,毽仍存在戳下一螫离题有待 透一步探索: 1 ) 如褥送一步提嵩核嚣数方法特澍是s v m 算法熬运算速度。核函数方法遥 常撄包含对缳数为撵撑( 嚣为样本数量) 懿核瓣数矩酶送行特征分析,因魏对于 大样本,这榉鼹运算对内存空阙等疑溅豹消耗极大,也影响到拔函数方法熬实时 性( 王毕忠等,2 0 0 5 a ) 。对各耪核缀数方法进纷改进硬宠,垦的裁是程僳涎精度 的同时,提高算法的速度。 2 ) 核两数方法的应用。目前除了s v m 以外,其它的核函数方法缀多仍不为 人们所熟悉,不少方法还局限于理论上的研究,而没有用到实际生产中去。因此, 在核函数与实际应用的结合方面还有很大的潜力可以发掘。 3 ) 探索核函数方法新的应用领域和对现有算法进行有效改进。将核函数方 浙江大学硕士学位论文1 3 法应用于实际中,以解决那些传统方法所不能解决的问题,同时结合实际问题对 核函数方法作出适当的修改以期达到最佳效果。 4 ) 核函数方法中核函数的研究。包括产生和发现新的核函数,以及如何根 据实际情况选择核函数以及确定核函数的参数等。 5 ) 在用核函数对传统方法进行改造之后,改造方法往往会失去了原有方法 所具有的清晰的物理含义。如何对改造方法重新进行解释将是今后的研究方向之 1 4 异常检测及稳健建模 对光谱定量分析来说,样本数据异常不仅是指光谱或待测属性值的测量值与 真实值的显著性异常,还应包括该样本的光谱或待测属性值与训练样本集中样本 的平均光谱或待测属性值范围的显著性差异,一般可分为光谱异常和待测属性值 异常。导致光谱异常的主要原因有:( 1 ) 测量仪器和性能参数的变化,如光源能 量的变化;( 2 ) 测量方法的变化,如制样条件的不同;( 3 ) 测量环境的变化,如 温度和湿度的变化;( 4 ) 样本其他物理或机械特性的变化,如粒度、黏度、光洁 度等变化;( 5 ) 样本来源的变化,使得吸光度或某些特征峰强度异常,如农作物 产地、放景时间、储存方式、采摘期和耕作方式等变化;( 6 ) 样本变质或弄错等 失误。待测属性值异常的主要来源有:( 1 ) 所用标准仪器和方法的可靠性:( 2 ) 测定方法的变化;( 3 ) 样本来源的变化;( 4 ) 操作人员的失误,如在测量过程及 数据录入过程中的失误( 闵顺耕等,2 0 0 4 ) 。 为了减少异常样本数据对建模和预测分析的影响,一般采用两种方法进行处 理,即所谓的异常检测( 诊断) 方法和稳健建模方法。异常检测( 诊断) 方法着 重于首先找出异常样本,剔除异常样本后继续用经典方法建模;而稳健建模方法 则是在建模过程中找到样本数据分布的主体,构造稳健预测模型,使异常样本不 对模型产生影响。两种方法虽处理顺序相反,但实际上殊途同归( r o u s s e 肼w 等, 1 9 8 7 ) 。 1 4 1 异常检测 异常检测( 诊断) 实际上属于数据统计与分析中的奇异点( 0 u t l i e r ) 检测的 研究内容。一般意义上的奇异点是指远离分布整体的量测值或数据点。由于光谱 受外界条件的影响较大,因此较其它测量方法更容易产生奇异点。奇异点的存在 会在很大程度上影响甚至改变整体数据的分布,从而影响校正模型的准确性和稳 健性,因此有必要将奇异点从模型中剔除( e g a n 等,1 9 9 8 ) 。产生奇异点的原因 很多,它可以是过失差错,也可能是样本点没有落在实验设计的范围之内,也可 能就是极少数就来自此分布的奇异点。 第一章综述 飙鼗学豹角度藿,竞谱数攥藏楚努毒在多缍空阗申翡一些数据熹。曩三鬻l 毒瑶 下,这些数攒点都分布在数据藤心的周围,呈椭球形状,丽奇异点藏是猩多变量 空间中远离质心的样本。在奇界点检测中,传统的方法就是试图度量每个样本远 离光谱中心的程度,采用的评价指标主要基于的是烂非稳健估计,如最小二乘 估计及其残麓、均值、协方差婚姻分析之上。其中常明的有帽子矩阵、马氏距离、 c 疆离等( 嚣鏊8 珏等,1 9 鳃) 。 ( 1 ) 帽予矩阵( h 砒m a 啊x ) 设多元校正的线性回归模型为 其中口为回妇参数,e 为回归残麓。则帽子矩阵定义为 灯= x ( x 7 x ) 。7( 1 1 2 ) 通过日可以激接由y 求得_ y 的横烈估计值,即 多一争= 盖( 盖石) - l 并y = 船( 1 + 1 3 ) 吝荔证饔,掰免纂等薅穗矩阵( 鼯鸯船= 耳,髫= 露) ,萁对角线圭豹元素玩 称为第f 个样鼯的杠杆值,有 = ( h ) ;,= ( 删料) 。= = 瑶= 瑶+ 哼 ( 1 14 ) i j 由( 1 ,1 4 ) 可知o 壤 ,说秘冀慰英继诗夔影穗缳大。一般谨寒, 当大于它的平均值的2 到3 倍时,可认为咒所对应的置为一强影响点躐称枉杆 点( l c v e r a 鐾op o i n t s ) ,这些点很有可能是奇异点。 ( 2 )玛氏距离( m 8 h a l a n o b i sd i s t 姐c e ,m d ) 马氏鼹褰楚奄雾蠡捡淫舅一个鬻矮兹浮羧撵掭。撵零与毙谱盖耋心之阙筑骂 氏距离静定义麓 c 臌¥= ( 鼍一工) c “( 而一x ) 7( 1 1 5 ) 在此c 是矩阵的协方差阵,i 搿算则是薯( f = l ,珂) 的均值矢量。计算码氏距离 不仅考虑了胡同波长处光谱信号的变化( 方差) ,墩考虑了不同波长处光谱间的 变鬟二( 秘方麓) 。式( 1 。l 中熬凝糖篷魏与马氏鼹褰之阉存在羞线蛙关系 l i c 敝¥= ( 雄一1 ) ( 一l ,嚣)( 1 1 6 ) 因此,马氏距离实际上有着与帽子矩阵相类似的作用。 马氏距离虽然直观,但如果样品中存在杂质,且杂质在所选波长区间有吸收, 螃 l q 1,;,; 一琢 r。,。,。l = x0+妇 | | y 激江大学硕士学键论文1 5 将影响刿断的效采( 徐广遇等,2 0 0 0 ) 。_ l 毙外,如果c 存在共线,则不能求逆矩 阵,因此所选波长不宜过多,否则容易产生道拟合。可以通过先对光谱矩阵进行 p c a ,再用其得分参与计算来克服共线性。 ( 3 )c o o 秘涯蔫( c l 王p i s 锨l c e ) 骥予矩簿和骂氏距离农避行奇异点检溺辩都廷对矩阵盖避籍分帮亍,两没有蠲 到y 的信息,不能发现关予y 的奇异点。c o o k 距离主要用于检验浆样本在模型中 存在与否对回归系数产生的影响,同时使用到了和y 的信息,其定义如下。 ( :d 2 ( f ) = 多一囊n 】 多一受n 】 p , ( 1 1 7 ) 在毙多淹惫禽第f 令群零辩攘型对y 貔 鑫诗镶,嚣瓣是羹。没包毯繁i 个襻本辩懿 模型估计值,酲、为不包括第i 个样本对模型稳计误差的标准方麓。若c o o k 距离 很大,表示样本对回归参数有很大的影响,样本有可能是奇异点。 就光谱定量分析来说,目前在异常样本梭测方面具有代表性的研究成果包 括 s v 啦i k 等( 2 0 0 1 ) 采孺屡次聚类方法遴稃光谱数据兹奇异点稳测,定义了奇 异点鼷信值作为衡量样本属于奇异点可能性大小的指标。通过对自然界中的各种 细菌和微生物进行光谱分析,并对得到的大鬣光谱谱图作奇异点检测,可以从中 找到制逑新药物所需要的原料。 阂蹶辫等( 2 0 0 4 ) 介缓了裁魇马氏距蒜、c o 瞌距离、光谖特强暴常值、光 谱残麓魄、傀学蓬缝辩谈整等摇标缝会数溪绞诗检验来羯赣笼瀵鞫铯学篷戆凳 常,并利用这些方法进行谶红外光谱定量分析中模型优化,取得了很好的效果。 祝诗平等( 2 0 0 4 ) 针对剔除异常样本的“一审”法具有将非异常样本错误地当 作异常样本的局限性,提出了一种“二审”法,采用“回收”算子,使爆终模型保留 了更多舱样本,模型更典霄代表性和稳定性,逛一步提高通过近缎终光谱模型进 雩亍农产黧磊凄捡嚣浆糖浚。 嚣g a l l 等( 1 9 9 8 ) 提磁半数重采样法( r 毒s a n 增l 血gb yh a l j ;m e 魏n ,r h m ) 和最 小半球体积法( s m a l l e s th 甜导v 0 1 u m c ,s h v ) 两种方法用于检测和剔除样本中的 奇异点。刘蓉等( 2 0 0 5 ) 利用r h m 和s h v 成功剔除了被测量的牛奶成分近红 外光谱中的奇异点,其效聚远优于传统的奇髯点剔除方法。 l 。4 2 稳健建模 模趔的稳健性( r o b u 咖e s s ) 反映了模型对异常样本的敏感程度,建模样本 中异常样本的存在对模型的特性影响越小,说明模型的抗干扰能力越强,其稳健 性也越好。衡量模型稳健性的一个常用指标怒模型的崩溃点( b m a i c d o w np o 谳) , 1 8 笺一章综述 分为两步进行。第一步,对输入矩阵誓进行主成分分析,得至g 主成分得分矩阵; 第二步,在得分矩阵的基础上进行多元线性回归,建立校正模型。w a l c z a k 等 ( 1 9 9 5 ) 提出了稳健主成分回归方法同时对这两步都进行了稳健化改进。 对p c a 进行稳健化改进一般有两类方法,一类方法在进行主成分分析时用某 耱豫戆馁诗量代骜蠢准懿麓蕊秘方差避行诗髯;翳一类爱是在诗冀堙壤程方差蔫 先进弦帮异点的检测和剿除。w a i e z a l 【等( 1 9 9 5 ) 采用多变量修剪法( m u l 垃v 积a 耗 t 血m i n g ,m v t ) 对参与建模的样本数据进行不断的修剪以得到稳健的均值和 方差。 在谶行稳健主成分分孝斥之后,r p c r 采用稳健回归方法进行建模,主要包括 有m 估诗阏舞、l m s 回归秘w s 回归等。 ( 5 ) 稳健偏最小二乘( r o b u s t p a r t i a l l o a s t s q u a r e s ,l s ) 偏最小二乘( p l s ) 魑一种最常用的多元回归建模方法。w a k e i i n g 等( 1 9 9 2 ) 最先对p l s 进行了稳健化,提出了基于双权型稳健回归的稳健偏最小二乘算法。 其基本暇理是分另4 对输入矩降鼻和输出矩阵y 的受载向量进行迭代加权,权值的 太枣裁懿骚麴整合误差凌定,墨误差超过一定蠛疆襄襻零蔽篷受0 ,这疆当予在 建模过程中实现了奇异点的蟊动易除。c m n m i n s 等( 1 9 9 5 ) 随后又对w a k e l i n g 等 的r p l s 算法进行了修改,猩迭代加权过程中采用交叉检验误差代替回归拟合误 差作为确定权值的依据,并且p l s 的主成分数也在迭代时进行了优化,但由此带 来的闯题是计算时间的大大增加。 寒法藏等( 1 9 ) 将歉p l s 方法矮于奏金壤元索镶、钌的光发瓣辩测定,较 好遗瓣决r 实际菠正模型国予实验误差编离菠淼分布使诗算结采静穗度遭至l 破 坏的问题,对化学测量中引入的异常点有较强的校正功能。孟秀级等( 2 0 0 3 ) 基 于双权测稳健回归的稳健偏最小二乘算法,对_ i 黩红外光谱数据进行处理,校正重 整汽油的馏程和辛烷值。梭雁结果的准确度和糍密度都高于标准方法测定的要 求,且效暴运驽于多元线憔骥归和稼最小二乘方法。 除了上述这些基于线性网归的稳健建模方法以外,近年来对非线性稳健建模 方法的研究也开始起步,其中县有代表性的是錾于支持向量机的稳健建模以及奇 异点检测方法。v 却n i k 等( 1 9 9 5 ) 提出的支持向凝机相比其它的建模方法本身就 具备较好蛉稳健性和抗干扰自力,这是由于支持向量辊所采用的损失蕊数不容易 受受镶练释本中存在夔鸯舅悫影豌。 幽黜c h a r d 等( 2 0 0 4 ) 采蠲最小二乘支符向羹瓶( l s s 证) 、编最小二乘( p l s ) 和多元线性回归( m l r ) 三种方法对三种不同种类葡萄的酸性进行近红外光谱 定量分析,实验表明l s s v m 的模型预测精度和稳健性都要优于p l 8 。s u v k e n s 等 ( 2 0 0 2 ) 指出尽管最小二暴支持向量机( l s s “) 的稳健性好于一般的线性建 浙江大学硕士学位论文1 9 模方法,继囊于袋少标准s 测冀法瑟昊毒穗蘧蛙,鞫嚣稳建整傻不够矮戆。爻 此s u v k e n s 镣提出了加权最小二灏支持向量机( w l s s 畦) ,根据支持僚的大小 对建模样本进行加权,使得改谶后的算法稳健性宵明照改善。 j o r d a a n ( 2 0 0 2 ) 探讨了采用支持向量机回归进行奇异点检测的可行性,提出 了使用具商不周模型复杂度的多种s v m 模型进行鸯髯点检测的方法,增强了检 嚣戆可靠健。裁辩该方法采取逮代豹形式,每次迭我走蘩除最显著豹瓷努点,谴 检测的正确率大大提赢。另舞,j o r d a a n 等( 2 0 8 4 ) 将s 垤与稳健主成分豳j 毽 ( r p c r ) 和迭代加权偏最小二祭( i i u p l s ) 这两种撼于稳健统计理论的建模方 法进行了比较,认为当奇异点程样本集中的比例较小时,s 讧可以有散地对奇 异点进行梭测和识别。 孙德国镑( 2 0 0 3 ) 裁翅支持囱量撬回归算法中终鹣缀险函数的性震以及 豳n t 珏文e 条佟,摄密一释薹予支籍淘量辊鹜努孛豹髯鬻篷检溅方法。仿爨实验结 果表明了该方法的可行性和有散性。 目前,猩光谱定量分析这一应用领域,对定量校正模型的关注更多怒集中在 模型的预溯饿能,也就是准确蚀方面;而模型的稳健性以及抗干扰能力却往往没 有得到应露的重视,相关的研究缀少。实际上,横嫩的稳健性也是光谱定量分析 中匏一个不磷忽褪豹因素,这楚强淹竞谱数据教袋袋楚一巾容易受强繇壤条箨、 仪器特往灏人为操作等不稳寇因索影响的过程,要求模型本身要具有良好的稳健 性,以尽可& 弥补测量环节中引入的各种干扰,才自& 保证检测可以稳窳可靠地进 行。因此,对光谱定量分析稳健建模方法的研究最个具有现实意义的课题。 l 。5 本文主要内容 本文在辩光谱定量分橱技术静相关理论迸章亍分轿釉总结的基础上,缝合生产 应用过稔中遇到的实际问题,就数据建模和异常检测这两个光谱定量分析中的关 键环节进舒了探索研究,提出了些基于支持向嫩机( s v m ) 改进算法的处理 方法,具体包括一下几个方面: l 。逶l 建戆阙孛多 文藏,鼹蠢谱定量分辑豹方法藤遵粒应弱鹜景遴抒耀述, 著特巍介缓了锋对光谱定量分轿非线性建模阖题的务静核函数方法,以及有关光 谱定量分析辩常检测和稳健熊模的研究进展。 2 通过偏最小二乘( p l s ) 方法对光谱进行特征提取,可以有效降低s v m 模型的输入变量维数,从而显蓿地缩短建模时间。蒸于这思想提出了偏最小二 乘支持向黧极( p l s s v m ) 方法,并分别与p l s 、最小二乘支持囱量祝( l s s 暖) 鼓及核编溪夺二乘( 鼬己s ) 三耱建模方法逡孬了实毅院较。结莱表鞠p 0 s 。s 谢 在保持了s 、m 较高预测精度的同时,建模速度相比s v m 有明显的提高。 3 加权最小二乘支持向量机( w l s s v m ) 是一种基于支持向量机的异常检 第一章综述 测和稳健建模算法,然而算法本身的缺陷,削弱了它在实际应用中的效果。通过 对w l s s v m 算法进行改进,克服了原有算法迭代运算不收敛的问题,使得 w l s s v m 的异常检测能力和模型稳健性得到显著改善。 4 将p l s s v m 和w l s s 订改进方法用于建立近红外光谱测定汽油辛烷值 的校正模型,有效地提高了模型的综合性能。 5 总结本课题已完成的研究工作,指出目前仍存在的问题,并对今后的研 究方向进行说明和展望。 2 2第二章p s s 、獬算法在必谱定萋分辑中静绒耀 速度太大提高;薹i 誊萋r ! 鬟;耋;囊摹;, 西弱趔瓢鹫誊| 蹬g 珊目;蚕囊i g i 攀 嗍百薹l 裟自蕊;罱妻,;照融繇器一稍矧落善幻 鬈悠峨噶逦攀懑嗟瀣强? 喇瀵阏毹烈氍幽d i 霉辆搿是氦誊酗剧;溜瞅懑嚷 蟮潭兽懈嘏研峭塌饼粥礴恻睇淞戮魏删渺j 僵艘帮溃懋嚣瑾篙誊墼罗飘洒。漩点黻 露矧i 啜攥溅的ii 囊雯 爨趋予5 辨,德突躲应露孛袋往这不裁这一 薮蓬。 徽多鬻簿豹数据建模方法都怒基于最小二装嵇诗浆,魏主成分分褫( p c a ) 、 多元线性回归( m l r ) 、主成分回归( p c r ) 和偏最小= 乘( p l s ) 方法都属此 类。对于式( 1 1 1 ) 表示的回归模溅,最小二乘的目标黼数可以表示为下列式子: ” 赫犍乎i 1 霹 “ 上式警,= 势一翻) 烫蘩;令稃零的模型毯爨鼗茇。 然而,最小二乘估计怒不稳健的,只要建模数据集中存在一个奇昴点,模型 的整体特性髋可能发生彻底改黛。也就是说最小二聚估计的崩溃点魁娥模样本数 的倒数,建横样本越多,崩溃点越低,因两模熬的稳德性越差。这楚交藏霹褥蕊 鼗是鬻陵茇熬乎方嚣舞凌囊豹。 程辩攥黧稳毽牲懿鼹瓷方瑟,人们薹竞旋转鸯鼗学建模淫论鏊穗懿统诗学入 手,发鼹出一系列稳健统计方法,克服了传统统计方法容易受实际溉测德与假设 模型之间偏麓影响这一缺陷,并谶渐形成了统计辫的个新的分支稳健统计 学( h u b 样,1 9 8 1 ) 。稳健统计掌姻出现为稳健建模方法酶发展奠定了坚嶷的理论 基醚,避年灏惩羚挺窭了不步蒸予稳犍缝诗瑾谂敷戆模凝方法,藏考对传绫蘸戆 筵方法遵嚣稳链瞧翡改邃,羰褥了令天骧嚣蕊残爨。 ( 1 ) m 估计( m e 出h i a t o r s ) m 估计鼹搬大似然估计 m a x i n l u ml 珏l i h o o de s 蛀臌t o r ) 的简称,鼹主溪思 路不潮予最小= 黍慧诗翅残整乎方_ 秘终为嚣栋溺数孵骰法,嚣是纛灏定义了一个 嚣稼遁羧( 1 歉b l 舞| ) 。m 德诗懿霹蠢嚣鼗麓 m i n 反) ( 1 。l 筇 f l p ( ) 为偶函数( 即p 0 ) = p ( 叫) ) ,并且当自变量f 为o 时有唯一的最小德。对试( 1 1 9 ) 关于豳麴参数撑进行求导褥到 矽,s 璃= 寄 a 2 秘 激江大学硕士学挺论文 三( w ,6 ,口,口) = ,( w ,p ) 一 1 矿妒( 赡) + 6 + 略一儿) ( 2 2 ) 女= l 其中l a g r a n g e 乘子吼艘,篓i q 自j :,鼙疆囊访囊鳇驻r 擗 骗型鬈龌 郅班到 蓁。蚕剥,蓁崔坶虿茎 蠢羹一一 蒸一_ 范薹坠鐾? 冀。”鞠。缝 鬻 藕。訇掣囊要;鬻蚤蚕蓬一生。羹 霍誉, 善一l 一。! m ; 差一 一二。萋 i 害? 粪l 造y 函数而不是p 函数出发的,不同的m 估计有 着不同的y 函数。例如a nd r e w s 等( 1 9 7 4 ) 定义了如下的y 函数: 胁 8 c 豫 ( 1 2 3 ) ( 1 2 3 ) 式中c 是截断参数,z 既可以是残差也可以是残差的函数。 (2 ) 最小中位方差估计( l e a s tm e d i 趾o f s q u a r e s ,l m s ) 一般说来,m 估计的崩溃点很难大于3 0 。为得到具有高崩溃点的稳健估计, r o u s s e e u w 等( 1 9 8 4 ) 提出了最小中位方差估计( l m s ) 。其目标函数是: l in m 耐( 2 )( 1 2 4 ) 在此州耐( ) 表示中位数。 lm s 估计的崩溃点可以达到5 0 ,这是稳健方法可能达到的最高值。然而, l m s 估计的收敛速率较慢。一般说来,l m s 方法的计算时间与样本数的立方成 正比。为此,s t e i g e r 等( 1 9 8 6 ) 提出一改进算法,其计算速度与 l o g ( 聍) ) 2 成正 比。 (3 ) 最小方差修剪估计( l e 船tt r i m m e ds a u a r e s ,l t s ) 为克服l m s 估计的较慢收敛速率之不足,r 伽s s e e u w 提出了最小方差修剪估 计( l t s ) ,其目标函数为: 上 m i n ( 垆) 。 ( 1 2 5 ) = 1 浙江大学硕士学位论文 模预测前都经过基线去除、多项式卷积平滑以及标准归一化等预处理步骤,以减 少噪声引起的误差。 实验采用留一( l e a v eo n eo u t ,l o o ) 交叉验证的方式,即依次剔除一个样 本后用剩余的样本建模,用模型预测剔除样本的辛烷值,通过以下指标对模型的 预测能力进行评价:最大负误差、最大正误差、均方误差( s e p ) 以及相对误差。 各指标定义如下: 最大负误差= m i n ( m 一或) ( 2 1 2 ) 最大正误差= m a x ( * 一允) ( 2 1 3 ) 均方误差( s e p ) = ( 2 1 4 ) 相对误差= ( 正两正两 - 。c :- s , 式中:咒,只分别是第j 个样本的标准分析值和预测值,萝= 杀m 是标准分析值 的算术均值,m 是测试样本数目。 本实验涉及到的算法程序均由m a t l a b6 5 语言编写,在p e n t i 啪4 微机 w i d o w s2 0 0 0 环境下运行。 2 4 2 模型拟合效果比较 p l s 、l s s v 】、k p l s 和p l s s “对训练样本的模型拟合效果如图2 3 、2 4 和表2 1 、2 2 所示。为了便于比较,主成分数胛对p l s 、k p l s 和p l s s v i 模 型都设为5 ,对l s s v m 和p l s s 都设为l o 。对于样本集a ,l s s v m 和 k p l s 的盯2 设为2 0 0 ,p l s s v m 的盯2 设为5 0 :对于样本集b ,l s s 讧和吧s 的盯2 设为1 0 ,p l s s v m 的盯2 设为1 。 由于输入光谱数据x 与输出辛烷值y 之间的关系是非线性的,因而非线性建 模方法相比线性建模方法能更准确地反映这种非线性的函数关系。从图上看, l s s v m 和p l s s 的模型拟合效果最好,特别在图2 4 中样本点几乎分布在 一条直线上,反映出s 对非线性函数具有很强的拟合能力。k p l s 的拟合效 果虽然不如两种基于s 讧的方法,但仍优于线性的p l s 方法。 表2 1p l s 、l s s 讧、k p l s 和p l s s v m 模型拟合效果比较( 样本集a ) 指标最大最大相对 模型 负误差正误差 s e p 误差 p l s1 9 7 91 5 3 9o 5 5 21 8 6 2 l s s v m1 7 8 31 2 4 0o 3 6 11 2 1 8 k p l s2 1 1 41 4 9 8o 5 4 71 8 4 6 p l s s v m1 5 2 40 8 8 20 3 4 61 1 6 5 垫塑三童垦! :! 巡茎鲨童娄堂壅墨坌堑! 塑壁里 趔 啦 蓉 童 趔 如 夏 至 标准分析值 标准分析值 趔 奶 藿 主 趔 如 嚣 g 标准分析值 标准分折值 匿2 - 3p l s 、l s s 最砌壤s 移p l s s v m 静模型掇含效栗( 样本集a ) 表2 2p l s 、l s - s h 、k p l s 和p l s s v m 模型拟奢效果比较( 样本集b ) 指标 最大最大相对 模型负误藏正误差 s e p 误差 p l so 7 3 5o 8 0 3o 2 6 94 4 2 2 己s s v m罐。1 8 7释,1 7 s艄1 2 。7 3 x p l s_ o 。5 2 5o 7 l l0 。2 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论