




已阅读5页,还剩56页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于近红外光谱的汽油牌号识别与辛烷值测定.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 作为成品汽油的关键质量指标之一,汽油辛烷值直接表征汽油的抗爆性能,根 据辛烷值大小划分成不同的汽油牌号。传统的实验室分析方法不仅测定费用高,分 析过程费时,而且操作和维护复杂。近红外光谱分析技术是一种快速的无损分析技 术,可用于对汽油产品质量的离线和在线实时分析。为此,本文对基于近红外光谱 的汽油牌号识别与辛烷值测定技术进行了深入研究,并开发研制了一种新型汽油辛 烷值近红外测定仪。论文主要内容包括: 1 通过参考大量的中外文献,对近红外光谱分析技术的发展与应用作了较为详 细的介绍,对近红外校正模型的建立步骤和理论背景作了系统全面的削述,并对模 式识别技术在近红外定性分析中的应用作了细致地描述。 2 将模式识别的分类算法应用于成品汽油牌号的自动识别。用主元分析对汽油 吸收光谱进行特征提取,用多种分类方法判别牌号,并比较了各种分类方法的效果。 比较结果表明:通过选择合适的特征变量并采用相似分类法可以获得满意的分类效 果,可用于汽油产品的牌号快速识别。 3 在近红外校正模型的建立过程中,传统的训练样本选择策略只考虑光谱距离 就近选取。论文分析了该策略的不足,并设计了一种改进的训练样本选择机制:先 通过分类选择与待测样本属同一类的相近样本,并采用光谱特征异常判别手段进行 二次筛选,再建立p l s 回归模型。研究结果表明:采用改进的训练样本选择机制后, 模型的预测精度比传统方法有了明显的提高。 4 基于上述方法,并结合具体应用情况,开发研制了新一代近红外汽油辛烷值 快速测定仪。经某炼油厂一年多来的实际运行结果表明:该测定仪显示了良好的预 测精度和稳定性,具有很好的应用推广价值。 关键词:近红外光谱主元分析分类校正模型汽油辛烷值汽油牌号 浙江大学硕士学位论文 a b s t r a c t 0 c r a n en u m b e ri so n eo ft h em o s ti m p o r t a n tp r o p e r t i e so fg a s o l i n e ,a n dg a s o l i n ei s d i v i d e di n t od i f f e r e n tb r a n d sb a s e do no c t a n en u m b e r t r a d i t i o n a ll a b o r a t o r ya n a l y s i si s u s u a l l yu s e dt om e a s u r eo c t a n en u m b e r ,h o w e v e r , t h ea n a l y t i c a lp r o c e s si sc o m p l e x , t i m e - c o n s u m i n gw i ml l i 曲c o s t n e a r - i n f r a r e d ( n i r ) s p e c t r o s c o p yi san o n d e s t r u c t i v e a n df a s ta n a l y s i sm e t h o d w h i c hi s p r e f e r a b l et or a p i d l yd e t e r m i n et h ep r o p e r t i e so f p e t r o l e u mp r o d u c t so f f i i n eo ro n l i n e t h i s 血e s i ss t u d i e st h ea p p l i c a t i o nt e c h n i q u e so f n 皿s p e c t r o s c o p ya n dd e v e l o p e dan e wg a s o l i n eo c t a n en u m b e ra n a l y z e r t h em a i n c o n t e n t so ft h i st h e s i sa r ea sf o l l o w s : 1 r e v i e wt h ed e v e l o p m e n ta n da p p l i c a t i o no f n i rs p e c t r o s c o p ya n a l y s i st e c h n o l o g y ; i n t r o d u c et h ed e t a i l e dm o d e l i n gs t e p sa n dt h e o r yb a c k g r o u n do fn i rc a l i b r a t i o nm o d e l ; t h e np r e s e n tt h ea p p l i c a t i o no f p a t t e m r e c o g n i t i o nt e c h n o l o g yi nn i rq u a l i t a t i v ea n a l y s i s 2 a p p l yc l a s s i f i c a t i o nt e c h n i q u ei na u t o m a t i cr e c o g n i t i o no fg a s o l i n eb r a n d s u s e p r i n c i p a lc o m p o n e n ta n a l y s i s ( p c a ) t oe x t r a c tf e a t u r e so fs p e c t r a ,t h e nd i s c r i m i n a t e g a s o l i n e b r a n d s b yu s i n gs e v e r a lc l a s s i f i c a t i o na l g o r i t h m s ,a n dc o m p a r et h e i r e x p e r i m e n t a lr e s u l t s e x p e r i m e n tr e s u l t ss h o wt h a t s a t i s f i e dc l a s s i f i c a t i o np e r f o r m a n c e c a nb eo b t a i n e db ys i m c a ( s o f ti n d e p e n d e n tm o d e l i n go fc l a s sa n a l o g y ) a l g o r i t h n a , w h i c hc a l lb ew i d e l ya p p l i e dt ot h ef a s tr e c o g n i t i o no f b r a n d so f g a s o l i n ep r o d u c t s 3 i nt h en i rc a l i b r a t i o nm o d e l i n gp r o c e s s u - a d i t i o n a l t r a i n i n gs a m p l es e l e c t i o n p o l i c yo n l ys e l e c t st h en e a r e s ts a m p l e sb yt h es p e c t r u md i s t a n c e t h i st h e s i sa n a l y z e dt h e s h o r t a g eo ft h es e l e c t i o np o l i c ya n dd e s i g n e da ni m p r o v e dt r a i n i n gs a m p l es e l e c t i o n p o l i c y t h ei m p r o v e dp o l i c yf i r s tc h o o s e ss e v e r a ln e a r e s tt r a i n i n gs a m p l e s ,t h e na b a n d o n s s o m ea b n o r m a ls a m p l e sb yp c ar e s i d u a , f i n a l l yb u i l dp a r t i a ll e a s ts q u a r e s ( p l s ) r e g r e s s i o nm o d e lt op r e d i c tt h eo c t a n en u m b e ro fg a s o l i n ep r o d u c t s e x p e r i m e n tr e s u l t s s h o wt h a tt h en e wt r a i n i n gs a m p l es e l e c t i o np o l i c yi m p r o v e sp r e d i c t i o np r e c i s i o no fn i r m o d e lo b v i o u s l y 4 b a s e do nt h ea b o v er e s u l t s ag a s o l i n eo c t a n en u m b e ra n a l y z e ru s i n gn i r s p e c t r o s c o p yi sd e v e l o p e d t h ea n a l y z e rh a sb e e na p p l i e di nar e f i n e r yf o rm o r et h a no n e y e a r a p p l i c a t i o nr e s u l t ss h o wt h a tt h ea n a l y z e rp e r f o r m ss a t i s f a c t o r i l yo nt h ep r e d i c t i o n p r e c i s i o na n ds t a b i l i t y , w h i c hp r e s e n t sv e r yg o o da p p l i c a t i o nv a l u e s k e y w o r d s :n e a r i n f r a r e ds p e c t r o s c o p y ,p r i n c i p a lc o m p o n e n ta n a l y s i s ,c l a s s i f i c a t i o n , c a l i b r a t i o nm o d e l ,g a s o l i n eo c t a n en u m b e r , g a s o l i n eb r a n d s 浙江大学硕十学位论文 v 致谢 值此论文完成之际,我衷心感谢戴连奎教授近三年来对我孜孜不倦的教育和指 导。戴老师把我带入了近红外光谱分析研究的大门,不仅在学习过程中给予我悉心 的指导,而且为我提供了一个宽松、和谐的研究环境,引导我在科研工作中一步步 前进,我的每一次进步和取得的成绩都是与戴老师的教育、帮助分不开的。戴老师 不仅在科研工作中给予我最大的帮助,同时在牛活中给予了我无微不至的关怀,在 此衷心表示感谢! 戴老师勤奋敬业、知识渊博、思维敏锐、治学态度严谨、为人乐 观豁达,在学习和工作上为我树立了良好的榜样。 衷心感谢吴铁军教授对我工作学习各方面的帮助和肩迪t 吴教授对待学生和蔼 可亲,语言幽默,令人如沐春风。吴教授治学态度也十分严谨,对工作总是一丝不 苟、亲历亲为,他对事业孜孜不倦的追求精神令我非常钦佩和敬仰。同时,感谢智 能所其他老师两年多来对我的学习科研工作所给予的帮助。 衷心感谢中国石化集团杭州炼油厂蔡仁杰总工程师、质检处的王吉牛处长与徐 兴高处长以及其他人员为本课题所提供的帮助和支持,同时感谢中国石化浙江省石 油销售公司李林萍科长、夏华荣技术员为本课题所提供的应用条件与现场数据,并 感谢中国石化集团清江炼油厂质检处沈旭处长、范鹏程技术员与其他人员在应用本 课题开发的n 1 r 分析仪方面所提供的帮助和支持。 衷心感谢武晓莉师姐,徐伟强、覃旭松、陈鹏和贾国隽等师兄以及郑旦师傅, 他们是我的良师益友,在我的科研学习过程中给予了我极大的帮助和支持,共同营 造了一个和谐的学习牛活环境,在此表示诚挚的谢意。 特别感谢韩言正同学,在两年多的相处中,他在学习和生活上给了我很大的帮 助和支持,与我共同完成科研课题,在此表示特别的谢意。 衷心感谢我的父亲、母亲及其他亲人,他们用自己最大的努力帮助我完成学业, 感谢他们一直以来对我的关爱和支持。 张其可 二零零六年一月于求是园 浙江大学硕士学位论文 第一章近红外光谱分析技术综述 摘要:现代近红外( n i r ) 光谱是最引人瞩目的光谱分忻技术之一,可以用来对很多有机 化台物进行定性和定量分析。本章讨论了基于n i r 光谱的化学分析技术的原理和 研究现状,并简单探讨了模式识别方法在近红外光谱分析中的应用。 关键词:近红外光谱模式识别多元校正分类 1 1 引言 某一混合物的属性通常是关于其化学成分的非常复杂的函数。这种函数通常 是非线性的,有时甚至是未知的。当考虑石油产品的物质属性时,这个情形变得 更加复杂,因为很多情况下这些自然资源的完整化学成分是未知的。另一方面, 分析化学的发展提供了许多工具能获得某一混合物中许多化学成分相对敏感的 整体信息,其中一个工具是n i r 光谱分析法,它对样本含氢基团的泛频和组频 非常敏感。 近红外光( n e a r - i n f r a r e d ,n i l ( ) 是指波长范围为7 0 0 - 2 5 0 0 n m ( 美国试验和材 料标准协会- a s t m 规定) 的电磁波。这个光谱区由于含氢基团x h 的泛频和组频 作用,存在许多化学成分相互重叠的吸收带,包含了丰富的特征信息,并且与其 它分子团振动作用基本独立,因而适合带含氢基团的化合物的定量测定或定性分 析。此外,对于近红外光的吸收取决于样品中组分浓度和分子特性及相互作用。 不同分子由于包含不同基团而吸收不同频率的近红外光;同类分子包含相同基团 但浓度不同,从而吸收不同量的近红外光能量。因此,在近红外光的吸收光谱中 不仅包含化学组分的信息,还包含了组分浓度的信息。但由于近红外光谱的特征 谱带较宽,且相互重叠严重,使光谱的分辨比较困难,直接分析n i r 重叠的谱峰 对预测物质属性通常没有太大用处,并且由于样本混( 化) 合物高度复杂的化学 组成和样本n i r 光谱强烈的相关性,单独预测每个相关成分的待测属性非常困 难,只能对所有成分的整体属性进行预测( b l a n c o 等,2 0 0 2 ) 。因此,自从2 0 世 纪5 0 年代n i r 被提出以来这个光谱区没有得到充分地利用。 2 0 世纪7 0 年代,随着化学计量学( c h e m o m e t r i c s ) 的发展,多元校正方法 克服了近红外光谱的这些缺点,使得利用这个谱段的光谱信息预测物质属性的应 用成为可能,而不需要单独解释每一个化学成分,也不需要理解它们与待测属性 的真实关系( b a r z i l a i 等,1 9 9 7 ) 。化学计量学应用数学和统计学方法设计和选 择最佳的测量程序与实验方法,并通过解析化学谱数据来提供最大限度的化学信 息( 梁逸曾等,2 0 0 0 :w o r k m a n ,2 0 0 2 ;朱尔一等,2 0 0 1 ) 。作为化学计量学的 一个重要组成部分,新发展起来的多元校正技术推动了近红外光谱的应用。而在 2 浙江人学硕士学位论文 分析物质属性的许多应用领域中,表征关联待测指标的往往是含有某些特定官能 团的某一类多个组分的混合物,通过化学实验分析只能单独确定个别组分,难以 把握总体属性,如果这些官能团的整体信息在n i r 光谱中能表现出来,则近红外 光谱分析是较为适用的一种方法。从近红外光谱技术的发展来看,近红外光光谱 技术的不断进步得益于化学计量学的不断丰富,同时也是近红外光谱仪器,特别 是光源、光电器件、计算机系统不断发展和进步的结果。 n i r 光谱和多元校正的结合已经被成功地应用于许多物质属性的预测,包括 湿度测量、石油产品质量评定、溶液成分比例、环境的污染程度、食品加工和真 伪鉴别、农产品鉴定、酒类品种鉴定、制药业和其它许多领域。预测的效果通常 是可以接受的,尽管大多数方法在理论上没有得到证明。在石化领域n i r 光谱分 析也已被广泛地应用。k e l l y 等( 1 9 8 9 ) 研究了基于汽油在6 6 0 1 2 1 5l l n 波长范围 内的n i r 光谱,结合多元统计分析预测辛烷值( 研究法和马达法) 及硫、芳烃含 量等品质参数的可行性。袁洪福( 1 9 9 8 ) 等人全面综述了现代n i r 分析技术,包 括n i r 光谱测量、光谱特征提取、定量定性分析等,并着重介绍了近年来n i r 分析 技术在石化领域中的应用。刘海旺等( 1 9 9 8 ) 建立了基于近红外光谱快速鉴别汽 油添加剂成分类型的模型。k i m 等( 2 0 0 0 ) 基于n i r 光谱,采用主元和贝时斯统 计方法对石油产品( 汽油、柴油等) 进行了实时分类。徐广通等( 2 0 0 1 a ) 采用 偏最小二乘方法建立了适合催化裂化、催化重整、清洁汽油测定r o n 、m o n 、 烯烃含量、芳烃含量、苯含量和氧含量的分析模型。 近红外光谱分析技术包括定性分析和定量分析,定性分析的目的是确定物质 的类别、组成与结构,而定量分析则是为了确定物质中某些组分的含量或是物质 的品质属性的值。n i r 光谱分析离不开功能强大的数据计算处理技术。多元线性 回归( m u l t i v a r i a t el i n e a rr e g r e s s i o n ,m l r ) 是最常用的定量分析技术,主元回 归( p r i n c i p a lc o m p o n e n tr e g r e s s i o n ,p c r ) 、偏最小二乘( p a r t i a ll e a s ts q u a r e s , p l s ) 等线性方法和二次偏最小二乘( q u a d r a t i cp a r t i a ll e a s ts q u a r e s q p l s ) 、 神经模糊推理模型等非线性方法已经被成功地应用于光谱定量分析。但是,这些 技术并没有获得很好的定性分析能力。 模式识别技术被用于光谱数据的定性分析,常用的有线性判别分析( l i n e a r d i s c r i m i n a n ta n a l y s i s ,l d a ) 、二次判别分析( q u a d r a t i cd i s c r i m i n a n ta n a l y s i s , q d a ) 、基于马氏距离( m a h a l a n o b i sd i s t a n c e ) 的k 近邻法( k - n e a r e s tn e i g h b o r s , k n n ) 、相似分类法( s o f ti n d e p e n d e n tm o d e l i n go f c l a s sa n a l o g y ,s i m c a ) 、判 别偏最小二乘( d i s c r i m i n a n t - p a r t i a ll e a s ts q u a r e s ,d p l s ) 和人工神经网络 ( a r t i f i c i a ln e u r a ln e t w o r k s ,a 卜附) 等算法。 浙江大学硕士学位论文3 近红外光谱技术之所以成为一种广泛应用的分析技术,除了本身透光率高、 漫反射低的特点外,还有其自身的技术特点: ( 1 ) 无损的绿色分析; ( 2 ) 测量快速方便: ( 3 ) 可同时测量多个组分性质,分析效率高: ( 4 ) 分析成本低; ( 5 ) 测试重现性好; ( 6 ) 适合在线实时分析。 近红外光谱分析也有其固有的缺点和局限。由于是一种间接测量技术,需要 用参考方法( r e f e r e n c em e f f a o d ,一般是化学分析方法) 获取一定数量的样本数 据,因此测量精度依赖于该参考方法的测量精度;模型的建立和维护需要时间和 费用;近红外光谱的测量范围,只适合对含氢基团的组分或与这些组分相关的属 性进行测定,而且组分的含量一般应大于0 1 才能用近红外光谱进行测定( 姚肖 刚,2 0 0 4 a ) 。 本章第二节介绍了近红外校正模型的原理、组成以及分析模型建立的各个阶 段,已有的一些研究成果,对如何选择训练样本做了专门的介绍。第三节概括了 模式识别技术在近红外光谱定性分析中的应用和发展现状,概述了分类问题的主 要方法和应用前景。第四节对全文进行总结。 1 2 近红外校正模型概述 近红外光谱定量分析可以分为校正( c a l i b r a t i o n ) 和预测( p r e d i c t i o n ) 两个 步骤。近红外光谱技术根据样本的近红外光谱和标准方法测定的数据,采用化学 计量学方法建立关联的分析校正模型,然后根据未知样本的光谱和建立的模型快 速预测组分性质( 徐广通等,2 0 0 1 b ) 。而建立一个校正模型的前提条件是要有 足够数量、与测试样本性质相近并且分布能覆盖测试样本范围的训练样本,包括 训练样本的近红外光谱数据x s 和待测属性值y s 。x s 经光谱预处理后与y s 通过化 学计量学方法建立校正模型,即可以预测经预处理后的测试样本光谱x u 对应的 待测属性值y u 。 训练样本 测试样本 图1 1 近红外校正模型建立流程 预测结果 4 浙江大学硕士学位论文 近红外校正模型的建立流程如图1 1 所示。其中,x s 、x u 是样本的归一化吸 光度光谱,y s 、y u 是样本的一个或多个属性值( 如汽油的辛烷值) 。吸光度光 谱计算如下:用近红外光源照射样品后由近红外光谱仪测到的透射光谱除以无样 品时照射空气测到的参考光谱计算得到透过率光谱t ,吸光度光谱a = 1 0 9 l o ( t ) 。 训练样本的y s 通常用标准化学分析方法得到,这种方法作为近红外光谱分析法 的参考方法必须有很高的测量精度,才能尽可能减少带入到模型中的误差,从而 提高近红外光谱测量结果的准确性。有了一定数量和分布的训练样本,就可以从 中选取适当的样本数据利用m l r 、p c r 、p l s 等线性回归方法建立校正模型,对 待测样品进行组分属性的预测。 1 2 1 近红外光谱预处理 利用近红外光谱对样品进行分析,可以不需要对样品进行预处理,但在建立 校正模型之前必须对获得的光谱数据进行预处理。受样品本身、近红外光谱仪器 以及测量环境等因素的影响,用n i r 光谱仪测得的原始光谱数据中除了包含与样 品组成有关的信息外,还会含有噪声。为了消减噪声干扰,使所获得的样本光谱 尽量真实反映样本信息,必须对这些原始数据进行预处理。预处理后的光谱数据 具有较高的信噪比,才可以用于建立定性和定量校正模型。 根据不同的样本体系和实际应用,通常会采用些不同的预处理技术对光谱 数据进行预处理。常用的n m 预处理方法有: 一、平滑 平滑( s m o o t h i n g ) 可以有效地消除谱图中的高频信号( 仪器噪声) 而保留 低频信号( 有用信息) ,经过平滑处理后的数据信噪比会有明显提高。其基本假 设是光谱含有的噪声为零均随机白噪声,若多次测量取平均值可降低噪声提高信 噪比。数据平滑的方法通常有傅立叶变换、奇异值分解等,但常用的是卷积平滑 方法。卷积平滑方法是s a v i t z k y 和g o l a y ( 1 9 6 4 ) 提出的一种简单的基于移动窗口 最小二乘拟合计算的数据平滑方法,更强调中心点的作用。由于该方法大大提高 了计算速度,因此被广泛应用于光谱数据的平滑处理。这种方法的缺点是可能会 造成有用数据的损失,g o r r y ( 1 9 9 0 ) 基于g r a m 多项式的递推性质用卷积方法进 行最小二乘平滑,从而克服了这个缺点。采用卷积平滑要注意窗口大小,过度的 平滑仍会丢失有用的光谱信息。 二、求导 一阶和二阶求导( d e r i v a t i v e s ) 常被用于近红外、紫外、拉曼等现代光谱技 术的数据预处理中。求导可以分离重叠在一起的波峰,线性背景在一阶求导后变 成常数,在二阶求导后则变为零值。与原始信号相比,二阶求导后的信号的半峰 浙江大学硕士学位论文 宽变小,可使得在原始信号中无法识别的两个峰在二阶导数信号中能明显地分开 ( o s b o r n e 等,1 9 9 3 ) 。但是求导会放大噪声,因此在进行求导前需要对原始数 据进行平滑处理。求导方法中最常用的有直接差分法和s a v i t z k y g o l a y 卷积求导 法,k i t a m u r a ( 1 9 8 7 ) 对光谱的二阶求导处理作用进行了深入研究,而b r o w n ( 1 9 9 9 ) 对该方法在多元校正中的危害作了分析。 三、多元散射校正技术 多元散射校正技术( m u l 邱l i c a t i v es c a t t e rc o r r e c t i o n ,m s c ) 是由m a r t e n s 等人 ( 1 9 8 9 ) 提出的,用于消除颗粒分布不均匀及颗粒大小产生的散射对校正模型的 影响作用,在n i r 固体漫反射和浆状物透( 反) 射光谱分析时得到了广泛应用。 这种方法的基本思想是对每个光谱进行旋转,使得它们尽可能靠近所有光谱的平 均值。多元散射校正技术能使模型简化,如减少p l s 所需主因子数;也能提高模 型精度,减少s e p ( s t a n d a r de r r o ro fp r e d i c t i o n ,标准预测误差) ,s e c v ( s t a n d a r d e r r o ro f c r o s s v a l i d a t i o n ,标准交叉检验误差) 等预测误差( g i s l u m 等,2 0 0 4 ) 。 除标准m s c 算法外,还存在一些改进变形算法如反向信号校正( i n v e r t e ds i g n a l c o r r e c t i o n i s c ) 、扩展反向信号校正( e x t e n d e di n v e r t e ds i g n a lc o r r e c t i o n , e i s c ) ( m a r t e n s 等,2 0 0 3 ) 和分段多元散射校正( p i e c e w i s em u t i p l i c a t i v es c a t t e r c o r r e c t i o n p m s c ) ( 褚小立等,2 0 0 4 ) ,但这些方法都不如m s c 应用广泛。 四、标准正态变量 标准正态变量( s t a n d a r d n o r m a lv a r i a t e ,s n v ) 变换是由b a r n e s 等人( 1 9 8 9 ) 提出的一种用于消除光谱中散射造成的多重干涉影响和固体颗粒大小不均影响 的预处理方法。这种变换将每个光谱减去平均值后再除以光谱的标准差,使得处 理后的数据满足正态归化特性( c a n d o l f i 等,1 9 9 8 ) 。对需s n v 变换的光谱x 。, 按式( 1 1 ) 计算: 强。= k 4 一j 、 式中,军,为第f j 羊品光谱的平均值( 标量) ,户1 2 ,m ,卅为波长点数;i = 1 2 ,”, 为校正集样品数。 标准正态变量变换是n i r 光谱数据预处理常用方法之一,可以用来消除n i r 光谱中光源功率变化、光强衰减、光程变化及样本杂质散射等引起的噪声,但并 不能够去除荧光背景干扰( c o o p e r 等,1 9 9 5 ) 。 五、d e w e n d i n g 技术 背景趋势去除技术( d e t r e n d i n g ,d t ) 最初被应用于粉剂的近红外光谱分析 中,目的是消除背景趋势漂移,突出有用信息( b a r n e s 等,1 9 8 9 ) 。其算法非常 生浙江大学硕士学付论文 直接,首先将光谱轧的吸光度和波长拟合出一趋势线吐,然后把吐从x 减掉( 4 ) 即 可。但是d t 技术在光谱分段和基线拟合上具有较大的随意性。背景趋势去除技 术有多种具体的实现形式,其中样条插值去趋势法( s p l i n ed e t r e n d i n g ) 在计算 时间和处理效果上可达到最好的平衡( t a n a b e 等,2 0 0 2 ) 。 六、主元分析 主元分析( p r i n c i p a lc o m p o n e n t sa n a l y s i s ,p c a ) 是常用的特征变量选择方 法,可以用于光谱数据维数的压缩,能够将光谱数据压缩成少数几个正交的主成 分( p c ) 变量的线性组合,在保留了最大特征( 光谱变异) 信息的同时达到了 降低维数的目的( o s b o r n e 等,1 9 9 3 ) 。w u 等( 1 9 9 5 ) 结合n i r 光谱用p c a 进行 波长识别率的选择,用于判别透明薄膜包装药片里的不同配药浓度。w u 等( 1 9 9 7 ) 将p c a 作为降维方法成功应用到制药业的三组n m 数据集分类。c a n d 0 1 f i 等 ( 1 9 9 8 ) 结合p c a 压缩特征提出了一种以识别特征为主的策略建立分类模型。 d i n g 等( 2 0 0 0 ) 用p c a 将n i r 光谱数据样本压缩成小于1 ,3 样本数的若干个主元, 包含原始光谱近1 0 0 变异信息,再采用判别分析技术对碎牛肉掺假进行检测显 示了潜在实用性。k i m 等( 2 0 0 0 ) 用p c a 提取光谱特征,再由贝叶斯分类根据各 类别在主元空间中位置得到样本类别概率,实现了简易快速的基于n i r 光谱对石 油产品的分类。b l a n c o 等( 2 0 0 2 ) 先用p c a 处理丙烯酸纤维n i r 光谱数据,再用 s i m c a 年i a n n s 对掺入不同油剂的纤维进行分类,根据类别专门构造p l s 校正模 型,可以精确测定丙烯酸纤维中不同类型的油剂含量,得到的模型简单快速和具 有很好的鲁棒性。c o z z o l i n o 等( 2 0 0 3 ) 用基于短波n i r 光谱的p c a 丌发了判别模 型以区分不同品种来源的澳洲商业白酒样本。c o c c h i 等( 2 0 0 4 ) 对面粉的整个中 红外光谱用p c a 分解压缩,再用小波包转换高效模式识别算法对不同类型的谷类 面粉进行分类。 七、傅立叶变换 傅立叶变换( f o u r i e rt r a n s f o r m a t i o n ,f t ) 将任何曲线转换成一组s i n e 和c o s i n e 曲线的叠加。c o o l e y 等人( 1 9 6 5 ) 提出的快速傅立叶变换( f a s tf o u r i e r t r a n s f o r m a t i o n ,f f t ) 算法使得傅立叶交换可以在微机上实现,从而使得傅立叶 变换得以广泛应用。光谱数据经过傅立叶变换后,大部分光谱信息由少数大的 s i n e 波形的傅立叶系数所表达,而小的s i n e 波则代表误差。通过这种变换可以对 原始光谱数据进行平滑、插值、滤波、拟合等运算,参与建模时将大大减少数据 量和减少误差。 八、k a l m a n 滤波 浙江大学硕士学位论文 w u 和r u t a n 等人( 1 9 9 6 ) 提出用k a l m a n 滤波的方法进行特征变量选择。 k a l m a n 滤波是一种迭代的最小二乘拟合技术,模型参数可以迭代计算且不需要 用到矩阵求逆的运算。 九、正交信号校正技术 正交信号校正技术( o r t h o g o n a ls i g n a lc o r r e c t i o n ,o s c ) 是w 0 1 d 等人( 1 9 9 8 ) 提出的一种光谱预处理方法。其基本思想是在原光谱数据中剔除与待测属性不相 关( 正交) 的光谱数据变量,可以使p l s 或p c r 建立模型的主因子数减少,提高 模型预测能力和稳健性,还可以用于多元校正中模型传递和奇异点检测等问题。 十、小波变换 小波变换( w a v e l e tt r a n s f o r m ,w t ) 是2 0 世纪8 0 年代发展起来的种新的信 号处理方法( 刘贵忠等,2 0 0 1 ) 。由于大量基函数的出现及快速算法的提出,9 0 年代初w t 已广泛应用于分析化学信号的处理( b a r c l a y 等,1 9 9 7 ) 。小波分析用 傅立叶变换的思想对数据进行压缩,同时也兼顾了尖峰的处理,具有时频局部化 特性( 卢小泉等,1 9 9 6 ) 。w r 能够将化学信号根据频率的不同,分解成多种尺 度成分,并对大小不同的尺度成分采取相应粗细的取样步长,从而能够聚焦于信 号中的任何部分,因此,被称为化学信号的“数学显微镜”。在分析化学领域中, w t 已成功应用于高效液相色谱、红外光谱、质谱、核磁共振谱、可见紫外光谱 等分析化学信号的平滑滤噪、背景去除、数据压缩以及重叠信号解析。t r y g g ( 2 0 0 2 ) 对小波分析在噪声去除和特征提取中的应用作了详细阐述和总结。邵学 广等( 1 9 9 7 ) 将小波变换用于色谱重叠峰的解析。郑小萍等( 1 9 9 9 ) 将样条小波 变换用于信号中噪音的滤除和重叠峰解析等方面。s h a o 等( 2 0 0 3 ) 介绍了w t 在 数据压缩、数据平滑和降噪、基线和背景校正、多组分重叠信号分辨、回归和分 类以及解析图象处理等分析化学领域的应用。吕瑞兰等( 2 0 0 4 ) 以用于测定汽油 辛烷值的红外吸收光谱分析为背景,评估了采用小波去噪方法时各种小波和阈值 组合的去噪能力。 十一、遗传算法 遗传算法( g e n e t i ca l g o r i t h m s ,g a ) 和其它模拟自然过程的程序更多的被用 在特征变量最优化选择,改善p l s 多元校正的预测能力和计算速度。g u o 等( 2 0 0 0 ) 在提出的用于分析高维数据发现不同类的连续投影追击( s e q u e n t i a l p r o j e c t i o n p u r s u i t s p p ) 方法中,用遗传算法完成最优化步骤,根据它们熵序列测量的重要 度,连续地获得了潜在的变量,在近红外和气相色谱数据集评估的结果显示s p p 比p c a 更容易地展现了关于不同类的信息。褚小立等( 2 0 0 1 ) 利用遗传算法对近 红外光谱快速分析中的波长变量进行筛选,再用偏最小二乘建立分析校正模型, 对两类样品的近红外光谱分析应用实例表明,这种选取变量进行校正的方法,不 8浙江大学硕士学位论文 仅简化、优化了模型,而且增强了所建模型的预测能力,尤其适用干单纯p l s 较 难校正关联的体系。 l - 2 2 训练样本选择 近红外光谱分析一般通过建立校正模型来预测待测性质或组成( 徐广通等, 2 0 0 1 b ) ,前提是获得与测试样本性质相近并且分布能覆盖测试样本范围的足够 训练样本。然而随着数据库中各种训练样本的积累增多,全部用来建模不仅会耗 费很多时间,而且很多训练样本组成性质与测试样本差别很大,建模预测性能不 太理想。根据狈4 试样本从数据库中选择若干个适当训练样本建模能大大提高预测 速度和效果,通常称此类模型为自适应分析模型。如何选择用作建模的合适训练 样本是近红外光谱建模分析的关键一步,关系到自适应模型最终性能的好坏( 彭 鸽威等,2 0 0 2 ) 。所谓合适的训练样本,是指在已有的训练样本集中,对测试样 本有较丰富解释信息,并且无关干扰尽量少,用于建模能使模型精度达到最佳的 训练样本。通常选择训练样本基于就近原则,在一定数量和分布范围限制下,选 取离测试样本距离最小的若干个训练样本用于建模。 姚肖刚等( 2 0 0 4 b ) 在采用n i r 光谱预测柴油十六烷值的最小二乘支持向量 机( l e a s ts q u a r es u p p o r t v e c t o r m a c h i n e ,l s s v m ) 模型建立前,用聚类分析的 方法对训练样本数据进行筛选,以欧氏距离作为聚类距离,提取与待测样本组成 性质相似的适当数量样本作为l s s v m 模型的训练样本,再进行建模获得了较 好的预测结果。在就近法选择训练样本建立预测模型时,所选样本数目对模型性 能有很大的影响。所选训练样本数太少,可麓不足以覆盖测试样本且容易受异常 样本干扰,因而预测误差较大;训练样本数太多,非线性校正误差随之增大。因 此结合实际样本分布情况,综合考虑两方面影响,选取适当数目相近训练样本方 能得到更小的模型预测误差。但就近选择训练样本的建模方法由于只以光谱距离 作为选择依据,只能降低非线性的校正误差,无法发现并除去非同类样本影响和 光谱特征异常样本干扰。 对于成品汽油,由于产地不同、组成的多样性和含有多种调合组分,在n i r 光谱和辛烷值的映射上存在不确定性和模糊性( 刘海旺等,1 9 9 8 ) 。对同一种汽 油组分,由于工艺和原料上的不同可带来很大的光谱差异;而不同种类汽油,由 于各调合组分含量的关系,致使n i r 光谱体现的差别有时不是很大( 马江生, 2 0 0 4 ) 。由于种种于扰,需要在建立辛烷值的光谱回归模型前,选出相近的富有 解释信息的训练样本的同时,判断出n i r 光谱与辛烷值对应关系,以尽可能选 出不受以上模糊性干扰的合适训练样本。传统方法单纯按某一个距离准则选择训 兰一一塑坚查堂堕圭兰竺鲨茎 仅简化、优化了模型,而且增强了所建模型的预测能力,尤其适用于单纯p l s 较 难校正关联的体系。 1 2 2 训练样本选择 近红外光谱分析一般通过建立校l f 模型来预测待测性质或组成( 徐广通等, 2 0 0 1 b ) ,前提是获得与测试样本性质相近并且分布能覆盖测试样本范围的足够 训练样本。然而随着数据库中各种训练样本的积累增多,全部用来建模不仅会耗 费很多时间,而且很多训练样本组成性质与测试样本差别很大,建模预测性能小 太理想。根据测试样本从数据库中选择若干个适当训练样本建模能大大提高预测 速度和效果,通常称此类模型为自适应分析模型。如何选择用作建模的合适训【练 样本是近红外光谱建模分析的关键一步,关系到白适应模型最终性能的好坏( 彭 鸽威等,2 0 0 2 ) 。所谓合适的训练样本,是指在已有的训练样本集中,对测试样 本有较丰富解释信息,并且无关干扰尽量少,用于建模能使模型精度达到最佳的 训练样奉。通常选择训练样本基于就近原则,在一定数量和分布范围限制下,选 耿离测试样本距离最小的若干个训练样本用于建模。 姚肖刚等( 2 0 0 4 b ) 在采用n i r 光谱预测柴 | | 十六烷值的最d , - 乘支持向量 机( l e a s ts q u a r es u p p o r t v e c t o r m a c h i i l e ,l s s v m ) 模型建立前,用聚类分析的 方法对训练样本数据进行筛选,以欧氏距离作为聚类距离,提取与待测样本组成 性质相似的适当数量样本作为l s s v m 模型的训练样本,再进行建模获得了较 好的预测结果。在就近法选择训练样本建立预测模型时,所选样本数目对模型性 能有很大的影响。所选训练样本数太少,可能不足以覆盖测试样本且容易受异常 样本干扰,因而预测误差较大;训练样本数太多,非线性校正误差随之增大。因 此结合实际样本分布情况,综合考虑两方面影响,选取适当数目相近训练样本方 能得到更小的模型预测误差。但就近选择训练样本的建模方法由于只以光谱距离 作为选择依据,只能降低非线性的校正误差,无法发现并除去非同类样本影响和 光谱特征异常样本干扰。 对于成品汽油,由于产地不同、组成的多样性和吉有多种调合组分,在n i r 光谱和辛烷值的映射:二存在不确定性和模糊性( 刘海旺等,1 9 9 8 ) 。对同一种汽 油组分,由于工艺和原料上的不同可带来很大的光谱差异:而不同种类汽油,由 于各调合组分含量的关系,致使n i r 光谱体现的差别有时不是很大( 马江生, 2 0 0 4 ) 。由于种种干扰,需要在建立辛烷值的光谱回归模型前,选出相近的富有 解释信息的训练样本的同时,判断出n i p 光谱与辛烷值对应关系,以尽可能选 出不受以e 模糊性干扰的合适训练样本。传统方法单纯按某一个距离准则选择训 出不受以上模糊性干扰的合适训练样本。传统方法单纯按某一个距离准则选择训 浙江大学硕士学位论文 9 练样本,难以避免油品光谱相似性导致非同类样本对建模的影响,以及油品组成 多样性导致光谱特征异常产生的回归误差。 目前在n i r 光谱建模分析领域,已有一些强调训练样本选择重要性的文章 ( 徐广通等,2 0 0 1 b t 彭鸽威等,2 0 0 2 ) ,但对传统选择训练样本方法改进和优 化的研究很少。针对不同的校正建模方法,具体的训练样本选择方法也不尽相同。 一般非线性方法更强调训练样本分布范围能覆盖测试样本,线性方法贝f j 考虑到待 测属性的非线性校正误差一般选择同类相近训练样本。校正模型在具体应用时对 模型性能要求不同,选择训练样本的侧重点也有所不同。有的要求有很高的精度, 选择组成非常接近的适量训练样本,但抗异常样本干扰能力较弱;有的对精度要 求不高,但要求有很好的稳健性和可靠性,常选择较多的训练样本校正建模。 选取同一类型相近的足够训练样本进行建模的方法在分类正确的前提下,由 于分类根据提取的有用特征对训练样本在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 质性研究论文撰写课件
- 2025版环保设备定期检查与维修合同样本
- 2025年度医院病房地毯采购与专业铺设服务合同
- 2025版起重机租赁合同(含设备检测)范本
- 2025版让与担保合同样本:仓储物流服务
- 2025版企业可持续发展培训项目承包合同范本
- 2025年度水利工程土方回填及水土保持工程合同
- 2025地磅交易与远程故障诊断服务合同
- 诸城牙科小知识培训班课件
- 语言文字知识培训讲稿课件
- 机械识图基础知识重点课件
- 2023年版人教版高一必修第一册物理测试题(含答案)
- 电气试验(第二版)11-057职业技能鉴定指导书职业标准试题库(仅高级工)
- 全国211大学名单和985高校名单(表格+文档)
- 家长陪读承诺书【模板】
- 健康安全危险源识别、风险评估和风险控制表
- 深圳市失业人员停止领取失业保险待遇申请表样表
- 《诗经》英文简介PPT
- 四年级上册音乐全册西师版教案
- 圆锥滚子轴承产品设计
- SMT元器件焊接强推力测试标准doc
评论
0/150
提交评论