




已阅读5页,还剩75页未读, 继续免费阅读
(测试计量技术及仪器专业论文)近红外光谱分析中模型优化方法的初步研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近红外光谱分析技术具有高效、快速、低成本、无损伤和绿色环保等优 点。它不仅可以应用于实验室分析,而且适用于现场快速检测和实时在线分 析。本论文综合多学科的知识,深入研究了复杂光谱中微弱信息的提取、最 佳测量条件的设计、多变量回归方法的优化、模型稳健性的提高以及测量结 果的物理解释等关键技术。 论文的主要研究内容包括: 1 研究了多交量建模方法对近红外光谱中有用信息的提取,及其对光谱 多重相关性的克服,同时分析了奇异点的剔除对近红外光谱模型稳健性的提 高效果。实验证明,偏最小二乘回归能有效提取出对被测量具有最佳解释能 力的信息建立更稳健的模型;而奇异点的剔除可将葡萄糖水溶液四组分实 验的模型误差降低7 9 2 。 2 研究了正交偏最小二乘回归方法( o p l s ) 在近红外光谱分析中的 应用,它可有效降低模型的复杂度,提高模型的稳健性。实验证明:o p l s 可消除近红外光谱中与被测量正交的变异信息,将p l s 模型的成分数降低到 1 ,为测量结果的解释和测量条件的优化提供了物理依据。 3 研究了净信号以及基于净信号的品质因数对模型质量的影响,并从理 论上推导出光谱的最佳测量条件:增加包含有效信息的波长数、采用最佳光 程长均可有效提高模型精度。此外,深入研究了根据被测组分的净信号的相 对误差指标( e i ) 进行波长选择的方法,并克服了e i 对组分吸光系数的依赖, 实现了实际光谱应用中的波长选择。 4 研究了建模方法、奇异点的剔除、正交信号修正以及净信号对牛奶成份 近红外光谱测量模型的优化。实验表明:偏最小二乘回归方法能有效提取出脂肪 含量的信息:剔除奇异点可降低模型误差2 1 8 ;采用正交信号修正优选波段建 立的p l s 和o p l s 模型,可提高模型精度4 8 1 和5 5 6 ;采用e i 优选波段 建立的p l s 和0 一p l s 模型,可提高模型精度5 5 8 和5 6 8 。 关键词:近红外光谱分析多变量校正方法 奇异点正交信号修正净信 号 a b s t r a c t n e a r i n f r a r e d s p e c t r o s c o p ya n a l y s i st e c h n i q u e i s e f f i c i e n t ,r a p i d ,l o wc o s t , n o n i n v a s i v e ,n o td e s t r o y i n ge n v i r o n m e n t i ti sn o to n l y s u i t a b l ef o rl a b o r a t o r ya n a l y s i s , b u ta l s of o ri n f i e l df a s ta n dr e a l t i m eo i l - l i n ea n a l y s i s ,i nt h ed i s s e r t a t i o n ,a ni n d e p t h s t u d yi s c a r r i e do u tb ys y n t h e s i z i n gm u l t i d i s c i p l i n a r yk n o w l e d g eo nt h ef o l l o w i n g t o p i c s :t h ea b s t r a c t i o n o fw e a ks p e c t r a ls i g n a l ,t h eo p t i m a lm e a s u r e m e n t c o n d i t i o n ,t h e o p t i m i z a t i o no f m u l t i v a r i a t er e g r e s s i o nm e t h o d ,t h ee n h a n c e m e n to fc a l i b r a t i o nm o d e l r o b u s t n e s sa n dt h ep h y s i c a li n t e r p r e t a t i o no f m e a s u r e m e n tr e s u l t s t h em a i nr e s e a r c hc o n t e n to ft h ed i s s e r t a t i o ni n v o l v e s : f i r s t l y , t h e a b s t r a c t i o no f i n t e r e s t i n gs p e c t r a ls i g n a l a n do v e r c o m eo f m u l t i c o l l i n e a ra r es t u d i e dw i t hm u l t i v a r i a t e r e g r e s s i o nm e t h o d i m p r o v e m e n to f m o d e lr o b u s t n e s s b y e l i m i n a t i o no fo u t l i e r si sa l s o a n a l y z e d i nb o t hr e a la n d s y n t h e t i ce x a m p l e ,p l s ( p a r t i a l l e a s t s q u a r e ) r e g r e s s i o nm e t h o dc a na b s t r a c t p r e d i c t i v ei n f o r m a t i o nf o rp r e d i c t o rv a r i a b l ef r o ms p e c t r u me f f e c t i v e l ya n dc a n a c h i e v ear o b u s tm o d e l f u r t h e r m o r e ,r e m o v i n go u t l i e r sc a nr e d u c ep r e d i c t i o n e r r o rb y7 9 ,2p e r c e n ti nf o u rc o m p o n e n t sg l u c o s ea q u e o u s5 0 l u t i o n s e c o n d l y , a p p l i c a t i o no fo r t h o g o n a lp l s ( o - p l s ) i n n e a r - i n f r a r e ds p e c t r u mh a s b e e n i n v e s t i g a t e d o p l s r e s u l t si nr e d u c e dm o d e l c o m p l e x i t y w i t h p r e s e r v e d p r e d i c t i o na b i l i t y t h er e s u l ts h o w st h a t ,t h en o n - c o r r e l a t e ds y s t e m a t i cv a r i a t i o ni n s p e c t r u mi sr e m o v e d ,a n dt h en u m b e r o f r e s u l t i n gp l sc o m p o n e n t si sa l w a y sr e d u c e d t o o n e ,w h i c hm a k e si n t e r p r e t a t i o na n do p t i m i z a t i o no ft h er e s u l t i n gp l sm o d e l e a s i e r t h i r d l y , e f f e c to f n e ta n a l y t es i g n a la n d f i g u r eo f m e r i tf o rm u l t i v a r i a t em o d e lo n p r e d i c t i o n e r r o ri sa n a l y z e d ,t h eo p t i m a lm e a s u r e m e n tc o n d i t i o n s ,w h i c hi n c l u d e a d d i n gt h en u m b e ro fv a l i dw a v e l e n g t ha n da d a p t i n go p t i m a lo p t i c a l l e n g t h ,i s p r o p o s e di nm u l t i v a r i a t ec a l i b r a t i o n i na d d i t i o n ,t h ew a v e l e n g t hs e l e c t i o na p p r o a c h o nt h eb a s i so ft h en e t a n a l y t es i g n a l sr e l a t i v ee r r o ri n d i c a t o r ( e i ) i ss t u d i e d t h o r o u g h l y a n di m p r o v e d c a l c u l a t i o no f e ii sp u tf o r w a r di no r d e rt oa v o i d r e l y i n go n a b s o r b a n c ec o e 伍c i e n t w h i c hm a k e se is u i t a b l ef o rt h e w a v e l e n g t hs e l e c t i o no f p r a c t i c a ln e a r - i n f r a r e ds p e c t r o s c o p ya n a l y s i s l a s t l y , d i f i e r e n tc a l i b r a t i o nm o d e l ,o u t l i e rd e t e c t i o n ,o r t h o g o n a ls i g n a lc o r r e c t i o n a n dn e ta n a l y t es i g n a la r es t u d i e di np r o c e s so f o p t i m i z i n gm i l km e a s u r e m e n tm o d e l b a s e do nn e a r i n f r a r e ds p e c t r o s c o p y i ti sv e r i f i e dt h a t ,p l sm o d e li sm o r ee f f e c t i v ei n a b s t r a c t i n gt h ef a ti n f o r m a t i o n ,t h er e m o v a lo f o u t l i e r sc a r lr e d u c ep r e d i c t i o ne r r o rb v 2l ,8 p e r c e n t p l sa n do - p l s m o d e lb a s e do nt h ew a v e l e n g t hs e l e c t e db yr e g r e s s i o n c o e f f i c i e n to f 0 一p l sc a ni n c r e a s et h ep r e c i s i o nb y4 8 1a n d5 5 6p e r c e n ts e p a r a t e l y , a n dt h em o d e l sb a s e do nt h eo p t i m a l w a v e l e n g t hs e l e c t e db ye lc a r ti n c r e a s et h e p r e c i s i o nb v5 5 ,8a n d5 6 8 k e yw o r d s :n e a r - i n f r a r e ds p e c t r o s c o p y ,s p e c t r a la n a l y s i s ,m u l t i v a r i a t ec a l i b r a t i o n , o u t l i e r , o r t h o g o n a ls i g n a lc o r r e c t i o n ,n e ta n a l y t es i g n a l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤盎叁芏或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 利落 签字日期: 2 彬年7 月j f 日 学位论文版权使用授权书 本学位论文作者完全了解鑫盗盘堂有关保留、使用学位论文的规定。 特授权丞盗盘茔可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 刘蓉 导师签名: 签字闩期:珈3 年7 月 f if 1 云纸哎 签字日期:西i 哆年7 月f z a 第一章绪论 第一章绪论 1 1 近红外光谱分析技术 近红外光是指波长在7 8 0 n m 2 5 2 6 n m 范围内的电磁波。近红外光谱的 信息主要是含氢基团( 如c h ,o h ,n h ,s h 等) 分子振动的倍频与合频 吸收信息。不同基团产生的光谱在吸收峰位置和强度上有所不同,根据朗伯 比尔吸收定律( l a m b e r t b e e rl a w ) ,随着样品成份组成或者结构的变化, 其光谱特征也将发生变化。这是近红外光谱分析技术的理论基础。由于近红 外光谱含有丰富的物质分子结构信息,所以可用来分析绝大多数种类的化合 物及其混合物的成份浓度或其它物化性质。近红外光谱分析技术是综合光谱 学、化学计量学( c h e m o m e t r i c s ) 平d 计算机应用等多学科知识的现代分析技术。 近红外光谱分析技术的发展经历了以下几个主要阶段。1 8 0 0 年h e r s c h e l 第一次发现了近红外区域。1 9 世纪末,a b n e y 和f e s t i n g 在近红外短波区域 首次记录了有机化合物的近红外光谱。1 9 2 8 年b r a c k e t t 测得第一张高分辨率 的n i r 图,并对有关基团的光谱特征进行了解释。由于缺乏可靠的仪器基础, 5 0 年代以前,近红外光谱的研究只限于为数不多的几个实验室中,而且没有 得到实际应用。5 0 年代中期,k a y e 首先研制出能准确得到n i r 光谱的仪器, 一些公司也相继开发了商业化的仪器。n o r r i s 等人在近红外光谱漫反射技术 上所做的大量工作,掀起了近红外光谱应用的一个小高潮,近红外光谱分析 技术在测定农副产品的品质方面得到了广泛使用。进入6 0 年代中后期,由 于经典近红外光谱分析技术暴露出灵敏度低、抗干扰性差的弱点,加之各种 新的分析技术的出现,使人们淡漠了近红外光谱分析技术。8 0 年代中后期, 随着计算机技术的发展和化学计量学研究的深入。加之近红外光谱仪器制造 技术的日趋完善,促进了现代近红外光谱分析技术的快速发展。 与其它常规分析技术不同,近红外光谱分析技术是一种间接测量技术。 它是应用化学计量学方法建立校正模型,从而实现对未知样品的定性或者定 量分析。主要步骤包括:设计有代表性的校正集,并测量其近红外光谱; 采用标准方法测定待测成份的浓度( 物化性质) ,将其作为参考值:根 据校f 集样品的测量光谱和被测量的参考值,通过化学计量学方法建立校诈 模型;测量未知待测样品的近红外光谱,将其代入所建立的校正模型, 计算得到待测样品的浓度。 以化学计量学为基础的建模分析是近红外光谱分析技术中一个重要的 第一章绪论 组成部分。化学计量学是集化学、数学、统计学和计算机应用于一体的交叉 学科。它运用在计算机上实现的数学与统计学方法,优化测量过程,从化学 测量信号中最大限度地提取有用的化学信息,为复杂混合物的定性或者定量 分析提供了有力的工具,并在速度和准确度方面均得到很大的提高。 与传统分析技术相比,近红外光谱分析技术能在几秒至几分钟内,就可 以同时测定样品中多种成份的浓度或性质参数;近红外光对物质的穿透能力 较强,无需对样品作任何预处理,可实现无损测量;另外,无需化学试剂, 对样品或者环境不会造成污染;近红外光子的能量比可见光还低,不会对人 体造成伤害。因此,近红外光谱分析技术具有高效、快速、成本低和绿色环 保等特点。近红外光谱分析技术不但可用于实验室分析,而且适用于现场检 测和实时在线分析。 目前近红外光谱分析技术应用领域非常广泛,主要包括:生命科学、石 油化工、冶金、农业、医药、轻工食品、环境保护等领域。近红外分析可用 于农产品中氨基酸、脂肪以及其它营养成份的品质分析,适合于育种、栽培 和农产品加工。在食品工业,可应用于牛奶、醋等物质的主要成份浓度的现 场检测。在石油化工领域,采用近红外光谱分析技术对被测物料的质量参数 ( 如辛烷值、密度等) 进行在线分析,并与先进控制技术配合,进行质量卡 边操作,已产生巨大经济效益和社会效益。在生命科学领域,近红外光谱分 析可用于皮肤组织的水分、蛋白质和脂肪的测量,乳腺癌的检查,血液的体 积、血流速度、组织耗氧量以及血液中血红蛋白、血糖i 卜7 】等成份浓度的测定。 其中,采用近红外光谱分析技术进行人体血糖浓度的无创伤检测是目前世界 瞩目的前沿课题之一。它不仅能够实现血糖浓度及时、安全、无痛的自我监 测,而且不需要消耗品,可大大降低测试费用,同时这一理论方法的建立不 仅适用于血糖,而且可以推广应用于体液中其它成份的无创伤检测,对医学 检测技术的发展具有重要的意义。 1 2 近红外光谱分析技术尚存在的问题 近红外区域的光谱特征决定了近红外光谱分析技术存在着一些技术难 点。就目前国内外近红外光谱分析的研究现状而言,虽然近红外光谱分析技 术的研究领域非常广泛,相关的研究论文和报道也比较多,但是能够成功地 解决实际测量中的技术难题,实现良好应用的案例并不多,尤其是对于复杂 的测量情况( 如牛奶成分的近红外光谱测量、人体血糖的近红外无创伤检 测) 。 第一章绪论 近红外光谱分析技术面临的问题主要包括以下几点: ( 1 ) 由于近红外光谱区包括含氢基团不同级别的倍频和不同形式组合 的合频吸收,所以与中红外光谱相比,其谱峰较宽,谱峰重叠严重,而且吸 收强度较弱,光谱的信嗓比低。因此,如何从复杂、重叠的光谱中提取微弱的 化学成份变化信息,提高测量精度,是近红外光谱分析技术中的一个技术难 点。 ( 2 ) 近红外光谱容易受到测量条件( 如温度、仪器) 、样品状态等外界 因素的影响,引起以系统误差为主的光谱不确定性。例如影响近红外吸收峰 位置的因素就有很多,如氢键的影响、温度的变化j 。另外,很多其它干扰 信息,如散射、漫反射等现象引起的光谱变化都会被加载到样品近红外光谱 上。这些都使近红外光谱解析更加复杂化。 ( 3 ) 近红外光谱分析技术的应用需要化学计量学方法与检测技术、分 析仪器等专业知识的紧密结合 9 1 。然而目前理论研究与实际测量应用严重脱 节,建模方法的设计与优化均缺乏物理依据和理论指导。近红外光谱的分析 应该进一步从化学结构信息和数学建模方法两个角度综合提取模型的有用 信息,消除无关因素的影响,从而提高校正模型的稳健性和解释性。 ( 4 ) 由于红外光谱分析技术为“黑匣子”分析技术,化学计量学模型 比较复杂、抽象,物理意义不明确,因此需要对数学模型中重要的品质因数 ( 如回归系数、灵敏度、选择性、检测极限) 的意义进行分析,以帮助明确 影响系统构成的主要因素和系统特征,并可以判断近红外光谱测量过程是否 受到外界干扰因素的影响、建立的模型是否与待测成分的性质真正相关,为 测量结果的误差分析和测量方法、测量条件的优化提供物理依据。 1 3 本文研究的目的和意义 近红外光谱测量主要是利用物质在近红外区域的分子振动,即根据化学 圉素推测物质成分的浓度;一些被测物的特性参数的变化( 如温度的影响 等) ,虽然与成分的浓度变化对光谱的影响方式不一样,但是如果其引起的 光谱变化可再现且精度上可检测,那么这些参数变化也可以作为光谱变化的 度量( 间接测量) ,可作为化学因素的一部分。另外一类引起光谱变化的原 因是测量条件或者仪器本身的变化,与被测样品的性质毫无关系,但这种变 化使光谱分析变得复杂,往往引起伪相关,这类引起光谱变化的原因称为物 理因素。近红外光谱一般是化学因素和物理因素综合作用的结果。如何有效 地区分这两种因素并有效消除伪相关的影响,对于近红外光谱测量结果的物 第一章绪论 理解释、提高模型的精度和稳健性、分析误差原因等都具有重要的意义。尤 其是对无创伤人体血糖浓度检测,由于被测对象是复杂的人体,血糖浓度的 测量受到各种因素的影响和制约,因此如何辨识有用的化学因素和消除光谱 中的伪相关显得尤为重要。 本课题就是要通过化学计量学的各种手段,包括多变量建模方法、成分 分析、异常测量样本的剔除、光谱预处理等,来消除物理因素导致的伪相关, 提高模型的稳健性;并对模型中的化学因素导致的光谱信号进行有效提取, 从而解释和优化近红外光谱测量模型。 1 4 本文的主要研究内容 本课题的主要研究内容如下: ( 1 ) 建模方法和奇异点的剔除对模型稳健性的提高 近红外光谱没有独立的吸收峰,波长之间的容易产生共线性。因此近红 外光谱分析技术不是通过观察光谱特征或谱图参数直接进行分析,而是通过 校正模型实现对未知样品性质的定量或定性分析。正确的校正模型是准确分 析的前提,而影响近红外光谱的因素很多,如样品的组分之间的相互作用、 光谱仪的影响( 检测器噪声、环境对基线的影响) 等,人为、环境或者仪器 的突变必然在很大程度上破坏样品的光谱,必须将这些被破坏的样品从模型 中剔除,以保证校正模型的正确性和稳健性。 因此一个好的建模方法不仅需要从光谱中提取有效的建模信息,而且要 能够克服变量之间的多重相关性,避免信息重迭带来的不良影响,同时为保 证多变量模型的有效性和稳健性,必须有效剔除光谱中的奇异点。本文的第 二章主要讨论了近红外光谱分析中常用的多变量建模方法,及其在克服光谱 多重共线性的同时对系统变异信息的综合提取。同时分析了统计上常用的奇 异点检测方法应用于近红外光谱数据的效果,最后提出了对于近红外光谱比 较简单有效的奇异点检测方案。 ( 2 ) 正交信号修正对近红外光谱模型的优化 近红外光谱的多变量建模方法的改进,其实就是一个不断克服变量的多 重共线性以及提高信息综合效率的过程。但光谱中存在的一些与待测量正交 的信息,本身对模型的预测没有任何意义,却在很大程度上增加了模型的复 杂度,因此有必要对光谱进行一定的预处理将这些无用的信息消除,以提高 模型与被测量之间的相关。这种预处理方法就是正交信号修i e ( o s c ) t 阳。 第一章绪论 本文第三章主要研究了一种综合了偏最小二乘回归方法和正交信号修 j f 预处理功能于一体的建模方法一正交偏最小二乘( o - - p l s ) ,用实验验证 了o p l s 对近红外光谱中无关信号的处理效果。最后研究了正交信号修正 预处理对模型的优化,以及o p l s 对近红外光谱模型的解释。 ( 3 ) 净信号对近红外光谱模型的优化 根据张量理论,线性相关就意味着向量之间可以互相表示,因此待测成 分的信号正交于干扰信号的部分才是真正可以用于定量的,这部分信号就是 净信号( n e ta n a l y t es i g n a l ) ”“。 本文第四章主要研究了l o r b e r 定义的净信号以及基于净信号的多变量 校正模型的品质因数( f i g u r eo fm e r i t ) ,对模型质量的制约。在净信号的基 础上定义的多变量灵敏度与模型的预测误差近似成反比,本章从实验的角度 验证了通过灵敏度估计模型误差的可能性,并分析了模型误差的估计值与实 际值在噪声水平较高和样品组分复杂时出现差异的原因,同时从理论的角度 推导了阶近似下多变量模型的最佳测量条件。最后研究了根据被测组分净 信号计算的相对误差进行波长选择的方法以及多变量选择性与净信号相对 误差之间的关系,这对于实际光谱分析中的波长选择具有重要意义。 ( 4 ) 对复杂近红外光谱的实验研究 牛奶是一种非常理想的食品,不同类型的牛奶其营养成份有着很大的差 别,同时牛奶成份也是牛奶场的重要参数,人们已对牛奶成份的测量方法进 行了大量的研究。利用近红外光谱法测量牛奶成份具有测量速度快、测试费 用低、实验结果差异小、能同时提供多成份的测量值等独特的优势。本文第 五章主要研究了如何从近红外漫反射光谱中提取牛奶成份的化学信息,建立 具有脂肪化学结构信息的光谱模型,并通过奇异点的剔除来提高模型的准确 性和稳健性,利用正交信号修e 后的回归系数和净信号计算的相对误差指标 ( e i ) 选择具有脂肪结构信息的波段,进一步优化脂肪含量的近红外光谱模 犁。 第二章建模方法和奇异点的剔除对模型稳健性的提高 第二章建模方法和奇异点的剔除对模型稳健性的提高 2 1 概述 现代近红外光谱以其分析速度快、成本低、不消耗样品、易于实现在线 分析等鲜明的特点,正得到越来越广泛的应用,并成为近年来发展最快的分 析测试技术之。近红外谱区的吸收是由于分子振动的倍频或合频吸收所造 成的,因此,近红外光谱带中大量的是重叠峰和肩峰,所以精确近红外谱带 的归属很困难。另外,影响近红外谱带位置变化的因素也较多,如氢键的影 响、溶液稀释和温度的变化等。对于固体样品很多其它信息,如散射、漫反 射、特殊反射、表面光泽、折射指数和反射光的偏振等都被加载到样品近红 外光谱上。这些都使近红外光谱解析复杂化。 正是近红外光谱具有上述特征,赋予了近红外光谱分析一些独特魅力, 如近红外可以不经预处理,直接检测各种类型的样品,除液体样品外,还可 检测粉末、纤维、糊状、乳状等形式样品。同时,构成近红外谱带的背景复杂, 从近红外提取的是微弱信息,必须依靠化学计量学的手段建立光谱与样品物化 性质( 如浓度) 之间的多元校正模型,然后通过校正模型实现对未知样品性 质的定量或定性分析。因此,建立正确的校正模型是对未知样品准确分析的 前提。 近红外定量分析的基础是朗伯一比尔定律: r m a = i n l _ r 2 _ 0 = i n 妄;t l e s l ( 2 1 ) 其中:i 。为入射辐射强度,为透过辐射强度,一为吸光度。,为吸收 层厚度( r a m ) ,c 为吸收物质的浓度( m g d 1 ) 口为吸收物质的吸光系数 ( 1 m g l d l l m m ) ,t 为透过率,m 表示溶液中的组分数。 常用的化学计量学方法主要包括:多元线性回归( m u l t i v a r i a t el i n e a r r e g r e s s i o n ,m l r ) 、主成分分析( p r i n c i p l ec o m p o n e n ta n a l y s i s ,p e a ) 、主成分 回归( p r i n c i p l ec o m p o n e n tr e g r e s s i o n ,p c r ) 、偏最小二乘法( p a r t i a ll e a s t s q u a r e ,p l s ) 、拓扑学方法和人工神经网络方法等等。其中m l r 、p c r 和p l s 属于线性回归方法,主要用于样品浓度与光谱之间线性关系的关联。拓扑学 方法和神经网络方法等常用于非线性关系的关联蚋。目前分析的样品浓度与 光谱基本成线性关系。因此常用的多元校正方法是m l r 、p c r 和p l s 。 第二章建模方法和奇异点的别除对模型稳健性的提高 由于近红外光谱受外界条件的影响较大,因此较其它测量方法更容易产 生奇异, 点, , ( o u t l i e r ) i 位j 。所谓奇异点是指落在总体之外的数据点,主要是由于 实验条件的改变、样品性质的变化以及仪器的测定误差和人为的测量误差导 致。在光谱测量过程中,应密切监测仪器的状态,及时发现各种测量条件的 突变。一般来说,奇异样本的存在会在很大程度上影响甚至改变整体数据的 分布,从而影响校正模型的准确性和稳健性,所以奇异点的有效剔除是校正 模型及数据分析结果可靠的关键,是保证其它光谱处理方法有效的前提。 本章主要讨论了从建模方法和奇异点的剔除两个方面来提高近红外光 谱模型的稳健性。在近红外光谱的建模方面,从简单的多元线性回归模型到 主成分回归模型,最后发展到偏最小二乘回归,这本身就是一个不断克服外 界干扰和光谱重叠信息并提取有用信息的过程,也是一个不断提高近红外光 谱模型的准确性和稳健性的过程;而光谱中的奇异点,会改变光谱数据的整 体分布,从而破坏校正模型的正确性 点,也是提高模型稳健性的有效途径 因此有效地剔除近红外光谱中的奇异 本章用实际的光谱数据验证了奇异点 判断方法的有效性和奇异点的剔除对模型的改进,并给出了适合近红外光谱 的奇异点判断方案。 2 2 多变量线性回归方法 2 2 1多元线性回归模型( m l r ) 多元回归模型一般分为两种,一种是经典模型( c l a s s i c a lm o d e l ) ,适用于 白色分析体系;另一种就是逆模型( i n v e r s em o d e l ) ,适用于灰色或黑色分析 体系,物质的物化性质看作是仪器响应的函数m 】。近红外光谱不能满足经典 模型的要求,一般采用逆模型。m l r 、p c r 和p l s 等都属于逆模型。遵从 化学计量学的一般表述,在下文中,光谱矩阵用爿表示,样品浓度用y 或者 ,表示( y 用于单组分,r 用于多组分) ,”为样品数,p 为波长( 变量) 数。 多元线性回归的一般表示为: y = 肋+ e ( 2 2 ) 其中y = y 。,y 。,儿 7 为浓度参考值,b 为模型回归系数, 彳= h ,z :,x 。】为光谱数据,e 为残差。 该模型的解有三种情况:1 ) 当p h ,即变量数大于样本数,6 有无穷多 个解;2 ) 5 p = n ,如果z 满秩,b 有唯一解;3 ) 当p 月,得不到精确的解。 当x 列满秩时,6 的最小二乘解为: 第二章建模方法平丌奇异点的剔除对模型稳健性的提高 b s = ( 7 z ) 1 x 7 y( 2 - 3 ) m l r 具有计算简单的优点,但也存在许多缺点:对于方程维数的要求, 参加回归的变量数不能超过样本数。如果肖为光谱矩阵,光谱强度在某些波 长处往往成比例,这样就产生了多重相关性问题。另外,m l r 中并没有考虑 x 中的信息是否与真实模型相关【8 】。如果使用的变量包含了过多噪声,容易 导致模型的过拟合t s a 3 。这些都限制了m l r 方法不能使用太多的变量参与回 归。因此,m l r 的重要任务就是如何选择参加回归的变量,逐步多元线性回 口j 就是为解决这个问题而发展的方法。但对于实际问题来说,一张光谱包含 的波长一般都在2 0 0 0 以上甚至更多,其筛选工作量非常大,并且要建立一 个可靠的m l r 模型也需要大量的样品,收集样品和测量数据的工作也是非 常艰巨的。 2 22主成分回归模型( p c r ) 在分析数据时,光谱中往往包含很多个测量波长,较多的变量能携带更 多的信息,但同时也增加了分析问题的复杂性。如何抓住系统的主要特征, 用较少的指标代替原来较多的变量,又能综合反映原系统的信息,主成分分 析方法( p r i n c i p l ec o m p o n e n ta n a l y s i s ,p c a ) 提供了有效的手段【】。p c a 将原 变量进行交换,使数目较少的新变量成为原变量的线性组合,而且新变量应 最大限度地表征原变量的数据结构特征。 不失一般性,首先对数据进行标准化: 羔:i 陋。, 其中巧是x 的样本均值;s ,为x ,样本标准差。标准化处理的目的是使样 本点集合的重心和坐标原点重合,消除由量纲不同所引起的虚假变异信息, 使分析更加合理。为简单起见,仍记标准化处理后的矩阵为x 。 将新变量一表示为光谱彳的线性组合,即:鼻= x v 。,其中mj = 1 。e 的 方差为:砌r ( f ) 。吉i k 旷= v t 7 c x v ,其中c 。= 去x 7 是的协方差矩阵a 要 使e 携带最多的信息,就是其方差取得最大值: m a x 阮r ( 一) = m a xv i 。c j v i( 2 - 5 ) 求解有t v ;= - i 1 u 。即v ;是c f 的个特征向量,对应特征值为五。所以: 一孚 l | 第二章建模方法和奇异点的别除对模型稳健性的提高 v a r ( e ) = 去| f f | | 2 = v ,7 c 。v - = v 7 ( v t ) = v 。7 v 一= ( 2 - 6 ) 所以丑应该取到最大值,f = x v ,为第一主成分。依此类推,有 v a r ( f i ) 2 阮r ( 五) 2 v a t ( 一) ,即e 携带的信息量最大,f 2 次之。任意主成 分圪都是原变量x 。,工:,x 。的线性组合,并且主成分之间是互不相关的: c o y ( e ,巧) = 0 v l h ( 2 - 7 ) p c a 使数据信息的损失尽可能小,而所谓数据信息,主要反映在数据方 差上,方差越大,数据所含的信息就越多。可用累计贡献率来近似定义主成 分分解的质量: ,p o i ( ) = 丑五 ( 2 8 ) i = 1i 二1 一般q ,应高于8 0 。所以p c a 所得到的新数据系统将携带尽可能多的 原始数据变异信息,并且对样本点问的相似性改变最小,对原变量系统有最 佳的综合能力。 利用p c a 结合m l r 的建模方法称为主成分回归( p c r ) 。p c r 不是直 接考虑y 和的回归,而是对中的信息重新进行综合,提取若干对系统具 有最佳解释能力的成分。由于对变量系统进行了综合,将可能克服多重相关 性造成的信息重叠,而由于对变量系统中的信息进行筛选,将有效区分系统 信息和噪声,提高模型的准确性。 首先对光谱x 进行主成分分解,得到载荷矩阵和得分矩阵: l 。,2x 。p 0 。,+ e ,( 2 9 ) 其中,为光谱x 的得分,其列变量之间正交,只。,为主成分的载荷, 其行变量之间正交,e ,为残差,f 为主成分数。此时参考浓度y 并没有起作 用。而p c r 在p c a 的基础上,将浓度y 和z 的得分丁进行回归:y = t b + e , 回归系数的最小二乘解:占= ( t7 r t 7 y 。 p c r 通过对参与回归的主成分的合理选择,去掉了大部分的噪声。由于 7 的各列互相正交,看似解决了多元线性回归中的共线性问题。虽然得到了 一系列的主成分,但某些主成分和浓度y 之间不一定有相关关系,回归结果 就不一定合理【1 4 1 。 兰三里垄堡查堡塑童墨皇堕型坠翌堡型堡堡堡塑望里- _ 一 2 2 3 偏最, b - 乘回归模型( p l s ) 在p c r 中,只对光谱矩阵进行分解,消除了x 中无用的信息,而y 中同 样包含了无用信息,也应同样处理。p l s 中,光谱和浓度的分解同时进行, 并将浓度信息引入到光谱数据分解过程中,在每计算一个新主成分之前,交 换光谱与浓度的得分,从而使光谱主成分直接与被分析组分浓度关联瞄j a p l s 又分为p l s l 和p l s 2 。p l s 2 中光谱分解只给出一个得分r 和一个 载荷p ,显然,丁和p 对个别组分并不是最优化的;当i ,为单组分( y ) 时,就 是p l s l 模型,丁和p 对单一组分进行优化,即不同的组分,其r 和j p 也不同。 当校正集中不同组分在浓度变化相差很大时,p l s l 预测结果普遍优于p l s 2 。 p l s l 分别在x 和y 中提取成分t 和( 即r l 是x i ,x 2 ,x 。的线性组合,u l 是y 的线性组合) ,这两个成分要满足以下两个要求 1 ) f 和“分别代表和y 中的数据变异信息,即:砌v a r r ( ( “t t ,) ) - 斗- m m a a ) ( x 2 ) ,l 对“要有最大的解释能力,因此,与“。的相关应达到最大值,即: c o r r ( t i ,) jm a x 。 因此,综合的要求就是r 与“的协方差要达到最大: c o v ( t l ,1 1 i ) = 4 v a , ( t i ) v a r ( u 1 ) c o r r ( t 】,“1 ) 斗m a x ( 2 - 10 ) 一般采用标准的p l sn i p a l s 算法提取p l s 成分【5 j 。 使用p c r 和p l s 方法建立校正模型,最困难的问题之一就是如何确定 最佳主成分数目 8 1 。如果使用的主成分数过少,就不能充分反映被测组分浓 度变化产生的光谱变化,模型预测准确度就会降低,这种情况称为不充分拟 合( u n d e r f i t i n g ) 。如果使用过多的主成分建模,就会引入一些代表噪声干扰的 主成分,使模型的预测能力下降,这种情况称为过拟合( o v e r f i t i n g ) 。因此, 合理确定模型的主成分数是充分利用光谱信息和滤除噪声的有效方法。 到目前为止,化学计量学的研究人员已经提出了许多的标准来帮助确定 最佳主成分数,如特征值、预测残差平方和( p r e d i c t i o nr e s i d u a le r r o rs u m o f s q u a r e ,p r e s s ) 、因子指示函数等,其中最常用是p r e s s 方法: 一 2 p r e s s = e z ( y 。一y 。) ( 2 一1 1 ) 其中f 表示建立模型使用主成分数,y p , o 表示浓度的预测值,表示浓 度参考值。p r e s s 值越小,说明模型的预测能力越好。根据p r e s s 值判断 第二章建模方法和奇异点的别除对模型稳健性的提高 主成分数的方法有自预测法( s e l f p r e d i c t i o n ) 、交互验证法( c r o s s v a l i d a t i o n ) 、 杠杆点预测法( l e v e r a g ep r e d i c t i o n ) 、验证集预n 法( v a l i d a t i o ns e tp r e d i c t i o n ) 等。由于各次实验的样品数不多,本文中主要采用完全交互验证法进行验证。 2 3 建模方法对模型稳健性的提高 在利用多个自变量建模时,自变量集合中所包含的信息是十分复杂的, 主要包括三大部分:一部分是那些确实有用的光谱信息,是解释浓度y 的重 要因素;第二部分是可能存在的重叠信息,在实际近红外光谱中,光谱数据 在波长之间常存在较严重的多重相关,不同波长所反映的信息之间并不是独 立的,可能会重复地说明同一特征,或者通过复杂的传递关系而相互联系、 相互作用。这种多重相关,常会影响参数估计,扩大模型误差,导致模型的 可靠性非常低。第三部分信息,是在诸多被选取的波长中夹杂着对浓度y 的 变化完全没有解释意义的信息,即完全是无关噪声,但由于光谱在波长之间 存在极其复杂的相关关系,因此很难清晰识别和准确筛选,这种无关信息的 存在必然给建模带来负面影响。 所谓多重相关( 也称共线性问题) ,指爿矩阵的列不满秩,即中至少有 一列可用其它几列的线性组合表示出来。在实际工作中,多重相关性的存在 十分普遍,形成原因主要有两个:一个原因是某些变量的物理含义就决定了 它们之间的相关性;另一个重要原因是由于实验条件的限制,样本点数量不 足所造成的。 因此,在m l r 中,样本数不宜太少。一般认为,样本数应该在变量数 的两倍以上。当x 中存在严重的多重相关性时,m l r 模型的精确性、可靠 性都难以保证。当x 中的变量完全相关时,( x 7 ) 不可逆,因此无法计算回 归系数;当x 中的变量高度相关时,( z 7 x ) 的逆矩阵会含有严重的舍入误差, 回归系数的估计值对样本数据的微小变化将变得非常敏感,其稳定性很差。 同时回归系数的统计检验和物理含义的解释将变得十分困难。 而在类似于p c a 等一些非模型化系统分析中,多重相关性的危害主要反 映在变量中存在大量的重叠信息。当无意或有意地对某一特性利用不同名目 的相关指标反复描述时,便会人为地夸大该特征在系统分析中的地位,影响 分析的客观性。p c r 虽然从光谱中提取了若干相互独立的成分,不会出现计 算回归系数时不能求逆的情况,但并未从根本上避免或解决多重相关性对模 型的影响。如果不意识到这一点,而在选择波长时采取多多益善的方式,甚 至利用全波长建模,这必然影响p c r 模型的稳健性和有效性。然而,p l s 却 第二章建模方法和奇异点的剔除对模型稳健性的提高 较好地解决了这一问题,它能够在自变量存在严重多重相关性的条件下进行 回归建模,允许样本点数少于变量个数。 p c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出差税务报销培训课件
- 2025年江西省农产品种子购销合同(示范文本)
- 2025广告代理合同范本
- 2025【标准合同】租赁合同范本
- 冲压操作员安全培训课件
- 人口伦理在技术发展与人类自由中的地位-洞察及研究
- 2025年企业管理资料范本设备采购合同
- 冰箱里的秘密课件
- 冰箱焊接安全培训课件
- 八大横的写法课件
- 2023-2025年高考生物试题分类汇编:孟德尔两大遗传定律原卷版
- 2025年军考政治时事政治热点试题题库含答案
- 2025年村医笔试重点题库
- 2025-2026学年人音版(简谱)(2024)初中音乐七年级上册教学计划及进度表
- 养生艾灸直播课件
- 2025年徐州市中考语文试题卷(含答案及解析)
- 云南省2025年校长职级制考试题(含答案)
- 2025年中国电信福建公司春季招聘80人笔试参考题库附带答案详解
- 《幼儿园开学第一课》课件
- (2025年标准)佛教无偿捐赠协议书
- 学堂在线 足球运动与科学 章节测试答案
评论
0/150
提交评论