(分析化学专业论文)基于统计学的近红外光谱变量筛选与稳健建模方法研究.pdf_第1页
(分析化学专业论文)基于统计学的近红外光谱变量筛选与稳健建模方法研究.pdf_第2页
(分析化学专业论文)基于统计学的近红外光谱变量筛选与稳健建模方法研究.pdf_第3页
(分析化学专业论文)基于统计学的近红外光谱变量筛选与稳健建模方法研究.pdf_第4页
(分析化学专业论文)基于统计学的近红外光谱变量筛选与稳健建模方法研究.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(分析化学专业论文)基于统计学的近红外光谱变量筛选与稳健建模方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中 指导教师墓塞生数援 南开大学研究生院 二。一o 年五月 南开大学学位论文使用授权书 根据南开大学关于研究生学位论文收藏和利用管理办法,我校的博士、硕士学位 获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。 本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在 著作权法规定范围内的学位论文使用权,即:( 1 ) 学位获得者必须按规定提交学位论文 ( 包括纸质印刷本及电子版) ,学校可以采用影印、缩印或其他复制手段保存研究生学位论 文,并编入南开大学博硕士学位论文全文数据库;( 2 ) 为教学和科研目的,学校可以将 公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检 索、文摘以及论文全文浏览、下载等免费信息服务;( 3 ) 根据教育部有关规定,南开大学向 教育部指定单位提交公开的学位论文;( 4 ) 学位论文作者授权学校向中国科技信息研究所和 中国学术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文 数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。 非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。 论文电子版提交至校图书馆网站:h t t p :2 0 2 1 1 3 2 0 1 6 1 :8 0 0 1 i n d e x h t m 。 本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答 辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。 本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。 作者暨授权人签字:缝恒 2 0 1 0 年5 月2 8 日 南开大学研究生学位论文作者信息 论文题目基于统计学的近红外光谱变量筛选与稳健建模方法研究 姓名徐恒学号 2 1 2 0 0 7 0 5 3 0 答辩日期2 0 1 0 年5 月2 1 日 论文类别 博士口 学历硕士口硕士专业学位口 高校教师口同等学力硕士口 院系所化学院专业分析化学 联系电话 13 9 2 0 8 7 2 0 2 4e m a i l b e u l a h 2 4 0 m a i l n a n k a i e d u c a 通信地址( 邮编) :天津南开大学中心实验室b 3 0 7 ( 3 0 0 0 7 1 ) 备注: 是否批准为非公开论文 否 注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书 馆,非公开学位论文须附南开大学研究生申请非公开学位论文审批表。 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名:猃垣2 0 1 0 年5 月2 8 日 非公开学位论文标注说明 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 申请密级 口限制( 2 年)口秘密( 1 0 年)口机密( 2 0 年) 保密期限2 0 年月 日至2 0年月日 审批表编号批准日期 2 0年 月 日 限制2 年( 最长2 年,可少于2 年) 秘密1 0 年( 最长5 年,可少于5 年) 机密2 0 年( 最长l o 年,可少于1 0 年) 摘 摘要 近红外光谱叫瓜) 是一种无损分析技术,已被广泛应用于农业、石化、医疗 等行业。然而,由于近红外光谱吸收峰重叠现象严重,信号吸收较弱,且背景 干扰严重等问题,必须借助于化学计量学方法才能进行定性定量分析。在近红 外光谱分析中,变量筛选和稳健建模一直是多元校正分析中的重要内容,以解 决模型的随机性和过拟合现象。与传统方法相比,统计分析是基于大量数据的 处理,通过统计得到的规律更具有全局代表性和真实可靠性。因此,本论文利 用统计学与多模型集成建模等方法,开展了新波长筛选方法和稳健多模型算法 的研究,为提高模型的稳健性和准确性提供了新的思路,进一步表明了变量筛 选的重要意义。具体研究内容如下: 1 针对变量冗余问题,利用随机检验( r a n d o m i z a t i o nt e s t ) 思想,建立了新型 波长筛选方法,可挑选出代表样品性质特征的波长,提高模型预测精度。通过 随机过程建立大量随机p l s 模型,然后考察每一个波长对应的随机p l s 模型与 其p l s 模型回归系数的关系,来评价其对模型的重要性。研究表明,该方法可 以有效的选择有信息变量,且与m c u v e 波长筛选方法具有相当的优势,为变 量筛选工作提供了新的思路。 2 为了研究变量筛选的必要性及相关性波长对变量筛选结果的影响,采用 相关系数法对波长间的相关性及其对模型的影响进行了考察,同时对波长筛选 和波段筛选方法进行了比较。通过对谷物和烟草的近红外光谱的定量分析,结 果表明波长间存在强相关性。另外,变量筛选可以有效提高模型质量,当模型 中包含较多强相关波长时,模型预测效果更好。因此,光谱中强相关波长连续 分布时,波段筛选的结果更好;强相关波长不连续时,则波长筛选的结果较具 有优势。 3 针对单一p l s 模型容易受到奇异样本干扰的问题,依据概率取样和多模 型思想,建立了基于概率取样的稳健多模型方法( r e p l s ) ,并应用于谷物和烟 草的近红外光谱建模分析中。该方法的优势在于能有效识别奇异样本,从而提 高子模型的质量。研究表明,r e p l s 方法与传统的稳健建模方法( e p l s ) 相比, 所建立的模型更加稳健、可靠,预测结果明显提高。 4 为了充分利用所有波长信息,使模型预测精度提高,提出了根据波长稳 摘要 定性进行波长分组及赋权策略,建立了新型加权多模型方法。该方法利用波长 对模型的重要性,进行波长分组以及调节子模型权重,从而可以使所有波长的 信息得到有效利用。通过对两组数据进行考察,结果表明,这种加权多模型比 传统的p l s 模型具有更好的预测能力,丰富了多模型建模策略。 关键词:近红外光谱;统计学;变量筛选;奇异样本识别;多模型建模 a san o n - d e s t r u c t i v et e c h n i q u e ,n e a r - i n f r a r e d ( n i r ) s p e c t r a ln a n a l y s i sh a sb e e n w i d e l yu s e di nm a n yf i e l d ss u c ha sa g r i c u l t u r e ,p e t r o l e u ma n dm e d i c a li n d u s t r y h o w e v e r , m o s tn i rs p e c t r aa r ec o m p o s e do fo v e r l a p p i n gb a n d s ,n o i s ea n d b a c k g r o u n d t h e r e f o r e ,c h e m o m e t r i ct e c h n i q u e sa r eg e n e r a l l yu s e dt o c o n s t r u c t c a l i b r a t i o nm o d e l sf o rn i rs p e c t r o s c o p i ca n a l y s i s i nm u l t i v a r i a t ec a l i b r a t i o no fn i r s p e c t r a la n a l y s i s ,v a r i a b l es e l e c t i o na n dm o d e lc o n s t r u c t i o na r et w ov e r yi m p o r t a n t t o p i c s i na d d i t i o n ,t h es t a t i s t i c a la n a l y s i si sb a s e do nt h ea b u n d a n td a t a , t h er e s u l t s o b t a i n e db ys t a t i s t i c sa r eu s u a l l ym o r er e p r e s e n t a t i v ea n dr e l i a b l e i nt h i st h e s i s ,t h e s t a t i s t i c sm e t h o d sa r eu s e dt od e v e l o pv a r i a b l es e l e c t i o na n dr o b u s tm o d e l i n gm e t h o d s f o r t h eq u a n t i t a t i v ea n a l y s i so fc o m p l e xs a m p l e s t h em a i nc o n t e x t sa r ea sf o l l o w s : 1 an e wm e t h o dn a m e da st h er t - p l sf o rw a v e l e n g t hs e l e c t i o ni nn i r s p e c t r a l a n a l y s i sw a sp r o p o s e db a s e do nt h er a n d o m i z a t i o nt e s t i nt h ep r o p o s e dm e t h o d ,a r e g u l a rp l sm o d e la n dan u m b e ro fr a n d o mp l sm o d e l sa r ec o n s t r u c t e d t h e r e f o r e , t h es i g n i f i c a n c eo ft h ev a r i a b l e si nas p e c t r u mc a nb ee v a l u a t e db yas t a t i s t i cf r o mt h e r e g r e s s i o nc o e f f i c i e n t so ft h e s em o d e l s w i t ht w od i f f e r e n tn i rd a t as e t so fc o r na n d t o b a c c ol a m i n as a m p l e s ,i tw a sp r o v e dt h a ti n f o r m a t i v ev a r i a b l e sc a nb es e l e c t e db y t h ep r o p o s e dm e t h o df o rb u i l d i n gah i 曲p e r f o r m a n c ep l sm o d e l c o m p a r e dw i t h m c u v e p l sm e t h o d s ,s i m i l a rr e s u l t sc a nb eo b t a i n e d t h ep r o p o s e dm e t h o dm a y b eag o o da l t e r n a t i v ef o rm u l t i v a r i a t ea n a l y s i so fn i rs p e c t r a la n a l y s i s 2 f o rt h en e a ri n f r a r e d ( n i r ) s p e c t r a la n a l y s i s ,t h ec o r r e l a t i o na m o n gv a r i a b l e s a n di t si m p a c to nt h em o d e l sw a si n v e s t i g a t e db yu s i n gc o r r e l a t i o nc o e f f i c i e n t ,a n d t w os t r a t e g i e so fi n d i v i d u a lv a r i a b l ea n dv a r i a b l ei n t e r v a ls e l e c t i o na r ec o m p a r e df o r s e l e c t i o no fi n f o r m a t i v ev a r i a b l e s i tw a ss h o w nt h a th i g hc o r r e l a t i o nd o e se x i s t a m o n gs p e c t r a lv a r i a b l e s f u r t h e r m o r e ,i tw a sp r o v e dt h a tv a r i a b l es e l e c t i o n i s n e c e s s a r yf o rb u i l d i n g ab e t t e rm o d e la n dt h em o d e lb u i l tw i t hm o r ec o r r e l a t e d v a r i a b l e si sm o r ep o w e r f u lf o rp r e d i c t i o n t h e r e f o r e ,w h e nt h e r ea r el a r g ec o r r e l a t e d w a v e l e n g t hb a n d si nt h es p e c t r a , v a r i a b l ei n t e r v a ls e l e c t i o ns t r a t e g yi sb e t t e rb e c a u s e i i i a b s t r a c t i ti sf a s ti nc a l c u l a t i o n ,o t h e r w i s ew h e nt h ec o r r e l a t e dw a v e l e n g t h sa r en o tc o n t i n u o u s , i n d i v i d u a lv a r i a b l es e l e c t i o ns t r a t e g yw i l lb eb e t t e r 3 ar o b u s te n s e m b l ep l st e c h n i q u eb a s e do np r o b a b i l i t y r e s a m p l i n g i s p r o p o s e d ,w h i c hi sn a m e da sr e p l s t h ep r o p o s e dm e t h o dc a ni m p r o v et h eq u a l i t y o ft h em e m b e rm o d e l sb ya v o i d i n gt h ei n t e r f e r e n c eo fo u t l i e r s w h e ni tw a sa p p l i e d t ot w od i f f e r e n ts e t so fn i rs p e c t r a ,t h er e s u l t ss h o wt h a tc o m p a r e dw i t he n s e m b l e m e t h o d ,r e p l sc a ne n h a n c et h ep r e c i s i o no fp r e d i c t i o na n dt h es t a b i l i t yo fp l s r e g r e s s i o n 4 ac o m b i n e dp l sm o d e l 、析t l lv a r i a b l eg r o u p i n gb a s e do ns t a b i l i t yf o r m u l t i v a r i a t ec a l i b r a t i o no fn i rs p e c t r ai sp r o p o s e d t h en i rs p e c t r aa l es p l i ti n t o d i f f e r e n tv a r i a b l eg r o u p sr e p r e s e n t i n gd i f f e r e n ts p e c t r a li n f o r m a t i o nb a s e do ns t a b i l i t y , t h e ns u b - m o d e l sa r ec o n s t r u c t e db yt h eg r o u p e dv a r i a b l e s ,a n dac o m b i n e dm o d e li s f i n a l l yb u i l tb yaw e i g h t e dc o m b i n a t i o no ft h es u b - m o d e l s w i t ht w on i rd a t as e t so f c o ma n dm b a c c ol a m i n as a m p l e s ,i tw a sp r o v e dt h a tt h ep r o p o s e dm e t h o dh a sb e t t e r p r e d i c t i o nr e s u l tt h a nt h a to fr e g u l a rp l s m o d e la n da l s oe x p l o r e san e ww a yf o rt h e e n s e m b l em o d e l i n gs t r a g e g y k e yw o r d s :n e a r - i n f r a r e ds p e c t r o s c o p y ;s t a t i s t i c s ;v a r i a b l es e l e c t i o n ;o u t l i e r d e t e c t i o n ;e n s e m b l em o d e l i n g i v 摘要。i a b s t r a c t 。i i i 目蜀乏v 第一章综述1 第一节引言1 第二节近红外光谱定量分析原理及过程2 1 2 1 近红外光谱定量分析原理2 1 2 2 近红外光谱定量分析过程3 第三节多模型共识建模方法5 第四节光谱处理技术6 1 4 1 光谱预处理方法6 1 4 2 波长选择方法9 第五节偏最t j 、- - 乘法建模中奇异样本的识别1 1 第六节统计检验方法的应用1 2 1 6 1f 检验在分析化学中的应用13 1 6 2t 检验在分析化学中的应用14 1 6 3d u r b i n - w a t s o n 检验在分析化学中的应用。1 4 1 6 4 随机检验在分析化学中的应用1 5 第七节选题的依据及创新点1 5 参考文献1 7 第二章基于随机检验的变量筛选方法 在复杂样本近红外光谱分析中的应用2 3 第一节引言。2 3 第二节原理和算法2 4 2 2 1随机检验2 4 v 目录 2 2 2 基于随机检验的变量筛选方法2 5 第三节实验部分2 6 第四节结果与讨论2 6 2 4 1数据集1 2 6 2 4 2 数据集2 2 9 2 4 3r t - p l s ,m c u v e p l s 和p l s 模型预测结果比较31 第五节结论。3l 参考文献3 3 第三章变量筛选在复杂近红外光谱建模中的必要性3 6 第一节引言3 6 第二节数据和算法。3 7 第三节结果与讨论3 8 3 3 1变量间的相关性3 8 3 3 2 变量相关性对模型的影响4 0 3 3 3 波长筛选和波段筛选结果比较4 2 第四节结论4 5 参考文献。4 6 第四章基于概率取样的稳健偏最小二乘建模方法 在近红外光谱分析中的应用4 9 第一节引言。4 9 第二节原理和算法。5 0 4 2 1概率取样5 0 4 2 2 基于概率取样的稳健p l s 方法51 第三节实验部分5 2 第四节结果与讨论5 2 4 4 1 样本概率的确定5 2 4 4 2r e p l s 与传统稳健p l s 方法的比较5 4 4 4 3r e p l s 方法的验证。5 6 第五节结论5 6 第 参考文献7 2 致谢7 5 个人简历、在学期间发表的学术论文及研究成果7 6 v i i 第一章综述 第一章综述 第一节引言 近红外光谱分析技术在短短十几年内发展迅猛,应用广泛,被誉为分析化 学的“巨人”,主要是因为它在有机化合物的分析测定中有诸多优越性,包括分 析过程简单、快速;操作简单、费用低;测试重现性好,可用于样品的定性、 定量分析;便于实现在线分析。目前,近红外光谱分析技术在农业【l , 2 1 、石化 3 , 4 1 、 食品【5 ,们、制药【7 ,8 】、烟草 9 , 1 0 】等诸多关系国计民生的重大领域已经得到广泛应用 和开发,同时近红外光谱技术还广泛地应用于生物化工、天体学及地理地质学 等其它领域【n 】。随着仪器和光谱处理化学计量学软件的国产化及各类应用模型 的开发,近红外分析技术势必在国民经济中发挥更重大的作用。 但是,近红外区域的光谱特征决定了近红外光谱分析技术存在着一些弱点: 近红外光谱峰出现的频率范围低,吸收峰数目多、重叠严重、谱带复杂;吸收 强度较弱,光谱的信噪比低;近红外光谱容易受到测量条件( 如温度、仪器) 、样 品状态( 如溶剂效应) 等外界因素的影响;不适合于痕量分析和分散性样品的分 析。这些因素导致依靠传统的建立工作曲线方法进行定量分析是十分困难的, 必须借助化学计量学方法( c h e m o m e t d c s ) 才能进行定性定量分析。因此,化学计 量学方法己成为近红外光谱分析中的研究热点1 1 2 。引。但是,由于近红外光谱除 了自身信息外,常含有大量噪音和背景信息,且分析结果易受到测量异常值和 冗余波长的负面影响。如何从复杂、重迭的光谱中提取微弱的化学成份信息, 提高测量精度,是近红外光谱分析技术中的一个难点。 化学计量学是一门化学与统计、数学、计算机科学交叉所产生的新兴的化 学学科分支。它运用数学、统计学、计算机科学以及其它相关学科的理论与方 法,选择最优试验设计和测量方法,并通过对测量数据的处理和解析,最大限 度地获取物质的成份、结构和其它相关信息【1 6 , 1 7 。利用近红外光谱实现定量分析, 与其它吸收光谱类似,按照朗伯比耳定律进行定量。进行常规光谱定量分析时, 通常需要建立光谱参数与样品含量问的关系( 标准曲线) 。利用化学计量学方法进 行光谱定量分析包括两大步骤:第一步用标准方法分析样品、采集光谱,建立 数学模型( 分析方法、预测方程) ,并检验、优化模型的稳定性;第二步测定未知 第一章综述 样品光谱,调用数学模型,预测未知样品中有关组份的含量或性质。尽管己建 立的化学计量学方法已经成功地运用于复杂样本的近红外光谱定量分析,但是, 为了满足日益增长的体系复杂程度,更加高效的方法仍是分析化学工作者不懈 的追求。 第二节近红外光谱定量分析原理及过程 1 2 1 近红外光谱定量分析原理 近红外光谱的分析测定技术分为透射光谱法和反射光谱法两大类。透射光 谱法一般用于均匀透明的溶液样品,分析光在样品中经过的路程一定,透射光 的强度与样品组分浓度关系符合朗伯一比尔定律。近红外光可直接透过样品池对 其盛装的样品进行检测。对于固体颗粒、粉末和纸张等样品,漫反射是最常见 的近红外光谱测量方式。当分析对象样品是固体粉末时,由于样品颗粒直径远 大于近红外光的波长,光在样品传播中会产生较大的散射效应,可穿透到样品 的内部,经过多次反射、折射、衍射、吸收后返回到样品的表面。漫反射是分 析与样品内部分子发生作用以后的光,漫反射光携带有丰富的样品结构信息。 由于农业及农产品的分析大多通过漫反射技术完成,因此,漫反射光谱法在近 红外光谱分析中占有非常重要的地位。 除了上述两种常用的光谱采集方式外,近红外光谱分析法还有透反射、漫 透射和漫透反射等技术,针对某些特殊的样品可以采用以上测样方式。 与紫外可见分光光度法一样,朗伯一比耳定律是近红外光谱定量分析的基 础,其计算公式为: a = 动c ( 1 1 ) 式中么表示吸光度,b 表示光程,c 表示浓度,占表示消光系数或吸光系数。如 果己知s ,可根据么求c 。对于多波长和多组分体系,可用下面的公式来表示朗 伯一比耳定律: y = b x + e ( 1 2 ) 其中y 表示样本的性质或组分的浓度数据,常称作因变量,b 为消光系数( 校正 系数) 矩阵,x 是光谱矩阵,常称作自变量,e 为残差。 在近红外光谱的定量分析中,利用物质中目标成分浓度和吸光度成正比例 2 第一章 的关系,就可以建立近红外定量模型,从而实现对目标成分含量的预测。 1 2 2 近红外光谱定量分析过程 近红外光谱分析方法是一种通过建立校正模型,对未知样品进行定量或定 性分析的间接分析方法。进行近红外光谱定量分析首先必须建立校正模型,其 步骤包括:收集建模样品,测定化学分析的参考值,采集样品的近红外光谱, 通过化学计量学方法建立校正模型,对校正模型进行验证,模型通过验证后就 可用于对未知样品的预测分析【l 引。 1 建模样品的收集 建立校正模型前,应收集有代表性的校正集样品。样品组分的浓度范围应 涵盖以后要分析样品组分的浓度变化范围,且组分浓度在整个变化范围内是均 匀分布的,以保证校正模型测量的精度均匀一致。收集样品的含量范围越宽, 则所建立模型的适用面越广,但是分析精度会下降;反之,如果收集的样品含 量范围较窄,则建立的校正模型精度会相对提高,但其适用范围将变小。校正 集应具有足够的样品数以统计确定光谱变量与浓度或性质之间的数学关系。 2 样品化学分析值的测定 用常规方法进行化学分析时,最好选用国际或国家规定的标准测试方法, 且尽量减少人为误差。由于校正模型与建模样品组分的化学值有关,所以模型 预测结果的准确性在很大程度上取决于化学分析结果的准确性。对于组分含量 较少的样品,可以通过配制的方式得到校正集,此时应注意,为了避免组分之 间的干扰,需要在未知样品可能的浓度范围内变化所有组分的浓度。虽然化学 分析中误差的出现不可避免,但可以通过增加测定的次数或选用精密度较高的 仪器来减小误差,以便降低因化学分析值测定而带入校正模型的误差。 3 近红外光谱的采集 校正集、验证集和未知样品的近红外光谱测定必须采用同一种方式,否则 会给测量结果带来误差。另外,进行光谱采集时,测量条件应尽量保持一致。 比如,测量时间应尽量与化学分析时间一致,以免时间间隔过长引起样品内组 分含量的变化,特别是受环境影响较大的组分。另外,考虑到环境的变动会影 响仪器的稳定性,最好选在不同时间来测量光谱,这样可将由于时间、温度不 同造成光谱数据的变化信息包括到模型中。 化学分析值和预处理的光谱数据之间的校正模型。常见的化学计量学建模方法 包括多元线性回归( m u l t i p l el i n e a rr e g r e s s i o n ,m l r ) 、主成分回归( p r i n c i p l e c o m p o n e n tr e g r e s s i o n ,p c r ) 、偏最小二乘回归( p a r t i a ll e a s ts q u a r e s ,p l s ) 、人工神 经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 以及支持向量回归( s v r ) 等等。定量校正过 程中,需要确定多种参数如最佳因子数等,建模过程实际是这些方法和参数的 选择过程。 5 校正模型的验证分析 校正模型建立后,必须对模型进行检验,以确定模型的可靠性。模型验证 的基本过程是采用模型对一组已知参考值的样品( 称为验证集) 进行预测,对建 立的校正模型进行验证分析。验证集样品组分的浓度应不超出校正集样品的浓 度范围,且浓度变化是均匀的。如果没有足够的样品,则可以用交互验证法进 行验证,常采用留一交叉验证法或留多交叉验证法。当证明了校正模型的可靠 性之后,模型就可以用于样品的分析。 6 未知样品分析 近红外光谱校正模型经过验证后,就可用于未知样品分析。在分析样品前, 要注意校正模型所能测量的样品浓度范围,包括样品类型间的差异及同一类型 样品不同状态的差异和含量范围。只有当待分析样品浓度在定标方程的浓度范 围内,才能使用校正模型对该分析组分进行浓度预测。否则,视该分析样品为 异常样品,此时,需及时将该样品补充到原来的校正集中,对校正模型进行更 新,使该模型的有效预测浓度范围更宽。 近红外光谱定量分析需要依靠化学计量学方法建立校正模型,模型的好坏 直接影响其对未知样品性质预测的准确性。因此,一直以来,如何建立正确、 高效的模型是化学计量学工作研究的热点。其中,模型集成方法的构建、光谱 预处理方法的选择、建模样品奇异样本的筛选工作更是分析化学家关注的重要 内容。 4 第一章综述 第三节多模型共识建模方法 2 0 世纪5 0 年代,结合多个模型的预测来提高对未知样品预测精度的思想就 已经开始被应用i l9 1 。但直到2 0 世纪9 0 年代,人们对这种建模方法才重新重视起 来。目前,多模型共识的研究已经深入到如模式识别【2 0 】、定量分析【2 l 】、定量构 效关系【2 2 】等众多领域中。 传统的多元校正技术,一般采用单一模型,即首先采用一定的训练集建立 一个最优模型然后用于测定。单模型方法对数据噪声和样本量较敏感,在分析 复杂化学组分时,当训练集样本数目有限或存在较大误差时,模型的预测精度 与稳定性往往不能令人满意。因此,针对传统单模型方法的不足,提出了多模 型共识方法( e n s e m b l em o d e l i n g 或c o n s e n s u sm o d e l i n g ) 。共识策略( c o n s e n s u s s t r a t e g y ) 的基本思想就是采用随机或组合方式,利用同一训练集中的不同子集建 立的多个成员模型分别进行预测,将多个预测结果通过一定的集成方法,例如 简单平均或加权平均,形成一个共识的最终结果。其突出特点是通过多次使用 训练集中不同子集样本的信息,降低了预测结果对某一样本的依赖性,从而增 加了模型的泛化能力及其预测稳定性。 多模型共识方法的研究主要集中在以下四个方面:( 1 ) 成员模型的构成方 法。常见的有训练集扰动法和样本特征扰动法。常用的的训练集扰动法主要包 括b a g g i n g ( b o o t s t r 印a g g r e g a t i n g ) 2 3 1 算法,s u b b a g g i n g 算法t 2 4 l 和i b o o s t i n g 2 5 】算法。 此外,利用自组织映射( s e l f - o r g a n i z i n gm a p ,s o m ) 1 2 6 】对变量进行聚类方法,以及 采用s t a c k e d l 2 7 1 和b l o c k 2 8 1 技术的分块法,利用小波变换1 9 , 3 0 1 进行成员模型构建的 方法研究也取得了较好进展。( 2 ) 成员模型的建模方法。成员模型的建模方法选 择对于提高模型的预测效果十分关键。考虑到成员模型的线性和非线性问题, 不同的建模方法,如偏最小二乘法( p l s ) 口、基于核函数变换的p l s ( k e m e lp l s , k p l s ) 3 2 1 、交替最小二乘支持向量回归( 1 e a s ts q u a r e s s u p p o r tv e c t o rr e g r e s s i o n , l s s v r ) 3 3 】等也广泛地应用到多模型共识中。( 3 ) 成员模型的集成方法。如何有 效地集合成员模型,发挥出多模型共识的优势是值得关注的问题之一。常见的 集成方法包括平均法【3 l 】和加权平均法【3 4 】。( 4 ) 稳健的多模型共识方法。稳健建模 方法如迭代赋权p l s ( i t e r a t i v e l yr e w e i g h t e dp l s ,i r p l s ) 1 3 5 1 , 稳健p l s ( r o b u s tp l s , r p l s ) t 3 6 】等与多模型思想相结合,可以使模型的泛化能力进一步加强。 第一章综述 1 4 1光谱预处理方法 第四节光谱处理技术 光谱预处理方法对建立预测能力强、稳健性好的分析模型至关重要,有时 甚至起决定作用【3 。7 1 。以近红外光谱为例,光谱除包括与样品组成有关的信息外, 还包含了其它无关信息,如电噪音、样品背景和杂散光等。这些无关信息会对 光谱信息产生干扰,从而影响校正模型的建立以及对未知样本组成和性质的预 测。因此,在用化学计量学方法建立模型时,为了减小光谱数据的共线性、扣 除背景、减小噪声和光谱的基线漂移,采取光谱预处理方法就变得十分关键和 必要。常用的光谱预处理方法包括数据增强变换、平滑、求导、标准正态变量 变换、多元散射校正、小波变换和正交信号校正等方法。 1 数据增强算法( d a t ae n h a n c e m e n t ) 在使用多元校正方法建立模型时,会将光谱的变动与待测性质或组成的变 动相关联。基于以上特点,在建立定量或定性模型前,常常采用一些数据增强 算法( d a t ae n h a n c e m e n t ) 3 8 】来消除多余信息,增加样品间的差异,从而提高模型的 预测精度和稳健性。常用的算法包括:数据归一化( n o r m a l i z a t i o n ) 、数据中心化 ( m e a nc e n t e r i n g ) 、数据标准化( a u t o s c a l i n g ) 。其中,数据中心化和标准化是最常 用的两种方法,在用这两种方法对光谱数据进行处理的同时,往往需要对样品 性质或组成数据也进行同样的变换。 2 标准正态变量变换( s t a n d a r dn o r m a lv a r i a t et r a n s f o r m a t i o n ,s z v ) 标准正态变量变换是常用的信号校正方法,用于信号的尺度调整。对于漫 反射近红外光谱来说,主要目的是消除固体颗粒大小、表面散射以及光程变化 对光谱的影响【3 9 1 。s n v 与标准化算法的计算公式相同,不同之处在于标准化算法 对一组光谱进行处理( 基于光谱阵的列) ,而s n v 算法是对一条光谱进行处理( 基 于光谱阵的行) 。对于离散信号x ,标准正态变量变换的计算公式为: x i x 册。s t d ( x ) ( 1 3 ) 其中,孓表示平均值,s t d ( x ) 表示标准偏差。显然,标准正态变量变换使信号的 强度和尺度得到调整,从而达到背景校正的目的。 6 第一章综述 3 多元散射校i e ( m u l t i p l i c a t i v es c a t t e rc o r r e c t i o n ,m s c ) 多元散射校正【4 0 l 是为了消除漫反射近红外光谱中散射光影响而提出的一种 信号处理方法。m s c 算法的属性与标准化相同,也是基于一组样品的光谱阵进 行计算的。多元散射校正技术的关键是所有的光谱必须用一个“理想的 光谱 来校正,显然能代表所有样品的理想光谱并不存在。因此,m s c 算法中首先把 所有光谱的平均光谱作为理想光谱用以校正,然后利用一次( 或高次) 多项式建立 每一条光谱与平均光谱的关系,最后从每一条光谱中扣除其截距并除以其斜率。 计算公式如下: i = a f x f + b i ( 1 4 ) x f m s c = ( _ 一b f f f a f ( 1 5 ) 其中,- - 1 ,2 ,3 ,n ,z 为校正集样本数,i 表示校正集样品的平均光谱。对 于校正集外的光谱进行m s c 处理时,则需用校正集样品的平均光谱先求取该光 谱的截距和斜率,再进行m s c 变换。m s c 与s n v 具有一定的相似性【4 1 1 。此外, 扩展m s c ( e x t e n d e dm s c ,e m s c ) - 电被提出并应用于背景校正【4 2 】。 4 导数计算 光谱的一阶( 1 s td e r ) 和二阶导数( 2 n dd e r ) 是近红外光谱分析中常用的基线 校正和光谱分辨预处理方法。对光谱信号进行求导运算可以增加光谱的分辨率, 使某些未分辨开的重叠光谱分辨开来,从而提高光谱的信噪比。对于长度为p 的离散信号x = i x l ,x 2 ,而,纠,若相邻采样点的间隔为,则其一阶导数可 由下式计算: 矾2 警 ( 1 6 ) 高阶导数可采用一阶导数继续计算获得。由于导数计算采用了相邻两点的差值, 因此一阶导数可消除常数( 零次函数) 背景,二阶导数可消除一次函数背景。但是, 由于采用公式( 1 6 ) 计算导数会大幅度提高噪声水平,一般都采用平滑技术做进一 步处理,或者直接采用s a v i t z k y g o l a y 滤波器进行导数计算【4 3 】。 5 小波变换( w a v e l e tt r a n s f o r m ,w t ) 小波变换( w a v e l e tt r a n s f o r n l ,w t ) 的概念首先由法国工程师j m o r l e t 在1 9 7 4 年提出。自数学家ym e y e r 于1 9 8 6 年偶然构造出一个真正的小波基,并与s m a l l a t 合作建立了构造小波基的方法及多尺度分析之后,小波分析才开始蓬勃发 7 第一章综述 展起来。 小波分析已经成功地应用于分析化学信号的预处理中【1 6 印4 7 l 。由于小波基函 数可以认为是某平滑函数的导数,近年来小波变换( w t ) 在信号和图像处理中的 应用逐渐广泛和成熟起来。小波变换可以看作是投影或过滤的数学处理手段, 其实质是将信号投影到小波基上。与傅立叶变换( f o u r i e rt r a n s f o r m ,f t ) 相比, w t 具有时频局部化特性,即可以从时间( 波长) 和频率两个方向同时反映光谱信 息,而f t 只可以把信号分解为不同频率组分。小波变换主要分为两种方法:离 散小波变换( d w t ) 和连续小波变换( c w t ) 。采用d w t 可以实现信号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论