近红外光谱在预测果品硬度和表面色泽中.doc_第1页
近红外光谱在预测果品硬度和表面色泽中.doc_第2页
近红外光谱在预测果品硬度和表面色泽中.doc_第3页
近红外光谱在预测果品硬度和表面色泽中.doc_第4页
近红外光谱在预测果品硬度和表面色泽中.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

近红外光谱在预测果品硬度和表面色泽中变量筛选方法的研究 专 业:2007测控-1 学 号:20070310110118学生姓名:范徽 指导教师:郝勇摘要近年来随着人们生活水平的不断提高,水果的消费量也呈上升趋势,大批量的水果在进入销售环节时,首先需要对其成熟度进行评判。对于成熟度的评价指标,最常用的方法就是从果品的硬度和表面色泽进行考察。目前,对硬度的检测常采用M-T戳穿试验法方法,该方法属于有损检测,而对于水果表面色泽的测量常采用多指标表面色泽测量,十分繁琐。这些检测方法在大量样本逐个检测中无法满足实际生产。为此,选择一种方便可靠的水果硬度和表面色泽检测技术十分必要。本文采用近红外光谱分析方法对梨的硬度和表面色泽进行定量分析,探讨建模变量选择方法对果品硬度和表面色泽指标预测模型的精度和稳定性的影响。为提高预测的精度,消除无信息变量对于模型稳健性的影响,在近红外光谱模型的建立中使用比对了蒙特卡罗无信息变量(MCUVE)和基于小波变换的蒙特卡罗无信息变量(WT-MC-UVE)两种变量筛选方法。结果表明,WT-MC-UVE将建模的变量数从1451个降到210个,得到了和预测值相接近的结果。WT-MC-UVE提高了水果表面色泽的预测精度,预测均方根误差RMSEP在校准变量数从1451降到220个的情况下由1.06降至0.90,同样,相关系数也由0.975提高到0.981。为此,该种方法能从近红外光谱中筛选出更有效波长,在水果硬度和表面色泽的定量分析中使预测值更加稳健和准确。关键词:近红外光谱;硬度;表面色泽;蒙特卡罗;无信息变量消除 The Discussion of Variable Selection Method in Detection of Firmness and Surface Color of Pear by Near Infrared Spectroscopy AbstractNow the consumption of fruit are on the ride with the continuous improvement of living standards. So when a large quantities of fruit are launched on the market. We need to inspect maturity of these fruit. The most common method which judge the maturity index is to measure the firmness and surface color of pear. At the present, M-T are always used in the test of firmness, which is destructive measurement. Multiple indicators which is applied to the measurement of fruit surface is very tedious. These method cant meet the needs of actual production. So its necessary to choose a convenient and reliable method for the non-destructive and rapid measurement of firmness and surface color of pear.In this study, NIRS was applied to non-destructive and rapid measurement of firmness and surface color of pear. In order to improve the predictive precision, and eliminate the influence of uninformative variables for model robustness, monte carlo uninformative variables elimination (MC-UVE) and monte carlo uninformative variables elimination based on wavelet transform (WT-MC-UVE) methods were proposed for variable selection in firmness and surface color NIR spectral modeling. Results show that WT-MC-UVE can reduce the modeling variables from 1451 to 210, and get similarity predictive results for firmness. WT-MC-UVE improved the predictive precision for surface color, the root mean square error of prediction (RMSEP) and calibration variables were reduced from 1.06 and 1451 to 0.90 and 220, and the correlation coefficient (r) was improved from 0.975 to 0.981. The proposed method is able to select important wavelength from the NIR spectra, and makes the prediction more robust and accurate in quantitative analysis of firmness and surface color. Key words: near infrared spectroscopy; firmness; surface color; monte carlo; uninformative variables elimination 目录摘要1Abstract2第一章绪论31.1水果成熟度检测的目的与意义31.2水果成熟度主要检测方法及应用现状31.3近红外光谱分析技术简介31.3.1近红外光谱分析技术的发展历程31.3.2 近红外光谱分析技术的特点31.4本论文的主要工作3第二章近红外光谱分析技术概述32.1 近红外光谱原理32.2 近红外光谱的采集方法32.3 近红外光谱定量分析的基本步骤32.3.1 选择有代表性的样品32.3.2 测量样本的近红外光谱32.3.3 选择适当的方法对原始光谱进行预处理32.3.4采用标准或认可的参考方法测定样本的基础数据32.3.5建立数学校正模型32.3.6 评定校正模型32.3.7 测定未知样本的组成或性质32.4化学计量学算法32.5 相关软件使用介绍3第三章实验部分33.1样品的准备33.2 近红外光谱的采集33.3 偏最小二乘回归模型的建立33.4 对建模变量筛选方法的选择33.4.1 UVE-PLS原理与算法33.4.2 MC-UVE方法33.4.3 WT-MC-UVE方法3第四章 结果与讨论34.1 偏最小二乘回归模型主成分的选择34.2基于基于MC-UVE PLS方法模型的变量选择34.3基于WT-MC-UVE PLS方法模型的变量选择34.4 PLS、MC-UVE PLS和WT-MC-UVE PLS方法预测结果比较3第四章 结论3致谢信3参考文献3附录A(常规PLS程序)3附录B(MC-UVE PLS程序)3附录C(WT-MC-UVE-PLS程序)3附录D(外文文献及翻译)3第一章 绪论1.1 水果成熟度检测的目的与意义随着人们生活水平的不断提高,水果的消费量也呈上升趋势。许多科学生产研究表明1,水果在采摘、包装、保存、运输及加工等作业环节中的损失率高达30.45,主要原因之一即为不同成熟度的水果相互混杂造成的。因此,大批量的水果在进入销售环节时,首先需要对其成熟度进行评判。根据水果的成熟度区分与筛选并及时的对其进行加工处理,对于改善水果品质,提升水果等级有重要意义。1.2 水果成熟度主要检测方法及应用现状传统的果品成熟度检测主要通过对果品的硬度和表面色泽进行考察。水果硬度(firmness)是指果肉抗压力的强弱,可以作为判断水果成熟状态和品质的一个重要指标。目前对于硬度的检验,常采用M-T戳穿试验法(Magness - Taylor puncture test)。该方法是用一定直径的钢制压头,按一定的压缩速度对水果进行压缩试验,同时测量压缩力,属于有损检测2。水果的表面色泽(surface color)是人们感官评价其品质的一个重要因素。不同种类的水果显示不同的颜色。每种水果有其固有的颜色,同一种水果的不同品种之间的表面色泽也有差异。明度(L*)、色调(a*)、饱和度(b*)是识别每一种颜色的三个指标。对于判定水果的成熟状态和品质亦可从这三个基本属性进行全面的衡量和比较,这样才能准确地推断和鉴别出水果的优劣。目前,对于果品表面色泽的测量,采用国际照明委员会(CIE)1976年推荐的均匀色度空间L*、a*、b*表色系。测量果品表面色泽时,需要采用标准白板作为参考,分别测量L*、a*、b*三个指标,最后以转换后的总色差()作为描述表面色泽的综合指标3。另外也可以利用硬度计、糖度计、酸度计等来检测水果内部的硬度、可溶性糖、可滴定酸等一些成熟相关的指标,这些方法在检测过程中大多要破坏水果的组织,均属于有损检测,且无法大规模地逐个检测,不适合现代果品生产。鉴于此,无损检测应运而生。无损检测又称非破坏检测,是一种在不破坏被检对象的前提下,利用果品的物理性质对其进行检测、评价的方法,是近年来新兴起的一种检测果品品质的高科技手段,既可以检测果品品质,又不会对水果造成伤害,保证了水果的完整性,是确定水果最佳采收期和按成熟度进行准确分级的关键。无损检测技术具有无损、快速、准确和实用性的特性。目前对果实成熟度进行无损检测所利用的主要技术有:针对水果的光学特性、电学特性、声学特性、力学冲击振动特性、化学特性、机器视觉特性等众多性质进行的各种检测,但这些多处于试验研究阶段,实际应用较少。涉及的果品有苹果、梨、桃子、猕猴桃、番茄、柿子、芒果等。各种检测技术各具特色,各有所长。1.3 近红外光谱分析技术简介1.3.1近红外光谱分析技术的发展历程 近红外光谱技术(NIR)是一种高效快速的现代分析技术,它综合运用了计算机技术、光谱技术和化学计量学等多个学科的最新研究成果,以其独特的优势在多个领域得到了日益广泛的应用。并已逐渐得到大众的普遍接受和官方的认可。 近红外区域按ASTM定义是指波长在7802526nm范围内的电磁波,是人们最早发现的非可见光区域4。由于物质在该谱区的倍频和合频吸收信号弱,谱带重叠,解析复杂,受当时的技术水平限制,近红外光谱“沉睡”了近一个半世纪。直到20世纪50年代,随着商品化仪器的出现及Norris等人所做的大量工作,使得近红外光谱技术曾经在农副产品分析中得到广泛应用。到60年代中后期,随着各种新的分析技术的出现,和经典近红外光谱分析技术暴露出的灵敏度低、抗干扰性差的弱点,使人们淡漠了该技术在分析测试中的应用,从此,近红外光谱进入了一个沉默的时期。80年代后期,随着计算机技术的迅速发展,带动了分析仪器的数字化和化学计量学的发展,通过化学计量学方法在解决光谱信息提取和背景干扰方面取得的良好效果,加之近红外光谱在测样技术上所独有的特点,使人们重新认识了近红外光谱的价值,近红外光谱在各领域中的应用研究陆续展开。进入90年代,近红外光谱在工业领域中的应用全面展开,有关近红外光谱的研究及应用文献几乎呈指数增长,成为发展最快、最引人注目的一门独立的分析技术。由于近红外光在常规光纤中具有良好的传输特性,使近红外光谱在在线分析领域也得到了很好的应用,并取得良好的社会效益和经济效益,从此近红外光谱技术进入一个快速发展的新时期5。1.3.2 近红外光谱分析技术的特点与传统分析技术相比,近红外光谱分析技术具有诸多优点,它能在几分钟内,仅通过对被测样品完成一次近红外光谱的采集测量,即可完成其多项性能指标的测定(最多可达十余项指标)。光谱测量时不需要对分析样品进行前处理;分析过程中不消耗其它材料或破坏样品分析重现性好、成本低6。 (1) 无前处理、无污染、方便快捷。近红外光线具有很强的穿透能力,在检测样品时,不需要进行任何前处理,可以穿透玻璃和塑料包装进行直接检测,也不需要任何化学试剂。和常规分析方法相比,既不会对环境造成污染,又可以节约大量的试剂费用。近红外仪器的测定时间短,几分钟甚至几秒钟就可以完成测试,并打印出结果。(2)无破坏性。无破坏性是近红外技术一大优点,根据这一优点,近红外技术可以用于果蔬原料及成品的无损检测。在果品贮藏库中安装近红外装置,能够实现果蔬的自动检测,节省大量的人力和物力。(3)在线检测由于近红外技术能够及时快捷的对样品进行检测,在生产中,可以在生产流水线上配置近红外装置,对原料和成品及半成品进行连续再现检测,有利于及时地发现原料及产品品质的变化,便于及时调控,维持产品质量的稳定。光纤导管和光纤探头的开发应用使远距离检测成为现实。且远距离检测技术特别适用于污染严重、高压、高温等对人体和仪器有损害的环境应用,为近红外网络技术的发展奠定了基础。(4)多组分同时检测多组分同时测定,是近红外技术得以大力推广的主要原因。在同一模式下,可以同时测定多种组分,比如在测小麦的模式中,可以同时测定其蛋白质含量、水分含量、硬度、沉淀值、快速混合比等指标,这样大大简化了测定操作。不同的组分对测定结果都有一定的影响,因为在测定过程中,其它组分对近红外光线也有吸收。(5)测定速度快。近红外光谱的信息必须由计算机进行数据处理及统计分析一个样品取得光谱数据后可以立即得到定性或定量分析结果整个过程可以在不到2min内完成而且可以通过样品的一张光谱计算出样品的各种组成或性质数据。(6)投资及操作费用低。近红外光谱仪的光学材料为一般的石英或玻璃仪器价格低操作空间小样品大多数不需要预处理投资及操作费用较低而且仪器的高度自动化降低了操作者的技能要求。当然,近红外光谱分析也有其固有的缺点7:首先,它的测试灵敏度比较低,相对误差比较大;其次,由于是一种间接测量手段,需要用参考方法(一般是化学分析方法)获取一定数量的样品数据,因此测量精度永远不能达到该参考方法的测量精度,建立模型也需要一定的化学计量学知识、费用以及时间;最后,近红外光潜的测量范围,只适合对含氢基团的组分或与这些组分相关的属性进行测定,而且组分的含量一般应大于0.1%才能用近红外进行测定。对于经常的质量监控是十分经济且快速的,但对于偶然做一两次的分析或分散性样品的分析则不太适用。因为建立近红外光谱方法之前,必须投入一定的人力、物力和财力,才能得到一个准确的校正模型。1.4 本论文的主要工作近红外光谱(NIRS)法以其快速、简便、无损等特点,在复杂样品化学成分测定中占有重要地位。但是近红外光谱产生于分子振动,吸收较弱,吸收峰严重重叠,且多组分复杂样品的近红外光谱往往不是各组分光谱的简单叠加。因此,近红外光谱分析法是一种间接分析技术,必须借助化学计量学方法才能进行定性或定量分析。NIRS分析过程中,变量筛选是重要的数据前处理方法,目前已有许多相关报导。其中,无信息变量消除(Uninformative Variables Elimination, UVE) PLS方法是基于PLS回归系数提出的一种波长选择方法。该方法通过一定的变量筛选标准,例如,引入稳定性(stability)值来评价模型中每个变量的可靠性,从而来决定每个变量的取舍。该方法已被广泛应用于光谱变量的选择,与其它波长选择方法相比,蒙特卡罗无信息变量消除(Monte Carlo Uninformative Variables Elimination, MC-UVE) PLS取得了满意的效果。为了提供高质量的水果,选择一种方便可靠的水果硬度和表面色泽检测技术,以取代目前M-T有损试验和多指标表面色泽测量的繁琐。本文采用近红外光谱分析方法对梨的硬度和表面色泽进行定量分析,探讨建模变量选择方法对果品硬度和表面色泽指标预测模型的精度和稳定性的影响,实现果品硬度和表面色泽的快速无损分析。第二章 近红外光谱分析技术概述2.1 近红外光谱原理近红外光是电磁波,具有光的属性,即同时具有“波”及“粒”的二重性,因此,对光的能量可以用光子表示。量子力学理论认为,光子能量为:E=hv(其中h为普郎克常数,v为光的频率)。近红外的光子能量同样可以用上述公式定量描述。从光源发出的红外光照射到由一种或多种分子组成的物质上,如果分子没有产生吸收,则光穿过样品,该物质分子为非近红外活性分子;否则,为近红外活性分子。只有近红外活性分子中的键才能与近红外光子发生作用,产生近红外吸收光谱。分子在近红外光谱区内的吸收产生于分子振动或转动的状态变化或者分子振动或转动状态在不同能级间的跃迁,能量跃迁包括基频跃迁(对应于分子振动状态在相邻振动能级间跃迁)、倍频跃迁(对应于分子振动状态在相隔一个或几个振动能级之间的跃迁)和合频跃迁(对应于分子两种振动状态的能级同时发生跃迁)8。所有近红外光谱的吸收谱带都是中红外吸收基频(16004000cm-1)的倍频及合频。近红外的波数在4000cm-1以上,所以只有振动频率在2000cm-1以上的基频振动才可能在近红外谱区范围内产生一级倍频吸收,而能满足这一条件的官能团的主要是含氢官能团,因此近红外光谱主要是含 C-H、N-H、S-H和 O-H等键基团的化合物在中红外区域基频振动的倍频吸收及组合频吸收含氢基团的有机化合物以及与其结合的无机物样品中,各基团的运动都有它固定的振动频率。当红外线照射分子时,分子被激发后会产生共振,同时吸收一部分光能,通过对其吸收光的测量,便可以得到极为复杂的用以表示被测物质的特征性图谱。不同物质在近红外区的吸收光谱各不相同,物质中每种成分也都有其特定的吸收特征,并且随着成分含量的变化,其近红外光谱特征也将随之发生变化,这些都为近红外光谱定量分析提供了基础。近红外光谱分析的光学原理主要包括透射光谱技术和反射光谱技术两大类。透射技术是将待测样品置于检测器与光源之间,检测器能够检测到的是透过光或与样品分子相互作用后的光,由于检测光装载着有关样品结构与组成的信息,因而根据透射光与入射光的比例关系便可以获得物质在近红外区的吸收光谱。如果样品是透明的溶液,则分析光在样品中经过的路程一定,样品组分浓度与透射光强度之间的关系符合 Beer 定律9;如果样品是混浊的,样品中的颗粒会对光产主散射,由因而光在样品中经过的路程不确定,样品浓度与透过光强度之间不是线性关系,不符合 Beer 定律,称作漫射分析法。反射技术是将检测器和光源置于样品的同一侧,检测器检测到的分析光是光源发出的光投射到样品后以各种方式反射回来的光,从而根据反射光与入射光的比例便可以得到物质的近红外吸收光谱。物体对光的反射又可以分为镜面反射(规则反射)及漫反射:光在物体表面按人射角等于反射角的反射定律发生的反射称为镜面反射,而漫反射是光能量透过物质表层后与其微观结构发生的相互作用。不同微观结构的化学键与具有不同运动模式和不同频率的光振动有选择性地发生耦合吸收,而没有发生耦合吸收的光能量再进入其它微粒,被原子核通过多次反射后折出该物质表层。漫反射光信号与入射原始光信号之间的比值反映了物质对不同频率光的选择吸收特性,从而形成了测量物质的吸收光谱。近红外光谱分析中,漫反射是反射光谱的主要方式,几乎可用于各类样品的分析。影响漫反射分析的主要因素分别为:样品基体、粒径和装样条件。一方面样品基体的变化对漫反射光的强度有很大的影响,所以在漫反射分析中样品的基体应尽量保持一致;另一方面样品的粒径大小及均匀度对光的漫反射强度有很大的影响。一般而言,随样品粒径的增加,其漫反射吸光度增加。另外,在样品粒径大小、均匀程度及外观形状都相同的情况下,装样情况的不同也会对分析结果产生很大的影响。装样时应注意的问题:样品量的多少,特别是样品的厚度要保持一致;样品表面的平整性,对入射光在样品表面的反射有一定的影响;样品的密实性,直接影响分析光在样品中的传播。2.2 近红外光谱的采集方法获得近红外光谱主要应用两种技术:透射光谱技术与反射光谱技术10。(1)透射光谱技术(多指短波近红外,波长一般在7001100nm范围内),是指将待测样品置于光源与检测器之间,检测器所检测的光是透射光或与样品分子相互作用后的光(承载了样品的结构与组成信息)。若样品是浑浊的,样品中有能对光产生散射的颗粒物质,光在样品中经过的路程就是不确定的,此时透射光强度与样品浓度之间不符合比尔定律,对这样的样品应使用漫透射分析法。(2)反射光谱技术(多指长波近红外,波长一般在11002500nm范围内)是指将检测器和光源置于样品的同一侧,检测器所检测的是样品以各种方式反射回来的光。物体对光的反射又分为规则反射(镜面反射)与漫反射。规则反射指光在物体表面按入射角等于反射角的反射定律发生的反射;漫反射是光投射到物体后(常是粉末或其他颗粒物体),在物体表面或内部发生方向不确定的反射应用漫反射光进行的分析称为漫反射光谱法。此外,还有把透射分析和漫反射分析结合在一起的综合漫反射分析法和衰减全反射分析法等。2.3 近红外光谱定量分析的基本步骤近红外光谱法与其它常规的分析技术不同,需要通过建立数学校正模型才能实现对未知样本的定性或定量分析,因而是一种间接分析技术。应用近红外光谱技术进行定量分析时,首先必须收集一定数量的建模样品,分别测定样品的近红外光谱和参考数据,通过化学计量学方法建立二者之间的数学关系,即建立校正模型;模型建立后必须采用一定数量的已知参考数据的测试集样品对其进行验证。首先测量测试集样品的近红外光谱,然后用已建立的模型预报这些样品的性质,并和已知的参考数据进行比较,通过统计学的方法对模型进行评估;模型通过验证后便可以用于未知样品的定量分析;在模型使用时,要经常对模型性能进行监控,必要时进行模型维护。近红外光谱技术定量分析的具体步骤描述如下。2.3.1 选择有代表性的样品所选择的样品一部分用于建立数学校正模型,称为训练集样本;一部分用于验证校正模型,称为测试集样品。训练集样品浓度范围应涵盖使用模型进行分析的所有未知样品浓度,并且训练集样本浓度在整个变化范围内应是均匀分布的。训练集中需要有足够的样本数,以统计确定光谱变量与样本浓度或性质之间的关系。此外,所有样品的基体应该是相同的,否则将会产生非常严重的背景干扰,进而导致模型适用性不强或根本不能适用。2.3.2 测量样本的近红外光谱由于仪器的状态每天都在发生变化,即便在同一天,光谱数据也可能因光源的温度变化而变化,因此在测量样本的近红外光谱时,实验条件应尽量保持一致。最好不要按浓度顺序对测量光谱数据进行测量,以免仪器条件的变化导致某个局部浓度区域的光谱发生变化,从而影响模型的建立。如果可能,进行训练集样本的光谱测定时,应尽量不在同一时间进行,这样可以将时间不同而造成的光谱数据的变化也概括到模型中。2.3.3 选择适当的方法对原始光谱进行预处理由于近红外光谱仪器所采集的样本原始光谱中,不仅包含与物质化学结构有关的信息,还包含来自各方面因素所产生的噪声信号。这些噪声会对光谱信息产生干扰,有时还非常严重,从而影响校正模型的建立和对未知样品组成或性质的预测的准确性,因此必须采用光谱预处理方法进行光谱噪音的滤除、光谱范围的优化、数据的筛选及消除其它因素对光谱信息产生的影响,为校正模型的建立和未知样品的准确预测打下基础。谱图的预处理主要包括两个方面的内容:一是滤除噪音和其它不规则的谱图影响因素,如消除随机噪音、样本的背景干扰及测样器件引起光谱差异等因素对光谱信息产生的影响;二是光谱信息的优化,即筛选出样品信息突出的光谱区域,以便提高运算效率。光谱预处理方法主要包括平滑、微分、中心化、标准化、多元散射校正、小波变换等。2.3.4采用标准或认可的参考方法测定样本的基础数据由于近红外分析技术是一种间接分析技术,其模型预测结果的准确性很大程度上取决于标准方法测量结果的准确性,为建立高质量的校正模型,应选用经典的标准方法,使测量结果的误差降至最小。2.3.5建立数学校正模型对训练集样品测量的光谱数据和用标准方法测定的基础数据通过化学计量学方法进行关联,建立数学校正模型。所建立的模型应尽量不受仪器和温度的变化以及背景干扰等因素的影响,而只对样品物化性质的变化反映敏感。常用的化学计量学方法有多元线性回归(MLR)、主成分回归(PCR)、主成分分析(PCA)、偏最小二乘(PLS)等线性校正方法。2.3.6 评定校正模型用已知基础数据的测试集样品对校正模型进行评价,高质量的校正模型,在对测试集样本进行预报时,其预报结果应当与标准方法实际测量结果有良好的一致性。模型质量的好坏采用相对残差、相关系数、训练集和测试集样本的相对标准偏差等统计数据来评定,各评价标准描述如下:1. 相对残差re 按下列计算: re=yi-yiyi 2-1 其中,yi是计量学第i个样本待测指标的预测值;yi为其标准预测值, 2. 相关系数R,其数学表达式为: 2-2 其中,为yi的平均值, yi为yi的平均值,n为样本数。R约接近于1,则说明校正模型的预测值与标准方法测定值之间的相关性越好,模型的预测能力越强。3. 相对标准偏差RSE() 2-32.3.7 测定未知样本的组成或性质所建立的模型是否适用于未知样本,即模型适应度如何,是能否得到准确预测结果的关键。经过验证的数学校正模型可以用来预报测试集样本(未知样本)中有效成分的含量,由于测试集样品没有参与数学校正模型的建立,因此对其预报结果的好坏能够直接说明建立的优化模型的实用性。如果对测试集的预报结果很好,则说明模型的可靠性很高;如果预报结果不好,则说明模型的可靠性不高,必须重新建立模型,在重建模型时,可以将预报结果不好的样品包括到原来的训练集中重新计算,以便获得适用范围更广的数学校正模型。2.4化学计量学算法作为一种间接分析技术,近红外光谱分析法必须借助化学计量学方法才能进行定性或定量分析。常用的化学计量学方法有多元线性回归(MLR)、主成分回归(PCR)、主成分分析(PCA)、偏最小二乘(PLS)等线性校正方法。其中偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。本文所选取的两种方法均是基于偏最小二乘(PLS)回归系数提出的波长选择方法。PLS 方法在分解矩阵时,可以同时将 X 和Y 矩阵作为双线性分解,即: X=TP+E 2-4 Y=UQ+F 2-5其中T和U分别为X和Y的得分矩阵;P和Q别为X和Y的载荷矩阵;E和F分别是采用 PLS模型去拟合 X 和Y时所引进的误差。对T和U作线性回归: U=TB 2-6 B=TTT-1TTU 2-7其中B为关联系数矩阵。PLS是结合因子分析和回归分析的一种统计方法。该方法是将光谱数据向协方差最大方向投影,通过因子分析将光谱(多维空间数据,维数相当于波长数目)压缩为较低维空间数据。与近红外光谱法相结合时,PLS将原始近红外光谱分解为多种主成分光谱,不同的主成分分别代表不同组分和因素对光谱的贡献,通过合理选取主成分,去掉代表干扰组分和干扰因素的主成分,仅选取有用的主成分参与回归模型的建立。2.5 相关软件使用介绍MATLAB是 Mathworks公司开发的一种主要用于数值计算及可视化图像处理的新一代高级计算语言。其将数值分析、矩阵计算、图形、图像处理和仿真等诸多功能集成在一个极易使用的交互式环境之中,为科学研究、工程设计及数据处理和数值计算提供了一种高效率的编程工具。在这种编程环境下,任何复杂的计算问题及其解得描述均符合人们的科学思维方式和数学表达习惯。由于近红外光谱分析常采用多元校正方法,这种方法的实现往往比较复杂,其数据对象通常是矩阵和向量,具体计算涉及到矩阵的乘积、转置、求逆等。这些计算一般需要编写或查找相应得Fortran、Bascic和C等高级语言的程序包,通过编制应用程序,输入数据,然后经计算机处理而得到结果。这种做法要求实验人员掌握传统的计算语言,并具有一定的编程能力,而且程序调适过程费时、费力。而MATLAB在解决上述问题中具有明显的优越性11。本文所讨论的研究方法在软件的使用方面主要是基于 MATLAB在近红外光谱中的应用。第三章 实验部分3.1样品的准备140个梨样品均从水果批发市场上购买。样品在温度和相对湿度分别为30 oC和60%的实验条件下放置2天。根据样品硬度和表面色泽测量值的分布情况,将样品按照3:1的比例分别划分为校正集(105个)和测试集(35个)。 梨的硬度的测量采用Instron5534生物材料万能试验机完成,试验时的加载速度为20 mm min-1,刺入方向由表面指向果心,刺入点位置与光谱采集位置相对应,测量过程中计算机自动采集并记录硬度值。梨表面色泽的测量采用国际照明委员会(CIE)1976年推荐的均匀色度空间L*、a*、b*表色系。采用柯尼卡美能达CR-10反射式色差计(日本)测量样品的表面色泽,以铁氟龙标准白板(L = 100.0,a = -6.7,b = 0.2)作为样品的背景参比,对水果表面进行测量,分别测量L*、a*、b*三个指标,最后以转换后的总色差()作为描述表面色泽的综合指标。表1所示为实验样品校正集和测试集的标准测量值分布表。表1 校正集和测试集样品的硬度和表面色泽统计表分析指标 硬度 表面色泽统计参数范围平均值标准偏差 范围 平均值标准偏差校正集(105)2.6714.63 9.30 2.3043.14-56.9250.224.23测试级(35)3.6014.27 9.26 2.3243.88-56.8450.17 4.253.2 近红外光谱的采集实验选用ASD公司的QualitySpec Pro光谱仪(美国),测量的波长范围为:3501800 nm;光谱的分辨率为1 nm;采样时间:100 ms/次;扫描次数:10次;光源:12V/30W卤钨灯。实验采用漫反射方式,并在每个梨样品的赤道部位采集光谱。140个梨样品的近红外漫反射光谱如图1所示。图1 梨样品的近红外漫反射光谱图3.3 偏最小二乘回归模型的建立Partial least squares (PLS)方法用于回归模型的建立,模型的因子数采用留一法交叉验证(LOOCV)结合F检验进行选取。采用交叉验证均方根误差(root mean square error of cross validation, RMSECV)、预测均方根误差(root mean square error of prediction,RMSEP)和预测相关系数(r)对模型进行评价。3.4 对建模变量筛选方法的选择3.4.1 UVE-PLS原理与算法NIR数据分析过程中,变量筛选是重要的数据前处理方法之一,目前已有许多相关报导。其中,无信息变量消除-PLS(UVE-PLS)方法是基于PLS回归系数提出的一种波长选择方法。该方法通过一定的变量筛选标准,例如,引入稳定性(stability)值来评价模型中每个变量的可靠性(reliability),从而来决定每个变量的取舍。该方法已被广泛地应用于光谱变量的选择,是目前最为流行的一种波长选择方法,和其他波长选择方法相比12,UVE-PLS取得了满意的效果。 在线性回归模型中,预测值y可以通过以下公式求出: 3-1其中X(np)为n个样本的光谱测量矩阵(含p个光谱响应值),为回归系数向量,b0为随机误差向量。 UVE-PLS方法通过留一交叉验证过程,计算得到PLS回归系数矩阵:代表了每个相应变量j对所建模型的贡献,每个变量的重要性可以通过变量的稳定性(stability)值来衡量。稳定性可以定义为下述公式: 3-2其中sj为变量的稳定性,和stdj分别为矩阵的平均值和标准偏差。从上述公式中可以清楚地看出,的平均值越大,标准偏差越小时,该变量的稳定性值越大,相应的变量越为重要。因此,可以通过设定一定的阈值将不重要的变量去掉。为了得到一个合适大小的阈值,在原始光谱中加入了很小振幅的噪声矩阵,将组成的新矩阵用来计算变量的稳定性值。很明显,那些稳定性值小于噪声稳定性值所对应的光谱变量可认为是无用信息变量而被舍弃。在应用中,可根据实际情况调节cutoff大小,加入随机k值,比如k=0.7或0.9。 cutoff=kmaxabssnoise 3-3 通过原理算法我们了解到在UVE-PLS算法的核心部分,即获取变量稳定性值的过程中,采用了留一交叉验证法,该过程需要多次反复的运算,而且还需要引入与原始光谱所包含变量数目相等的随机噪声变量。所以当数据集数目较大时,该方法计算效率很低,非常耗时。为此,我们基于蒙特卡罗(Monte Carlo,MC)技术,对UVE方法作了改进,提出了MC-UVE算法。该方法首先用MC技术选取多个不同的校正子集,并建立大量模型,然后利用这些模型的回归系数,计算每个变量的稳定性。与UVE不同,MC-UVE算法不需要添加大量额外的随机噪声变量,因此,当遇到较大数据集时,MC-UVE算法计算速度会明显优于UVE算法。此外,用MC技术产生的多个模型往往比单一模型能更有效地从数据的不同方面和不同层面抽取并表达自变量和因变量之间的复杂关系。可以更合理、可靠地估计每个变量的稳定性,有望解决过拟合问题。3.4.2 MC-UVE方法首先让我们了解下蒙特卡罗方法。蒙特卡罗方法,或称之为随机模拟(random imitative)方法,是一种基于“随机数”(random numbers)和概率统计(probability statistics)来考察问题的计算方法13。蒙特卡罗方法在分析复杂多变量问题时非常地有效,在统计检验、优化过程、系统分析和信号探测等诸多领域已得到广泛的应用。在多元回归分析中,Monte Carlo交叉验证(Monte Carlo crossvalidation,MCCV)可用于线性和非线性模型的评价、模型因子数的选择,还可以考察模型的稳健性,是一种有效的模型评价方法,也是解决模型预测中所遇到问题的常用方,最初由Picard和Cook二人提出。该方法把数据样本随机分成校正集和测试集,用校正集拟合模型,用测试集估计模型的预测误差。重复若干次,取若干次的预测误差的均值作为最后预测误差的估计,并将若干次的结果作统计学分析以考察模型的稳健性。在本论文中将MC方法用在获得每个变量的稳定性数值的过程中。由MC方法产生大量的由不同的校正集样本组成的PLS模型,然后根据这些模型的回归系数,计算出每个变量的稳定性值。该过程减少了算法对某单个模型的依赖,更可靠地评估出每个变量的重要性,以决定它们的取舍。MC和UVE方法相结合,提出MC-UVE方法,用于近红外光谱模型中的变量筛选。方法与UVE方法不同之处在于:用MC技术代替UVE方法中的留一交互验证法(1eave-one-out cross-validation)来计算变量的稳定性值。并且,不采用在原始光谱数据中添加噪声随机变量来确定变量筛选阈值的方法,而是直接采用由变量的稳定性值大小来确定变量的筛选,这种方式更加简单、方便。最后,利用保留的变量建立PLS模型来预测未知样本。详细的算法步骤如下16 :(1)所有的样本被随机分成校正集、检验集和测试集。为保证预测样本的浓度全部被校正集样本的浓度所涵盖,使得预测结果更为准确,三个具有最高浓度的样本和三个具有最低浓度的样本都放进校正集里。(2)利用MC技术,从校正集里随机选取一定数目(Nt)个样本建构PLS子模型,该步骤被重复M次。然后,计算出PLS回归系数距阵14,根据上文中计算稳定性的公式进一步计算得到每个变量的稳定性值向量。根据MC技术原理,训练集中大部分的样本(例如40-60)可以留作检验集用,以保证能准确地估计出变量的稳定性值。(3)根据上述步骤得到的稳定性值,保留一定数目(Nj)的有用信息变量,用来建立PLS回归模型。实际计算中,采用从高到低排列所有变量的稳定性数值,设定第Nj个变量的稳定性值为阈值(cutoff value),低于此阈值的稳定性值所对应的变量被摒弃。(4)运用所选择的变量,用校正集样本建立PLS模型去预测预测集样本的性质。3.4.3 WT-MC-UVE方法小波变换(WT)是近年来兴起的一个在分析信号处理中非常有效的工具,它能将重叠混合信号分解为一系列不相同频率的基元信号,能达到对信号时频域的局部化分析。小波变换在近红外光谱平滑去噪、背景扣除、数据压缩和特征化学信息提取等方面已证明了其有效性。下面我们对其原理作具体阐述。小波定义为满足一定条件的函数通过平移和伸缩产生的一个函数族,即: 3-4式中:a-尺度参数(scale parameter),用于控制伸缩(dilation); b-平移参数(translation parameter),用于控制位置(position);-小波基或小波母函数,它必须满足下列条件:(1) 小(small),迅速趋向于零,或迅速衰减为零;(2) 波(wave),或小波变换(WT)的定义为: 3-5卷积定义: 3-6小波变换亦可写成: 3-7式中:相应的离散小波变化定义为: 3-8相应的连续小波变换定义为: 3-9据此,小波变换可以理解为函数f(t)在小波的空间投影或函数f(t)经滤波后的结果15。在实际应用中,从小波变换的原理可知,对近红外光谱数据进行小波压缩后,可采用小波系数代替原始数据,再利用多元校正方法建立模型。取较大的小波系数组成新的数据矩阵代替原始数据矩阵,可以到达降低数据量,既能有效地去除噪音,又能提高多元校正的速度。同时,采用较少的变量建模,有利于减少模型的随机性并提高预测精度。本文WT-MC-UVE PLS方法中首先采用常用的光谱预处理方法-离散小波变换,将原始光谱投影到小波空间,然后用MC-UVE方法对所得到的小波系数进行和MC-UVE PLS方法中相同的步骤操作,得到更加简洁的PLS回归预测模型。第四章 结果与讨论4.1 偏最小二乘回归模型主成分的选择在PLS回归中,因子数的选择非常重要。本研究中所有模型的主成分数由测试集的RMSEP和校正集的RMSECV共同优化确定。 ( 4-1) 其中yi和yi分别为第i个样本待测指标的预测和标准测量值,n为测试集样本的个数。在计算RMSECV时,yi为校正集样本交叉验证的预测值,n为校正集样本的个数。图4.1(a)和(b)分别表示梨硬度和表面色泽模型中PLS、MC-UVE PLS和WT-MC-UVE PLS三种方法的RMSECV和RMSEP随着主成分数的变化图。从图中可以清楚地看出,RMSEP和RMSECV随着主成分数的增加而降低。对于硬度的模型,因子数选20;对于表面色泽的模型,因子数选15时即满足计算要求。 图4.1 光谱经PLS、MC-UVE PLS和WT-MC-UVE PLS方法建模后,模型的RMSECV和 RMSEP随因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论