版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、w 上洛大孝SHANGHAI UNIVERSITY毕业设计(论文)UNDERGRADUATE PROJECT (THESIS)题 目:近红外数据不同预处理方法定量建模比较学院理学院专业应用化学学号08122460学生姓名 朱翔指导教师 陆文聪起讫日期 目录摘要4ABSTRACT5第一章:前言61.1、计算机化学61.2、近红外光谱613、卷烟品质的分析方法 81.4、 烟草的产地识别81.5、 近红外光谱技术在烟草行业中的进展 91.6、本文的目的9第二章:三种降维方法 102.1、概论102.2、算法10第三章:数据处理与分析 143.1、原始数据143.2、烟碱数据建模与预报153.3、结
2、论与小结 21第四章:烟草产地的模式识别研究 224.1、概论224.2、材料准备与实验方法224.3、 预报结果244.4、 结论与小结 25第五章:全文总结26参考文献27致谢29近红外数据不同预处理方法定量建模比较摘要近红外光谱法(NIRS)是一种常用的实验方法,它具有前处理过程简便、样品 分析过程较快、分析结果精度高等优点,而且适用范围广,已广泛应用于农业、 食品以及医药等众多领域。在本工作中,对烟草中烟碱的 NIRS数据进行主成份分析法(PCA)、偏最小 二乘法(PLS)以及球型映照法(MAP)三种不同的降维方法进行降维,然后利用支 持向量机(SVM)方法对降维后的数据进行定量建模,
3、 并比较三种降维方法的优越 性。最后又对不同产地的烟草通过 NIRS进行了模式识别研究,尝试通过 NIRS 结合模式识别方法来对烟草的产地进行鉴别。关键词:NIRS;烟草;PCA; PLS; MAP ;ABSTRACTThe near-infrared spectroscopy (NIRS) is a commonly used experimental method with adva ntages of high precisi on, simple pre-treatme nt process, rapid sample an alysis. Therefore, NIRS is a v
4、ery com mon laboratory in strume nts used in many fields including agriculture, food and medicine et al. In this work, principal comp onent an alysis (PCA), Partial Least Squares (PLS) method and the spherical mapping (MAP) were used to reduce the dimensionality for the data set of tobacco NIRS data
5、. The support Vector machi ne (SVM) method was adopted to evaluate the results of dime nsio nality reducti on for the data set.The differe nt orig in of tobacco can be dist in guished by using patter n recog niti on model based on the NIRS data of tobacco.Keywords: NIRS; Tobacco; PCA; PLS; MAP;第一章:前
6、言1.1、计算机化学计算机化学是通过计算机对化学反应和物质变化进行研究的一门科学。它以计算机为技术手段,建立化学化工信息资源化和智能化处理的理论和方法。计算机化学由于它的诞生迎合了时代发展的需要, 在七十年代和八十年代得 到了较大发展,至九十年代它已完全成为一门独立的学科, 受到了国际化学界的 广泛重视。它是与数学、计算机科学、物理学、药物学、材料科学等学科高度交 叉、相互渗透的新的生长点,是许多实用技术的基础,并深受当今计算机与网络 通讯技术飞速发展的影响,而处在迅速发展和不断演变之中。计算机化学的这个 特点决定了它在化学中的地位,是要帮助化学家,促进化学界的研究方法和工业 界的生产方式不断
7、革新。同时它与迅速崛起的高科技关系密切,是绿色化学和绿 色化工的基础,是联系化学化工为国民经济可持续性发展服务的桥梁。因此,计算机化学对化学学科发展的促进作用不可低估,没有它的发展就没有现代化学。1.2、近红外光谱、近红外光谱简介近红外光谱25是介于可见光和中红外之间的电磁辐射波,近红外光谱的区 域在780nm到2526nm之间,这是吸收光谱中的一个非可见光区。 近红外光谱区 较于有机物分子中的羟基等含氢的官能团来说, 震动的合频、以及各级倍频的吸 收区是基本一致的。于是,通过扫描一些样品的近红外光谱, 就可以知道该样品 的含氢官能团的一些特征信息。更重要的是,近红外光谱分析法具有前处理过程
8、简便、样品分析过程较快、分析结果精度高等事半功倍的优点, 而且具有不破坏 检测样品且不消耗化学试剂,对环境也不会造成污染的众多优点,因此近红外光 谱技术将会越来越在研究中普及、越来越受到研究者的青睐,广泛应用于农业、 食品以及医药等众多领域,烟草领域也不例外。、近红外光谱优点近红外光谱分析方法的优点67为:A、分析速度快。近红外光谱分析仪一旦经过定标后在不到一分钟的时间内 即可完成待测样品多个组分的同步测量,如果采用二极管列阵型或声光调制型分 析仪则在几秒钟的时间内给出测量结果,完全可以实现过程在线定量分析。B、对样品无化学污染。待测样品视颗粒度的不同可能需要简单的物理制备过程(如磨碎、混合、
9、干燥等),无需任何化学干预即可完成测量过程,被称为 是一种绿色的分析技术。近红外光谱分析模型C、仪器操作和维护简单,对操作员的素质水平要求较低。通过软件设计可 以实现极为简单的操作要求,在整个测量过程中引入的人为误差较小。D、测量精度高。尽管该技术与传统理化分析方法相比精度略逊一筹,但是 给出的测量精度足够满足生产过程中质量监控的实际要求,故而非常实用。E、分析成本极低。由于在整个测量过程中无需任何化学试剂,仪器定标完 成后测量是一项非常简单工作,所以几乎没有任何损耗。123、近红外光谱分析仪器近红外光谱仪器从分光系统可分为固定波长滤光片、光栅色散、快速傅立叶 变换、声光可调滤光器和阵列检测五
10、种类型。A、滤光片型主要作专用分析仪器,如粮食水分测定仪。由于滤光片数量有 限,很难分析复杂体系的样品。B、光栅扫描式具有较高的信噪比和分辨率。由于仪器中的可动部件(如光 栅轴)在连续高强度的运行中可能存在磨损问题,从而影响光谱采集的可靠性, 不太适合于在线分析。C、傅立叶变换近红外光谱仪是具有较高的分辨率和扫描速度,这类仪器的 弱点同样是干涉仪中存在移动性部件,且需要较严格的工作环境。D、声光可调滤光器是采用双折射晶体,通过改变射频频率来调节扫描的波 长,整个仪器系统无移动部件,扫描速度快。但目前这类仪器的分辨率相对较低, 价格也较高。E、随着阵列检测器件生产技术的日趋成熟,采用固定光路、光
11、栅分光、阵列检测器构成的NIR仪器,以其性能稳定、扫描速度快、分辨率高、信噪比高 以及性能价格比好等特点正越来越引起人们的重视。在与固定光路相匹配的阵列检测器中,常用的有电荷耦合器件(CCD)和二极管阵列(PDA)两种类型,其 中CCD多用于近红外短波区域的光谱仪,PDA检测器则用于长波近红外区域。1.3、卷烟品质的分析方法在传统的卷烟品质分析816过程中,目前评定者大多数都是通过感官检测和理化分析进行评定的。虽然感官评定方法较为简便且直接, 但是此方法显而易见 有明显的不足之处。例如评定者之间的感官灵敏度的差异, 以及评定者的感官灵 敏度会受到自身或者外界条件等众多因素的影响, 造成评定结果
12、的不准确。其次, 理化分析的结果虽比感官检测要精确的多,但是过程的繁琐、费用的昂贵、时间的消耗等各种因素使得理化分析方法受到一定的限制,这些限制就造成了不同卷 烟在制造和加工过程中的技术成本和卷烟质量大为不同。因此,鉴于现状,有必要研究出一种新型的鉴别卷烟的检测方法,达到快速、准确的目的。1.4、烟草的产地识别产地、部位与等级的划分17在烟叶采购与质量管理中起着很重要的作用。目前这类工作主要靠人工分拣,存在主观性强、工作量大和不够准确、科学等缺 点。Hana M等对产自16个国家的1600多个样品进行了基于NIR光谱的分类研 究,采用适当的数学方法建模后对烟叶所属的品种 (白肋烟、烤烟)或不同
13、产地(美 国本地、非美国产)均得到了 100%的正确判别结果。王国东等纠对2003年125个不同产地的国产烤烟烟叶的原始近红外光谱、 SNV光谱与一阶导数光谱进行了主成分分析,采用主成分空间下的马氏距离判 别样本的产地归属,研究了主成分个数、样本空间、光谱区间对烟叶产地识别准 确率的影响,分析了烟叶产地的近红外特征区和产地特征信息在不同主成分上的 体现。结果表明,采用光滑处理的全光谱区间的一阶导数光谱,在建模样本空间进行主成分分析时所建模型对烟叶样品的识别准确率最高。束茹欣等用3批不同年份、产地、部位和等级的 831份国产初烤烟叶样品, 以近红外光谱的主成分描述烟叶特征,采用马氏距离判别准则对
14、不同产地的烤烟 烟叶进行了产地、部位、等级的模式识别。结果表明:预测准确率随样本的复 杂程度和数量而变,波动范围为 74% 97% ;部位、等级识别的准确率低于产 地的识别,这与样本数不够大、烟叶分级受人为因素影响较大有关。1.5、近红外光谱技术在烟草行业中的进展总体看来,NIR光谱分析技术在烟草行业实际生产中已经发挥了较大的作用 18。利用NIR进行在线烟叶水分及主要化学成分测定快速、简单,是发展趋势。 应用NIR进行烟叶分类、分级及真伪鉴别也很有意义。今后近红外在烟草行业 中的应用研究将主要集中于以下几个方面:(1)便携式NIR仪器的开发,在烟草 早期采购过程中,对烟叶的主要成分进行现场测
15、试,为烟叶的采购提供可靠的依 据。还可以应用到烟草生物、生化、栽培及施肥等方面,指导烟草农业的健康发 展,更好地为烟草工业生产提供优质的原料;(2)大力发展在线检测及网络技术, 开发出在线检测卷烟烟盒外包装薄膜厚度、在线检测丝束和三醋酸甘油酯一致 性、在线检测香精香料浓度等方面的专用近红外仪。同时加强在辅助卷烟配方设 计、卷烟结构分析、卷烟感观质量评价以及生产的过程质量控制等方面的研究; (3)不同仪器之间,同一仪器不同条件下的定标模型的移植。1.6、本文的目的NIRS分析技术的快速、无损有点是其他技术无法比拟的,在卷烟领域研究 方面也有很大的研究价值,本文将通过NIRS技术对卷烟的数据进行用
16、不同的比 较方法进行降维、建模、分析比较,得出最优的降维方法。以及对烟草的产地进 行模式识别。本课题对不同的降维方法对近红外数据进行预处理,有以下几点意义:1、探索解决近红外数据挖掘中维数灾难的方法2、比较不同降维方法对近红外数据定量建模的影响3、用近红外方法对不同产地的烟草进行产地鉴别第二章:三种降维方法2.1、概论在烟草样本进行粉碎后,对这些样品进行近红外光谱采集。光谱的扫描范围 约为3800cm-1至10000cm-1之间,分辨率大约为3cm-1。因此,采集之后每个样 本都会出现大量的数据,这些大量的数据不易进行分析和比较。因此,将这些数据进行降维是必然的,只有将原本成百上千的数据通过某
17、一种方法进行降维,浓缩成1020个数据点,这些数据点既包括了原本上千个数据点的信息,同时,也易于对数据进行分析与比较。2.2、算法1974年,由美国的Kowalski和瑞典的Wold等发起成立了国际化学计量学 学会,此后开展了一系列的学术交流活动,促进了数学、人工智能、机器学习和 计算机科学在化学、化工领域的广泛使用。至二十世纪90年代中后期,由于数据挖掘概念的形成和数据挖掘技术的发展,相继出现了许多新的数据挖掘方法, 如支持向量机方法和集成学习算法等等,这些方法在化学、化工领域得到了广泛的应用,并取得了良好的结果。目前,化学化工数据挖掘已步入稳步发展的阶段, 不同数据挖掘方法在各自擅长的专题
18、中得到应用和发展。本章简要介绍了论文工作中所用的主要数据挖掘算法,包括支持向量回归( Support Vector Regressio n, SVR)算法、支持向量分类(Support Vector Classification, SVC)算法、多元线 性回归(Multiple Lin ear Regressio n, MLR )、主成分分析(Prin cipal Compo nent Analysis, PCA)、偏最小二乘法(Partial Least Squares, PLS、反向传播人工神经 网络(Back-Propagation Artificial Neural Network,
19、BP ANN )、多重判别矢量法和 Fisher判别分析法(Fisher Discriminant Analysis, FDA、等。通过近红外光谱对样品进行数据采集之后,往往需要用统计的方法进行分 析。此时如果数据变量太多,就会使得分析过程变得更为复杂。因此,在这种情 况下,需要对数据进行压缩,目的在于尽可能用较少的数据,而反映出更多的信 息。我们可以发现,在很多情况下,这些成百上千的数据中并不是杂乱无章、无规律可循的,这些数据中一定存在着某种联系。因此,我们要做的,就是通过多 种不同的数学降维方法,将大量的数据进行压缩,设法将成百上千的数据组合成 一组新的相互无关的数据,然后通过留一法等各种
20、方法对数据进行分析, 再对不 同的降维方法进行横向对比、分析,最终得出最理想最合适的降维方法。、主成分分析法PCA 降维(Prin cipal Comp on e nt An alysis, PCAPCA降维法1920,又称主成分分析法。PCA降维法是设法将原来具有一定 相关性的大量数据,重新转化成互相无关的一组少量数据来代替原来大量的数 据。在数学上来说,就是将原来若干个指标作线性组合,得出新的综合指标。在 一般情况下,选取第一个综合指标的方差来表达,也就是说,方差的值越大,则 表示第一个综合指标包含的信息也就越多。因此在所有的线性组合中选取的第一 个综合指标应该是方差最大的,因此,第一个综
21、合指标就是第一主成分。但是, 如果第一主成分不足以代表原来若干数量指标的信息,再考虑选取一个线性组 合,为了有效地反映原来信息,第一个线性组合已有的信息就没有必要在第二个 线性组合中再次体现,这时,称第二个线性组合的综合指标为第二主成分。依此类推,用类似的方法就可以得出更多数量的主成分。在实际应用中可取前几个对信息量贡献较大的主成分便可达到空间维数下 降而使信息量丢失尽可能少的目的。若取两个主成分构成投影平面即可在平面上 剖析数据结构。主成分分析的几何意义是一个线性的旋轴变换,使第一主成分指向样本散布 最大的方向,第二主成分指向样本散布次大的方向,余此类推(见图)。图2-1 :主成分分析的几何
22、意义示意图、偏最小乘法PLS降维(Partial Least Squares, PLSPLS降维法2122,又称偏最小二乘法。PLS降维法是多因变量对多自变量的 一种回归降维方法,该方法可以解决许多用其他方法无法解决的问题。相对于 PCA降维法而言,PCA降维法的主要目的在于提取隐藏在矩阵 X中的相关信息, 通过这些信息来预测变量丫的值。这样,可以保证在用PCA降维法时只使用那 些独立变量,从而达到改善预测模型的目的。但是,PCA降维法有一些不足之处,当一些有用变量的相关性不大时, 这种情况下,在选取主成分时就很容易把 它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选, 那
23、样又太困难了。PLS降维法就可以迎刃而解。该方法对变量 X和丫都进行分 解并同时提取因子,之后将提取出的因子,根据因子之间的相关性进行排列。当 建立一个PLS模型时,只要选择几个因子参与建模即可。、球型映照 MAP降维(MAP)球型映照法2324又称非线性映照法(MAP)非线性映照法可使多维图象映照到二维,映照中尽可能保留其固有的数据结构。若样本集标准化因素矩阵X表示为X11X12X21X22X - ( Xij ) N MXN1XN 2X1MX2MXNM(2-1)其中N为样本数,M为特征数。则X映照至二维空间的结果丫可表示为yi2y21_y N1y 22y N2 _*设dij和dij分别为多维
24、空间(映照前)和二维(映照后)空间中 i、j点间距I Mdj =(xik - Xjk)(2-3)dq八仏-比小2心(2-4)映照中的误差函数定义为* 2厂1 Jdij-dijE 二帀 J*di:jdiji 曰(2-5)E值愈小,数据结构保留程度愈大。各种非线性映照算法都使用迭代技术, 其迭代算法主要分三步:第一步:初选一组丫矢量。第二步:从初始结构开始调整其当前结构的 丫矢量。第三步:重复第二步,直至具备下列三个终止条件之一:(1)误差函数E已达到预先设定的允许值;(2)迭代已达到预先指定的次数;(3)当前的结构已使观察者满意。非线性映照法对样本分类能力较线性映照法强,但其计算量亦较大,且其二
25、维映照图纵横坐标没有明确的意义。通常在线性模式识别投影结果不理想的 情况下再尝试NLM方法。224、支持向量机算法(SVM)统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多 原来难以解决的问题(如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展了一种新的通用学习方法支持向量机(SVM ) 2526,包括支持向量分类算法(Support Vector Classification, SVC)和支持向量回归算 法(Support Vector Regression, SVR,它已初步表现出很
26、多优于已有方法的性能, 能较好地解决小样本、非线性、高维数和局部极小点等实际问题,因此成为20世纪90年代末发展最快的研究方向之一。一些学者认为,SLT和SVM正成为继 神经网络之后新的研究热点,并将有力地推动机器学习理论和技术的发展。第三章:数据处理与分析3.1、原始数据在得出结论之前,就必须通过实验来得出实验数据。 下面的数据是通过一些 样本经过近红外仪器扫描光谱得出的数据。表3-1 NIRS扫描原始数据文件名类别烟碱X1X2X3X4X5121.780.417240.417630.416950.416080.41552222.510.410860.411480.411280.410410.
27、41001322.30.424920.424740.424260.422990.42209411.450.433930.433570.43330.432990.4327511.290.385750.385740.386260.386350.38594611.430.440480.440270.440970.441390.44088721.950.483650.483350.483640.483510.48282811.210.418040.417710.417470.417270.417441011.330.423440.423970.42370.423150.422941111.180.43
28、0760.430230.429250.428260.427981210.960.419240.41870.418030.41770.417791311.170.395520.395770.396020.395570.39481411.080.401310.401670.401870.401170.400141511.280.436210.436060.436390.436380.4361621.870.416220.417360.418090.417560.41642从表中可以发现,每个样本的图像都可以看作有很多个数据点构成,约为 1500至2000个数据点。数量如此庞大的数据点在数据分析和比
29、较都比较困难, 因此必须通过一些降维方法,将上千个数据点通过降维,减少到1520个数据点, 这样,这些数据点既囊括了所有上千个数据点的信息,同时也易于对数据进行分析。首先我们对这组原始数据采取三种不同的降维方法进行建模,主成分分析法降维,偏最小二乘法降维,以及球型映照法进行降维。进行建模后的数据计算出 每个样品的计算值与实验值的绝对误差和相对误差,然后对此进行分析与比较。 然后我们采取的是“留一法(Leave One Out, LOO)27 ”方法进行数据分析。留一 法,简单地说,就是在一组样品中取出一件,然后将剩余的样品进行建模,分析, 然后得出一个预报结果。将这个预报结果与先前取出的样品进
30、行比较, 计算出绝对误差和相对误差的方法进行分析。这样,对样品中的每件样本进行留一法计算, 得出一个平均的相对误差。往往留一法得出的结果比建模得出的结果更具有代表 性。接下来,我们在对建模结果进行预报,即取出 5个其他未知样品,对其烟碱 量进行预报,将未知样品的预报值和计算值进行比较,得出误差结果。通过这个误差结果,对数据进行分析。最后,将 PCA、PLS、MAP三种降维方法的数据 通过SVM算法进行定量建模得出一个相对误差,通过这个相对误差,最后分析 得出三种降维方法的优缺点。3.2、烟碱数据建模与预报烟碱(Nicotine) 28,俗名尼古丁,是一种存在于茄科植物(茄属)中的生 物碱,也是
31、烟草的重要成分。尼古丁会使人上瘾或产生依赖性 (最难戒除的毒瘾 之一),人们通常难以克制自己,重复使用尼古丁也增加心脏速度和升高血压并 降低食欲。、烟碱PCA降维 321.1、烟碱PCA降维法建模图3-1 :烟碱PCA降维法建模结果从图中可以发现,大多数样本的建模数据的误差都是比较小的, 基本都控制 在3%以内。而且误差的波动也比较小,因此初步得出用 PLS建模法适合对烟草 烟碱的测定与预报。通过建模结果的图像可以基本得出,所有的数据点都几乎在这条直线上,也 就是说,回归结果较好,比较适宜用 PCA降维法进行建模。321.2、烟碱PCA降维法留一法结果图3-2:烟碱PCA降维法留一法结果PCA
32、留一法得出的误差打大多都在 10%左右,与之前的建模结果相比,已 经偏离了很多。而且有些数据的误差居然能相差到 60%以上,说明误差的波动也 很大。同样,可以从途中发现,与之前的建模结果相比,PCA降维法的留一法得出的数据点就偏离了直线,而且很明显,也很分散。因此,在烟草烟碱量的测定 中,PCA降维法可能并不是一种很理想的降维方法。、烟碱PCA降维法预报结果表3-2:烟碱PCA降维法预报结果文件名类别实验值预报值绝对误差相对误差911.391.0660-0.32400.23311811.41.70390.30390.21712122.272.27570.00570.00254411.331.1
33、930-0.13700.10304511.331.37670.04670.0351由图可见,PCA降维法的预报结果的相对误差波动范围比较大,从 1%以下 到20%以上都有,也就是说,烟碱 PCA降维的预报结果比较不稳定,可能有好 的预报结果,也会有较大误差的预报结果,总的来说预报结果不是很理想。321.4、烟碱PCA降维法小结从烟碱PCA降维法的建模、留一法、预报三个方面综合考虑,虽然在 PCA 降维法在建模方面有着不错的结果,但是在更为重要的留一法以及预报这两个关 键的方面,无论从误差的大小以及误差的波动性来看,都表现地并不怎么理想。 因此综上所述,PCA降维法并不太适用于烟草烟碱的测定。、
34、烟碱PLS降维、烟碱PLS降维法建模图3-3:烟碱PLS降维法建模结果根据上图的数据,发现PCA降维法的误差一般较大,都是百分之几十的误 差。因此可以从下图中看到大多数数据点偏离直线较远从烟碱PLS建模结果的图像可以直观得看出,PLS建模的数据离直线y=x有一定的偏离,当值比较小的时候,往往实验值要小于预报值,当值比较大的时 候,基本上实验值和预报值之间的差距会越来越小,甚至实验值会大于预报值。 因此,PLS的降维方法看上去没有PCA建模法的结果那么出色。但是只要随着 实验次数的增多,发现还是有规律可循。322.2、烟碱PLS降维法留一法结果图3-4:烟碱PLS降维法留一法结果从烟碱PLS降维
35、法的留一法结果可以看出,误差一般控制在10%以下,只有极个别的误差打到20%。也就是说,烟碱PLS降维法在留一法方面的表现比 较不错。相对于之前的PCA降维的留一法结果,可以明显地表现出 PLS降维法 优点,虽然PLS在建模上的结果没有PCA理想,但是在留一法的结果却明显优 于PCA降维方法。从图中可以看出,PLS留一法的数据点与之前的 PCA进行比较,显然PLS 降维法的数据点比较密集与集中,误差也相对较小。322.3、烟碱PLS降维法预报结果表3-3:烟碱PLS降维法预报结果文件名类别实验值预报值绝对误差相对误差911.391.3111-0.07890.05681811.41.50410.
36、10410.07442122.272.2348-0.03520.01554411.331.41120.08120.06104511.331.52020.19020.1430烟碱PLS的预报结果一般都小于10%,波动范围比较小,因此,PLS方法的预报结果是比较准确的,如果有更加理想化的建模结果的话,或许PLS降维法的预报结果更为准确。322.4、烟碱PLS降维法小结综合地说,对烟碱进行 PLS降维法,其建模结果的数据图像的数据点,与 之前的PCA方法相比,显然误差增加了好多,因此从建模图像和留一法图像与 PCA方法进行比较的话,或许PLS降维法略显欠佳。但是PLS的留一法结果以 及预报结果却比P
37、CA方法精确,波动也比较小。也就是说,如果 PLS的建模结 果如果能够再精确些的话,PLS方法就能显得更好。、烟碱球型映照降维 、烟碱球型映照降维法建模图3-5:烟碱球型映照降维法建模结果看烟碱MAP降维法建模图,感觉就是比较松散,其中有不少的数据还是离直线y=x非常接近的,当然,也有少数数据偏离度还是比较大的。因此MAP降维方法适合大批量的数据进行建模,对于数量不多的数据进行建模分析,由于 MAP建模得出的数据比较松散,则会出现数据越少,误差越大。323.2、烟碱球型映照降维法留一法结果miExp.)图3-6:烟碱球型映照降维法留一法结果烟碱MAP降维法得出的结果和建模结果类似,图像上的点略
38、显松散323.3、烟碱球型映照降维法预报结果表3-4:烟碱球型映照降维法预报结果文件名类别实鲨值预报值绝对误苹相对误於911.39L 38510.00490. 0035181L41.62130, 22130-15812121-6H22-0- 5H780- 25904411.33L43180. 10180- 07654511-331. 521519150-1440MAP降维法得出的预报结果也是属于波动比较大的,最大的高达 25%的误 差,因此用MAP降维法进行预报得出的结果的真实度也远远小于之前的 PLS的 建模法。323.4、烟碱球型映照降维法小结MAP在建模和留一法上得出的结果远远不如 PC
39、A降维方法,因此用 MAP 方法建模并不理想。MAP的预报结果页不如PLS的降维方法,因此应MAP方 法也不适合预报,因此,MAP降维方法在本次实验中并不适用。3.3、结论与小结通过PCA PLS MAP三种不同的降维法进行建模,都从中得出了不同的优缺 点。接下来再将三种不同的降维方法的建模、留一法和预报结构进行SVMS向法得出一个相对误差,通过这个相对误差再结合前面的分析来得出最佳降维方法。表3-5:三种降维方法的建模、留一法、预报误差的 svm径向误差建模误差留一法误差预报误差PCAPLSMAPsvn径向svn径向svn径向0.025427 0.2143257 0.1181590.0237
40、525 0.0527043 0.07012980.1427817 0.2022231 0.1282023通过PCA、PLS以及MAP三种不同的降维降维方法,以及通过建模误差、留一法误差以及预报误差三个方面在综合权衡,可以显然得出PLS降维方法(偏最小二乘法)是最理想的降维方法。判断一个降维方法是否为好的方法,主要从这个方法的留一法误差以及预报 误差来体现。因为留一法误差是相当与将自己作为未知样本进行核对,而预报误差是对其他未样本进行数据的预测。如果在这两个方面都能得出理想的结论的 话,该降维方法就是理想的降维方法。因此通过上表,无论是留一法误差或者是预报误差而言,PLS的误差结果明 显要小于其
41、他两种方法所出现的误差, 因此综上所述,PLS降维方法是在烟草烟 碱量测定中,可以作为一种实用的降维方法。第四章:烟草产地的模式识别研究4.1、概论近红外光谱分析方法具有众多优点,包括检测速度快、工作效率高、费用成 本低、测试重现性好、测量方便等等,已经被越来越多领域普遍使用。据理论推 断,近红外技术可以进行研究和检测一般卷烟烟叶中高达80%至90%以上的化学成分,其中所包含的烟草化学成分的关联信息通过近红外光谱表现得非常丰 富,由于对烟叶通过近红外信息进行聚类分析和模式识别具有可靠的物质基础, 因此使用近红外信息来对烟叶质量的定性及定量进行研究,将会有更加广阔的应 用前景。到现在为止,国内烟
42、草行业对近红外光谱技术以及其应用已经有了非常深入 的研究,本章节将通过近红外光谱技术,对国产的几种烟叶产地来进行模式识别 研究72930。可视化技术3132,指的是通过计算机图形学以及图像处理技术,将数据转 换为图形或图像信息在电子屏幕上显示, 同时并进行交互处理的理论、方法与技 术。可视化技术涉及到计算机图形学、计算机辅助设计、图像处理、计算机视觉 以及人机交互技术等多方面领域。本章节对烟草产地的进行模式识别研究,通过近红外光谱技术,不但可以对不同产地的烟草进行很好地区分,同时,利用可视化技术可以直接展现出结果, 更好地帮助了近红外技术的深入研究。4.2、材料准备与实验方法、实验仪器BRUK
43、ERVECTOR22/N傅立叶近红外变换光谱仪;BRUKERMPA傅立叶近红外变换光谱仪;Antaris傅立叶近红外变换光谱仪。422、烟草样本这次进行检测的样本包括福建15个样本、贵州23个样本,河南6个样本, 共有44个烟草样本。在对烟草样本的数据分析过程中,得到的模型不仅要求有 好的建模结果,而且预备结果也要较理想。故“检验集”需要在这些样本中分别 在3个不同产地的烟草样本各随机抽取一个组成,而“建模集”即为剩余的41个样本。423、光谱采集烟草样本粉碎后直接进行近红外光谱采集。采用漫反射吸收光谱法。扫描范 围为3800cm-1至10000 cm-1之间,分辨率约3cm-1左右,平均扫描
44、60次。0.8图4-1 :烟草样本近红外扫描谱、光谱处理对烟叶样本的近红外光谱曲线求一阶导数后进行光滑处理,采用主成分分析 法进行特征抽提,取前16个主成分作为变量。本实验利用主成分分析法(PCA) 对烟草产地进行模式识别研究。4.3、预报结果、建模结果利用PCA方法对这建模集的41个样本进行分类,结果如下:图4-2:烟草产地的模式识别图(注:1类代表福建,2类代表贵州,3类代表河南,下同)由图可见:三个不同产地的烟草样本在图中分布在不同的区域,不同产地的样本聚集在不同的区域。、预报结果利用检验集的3各样本,检验建立模型的准确性。结果如下:图4-3:检验结果由图可见:禾I用建立的模型判断检验集
45、的三个样本,产地都判断准确433、重复验证由于每次只抽取3个样本,得到的结果有一定的偶然性,因此独立进行三次 验证。图4-4:重复检验结果由图可见:重复检验也可以得到准确的结果。(另外两次图片略)4.4、结论与小结通过近红外光谱技术和数据挖掘技术对不同烟草产地的模式识别研究,可以明显地看出不同产地的烟草有着明显不同的分布区域。此外,通过可视化技术将不同产地的烟草样本在主成分分析的特征图上进行投影,可以非常清楚观察到不 同产地烟草在特征图上的分布。然而,对于新预备的样本来说,利用可视化技术, 可以清楚得观测到这些样本在原来特征图上的具体位置,进行对比,很容易判别出其产地。总而言之,随着研究的不断
46、深入,近红外光谱技术、数据挖掘技术以 及可视化技术将会在烟草行业上有着更广泛的应用。第五章:全文总结在本次工作中,首先对烟草的烟碱进行了建模、降维分析。先用近红外仪器 对烟草的烟碱含量进行了近红外扫描, 获得了烟碱的近红外光谱图;然后对光谱 图的数据进行列表、整理,得到每个样品都有 2000个左右的数据点,接着对这 些成百上千个数据点进行建模、用主成分分析法 (PCA)、偏最小二乘法(PLS)他、 以及球型映照法(MAP)三种不同的降维方法进行分析,对每种降维法用SVM径向分析法得出建模误差、留一法误差以及预报误差。其中主成分分析法的建模误 差较小,但是其留一法误差以及预报误差较大, 不太适合
47、烟草烟碱数据建模;而 偏最小二乘法无论在建模误差、留一法误差以及预报误差三个方面来说, 都是非 常不错的,相对于之前的主成分分析法来说,偏最小二乘法可能更适用于烟草烟 碱的建模;而最后的球型映照法,在建模误差、留一法误差以及预报误差三个方 面都有比较大的误差,相对于之前的 PCA、PLS降维方法而言,MAP在烟草烟 碱的建模上略显欠佳。因此综上所述,在本工作进行烟草烟碱量的建模中、 偏最 小二乘法降维方法是最好的降维方法, 主成分分析法次之,而球形映照法的降维 结果误差最大。第二部分工作是,对不同产地的烟草通过 NIRS进行了模式识别,通过主成 分分析法对不同产地的烟草进行判别,可以明显地看出
48、不同产地的烟草有着明显 不同的分布区域。此外,通过可视化技术将不同产地的烟草样本在主成分分析的 特征图上进行投影,可以非常清楚观察到不同产地烟草在特征图上的分布,因此很容易判别出其产地。随着研究的不断深入,近红外光谱技术将会在烟草行业上有着更广泛的应 用。参考文献1 袁身刚,化学知识创新的尖兵一计算机化学2 Wei G.Hansen and Johann W.Wiechars Possible Near-Infrared Reflectanee Spectroscopy Applications in Skin Moisturisation and Hormones StudiesR.全国第 二届近红外光谱学术会议论文集,2006: 218-2303Feng Gan, Jiajun Wang, Philip K.hopke.A Spectral Similarity Measure Using Bayesian StatisticsR全国第二届近红外光谱学术会议论文集,2006: 527-5374Liu Xu, CHEN Hua-cai, Liu Tai-a ng. Applicati on of PCA-SVR to NIR prediction model for tobacco chemical compositionJ. Spe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民办学校财务管理制度范本
- 医院医疗设备管理制度
- 医院医疗废物处置设施应急演练计划制度
- 睡眠呼吸暂停合并糖尿病的强化治疗策略
- 真实世界证据支持医疗质量提升策略
- 监护仪无创血压测量间隔的质控优化
- 皮肤纤维化个体化治疗策略的进展与挑战
- 皮肤科治疗设备选择策略
- 皮肤科治疗不良事件上报责任追究
- 皮肤疾病个性化干预策略
- 四川省成都市2023-2024学年高二上学期期末考试英语试题 含解析
- T-CCUA 006-2024 信息系统审计机构服务能力评价
- 鲁科版高中化学选择性必修第一册第2章章末复习建构课课件
- DL∕T 5210.6-2019 电力建设施工质量验收规程 第6部分:调整试验
- 2024年安徽省高考地理试卷(真题+答案)
- 装修民事纠纷调解协议书
- 2023年PCB工程师年度总结及来年计划
- 森林防火工作先进个人事迹材料
- MH5006-2015民用机场飞行区水泥混凝土道面面层施工技术规范
- 施工交通疏导方案
- 1例低血糖昏迷的护理查房
评论
0/150
提交评论