朱翔毕业论文6.12-陆修订_第1页
朱翔毕业论文6.12-陆修订_第2页
朱翔毕业论文6.12-陆修订_第3页
朱翔毕业论文6.12-陆修订_第4页
朱翔毕业论文6.12-陆修订_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 SHANGHAISHANGHAI UNIVERSITYUNIVERSITY 毕业设计(论文) UNDERGRADUATEUNDERGRADUATE PROJECTPROJECT (THESIS)(THESIS) 题题 目目: :近红外数据不同预处理方法定量建模比较近红外数据不同预处理方法定量建模比较 学学 院院 理理 学学 院院 专专 业业 应用化学应用化学 学学 号号 0812246008122460 学生姓名学生姓名 朱朱 翔翔 指导教师指导教师 陆文聪陆文聪 起讫日期起讫日期 2012.03-2012.062012.03-2012.06 2 目录目录 摘要摘要.4 ABSTRACT.5

2、 第一章:前言第一章:前言.6 1.1、计算机化学、计算机化学 .6 1.2、近红外光谱、近红外光谱 .6 1.3、卷烟品质的分析方法、卷烟品质的分析方法 .8 1.4、烟草的产地识别、烟草的产地识别.8 1.5、近红外光谱技术在烟草行业中的进展、近红外光谱技术在烟草行业中的进展.9 1.6、本文的目的、本文的目的 .9 第二章:三种降维方法第二章:三种降维方法.10 2.1、概论、概论.10 2.2、算法、算法.10 第三章:数据处理与分析第三章:数据处理与分析.14 3.1、原始数据、原始数据.14 3.2、烟碱数据建模与预报、烟碱数据建模与预报 .15 3.3、结论与小结、结论与小结 .

3、20 第四章:烟草产地的模式识别研究第四章:烟草产地的模式识别研究.22 4.1、概论、概论.22 4.2、材料准备与实验方法、材料准备与实验方法 .22 3 4.3、预报结果、预报结果.24 4.4、结论与小结、结论与小结 .25 第五章:全文总结第五章:全文总结.26 参考文献参考文献 .27 致谢致谢.29 4 近红外数据不同预处理方法定量建模比较近红外数据不同预处理方法定量建模比较 摘要摘要 近红外光谱法(NIRS)是一种常用的实验方法,它具有前处理过程简便、样 品分析过程较快、分析结果精度高等优点,而且适用范围广,已广泛应用于农 业、食品以及医药等众多领域。 在本工作中,对烟草中烟碱

4、的 NIRS 数据进行主成份分析法(PCA)、偏最小 二乘法(PLS)以及球型映照法(MAP)三种不同的降维方法进行降维,然后利用支 持向量机(SVM)方法对降维后的数据进行定量建模,并比较三种降维方法的优 越性。 最后又对不同产地的烟草通过 NIRS 进行了模式识别研究,尝试通过 NIRS 结合模式识别方法来对烟草的产地进行鉴别。 关键词:关键词:NIRS;烟草;PCA;PLS;MAP; 5 ABSTRACT The near-infrared spectroscopy (NIRS) is a commonly used experimental method with advantages

5、 of high precision, simple pre-treatment process, rapid sample analysis. Therefore, NIRS is a very common laboratory instruments used in many fields including agriculture, food and medicine et al. In this work, principal component analysis (PCA), Partial Least Squares (PLS) method and the spherical

6、mapping (MAP) were used to reduce the dimensionality for the data set of tobacco NIRS data. The support Vector machine (SVM) method was adopted to evaluate the results of dimensionality reduction for the data set. The different origin of tobacco can be distinguished by using pattern recognition mode

7、l based on the NIRS data of tobacco. Keywords: NIRS; Tobacco; PCA; PLS; MAP; 6 第一章:前言第一章:前言 1.1、计算机化学 计算机化学1是通过计算机对化学反应和物质变化进行研究的一门科学。 它以计算机为技术手段,建立化学化工信息资源化和智能化处理的理论和方法。 计算机化学由于它的诞生迎合了时代发展的需要,在七十年代和八十年代 得到了较大发展,至九十年代它已完全成为一门独立的学科,受到了国际化学 界的广泛重视。它是与数学、计算机科学、物理学、药物学、材料科学等学科 高度交叉、相互渗透的新的生长点,是许多实用技术的基础

8、,并深受当今计算 机与网络通讯技术飞速发展的影响,而处在迅速发展和不断演变之中。计算机 化学的这个特点决定了它在化学中的地位,是要帮助化学家,促进化学界的研 究方法和工业界的生产方式不断革新。同时它与迅速崛起的高科技关系密切, 是绿色化学和绿色化工的基础,是联系化学化工为国民经济可持续性发展服务 的桥梁。因此,计算机化学对化学学科发展的促进作用不可低估,没有它的发 展就没有现代化学。 1.2、近红外光谱 1.2.1、近红外光谱简介 近红外光谱25是介于可见光和中红外之间的电磁辐射波,近红外光谱的区 域在 780nm 到 2526nm 之间,这是吸收光谱中的一个非可见光区。近红外光谱 区较于有机

9、物分子中的羟基等含氢的官能团来说,震动的合频、以及各级倍频 的吸收区是基本一致的。于是,通过扫描一些样品的近红外光谱,就可以知道 该样品的含氢官能团的一些特征信息。更重要的是,近红外光谱分析法具有前 处理过程简便、样品分析过程较快、分析结果精度高等事半功倍的优点,而且 具有不破坏检测样品且不消耗化学试剂,对环境也不会造成污染的众多优点, 因此近红外光谱技术将会越来越在研究中普及、越来越受到研究者的青睐,广 7 泛应用于农业、食品以及医药等众多领域,烟草领域也不例外。 1.2.2、近红外光谱优点 近红外光谱分析方法的优点67为: A、分析速度快。近红外光谱分析仪一旦经过定标后在不到一分钟的时间

10、内即可完成待测样品多个组分的同步测量,如果采用二极管列阵型或声光调制 型分析仪则在几秒钟的时间内给出测量结果,完全可以实现过程在线定量分析。 B、对样品无化学污染。待测样品视颗粒度的不同可能需要简单的物理制 备过程(如磨碎、混合、干燥等) ,无需任何化学干预即可完成测量过程,被称 为是一种绿色的分析技术。 近红外光谱分析模型 C、仪器操作和维护简单,对操作员的素质水平要求较低。通过软件设计 可以实现极为简单的操作要求,在整个测量过程中引入的人为误差较小。 D、测量精度高。尽管该技术与传统理化分析方法相比精度略逊一筹,但 是给出的测量精度足够满足生产过程中质量监控的实际要求,故而非常实用。 E、

11、分析成本极低。由于在整个测量过程中无需任何化学试剂,仪器定标 完成后测量是一项非常简单工作,所以几乎没有任何损耗。 1.2.3、近红外光谱分析仪器 近红外光谱仪器从分光系统可分为固定波长滤光片、光栅色散、快速傅立 叶变换、声光可调滤光器和阵列检测五种类型。 A、滤光片型主要作专用分析仪器,如粮食水分测定仪。由于滤光片数量 有限,很难分析复杂体系的样品。 B、光栅扫描式具有较高的信噪比和分辨率。由于仪器中的可动部件(如 光栅轴)在连续高强度的运行中可能存在磨损问题,从而影响光谱采集的可靠 性,不太适合于在线分析。 C、傅立叶变换近红外光谱仪是具有较高的分辨率和扫描速度,这类仪器 的弱点同样是干涉

12、仪中存在移动性部件,且需要较严格的工作环境。 D、声光可调滤光器是采用双折射晶体,通过改变射频频率来调节扫描的 8 波长,整个仪器系统无移动部件,扫描速度快。但目前这类仪器的分辨率相对 较低,价格也较高。 E、随着阵列检测器件生产技术的日趋成熟,采用固定光路、光栅分光、 阵列检测器构成的 NIR 仪器,以其性能稳定、扫描速度快、分辨率高、信噪比 高以及性能价格比好等特点正越来越引起人们的重视。在与固定光路相匹配的 阵列检测器中,常用的有电荷耦合器件(CCD)和二极管阵列(PDA)两种类 型,其中 CCD 多用于近红外短波区域的光谱仪,PDA 检测器则用于长波近红 外区域。 1.3、卷烟品质的分

13、析方法 在传统的卷烟品质分析816过程中,目前评定者大多数都是通过感官检测 和理化分析进行评定的。虽然感官评定方法较为简便且直接,但是此方法显而 易见有明显的不足之处。例如评定者之间的感官灵敏度的差异,以及评定者的 感官灵敏度会受到自身或者外界条件等众多因素的影响,造成评定结果的不准 确。其次,理化分析的结果虽比感官检测要精确的多,但是过程的繁琐、费用 的昂贵、时间的消耗等各种因素使得理化分析方法受到一定的限制,这些限制 就造成了不同卷烟在制造和加工过程中的技术成本和卷烟质量大为不同。因此, 鉴于现状,有必要研究出一种新型的鉴别卷烟的检测方法,达到快速、准确的 目的。 1.4、烟草的产地识别

14、产地、部位与等级的划分17在烟叶采购与质量管理中起着很重要的作用。 目前这类工作主要靠人工分拣,存在主观性强、工作量大和不够准确、科学等 缺点。 Hana M 等对产自 16 个国家的 1600 多个样品进行了基于 NIR 光谱的分类 研究,采用适当的数学方法建模后对烟叶所属的品种(白肋烟、烤烟)或不同产 地(美国本地、非美国产)均得到了 100%的正确判别结果。 王国东等纠对 2003 年 125 个不同产地的国产烤烟烟叶的原始近红外光谱、 SNV 光谱与一阶导数光谱进行了主成分分析,采用主成分空间下的马氏距离判 9 别样本的产地归属,研究了主成分个数、样本空间、光谱区间对烟叶产地识别 准确

15、率的影响,分析了烟叶产地的近红外特征区和产地特征信息在不同主成分 上的体现。结果表明,采用光滑处理的全光谱区间的一阶导数光谱,在建模样 本空间进行主成分分析时所建模型对烟叶样品的识别准确率最高。 束茹欣等用 3 批不同年份、产地、部位和等级的 831 份国产初烤烟叶样品, 以近红外光谱的主成分描述烟叶特征,采用马氏距离判别准则对不同产地的烤 烟烟叶进行了产地、部位、等级的模式识别。结果表明:预测准确率随样本 的复杂程度和数量而变,波动范围为 7497;部位、等级识别的准确率 低于产地的识别,这与样本数不够大、烟叶分级受人为因素影响较大有关。 1.5、近红外光谱技术在烟草行业中的进展 总体看来,

16、NIR 光谱分析技术在烟草行业实际生产中已经发挥了较大的作 用18。利用 NIR 进行在线烟叶水分及主要化学成分测定快速、简单,是发展趋 势。应用 NIR 进行烟叶分类、分级及真伪鉴别也很有意义。今后近红外在烟草 行业中的应用研究将主要集中于以下几个方面:(1)便携式 NIR 仪器的开发,在 烟草早期采购过程中,对烟叶的主要成分进行现场测试,为烟叶的采购提供可 靠的依据。还可以应用到烟草生物、生化、栽培及施肥等方面,指导烟草农业 的健康发展,更好地为烟草工业生产提供优质的原料;(2)大力发展在线检测及 网络技术,开发出在线检测卷烟烟盒外包装薄膜厚度、在线检测丝束和三醋酸 甘油酯一致性、在线检测

17、香精香料浓度等方面的专用近红外仪。同时加强在辅 助卷烟配方设计、卷烟结构分析、卷烟感观质量评价以及生产的过程质量控制 等方面的研究;(3)不同仪器之间,同一仪器不同条件下的定标模型的移植。 1.6、本文的目的 NIRS 分析技术的快速、无损有点是其他技术无法比拟的,在卷烟领域研究 方面也有很大的研究价值,本文将通过 NIRS 技术对卷烟的数据进行用不同的 比较方法进行降维、建模、分析比较,得出最优的降维方法。以及对烟草的产 地进行模式识别。 本课题对不同的降维方法对近红外数据进行预处理,有以下几点意义: 10 1、探索解决近红外数据挖掘中维数灾难的方法 2、比较不同降维方法对近红外数据定量建模

18、的影响 3、用近红外方法对不同产地的烟草进行产地鉴别 第二章:三种降维方法第二章:三种降维方法 2.1、概论 在烟草样本进行粉碎后,对这些样品进行近红外光谱采集。光谱的扫描范 围约为 3800cm-1至 10000cm-1之间,分辨率大约为 3cm-1。因此,采集之后每个 样本都会出现大量的数据,这些大量的数据不易进行分析和比较。因此,将这 些数据进行降维是必然的,只有将原本成百上千的数据通过某一种方法进行降 维,浓缩成 1020 个数据点,这些数据点既包括了原本上千个数据点的信息, 同时,也易于对数据进行分析与比较。 2.2、算法 1974 年,由美国的 Kowalski 和瑞典的 Wold

19、 等发起成立了国际化学计量学 学会,此后开展了一系列的学术交流活动,促进了数学、人工智能、机器学习 和计算机科学在化学、化工领域的广泛使用。至二十世纪 90 年代中后期,由于 数据挖掘概念的形成和数据挖掘技术的发展,相继出现了许多新的数据挖掘方 法,如支持向量机方法和集成学习算法等等,这些方法在化学、化工领域得到 了广泛的应用,并取得了良好的结果。目前,化学化工数据挖掘已步入稳步发 展的阶段,不同数据挖掘方法在各自擅长的专题中得到应用和发展。本章简要 介绍了论文工作中所用的主要数据挖掘算法,包括支持向量回归(Support Vector Regression, SVR)算法、支持向量分类(Su

20、pport Vector Classification, SVC)算法、多元线性回归(Multiple Linear Regression, MLR) 、主成分分析 (Principal Component Analysis, PCA) 、偏最小二乘法(Partial Least Squares, PLS) 、反向传播人工神经网络(Back-Propagation Artificial Neural Network, BP ANN) 、多重判别矢量法和 Fisher 判别分析法(Fisher Discriminant Analysis, 11 FDA)等。 通过近红外光谱对样品进行数据采集之后

21、,往往需要用统计的方法进行分 析。此时如果数据变量太多,就会使得分析过程变得更为复杂。因此,在这种 情况下,需要对数据进行压缩,目的在于尽可能用较少的数据,而反映出更多 的信息。我们可以发现,在很多情况下,这些成百上千的数据中并不是杂乱无 章、无规律可循的,这些数据中一定存在着某种联系。因此,我们要做的,就 是通过多种不同的数学降维方法,将大量的数据进行压缩,设法将成百上千的 数据组合成一组新的相互无关的数据,然后通过留一法等各种方法对数据进行 分析,再对不同的降维方法进行横向对比、分析,最终得出最理想最合适的降 维方法。 2.2.1、主成分分析法PCA 降维(Principal Compon

22、ent Analysis, PCA) PCA 降维法1920,又称主成分分析法。PCA 降维法是设法将原来具有一定 相关性的大量数据,重新转化成互相无关的一组少量数据来代替原来大量的数 据。在数学上来说,就是将原来若干个指标作线性组合,得出新的综合指标。 在一般情况下,选取第一个综合指标的方差来表达,也就是说,方差的值越大, 则表示第一个综合指标包含的信息也就越多。因此在所有的线性组合中选取的 第一个综合指标应该是方差最大的,因此,第一个综合指标就是第一主成分。 但是,如果第一主成分不足以代表原来若干数量指标的信息,再考虑选取一个 线性组合,为了有效地反映原来信息,第一个线性组合已有的信息就没

23、有必要 在第二个线性组合中再次体现,这时,称第二个线性组合的综合指标为第二主 成分。依此类推,用类似的方法就可以得出更多数量的主成分。 在实际应用中可取前几个对信息量贡献较大的主成分便可达到空间维数下 降而使信息量丢失尽可能少的目的。若取两个主成分构成投影平面即可在平面 上剖析数据结构。 主成分分析的几何意义是一个线性的旋轴变换,使第一主成分指向样本散 布最大的方向,第二主成分指向样本散布次大的方向,余此类推(见图) 。 12 图 2-1:主成分分析的几何意义示意图 2.2.2、偏最小二乘法PLS 降维(Partial Least Squares, PLS) PLS 降维法2122,又称偏最小

24、二乘法。PLS 降维法是多因变量对多自变量 的一种回归降维方法,该方法可以解决许多用其他方法无法解决的问题。相对 于 PCA 降维法而言,PCA 降维法的主要目的在于提取隐藏在矩阵 X 中的相关 信息,通过这些信息来预测变量 Y 的值。这样,可以保证在用 PCA 降维法时 只使用那些独立变量,从而达到改善预测模型的目的。但是,PCA 降维法有一 些不足之处,当一些有用变量的相关性不大时,这种情况下,在选取主成分时 就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成 分进行挑选,那样又太困难了。PLS 降维法就可以迎刃而解。该方法对变量 X 和 Y 都进行分解并同时提取因子,之

25、后将提取出的因子,根据因子之间的相关 性进行排列。当建立一个 PLS 模型时,只要选择几个因子参与建模即可。 2.2.3、球型映照MAP 降维(MAP) 球型映照法2324又称非线性映照法(MAP)。 非线性映照法可使多维图象映照到二维,映照中尽可能保留其固有的数据 结构。若样本集标准化因素矩阵 X 表示为 =(2-1) MNij xX )( NMNN M M xxx xxx xxx 21 22221 11211 其中 N 为样本数,M 为特征数。则 X 映照至二维空间的结果 Y 可表示为 13 (2-2) 21 2221 1211 . NN yy yy yy Y 设和分别为多维空间(映照前)

26、和二维(映照后)空间中 i、j 点间 * ij d ij d 距离 (2-3) M k jkikij xxd 1 2* )( (2-4) 2 1 2 )( k jkikij yyd 映照中的误差函数定义为 (2-5) N ji ij ijij N ji ij d dd d E * 2* * 1 E 值愈小,数据结构保留程度愈大。各种非线性映照算法都使用迭代技术, 其迭代算法主要分三步: 第一步:初选一组 Y 矢量。 第二步:从初始结构开始调整其当前结构的 Y 矢量。 第三步:重复第二步,直至具备下列三个终止条件之一: (1)误差函数 E 已达到预先设定的允许值; (2)迭代已达到预先指定的次数

27、; (3)当前的结构已使观察者满意。 非线性映照法对样本分类能力较线性映照法强,但其计算量亦较大, 且其二维映照图纵横坐标没有明确的意义。通常在线性模式识别投影结果不理 想的情况下再尝试 NLM 方法。 2.2.4、支持向量机算法(SVM) 统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学 习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决 许多原来难以解决的问题(如神经网络结构选择问题、局部极小点问题等) ;同 14 时,在这一理论基础上发展了一种新的通用学习方法支持向量机(SVM) 2526,包括支持向量分类算法(Support Vector Classi

28、fication, SVC)和支持向量 回归算法(Support Vector Regression, SVR) ,它已初步表现出很多优于已有方 法的性能,能较好地解决小样本、非线性、高维数和局部极小点等实际问题, 因此成为 20 世纪 90 年代末发展最快的研究方向之一。一些学者认为,SLT 和 SVM 正成为继神经网络之后新的研究热点,并将有力地推动机器学习理论和技 术的发展。 第三章:数据处理与分析第三章:数据处理与分析 3.1、原始数据 在得出结论之前,就必须通过实验来得出实验数据。下面的数据是通过一 些样本经过近红外仪器扫描光谱得出的数据。 表 3-1 NIRS 扫描原始数据 文文件

29、件名名类类别别烟烟碱碱X X1 1X X2 2X X3 3X X4 4X X5 5 1 12 21 1. .7 78 80 0. .4 41 17 72 24 4 0 0. .4 41 17 76 63 3 0 0. .4 41 16 69 95 5 0 0. .4 41 16 60 08 8 0 0. .4 41 15 55 52 2 2 22 22 2. .5 51 10 0. .4 41 10 08 86 6 0 0. .4 41 11 14 48 8 0 0. .4 41 11 12 28 8 0 0. .4 41 10 04 41 1 0 0. .4 41 10 00 01 1 3

30、32 22 2. .3 30 0. .4 42 24 49 92 2 0 0. .4 42 24 47 74 4 0 0. .4 42 24 42 26 6 0 0. .4 42 22 29 99 9 0 0. .4 42 22 20 09 9 4 41 11 1. .4 45 50 0. .4 43 33 39 93 3 0 0. .4 43 33 35 57 70 0. .4 43 33 33 30 0. .4 43 32 29 99 90 0. .4 43 32 27 7 5 51 11 1. .2 29 90 0. .3 38 85 57 75 5 0 0. .3 38 85 57 7

31、4 4 0 0. .3 38 86 62 26 6 0 0. .3 38 86 63 35 5 0 0. .3 38 85 59 94 4 6 61 11 1. .4 43 30 0. .4 44 40 04 48 8 0 0. .4 44 40 02 27 7 0 0. .4 44 40 09 97 7 0 0. .4 44 41 13 39 9 0 0. .4 44 40 08 88 8 7 72 21 1. .9 95 50 0. .4 48 83 36 65 5 0 0. .4 48 83 33 35 5 0 0. .4 48 83 36 64 4 0 0. .4 48 83 35 5

32、1 1 0 0. .4 48 82 28 82 2 8 81 11 1. .2 21 10 0. .4 41 18 80 04 4 0 0. .4 41 17 77 71 1 0 0. .4 41 17 74 47 7 0 0. .4 41 17 72 27 7 0 0. .4 41 17 74 44 4 1 10 01 11 1. .3 33 30 0. .4 42 23 34 44 4 0 0. .4 42 23 39 97 70 0. .4 42 23 37 70 0. .4 42 23 31 15 5 0 0. .4 42 22 29 94 4 1 11 11 11 1. .1 18

33、80 0. .4 43 30 07 76 6 0 0. .4 43 30 02 23 3 0 0. .4 42 29 92 25 5 0 0. .4 42 28 82 26 6 0 0. .4 42 27 79 98 8 1 12 21 10 0. .9 96 60 0. .4 41 19 92 24 40 0. .4 41 18 87 70 0. .4 41 18 80 03 30 0. .4 41 17 77 70 0. .4 41 17 77 79 9 1 13 31 11 1. .1 17 70 0. .3 39 95 55 52 2 0 0. .3 39 95 57 77 7 0 0

34、. .3 39 96 60 02 2 0 0. .3 39 95 55 57 70 0. .3 39 94 48 8 1 14 41 11 1. .0 08 80 0. .4 40 01 13 31 1 0 0. .4 40 01 16 67 7 0 0. .4 40 01 18 87 7 0 0. .4 40 01 11 17 7 0 0. .4 40 00 01 14 4 1 15 51 11 1. .2 28 80 0. .4 43 36 62 21 1 0 0. .4 43 36 60 06 6 0 0. .4 43 36 63 39 9 0 0. .4 43 36 63 38 80

35、0. .4 43 36 6 1 16 62 21 1. .8 87 70 0. .4 41 16 62 22 2 0 0. .4 41 17 73 36 6 0 0. .4 41 18 80 09 9 0 0. .4 41 17 75 56 6 0 0. .4 41 16 64 42 2 从表中可以发现,每个样本的图像都可以看作有很多个数据点构成,约为 1500 至 2000 个数据点。数量如此庞大的数据点在数据分析和比较都比较困难, 因此必须通过一些降维方法,将上千个数据点通过降维,减少到 1520 个数据 15 点,这样,这些数据点既囊括了所有上千个数据点的信息,同时也易于对数据 进行分析

36、。 首先我们对这组原始数据采取三种不同的降维方法进行建模,主成分分析 法降维,偏最小二乘法降维,以及球型映照法进行降维。进行建模后的数据计 算出每个样品的计算值与实验值的绝对误差和相对误差,然后对此进行分析与 比较。然后我们采取的是“留一法(Leave One Out, LOO)27”方法进行数据分析。 留一法,简单地说,就是在一组样品中取出一件,然后将剩余的样品进行建模, 分析,然后得出一个预报结果。将这个预报结果与先前取出的样品进行比较, 计算出绝对误差和相对误差的方法进行分析。这样,对样品中的每件样本进行 留一法计算,得出一个平均的相对误差。往往留一法得出的结果比建模得出的 结果更具有代

37、表性。接下来,我们在对建模结果进行预报,即取出 5 个其他未 知样品,对其烟碱量进行预报,将未知样品的预报值和计算值进行比较,得出 误差结果。通过这个误差结果,对数据进行分析。最后,将 PCA、PLS、MAP 三种降维方法的数据通过 SVM 算法进行定量建模得出一个相对误差,通过这 个相对误差,最后分析得出三种降维方法的优缺点。 3.2、烟碱数据建模与预报 烟碱(Nicotine)28,俗名尼古丁,是一种存在于茄科植物(茄属)中的生 物碱,也是烟草的重要成分。尼古丁会使人上瘾或产生依赖性(最难戒除的毒 瘾之一),人们通常难以克制自己,重复使用尼古丁也增加心脏速度和升高血 压并降低食欲。 16

38、3.2.1、烟碱 PCA 降维 3.2.1.1、烟碱 PCA 降维法建模 图 3-1:烟碱 PCA 降维法建模结果 从图中可以发现,大多数样本的建模数据的误差都是比较小的,基本都控 制在 3%以内。而且误差的波动也比较小,因此初步得出用 PLS 建模法适合对 烟草烟碱的测定与预报。 通过建模结果的图像可以基本得出,所有的数据点都几乎在这条直线上, 也就是说,回归结果较好,比较适宜用 PCA 降维法进行建模。 17 3.2.1.2、烟碱 PCA 降维法留一法结果 图 3-2:烟碱 PCA 降维法留一法结果 PCA 留一法得出的误差打大多都在 10%左右,与之前的建模结果相比,已 经偏离了很多。而

39、且有些数据的误差居然能相差到 60%以上,说明误差的波动 也很大。 同样,可以从途中发现,与之前的建模结果相比,PCA 降维法的留一法得 出的数据点就偏离了直线,而且很明显,也很分散。因此,在烟草烟碱量的测 定中,PCA 降维法可能并不是一种很理想的降维方法。 3.2.1.3、烟碱 PCA 降维法预报结果 表 3-2:烟碱 PCA 降维法预报结果 文文件件名名类类别别实实验验值值预预报报值值绝绝对对误误差差相相对对误误差差 9 91 11 1. .3 39 91 1. .0 06 66 60 0- -0 0. .3 32 24 40 00 0. .2 23 33 31 1 1 18 81 11

40、 1. .4 41 1. .7 70 03 39 90 0. .3 30 03 39 90 0. .2 21 17 71 1 2 21 12 22 2. .2 27 72 2. .2 27 75 57 70 0. .0 00 05 57 70 0. .0 00 02 25 5 4 44 41 11 1. .3 33 31 1. .1 19 93 30 0- -0 0. .1 13 37 70 00 0. .1 10 03 30 0 4 45 51 11 1. .3 33 31 1. .3 37 76 67 70 0. .0 04 46 67 70 0. .0 03 35 51 1 18 由图可

41、见,PCA 降维法的预报结果的相对误差波动范围比较大,从 1%以 下到 20%以上都有,也就是说,烟碱 PCA 降维的预报结果比较不稳定,可能有 好的预报结果,也会有较大误差的预报结果,总的来说预报结果不是很理想。 3.2.1.4、烟碱 PCA 降维法小结 从烟碱 PCA 降维法的建模、留一法、预报三个方面综合考虑,虽然在 PCA 降维法在建模方面有着不错的结果,但是在更为重要的留一法以及预报这 两个关键的方面,无论从误差的大小以及误差的波动性来看,都表现地并不怎 么理想。因此综上所述,PCA 降维法并不太适用于烟草烟碱的测定。 3.2.2、烟碱 PLS 降维 3.2.2.1、烟碱 PLS 降

42、维法建模 图 3-3:烟碱 PLS 降维法建模结果 根据上图的数据,发现 PCA 降维法的误差一般较大,都是百分之几十的误 差。因此可以从下图中看到大多数数据点偏离直线较远。 从烟碱 PLS 建模结果的图像可以直观得看出,PLS 建模的数据离直线 y=x 有一定的偏离,当值比较小的时候,往往实验值要小于预报值,当值比较大的 时候,基本上实验值和预报值之间的差距会越来越小,甚至实验值会大于预报 值。因此,PLS 的降维方法看上去没有 PCA 建模法的结果那么出色。但是只要 随着实验次数的增多,发现还是有规律可循。 19 3.2.2.2、烟碱 PLS 降维法留一法结果 图 3-4:烟碱 PLS 降

43、维法留一法结果 从烟碱 PLS 降维法的留一法结果可以看出,误差一般控制在 10%以下,只 有极个别的误差打到 20%。也就是说,烟碱 PLS 降维法在留一法方面的表现比 较不错。相对于之前的 PCA 降维的留一法结果,可以明显地表现出 PLS 降维 法优点,虽然 PLS 在建模上的结果没有 PCA 理想,但是在留一法的结果却明 显优于 PCA 降维方法。 从图中可以看出,PLS 留一法的数据点与之前的 PCA 进行比较,显然 PLS 降维法的数据点比较密集与集中,误差也相对较小。 3.2.2.3、烟碱 PLS 降维法预报结果 表 3-3:烟碱 PLS 降维法预报结果 文文件件名名类类别别实实

44、验验值值预预报报值值绝绝对对误误差差相相对对误误差差 9 91 11 1. .3 39 91 1. .3 31 11 11 1- -0 0. .0 07 78 89 90 0. .0 05 56 68 8 1 18 81 11 1. .4 41 1. .5 50 04 41 10 0. .1 10 04 41 10 0. .0 07 74 44 4 2 21 12 22 2. .2 27 72 2. .2 23 34 48 8- -0 0. .0 03 35 52 20 0. .0 01 15 55 5 4 44 41 11 1. .3 33 31 1. .4 41 11 12 20 0. .

45、0 08 81 12 20 0. .0 06 61 10 0 4 45 51 11 1. .3 33 31 1. .5 52 20 02 20 0. .1 19 90 02 20 0. .1 14 43 30 0 烟碱 PLS 的预报结果一般都小于 10%,波动范围比较小,因此,PLS 方法 的预报结果是比较准确的,如果有更加理想化的建模结果的话,或许 PLS 降维 法的预报结果更为准确。 20 3.2.2.4、烟碱 PLS 降维法小结 综合地说,对烟碱进行 PLS 降维法,其建模结果的数据图像的数据点,与 之前的 PCA 方法相比,显然误差增加了好多,因此从建模图像和留一法图像与 PCA 方

46、法进行比较的话,或许 PLS 降维法略显欠佳。但是 PLS 的留一法结果 以及预报结果却比 PCA 方法精确,波动也比较小。也就是说,如果 PLS 的建 模结果如果能够再精确些的话,PLS 方法就能显得更好。 3.2.3、烟碱球型映照降维 3.2.3.1、烟碱球型映照降维法建模 图 3-5:烟碱球型映照降维法建模结果 看烟碱 MAP 降维法建模图,感觉就是比较松散,其中有不少的数据还是 离直线 y=x 非常接近的,当然,也有少数数据偏离度还是比较大的。因此 MAP 降维方法适合大批量的数据进行建模,对于数量不多的数据进行建模分析,由 于 MAP 建模得出的数据比较松散,则会出现数据越少,误差越

47、大。 3.2.3.2、烟碱球型映照降维法留一法结果 21 图 3-6:烟碱球型映照降维法留一法结果 烟碱 MAP 降维法得出的结果和建模结果类似,图像上的点略显松散。 3.2.3.3、烟碱球型映照降维法预报结果 表 3-4:烟碱球型映照降维法预报结果 MAP 降维法得出的预报结果也是属于波动比较大的,最大的高达 25%的误 差,因此用 MAP 降维法进行预报得出的结果的真实度也远远小于之前的 PLS 的建模法。 3.2.3.4、烟碱球型映照降维法小结 MAP 在建模和留一法上得出的结果远远不如 PCA 降维方法,因此用 MAP 方法建模并不理想。MAP 的预报结果页不如 PLS 的降维方法,因

48、此应 MAP 方 法也不适合预报,因此,MAP 降维方法在本次实验中并不适用。 3.3、结论与小结 通过 PCA、PLS、MAP 三种不同的降维法进行建模,都从中得出了不同的优 缺点。接下来再将三种不同的降维方法的建模、留一法和预报结构进行 SVM 径 22 向法得出一个相对误差,通过这个相对误差再结合前面的分析来得出最佳降维 方法。 表 3-5:三种降维方法的建模、留一法、预报误差的 svm 径向误差 建建模模误误差差 留留一一法法误误差差 预预报报误误差差 P PC CA As sv vm m径径向向0 0. .0 02 25 54 42 27 7 0 0. .2 21 14 43 32

49、26 6 0 0. .1 11 18 81 15 59 9 P PL LS Ss sv vm m径径向向0 0. .0 02 23 37 75 52 2 0 0. .0 05 52 27 70 04 40 0. .0 07 70 01 13 3 M MA AP Ps sv vm m径径向向0 0. .1 14 42 27 78 82 2 0 0. .2 20 02 22 22 23 3 0 0. .1 12 28 82 20 02 2 通过 PCA、PLS 以及 MAP 三种不同的降维降维方法,以及通过建模误差、 留一法误差以及预报误差三个方面在综合权衡,可以显然得出 PLS 降维方法(偏 最

50、小二乘法)是最理想的降维方法。 判断一个降维方法是否为好的方法,主要从这个方法的留一法误差以及预 报误差来体现。因为留一法误差是相当与将自己作为未知样本进行核对,而预 报误差是对其他未样本进行数据的预测。如果在这两个方面都能得出理想的结 论的话,该降维方法就是理想的降维方法。 因此通过上表,无论是留一法误差或者是预报误差而言,PLS 的误差结果 明显要小于其他两种方法所出现的误差,因此综上所述,PLS 降维方法是在烟 草烟碱量测定中,可以作为一种实用的降维方法。 23 第四章:烟草产地的模式识别研究第四章:烟草产地的模式识别研究 4.1、概论 近红外光谱分析方法具有众多优点,包括检测速度快、工

51、作效率高、费用 成本低、测试重现性好、测量方便等等,已经被越来越多领域普遍使用。据理 论推断,近红外技术可以进行研究和检测一般卷烟烟叶中高达 80%至 90%以上 的化学成分,其中所包含的烟草化学成分的关联信息通过近红外光谱表现得非 常丰富,由于对烟叶通过近红外信息进行聚类分析和模式识别具有可靠的物质 基础,因此使用近红外信息来对烟叶质量的定性及定量进行研究,将会有更加 广阔的应用前景。 到现在为止,国内烟草行业对近红外光谱技术以及其应用已经有了非常深 入的研究,本章节将通过近红外光谱技术,对国产的几种烟叶产地来进行模式 识别研究72930。 可视化技术3132,指的是通过计算机图形学以及图像

52、处理技术,将数据转 换为图形或图像信息在电子屏幕上显示,同时并进行交互处理的理论、方法与 技术。可视化技术涉及到计算机图形学、计算机辅助设计、图像处理、计算机 视觉以及人机交互技术等多方面领域。 本章节对烟草产地的进行模式识别研究,通过近红外光谱技术,不但可以 对不同产地的烟草进行很好地区分,同时,利用可视化技术可以直接展现出结 果,更好地帮助了近红外技术的深入研究。 4.2、材料准备与实验方法 4.2.1、实验仪器 BRUKERVECTOR22/N 傅立叶近红外变换光谱仪; BRUKERMPA 傅立叶近红外变换光谱仪; Antaris 傅立叶近红外变换光谱仪。 24 4.2.2、烟草样本 这

53、次进行检测的样本包括福建 15 个样本、贵州 23 个样本,河南 6 个样本, 共有 44 个烟草样本。在对烟草样本的数据分析过程中,得到的模型不仅要求有 好的建模结果,而且预备结果也要较理想。故“检验集”需要在这些样本中分 别在 3 个不同产地的烟草样本各随机抽取一个组成,而“建模集”即为剩余的 41 个样本。 4.2.3、光谱采集 烟草样本粉碎后直接进行近红外光谱采集。采用漫反射吸收光谱法。扫描 范围为 3800cm-1至 10000 cm-1之间,分辨率约 3cm-1 左右,平均扫描 60 次。 300060009000 0.2 0.4 0.6 0.8 absorbance wavenumber 1/cm 图 4-1:烟草样本近红外扫描谱 4.2.4、光谱处理 对烟叶样本的近红外光谱曲线求一阶导数后进行光滑处理,采用主成分分 析法进行特征抽提,取前 16 个主成分作为变量。本实验利用主成分分析法 (PCA)对烟草产地进行模式识别研究。 25 4.3、预报结果 4.3.1、建模结果 利用 PCA 方法对这建模集的 41 个样本进行分类,结果如下: 图 4-2:烟草产地的模式识别图 (注:1 类代表福建,2 类代表贵州,3 类代表河南,下同) 由图可见:三个不同产地的烟草样本在图中分布在不同的区域,不同产地 的样本聚集在不同的区域。 4.3.2、预报结果 利用检验集的 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论