基于光电信息的产品地理标识鉴别研究.doc_第1页
基于光电信息的产品地理标识鉴别研究.doc_第2页
基于光电信息的产品地理标识鉴别研究.doc_第3页
基于光电信息的产品地理标识鉴别研究.doc_第4页
基于光电信息的产品地理标识鉴别研究.doc_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于光电信息的产品地理标识鉴别研究专 业:2008测控-1 学 号:学生姓名:赖 指导教师:郝勇摘要地理标志作为一类新型的知识产权,已得到越来越多的重视。地理标识又称原产地标记,是标记于商品或服务之上,标明与该商品质量、商誉,有密切联系的来源地的国家、地区或地方的名称。地理标识产品是具有一定特色和品质的商品,该产品特色得到了消费者的认可,故具有品牌效应。在市场经济中,就可能有他人假冒该地理标志产品以求高额利益。目前,传统地理标识检测主要以化学方法为主,往往需要多种化学仪器和试剂,样品需要预处理、操作繁琐和耗时费力。近红外光谱检测技术因其快速和无损等优点,在产品地理标识检测中得到越来越广泛的应用。近红外光谱技术是指利用近红外光谱包含的丰富的物质信息实现有机物或部分无机物的定性和定量分析的一种分析方法。本文以不同品牌的食醋为研究对象,结合近红外光谱分析技术,探讨聚类分析(包括系统聚类分析和K-均值(K-means)聚类分析)、主成分分析(包括二维主成分分析和三维主成分分析),Fisher线性分类法,K最邻近法,偏最小二乘判别分析法(PLSDA)等模式识别方法在食醋品牌鉴别中的应用。并比较了这些方法的优缺点,实现食醋品牌的最优鉴别。关键词:近红外光谱;地理标识;食醋品牌;聚类分析;主成分分析;Fisher线性分类;K最邻近法;PLSDAProducts identification of geographical indications based on the photoelectric informationAbstractGeographical indications has been paid more and more attention to as a new type of intellectual property rights. Geographical indications, also known as the origin of marker, is marked with the goods or services, and marked with the product quality and good will, or marked with the source of national, regional or local name. Geographical indications for products with certain characteristics and quality of goods, has been recognized by consumers, with its product features and brand. In a market economy, it is possible to be fake the geographical indication products in order to achieve high interests. At present, the traditional geographical indications detected by chemical methods often requires a variety of chemical apparatus and reagents, and the sample should be pretreated with tedious and time-consuming. Near infrared spectroscopy detection technique (NIRS) with its rapid and nondestructive and other advantages, is more and more widely used in the detection of geographical indications of products. Near infrared spectroscopy technique is a method of analysis using near-infrared spectrum contained with a wealth of material information for the qualitative and quantitative analysis of organic matter or part of the inorganic matter.In this study, near-infrared spectroscopy was applied to non-destructive and rapid brand identification of different bands of vinegar, with investigating part of the pattern recognition methods including the cluster analysis (including hierarchical cluster analysis and K-means cluster analysis), the principal component analysis (including the two-dimensional principal component analysis and three-dimensional principal component analysis), Fisher linear classification, K nearest neighbor method, and Partial least squares discriminant analysis (PLSDA). I have compared the advantages and disadvantages of these methods to achieve the optimal identification of the brand of vinegar.Key words: near infrared spectroscopy; geographical indications; vinegar brand; cluster analysis; principal component analysis; Fisher linear classification; K nearest neighbor method; PLSDA目录摘要1Abstract2第一章绪论31.1水果成熟度检测的目的与意义31.2水果成熟度主要检测方法及应用现状31.3近红外光谱分析技术简介31.3.1近红外光谱分析技术的发展历程31.3.2 近红外光谱分析技术的特点31.4本论文的主要工作3第二章近红外光谱分析技术概述32.1 近红外光谱原理32.2 近红外光谱的采集方法32.3 近红外光谱定量分析的基本步骤32.3.1 选择有代表性的样品32.3.2 测量样本的近红外光谱32.3.3 选择适当的方法对原始光谱进行预处理32.3.4采用标准或认可的参考方法测定样本的基础数据32.3.5建立数学校正模型32.3.6 评定校正模型32.3.7 测定未知样本的组成或性质32.4化学计量学算法32.5 相关软件使用介绍3第三章实验部分33.1样品的准备33.2 近红外光谱的采集33.3 偏最小二乘回归模型的建立33.4 对建模变量筛选方法的选择33.4.1 UVE-PLS原理与算法33.4.2 MC-UVE方法33.4.3 WT-MC-UVE方法3第四章 结果与讨论34.1 偏最小二乘回归模型主成分的选择34.2基于基于MC-UVE PLS方法模型的变量选择34.3基于WT-MC-UVE PLS方法模型的变量选择34.4 PLS、MC-UVE PLS和WT-MC-UVE PLS方法预测结果比较3第四章 结论3致谢信3参考文献3附录A(常规PLS程序)3附录B(MC-UVE PLS程序)3附录C(WT-MC-UVE-PLS程序)3附录D(外文文献及翻译)3第一章 绪论1.1 产品地理标识鉴别的目的与意义地理标识又称原产地标记,是标记于商品或服务之上,标明与该商品质量、商誉有密切联系的来源地的国家、地区或地方的名称1。地理标识作为一类新型的知识产权,已得到越来越多的重视。我国农业地理标识产品资源非常丰富,且大多发展成为当地的支柱产业地理标识产品多是有一定特色的商品,该产品特色得到了消费者的认可,故相比同类其他产品,地理标识产品的价格要高,甚至高出许多,具有品牌效益1。在市场经济中,就可能有他人假冒该地理标识产品以求高额利益。这种假冒行为,一方面损害了地理标识产品生产者、经营者的利益,另一方面也损害了广大消费者的利益,给正常正当的市场竞争带来了混乱,因此,研究产品地理标识及品牌的鉴别,对推进地理标识的制度建设和保护品牌效应具有重要意义。1.2 产品地理标识主要鉴别方法及应用现状传统地理标识鉴别主要以化学方法为主,往往需要多种化学仪器和试剂,样品需要预处理、操作繁琐和耗时费力。传统化学方法在鉴别过程中大多要破坏原有产品的组织,均属于有损检测2,且无法大规模地逐个检测,不适合现代产品鉴别。鉴于此,无损检测应运而生。无损检测又称非破坏检测,是一种在不破坏被检对象的前提下,利用产品的物理性质对其进行鉴别、检测的方法,是近年来新兴起的一种检测产品品质的高科技手段,既可以鉴别产品,又不会对产品造成伤害,保证了产品的完整性,是一种十分有效的方法。目前对产品进行无损检测所利用的主要技术有:针对产品的光学特性、电学特性、声学特性、力学冲击振动特性、化学特性、机器视觉特性等众多性质进行的各种检测。可预计,未来鉴别、检测的技术发展方向会沿着无损、快速、准确、实时的方向发展2。1.3 近红外光谱分析技术简介1.3.1近红外光谱分析技术的发展历程 近红外光谱技术(NIRS)是一种高效快速的现代分析技术,它综合运用了计算机技术、光谱技术和化学计量学等多个学科的最新研究成果,以其独特的优势在多个领域得到了日益广泛的应用。并已逐渐得到大众的普遍接受和官方的认可。 近红外区域按美国材料检测协会(American Soeiety for Testing and Materials,ASTM)定义是指波长在7802526nm范围内的电磁波,是人们最早发现的非可见光区域。由于缺乏仪器基础,20世纪50年代以前,近红外光谱的研究只限于为数不多的几个实验室中,且没有得到实际应用。直到50年代中后期,随着简易型近红外光谱仪器的出现及Norris等在近红外光谱漫反射技术上所做的大量工作,掀起了近红外光谱应用的一个小高潮,近红外光谱在测定农副产品的品质方面得到广泛应用。到60年代中后期,随着(中)红外光谱技术的发展及其在化合物结构表征中所起的巨大作用,使人们淡漠了近红外光谱在分析测试中的应用。在此后约20年的时间里,除在农副产品领域的传统应用之外,近红外光谱技术几乎处于徘徊不前的状态。80年代后期,随着计算机技术的迅速发展,带动了分析仪器的数字化和化学计量学的发展,通过化学计量学方法在解决光谱信息提取和背景干扰方面取得的良好效果,加之近红外光谱在测样技术上所独有的特点,使人们重新认识了近红外光谱的价值,近红外光谱在各领域中的应用研究陆续展开。进入90年代,近红外光谱在工业领域中的应用全面展开,有关近红外光谱的研究及应用文献几乎呈指数增长,成为发展最快、最引人注目的一门独立的分析技术。由于近红外光在常规光纤中具有良好的传输特性,使近红外光谱在在线分析领域也得到了很好的应用,并取得良好的社会效益和经济效益,从此近红外光谱技术进入一个快速发展的新时期3。1.3.2近红外光谱分析技术的组成及特点近红外光谱分析方法由三个因素组成,一是准确、稳定地测定样品地吸收或漫反射光谱谱图地硬件技术(即光谱仪器),这一硬件技术的主要要求就是必须保持长时间地稳定性;另一个是利用多元校正方法计算测定结果的软件技术;最后是针对分析任务建立地校正模型。近红外光谱技术之所以能在短短的10多年内,在众多领域得到应用,进而在数据处理及仪器制造方面有如此迅速的发展,主要因为它在分析测定中有以下独特的优越性3。(1)可以用于样品的定性,也可以得到准确度很高的定量结果。(2)分析速度快、产出多。(3)不破坏样品、不用试剂、不污染环境。(4)投资少,操作技术要求低。(5)光导纤维的应用使近红外光谱分析技术扩展到了过程分析及有毒材料或恶性环境的远程分析,同时也使光谱仪的设计更小型化。当然,伴随着以上优点,近红外光谱分析技术也存在着以下的局限性3:(1)近红外光谱分析必须用相似的样品先建立一个稳健的模型才能快速得到分析结果,而模型的建立需要投入一定的人力、财力和时间。对于经常性的质量控制是十分经济且快速,但并不适用于偶然做一次的分析工作。(2)物质一般在近红外区的吸收系数较小,因此其检测限长在10010-6,对痕量分析并不适用。为了克服以上的局限性,需要深入进行研究工作。1.4 本论文的主要工作近红外光谱(NIRS)法以其快速、简便、无损等特点,在品牌鉴别方面有着独特的优势。但是近红外光谱产生于分子振动,吸收较弱,吸收峰严重重叠,且多组分复杂样品的近红外光谱往往不是各组分光谱的简单叠加。因此,近红外光谱分析法是一种间接分析技术,必须借助化学计量学方法才能进行定性分析。目前,对品牌的鉴别主要是对样品进行近红外光谱试验,结合近红外光谱数据,利用软件进行预处理和后续的模式识别以鉴别不同的品牌。随着人民生活水平的提高和食品工业的迅速发展,调味品的生产和市场出现了空前的繁荣和兴旺,食醋是其中的重要一员。食醋中除了含有醋酸以外,还含有对身体有益的其它一些营养成分,如乳酸、葡萄糖酸、琥珀酸、氨基酸、糖、钙、磷、铁、维生素B2等等。食醋因其营养成分独特已从单纯的调味品逐渐转为食疗的著名食品之一。食醋有一定消除疲劳的作用,醋中所含的丰富有机酸,可以促进人体内糖的代谢并使肌肉中的疲劳物质乳酸和丙酮等被分解,从而消除疲劳。而且食醋有一定抗衰老作用,醋可以抑制和降低人体衰老过程中氧化物的形成。所以食醋是食用品质好,营养价值高的一种优良食品。目前国内市场上的食醋品牌众多,但食醋因醋品种不同、产地不同、原料不同以及发酵工艺等不同,使得各品牌的食醋质量、营养、价格等差异比较大,且各品牌芝麻油在外观上几乎没有差别,消费者难以从颜色、味道上加以鉴别区分。近红外光谱具有分析速度快、分析成本低、操作简单、非破坏性、无污染等特点,因此,本论文以不同品牌的食醋为研究对象(包括恒顺牌食醋和其他品牌食醋),结合近红外光谱分析技术,探讨聚类分析(包括系统聚类分析和K-means聚类分析)、主成分分析(包括二维主成分分析和三维主成分分析)、Fisher线性分类、K最邻近法、偏最小二乘判别分析法(PLSDA)在食醋品牌鉴别中的应用。并比较了这些方法的优缺点,实现食醋品牌的最优鉴别。第二章 样品、近红外光谱采集及定性分析过程2.1样品采集采样是分析鉴定的第一步,正确、科学的采样方法是取得可靠性分析结果的前提。在从商场购买的279个食醋样品中,恒顺食醋的采集具有代表性和广泛性,这样有利于更好地鉴别它。样品中恒顺醋有249份,而其他品牌醋(包括天津醋和山西醋)有30份。2.2近红外光谱分析原理及近红外光谱仪简介2.2.1近红外光谱分析原理简介近红外光是电磁波,具有光的属性,即同时具有“波”及“粒”的二重性,因此,对光的能量可以用光子表示。量子力学理论认为,光子能量为:E=hv(其中h为普郎克常数,v为光的频率),近红外的光子能量同样可以用上述公式定量描述。从光源发出的红外光照射到由一种或多种分子组成的物质上,如果分子没有产生吸收,则光穿过样品,该物质分子为非近红外活性分子;否则,为近红外活性分子。只有近红外活性分子中的键才能与近红外光子发生作用,才产生近红外吸收光谱。分子在近红外光谱区内的吸收产生于分子振动或转动的状态变化或者分子振动或转动状态在不同能级间的跃迁,能量跃迁包括基频跃迁(对应于分子振动状态在相邻振动能级间跃迁)、倍频跃迁(对应于分子振动状态在相隔一个或几个振动能级之间的跃迁)和合频跃迁(对应于分子两种振动状态的能级同时发生跃迁)4。所有近红外光谱的吸收谱带都是中红外吸收基频(16004000cm-1)的倍频及合频。近红外的波数在4000cm-1以上,所以只有振动频率在2000cm-1以上的基频振动才可能在近红外谱区范围内产生一级倍频吸收,而能满足这一条件的官能团的主要是含氢官能团,因此近红外光谱主要是含 C-H、N-H、S-H和 O-H等键基团的化合物在中红外区域基频振动的倍频吸收及组合频吸收含氢基团的有机化合物以及与其结合的无机物样品中,各基团的运动都有它固定的振动频率。当红外线照射分子时,分子被激发后会产生共振,同时吸收一部分光能,通过对其吸收光的测量,便可以得到极为复杂的用以表示被测物质的特征性图谱。不同物质在近红外区的吸收光谱各不相同,物质中每种成分也都有其特定的吸收特征,并且随着成分含量的变化,其近红外光谱特征也将随之发生变化4。近红外光谱分析技术主要包括透射光谱技术和反射光谱技术两大类5。本实验采用透射技术,它是将待测样品置于检测器与光源之间,检测器能够检测到的是透过光或与样品分子相互作用后的光,由于检测光装载着有关样品结构与组成的信息,因而根据透射光与入射光的比例关系便可以获得物质在近红外区的吸收光谱。食醋是透明的溶液,则分析光在食醋样品中经过的路程一定时,食醋样品组分浓度与透射光强度之间的关系符合 Beer 定律6:,式中 A为吸光度;B为消光系数;c为浓度。当有多个光学变量和多个浓度变数,可以矩阵等式表示:,式中是光谱矩阵,表示被测样品在选定波长处的吸光度;是列向量,表示样本的性质或组分的浓度;则为校正系数。这些都为近红外光谱定性分析提供了理论基础。2.2.2近红外光谱仪简介本实验采用由德国布鲁克光谱仪器公司(BRUKER OPTICS)Tensor 37型红外光谱仪(FT-IR),它的详细参数指标如下:谱区范围(近红外):15,500-4,000cm-1;分辨率:0.30.6cm-1,波数精度:优于0.01cm-1,吸收精度:优于0.1%T,信/噪比:高于40,000:1(峰峰值)(测试条件:DLaTGS 高灵敏度检测器,4cm-1分辨率,1 分钟背景及样品扫描时间,2100-2200cm-1);专利ROCKSOLID干涉仪(光学补偿、光路永久准直;无机械补偿装置,高稳定;无磨损,长寿命);检测器采用DigiTech专利技术,全数字化设计、集成24位A/D转换器、数字信号输出、数字补偿;集成快速傅立叶变换,保证干涉仪每次扫描实时得到一张光谱图;电子式湿度指示、报警装置,真空式密封,可重复使用干燥系统;内置附件支持全线测量附件,如:各种ATR、漫反射、镜反射等各种原位反应装置、变温装置等其他测量附件;内置联机附件有内置式显微镜、内置式TG-IR联用、内置式在线探头、积分球、自动进样装置等;外置联机附件有GC-IR联用(集成快速傅立叶变换,满足GC-IR联用要求)显微镜、TG、VCD、在线探头、积分球、自动进样装置等;抗震性能优,免维护。2.3试验采集近红外光谱2.3.1试验部分先将279个样品编号,保持试验环境的稳定,2.3.2采集的近红外光谱结果试验收集了279个样品的各2411个光谱数据点,光谱采集范围:780 2500 nm,将数据整理成便于后续分析处理的2792411吸光度矩阵spectra,同时也整理成了24111波长长度矩阵wave。2.4近红外定性分析过程近红外定性分析是用已知类别的样品建立近红外定性模型,然后用该模型考察未知样品是否是该类物质7。近红外定性分析的主要过程是:(1) 采集已知类别样品的光谱。(2) 用一定的数学方法处理上述光谱,生成定性判据。(3) 用该定性判据判断未知样品属于哪类物质。从上述过程可以看出,近红外定性分析依赖于光谱的重复性,包括吸光度和波长的重复性。近红外定性分析的基本原理是:近红外光谱或其压缩的变量(如主成分)组成一个多维的变量空间;同类物质在该多维空间位于相近的位置;未知样品的分析过程就是考察其光谱是否位于某类物质所在空间。近红外定性分析常常遇到的问题是:在多维变量空间中,不同类样品不能完全分开(说明不同类样品的谱图差别不大);训练时不同类型样品的变化没有足够的代表性(说明校正集样品的数目或变化范围不够);不能检测微量物质。为了避免上述问题的影响,近红外定性分析分为三步8:(1) 训练过程。采集已知样品的光谱,然后用一定数学方法识别不同类型的物质。(2) 验证过程。用不在校正集中的样品考察模型能否正确识别样品类型。(3) 使用阶段。采集未知样品的光谱,将它与已知样品的光谱进行比较,判断其属于哪类物质。另外,如果未知样品和模型中的所有物质都不相似,模型也能给出这方面的信息。在近红外定性分析中要注意未知样品的测定和处理过程必须与校正集样品完全相同,包括液体样品是否使用溶液,光程必须一致,固体样品研磨方式、颗粒度等都必须一致等。第三章 建模与试验结果分析3.1后续数据处理、建模用软件MATLAB介绍MATLAB是 Mathworks公司开发的一种主要用于数值计算及可视化图像处理的新一代高级计算语言9。其将数值分析、矩阵计算、图形、图像处理和仿真等诸多功能集成在一个极易使用的交互式环境之中,为科学研究、工程设计及数据处理和数值计算提供了一种高效率的编程工具。在这种编程环境下,任何复杂的计算问题及其解得描述均符合人们的科学思维方式和数学表达习惯。由于近红外光谱分析常采用多元校正方法,这种方法的实现往往比较复杂,其数据对象通常是矩阵和向量,具体计算涉及到矩阵的乘积、转置、求逆等。这些计算一般需要编写或查找相应得Fortran、Basic和C等高级语言的程序包,通过编制应用程序,输入数据,然后经计算机处理而得到结果10。这种做法要求实验人员掌握传统的计算语言,并具有一定的编程能力,而且程序调适过程费时、费力。而MATLAB在解决上述问题中具有明显的优越性。本文所讨论的研究方法在软件的使用方面主要是基于 MATLAB在近红外光谱中的应用。3.2建立样品吸光度光谱图图1利用MATLAB软件建立以波长长度为横坐标,吸光度为纵坐标的食醋近红外光谱图形(如图1)。3.3聚类模型的建立和分析3.3.1聚类分析简介在对样品进行模式识别的许多实际问题中,事先往往对数据的内在分类是一无所知的,无监督模式识别方法由于无需已知类别的训练样品即可对数据进行分类识别而适合处理这类问题。聚类分析是无监督模式识别法的代表,其主要思路就是利用同类样品彼此相似,即常说的“物以类聚”,相似的样品在多维空间中彼此的距离应小些,而不相似的样品在多维空间中彼此的距离应大些。聚类分析即为如何使相似的样品“聚”在一起,从而达到分类的目的11。聚类分析的重要组件为样品间距离、类间的距离、并类的方式和聚类数目的判定。其中首要解决的问题是什么叫两个样品相似。定义样品间的亲疏程度通常是以距离为衡量。它们将每一个样品看成是n维空间(n个变量)的一个点,在这n维空间中距离多用欧式(Eucidian)距离或马氏(Mahalanobis)距离来表示11。(1)欧式距离:(2)马氏距离:式中 xi、xj分别为第i个样品和第j个样品的行向量;V-1为协方差矩阵的逆矩阵,其元素用vij表示为:(3)近红外光谱定性分析常用聚类方法有系统聚类法和K-means聚类法。3.3.2系统聚类分析在进行系统聚类分析之前需要对近红外光谱进行预处理,因为近红外光谱往往包含一些与待测样品性质无关的因素带来的干扰,如样品的状态、光的散射、杂散光及仪器响应等的影响,导致了近红外光谱的基线漂移和光谱的不重复。因此对原始光谱进行预处理是非常必要的,光谱预处理方法主要包括平滑、扣减、微分、归一化、标准化、多元散射校正和分段多元散射校正等。由于实验条件得到了很好的控制,在比较了各种预处理方法后,归一化处理显得简单而准确率较高,故采用归一化进行预处理12。归一化处理的目的是使数据集中各数据向量具有相同的长度,一般为单位长度。于是(4)(5)这里,归一化处理能有效地去除由于量测值大小不同所导致的数据集的方差。系统聚类分析,又称谱系聚类法,在聚类分析中应用最为广泛13。系统聚类法采用非迭代分级聚类策略,其基本思想是:先认为每个样品都自成一类,然后规定类与类之间的距离。开始,因为每个样品自成一类,类与类之间的距离是等价的,选择距离最小的两类合并成一类,计算新类与其他类的距离,再将距离最小的两类合并成一类,这样每次减少一类,直至所有的样本都成为一类为止。根据样品的合并过程,能够得到系统聚类分析的谱系图,它能够详细展现从所有样本点自成一类到总体归为一类之间所有的中间情况,由粗到细地反映了所有样品的分类情况,再根据一定的原则选取合适的分类阀值确定最终分类结果。(其中分类一包含少部分其他品牌醋和大部分恒顺醋,其余为分类二,包含有大部分其他品牌的醋和少部分恒顺醋)图2 食醋系统聚类分类图分类二分类一分类一在系统聚类法中,类与类之间的距离定义有许多种,因此,也使系统聚类法按类间距离的定义分为多种不同类型的方法,计有:最短距离法,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法和方差平方和法等8种。采用不同的类间距离计算方法,其结果不完全一样,有时会得到不同的聚类结果。在对光谱的聚类中,通过选择不同的距离来聚类对比,应用最短距离法得到了相对清晰的结果,但不能完全把恒顺醋和其他品牌醋分开,不能达到分别不同食醋品牌的目的,所以系统聚类法有一定的局限性。利用MATLAB对光谱进行聚类分析:如图2为30个节点系统聚类图,图3为279个节点系统聚类图。(图中显示了所有样品,结果与图2同,在底部样品标号有重叠)图3 食醋系统聚类分类图分类一分类一分类二3.3.3 K-means聚类分析在进行K-means聚类分析之前与系统聚类类似,先进行归一化预处理,紧接着利用MATLAB对样品进行划分,划分的方法是Kennard stone法。Kennard stone算法简单地描述就是:假设有一矩阵,行为样本,列为样本的参数,Kennard stone算法就是要从中选择预定数目的样品。(1) 首先计算两两样本之间距离,选择距离最大的两个样品。(2) 然后分别计算剩余的样本与已选择的两个样本之间的距离。(3) 对于每个剩余样本而言, 其与已选样品之间的最短距离被选择, 然后选择这些最短距离中相对最长的距离所对应的样本, 作为第三个样品。(4) 重复步骤(3) , 直至所选的样品的个数等于事先确定的数目为止,在本样品划分中采用样品总数的2/3,即186份作为一组,剩下93份作为另一组。Kennard stone划分法能使得两组的特征相似,两组都含有恒顺食醋的光谱和其他品牌的食醋的光谱,进而可以相互验证分析方法的可能性。因此,分别对两组进行K-means聚类分析。K-means聚类法是动态聚类分析方法的一种,它根据事先确定的类数k值,把待聚类样本分为k类,使聚类域中所有样本到聚类中心的距离平方和最小14。该算法是一个迭代处理过程:首先从n个聚类样品中任意k个样品作为初始聚类中心,而对于所剩下的其他样品,则根据欧氏距离最近的准则对样品分类;然后再根据各分类中的样品重新计算类中心,再次计算各样品到各类中心的距离,并重新对各样品进行分类,不断重复这一过程直到目标函数收敛为止。(其中Cluster1表示恒顺醋,Cluster2表示其他品牌醋,在图中有重叠)图4 第一组食醋K-means聚类分类图K-means聚类算法运算速度快,内存开销小,比较适合于大样本量的情况,但是聚类结果受初始聚类中心和聚类数k的影响很大,不同的初始点选择会导致截然不同的结果,并且当按最近邻归类时如果遇到两个聚类中心距离相等的情况,不同的选择也会造成不同的结果,所以聚类数k需要不断选择,以达到最佳的k值。本研究中通过不断选择k值,得到了最佳聚类数为2,并且迭代次数为5,如图4和图5。通过图中可知K-means聚类法虽然能把恒顺醋和其他品牌醋进行一定程度的辨别,但界限不是很明显,并不是最优的鉴别方式。(其中Cluster1表示恒顺醋,Cluster2表示其他品牌醋,在图中有重叠)图5 第二组食醋K-means聚类分类图3.4主成分模型的建立和分析3.4.1主成分分析简介(6)主成分分析的中心思想是假设原始数据矩阵X可分解为两个小的矩阵的乘积(得分矩阵和载荷矩阵的乘积)15(7)此处,X为原始数据矩阵,由n行(样本)和P列(特征)构成;T为得分矩阵,由n行和d列(主成分数目)构成;L为载荷矩阵,由P行d列构成,TTT的对角线元素称为特征值i。换句话说,借助投影矩阵LT将X投影到d维子空间得到在此空间的目标坐标T。T中的列为得分向量,而L中的列称之为载荷向量。得分向量和载荷向量均为正交向量,如(8)这里,数据将得以重建,以获取新的互不相关的变量。主成分的确定是以最大方差准则为基础的。每一个后续的主成分描述了数据中的一个最大方差,此方差为前面的主成分未说明的。因此,数据方差的绝大部分将含在第一个主成分中。第二主成分将较第三主成分含有更丰富的信息。最终求得足以解释设定的方差百分数的主成分数。主成分可看作是原始数据矩阵X在新空间的投影,也就是得分矩阵T。(10)(9)新坐标值是原变量的线性组合。例如,第一主成分的元素如下:(11)由于绝大部分方差可由一个,二个或三个主成分加以解释,因此就能用图示的方法通过主成分显示数据。在进行主成分分析之前与聚类分析类似,先进行归一化预处理,紧接着利用MATLAB对样品进行划分,划分的方法是Kennard stone法。3.4.2二维主成分分析(其中1表示其他品牌醋,2表示恒顺醋)图6 第一组食醋主成分分析分类图二维主成分分析图如图6和图7。通过二维主成分分析可以很清楚地辨别恒顺醋和其他品牌的醋。(其中1表示其他品牌醋,2表示恒顺醋)图7 第二组食醋主成分分析分类图3.4.3三维主成分分析三维主成分分析图如图8和图9。通过三维主成分分析可以很清楚地辨别恒顺醋和其他品牌的醋,与二维主成分分析一致,更能体现主成分分析的优越性。12(其中1表示恒顺醋,2表示其他品牌醋)图9 第二组食醋主成分分析分类图(三维) 12(其中1表示恒顺醋,2表示其他品牌醋)图8 第一组食醋主成分分析分类图(三维)3.5 Fisher线性分类的建立和分析3.5.1 Fisher线性分类器简介Fisher法的中心思想是设法寻找一最佳投影方向,将m维空间中的点投影到低维空间,如一维空间,使不同类的点尽可能分离开来,然后在低维空间中再分类16。对于两类(w1,w2)问题的线性分类器的一般形式为:(12)(13)其中;为常数,样品X由n个特征描述。关键是C的求取。若记两类样品为,及,则将它们代入上式中的,得到:,及,然后求出两类样品的所对应的的均值和方差:(14),=1,2(15),=1,2反映了经作用后的分开程度,而与反映了两类样品经作用后各自的密集程度。(1)Fisher线性分类器设计C和c0的选取原则是使尽量大,而使尽量小,或使达到极大值。求f的极大值,相当于求解方程:(16);经计算得到:(17)(18)其中S1和S2分别为类1和类2的协方差矩阵。(19)对任意样品Fisher线性分类器形式为:(20)(2)Fisher线性分类器的几何意义Fisher线性分类器的算法是首先选择一投影轴或投影面,计算各类样品在投影轴或面上的新坐标,然后根据新的坐标进行分类。其实质是通过降维来实现分类方法。其特点是计算简单,直观,对于具有线性可分的两类样品非常有效。对于样品分布形状是没有限制,只需两类样品能够线性可分。3.5.2 Fisher线性分类分析利用Fisher线性分类的原理建立模型之前需先对样品进行划分。由于Fisher线性分类器需要建立两个校正组,所以将176份恒顺食醋的光谱分为第一组校正组,将10份其他品牌的食醋的光谱分为另一组校正组。校正组总共186份,其余93份为测试组。由于Fisher线性分类器对预处理很敏感,对光谱预处理可能会造成Fisher线性分类器的准确性降低,所以分别对原始光谱进行归一化预处理和不进行预处理,将结果进行比较,分析其误判率高低。利用MATLAB建立模型,结果如下:当原始光谱经过归一化预处理并经过Fisher分类分析后校正组中的恒顺食醋(第一组校正组)的值全为负数,说明恒顺醋的值为负;同时校正组中的其他品牌食醋(第二组校正组)的值全为正数,说明其他品牌醋的值为正;在测试集中有32个样品被误判,误判率为34.4%,且恒顺醋和其他品牌醋均有误判。当原始光谱直接经过Fisher分类分析后校正组中的恒顺食醋(第一组校正组)的值全为正数,说明恒顺醋的值为正;同时校正组中的其他品牌食醋(第二组校正组)的值全为负数,说明其他品牌醋的值为负;在测试集中有33个样品被误判,误判率为35.5%,且只有恒顺醋被误判。通过分析可知原始光谱通过归一化预处理后Fisher分析的误判率较低,但低的不多,而不经过预处理后Fisher分析对其他品牌醋没有误判。综合说明Fisher分类分析并非很好的辨别食醋品牌的方法。3.6 K最邻近法建立和分析3.6.1 K最邻近法简介模式分类判别分析中最简单直观的方法就是基于距离函数的分类法。如果允许类中全部样本点都可有资格作为类的代表的话,就是最邻近判别法。最邻近法不是仅仅比较与各类均值的距离,而是计算和所有样本点之间的距离,只要有距离最近者就归入所属类。为了克服最邻近法错判率较高的缺陷,K最邻近法不是仅仅选取一个最近邻进行分类,而是选取k个近邻,然后检查它们的类别,归入比重最大的那一类17。K最邻近法是化学上应用得最为广泛,直接以模式识别的基本假设同类样品在模式空间相互靠近为依据的分类方法。这种算法极为直观,即使所研究的体系线性不可分,这种方法仍可应用。K最邻近法从算法上较为直观,在这种方法中,实际上要将校正集的全体样品数据储存在计算机内,对待判别的未知样品,逐一计算该样品与校正集样品之间的距离,找出其中最近的k个进行判别。如果k=1,则这一最近邻样品属于何类,未知样品就属于何类。如果k1,由于这k个最近邻样品不一定属于同一类,这时应采用判别函数方法确定最终的类别。若仅考虑两类判别的问题,可按下式计算判别函数S:(21)或式中Si为校正集k个样本中第i个样本的取值,若属于第1类取“+1”,属于第2类则取“-1”;Di为未知样品与第i个样品之间的距离。Di可理解为权重,即距离较小的校正集样品给予较大的权重,而距离较大的校正集样品给予较小的权重。显然,在样品数相同的情况下,Di越大,他对总S值的贡献越小。在距离相同的情况下,若第一类样品越多,则总S值就越正。因此,若计算出来的S值为正,则未知样品属于第1类,若为负值,则属于第2类。K最邻近法的优点是它不要求校正集的几类样品是线性可分的,也不需要单独的校正过程,新的已知类别的样品加入到校正集中也很容易,而且能够处理多类问题,因此应用较为方便。该方法的主要问题是k值的选取,由于每一类中的样品数量和分布不尽相同,选用不同的k值,未知样品的判别结果可能会不同,目前k值的选取尚无一定的规律可循,只能由具体情况或由经验来确定,通常不宜选取较小的k值。3.6.2 K最邻近法分析利用K最邻近法的原理建立模型之前需先对样品进行划分。划分方法与Fisher线性分类中的划分方法相同。由于不知K最邻近法对预处理是否敏感,所以分别对原始光谱进行归一化预处理和不进行预处理,将结果进行比较,分析其误判率高低。利用MATLAB建立模型,通过不断试验,K取5时准确率较高,并得到结果如下:当原始光谱经过归一化预处理并经过K最邻近法分析后校正组中的恒顺食醋(第一组校正组)的值全为1,说明恒顺醋的值为1;同时校正组中的其他品牌食醋(第二组校正组)的值全为2,说明其他品牌醋的值为2;在测试集中有21个样品被误判,误判率为22.6%,且恒顺醋和其他品牌醋均有误判。当原始光谱直接经过K最邻近法分析后校正组中的恒顺食醋(第一组校正组)的值全为1,说明恒顺醋的值为1;同时校正组中的其他品牌食醋(第二组校正组)的值全为2,说明其他品牌醋的值为2;在测试集中有18个样品被误判,误判率为19.4%,且恒顺醋和其他品牌醋均有误判。通过分析可知原始光谱通过归一化预处理后K最邻近分析的误判率较高,所以采取不进行预处理的方法。综合说明K最邻近分析并非最好的辨别食醋品牌的方法。3.7偏最小二乘法的建立和分析3.7.1偏最小二乘法简介在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),偏最小二乘法(PLS)方法是近些年来发展起来的一种解决这一问题的方法18。PLS提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用PLS建立的模型具有传统的经典回归分析等方法所没有的优点。PLS分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。以下介绍PLS分析的建模方法。考虑个因变量与个自变量的建模问题。PLS的基本做法是首先在自变量集中提出第一成分(是的线性组合,且尽可能多地提取原自变量中的变异信息);同时在因变量集中也提取第一成分,并要求与相关程度达到最大。然后建立因变量与的回归,如果回归方程已达到满意的精度,则算法中止。否则继续对第二成分的提取,直到达到满意的精度为止。若最终对自变量集提取个成分,PLS将通过建立与的回归式,然后再表示为与原自变量的回归方程式,即PLS方程式。为了方便起见,不妨假定个因变量与个自变量均为标准化变量。因变量组合自变量组的次标准化观测数据阵分别记为(22)PLS分析建模的具体步骤如下:(1) 分别提取两变量组的第一对成分,并使之相关性达到最大。设从两组变量分别提出第一对成分为和,是自变量集的线性组合:,是因变量的线性组合:。为了回归分析的需要,要求:和各自尽可能多地提取所在变量组的变异信息;和的相关程度达到最大。由两组变量集的标准化观测数据阵和,可以计算第一对成分的得分向量,记为和: (23)(24) (25) 第一对成分和的协方差Cov(,)可用第一对成分的得分向量和的内积来计算。故而以上两个要求可化为数学上的条件极值问题:采用Lagrange乘法,问题化为求单位向量和,使最大。问题的求解只须通过计算矩阵的特征值和特征向量,且的最大特征在为,相应的单位特征向量就是所求的解,而可由计算得到(26) (2) 建立对的回归及对的回归。(2)建立对的回归及对的回归。假定回归模型为 (27)其中分别是多对一的回归模型中的参数向量,和是残差阵。回归系数向量,的最小二乘估计为 (28)称,为模型效应负荷量。(3) 用残差阵和代替和重复以上步骤。记,则残差阵,。如果残差阵中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取成分。否则用残差阵和代替和重复以上步骤即得:,分别为第二队成分的权数。而,为第二对成分的得分向量。,分别为,的第二对成分的负荷量。这时有 (29)(4)设数据阵的秩为,则存在个成分,使得 (30)把,代入,即得个因变量的PLS方程式(31) (5)交叉有效性检验。 一般情况下,PLS并不需要选用存在的个成分来建立回归式,而像主成分分析一样,只选用前个成分,即可得到预测能力较好的回归模型。对于建模所需提取的主成分个数,可以通过交叉有效性检验来确定。 每次舍去第个观测,用余下的个观测值按PLS方法建模,并考虑抽取个成分后拟合的回归式,然后把舍去的第个观测点代入所拟合的回归方程式,得到在第个观测点上的预测值。对重复以上的验证,即得抽取个成分时第个因变量的预测误差平方和为(32)的预测误差平方和为(33) 另外,再采用所有的样本点,拟合含个成分的回归方程。这时,记第个样本点的预测值为,则可以定义的误差平方和为(34) 定义的误差平方和为(35) 当达到最小值时,对应的即为所求的成分个数。通常,总有大于,而则小于。因此,在提取成分时,总希望比值越小越好;一般可设定限制值为0.05,即当(36)时,增加成分有利于模型精度的提高。或者反过来说,当(37) 时,就认为增加新的成分对减少方程的预测误差无明显的改善作用。为此,定义交叉有效性为,这样,在建模的每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论