




免费预览已结束,剩余32页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要:烟叶的收购质量特征是评定烟叶等级的重要依据。目前,许多烟叶收购质量特征主要由人工靠经验获取,主观性强,且有许多指标呈模糊状态,往往出现评定级别不稳定的现象。在烟叶收购过程中还容易产生质量纠纷,不仅影响烟农的生产积极性,还给国家造成经济损失。鉴于目前人工分级存在的问题,用数字形式统一烟叶的收购质量特征是非常必要的。主成分分析法作为一种数据降维处理技术,在各行业有这广泛的应用,本文通过主成分分析法对烟叶的原始光谱图进行降维,排除众多化学信息重叠的信息,对卷烟样品的光谱图进行主成分提取,用主成分的得分代替原来的nirs(近红外光谱图),讨论分类方法、主成分个数对计算结果的影响。通过对不同组、不同级的光谱图进行主成分分析,得出较好的得分用于烟叶质量的分级。关键词:主成分分析法,相关系数矩阵,烟叶分级,光谱特征abstract: tobacco purchase quality is an important reference for itsgrade.currently,tobacco purchase quality is mainly estimated by human experiences that are sometimes subjective,and many factors are rather unclear,which leads to the unstable assessments of tobacco quality, results in the dissensions in tobacco purchasing, discouragement of farmers and the loss of state property . so its necessary to develop tobacco purchase quality regulations based on digital technology.the principal component analysis as a data dimension reduction processing technology, in industries have this wide range of applications,the raw spectra was transformed to compress the original data and the characters of the nir spectra were selected. thus, under principal componentsspace by replacing the raw nirs(near infrared reflectance spectroscopy) with the corresponding principal scoresthe classing methods, pre-processing performance and the number of principal components were discussed for the influence to the results.based on the different groups, the spectrum diagram principal component analysis, it is concluded that the good score for tobacco quality grading.key words :pca ,correlation coefficient matrix, tobacco grading, spectral feature 目录1 绪论11.1 研究目的和意义11.2 国内外研究现状21.2.1 烟叶的常规化学分析21.2.2 应用于卷烟生产烟组配方的研究31.2.3 不用分类模型的研究31.2.4 本研究的主要内容41.3 本论文研究内容及章节安排41.4 本章小结52 烟叶分级基本知识62.1 引言62.2 制订烟叶分级的基本原则62.3 分级的基本方法72.4 分级的基本原理72.5 划分级别的尺子82.6 本章小结93 主成分分析理论103.1 主成分分析理论特点103.2 主成分分析的基本思想与理论103.2.1 主成分分析的思想103.2.2 主成分分析的理论113.2.3 主成分分析的基本概念及意义123.2.4 主成分分析的算法133.2.5 样本主成分的导出183.3 本章小结214 不同部位烟叶光谱特征的提取与研究224.1 引言224.2 材料和方法224.2.1 材料224.2.2 仪器和溶剂234.2.3 实验步骤234.2.4 数据分析234.3 结果与讨论234.3.1 样本描述的统计性分析234.3.2 特征变量的提取254.3.3 模型的预测264.4 本章小结265 总结与展望28致谢29参考文献30321 绪论1.1 研究目的和意义 烟草工业的基础原料之一就是烟叶,而根据有关资料显示,在很多国家和地区,烟草工业中在整个国民经济中都有着举足轻重的地位,因此,烟草工业的产品品质以及烟草行业经营效益都与烟叶的品质好坏有着直接而又密切的关系。由于烟草发展的某些历史原因以及现实生产需要,也就是说从历史和现状来看,在一定时期内,烟草的继续存在和发展是必然的,所以对烟草的研究引起了国内外专家的高度重视。烟叶质量非常关键,它关系到整个卷烟的市场销售状况和吸食者的身体健康状况,是烟叶工作的重中之中,也是卷烟产品的基础。近十余年来随着社会的进步与发展,人们越来越关注吸烟与健康。因此卷烟行业正在做出不懈的努力,期望能够既满足消费者的需求,又尽量降低对人体健康的危害。以达到的目的。目前摆在烟草行业的一个难题就是如何才能提高烟制品质量和改进烟制品结构。烟叶从种植到收获,再到生产加工环节,都影响着烟叶质量。而目前我国的烟叶收购过程矛盾颇多,控制烟叶质量的重要手段之一就是在烟叶收购阶段对烟叶进行检验与分级。相关资料显示,2003年全国种植烤烟的省份有23个,种植烤烟的地级单位共123个,种烟县级单位518个,种烟乡镇4627个,种烟村46225个,种烟农户为407万户,2003年烤烟种植面积为1438万亩。烟草种植分布区域很广,目前全国烟叶的种植面积占全国耕地面积的0.8%左右,且主要分布在比较贫痔的土地上,耕地占有量很少。由此可以看出我国是一个烟草生产大国,同时也是一个烟叶消费大国,烟草作为我国一种重要的经济作物,在我国整个国民经济中占有不可或缺的地位,在国家的整个财政收入中也占有相当的比重。我国政府现行的烟叶收购政策是烟农在种植前需要先与烟叶收购站签署烟叶收购合同,合同会注明种植面积,烟叶成熟烟农收获烟叶以后,再按等级收购。我国的烟叶分级目前仍然是凭借分级专家的感官经验,这种传统的感官评测方法容易受到环境条件和审评人员的生理条件、工作环境和经验等因素的影响,因此具有很大的主观随意性,这样就不可避免地会产生一些模糊的概念和指标。目前,如果在检测专家的身体状况及环境条件不太相同的条件下,当然目前也很难保证这些身体状况及环境条件完全相同,即便能做到,不同的审评人员或者同一个审评人员,依靠感官检测手段鉴定烟叶质量,对同一片烟叶的感官评测结果,往往会存在一定的差异,最终在烟叶生产收购的实践中,烟叶品质评定的准确性就打了折扣,随之也就产生了不少矛盾。因此,为了提高烟叶分级的科学水平和叶分级效果的科学性和权威性,研制开发烟叶自动检测与分级系统己经势在必行。这样烟农的生产积极性就可以得到保护,国家烟草专卖制度同时也可以得到完善意义重大。计算机机器视觉技术特别是图像处理技术的发展,为农产品的品质检测开辟了一条全新的途径。机器视觉系统也就是计算机数字图像处理系统,它的工作原理是主要就是借助于计算机实现部分人类视觉的功能。首先需要把测试对象映射为数字图像,然后利用计算机,模拟人的判别标准去理解和识别图像,进而对所要测试的目标物进行分类分级。这种借助于计算机辅助品质检测的方法,相比于人的视觉精度有一些突出的优点,比方说算机图像处理的精度,各项品质指标的定量化和标准化,以及对检测物颜色和外形变化反应的灵敏性等等。所以我们将其技术和方法也用于烟叶的自动分级中,对烟叶的颜色和外形等模拟人的判别标准进行评价,进而希望得到更好的分级结果。1.2 国内外研究现状1.2.1 烟叶的常规化学分析 马翔等人选择不同的烟叶谱区范围进行数学模型的优化,采用傅里叶变换的近红外技术,建立了总糖、烟碱和总氮种烟草化学成分的快速定量分析的数学模型。 练文柳等人采用近红外光谱技术以及主成分回归和偏最小二乘法,在对若干烟叶样品的总糖、还原糖和总烟碱含量数据进行处理的基础上,建立了相应的校正模型。 蒋锦锋等应用近红外光谱技术替代经典化学方法,测得烟草项主要化学成分,并建立其相应指标的近红外模型。 王国庆等对近红外光谱数据及其离散小波变换系数的处理上,用遗传算法与交互检验相结合建立了一种变量筛选的方法,并应用于烟草样品中总挥发碱和总氮的同时测定。结果表明此方法可以极大减少模型中的变量个数,降低模型复会产生一些模糊的概念和指标。目前,如果在检测专家的身体状况及环境条件不太相同的条件下,当然目前也很难改善预测的准确度。王家俊等采用偏最小二乘法对光谱数据预处理,建立了预测根茎和烟叶氮、磷、氯和钾等主要营养元素含量的校正模型。1.2.2 应用于卷烟生产烟组配方的研究lo于1995年公布了其最新研究成果应用和神经网络对烟草混合物进行快速分类和配方分析。王强等建立并优化了基于一类svm的卷烟叶组配方烟叶选择模型,提出了一种基于特征选择与支持向量机参数的联合优化策略。该方法为卷烟生产组配方的选择提供了一种新方法。1.2.3 不用分类模型的研究 贺英等对kohonen自组织特征映射神经网络的聚类方法提出了改进,并且证明了改进后的kohonen网络的收敛速度和聚类精度均大大优于改进前的网络。 高大启等提出了一种并联神经网络,可以实现烟叶主要化学成分测量数据与人的感官评定指标比如香气,吃味,杂气,刺激性等的直接转换。张帆等将人工神经网络应用于提取烟叶质量特征值。赵青松等选用总糖、烟碱、总氮、蛋白质、糖碱比个化学成分指标,建立了支持向量机模型,并对支持向量机的小样本学习、泛化能力和抗噪声扰动能力进行了研究。1.2.4 本研究的主要内容 根据烟叶分级评定方法,其质量可分为内在质量和外观质量。内在质量是烟叶燃烧产生的烟气通过人的感官评吸能做出判断的特性,主要包括香气质、香气量、刺激性、杂气、劲头、浓度、余味等。内在质量可以主要由烟叶内部化学成分决定。其化学成分主要包括总糖、总氮、酚类、还原糖、氨基酸、总烟碱、总挥发碱、有机酸、氯化物、氧化钾、石油醚提取物等多10个化学指标。烟叶外观质量是指凭借人的感官可以做出判断的外在质量因素。当前仍是依靠眼观、手摸、鼻闻等经验性的感官判定。我国现行的烤烟国家分级标准,将烤烟分成个42等级,所依据的主要标准就是烤烟烟叶的外观质量差异。其主要判定依据结合建立了一种变量筛选的方法,并应用于烟草样品中总挥发碱和总氮的同时测定。结果表明此方法可以极大减少模型中的变量个数,降低模型复会产生一些模糊的概念和指标。文献表明,国内外对烟草的研究热点仍然主要集中在内在质量,即烟叶的化学成分分析上。但是化学成分的确定需要较长时间,且都对烟叶做了破坏性的处理,这种分级方法在烟叶收购过程中显然是不可取的,不满足烟叶收购过程中的无损和快速要求。基于紫外- 可见光谱和综合信息处理技术,探寻了一种综合表征烟叶部位内含化学成分整体差异性的新方法.本文通过采用相关模式识别技术,对上、中、下部烟叶的光谱特征进行提取. 研究结果表明: a)波长718708, 420401, 305296和236227 nm (50 nm) ,综合表现了上部与中、下部烟叶的整体差异性; b)波长735726, 685676, 544535, 310301, 250241和229220 nm (60 nm) ,综合表现了下部与上、中部烟叶的整体差异性.1.3 本论文研究内容及章节安排1 第一章 绪论,简述我国目前烟叶分级的现状及基于光谱特征提取技术的应用。2 第二章 对烟叶的质量做了一个比较详细的介绍,重点介绍了本研究所要用到的烟叶外观性状,对烟叶分组分级非常重要的几个概念,比如成熟度、颜色、叶片结构。3 第三章 主要对pca算法的数学基础进行详细的论述。4 第四章 基于紫外- 可见光谱和综合信息处理技术,探寻了一种综合表征烟叶部位内含化学成分整体差异性的新方法.通过采用相关模式识别技术,对上、中、下部烟叶的光谱特征进行提取。5 第五章 总结和展望。1.4 本章小结本章简述了我国目前烟叶分级的现状以及烟叶分级评定的重要性,并阐述了利用计算机视觉进行烟叶评审分级技术的研究目的和意义,综述了目前国内外烤烟烟叶审评的研究现状,针对目前烟叶人工分级存在的问题,提出了一种相对准确性高的量化方法,也就是基于计算机视觉的图像处理技术,结合目前广泛应用的人工神经网络技术建立烟叶自动分级的数学模型,并确定了研究内容、目标和技术方案。2 烟叶分级基本知识2.1 引言烟叶烟草生产与其他作物生产有多点不同,烟草生产的终产物是烟叶,烟叶是专一的烟制品原料。大家知道 ,烟制品是多种多样的,如卷烟 、雪茄烟、斗烟 、嚼烟、鼻烟。不 同的烟制品,对烟叶原料有不同的要求。如何适应烟制品对烟叶原料的要求 ,这就是分级的任务。换句话说 ,分级就是为各种烟制品提供符合需要的原料。一种烟叶原料 ,往往要供几种烟制品使用,并决定着烟草产品的生产方式、方法。为此 ,烟草生产的实践告诉人们,一棵烟、一块田的烟叶 ,经采收调制后都不能混合一起进行出售,因为这不符合各种烟制品的要求,而失去市场价值和使用价值。为了解决这个矛盾,要求对烟叶进行科学合理的分级。 各种不同类型的烟叶应根据各自的特点、用途、使用价值进行分级。因此,分级的目的概括起来有:(1)能合理利用国家资源 ,充分发挥资源效益;(2)能适应各种烟制品对原料的需求;(3)能保证产品质量 ,增加花色品种;(4)有利各种烟制品的工艺处理 ,提高产品质量;(5)促进烟草生产,不断改善技术,多产优质烟叶;(6)有利贯彻优质优价 ,按质论价的原则;(7)有利对外贸易,为国家积累外汇。2.2 制订烟叶分级的基本原则(1)以常年质量水平为基础。烟叶级别的划分应以正常年景所生产的烟叶质量水平作为制订烟叶分级的标准依据,做到丰年不提高质量要求 ,欠年不降低质量要求 ,以利烟草生产和烟制品的质量稳定。(2)“表里一致”的原则 。即外观因素的选择与表达方式和烟叶内在质量要一致。做到由表及里,由里及表的一致性 ,以利等级质量的控制及其稳定性。(3)宽严适度 ,繁简相宜。便于掌握和运用,体现优质优价。(4)级别的划分,应和烟制品及其质量档次相适应。(5)保证农民的合理收益。2.3 分级的基本方法 如何将各种类型的烟叶级别区分开,综观国内外的做法 ,在形式和内涵上是基本一致的。基本上都遵循下述程序,分类、分型、分组、分级。(1) 分类按烟草的调制方法或主要用途进行的区分。如烤烟、白肋烟、香料烟。(2) 分型同一类烟叶的再区分。根据烟叶的生长地区、品种、栽培方法对烟叶的质量和使用价值的影响程度进行的区分。我国尚未完成这一区分。烤烟 曾分过清香型、浓香型、中间型。(3) 分组同一型的烟叶,按其内在性质的差异反映在烟叶外观某些特征的不同而与烟叶总体质量相关的烟叶,划分在一起。如上部烟、中部烟 、下部烟 。(4) 分级同一组内的烟叶 ,按质量的优劣划分出若干个档次 。如中下部黄色烟分1、2、3、4、 6级 ;上部黄色烟分1、2、3、4、5级。按照这种程度进行分级,就能分清各级的质量 ,并可以运用自如的按烟制品的需要 ,划分出各种级别,即使分出更多的“级”,也能很容易的掌握。2.4 分级的基本原理目前,我国的烟叶分级需要专业人员眼观手摸,并依靠经验和分级标准进行分级,具有一定的主观性和模糊性,且费时费力。对于烟叶智能分级,大多数研究集中在运用计算机视觉技术与色度学理论进行探索和尝试, 主要研究包括利用烟叶图像的颜色、形状及纹理等特征进行分级或分组识别。这些特征很难包含烟叶的内部结构,与烟叶等级紧密相关的油分和成熟度等特征也难以从图像中提取出来。此外,基于图像特征的烟叶分级在对烟叶图像提取众多特征时计算量比较大,无法满足实时的要求。下面国内外关于烟叶分级变准的界定。烟叶分级的始点是从分组起,一种烟草的分组多少,要看这种烟草对各种烟制品的作用如何,以及烟制品对这种烟草的质量及其特点的要求,来进行科学合理的安排 ,以便将需要的烟叶通过分组区分出来。 国内外用于分组的因素主要有部位、颜色、厚度、成熟度 以及为稳定各级质量,对那些影响质量大的因素如杂色、光滑叶予以另行分组。一般均以部位 、颜色为主要分组因素,其他为派生或称 副组,因为部位和颜色往往决定着烟叶的基本性质和基本的质量特点。我国的烟叶分组,基本上是按部位和颜色进行的。 众所周知,着生在烟株上不同位置的烟叶,它的外观形态、特征有明显的差异,将这些烟叶进行物理的、化学的分析及感官评吸,同样有明显的差异。如果将一棵烤烟分为下、中、上三个部位,则有如下不同:下部烟叶烟叶薄 ,颜色浅淡 ,油分少 ,组织松。含糖量少,总氮、烟碱少于中部 ,不溶性氮偏高,灰分与酸碱值 (ph)大于 中部。燃烧快 、填充力高,吸湿性差 ,单位面积重量轻 ,含梗率高。劲头小 ,刺激性小 ,味平淡 。中部烟叶烟叶厚度适 中,色多桔黄、正黄,油分多,组织疏。糖分含量高,总氮、不溶性氮、其他挥发碱、灰分含量低、烟碱、ph值适中。燃烧缓慢适中,弹性好,填充力小 ,吸湿性高 ,单位面积重量重,含梗率居中。劲头适中,味醇和。上部烟叶烟叶厚,颜色偏深 ,油分多,组织密实 ,糖分高于下部烟叶,总氮显著高,不溶性氮和其他挥发碱高,灰分略高于中部,ph 值低。燃烧慢 ,填充性 居中 ,吸湿性低于中部 ,含梗率低。味浓劲大,刺激性大。颜色是分组的第二因素 ,烟叶外观颜色的不同,是直接与烟叶的内在质量紧密相联的。往往反映着内在的特征特性,特别是香气的风格、香气质的好坏、香气量的多少 、吃味的浓淡。因此,颜色状况与烟叶的使用价值是直接关联的。颜色的不同 ,烟叶的理化特性亦是有明显差异的。比如桔红色或称金黄色 和红黄色烟叶相比较,含糖量桔红色高,而总氮、不溶性氮 、烟碱则桔黄色低于红黄色。桔黄色填充性高,燃烧快,单位面积重量轻。在部位分清后 ,再将不同颜色烟叶区分开 ,便可进一步把不同特性烟叶区分开 ,同时烟叶的总体质量也伴随分清。在此基础上,分清各个等级,就起到了事半功倍的效果。2.5 划分级别的尺子 为便于说明问题, 先弄清几个名词的含义。分级因素, 用以衡量等级的外观因素它两个方面的含义。凡是说明烟叶外观质量或等级质量的称为品质因素。如成熟度、油分等。凡是说明影响烟叶外观质量或等级质量的称为控制因素。如杂色、残伤等。因此, 品质因素是衡量烟叶质量好坏的依据。而控制因素则是影响烟叶品质好坏的因素如何划分烟叶的级别, 也就是用什么“ 尺子”衡量问题。以往人们把这主尺叫做“ 油润、丰满、细致” 。而目前, 由于吸烟和健康运动的发展, 成为当今世人关注的大问题, 对烟草制品质量提出新的要求, 即低毒少害, 尽力减少吸烟对消费者的危害。这就直接涉及卷烟原料的质量, 不仅注重品质, 而更重视烟叶的安全性, 以确定烟叶“ 可用性”程度, 如何提高烟叶的可用性,从原料生产着眼, 首先要求生产出真正成熟的烟叶。实质上, 要求在原来掌握的成熟度基础上, 进一步深化烟叶的成熟程度, 使烟叶得到充分的发育和充分的成熟。因此,“成熟度”就成为区分级别的一把主尺子。如果烟叶是达到真正成熟, 其他与成熟度相关的质量指标, 如油分、叶片结构、光泽、颜色等也都能达到相应级别的要求。当然,要区分更多更细的等级还必须和其他分级因素同时使用。如烤烟烤国家标准, 衡量烟叶级别的品质因素有成熟度、油分、厚度、叶片结构、颜色、光泽控制因素有长度、杂色、残伤及破损按这种品质要求分出的烟叶等级, 可以相应的减少某些烟叶的不利化学成分, 适合当前卷烟制品所需求的原料。2.6 本章小结 本章就烟叶的质量做了一个比较详细的介绍,从烟叶质量的基础概念,到烟叶质量的要素划分,包括化学成分、物理性状、吸食形状,重点介绍了本研究所要用到的烟叶外观性状,对烟叶分组分级非常重要的几个概念,比如成熟度、颜色、叶片结构做了详细叙述,为后续研究工作打下理论基础。3 主成分分析理论3.1 主成分分析理论特点主成分分析(principal componentsanalysis)是由霍特林(hotelling)于 1933年首先提出的。主要利用降维的思想,在信息损失较小的前提下将多个指标转化为几个综合指标,通常将这种转化生成的综合指标称之为主成分,其中各个主成分都是由原始变量组成的线性组合,且各个主成分之间互不相关,这便使得主成分较之原始变量更具有某些优越的性能。这样在研究复杂问题时,就可以只考虑几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。本章主要介绍主成分分析的基本理论、计算步骤及性质等。3.2 主成分分析的基本思想与理论3.2.1 主成分分析的思想 多元分析研究多维随机变量总体,总体的每一个个体都可以用 p 项指标来刻画。指标多固然有其描述详尽、刻画细腻的一方面;但指标太多,也容易造成主次不清,难以对所考察对像获得一个直观清晰的把握。譬如,要分析比较若干个地区的经济发展状况,对每一个地区都可以统计出数十项与经济状况有关的指标,这数十项指标虽然较详尽地反映了一个地区的经济发展状况,但若要据此对不同地区的发展水平进行评价、比较、排序,则因指标太多、主次不明而显得过于复杂,也很难做到客观公正。另一方面,这数十项指标中,有些是主要的,有些是次要的,甚至某些指标间还有一定的相关性。与此同时,因为这大量的指标均是对同一事物的描述,便不可避免的造成了信息的严重重叠,这种信息的重叠存在甚至会另人们忽视事物的真正规律与特征。鉴于此,一个自然的想法是:能否用较少的几项综合指标来代替原来较多的指标,而这较少的几项指标仍然能基本上反映出原来较多的指标所反映的信息。这正是主成分分析方法的客观背景和实际需要。然而主成分分析方法不是去分析比较各指标的重要性,将那些不太重要的指标简单地去掉了事,而是通过全面分析各项指标所携带的信息,从中提取出一些潜在的综合性指标(称为主成分),用这不多的几项综合性指标替代原来较多的可观测指标去刻画每一个个体。既然分析的目的是减少指标的个数,所以也就希望这不多的几项综合性指标每一个都能独立地反映某一个方面的综合信息。因此从概率的角度可以要求这几项综合性指标相互之间是不相关的。归纳起来,主成分分析的目的是通过分析原来较多可观测指标所反映的个体信息,提取出较少的几项综合性指标。它们互不相关,并且能最大限度地反映出原来较多指标反映的信息,进而用这较少的几项综合性指标来刻画个体。根据前文的叙述,可以清晰的看到,利用 pca 算法得到的样本主成分与原始变量的基本关系可以归结如下:一、 每一个主成分都是各原始变量的线性组合;二、 主成分的数目大大少于原始变量的数目;三、 主成分保留了原始变量绝大多数信息;四、 各主成分之间互不相关;3.2.2 主成分分析的理论 在这里,首先对一些变量做以简单的介绍,设计 p 个指标来描述某一事物,利用变量 x1, x2 , xp 来表示,这 p 个变量构成的 p 维向量即 x ( x1,x2 , x p ) 。 为随机向量 x 的均值, 为其协方差矩阵。对 x 进行线性变换,能够得到若干新的综合变量,用y 表示,那么这些综变量可以由原始变量线性表示: 上述线性变换可以由原始变量的任意的线性组合来得到,所以这些综合变量的统计特性也就千差万别。那么为了取得良好的重构效果,便要求yi = ix 的方差尽可能大且各yi 之间相互独立。由于 而对任给的常数c,有 因此对i 不加限制时,可使var(yi)任意增大,问题将变得没有意义。我们将线性变换 约束在下面的原则之下:ii =1,即i12 + i2 2+.+ ip2 =1 ( i=1,2,3,.p);yi与yj相互无关(ij,i,j=1,2,3,.p); y1是 x1,x2,.,x p一切满足原则 1 的线性组合中方差最大者;y2是与y1不相关的 x1,x2,.,xp 线性组合中方差最大者,以此类推即yp是与y1,y2,.,yp 都不p-1相关的 x1, x2,., x p的所有线性组合中方差最大者。综合上述三条原则得到的综合变量y1,y2,yp即可称为原始变量的第一、第二、第 p 个主成分。并且,各综合变量在总方差中占的比重呈递减趋势,在实际应用,常常选择前几个方差比较大的主成分,从而达到简化系统结构、抓住问题实质的目的。3.2.3 主成分分析的基本概念及意义 主成分分析方法中,所涉及的最主要概念有原始变量、主成分、方差贡献率、累计方差贡献率、因子负荷量等主要概念。 为了说明和分析方便,作下列几个约定:研究问题观察了n个样品p 个变量,即原始数据为矩阵 x = (xij) i =1,2,n; j =1,2, p;原始数据通常都需要进行变量标准化处理,以消除变量不同量纲差异的影响,即 。原始变量,是 x =(x1, x2,xp),它是一个p维随机变量;主成分(y),是原始变量的线性组合:若y=(y1,y2,y3,yi,yp),则x的第i个主成分yi=ix(i=1,2,p),其中。ui为原始数据协方差阵的第i个特征根i 所对应的单位特征向量。若对原始数据进行标准化处理,则所求得的协方差阵就是相关矩阵r;方差贡献率,是用来表明主成分综合原始变量能力强弱的指标;这里第i个主成分的方差贡献率为 由于主成分y1,y2,yp都是x1, x2, x p的线性组合,其顺序按各自的方差在总方差中所占的比重递减原则确定,故各主成分综合原始变量的能力大小也依次递减;累计方差贡献率,是表示前m 个主成分所提取的原始变量的比重,即。 实际应用中,确定m的值时通常需使累计方差贡献率达到70%85%或以上;也可根据特征值的图形变化来确定。m的值往往不超过3。在各种数据确定的情况下,若m/p的比值越小,则该资料使用主成分分析方法越合适; 因子负荷量,是刻画主成分经济意义的重要指标,其绝对值的大小是对主成分分析进行经济解释的重要依据。设第i个变量(因子)对第 j 个主成分的负荷量为ij ,则ij = ji(i, j =1,2, p)。 特别说明:所有的数据处理都是由软件完成的,以上这些概念、公式、及其意义,只是为了帮助我们理解主成分分析的基本思想,理解软件正在完成的是何种工作,从而能够对各种输出结果作出合理的理解。3.2.4 主成分分析的算法由前面的讨论可知,求解主成分的过程就是求满足三个原则的原始变量x1, x2,., x p 的线性组合的过程。本节从总体出发,介绍求解主成分的一般方法及主成分的性质。尽可能多的保留原始变量所表达的信息同时又能降低样本矩阵的维数,从而使复杂的问题简单化,易于在分析中抓住主要矛盾便是主成分分析的基本思想。而对于通过计算所得的随机变量 x1, x2,., xp ,各个变量之间的离散度以及相关度则由其协方差矩阵或者相关矩阵来得到体现,同时易知相关矩阵不过是将原始变量标准化后的协方差矩阵。这里所说的尽可能多的保留原始变量所表达的信息,正是要求计算得到的的综合变量也就是所说的主成分的方差和尽可能接近原始变量方差的总和。那么在工程中求解主成分的时候,经常是从原始变量的协方差矩阵或相关矩阵的结构分析入手。大部分情况下,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。下面分别就从协方差矩阵与相关矩阵出发求解的结果进行讨论。从协方差矩阵出发求解主成分引论:设矩阵 a = a ,将 a 的特征值1,2,.,n 依大小顺序排列,不妨设1 2 . n, 1,2,.,p 为矩阵 a各特征值对应的标准正交特征向量,则对任意向量 x,有 (2.4)证明:对 a与单位阵i 进行谱分解,可以写成下面的式子: 而对任意向量 x,有 于是有 (2.7)于是自然有 (2.8) (2.9)类似的可以得出 结论:设随机向量(x = x1, x2,.,xp)的协方差矩阵为,1 2 . p,为的特征值,1,2,.,n 为矩阵 a各特征值对应的标准正交特征向量,则第i个主成分为: 此时既有: 由 以 上 结 论 , 我 们 把 x1, x2,., xp 的 协 方 差 矩 阵 的 非 零 特 征 值1 2 . p0 对应的标准化特征向量 x1,x2,.,xp 分别作为系数向量,yi = i x ,(i = 1,2,., p)分别为称为随机向量 x 的第一主成分、第二主成分、第p 主成分。y 的分量yi 依次是 x 第一主成分、第二主成分、第 p 主成分的充分必要条件是: y = x, = i,即 为 p 阶正交阵; y 的分量之间互不相关; y 的 p 个分量是按方差由大到小排列。于是随机向量 x 与随机向量y 之间存在下面的关系式: 注:无论 的各特征根是否存在相等的情况,对应的标准化特征向量1,2,.,p总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题应该变成求特征根与特征向量的问题。 从相关矩阵出发求解主成分 考虑如下的数学变换:令 式中,i 与ii分别表示变量 xi的期望与方差。于是有 令 (2.15)于是对原始x进行如下标准化: 进过上述标准化后显然有 由于上面的变换过程,原始变量 x1, x2,., xp 的相关阵实际上就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则是相一致的,在此不再重复。仍用i ,i分别表示相关阵r 的特征值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为: 3.2.5 样本主成分的导出在实际研究工作中,总体协方差阵与相关阵r 通常是未知的,于是需要通过样本数据来估计。设有n个样品,每个样品有 p 个指标,这样共得到np个数据,原始资料矩阵如下: (2.20)记 (2.21) (2.22) (2.23)s 为样本协方差矩阵,作为总体协方差阵 的无偏估计,r 是样本相关矩阵,为总体相关矩阵的估计。由前面的讨论知道,若原始资料阵 x 是经过标准化处理的,则由矩阵 x 求得的协方差阵就是相关矩阵,即s 与r 完全相同。因为由协方差矩阵求解主成分的过程与同相关矩阵出发求解主成分的过程是一致的,下面我们仅介绍由相关阵r 出发求解主成分。根据总体主成分的定义,主成分y 的协方差是: (2.24)其中为对角阵 (2.25)假定资料矩阵x为已标准化后的数据矩阵,则可由相关矩阵代替协方差矩阵,于是上式可表示为: (2.26)用 左乘上式得 (2.27)即 (2.28)把上式全部展开得到p2个方程,这里只考虑在矩阵乘积中由第一列得出的p个方程: (2.29)整理得到: (2.30)为了得到上面齐次方程的非零解,根据线性方程组的理论知道,要求系数矩阵行列式为0,即 (2.31)即 (2.32) 对于1,2,.,p 可以得到完全类似的方程,于是,所求的新的综合变量(主成分)的方差i,(i =1,2,., p)是 的 p 个根, 为相关矩阵的特征值,相应的各个ij 是其特征向量的分量。 因为r 为正定矩阵,所以其特征根都是非负实数,将它们依大小顺序排列12.p0,其相应的特征向量记为r1,r2,.,rp ,则相对于y1的方差为: (2.33)同理有 (2.34)即对于y1有最大方差,y2有次大方差,并且协方差为: (2.35)由此可有新的综合变量(主成分)y1,y2,.,yp 彼此不相关,并且yi 的方差为i ,则y1 = 1 x,y2 = 2 x,.,yp= px 分别称为第一、第二、第p个主成分。由上述求主成分的过程可知,主成分在几何图形中的方向实际上就是r的特征向量的方向:主成分的方差贡献率几等于r 的相应特征值。这样,我们在利用样本数据求解主成分的过程实际上就转化为求相关阵或协方差阵的特征值和特征向量的过程。3.3 本章小结 本章主要介绍了主成分分析的详细内容,从主成分分析的的概念入手,详细介绍了算法中相关变量的含义和计算公式,随后给出了两种不同的主成分提取思路,即从协方差矩阵出发和由相关矩阵出发求取主成分的不同思路。关于主成分分析在人脸识别中的具体应用将在下一章进行具体介绍。4 不同部位烟叶光谱特征的提取与研究4.1 引言对烟叶的分级前面都有了详细的介绍,并对课题研究所需要的方法做了详细的论述。对于烟叶的评价又有一种说法叫做感官评价。感官评价( sensory evaluation, se)又称感官分析和感官检验,由美国食品科学技术专家学会于1975年创立,是在物质理化性质分析的基础上,集心理学、生理学和统计学等知识发展起来的,主要依靠训练有素和经验丰富的专家的感觉器官(视觉、嗅觉、触觉、味觉和听觉) ,来唤起、测量、分析、解释物质特性的一种经典的品质评价方法 . 通俗地讲,就是以人本身为分析仪器,借助人的眼睛、鼻子、嘴巴、手及耳朵来对分析对象的色、香、味、形、质地、口感等各项指标做出评价的方法,广泛应用于烟草、食品、制药、化妆品、纺织品和包装等行业. 该方法不仅迅速、简便,而且具有理化分析无法取代的整体性和综合性等特点. 然而,感官评价也有着不及理化分析的缺点,主要表现在以下2个方面: 1) ,人的感觉器官灵敏度易受温度、地域、性别、精神和身体状况等因素差异的干扰,从而主观地影响评定结果的准确性 ,2)语言和感觉所表达的信息是笼统的、模糊的,其结果较难用数值来表示。随着计算机技术的发展,为消除感官评价中人为的主观影响,逐渐出台了像gc - ms、电子鼻、电子舌等模拟感官评价技术 12 . 然而,不同部位烟叶紫外- 可见光谱特征的研究未见相关报道. 为此,本文探索性地运用紫外- 可见光谱的综合信息,并结合相关模式识别技术,分别河南省上、中、下部位烟叶的光谱特征进行提取,以达到鉴定和区分不同部位烟叶的目的,为烟叶分级和品质鉴定工作做出相应的贡献,同时本研究也将对生物、制药、食品等行业的品质鉴定、鉴别工作产生一定的影响.4.2 材料和方法4.2.1 材料来自河南省不同年份、地区、品种和部位的135个烟叶样品粉末,其中上部(b ) 、中部(c)和下部(x)烟各45个.4.2.2 仪器和溶剂101a - 2低温烘箱(双五金) ; hb43 快速卤素测定仪(mettler) ; 125ascs分析天平( precisa) ; thz- 82恒温摇床(国华) ; tu - 1901紫外- 可见分光光度计(普析通用).80%乙醇(用分析纯的无水乙醇与蒸馏水按体积比82配制)。4.2.3 实验步骤 实验前,将保存于干燥器(硅胶)中的样品置于低温烘箱在35 条件下烘干,用快速卤素测定仪检测其含水量,尽量确保样品水分含量略低于8% ,以消除自由水的干扰.用分析天平准确称取样品210 g,设置两个称量平行样,以确保称量准确度. 用80%乙醇溶剂50 ml溶解,密封后置于恒温摇床抽提1 h (150 r /min). 过滤并稀释滤液50倍,设置两个稀释平行样,以确保稀释准确度. 用紫外- 可见分光光度计扫描( 1 cm比色皿,波长范围200800 nm,间隔1 nm).4.2.4 数据分析1,先对数据进行标准化,由于测量时的误差,以及噪音,造成某些波段的光强度值过大,所以运用matlab7.0,把数据中光强度超过6单位的改成4,这样更便于波段的分析。2,随机选取上、中、下部烟共90个样品作为训练集,剩下的45 个样品作为预测集. 采用基于matlab 7.0程序环境下的主成分分析法,对训练集进行特征变量的提取和筛选,并建立类模型用预测集进行预测。4.3 结果与讨论4.3.1 样本描述的统计性分析对所研究的烟叶按照不同部位画出其光谱图,依次是上部(b)、中部(c)、下部(x)。 图bf 图cl ; 图 xf ;4.3.2 特征变量的提取 在matlab程序环境下,随机组合10 nm长的连续谱区若干,经标准化数据预处理后,进行主成分分析,再将旋转后得到的主成分(累积贡献率85% ) ,经中心化数据预处理后,进行分层聚类分析,直至输出各部位模型的最佳拟合.结果表明: 1) 788779, 722713, 599590和409400 nm 这4 个谱区的特征波长, 可以识别80.00% (24 /30)的上部烟,同时有14个中部和3个下部烟被误判; 2)无法组合出中部烟的特征波长;3) 735726, 679670, 596587, 577568, 535526, 525 516, 337 328, 313 304, 254 245 和213204 nm 这10 个谱区的特征波长,可以识别86.67% (26 /30)的下部烟,同时有6个中部烟被误判. 可见,谱区随机组合法比单因子方差分析法的鉴别效果相对较好,且该方法提取的特征波长较少,很大程度上简化了模型.4.3.3 模型的预测 用预测集分别对上述模型进行预测,结果表明: 1) 80. 00% ( 12 /15)的上部烟被识别,同时2个中部烟被误判(图2 ( b) ) ; 2) 100. 00% (15 /15)的下部烟被识别,同时5个中部和1 个上部烟被误判(图2 ( d) ). 可见,所建立的上、下部模型都具有较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030工业自动化行业技术发展动态及市场增长机会评估报告
- 水果皮渣资源化利用技术创新创业项目商业计划书
- 智能园艺灌溉系统创新创业项目商业计划书
- 油料艺术创作材料用油创新创业项目商业计划书
- 一般将来时教学视频课件及练习题
- 工厂车间绿色节能降耗管理方案
- 餐饮行业员工培训与服务指南
- 中医护理技术操作规范范本
- 食品加工厂污水处理设备与技术方案报告
- 小程序开发合同范本
- 太原市房屋租赁合同
- 体力活动金字塔
- 铜仁市大学生乡村医生专项计划招聘考试真题
- 土地综合整治投标方案(技术方案)
- JJF(皖) 174-2024 重点用能单位能源资源计量在线审查规范
- JGJ-T+141-2017通风管道技术规程
- 历年全国《宪法》知识竞赛试题库完整版及答案【历年真题】
- 基本乐理(师范教育专业)全套教学课件
- JJG 270-2008血压计和血压表
- 《解剖学基础》课件-上肢骨及其连接
- 轻质燃料油安全技术说明书样本
评论
0/150
提交评论