【《近红外光谱在大米产地分类中算法分析案例》10000字(论文)】_第1页
【《近红外光谱在大米产地分类中算法分析案例》10000字(论文)】_第2页
【《近红外光谱在大米产地分类中算法分析案例》10000字(论文)】_第3页
【《近红外光谱在大米产地分类中算法分析案例》10000字(论文)】_第4页
【《近红外光谱在大米产地分类中算法分析案例》10000字(论文)】_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

近红外光谱在大米产地分类中算法分析案例目录TOC\o"1-3"\h\u12051近红外光谱在大米产地分类中算法分析案例 [29]:(1)C为惩罚系数,控制着超过不敏感区域时的惩罚力度。其取值越大,模型对于错误的出现率就要求越低,即容错率越高,但此时也会导致模型的泛化能力不足,即过拟合现象;相反,该数值越小,容错率越低,预测精度就不会达标,即所谓欠拟合。(2)为宽度系数,是径向基核函数内的一个重要参数,控制着支持向量的相关程度。值选取过小时,最佳超平面的经验风险小、结构风险大,即所谓的过拟合现象;相反地,若值选取过大,最佳超平面的结构风险小、曲线光滑性高、经验风险大,即所谓欠拟合现象。从上述分析可知,对于支持向量的影响恰恰与C的控制规律相反,但无论是还是C,过大或过小的参数设置,都会导致模型的精度降低。上述的两个径向基核函数的参数从不同的角度,直接或间接地影响着支持向量机的性能,数值的过大或过小都会产生相应问题,因此,在支持向量机的使用中,正确地选用核函数参数的大小才能得到正确的结果,而本文中之所以使用粒子群算法的目的,就是利用这种群智能进化算法解决这一类问题。②MATLAB中的代码设置:本章中使用的SVC算法利用的是一种MATLAB工具箱叫“LIBSVM”,它是一种经常被用于处理分类和回归等计算机问题的软件工具箱,使用起来方便快速,功能强大,由于其出色的性能,MATLAB制造公司已经将其相关算法语句囊括到了更高级别版本中的MATLAB。将LIBSVM工具箱下载到电脑上后,打开MATLAB以编译文件,并将编译好的文件添加到路径中。其中,LIBSVM工具箱处理分类问题中的多分类问题,采用的方法是一/一,其中主要涉及两个函数,即libsvmtrain(train_label,Train_matrix,cmd)libsvmpredict(train_label,Train_matrix,model)其中,各变量表示的内容如下:—train_label:训练样本的类标,类标是(-1,1)、(1,2,3)或者其他任意用来表示不同的类别的数字;—Train_matrix:训练样本的特征。—model:即使用libsvmtrain返回的模型。—cmd:预设的参数详情。其中cmd预设参数中对本章分类处理有用的参数细节如下图所示:图5-11工具箱LIBSVM中与本章参数设置有关细节图上述的这些参数数据都可以和SVM的类型以及核函数需要变动的参数进行组合编写,如果编写的参数语句在SVM类型中不产生任何影响的话,程序就不会使用该参数;或者是编写的参数格式不正确,工具箱系统将采用默认参数进行运算。③基于PSO算法的参数最优化具体步骤如下:(1)初始化粒子群算法,即设置好初始的粒子群,并给出其中参数的最大和最小数值范围,最后设置最大迭代次数;(2)确认好各粒子的初值、位置以及全局最佳值值;(3)根据步骤(1)-(3)进行逐步运算,同时根据公式(5-26)、(5-27)同步变化粒子的位置和速度数值;(4)计算每个粒子的适应度函数值;(5)若某些粒子的适应度优于局部最优值,则更新局部最优值。否则,保留原始值;(6)若更新后的局部最优值较全局最优值更好,则更新全局最优值,否则保留原始全局最优值;(7)如果运行的结果不再改变或已经达到了最大迭代次数时,则停止迭代运算。否则,返回步骤(3)继续动作;(8)将得到的值带入SVC模型中,并对大米样本数据进行分类训练和预测;(9)得到最终的分类结果,根据结果判断模型是否准确可信。基于PSO的支持向量机实验结果及分析建模数量的影响为了验证建模用数量对模型准确率的影响,进行如下实验,同理于偏最小二乘法,采用的前处理方式为吸光度变换,正态变量交化,验证逻辑使用参考验证法,经过建模和验证,几次比较有代表性的结果如下:表5-16吸光度变换+SNV+参考验证法(建模样本总数40)种类建模用数验证用数正确率五常104082.5%响水104032.5%越光104030.0%银水104070.0%表5-17光度变换+SNV+参考验证法(建模样本总数160)种类建模用数验证用数正确率五常4040100%响水404072.5%越光404027.5%银水404095.0%表5-16和表5-17以及表5-1和表5-2的验证结果说明,在样本数量不足的情况下,正确判别率下降了。由此可以得出结论,建模数量减少会导致准确率下降,从另外一个角度来说,即建模数量增加可以提升准确率。特征波长的影响(1)光谱数据在波数5700~4300cm-1(数据点:1090~1816):表5-18特征波段5700~4300cm-1的支持向量机验证结果种类建模用数验证用数正确率五常404090.0%响水404057.5%越光404027.5%银水404087.5%由表5-3可看出此波段的溯源准确率不高,相较于该波段在偏最小二乘法中与本文第四章所选取的的波段结果差距较小这一结果而言,该波段在支持向量机中表现效果不如本文第四章所取波段,侧面说明不同的特征波段在不同的算法和环境中表现效果不同。(2)从波数5500~5000cm-1(数据点:1194~1453)上看:表5-19特征波段5500~5000cm-1的支持向量机验证结果种类建模用数验证用数正确率五常404045.0%响水404020.0%越光404020.0%银水404082.5%(3)从波数5501~5136cm-1(数据点:1193~1383)上看:表5-20特征波段5501~5136cm-1的支持向量机验证结果种类建模用数验证用数正确率五常404035.0%响水404017.5%越光404017.5%银水404070.0%观察验证结果可以发现,这三个特征波段的整体准确率都低于本文选取的特征波段,且各个实验的结果与在偏最小二乘法中的实验结果相一致,因此,通过这两种分类算法中对文献中提到的三个特征波段进行验证和实验分析,可以得出以下结论:①对同一实验设备所测的光谱数据,其特征波段的选择会影响产地溯源的准确性;②间接表示了特征波段含有与产地相关联的信息;③另外还体现了在特定情况下表现良好的特征波段,在其他情况下表现不佳。不同前处理方式的影响由于选取的波段在SVM算法建模过程中,建模数据的验证准确率为100%,即偏最小二乘法中的参考验证法在SVM模型中不适用,因此后面的对比实验无论采用何种验证方式都对结果无影响。支持向量机中常用的预处理方法有SNV、限定范围、平均化、归一化以及标准化。表5-21透过率+SNV种类建模用数验证用数正确率五常4040100%响水404072.5%越光404027.5%银水404095.0%表5-22透过率+限定范围种类建模用数验证用数正确率五常4040100%响水404070.0%越光404027.5%银水404087.5%表5-23透过率+SNV+限定范围种类建模用数验证用数正确率五常4040100%响水404070.0%越光404027.5%银水404087.5%表5-24透过率+平均化种类建模用数验证用数正确率五常404097.5%响水404065.0%越光404010.0%银水404095.0%表5-25透过率+归一化种类建模用数验证用数正确率五常404010.0%响水404065.0%越光40400%银水404055.0%表5-26透过率+标准化种类建模用数验证用数正确率五常4040100%响水404072.5%越光404027.5%银水404095.0%通过观察表5-21、表5-22、表5-24、表5-25以及表5-26可知,在支持向量机中单独使用的预处理方法效果最好的是SNV,而限定范围无明显效果,通过表5-21和表5-26可以得出结论,标准化处理和SNV处理在支持向量机中并无明显区别,表5-24和表5-25表明,在支持向量机中单独使用平均化和归一化处理效果较差,不适用于此。通过上述结论可以知道,在支持向量机中最好的预处理手段是SNV,而在偏最小二乘法中最好的处理方式是平均化,因此,侧面反映出了不同的预处理手段在不同的分类算法中表现效果是不一样的。表5-27透过率+SNV+平均化种类建模用数验证用数正确率五常4040100%响水404070.0%越光404022.5%银水404095.0%表5-28透过率+平均化+SNV种类建模用数验证用数正确率五常4040100%响水404072.5%越光404027.5%银水404095.0%在支持向量机分类的方法中,单独使用SNV,平均化或限定范围的效果都差不多,但是将两种预处理方法混合使用时没有见到效果提升,其中无论如何变换处理顺序都对处理结果无过多影响,该结论与在偏最小二乘法中得到的结论相一致。可改进空间及误差分析消除外部因素影响在测量获得大米样品的近红外光谱数据时,由于周围环境的水分、氧气等其他人为操作等因素的影响,获得的结果或多或少含有一些噪声信号。所以后续得研究分析中,应做到规范操作、纠正不合理步骤、控制环境稳定的情况下进行。通过大量的实验分析可以得知,大米产地溯源的分类结果与样品在检测装置中的重量无关,而与被测时的摆放状态有关;若是检测样本中研磨不到位,存在大颗粒的样品时,检测结果会很受影响;同时当样本粉末没有达到要求厚度时,信号反馈噪声较大;当剧烈摇晃样品杯时,样本粉末可能在杯内呈斜面状,这种情况是正常测量时所不被允许的。提升硬件可靠性实验测量过程中存在一些问题,同一数据多次测量后发现其光谱曲线的复现率有时较差,信号能量水平较低,清洗装置困难等问题。为了解决这些问题,后续的工作可以首先优化操作过程,避免在操作过程中被外部环境等因素影响测量数据的重复性。然后,可以通过改变样品玻璃的形状或增加换气入口,在不接触反射的球面镜的情况下持续清洁内部,避免了样品落入附件里面的问题。针对低信号电平这一设备的硬件问题,可以通过改进实验设备,通过调整球面镜在仪器附件内的位置来产生尽可能多的能量。但是,在进一步的研究中应该选择更加可靠、易清洁和复现性高的测量仪器,避免因仪器的硬件不可靠等问题掩盖大米不同产地间细微的差异。模型存在改进空间①理想情况下,我们希望上述研究所选取的特征波段是引起不同产地大米光谱数据间不同的充分必要条件。但事实是,上述选取的数据只是造成不同产地大米光谱数据不同的充分条件,而非必要条件。这样说的理由是,虽然第四章所选取的近红外光谱的特征波段对于不同产地间大米光谱数据的区分有一定的贡献,但是这种贡献针对不同的分类算法有不同的效果显示,由于选取后的特征波段所包含的光谱数据之间仍然存在线性相关的现象,所以对于各不相同的具体大米产地溯源分类算法而言,还需要通过数据降维的方式消除数据中重叠的部分,即特征提取。而且,针对支持向量机分类算法而言,通过上述章节的实验观察可知,现阶段实验整体的验证准确率中,即使存在部分大米种类在支持向量机算法中的验证准确率高于偏最小二乘法,但是支持向量机算法的总体效果不如偏最小二乘法明显,因此,可以对支持向量机算法进行改进,对提取出来的特征波段进行降维。②通过偏最小二乘和支持向量机分类实验,证明了不同区域的水稻,近红外光谱是不同的,但当一个没有输入到过模型的水稻产区数据用于模型的验证时,并且该样品的傅里叶近红外光谱数据与五常大米在模型中的曲线最为相似时,模型还是会将该未被识别过的大米数据识别为五常大米。因此,当模型输入的类型并不多的时候,其使用范围基本上局限于已记录的类型之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论