基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的_第1页
基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的_第2页
基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的_第3页
基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的_第4页
基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第28卷,第5期 光谱学与光谱分析Vol 28,No 5,pp1071-10752008年5月 Spectro sco py and Spectr al AnalysisM ay ,2008基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的应用吴 迪,曹 芳,冯水娟,何 勇*浙江大学生物系统工程与食品科学学院,浙江杭州 310029摘 要 蛋白质是奶粉中重要的营养成分,实现对奶粉中蛋白质含量的快速、无损检测十分重要。文章采用近红外及中红外光谱技术检测了不同品种奶粉的蛋白质含量。采用最小二乘支持向量机对光谱透射率值和蛋白质值建模。模型在全波段对样本蛋白质含量预测得到了较好的结果,绝对系

2、数(R 2p 达到0 9517,预测误差均方根(RM SEP 为0 520201。预测结果要优于传统的偏最小二乘回归(PL S的预测结果,说明红外光谱技术能够实现奶粉蛋白质含量的无损检测,且检测过程比传统化学检测方法简单,操作性强。文章同时还研究了分别基于中红外光谱范围和近红外光谱范围的建模。模型预测结果显示中红外光谱区域的建模效果要优于近红外光谱区域。该研究为今后奶粉蛋白质含量快速无损检测提供了新的方法。关键词 近红外/中红外光谱;蛋白质;奶粉;最小二乘支持向量机;无损检测中图分类号:O 657 3 文献标识码:A 文章编号:1000-0593(200805-1071-05收稿日期:2007

3、-03-08,修订日期:2007-08-02基金项目:国家科技支撑项目(2006BAD10A04,国家自然科学基金项目(30671213和高等学校优秀青年教师教学科研奖励计划(02411资助作者简介:吴 迪,1984年生,浙江大学生物系统工程与食品科学学院博士研究生 *通讯联系人 e -m ail:eyhez 引 言奶粉是一种大众化的营养食品,它是将牛乳(或羊乳等和谷物、豆类等原料,加上适量的维生素、矿物质、微量元素等加工提炼而成。奶粉中的营养成分比例按照不同的摄食人群搭配。奶粉的质量好坏直接影响消费人群的生命健康。同时随着近年来对于奶粉消费量的上升,奶粉营养成分含量已和奶粉价格直接挂钩。而劣

4、质奶粉以次充好,营养成分含量严重不足,长期食用对身体不利,严重时甚至会危及生命。蛋白质对于生命物质来说非常重要,在新陈代谢、免疫和生命进化等方面发挥重要作用。同时蛋白质也是决定奶粉品质的重要因素。因此必须建立准确的方法来定量检测奶粉中的蛋白质含量。现有检测奶粉蛋白质技术通常采用凯氏定氮法。该方法应用范围广、灵敏度高、回收率好且仪器价格适中,但是同时也存在操作流程繁琐、耗时费力等缺点1,2,且在操作过程中会产生大量有害气体而污染环境,影响操作人员健康。日常消费者采用的奶粉品质判断方法主要包括手感、颜色、气味、味道、溶解速度等,这些方法虽然易于操作,但精度较低、主观性强,只是一种初步的检测手段。因

5、此需要采用一种新的快速、准确、无损、定量的奶粉蛋白质的检测方法来满足一般用户对奶粉蛋白质检测的需要。近红外光谱分析技术(near infr ared spect roscopy,N IRS是一种利用近红外谱区(约125004000cm -1包含的光谱信息,主要用于有机质含量及结构分析的一种技术。N IRS 的信息源主要是物质内部原子间振动的倍频与合频。物质光谱包含了化学成分、分子结构和状态等反映物质特性的信息。N IRS 拥有测量快速、简单、无损、成本低、操作性强等优点。然而NIR S 同时存在有用的光谱信息吸收强度弱、谱峰宽、信噪比低、基团的倍频、合频信息重叠等缺点,从而导致信息提取困难3。

6、虽然N IRS 存在上述缺点,但在物质品种鉴别以及物质内化学成分测量方面的能力已经得到广泛证实4-7。So rensen 通过近红外光谱技术评估了奶酪的传感属性8。H ermida 等采用近红外光谱技术分析了牛油中的水分和脂肪9。中红外光谱分析技术(mid -infrar ed spectra,M IR S测量到的光谱信息范围约为4004000cm -1。与NIR S 相比,M I RS 测量到的信息量大,能够检测到物质中的成分基团不同的振动频率。波段范围更加广泛的M IR S 相对于N IRS 而言拥有更多的光谱信息,这些光谱信息的频率和强度能够用于鉴别相关的功能团10。M IRS 范围内的

7、分子基本振动引起的吸光度要比N IRS更加稳定。因此M IRS相比N IRS而言检测含量低的关键分析物更加有效11。相比较而言,N IRS 能够通过漫反射光纤方便地进行光谱的采集,从而在远距离进行控制,整个操作过程简单,样品的准备工作也少2。因此,两种方法都各有自己的优缺点,在具体实践中需要选择使用。近来,已有一些文章对M IR S和N IRS进行比较研究。Reid等比较了M IR S和N IRS在不同热处理和品种的苹果汁的检测3。Bras等比较了M IRS和NIR S在大豆粉上的建模能力12。其中一些研究表明M IRS所建立的光谱模型比NIR S建立的要好13,14。在光谱技术应用于定量检测

8、之前,需要通过化学计量学方法进行建模。虽然需要花费一定的时间,但是一旦模型建立,应用时则只需要很少的时间。支持向量机(suppo rt vec-to r machine,SV M是在高维特征空间使用线性函数假设空间的学习系统,其通过一个来自最优化理论的学习算法训练。SV M由V apnik等于1998年提出15。SVM是由统计学理论导出的学习偏置,其采用结构风险最小化准则(st ructur-al risk minim izat ion principle,SR M来代替传统的经验风险最小化原则(empir ical r isk minimizat ion pr inciple,ERM。最小二

9、乘支持向量机(least-squares suppo rt vector machine, LS-SV M是在经典SVM的基础上的改进16,能够进行线性和非线性的多元建模,是解决多元建模的一种快速方法17。LS-SV M以求解一组线性方程代替经典SV M中复杂的二次优化问题来获得支持向量(suppo rt v ect ors SVs,降低了计算复杂性,加快了求解速度16,并且能够在少量的训练样本中进行高维特征空间学习。我们研究了利用M IRS和N IR S范围内的光谱信息,采用L S-SV M建立模型对奶粉中蛋白质含量的快速、无损检测。文章将对在M IRS,N IRS以及M IRS与N IRS

10、综合光谱波段所建立的模型进行评估,并对LS-SV M模型与光谱分析常用的PL S模型进行比较,以检验L S-SVM的建模能力。1 材料与方法1 1 材料准备与蛋白质测定研究的奶粉样本来自伊利公司,一共7类,分别为06个月婴儿奶粉、612个月婴儿奶粉、13岁婴儿奶粉、36岁婴儿奶粉、学生加锌奶粉、女士营养奶粉和全脂奶粉。光谱测量仪器是日本JA SCO M o del F T IR-4000傅里叶红外光谱仪(Fo ur ier transfor m infr ared spectr ometer。整个实验过程保持室内温度在25 左右。为了增加透射率,将98%的溴化钾和2%的奶粉样本进行混合,然后通

11、过压片机将混合物压成直径约5mm,厚度2mm的圆柱体,放入光谱仪中进行透射率(T%测试。每个样本测试40次,并对测试值取平均。每个品种的奶粉约采集60个样本,最后得到410个样本。采集到的光谱波数范围从3507800cm-1。由于在检测范围边界存在一定的噪声,因此最终取4006666cm-1光谱范围进行分析。对每个样本的蛋白质含量严格按照GB/ T5413 1-1997检测。蛋白质含量测定值为每百克奶粉样本中的蛋白质重量(g。1 2 最小二乘支持向量机(LS-SV ML S-SV M通过非线性映射函数建立回归模型,将输入变量映射到高维特征空间。然后将优化问题改成等式约束条件。利用拉格朗日乘子求

12、解最优化问题,对各个变量求偏微分。根据M er cer条件,存在映射函数 ( 和核函数K(x i, x j使得(x kT (x l=K(x k,x l,k,l=1, ,N(1常见的核函数有线性核函数、多项式核函数、R BF(radial ba-sis functio n核函数、多层感知核函数等 本文采用了RBF 核函数,从而得到L S-SVM的函数估计为y(x= N k=1 k K(x,x k+b(2 当进行SVM或L S-SV M运算时,有3个关键问题需要解决:决定最优输入特征子集,合适的核函数和最佳核函数参数。而现今还没有系统的方法论来选择核函数。通过与其他核函数的比较,RBF核函数作为非

13、线性函数能够减少训练过程中计算的复杂性。因此RBF核函数被用于本文的L S-SV M计算中。RBF核函数参数的选择采用二步格点搜索法(Gr id sear ching technique和留一法(L eave one o ut cr oss v a-l idatio n相结合对调整参数 和RBF核函数参数sig2( 2进行选择。 决定了SRM和ERM之间的平衡,对改进L S-SV M模型非常重要。 2则控制函数回归误差,并且直接影响初始的特征值和特征向量。 2过小会导致大量的回归量的产生,并且最终导致过拟合。相反, 2过大会导致回归量的减少,模型过于简单,从而影响预测精度。此外, 2还关系到L

14、S-SV M模型对输入变量噪声的灵敏度。2 实验结果与分析2 1 光谱图谱分析(NIR&MIR从每个品种随机选择一个样本分别绘制M IRS区域和N IRS区域的奶粉光谱透射率曲线图(见图1。从N IRS区域中透射率曲线分析可以看到不同奶粉品种曲线整体趋势相对一致,并且存在有3个比较明显的吸收波谷。其中在5155 cm-1左右的吸收波谷为水分的吸收带,4329cm-1左右的吸收波谷为脂肪的吸收带,而在4312cm-1处左右的吸收波谷为蛋白质的吸收带18。在M IR S区域可以看到不同奶粉品种样本透射光谱曲线间的差异性较大。在1545和1656cm-1左右处存在两个蛋白质吸收波谷,在116

15、0,1747,2854和2925cm-1左右处各存在明显的脂肪吸收波谷,在800和1250cm-1处为不同碳水化合物中C O键的振动吸收波谷19。其中1160cm-1处的脂肪吸收波谷和1250cm-1处的C O键吸收波谷相互重叠。800cm-1处的C O键吸收波谷不是很明显。2 2 LS-SVM建模及预测由于测量到的光谱数据从近红外到中红外共7675个透射率值,也就是得到了7675个输入变量。虽然这些变量能够作为输入值进行LS-SV M建模。但是为了提高建模运算速度,减少运算量,本文通过主成分分析(pr inciple co mpo nent analysis,P CA对原始光谱输入变量进行降

16、维压缩,选用贡1072光谱学与光谱分析 第28卷献率最高的8个主成分作为优化输入特征子集,进行LS -SVM 建模。Fig 1 NIRS and MIRS transmission rate ofdiff erent varieties of milk powder(a:NIRS ;(b:M IRS实验得到的410个奶粉样本随机被分为两部分,其中340个样本用于LS -SV M 模型的建立,剩下的70个样本(每个种奶粉10个样本作为预测样本。在采用RBF 核函数的LS -SV M 模型中,参数 和 2的选择是非常重要的。本研究中采用了二步格点搜索法(G rid sear ching t ech

17、nique和留一法(L eave one out cro ss v alidation相结合进行选择。为了在选择中有适当的增量, 的选择范围为2-1210, 2的选择范围为2215。范围的选择是按照先前的研究得到的。在参数的最优选择过程中,将每组 和 2的组合所得到的训练集交叉验证误差均方根(roo t mean square er ro r of cross -valida -t ion,RM SECV 最小值为指标,在两参数张成的平面内进行搜索。寻优过程由粗选和精选两个步骤组成:粗选格点数10 10,如图2中 所示,搜索步长较大,采用误差等高线确立最优参数范围;精选格点数仍为10 10,如

18、图2中 所示,在粗选基础上,以较小步长更加细致地搜索,确定最优模型参数。对 和 2作对数处理,寻优过程与结果如图2所示。最优 和 2值分别为63 8589和10 3467。预测结果的绝对系数(R 2p 和预测误差均方根(ro ot mean square er ro r for pr ediction,RM SEP被用于评估模型检测奶粉蛋白质含量的鲁棒性。最终LS -SV M 预测结果如图3,其中R 2p 为0 9517,RM SEP 为0 520201。偏最小二乘(par tial least squar e,P L S回归作为经典的光谱数据处理算法对L S -SVM 模型一样设置的样本集进

19、行蛋白质含量检测,并将两者的结果进行比较。P L S 建模同样采用全波段范围透光率值,经过完全交叉有效性验证计算,得到前9个隐变量为最优。PL S 预测结果如表1,从R 2p 和RM SEP 的比较中,可以看到L S -SV M 模型在整个近红外和中红外范围对奶粉蛋白质检测的能力要优于PL S 模型,说明L S -SV M 是一个很强的回归模型建立工具。2 3 NIRS 和MIRS 的比较同时采用LS -SV M 模型分别对M IRS 范围和NIR S 范围的光谱透射率进行奶粉蛋白质检测。样本设置和L S -SV M 建模方法都与全波段范围LS -SV M 建模一样。得到预测结果如表1。从L

20、S -SVM 建立的模型预测结果可以看到,M I RS 对奶粉蛋白质含量预测最佳,其次是全波段,而N IRS 的预测效果最差。从原始吸收光谱曲线分析可以看到在NIR 部分,不同品种的奶粉透射率光谱曲线之间的区别主要是相互间的平行关系,也就是说不同蛋白质含量的品种之间的区别不大。同时可以看到在NI RS 区域中曲线存在高频的上下波动,也就是说包含的噪声比较大。这些都对在N IRS 区域进行奶粉蛋白质含量的预测产生负面影响。相比较,在M IRS 区域,各条曲线相对比较光滑,且不同品种之间的曲线差异性较大。虽然这样从直观上似乎更难区分,但是利用L S -SVM 模型便能较好的从光谱透射率信号中提取有

21、用的建模信息,实1073第5期 光谱学与光谱分析现比较精确的奶粉蛋白质含量检测。因此从本研究中得出奶粉的蛋白质含量检测,采用M IRS光谱透射率值的效果要优于NIR S光谱透射率值。Table1 Performance of LS-SVM and PLS model based on different spectra ranges 方法范围 2R2p RM S EPPLS M IRS&NIRS(4006667cm-1M IRS&NIRS(4006667cm-1/63 8589/10 34670 84660 95172 7660830 520201LS-S VMM IRS(40

22、04000cm-1NIRS(40006667cm-1379 491535 628415 01776 88250 95580 9340 4164310 6454743 结 论对近红外及中红外光谱技术对奶粉的蛋白质含量检测进行了研究。采用L S-SV M模型进行建模,在全波段及中红外波段透射率值建模能达到较好的效果。红外光谱方法能够实现对奶粉蛋白质含量快速、无损检测,检测过程比常用的化学方法简单,操作性强。本研究为今后奶粉蛋白质含量快速无损检测提供了新的方法。本研究将在进一步研究红外光谱技术在奶粉蛋白质含量检测的应用,寻找利于仪器开发的敏感波段,扩充奶粉品种和样本数量,并且进一步优化建模方法。参考

23、文献1 H elrich K.Official M ethods of Analysis of the Ass ociation of Official Analytical Chemists(15th edn.Arlington:As sociation of OfficialAn alytical Chemists Inc.,1990.807.2 Kamizake N K K,Goncalves M M,Zaia C T B V,et al.Journal of Food Composition an d Analysis,2003,16:507.3 Reid M L,W oodcock

24、T,O Donn ell P C,et al.Food Research International,2005,38:1109.4 H E Yon g,FENG Shu-i juan,LI Xiao-li,et al(何 勇,冯水娟,李晓丽,等.S pectros copy and Spectral Analysis(光谱学与光谱分析,2006,26(11:2021.5 TANG Yan-feng,ZH ANG Zhuo-yong,FAN Guo-qiang(汤彦丰,张卓勇,范国强.Spectroscopy and S pectral Analysis(光谱学与光谱分析,2005,25(4:5

25、21.6 LIU S hu-hua,ZHANG Xu e-gon g,ZH OU Qun,et al(刘沭华,张学工,周 群,等.S pectr os copy and S pectral An aly sis(光谱学与光谱分析,2005,25(6:878.7 H e Y,W u D,Feng S J.International J ou rnal of Food Pr op erties,2007,10(1:1.8 S orens en L K,Jepsen R.In ternation al Dairy Journal,1998,8:863.9 H ermida M,Gon zalez J

26、 M,San chez M,et al.In ternational Dairy Journ al,2001,11:93.10 W an g Li,Lee S C F,Wang Xiao-ru,et al.Food C hemistry,2006,95:529.11 Roychoudh ury P,H arvey M L,M cNeil B.Analytica Ch imica Acta,2006,561:218.12 Bra s P.L,Bernardino A S,Lopes A J,et al.Chem ometrics and Intelligent Lab oratory S yst

27、em s,2005,75:91.13 Reeves J B,Delw iche S R.Appl.Spectrosc.,1997,51:1200.14 Reeves J B.J.Near Infrared S pectros c.,1994,2:49.15 Vapnik V.Statis tical Learn ing T heory.New York:John W iley and S ons In c.,1998.16 S uykens J A K,Gestel T V,De Braban ter J,et al.L east Squares Support Vector M achine

28、s.Sin gapore:World Scientific Pu blish ing,2002.17 S uykens J A K,Vand erw alle J.Neu ral Processin g Letters,1999,9(3:293.18 YAN Yan-lu,ZH AO Long-lian,HAN Dong-hai,et al(严衍禄,赵龙莲,韩东海,等.Bas ic and Application of Near Infrared S pectros co-py Analysis(近红外光谱分析基础与应用.Beijing:China Light Indu stry Press(

29、北京:中国轻工业出版社,2005.369.19 Zhou Qun,Sun Su-qin,Yu Lu,et al.Journal of M olecular Structure,2006,799:77.1074光谱学与光谱分析 第28卷Application of Infrared Spectroscopy Technique to Protein Content Fast Measurement in Milk Powder Based on Support Vector MachinesWU Di,CA O F ang ,F ENG Shu-i juan,H E Y ong *Co lleg

30、e of Bio sy stems Eng ineer ing and F oo d Science,Zhejiang U niversit y,H angzhou 310029,ChinaAbstract In the present study,the JA SCO M odel F T IR -4000fo urier tr ansfo rm infrar ed spectro met er (Japanwas used,with a valid r ang e of 7800-350cm -1.Sev en brands o f milk pow der wer e boug ht i

31、n a local super market.M ilk pow der w as compressed into a unifor m tablet w ith a diameter o f 5mm and a thickness of 2mm,and then scanned by the spect rometer.Each sample was scanned 40times and the data w ere av erag ed.About 60samples wer e measured for each br and,and data for 409samples w ere

32、 obtained.N IRS analysis was based o n the r ang e of 4000to 6666cm -1,while M IRS analysis w as betw een 400and 4000cm -1.T he pr otein content was det ermined by kjeldahl method and the facto r 6 38w as used to convert the nitro gen values to prot ein.T he pr otein content value is the weight of p

33、r otein per 100g of milk pow der.T he N IR data o f the milk po wder ex hibited slig ht differ ences.U niv ariate analysis w as not really a ppro pr iate fo r analy zing the data sets.Fr om N IRS r egion,it could be observed that the tr end of differ ent curv es is similar.T he o ne ar ound 4312cm -

34、1embo dies the vibr atio n o f pr otein.Fr om M IRS r egion,it could be determined that there are many differ ences betw een t ransmission value curves.T wo tro ug hs a round 1545and 1656cm -1stand for the vibrat ion o f amide and bands o f pro tein.T he smoo thing way o f Sav itzky -Go lay w ith 3s

35、eg ments and ze -r o polynomials and multiplicativ e scat ter co rr ection (M SCw ere applied for deno ising.F irst 8impor tant principle co mpo nents (PCs,w hich wer e obtained fr om pr inciple component analy sis (PCA ,wer e the o pt imal input feature subset.L east -squares suppo rt v ecto r machines w as applied to build the pr otein pr ediction mo del based o n infra re

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论