版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第29卷,第11期 光谱学与光谱分析Vol 29,No 11,pp2959 29612009年11月 Spectro sco py and Spectr al AnalysisNo vember ,2009有监督主成分回归法在近红外光谱定量分析中的应用研究刘旭华1,2,徐兴忠1,何雄奎2,张录达2*1 北京理工大学理学院,北京 1000812 中国农业大学理学院,北京 100193摘 要 介绍了运用有监督主成分回归法建立近红外光谱定量分析模型的原理和方法。利用该方法先进行近红外光谱定量分析建模的波长信息选择,达到降低光谱数据维数的目的,然后建立数学模型,并用其分析预测集样品。文中以66个小麦样
2、品为实验材料,随机选择其中40个样品建立小麦样品中蛋白质含量的近红外光谱定量分析模型,首先优选出4个波长点:4632,4636,5994,5997cm -1,利用这4个波长点处光谱信息建立主成分回归模型预测26个样品的蛋白质含量,其结果与凯氏定氮法分析结果的相关系数为0 991,平均相对误差为1 5%。该方法从大量光谱数据中筛选出最重要的部分波长信息,实现了 少而精 的波长点选择,对建立抗共线性信息干扰的光谱定量分析模型,同时对指导专用近红外分析仪器设计中波长点的选择等方面都有一定的意义。关键词 近红外光谱;有监督主成分回归;定量分析中图分类号:O 657 3 文献标识码:A DOI :10
3、3964/j issn 1000 0593(200911 2959 03收稿日期:2008 11 06,修订日期:2009 02 08基金项目:国家自然科学基金项目(10771015,20575076和国家 863 项目(2007AA10Z208资助作者简介:刘旭华,1979年生,北京理工大学在职博士生 *通讯联系人 e mail:zhangldcau edu cn引 言近红外光谱分析技术是近年来迅猛发展起来的高新技术,已引起广泛重视。传统的分析方法测定一个样品的多种性质或浓度数据需要多种不同的化学测定方法,成本高,工作效率低,远不能适应实际的需要。而对于近红外分析,一般取得样品光谱数据后可立
4、即得到定性或者定量分析报告,整个过程可以在几分钟内完成,而且只通过样品的一张光谱图就可以计算出样品的各种组成或性质数据。此外被测样品无需预处理,不破坏样品,无污染1 4。样品的近红外光谱包含了物质的组成信息。应用化学计量学方法对物质的化学组分与物理信息(光谱进行关联,可以确定两者间的定性或定量关系,即定标模型。建立定标模型后,对未知样品只要测出其近红外光谱,根据定标模型就可以预测样品的质量参数。近红外光谱分析常用的计量方法有:多元线性回归分析(M L RA ,主成分回归法(P CR ,偏最小二乘法(P LS和人工神经网络法(A N N 等5 9。它们都是常用的化学计量学方法,有着各自的优点和局
5、限。在进行光谱定性、定量分析时,为了使选择的波长更适合于所测样品品质,包含待测样品品质更多的信息,有必要在测定谱区对校正样品所测品质信息的波长点进行优化选择。本文研究一种在近红外光谱区 少而精 的选择波长点进行光谱定量分析的建模方法!有监督主成分回归(super vised principal components r egr ession,SP CR 10,首先根据待测样品的组分信息与光谱数据的相关性进行光谱点筛选,降低光谱数据的维数,然后利用主成分回归分析建立数学模型,并用建立的模型分析预测集样品。1 实验仪器与材料1 1 实验仪器实验所用仪器为V er ctor 22/N 型傅里叶变换近
6、红外光谱仪(Br uker 公司,谱区范围为350012000cm -1;信噪比(S/N 10000;波长准确度为0 01cm -1。1 2 实验材料66个小麦样品由中国农业科学院品种资源所提供。样品由中国农业科学院品种资源所通过国标凯氏定氮法测定其蛋白质含量(称为化学值。66个小麦样品被碾磨成粉状,过孔径为0 423mm 筛,在仪器上扫描样品的近红外光谱。光谱的扫描区间为40009000cm -1,扫描分辨率为4cm -1。2 有监督主成分回归分析方法原理及步骤有监督主成分分析方法11不使用所有的回归自变量建模,而是只利用那些与响应变量有较强相关关系的自变量,根据响应变量与各自变量的相关系数
7、对回归自变量集合进行筛选,将相关系数超过某个阈值的自变量筛选出来,然后对新选出的部分回归自变量进行主成分回归分析。具体步骤如下。(1计算响应变量与每一个回归自变量的相关系数;(2将超过某个阈值 的相关系数所对应的自变量组成一个新的数据集;(3计算(2中的数据矩阵的主成分;(4利用(3中提取的主成分进行回归建模并用于预测。3 结果与分析在扫描谱区40009000cm-1间隔约4cm-1取点,共测得1297个波长点处的光谱信息。从66个样品中随机选择40个样品用于建模,剩余26个样品为预测集。光谱预处理采用15点平滑一阶导数处理。根据有监督主成分回归的原理,利用M atlab软件编程运算,从129
8、7个波长中选出4个波长点:4632,4636,5994,5997cm-1,分别对应164,165,517和518号自变量,利用这4个波长点处的光谱信息建立主成分分析模型,其第1、第2主成分分别为:P C1:-0 7036*x164-0 7076*x165+0 0588*x517+ 0 0272*x518P C2:0 0455*x164+0 0435*x165+0 778*x517+ 0 6251*x518利用蛋白质含量数据与PC1和PC2做回归,得到主成分回归模型如下:y=20 65-3328 3*x164-3307 8*x165-13725* x517-11099*x518将模型用于预测样品
9、集中样品蛋白质含量的定量分析,预测结果列于表1。由表1可见26个小麦预测样品的蛋白质含量的凯氏定氮结果与模型的预测结果的相关系数为0 991,平均相对误差为1 5%。此结果表明模型完全可用于小麦样品的蛋白质含量的定量分析,且有较好的分析结果。与利用偏最小二乘法对全分析谱区的光谱信息建模得到的预测结果相比,预测精度基本相当。但考虑到偏最小二乘模型是对全分析谱区的所有数据信息不加选择的进行利用,而有监督主成分模型只利用了4个波长点处的光谱信息,则后者从统计的角度实现了 少而精的波长点选择的优势便可以充分地体现出来。Table1 Predication result of the models an
10、d Kjeldahl#s value for the protein content of the twenty sixth wheat samples序号化学值有监督主成分模型预测值相对误差/%偏最小二乘模型预测值相对误差/%118 020017 74521 5317 69001 83216 890017 02220 7816 93310 26314 380014 43510 3814 44300 44415 530015 91052 4515 46240 44516 740017 05051 8516 97001 37615 550015 64850 6315 41600 86715 62
11、0016 15683 4415 66060 26812 220012 17490 3712 19270 22912 200012 10130 8112 15560 361019 240019 44451 0619 54801 601118 000018 39022 1718 19001 061219 340019 48020 7319 01601 681316 490016 55160 3716 34300 891414 890015 07351 2315 09801 401513 010012 92870 6212 81001 541615 070015 52313 0115 21100 9
12、41715 030014 91610 7615 03100 011814 180013 38755 5913 76302 941918 320019 10624 2918 46300 782015 180015 04190 9115 11850 412113 090013 06670 1813 25301 252213 320013 28140 2913 32990 072316 080016 65093 5516 50502 642418 480018 71841 2917 95302 852515 470015 35930 7215 28201 222615 080014 92211 05
13、14 89800 0121R1=0 991M ean=0 015R2=0 993M ean=0 011 2960光谱学与光谱分析 第29卷从上述运算中可以看到,为了确定小麦样品蛋白质含量的近红外光谱定量分析模型,取4个波长点处的光谱信息即可建立模型,且模型分析精度完全可以满足实际分析的需要。4 结 论有监督主成分回归法可实现 少而精 选择波长点,因此在一定程度上克服了不同波长点处的光谱信息间复共线性对模型预测精度的干扰,而且该法在算法复杂程度上优于一般的向前、向后及逐步回归选择变量(波长的回归方法。另外,从实用的角度考虑,光谱的近红外全谱区扫描仪器造价比较昂贵,而利用该法实现对波长进行选择,有
14、针对性的测量一些最重要的波长信息,可以指导设计一些适用于不同目的、造价相对低廉的专用光谱测量仪器。参考文献1 LU W an zh en,YUAN Hong fu,XU Guang tong,et al(陆婉珍,袁洪福,徐广通,等.T echnology of M od ern Near Infrar ed SpectralAnalys is(现代近红外光谱分析技术.Beijing:Ch ina Petroch emical Press(北京:中国石化出版社,2000.4.2 Burn s Donald A,Ciurczak Em il W.Handbook of Near Infrared
15、An alys is.New York :M arcel Dekker In c.,1992.3 YAN Yan lu,ZHAO Long liang,H AN Dong h ai,et al(严衍禄,赵龙莲,韩东海,等.Foun dation of NIR S pectral Analys is and ItsApplication (近红外光谱分析基础与应用.Beijing:China Light Indu stry Press(北京:中国轻工业出版社,2005.4 CH U Xiao li,YU AN H ong fu,LU Wan zhen(褚小立,袁洪福,陆婉珍.Progress i
16、n Chem istry(化学进展,2004,16(4:535.5 Nguy en D V,Rocke D M.Bioinformatics,2002,18:39.6 W old H.Soft M od ellin g by Latent Variables:T he Nonlinear Iterative Partial Least Squares (NIPALS Appr oach,in Perspectives inProbability and Statistics,In Honor of Bartlett M S,1975.7 M y ers R H.Clas sical and M
17、 odern Reg ress ion w ith Application,Boston ,M ass achusetts :Duxbury,1986.8 M ardia K,Kent J,Bibby J.M ultivariate Analysis,Academic Pres s,1979.Study on the Application of Supervised Principal Component Regression Procedure to Near Infrared Spectroscopy Quantitative AnalysisLIU Xu hua 1,2,XU X in
18、g zho ng 1,H E Xio ng kui 2,ZH A NG Lu da 2*1.Co llege of Science,Beijing Institute o f T echno log y,Beijing 100081,China2.Co llege of Science,China Ag ricultur al U niv ersit y,Beijing 100193,ChinaAbstract T he pr esent paper intro duces the pr inciple of a new mo deling met ho d,called superv ise
19、d pr incipa l co mpo nent r egr es sio n,w ith which the model of the near infr ared (N IRspect roscopy quantitative analysis was established.U sually ,there are many difficulties such as collinearity w hen establishing t he quantitative analysis mo del for the hig h dimension of the spectral da ta.
20、U sing this new method,fir stly acco rding to so me cr iter ion,the wav elength info rmatio n is selected in order to reduce the di mension of spect ral data.T hen the selected low er dimensional spectral data set is used to establish t he pr incipal component re g ressio n mo del.T aking sixt y six
21、 wheat samples as ex periment mat erials,fo rty samples w ere cho sen r andom ly to establish the pr edict ing model,w hile t he r emaining tw ent y six th wheat samples wer e view ed as predictio n set.In this example,4w ave leng ths,4632,4636,5994and 5997cm -1,wer e selected at first acco rding t o the coefficients between the response var iable and each spectral data.T hen tw o principal components of the spectral data at tho se fo ur w aveleng ths w ere extr acted to establish the pr incipal component r egr ession model.T he mo del w as used to the predictio n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南郑州市外国语学校2025-2026学年高三下学期3月阶段检测化学试卷(含答案)
- 护理急诊护理
- 特殊人群药物反应的护理策略
- 四川省资阳市2026年中考数学二模试题附答案
- 护理影像科护理教学课件
- 病区护理工作标准化建设
- 2026年ISPE生物制品连续制造良好实践指南要点解析
- 2026年智慧安防边缘视频分析人脸识别行为检测部署
- 2025年前台服务沟通测试卷
- 2026年任务并行数据并行模型并行三种分布式智能实现原则
- 2026湖南张家界市桑植县招聘城市社区专职工作者20人考试参考试题及答案解析
- 2025年国家保安员资格证考试题库+答案
- 2026年温州永嘉县国有企业面向社会公开招聘工作人员12人考试备考试题及答案解析
- 工艺报警考核制度
- 2025年泰州职业技术学院单招职业倾向性考试题库带答案解析
- 保密要害部门部位课件
- (新教材)2026年春期人教版三年级下册数学教学计划+教学进度表
- 涉密机房培训
- (正式版)DB61∕T 2103-2025 《砖瓦用页岩矿资源储量核实技术规范》
- 智能笔的行业分析报告
- 蜡疗课件教学
评论
0/150
提交评论