版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、样条变换集成罚函数偏最小二乘方法用于光谱数据重构和定量分析 【摘要】 针对高维小样本光谱数据所显现的函数型数据(Functional data)特性、与性质参数的非线性关系及变量间存有的严重共线性,采用了样条变换集成罚函数偏最小二乘回归新技术。它首先以三次B基样条变换实现非线性光谱数据的线性化重构,随后将重构的新光谱矩阵交由罚函数偏最小二乘法(Penalized PLS)构建其与性质参变量间的校正模型,其中罚函数中的光滑因子由交叉验证优化确定以调控模型的拟合精度。最后,通过小麦样品水分含量的近
2、红外光谱定量分析,结果显示该技术光谱数据重构稳健,去噪明显,并有效解决高维小样本的过拟合和变量间的共线性,而预测集的均方根误差(RMSEP)为0.1808%,方法的非线性校正模型预测能力得到了明显提高。 【关键词】 样条函数, 偏最小二乘, 粗糙惩罚, 近红外光谱, 定量分析, 小麦1 引言 现代光谱以其分析速度快、重现性好、成本低、不消耗样品、易于实现在线分析等特点而得到广泛应用()。而光谱化学计量学是近代红外光谱分析技术的重要组
3、成部分,它通过多变量校正技术来进行数据(样本光谱和其性质参数)处理,以获得准确的分析结果1,2。考虑到近红外光谱数据通常呈多变量、强相关性,并与样品性质参变量间的非线性关系,适宜选用非线性偏最小二乘法(Nonlinear PLS,NLPLS)。目前,NLPLS实现方式有3种:一是基于样本矩阵的非线性变换,即在建模自变量中引入某些原始变量的非线性项,如二次项、交叉项等3;二是将建模变量投影到低维的曲线或曲面上得到非线性特征向量,再建立输入输出特征向量间的非线性关系4,但该方法计算复杂,建模受初值影响大;三是保留PLS的线性外部模型,而内部模型采用多项式、样条函数、模糊规则、神经网络、支
4、持向量机等非线性形式59,该方法缺乏对建模物理变量的直观解释能力。 鉴于光谱变量与性质参变量间的具体非线性依存关系不明确,及样本个体光谱数据显现为波长变量的函数型数据(Functional data)特性10,本研究采用样条(Spline)变换集成罚函数偏最小二乘(Penalized PLS)回归新技术,记为SplinePPLS方法。首先利用样条基函数将光谱自变量与性质因变量之间的未知非线性关系按照各维自变量与因变量的拟线性关系相加展开11。由于样条函数分段拟合、可按需要裁剪以适应任意曲线连续变化的特点,使光谱的重构函数曲线适应
5、光谱数据局部敏感特性的同时保持了函数的光滑性和连续性,从而可削减原始数据中的噪声。随后,考虑到光谱矩阵经样条变换后变量维数显著增加,将重构的新光谱矩阵交由罚函数偏最小二乘法构建其与性质参变量间的定量线性校正模型,其中基于转换权向量二阶导数的罚函数用以调控模型的拟合精度(医药学/临床医学论文 )。为考察SplinePPLS方法的有效性及性能,对小麦近红外光谱数据进行了研究。2 SplinePPLS方法的构建2.1 B基样条曲线 设变量与x满足如下随机模型:x=s(),
6、160;(), ar()()若在区间a,b上的一个段划分a=b, 则式(1)中s()的三次B基样条逼近曲线方程11为:s()=M+2l=0cl3l1h, ab(2)式中3l1h=13!h34k=0()k4k(l+k),是以l+k(k=0,1,2,3,4)为内控节点、步长为h的三次B基样条函数,它与x呈线性关系。对于分点l及其内控节点l+k位于划分的两侧,本研究取 和。 取观测位置, 2,
7、60;, p相应数据点x1, x2, , xp与它们在样条曲线上插值映射点的距离平方和最小为目标函数,优化求取各基函数的线性加权系数cl(l=0, 1, , M),即共有个基函数,从而完成该序列数据形如式(2)的B基样条逼近曲线构造。Riches do not always bring happiness. 2.2 罚函数偏最小二乘方法(Penalized PLS) 数据点xj(j=1,2,p)在B基样条映射的线性空间中的插值映射点zj
8、的分坐标定义为:zj,0=(jh), zj,l=3(j0h, ,,zj,M+2=3(jh)(3)现将样本个体自变量x在p维变量空间中的取值,即x=(x1,x2,xp)T,计算其所有插值映射点zj各分坐标并加以组合,即可得到x的B基插值映射点矢量 z,即为z=(z1,0, z1,1, , z1, z,0, z,1,, z,, , zp,0, zp,1, ,zp,M+2)T(4) 由于每一维变量xj有K个映射分坐标,故矢量z的空间维数将
9、为p×。 对于样本容量n的自变量矩阵Xn×p,欲构建其与性质矢量y间的非线性校正模型,则先实施X的每一样本个体xi(i=1,2,,n)的B基样条变换(各样本个体选取基函数个数应相同,即K1=K2=n=K),得到映射样本矩阵Zn×(p×K),而其与y已演变为拟线性关系。再实施Z与y的线性PLS算法。 鉴于Z较X的变量维数显著增加,变量间的相关性更为严重,本研究采用罚函数偏最小二乘(Penalized PLS,PPLS)方法10构建 &
10、#160;Z与y间的校正模型。PPLS方法的目标函数为arg maxwwTZTyyTZwwTw+P(w)(5)上式分母中基于转换权向量w的罚函数P(w)=wT(K2)w, 其中K2=(DK),而DK为(K)×维的w一阶差分算子矩阵。另外, diag(,p)为各初始自变量的光滑因子对角阵。Pw实为二阶导数罚函数,意在增强w平滑其特征向量t=Zw的能力,以提高模型的稳健性。 由上述PPLS算法思想可见,它是以放弃拟合精度为代价寻求预测性能更优的一种改进PLS方法。同时,PPLS对病态数据的耐受性远强于普通PLS方
11、法。现将基于初始样本阵X,y及各自变量光滑因子对角阵的B基样条变换的PPLS算法(SplinePPLS)步骤10归结如下:(1)实施的n个B基样条逼近曲线的优化构造,并得其映射矩阵Z;(2)令h=1, Zh=Z,并计算P=K2及 M=(Ip+P),其中p为p维单位阵;(3)计算转换权向量wh=MZThy, 并规一化wh=wh/wh;(4)计算特征向量th=Zhwh,并规一化 th=th/th;(5)记Th=t1,t2,,th,计算其正交投影矩阵Qh=Th(TThTh)+TTh, 式中“+”为矩阵广义逆;(6)
12、计算剩余矩阵Zh+1=ZhhZh;(7)令h=h+1, 重复步骤(3)(7),直至由交叉验证(Cross validation )法13 确定所需提取的最优成分数h后,将得到转换权矩阵W=w1,w2,,wh, 进而可计算与y间的线性回归系数()y)zy。3 SplinePPLS方法为小麦近红外光谱重构及定量分析3.1 样本数据说明 小麦样品数据取自文献14,自变量取其近红外光谱在波长11002500 nm、扫描分辨率为2 nm的若干波长
13、处的吸光度值log(1/R), 即维数p=701,其中R为样本的反射率,样本容量n=100,谱图如图1所示。性质参变量为小麦水分质量百分含量,数值范围在12.45%17.36%。从原始数据集中随机划出80个构成训练集用于光谱B基样条变换的优化确定及后继校正模型建立,其余20个组成独立测试集,用于检验B基样条的光谱插值重构能力及模型的预测性能。Fig.1 NIR diffuse reflectance spectra of wheat samples3.2 实验方式与性能评价指标
14、160; 为检验SplinePPLS方法的性能,先将训练样本Xntrain×p以“变量留一交叉验证”13选定K个样条变换的B基函数,其优化评定指标为式(6)中的RMSECVspline;再以“样本个体留一交叉验证”选定各变量的光滑因子1,2,,p及校正模型所需PLS最优成分数h,它们的优化评定指标则为式(6)中的RMSECVppls。而光谱B基样条变换的插值重构性能及校正模型的预测性能,则交由测试样本Xntest×p计算,它们的评价指标分别为式(7)中的RMSEPspline和RMSEPppls。RMSECVspline=pj=1ntrai
15、ni=1(xijij)2/(ntrain×p), RMSECVppls=ntraini=1(yii)2/ntrain(6)RMSEspline=pj=1ntesti=1(xijij)2/(ntest×p), RMSEppls=ntesti=1(yii)2/ntest(7)式中xij和ij分别为第i样本个体、第j波长变量下吸光度的实验值和B基样条曲线的插值;yi和i则分别为第i样本个体性质参变量的实验测试值和模型预报值。Fig.2 Selection of basic functi
16、ons number and the rebuilding spectrum curve for the first sample data a. Rootmean squared error at different numbers of basic functions; b. 28 Basic functions and
17、its rebuilding spectrum curve.A clear conscience is a sure card. 图2a显示了RMSECVspline与K的相关关系,随着K的增多,RMSECVspline总体呈下降趋势,在K=28时,RMSECVspline已很小,而其后的RMSECVspline值下降有限。考虑到参数K取值越大,经B基样条变换后的拟线性变量个数将越多,且变量间将出现更多复共线性, B基样条逼近曲线易出现对训练数据的过拟合,而对包含于数据中的噪音削减不够;若K取值太小,B基样条逼近曲线对数据的插值能力将下降。因
18、此,本研究选定K=28。图2b显示了这28个基函数及由它们所重构的第1训练样本个体光谱数据的三次B基样条逼近曲线。由图2b可见,该样条曲线实现了对光谱数据较高精度的插值拟合。另外,将这28个基函数用于Xntest×p的插值重构,其精度指标RMSEspline,表明B基样条具有极强的插值重构能力。God sends fortune to fools. In a great river great fish are found; but take heed lest you be drowned. 表1 PPLS方法中参数的优化选择(略)Ta
19、ble 1 Parameter selection of the penalized PLS method从表1可见,模型性能指标ppls在参数和h的二维搜索格子点, h=5位置达最小,由此选定它们为PPLS模型相应参数的最优取值。同时还发现,该位置ppls指标小于, h=5的PLS方法的结果。由2.2节PPLS方法的目标函数式(5)可知,取值的大小将影响w平滑其特征向量t=Zw的程度,并进一步作用于PPLS方法的模型系数()y)x,y。图3即为PLS和PPLS方法施于样本阵,y的结
20、果比较。其中PPLS模型系数曲线受到变量光滑因子的粗造惩罚而得到了平滑。这样,它既可最大限度保证分析信号不失真,又能进一步削除噪音。 图3 PLS和PPLS模型回归系数比较(略)We are here to add what we can to life, not to get what we can from it. Fig.3 Comparison of model coefficients for the PLS and Penalized
21、160;PLS method论文包括学年论文、毕业论文、学位论文、科技论文、成果论文等. What I have done is due to patient thought. 表2 5种不同校正模型的性能比较(略)Table 2 Comparison of model performance for five methods【参考文献】 1 Chu XiaoLi(褚小立), Xu Yu
22、Peng(许育鹏), Lu WanZhen(陆婉珍). Chinese J. Anal. Chem.(分析化学), 2008, 36(5): 7027092 Hao Yong(郝 勇), Cai WenSheng(蔡文生), Shao XueGuang(邵学广). Chem J Chinese Universities(高等学校化学学报), 2009, 30(1):
23、28313 VerduAndres J, Massart D L, Menardo C,Sterna C. Anal Chim Acta, 1997, 349(13): 2712824 Malthouse E C, Tamhane A C, Mah R S H. Computers & Chemical Eng
24、ineering, 1997, 21(8): 8758905 Baffi G, Martin E B, Morris A J. Computers and Chemical Engineering, 1999, 23(3): 3954116 Wold S. Chemometrics and Intelligent Laboratory System
25、s, 1992, 14(1/3): 71847 Cheng Zhong(成 忠), Chen DeZhao(陈德钊), Wu XiaoHua(吴晓华),Ye ZiQing(叶子青). Chinese J. Anal. Chem.(分析化学), 2005, 33(7): 9729768 Baff G, Martin E B, Morris A J. Computers and Chemical Engineering, 1999, 23(9): 129313079 Li ShiYong(李世勇), Wang Fang(王 芳), Shao XueGuang(邵学广). Tobacco Science & Technology(烟草科技), 200
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 与零点、极值点有关的证明课件-2026届高三数学二轮复习
- 特教自闭症考试试题及答案
- 抗真菌药试题及答案
- 企业安全生产制度
- 万达物业奖惩制度规定
- 报考事业编没写奖惩制度
- 项目部精测室奖惩制度
- 临时人员用工制度
- 学校教练员奖惩制度
- 高三管理奖惩制度细则
- 2026山东青岛新泊控股集团有限公司社会招聘10人笔试模拟试题及答案解析
- 2026年预包装食品购销合同(1篇)
- 2026云南昆明巫家坝商业运营管理有限公司校园招聘8人考试备考题库及答案解析
- 【新教材】人教PEP版(2024)四年级下册英语 Unit 1 Class rules 教案
- 露天矿山节后复工安全培训
- (2025年)医学基础知识考试试题库与答案
- 《2025年新湘教版六年级下册小学信息科技备课教案》
- 2026年甘肃省公信科技有限公司面向社会招聘80人(第一批)笔试模拟试题及答案解析
- 2026年中级消控岗位能力测试题目及答案
- 智能医学应用基础- 课件全套 娄岩 第1-13章 智能医学基础理论 -智能医学的伦理、法律与社会问题
- 拖轮安全意识培训课件
评论
0/150
提交评论