偏最小二乘方法ppt课件_第1页
偏最小二乘方法ppt课件_第2页
偏最小二乘方法ppt课件_第3页
偏最小二乘方法ppt课件_第4页
偏最小二乘方法ppt课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章偏最小二乘方法,偏最小二乘方法(PLS-PartialLeastSquares)是近年来发展起来的一种新的多元统计分析法,现已成功地应用于分析化学,如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos公司用于化合物三维构效关系研究的CoMFA(ComparativeMolecularFieldAnalysis)方法,其中,数据统计处理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS特别适用于自变量的个数多于试样个数的情况。在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。,1,6.1多元线性回归(MLR),若自变量为m个,xj(j=1,2,m),因变量为y,在y与xj间,我们可以建立一线性模型,即,(6.1a),(6.1b),(6.1c),在式中,bj为回归系数。,在式(6.1)中仅有一个试样,若有n个试样,即为yi(i=1,2,n),它的列向量形式为y,b与原来相同,矢量xj为矩阵X的行,则:,y=Xb+e,2,若用图形表示,则为:,y=XB+e,1,m,1,1,n,n,n,m,在此情况下,n为试样数,m为自变量数。有如下三种情况:,(1)mn,即变量数多于试样数,对于b来说,则有无穷多个解。,(2)m=n,变量数与试样数相等,若矩阵X满秩时,则矢量b有唯一解。但是,在实际工作中,这种情况是极少能碰到的。此时我们有:,e=yXb=0,3,(3)m(主成分数)到步(5),否则到步(3)。,(5)得到的Y为已经标准化,因此需按照标准化步骤的相反操作,将之恢复到原始坐标。,4.关于主成分数,若X和Y间关系符合线性模型,则描述模型的主成分数应与模型的维数相等。主成分数是偏最小二乘模型的重要性质。,由于测试数据一般隐含噪声,故主成分数通常与X的秩不相等。如前已述及,在实际问题的处理中,总是要消去一些因子(成分),因为这些因子所表征的主要是测试误差、噪声及由于变量间相关所引起的共线问题等。,31,确定主成分数的一种方法是以式(6.8)中Fh的模数为判据。图6.3为模数对主成分数所得关系曲线,可以选定某值作为门限,当小于此值时,则停止迭代。,图6.3与偏最小二乘中因子书的关系,另一种方法是运用F检验来测试内在相关性(innerrelation)以确证所建立的模型。,32,再一种方法为交叉验证法。在这种方法中计算一统计量PRESS(predictionresidualsumofsquares),即预测残差之平方和。如图6.4所示,显然,人们总是希望采用某一主成分数时所产生的PRESS为最小。但最小的位置常难以准确确定。用这种方法确定主成数非常类似于测定下限的概念。所谓测定下限即在噪声存在下最小可以检出的信号。在图6.4的情况下,因子数可取48。,图6.4PRESS与因子数的关系,33,5.应用实例腐植酸和木质磺酸盐的荧光分光光度分析5,磺酸木质素(ligninsulfonate)是水中的一种污染物,可用荧光分光光度法测定.尽管此种方法具有高灵敏度和高选择性,但在磺酸木质素的测试中腐植酸和去污剂中的光白剂(opticalwhitener)对其严重干扰。这三种化合物的发射光谱重叠非常严重(见图6.5).由图可见,没有一个区域仅为一种化合物所具有的发射光谱.,图6.5腐植酸(),磺酸木质素(-)和去污剂()的发射光谱(均由纯物质测试所得),34,这三种化合物不仅发射光谱严重重叠,同时在溶液中相互间有影响,如图6.6所示,三种纯物质的发射光谱加和()与其混合溶液的发射光谱()并不一样,这就进一步增加了问题的复杂性.但是借助于偏最小二乘法,可以进行单一成分的测试,所得结果尚较满意.,图6.6腐植酸,磺酸木质素和去污剂纯溶液发射光谱加和()及三物质混合溶液的发射光谱(-),35,首先,看一下二组分的情况,表6.1所示为腐植酸和磺酸木质素混合样品的浓度测定结果。,表6.1腐植酸与磺酸木质素混合物溶液测试结果(g/ml),其中,预测误差为预测浓度与实际浓度之差.如对于小组分磺酸木质素,平均误差为-0.024(g/ml),相应的标准偏差为0.085(g/ml)。标准偏差所用公式为:,36,而非相似度因子(dissimilarityfactor)的表达式为:,式中,sa2(Ex)为X阵的主成分模型所引进的残余标准方差。而s2为,s2=/(ma),其中,m为X的维,a为主成分数,e为:,运用F显著性检验,其自由度为(m-a)/2和(m-a)(na1)/2,显著性水平为,若s2sa2(Ex)F,则计算值可信。,37,若试样增加一组分,即去污剂(含光白剂),其结果示于表6.2。由此表可见,对于腐植酸和磺酸木质素来说,三组分与二组分浓度预测准确性大体上相当。对于去污剂来说,也得到了较好的结果。在表6.2的情况下,由于为三组分混合物,所以构造主成分模型时,也相应增加一因子。,表6.2腐植酸,磺酸木质素和去污剂混合溶液测试结果(gml),38,若试样仍如表6.2,即混合物为三组分,但预测为两个组分,也就是说构造的预测模型为二因子,其结果示于表6.3。由此表可见,预测误差反而比表6.2为小。原因为:模型中少一因子,所以可使结果更稳定。,表6.3三组分混合物,但仅测试腐植酸和磺酸木质素二组分(g/ml),39,6.4非线性偏最小二乘,非线性偏最小二乘与线性偏最小二乘的区别仅仅在于X与Y的内在相关性,即后者为一直线,而前者为一曲线,如一抛物线。,曲线的表示有多种数学模型,如二次多项式,三次多项式,指数函数和对数函数等。其中,最简单的为二次多项式:,式中,T,U分别为X,Y的得分矩阵,p,Q分别为X,Y的装载矩阵,a为某一主成分,这种最简单的二次项扩展的偏最小二乘可简记为QPLS,QPLS的基本思想是:将X和Y分别投影于t和u:(1)将X和Y分别以tp和uq近似;(2)同时满足u和t内在的二次相关性。,40,QPLS的算法为:,(1)进行数据X和Y的标准化处理;,(2)置因子数(即主成分数)a的初值为0;,(3)将a增1:a=a+1;,.将Y的某一列(具有最大方差)作为u的起始矢量;,.由PLS计算和t的起始矢量:,将归一化:=1,41,(4)由最小二乘法测定系数c:,以r标记所计算的u(记为),(5)计算Y的装载q:,将q归一化:,计算新的u:,并由最小二乘法,利用新值计算和。,42,校正:,重写此式,以u=F(X,c)表示,并进行未知参数c和的线性化,在F00处可表示为:,合并c00和c0得新c0,合并c01ti与c0ti得新c1ti等等,由此,上式为:,43,此式可用于新的计算:,a.由一维线性PLS计算:,(i)以为前k列,以1,ti和ti2为后3列,建造Z矩阵。,(ii),将v归一化:,(iii),(iv),(v)(前k列),44,b.计算新:,=+d,将归一化:,(9)检验收敛:,若,或者已经迭代到某一最大次数(如50次或100次),之后到步(9),否则到步(4)。,(10)由最后t值计算新值:,r=(步4),q(步6),u(步7)和c(步4)。,(11)计算装载,45,(12)计算残差:,以残差E与F作为X和Y,若迭代次数a,回到步(3),否则到步(13)。,(13)y值预测,(i)将新矢量x进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论