主成分分析理论介绍及举例.ppt_第1页
主成分分析理论介绍及举例.ppt_第2页
主成分分析理论介绍及举例.ppt_第3页
主成分分析理论介绍及举例.ppt_第4页
主成分分析理论介绍及举例.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

吴海龙湖南大学化学生物传感与计量学国家重点实验室E-mail:hlwu,主成分分析PrincipalComponentAnalysis,Chemometrics?,Thechemicaldisciplinethatusesmathematical,statisticalandothermethodsemployingformallogic(i)todesignorselectoptimalmeasurementproceduresandexperiments,and(ii)toprovidemaximumrelevantchemicalinformationbyanalyzingchemicaldata.,一次测量得到一个值例如:温度、压力、pH、单波长的吸光度等,单变量数据,分析仪器的高性能化例如:UV-可见分光吸收光谱IR、NIR、荧光光谱GC、LC、MSNMR、等样品-浓度数据样品-变量-时间等等,多变量数据,分析过程,测定-得到数据-数据解析-信息-结论=单变量(矢量型数据):平均值、标准差、数据检验、。多变量(矩阵型数据):主成分分析(抽象因子分析,数据简约)、聚类分析、方差分析、。变量组合:(矢量-矢量、矢量-矩阵、矩阵-矩阵)多元线性回归、典型相关分析、主成分回归、。偏最小二乘回归,分析化学中常用方法,定性分析:分类、判别定量分析:工作曲线法、多元校正、QSAR、。建模:Ys=XsB+E,如:Rs=CsS+Es.已知:Rs、Cs,求:S.预测:Yu=XuB+E,如:Ru=CuS+Es.已知:Ru、S,求:Cu.,1PrincipalComponentAnalysis(PCA),主成分分析(PCA),对一个矩阵,利用其变量之间的共线性,对数据进行简约。这样,可直观显示(图示)可提取抽象因子有效克服因严重共线性引起的不稳定算法带来的计算误差放大,即病态,PCA例子,#BTBmcTmc14826131224420963402451043818345329-3-56286-7-87265-9-98244-11-10mean351400B:苯,T:二甲苯;Bmc和Tmc为减去平均值后的值,利用GC得到的8个样品中苯和二甲苯的含量,TmcvsBmc,X矩阵中含有8个样品和两个变量方差协方差阵为:77.7176.2976.2980.86也即,它使用平均化的X矩阵XTX(列数-1)特征矢量#特征值B的系数T的系数方差百分数1155.590.69980.714498.12.980.7144-0.69981.9方差=/(样品数-1),PCA方差协方差矩阵,夹角余弦cos(ij)=(xikxjk)/(xik2xjk2)相关系数cos(ij)=(xik-mi)(xjk-mj)/(xik-mi)2(xjk-mj)2)其中mi和mj分别表示第i和第j个样本的均值.,PCA,计算特征矢量t=x1p1+x2p2(p12+p22)=1p=(p1,p2)t约束条件极大极小化,使用Lagrange乘子法,I为2x2的单位阵,PCA,得到特征值:(77.71-155.59)p1+76.29p2=076.29p1+(80.86-155.59)p2=0p1=0.6998p2=0.7144p1=0.7144p2=-0.6998,Lamda:12155.58762.9838Eigenvector:0.69980.71440.7144-0.6998,特征矢量1和2,特征值与特征矢量,特征值与特征矢量相关连,表示方差的程度特征矢量是根据方差最大化原理进行原始数据的变量的线性组合得到的特征矢量的方差比前一个特征矢量的更小,也就是依次递减此时,特征矢量相互正交,也就是无相关性,PCA的术语,特征矢量又可以叫做载荷轴、主成分、潜变量、抽象因子所谓得分就是原始数据在主成分轴上的投影,也就是下一个图中第一主成分上的圈,PC1和PC2的表示,PCA的优点,它能找到表现原始数据阵最重要的变量的组合通过表示最大的方差,能有效的直观反映样本之间的关系能从最初的几个主成分的得分来近似反映原始的数据阵,用PC1对X阵近似,#BapproxTapproxBmcTmcScore1.12.3612.62131217.672.7.417.569610.583.7.457.6051010.644.3.473.54344.965.-3.97-4.05-3-5-5.676.-7.43-7.58-7-8-10.617.-8.91-9.09-9-9-12.738.-10.39-10.60-11-10-14.84,用PC1对X阵近似,(77.71-155.59)p1+76.29p2=076.29p1+(80.86-155.59)p2=0p1=0.6998p2=0.7144p1=0.7144p2=-0.6998计算得分的方法例:13x0.6998+12x0.7144=17.67利用PC1对X做近似例:17.67x0.6998=12.36X残差例:12.36-13=-0.64,X残差,#BresidTresidBmcTmc1.-0.640.6213122.-1.591.569632.45-2.405104.0.47-0.46345.-0.970.95-3-56.-0.430.42-7-87.0.090.09-9-98.0.61-0.60-1110,PC1对X阵的贡献,T(SPC1X0.7144=)12.62367.56167.60343.5413-4.0516-7.5825-9.0927-10.6030,B(SPC1X0.6998=)12.36567.40717.44803.4689-3.9688-7.4275-8.9069-10.3863,PC1的得分Scores17.670210.584610.64304.9570-5.6714-10.6138-12.7278-14.8418,PC2对X阵的贡献,T(SPC2*(-0.6998)=)-0.6225-1.56112.39750.4591-0.9488-0.41820.09200.6021,B(SPC2*0.7144=)0.63551.5937-2.4475-0.46860.96860.4269-0.0939-0.6147,PC2的得分Scores0.88962.2308-3.4260-0.65601.35580.5976-0.1314-0.8604,得分的平方和,(n-1)xLamda1=PC1得分的平方和(n-1)xLamda2=PC2得分的平方和Lamda反映的是相应主成分的方差大小,常用的PCA,在该情况下,特征值就是得分的平方和例:(17.67)2+(10.58)2+(10.64)2+(4.96)2+(-5.67)2+(-10.61)2+(-12.73)2+(-14.84)2=1089得分与载荷与上例相同,PCA,如果对X不进行预处理,则:得分与载荷与前例不同,PCA,在实际计算中,PCA的计算常采用NIPALS(NonlinearIterativePartialLeastSquares)方法NIPALS方法并不是计算所有的因子,仅仅计算最初的k个主成分,以上为8x2的矩阵,可变为2x2的矩阵,=在实际应用中,对于一个矩阵,Xmxn其每一维的变量都大于2,即m2,n2怎么办?,Singlevaluedecomposition,主成分分析投影的数学意义,因为X=USVt即XV=US亦即XV=Xv1,v2,.,vA=US可见矩阵US=T(亦称非标准化的得分矩阵)的每一个元素实际是每一个样本向量xit(i=1,2,.,n)对荷载矩阵V中的每一相互正交的荷载矢量上的投影坐标(内积本质上就是投影),它反映了样本与样本之间的相互关系;同理可得,荷载矩阵的每一个元素实际是每一个变量向量xj(j=1,2,.,d)对得分矩阵中的每一相互正交的得分矢量上的投影坐标,它反映了变量与变量之间的相互关系。,主成分分析数学几何意义,=,投影,主成分分析的数学与几何意义示意图,2PrincipalComponentRegression(PCR),Lambert-BeerLaw,Emxn,Ymxn,PCR方法是采用多元统计中的成分分析方法,先对混合物量测矩阵Y矩阵直接进行分解,然后只取其中的主成分来进行回归分析,故有主成分回归之称。,方法模型,C=PYY=Y0+EY0=U*S*Vt*Y0+=V*(S*)-1Ut*P=CY0+=CV*(S*)-1Ut*C未知=PY未知,C,Y分别是浓度矩阵和混合物测量矩阵Y0表示只含混合物的量测值和一部分植入误差矩阵Y0+是Y0的广义逆P是回归系数矩阵U,Vt分别为标准列正交和行正交矩阵,即Scores和LoadingsE为误差矩阵U*,S*,Vt*分别为U,S,Vt的前n个特征值和特征矢量作为主成分,其余作为误差丢弃,PCRAdvantages,Doesnotrequirewavelengthselection.Anynumbercanbeused;usuallythewholespectrum,orlargeregions.Largernumberofwavelengthsgivesaveragingeffect,makingmodellesssusceptibletospectralnoise.PCAdatacompressionallowsusinginverseregressiontocalculatemodelcoefficients;cancalibrateonlyforconstituentsofinterest.Canbeusedforverycomplexmixturessinceonlyknowledgeofconstituentsofinterestisrequired.Cansometimesbeusedtopredictsampleswithconstituents(contaminants)notpresentintheoriginalcalibrationmixtures.,PCRDisadvantages,CalculationsareslowerthanmostClassicalmethods.OptimizationrequiressomeknowledgeofPCA;modelsaremorecomplextounderstandandinterpret.NoguaranteePCAvectorsdirectlycorrespondtoconstituentsofinterest.Generally,alargenumberofsamplesarerequiredforaccuratecalibration.Collectingcalibrationsamplescanbedifficult;mustavoidcollinearconstituentconcentrations.,3PartialLeastSquaresRegression(PLSR),PLSR方法不仅直接对混合物量测矩阵Y进行正交分解,而且同时对浓度矩阵C进行正交分解。,方法模型,Y=USVt=U*S*Vt*+Er=T*V*t+ErC=PGQt=P*G*Qt*+Ec=R*Qt*+Ec,C,Y分别是浓度矩阵和混合物测量矩阵P是回归系数矩阵U,Vt(P,Qt)分别为标准列正交和行正交矩阵,即Scores和LoadingsEr,Ec为误差矩阵U*,S*,Vt*分别为U,S,Vt的前n个特征值和特征矢量作为主成分,其余作为误差丢弃,NIPLS算法步骤,1.初始迭代矢量:取C某一列r2.r代替T*的tvt:vt=rtY/(rtr)3.归一化v:vt新=vt旧/|vt旧|4.vtt:t=Yv/(vtv)5.t代替R*的rqt:qt=ttC/(ttt)6.归一化q:qt新=qt旧/|qt旧|7.Qtr:r=Cq/(qtq)8.判断t是否收敛|t前一轮-t后一轮|是否小于给定常数。否,则重复2-7;是,则继续9。,9.进行回归运算:b1=rt1/(tt1t1)10.EY,1=Y-t1vt1;EC,1=C-r1qt1=C-b1t1qt111.EY,1用代替Y,EC,1代替C,返回主因子迭代过程9-10,算下一个主因子:r2,qt2,t2,vt2得到EY,2,EC,2,直到得到所有的Y和C的主因子(可用交互校验法和方差比较来决定)12.由储存的Vt*Y未知(Y=T*Vt*)t未知r未知(b=rt/(ttt)由储存的Qt*C未知(C=R*Qt*),ThegeometricrepresentationofPLSR.TheX-matrixcanberepresentedasNpointsintheKdimensionalspacewhereeachcolumnofX(x_k)definesonecoordinateaxis.ThePLSRmodeldefinesanA-dimensionalhyper-plane,whichinturn,isdefinedbyoneline,onedirection,percomponent.Thedirectioncoefficientsoftheselinesarep_ak.Thecoordinatesofeachobject,i,whenitsakdata(rowiinX)areprojecteddownonthisplanearet_ia.ThesepositionsarerelatedtothevaluesofY.,PLSDisadvantages,CalculationsareslowerthatmostClassicalmethods,especiallyPLS-1.Modelsaremoreabstract,thusmoredifficulttounderstandandinterpret.Generally,alargenumberofsamplesarerequiredforaccuratecalibration.Collectingcalibrationsamplescanbedifficult;mustavoidcollinearconstituentconcentrations.,4PatternRecognition(PR),Featureextractionmethods,Pretreatmentmethodsforpatternrecognition,变换法xij,new=xij,oldxij,new=lg(xij,old)以达到改变数据标度的目的。变量组合法将原来的变量按一定方式,如变量相加、变量相减或变量相比等进行组合以产生新的变量。,Patternrecognitionbylatentprojections,Principalcomponentanalysis(PCA)Partialleastsquares(PLS)SIMCA(classificationbasedonprincipalcomponentanalysis),主成分分析的数学与几何意义示意图,SIMCA计算过程框图,从此框图我们可以看出,SIMCA实际上是在循环地使用主成分分析方法,它先是用主成分分析方法来得到整个样本的分类,然后,在此基础上,分别建立各类样本的主成分模型,继用它们来检验未知样本,判别未知样本的类别。由于整个SIMCA计算过程可在投影图上直接进行,所以,只要计算机程序的人机对话界面建立得好,此方法可完全在图上直接操作完成,使用起来非常方便。将SIMCA编入商业软件的例子很多,比较著名的有Unscrumber和Serius的软件。,令样本数据矩阵表示为:X=USVtxjt(j=1,2,.,n)称为样本向量,则一个样本就由样本矩阵中的一个行向量来表示。xjt=xct+ktikvkt+eit,主成分分析建模算法可由下述步骤所组成:,1)定义样本到主成分模型的距离:si=eitei/(d-A)这是因为样本矢量表达式的前一部分,即tikvkt正是主成分荷载矢量的线性组合,属于可由主成分模型表出的部分,在样本矢量表达式中没被主成分模型所包含的就是误差矢量,所以,样本到主成分模型的距离就是误差矢量的点积,上式中的分母是样本矢量在建立了主成分模型,即降维后的自由度,由原样本空间的维数减去主成分数而得。si在SIMCA方法中常被称为第i个样本的残余标准偏差(RSD)。,主成分分析建模算法可由下述步骤所组成:,2)定义整个类的均值标准偏差sc:如令s=s1,s2,.,si,.,snt,则整个类的均值标准偏差sc可由下式给出sc=sts/(n-A-1)上式以(n-A-1)为分母的理由是为了整个类的均值标准偏差不受该类内样本数多少的影响,而且,还考虑了由于引入A个主成分所失去的自由度。,主成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论