《计算化学》-计算化学-第4章_第1页
《计算化学》-计算化学-第4章_第2页
《计算化学》-计算化学-第4章_第3页
《计算化学》-计算化学-第4章_第4页
《计算化学》-计算化学-第4章_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4.1主成分分析4.1.1主成分分析的基本概念在化学和化工的很多问题中.存在着多个因变量都是多个自变量的函数问题。设这多个自变量都是独立的.即相互之间不存在线性相关的关系.当独立的自变量的数目为厂时.则这厂个独立的自变量就构成了一个厂维空间.每一个自变量构成该空间的一个坐标轴。所有因变量在这厂维空间的任一轴上都有一个分量.这个分量可称为一个成分。在数学上一个厂维空间的坐标系可通过平移和旋转等线性变换形成新的坐标系.新坐标系中的坐标轴相当于一组新的独立自变量.新自变量是原自变量的线性组合。在新坐标系中.因变量在空间的相对位置不变.但其在各坐标轴的分量即成分却发生了变化下一页返回4.1主成分分析在这多个自变量中.子i子i有些是已知的.有些是末知的.有些自变量对因变量的影响很小而可以忽略.有些自变量对因变量的影响不可忽略。在化学和化工中.那些对因变量影响很小而可以忽略的末知自变量子i子i就是引起随机误差的一些因索。因此在处理问题时.常‘常希望去掉那些对因变量影响很小的可以忽略的末知自变量.只保留那些对因变量的影响不可忽略的自变量.使问题得到简化。为此.可以在独立自变量的总数厂已经确定的情况下(尽管有些自变量是末知的).自行构建一组相互正交的坐标轴来建立一个厂维空间。在构建时设法使因变量在某些坐标轴上的分量即成分尽可能大些.在某些坐标轴上的成分则尽可能小些以致可忽略。于是就可以将这些可忽略的成分去掉.即将相应的坐标轴去掉.形成一个低维的空间.使因变量在这维数较低的空间被表达时能使其信息得到最大限度的保留。上一页下一页返回4.1主成分分析当因变量在这维数较低的空间被表达时.其在这低维空间的任一轴上的分量.即成分可称为一个主成分.相应的坐标轴可称为主轴。该低维空间的维数即主成分的数目.亦即主轴的数目.则可称为主成分数。当因变量的值在一定范围内已测出时.可以用数学中的多元统计方法对这些因变量的测量值进行计算.求出其主成分和主成分数。这种对因变量的主成分和主成分数进行计算的多元统计分析技术称为主成分分析。上一页下一页返回4.1主成分分析设因变量的数目为p,现对n个样品中的这些因变量进行测量.可得一个测量数据矩阵Yn×p。设Yn×p的秩为r(若n<p,则r≤n;若n>p,则r≤p),则表明独立自变量的总数为r,即相当于Y中的数据为在r维空间中的数据主成分分析的目标就是要通过对Y的分析.在力保Y中的数据信息损失最少的情况下.使Y中的信息能在一个pc(pc<r)维的低维空间中表达。将Y进行主成分分析后.通过降低数据空间的维数.略去了可忽略的自变量的影响.突出了重要自变量的影响.从而有利于数据的处理上一页下一页返回4.1主成分分析以光谱分析为例.设混合物样品的组分数为2.现对n个混合物样品在一定的波长范围内进行光谱扫描.记录h个波长点的吸光度数据(2<n<p).用这些数据组成光谱数据矩阵An×p。如果不存在误差,理论上应有An×p=Cn×2K2×p,即理论上An×p的秩应为2(因为组分数为2·即Cn×2的秩为2),即自变量的数目为2。但由于实验误差的存在.即An×p=Cn×2K2×p+En×p,实际上测得的An×p的秩总是会大于2(大多数情况下,An×p往往是满秩矩阵)。利用主成分分析就可将An×p的数据信息在除去误差后再在2维的空间表达.从而得到更准确的分析结果。上一页下一页返回4.1主成分分析在数学上.对矩阵Yn×p进行主成分分析就是将Y中的p个列向量(即p个因变量)用适当的方法线性组合成pc个相互独立的新向量t1,t2,...,tpc(如n<p,则pc<n<p;如p<n,则pc<p<n;),当这pc个新向量已能在允许的误差范围内表达出Y中的信息时.则每一个新向量就是Y的一个主成分.新向量的数目pc、就是Y的主成分数。在这些主成分中.提取Y的信息量最多的主成分称为第一主成分.其次为第二主成分.依此类推。上一页下一页返回4.1主成分分析4.1.2主成分的计算原理矩阵Yn×p的每一个主成分都是Yn×p中p个列向量的一个线性组合。设t1是的第一主成分.则t1是Yn×p中p个列向量的线性组合.即式中.主成分t1是n维列向量;v1是t1的系数向量,亦即空间坐标系的第一主轴.是p维列向量。系数向量v1是归一化的.即v1Tv1=1。要使t1能最大限度地提取Y的信息.就要找到适当的系数向量v1使t1的方差达到最大.即要找到适当的v1,使式中.协方差矩阵YTY是一个p×p的实对称矩阵。为方便计算.可令Z=YTY。上一页下一页返回4.1主成分分析式(4.1)需采用拉格朗日(Lagrange}算法求解。即构建式(4.1)的拉格朗日函数后再对v1求导数.令导数为零.即可求得式(4.1)的解。式(4.1)的拉格朗日函数L(v1)表达式为式中,λ1是待定系数。对L(v1)求v1的导数并令其为零.得从而有上一页下一页返回4.1主成分分析数学上已经证明.对于一个p×p的实对称矩阵Z=YTY,总是存在一个p×p的正交矩阵V,使V-1ZV=VTZV=D为对角矩阵。V中每一个列向量都是Z的一个特征向量.其中第k个列向量vk是Z的第k特征向量。这些特征向量是正交归一的.即当j=k时.vjTvk=1;当j≠k时.vjTvk=0。对角矩阵D的对角线上的数是Z的特征值.其中第k个数λk是与vk相对应的特征值.即对于λk和vk,有从式(4.5)可以看出.主成分t1=Yv1的系数向量;就是实对称矩阵Z=YTY的一个特征向量.即是能使YTY对角化的正交矩阵V中的一个列向量因此有上一页下一页返回4.1主成分分析要使t1Tt1达到最大.就要使λ1是Z的最大特征值.即要使t1的系数向量v1是与Z的最大特征值λ1相对应的特征向量因此要计算Y的第一主成分.只需求得实对称矩阵Z=YTY的特征值和特征向量.将与最大特征值λ1相对应的特征向量v1作为系数向量.即作为第一主轴.按式t1=Yv1计算所得的t1即为Y的第一主成分。设t2是Yn×p的第二主成分.则t2同样是Y中p个列向量的线性组合.即上一页下一页返回4.1主成分分析式中.v2是t2的系数向量即第二主轴.系数向量v2同样是归一化的.即讨v2Tv2=1。按照各个主轴必须是相互正交的要求.系数向量v2与v1必须相互正交.即必须有讨v2Tv1=0。事实上.由于v2也是实对称矩阵Z=YTY的一个特征向量.即是能使YTY对角化的正交矩阵V中的一个列向量.因此v2只需是V中一个不同于v1的列向量.就可满足v2与v1相互正交的条件。要使t2能提取Y的第二大信息量.则应将与Z=YTY的第二大特征值λ2相对应的特征向量v2作为系数向量即第二主轴。因此.要计算Y的第二主成分.只需将与Z的第二大特征值λ2相对应的特征向量v2作为系数向量即第二主轴.按式t2=Yv2计算所得的t2即为Y的第二主成分。上一页下一页返回4.1主成分分析依此类推.要计算Y的第k主成分.只需将与Z的第k大特征值λk相对应的特征向量vk作为系数向量.按式tk=Yvk计算所得的tk即为Y的第k主成分。主成分tk从Y中提取的信息量与其主轴vk对应的特征值λk的大小有关。λk越大.tk从Y中提取的信息量越大。矩阵Yn×p(设n<p的秩不大于n,设为r,则实对称矩阵Z=YTY的秩也为r.即Z的非零特征值的数目不会超过r个。因此主成分的数目小于r(如主成分数等于r就失去了提取主成分的意义)上一页下一页返回4.1主成分分析4.1.3主成分的性质①主成分的方差等于其系数向量对应的特征值。这一性质已从主成分的计算原理得知②不同的主成分相互直交。例如.对于第二主成分t2与第一主成分t1.必定有t2Tt1=0,因为二者的主轴相互直交.即v2Tv1=0从而有上一页下一页返回4.1主成分分析③当从矩阵Y中提取了pc个主成分后.再用这pc个主成分对Y进行回归.相应的回归方程为式中,p1T,p2T,...,ppcT分别是主成分t1,t2,...,tpc的回归系数向量,t1p1T是主成分t从Y中提取的信息量,t2p2T是主成分t2从Y中提取的信息量,依此类推。Y残余是Y被主成分提取信息后的残余矩阵。式中的回归系数向量由如下公式计算式中.Y1=Y-t1p1T是第一主成分提取了信息后的残余矩阵。这些计算公式可以证明如下。上一页下一页返回4.1主成分分析因为t1从Y中最大限度地提取了信息量t1p1T,从而残余矩阵Y1=Y-t1p1T的方差应达到了极小值.即应有将f(p1)对p1求导并令其为零.同时注意到P1t1TY是对称矩阵.P1t1TY=YTt1p1T于是可得从而有上一页下一页返回4.1主成分分析于是得同样可以推得又因为t1Tt2=0,而有因此有上一页下一页返回4.1主成分分析设从矩阵Yn×p中提取了pc个主成分.可将这pc个主成分组成一个n×pc矩阵同时.可将相应的pc个回归系数向量组成一个p×pc矩阵通常将Tp×pc称为得分矩阵(score).将Pp×pc称为载荷矩阵(loading)。上一页下一页返回4.1主成分分析应用得分矩阵和载荷矩阵.可将pc个主成分从Yn×p中提取的信息量的总和表示为用这pc个主成分对Y进行回归时.相应的回归方程则可表示为④当主成分tk的主轴为Z的特征向量vk时.则回归方程中的回归系数向量Pk即为vk。这是因为上一页下一页返回4.1主成分分析4.1.4主成分的计算方法从主成分的计算原理可知.只要找到一个正交方阵V.使V-1ZV=VTZV=D为对角矩阵,就可进行主成分的计算对矩阵Y进行主成分分析的计算方法有多种上一页下一页返回4.1主成分分析方法一

计算实对称矩阵Z=YTY的特征向量法此方法直接根据主成分的计算原理进行计算.即先计算出实对称矩Z=YTY,再计算出由Z的特征向量组成的正交方阵V和由Z的特征值组成的对角矩阵D,最后再计算出Y的主成分。应用Matlab程序可以很方便地求出Z的特征向量矩阵V和特征值对角矩阵D。相应的计算程序为求得V和D后.就可按特征值的大小次序用相应的特征向量按式tk=YDk依次计算出从大到小的各个主成分。上一页下一页返回4.1主成分分析方法二奇异值分解法数学上已证明.任何矩阵Yn×p都可按下式分解为三个矩阵的乘积:式中.Un×n是一个正交矩阵;Vp×p也是一个正交矩阵;Sn×p则是一个对角矩阵。矩阵按该式进行分解.称为奇异值分解(singularvaluedecomposition,SVD)。SVD是一种正交矩阵分解法.是最可靠的矩阵分解法.也是在主成分分析中最常用的矩阵分解法。将矩阵Y进行SVD分解的Matlab程序为上一页下一页返回4.1主成分分析现在分析矩阵U,S和V与Y的主成分和主轴的关系根据奇异值分解.有从而有上一页下一页返回4.1主成分分析从式(4.9)可知.正交矩阵V正是YTY的特征向量矩阵.因此Y的主成分的系数向量即主轴是V中的列向量.即V中的某些列向量是Y的主成分的系数向量即主轴。对角矩阵S2中对角线上的数值就是YTY的特征值又由Yn×p=Un×nSn×pVTp×p可得令即有可见.T中的某些列向量就是Y的主成分。可见奇异值分解可同时求出Y的主成分及其主轴。上一页下一页返回4.1主成分分析方法三NIPALS算法非线性迭代偏最小二乘法(nonlineariteratmepartialleaststares,NIPALS)可以用来对量测矩阵Y进行主成分分析NIPALS算法的具体步骤如下:①从Y中任取一个列向量作为初始主成分t;②由初始主成分t和矩阵Y根据式t=Yv计算主轴v:③将v归一化:vnew=v/||v||;上一页下一页返回4.1主成分分析④用归一化后的新的v计算新的t⑤用新的t作为初始t再从第②步开始继续进行迭代计算.直至新的t与初始t之间的差值在给定的误差范围之内.再按tTt计算特征值.并进行下一步运算;⑥从矩阵Y中减去tvT:再返回第一步继续进行计算.直至Y趋向于给定的误差范围之内以上计算步骤可用Matlab软件编程执行上一页下一页返回4.1主成分分析4.1.5主成分数的判别Y残余的大小与选取的主成分的数目有关。设Yn×p的秩为r(r不大于n和p中的较小者).若主成分的数目pc等于秩r.则Yn×p中的信息将被完全提取.Y残余=0但此时并末到达降秩的目标。因此在实际工作中选取的主成分的数目m应该小于秩r.这样才能达到降秩的目标。只要Y残余在允许的误差范围之内.主成分的数目pc越小越好。由主成分的计算原理可知.主成分提取的信息量可由其主轴对应的特征值的相对大小表征。因此可以通过对特征值的分析来判别应选取的主成分数目。用特征值判别主成分数有多种方法.判别l时特征值按从大上一页下一页返回4.1主成分分析1.RE判据法RE(realerror)函数的表达式为到小的排列次序为λ1,λ2,...。下面介绍其中的几种。式中.n和p分别是矩阵Y的行数和列数(假定p>n);m是假定的主成分数;λk是特征值。上一页下一页返回4.1主成分分析RE是一个均方根误差。RE表示提取了m个较大的特征值后.剩余的特征值所含的均方差。当实际测量方法的误差已知时.可将RE与实际测量误差相比较。当RE大于实际测量误差时.说明假定的主成分数过小.还需继续提取主成分。当RE与实际测量误差的大小相当时.则对应的m值就是主成分数。应用RE判据的条件是实际测量方法的误差大小是可以估计的。当实际测量方法的误差大小难以估计时.则难以直接用RE判据来确定主成分数上一页下一页返回4.1主成分分析2.IND判据法IND(indicator)函数的表达式为IND也是一个误差函数。IND随m的取值不同而不同。当m的取值小于实际的主成分数时.IND有较大的值。随着m值的增加.IND逐渐减小到一极小值.随后又随m值的增加而增大。当IND取得极小值时的m值就是主成分数。用IND判别主成分数时不需知道实际测量方法的误差大小.方法也较灵敏.这是其优势.但是其可靠性不如RE法上一页下一页返回4.1主成分分析3.REV判据法REV(redtcedeigenvalte)函数的表达式为式(4.12)为第k个特征值的REV函数。相邻两个特征值的REV函数的比值为上一页下一页返回4.1主成分分析比值Rk随着k值变化的规律是:当k小于或等于主成分数m时,Rk显著大于1;当k大于主成分数m后.Rk将在1的附近波动。因此在应用REV判据时.可先从最不重要的特征值开始计算Rk值.当计算到Rk显著大于1时.此时的k值即为主成分数。用REV判据法判别主成分数时也不需知道实际测量方法的误差大小.方法也较可靠。在判别主成分数时.为避免仅用一种判据可能作出不正确的判断.应该同时使用多种判据来作出判断上一页返回4.2主成分回归主成分回归是建立在主成分分析基础上的多元校正方法。前已述及.在因变量的测量数据矩阵中.不但包含了已知自变量的贡献.还包含了产生误差的因索等一些末知自变量的贡献。当采用一般的多元线性回归模型(如经典最小二乘法、反推最小二乘法等)对末知样品的有关自变量进行预报时.就会把建模时的误差影响包含进去.从而影响预报结果。根据主成分分析的原理.如果能在建模时先对因变量的测量数据矩阵进行主成分分析.当只取pc、个主成分后.就可在保证因变量的测量数据矩阵中有关自变量的信息得以保留的情况下.除去一些误差的影响。因此.如果用经主成分分析后的得分矩阵对相应的自变量数据矩阵进行回归.显然能改善预报的准确度。另一方面.因变量的测量数据矩阵有时可能存在着某种程度的相关性.当采用主成分分析后.由于只提取了pc、个相互独立的主成分.因此利用这些主成分进行回归就可以克服矩阵数据间的相关性给预报带来的困难。主成分回归由于有以上两方面的优越性.因此成为了一种被广泛应用的多元校正分析法下面简述主成分回归的计算原理下一页返回4.2主成分回归设多元线性回归的有限样本模型为主成分回!归的建模过程分为两步。第一步.将因变量测量数据矩阵Yn×p进行主成分分析.即用适当的计算方法计算主成分.计算方法可采用前述的对称矩阵特征向量法、奇异值分解法(SVD)或非线性迭代偏最小二乘法(NIPALS)确定主成分数pc.从而获得得分矩阵Tn×cp和载荷矩阵Pp×pc然后用得分矩阵和载荷矩阵重构滤去误差项的因变量数据矩阵:上一页下一页返回4.2主成分回归第二步.用一个系数矩阵Gpc×m按下式回归得分矩阵Tn×pc和自变量数据矩阵Xn×m从式(4.13)和式(4.14)可以看出.得分矩阵Tn×pc是与自变量数据矩阵Xn×m相对应的.而载荷矩阵PTpc×p则与系数矩阵Bm×p相对应。得分矩阵Tn×pc中的主成分可看做是抽象的自变量.而式(4.15)则是将抽象自变量与真实自变量相关联的回归方程模型。求系数矩阵的原则是应使X残差的方差达到最小.因此根据最小二乘法原理.可按下式求得系数矩阵Gpc×m:上一页下一页返回4.2主成分回归在求出Gpc×m后,结合Yn×p=Tn×pcPTpc×p即Tn×pc=Yn×pPp×pc相应的主成分回归模型就已建立.该模型即为应用主成分回归模型进行预报.简述如下。设未自变量向量为xu,1×m=(x1,x2,...,xm),实验测得的相应因变量向量为yu,1×p=(y1,y2,...,yp)(注意:在预报步骤中定义的向量xu、yu的维数与回归建模时定义的x,y的维数和含义都存在差别,预报中的xu和yu分别是m维和p维行向量.而回归建模时的x和y都是n维列向量)。将xu和yu代入回归模型中.得到的预报方程为上一页返回4.3偏最小二乘回归法偏最小二乘回归法也是一种以主成分分析为基础的多元校正方法。在主成分回归中.只是对因变量的测量数据矩阵进行了主成分提取.而将自变量数据矩阵作为准确值进行回归分析。事实上.自变量数据矩阵中也可能存在着误差和线性相关性.并且自变量也可反过来看做是因变量的函数。考虑到这一事实.如果对自变量数据矩阵也进行主成分分析.势必可进一步提高预报的准确度。偏最小二乘回归法就是同时对因变量数据矩阵和自变量数据矩阵进行主成分分析.并用二者的主成分进行回归的多元校正分析法。由于同时对两个矩阵进行了主成分分析.因此偏最小二乘回归法进一步提高了预报的可靠性。下面简述偏最小二乘回归法的计算原理下一页返回4.3偏最小二乘回归法设多元线性回归的有限样本模型为式中.Xp×m是自变量数据矩阵;Yn×p是因变量数据矩阵。偏最小二乘回归法同时对X和Y进行主成分提取和回归。计算时一般先进行第一主成分的提取和回归.然后再依次进行第二主成分和其他主成分的提取和回归。上一页下一页返回4.3偏最小二乘回归法1.第一步设x的第一主成分和第一主轴分别为u1和v1,Y的第一主成分和第一主轴分别为t1和w1,即有式中的第一主轴v1和w1都是归一化的.即讨v1Tv1=1,w1Tw1=1。偏最小二乘法中首先就是要找到适当的第一主轴v1和w1,使第一主成分u1和t1一方面能最大限度地分别提取X和Y中的信息.另一方面又能使u1和t1之间有着最大的线性相关性。要使u1和t1同时达到这两个要求.在数学上.就是要找到适当的v1和w1使u1和t1的协方差达到最大.即是要找到适当的v1和w1,使上一页下一页返回4.3偏最小二乘回归法式(4.18)仍需采用拉格朗日(Lagrange)算法求解。即构建式(4.18)的拉格朗日函数后再分别对v1和w1求导数.令导数为零.即可求得式(4.18)的解。式(4.18)的拉格朗日函数L(v1,w1)的表达式为式中,α和β是待定系数。对L(v1,w1)分别求v1和w1的导数并令其为零·得从而有上一页下一页返回4.3偏最小二乘回归法从上两式又可得因为因此有α=β。令可得将上两式相互带入,可得式中XTYYTX是m×m实对称矩阵;YTXXTY是p×p实对称矩阵上一页下一页返回4.3偏最小二乘回归法数学上已经证明.要使协方差t1Tu1或u1Tt1达到极大.主成分u1=Xv1的系数向量;:就必须是实对称矩阵XTYYTX的最大特征值对应的特征向量.该特征向量即是能使XTYYTX对角化的正交矩阵V中那个与最大特征值对应的列向量;同时.主成分t1=Yw1的系数向量w1则必须是实对称矩阵YTXXTY的最大特征值对应的特征向量.即是能使YTXXTY对角化的正交矩阵W中那个与最大特征值对应的列向量并且.数学上还证明了XTYYTX和YTXXTY具有相同的一套特征值。因此.要在最大相关性的条件下计算X和Y的第一主成分u1和t1只需求得实对称矩阵XTYYTX和YTXXTY的最大特征值λ1相对应的特征向量v1和w1作为系数向量.即作为第一主轴.按式u1=Xv1和t1=Yw1计算所得的u1和t1即分别为X和Y的第一主成分。上一页下一页返回4.3偏最小二乘回归法在求得X和Y的第一主成分后.再用这两个第一主成分分别对X和Y进行回归.相应的回归方程为式中.p1T和q1T分别是第一主成分t1和u1的回归系数向量;t1p1T是第一主成分t1从Y中提取的信息量;u1q1T是第一主成分u1从X中提取的信息量;Y1和X1分别l是Y和X被第一主成分提取信息后的第一残余矩阵。式中的回归系数向量p1和q1分别由如下公式计算上一页下一页返回4.3偏最小二乘回归法这些计算公式可以证明如下。因为t从Y中最大限度地提取了信息量t1p1T.从而残余矩阵Y1=Y-t1p1T的方差应达到了极小值.即应有将f(p1)对p1求导并令其为零.同时注意到p1t1TY对p1的求导等价于YTt1p1T对p1的求导,于是可得上一页下一页返回4.3偏最小二乘回归法从而有于是得同理可证。上一页下一页返回4.3偏最小二乘回归法由以上步骤提取的主成分t1和u1的协方差达到最大.即t1和u1是线性相关的且相关性已达到最大设其线性相关方程为式中.b1是回归系数.由于u1与t1已达最大相关.因此给定的b1值应使残差e1达最小。应用最小二乘法.可求得相应的b1值为上一页下一页返回4.3偏最小二乘回归法由于u1与t1线性相关.因此可直接用u1对Y进行回归.相应的回归方程为式中的回归系数向量r1可由如下公式计算须注意式中的残差与式中的残差Y1不完全相等.因为u1=bt1+e中存在残差项。上一页下一页返回4.3偏最小二乘回归法2.第二步用和中的残差矩阵Y1和X1代替Y和X.然后用Y1和X1求第二主轴w2和v2以及第二主成分t2和u2,有式中的第二主轴v1和w1都是归一化的.即。类似于t1和u1的提取.要从残差矩阵Y1和X1提取t2和u2.就是要找到适当的w2和v2.使t2和u2的协方差达到最大上一页下一页返回4.3偏最小二乘回归法类似于w1和v1的求解.要在最大相关性的条件下计算第二主成分t2和u2.只需求得实对称矩阵和的最大特征值λ2相对应的特征向量w2和v2作为系数向量.即作为第二主轴.按式t2=Y1w2和u2=X1v2计算所得的t2和u2即分别为Y1和X1的第一主成分.亦即为Y和X的第二主成分。在求得Y1和X1的第一主成分亦即Y和X的第二主成分t2和u2后.再用这两个主成分分别对Y1和X1进行回归.相应的回归方程为上一页下一页返回4.3偏最小二乘回归法式中,是残差矩阵。回归系数向量p2、q2和r2的计算公式为主成分u2和t2的线性相关方程为式中回归系数b2的计算公式为上一页下一页返回4.3偏最小二乘回归法用求出的主成分分别对Y和X进行回归.则相应的回归方程为依此类推.当分别求得Y和X的pc个主成分时.则相应的回归方程为上一页下一页返回4.3偏最小二乘回归法用这些主成分组成的得分矩阵分别为一个n×pc矩阵用相应的回归系数向量组成的载荷矩阵分别为上一页下一页返回4.3偏最小二乘回归法应用得分矩阵和载荷矩阵,可将相应的回归方程表不为得分矩阵之间的回归方程为式中.B是对角矩阵上一页下一页返回4.3偏最小二乘回归法将提取了主成分后的残余矩阵去掉.则相应的回归方程为由以上回归方程最终得到回归模型为或上一页下一页返回4.3偏最小二乘回归法应用偏最小二乘回归模型进行预报.简述如下设末知样本的自变量向量为,实验测得的相应因变量向量为,(注意:在预报步骤中定义的向量xu、yu的维数与回归建模时定义的x,y的维数和含义都存在差别预报中的xu和yu分别是m维和p维行向量.而回归建模时的x和y都是n维列向量)。将xu和yu代入回归模型中.得到的预报方程为或上一页下一页返回4.3偏最小二乘回归法偏最小二乘回归法在建模时.为便于运算一般都将与先进行中心化处理.再进行主成分提取和回归建模计算。中心化矩阵即是将矩阵中各列的元索减去该列元索的均值所得的矩阵。如以各列的均值组成矩阵(中每一列中的各元索值相同.均为该列均值).则的中心化计算公式可写成同理有上一页下一页返回4.3偏最小二乘回归法如以下回归模型是由中心化矩阵建立的则应用以下预报方程进行预报时先要将进行中心化处理,即将中的各元索减去建模时中各列的均值.即然后由预报方程获得中心化的预报结果(中心化)。再将中心化的各元索加上建模时中各列的均值.即得到最终的预报结果。上一页下一页返回4.3偏最小二乘回归法偏最小二乘法的NIYALS算法偏最小二乘法最常用的建模算法是非线性迭代偏最小二乘法(NIYALS),该法易于用计算机编程计算。设Xn×m和Yn×p分别是已经过中心化处理的自变量数据矩阵和因变量数据矩阵计算时其计算的步骤如下①X中任取一列向量x作为X的起始主成分u;②用u和Y计算Y的一个主轴w:w=YTu/(uTu);③将计算得到的主轴(权重向量)w归一化:w(新)=w/||w||;④用归一化后的主轴(权重向量)w计算Y的主成分(得分向量)t:t=Yw;⑤计算用t回归X时的回归系数向量即载荷向量q:q=XTt/(tTt);⑥将计算得到的回归系数向量即载荷向量q归一化:q(新)=q/||q||;上一页下一页返回4.3偏最小二乘回归法⑦用归一化后的回归系数向量即载荷向量g作为X的主轴计算X的主成分u:u=XTq;⑧用第⑦步得到的u返回第二步进行循环计算.将第①步计算得到的t与上一循环的t比较.若二者的差值在误差范围内.则跳至第⑨步计算.否则继续循环;⑨计算Y的载荷向量p:p=YTt/(tTt);⑩关联得分向量t和u:u=bt+e.式中回归系数b的计算公式为上一页返回4.4目标因子分析4.4.1因子分析基本概念因子分析是一种建立在主成分分析基础上的多元统计分析方法。因子分析通过对数据矩阵进行特征分析、旋转变换等数学操作.以获得蕴含在数据中的许多有关信息。当数据矩阵是由化学中的有关数据组成时.相应的因子分析就是化学因子分析。化学因子分析是应用因子分析技术来研究和解决化学问题的.既应用了因子分析的技术.又具有浓厚的化学特色下一页返回4.4目标因子分析在主成分分析中.通过对因变量测量数据矩阵的主成分计算.可以确定其主成分数。主成分数代表了影响因变量的重要因索即重要自变量的数目.即主成分数就是主要自变量的数目。每一个重要自变量可称为一个主因子(主因子又可简称为因子).因此主成分数等于主因子数。但主成分与主因子的意义不同。主成分是因变量测量数据向量的线性组合.是一个抽象的数学表达式.没有实际的物理化学意义.因此主成分有时又称为抽象因子。主因子则一般是有实际意义的物理量或化学量.因此主因子有时又称为真实因子。以混合物的光谱数据矩阵为例.通过主成分分析获得各个主成分并确定主成分数即抽象因子数后.即可确定混合物中的组分数.此组分数即为主因子数即真实因子数.每一个组分的浓度向量或纯光谱向量(吸收系数向量)即为一个主因子即真实因子.而主成分则只有抽象意义上一页下一页返回4.4目标因子分析主因子(真实因子)与主成分(抽象因子)之间存在着联系。以混合物的光谱数据矩阵为例.当以各个样品的光谱曲线数据为列向量时.则每一个主成分是这些列向量的一个线性组合.即是这些光谱曲线的一个线性组合。而每个样品的光谱曲线又是各组分的纯光谱的线性组合.即是各主因子的一个线性组合。因此.每一个主成分实际上是各个主因子的一个线性组合反过来.每一个主因子又都可通过主成分的适当线性组合而获得因子分析就是在通过对数据矩阵进行主成分分析和主成分(抽象因子)与主因子(真实因子)之间的关系分析.来获得主因子(真实因子)的有关信息的多元统计分析方法。在化学中.因子分析的用途可概括为①确定影响一特定的数据矩阵的因子数.即研究和分析复杂的或是数量庞大的量测数据.确定影响这些数据的因子数;上一页下一页返回4.4目标因子分析②获得对量测数据的定性的或定量的解释。光谱数据矩阵An×p经过主成分分析.滤去误差后.可表不为一个得分矩阵了Tn×pc和一个载荷矩阵Pp×pc的转置PTpc×p的乘积:式中.n是样品数;p是波长点数;pc是主成分数。当样品中各组分的纯吸收光谱不存在线性相关性、吸光度服从比尔定律加和性.且不存在系统误差时.则主成分数pc等于样品所含的组分数m此时可改写为如下形式:在后面的讨论中.如不特别指明.都设主成分数pc等于组分数m。上一页下一页返回4.4目标因子分析在An×p矩阵中.每一列是n个样品在某一波长点的吸光度向量.每一行则是某一样品p个波长点的吸收光谱向量。每一个列向量都是n个样品中各个组分在该波长点的吸光度向量的加和.每一个行向量也都是该样品中各组分在p个波长点的吸收光谱向量的加和。得分矩阵Tn×m中的每一列是一个主成分.即一个抽象因子一个主成分又称为一个得分向量。载荷矩阵Pp×m的每一列是一个主成分回归系数向量.又称为载荷向量。根据吸光度与浓度的一般关系式,有式中.Cn×m是浓度矩阵;Kp×m是吸收系数矩阵。浓度矩阵中的每一列是n个样品中某一组分的浓度向量.亦即为一个因子。吸收系数矩阵中的每一列则为一个组分.即一个因子在p个波长点的吸收系数向量上一页下一页返回4.4目标因子分析比较式(4.23)和式(4.24)可知.得分矩阵Tn×m和浓度矩阵Cn×m相对应.载荷矩阵Pp×m和吸收系数矩阵Kp×m相对应。但得分矩阵Tn×m中的列向量即主成分没有确切的物理和化学意义.是抽象因子;而浓度矩阵中的列向量Cn×m即主因子是浓度向量.有确切的物理和化学意义.是真实因子。同样.载荷矩阵Pp×m中的列向量也没有确切的物理和化学意义.而吸收系数矩阵Kp×m有确切的物理和化学意义。当取得了n个样品在p个波长点的吸光度数据时.相应的吸收光谱数据矩阵也可改写为Ap×n的形式.此时矩阵中的每一行是n个样品在某一波长点的吸光度向量.每一列则是某一样品在p个波长点的吸收光谱向量。此时吸光度与浓度的关系式可表达为上一页下一页返回4.4目标因子分析当将Ap×n经过主成分分析.滤去误差后.再表不为一个得分矩阵和一个载荷矩阵的转置的乘积时,可得比较式(4.25)和式(4.26)可知.此时得分矩阵Tp×m是与吸收系数矩阵Kp×m相对应的而载荷矩阵Pn×m则是与浓度矩阵Cn×m相对应的。得分矩阵Tp×m中的列向量即主成分是含有p个元索的列向量.没有确切的物理和化学意义.是抽象因子;而吸收系数矩阵Kp×m中的列向量即主因子是吸收系数向量.有确切的物理和化学意义.是真实因子。同样.载荷矩阵Pp×m中的列向量也没有确切的物理和化学意义.而浓度矩阵Cn×m有确切的物理和化学意义。上一页下一页返回4.4目标因子分析从以上讨论可知.随着对数据矩阵的行和列的不同处理.相应的主成分和主因子有不同的含义。当将光谱数据按式(4.23)和式(4.24)处理时.真实因子是浓度向量.主成分是与浓度向量相对应的抽象因子。当将光谱数据按式(4.25)和式(4.26)处理时.真实因子是吸收系数向量.主成分是与吸收系数向量相对应的抽象因子。本章在进行因子分析时将主要按第二种方式处理在主成分回归和偏最小二乘回归中·光谱数据矩阵Ap×n是由组分和浓度均准确已知的校正样品集的光谱数据组成的.即校正样品集的浓度矩阵Cn×m是准确已知的。回归的步骤是先主成分进行分析后再进行回归.建立的回归模型即可对含这些组分的末知样品进行预报。即在回归分析中.样品中所含的各种组分是明确的.即样品的定性分析已全部完成。上一页下一页返回4.4目标因子分析当样品集中的样品都是组分末知的样品时·相应的光谱数据矩阵Ap×n不可能用来进行回归分析。因子分析的目的就是要通过对组分末知的样品集的光谱数据矩阵Ap×n的分析.推测样品集中含有何种组分.以及所含组分的浓度等信息。因子分析主要有两大步骤。第一步就是对数据矩阵进行主成分分析.确定主成分(抽象因子)和主成分数;第二步就是找出主成分与主因子(真实因子)之间的联系.由此确定真实因子的成分、浓度等有关信息。第一步的有关计算已在第3章进行了介绍。本章主要介绍第二步的有关计算上一页下一页返回4.4目标因子分析4.4.2投影矩阵当光谱数据矩阵Ap×n,是由组成末知的样品集的光谱数据构成时.目标因子分析的目的就是要通过对Ap×n,的分析.确定样品集中是否含有某一种组分.也就是应用Ap×n,对样品集进行定性分析。目标因子分析需要应用投影矩阵的性质。设有一组混合物样品.各样品所含的组分均在某m种组分的范围之内.且各组分的光谱曲线向量相互线性无关时.则可以其中m个线性无关的光谱曲线向量为基底.组成一个m维空间。这m个组分及其任意混合物的光谱曲线都是该m维空间中的一个光谱曲线向量。超过这m个组分的光谱曲线则组成了一个更高维的空间.相应的m维空间则是这个更高维空间的一个子空间。上一页下一页返回4.4目标因子分析设有一个任意混合物的光谱曲线向量z向量z是各纯组分的光谱曲线向量的加和。设这些组分有些是这m种组分的范围之内的.有些是这m种组分的范围之外的.则向量z可表达为其中.x是m维子空间的向量.即是这m种组分的光谱曲线向量的线性组合;y是m维空间之外的光谱曲线向量的线性组合设有一个矩阵R.使则称R为m维子空间的投影矩阵。某向量用该投影矩阵左乘后所得的向量称为该向量在m维子空间的投影向量。显然.m维子空间内的向量的投影向量是其本身.m维子空间外的向量的投影向量是零向量。上一页下一页返回4.4目标因子分析投影矩阵的常用构建方式如下取m维子空间的m个线性无关的向量(设向量为户维列向量.p>m.组成一个p×m矩阵,于是有因为这m个向量线性无关,因此协方差方阵的逆矩阵存在。二者的乘积是单位矩阵.即一个矩阵乘上单位矩阵时其值不变.因此有上一页下一页返回4.4目标因子分析从上式可得式(4.27)即为投影矩阵的一个常用构建式。下面通过计算进一步说明由此构建的矩阵是投影矩阵。设向量xp×1是此m维子空间内的任一向量·此向量必定是构成矩阵Xp×m的m个列向量的线性组合.即将投影矩阵左乘R,有上一页下一页返回4.4目标因子分析设向量yp×1是此m维子空间外的任一向量.此向量必定与构成矩阵Xp×m的m个列向量全部正交.即xTy=0.从而有XTy=0.因此从而对于任意向量z=x+y.有通过以上计算可进一步加深是投影矩阵的理解上一页下一页返回4.4目标因子分析用一个矩阵的主成分构建投影矩阵如下。设光谱数据矩阵Ap×n是由组成末知的样品集的光谱数据构成。将Ap×n按奇异值分解的方式进行主成分分析,滤去误差项后再重构,得因为得分矩阵中的m个得分向量.即m个主成分是由Ap×n中的光谱向量线性组合形成的m个线性无关的向量.因此可用这m个主成分构成一个m维光谱向量空间(Ap×n中的所有光谱向量均在此空间中)的投影矩阵.即上一页下一页返回4.4目标因子分析上面的投影矩阵表达式可以简化。将Tp×m=Up×mSm×m代入.并考虑到是UTm×pUp×m是单位矩阵及Sm×m是对角矩阵.因此有因此,Up×mUTm×p即为由Ap×n中m个线性无关的光谱向量组成的m维空间的投影矩阵。上一页下一页返回4.4目标因子分析4.4.3用投影矩阵进行目标因子分析将组成末知的样品集的光谱数据构成光谱数据矩阵Ap×n。为了判断末知样品集中是否含有某一组分.可将该组分在同样条件下的纯光谱与混合物样品集的光谱数据矩阵进行比较分析.通过检验给出确切的结果。这种分析称为目标转换因子分析.简称目标因子分析。在目标因子分析中.被研究的组分的纯物质光谱向量a称为目标光谱向量.被研究的组分称为目标组分。目标因子分析的步骤为:首先对Ap×n进行主成分分析.进行主成分分析时一般采用奇异值分解法.确定主成分数m并用得到的U矩阵构建相应的投影矩阵Up×mUTm×p。然后·用投影矩阵去左乘目标光谱向量.得到相应的投影光谱向量a(投影)上一页下一页返回4.4目标因子分析考察投影光谱向量a(投影)与目标光谱向量a之间的差别||a(投影)-a||.如果||a(投影)-a||l在给定的误差范围之内.则检验通过.表示该组分是混合物样品集中的组分之一。当||a(投影)-a||超过了给定的误差范围时.则表示混合物样品集中不含被检验的目标组分如果应用目标因子分析将m个组分一一检验出来.则混合物所含组分就全部确定了于是可进一步应用回归分析法确定各组分的浓度上一页返回4.5秩消因子分析在很多情况下.对多组分体系进行分析时.只希望对体系中某一种或某几种组分进行分析.其余组分只是干扰物。如何在末知干扰物存在的情况下对指定的某一种或某几种组分进行定量分析.这是非常有实际意义的问题。秩消因子分析法是解决这类问题的有效方法之一。秩消因子分析需要应用双线性数据矩阵的性质。下一页返回4.5秩消因子分析4.5.1双线性数据矩阵

列向量ap×1左乘列向量bn×1的转置行向量bT1×n所得之积称为两个向量的外积.外积产生一个p×n矩阵X:这种矩阵称为双线性数据矩阵.简称双线性矩阵。双线性矩阵的秩等于1。在双线性矩阵中.每一列均可由另外任一列乘上一个数得到.即各列完全线性相关;同样每一行也均可由另外任一行乘上一个数得到当一个矩阵能分解为两个向量的外积时.即有上一页下一页返回4.5秩消因子分析则称矩阵的这种分解为双线性分解。显然一个矩阵如能进行双线性分解.则此矩阵必为双线性矩阵。此矩阵的秩必定等于1.在光谱分析中一个纯物质在不同条件下的光谱曲线可组合成一个双线性矩阵。以一个纯物质的激发一发射荧光光谱为例。在两个不同的激发波长下.可得到两条荧光发射光谱曲线.记录p个波长点的荧光发射强度.则可得两个荧光发射光谱向量.其中一个荧光发射光谱向量可由另一荧光发射光谱向量乘上一个数得到。在n个不同的激发波长下.则可得到n个荧光发射光谱向量。用这n个荧光发射光谱向量组成一个双线性矩阵Fp×n这个双线性矩阵中的每一列是该纯物质在某一激发波长点的一个荧光发射光谱向量.每一行则是该纯物质在某一发射波长点的一个荧光激发光谱向量。若双线性矩阵表不成Fn×p,则列向量是激发光谱向量.行向量是发射光谱向量。Fp×n的双线性分解式可写为上一页下一页返回4.5秩消因子分析式中.fex是荧光发射光谱向量;bem是荧光激发光谱向量。一定条件下.fex与纯物质浓度c成正比式中.kex是单位浓度纯物质的发射光谱于是双线性分解式又可写为上一页下一页返回4.5秩消因子分析双线性光谱数据矩阵的另一例子是纯物质的色谱一光谱数据矩阵色谱过程中.在不同的保留时间对纯物质进行光谱扫描.取n个保留时间点.读取p个波长点的光谱数据.就可建立一个相应的双线性矩阵An×p。矩阵的每一行是该纯物质在给定保留时间的一个光谱曲线向量.矩阵的每一列则是该纯物质在给定波长点的一个色谱曲线向量.An×p的双线性分解式可写为式中.t是纯物质的色谱向量;a是纯物质的光谱向量一定条件下.a与纯物质浓度c成正比式中.k是单位浓度纯物质的光谱于是双线性分解式又可写为上一页下一页返回4.5秩消因子分析在光谱分析中.还有多种构建纯物质的双线性矩阵的方式。判断一个光谱矩阵是否为双线性矩阵的简单办法是考察该矩阵的秩.如秩为1.则为双线性矩阵.否则不是。考虑到有测量误差的存在.因此判断时应先将误差项去掉。为此可进行主成分分析.若只有一个主成分.则为双线性矩阵。一个组分数为m的混合物样品在不同条件下的光谱曲线组成的矩阵不是双线性矩阵.但可以分解为m个双线性矩阵的加和。上一页下一页返回4.5秩消因子分析设An×p是组分数为m的混合物样品色谱一光谱数据矩阵.如不存在误差.即有式中.是各组分的双线性矩阵;是各组分的色谱向量;是各组分的光谱向量;是各组分的浓度;则是各组分在单位浓度时的光谱向量。上一页下一页返回4.5秩消因子分析令则A的分解式可写为上一页下一页返回4.5秩消因子分析对于一个组分数为m的混合物样品在不同条件下的光谱曲线组成的任意类型的光谱矩阵,将其分解为m个双线性矩阵的加和的一般表达式可写为或式中.p和q是各组分在单位浓度时的两个有关向量。上一页下一页返回4.5秩消因子分析由于混合物在一定条件下的光谱矩阵可分解为双线性矩阵的加和.这就为在末知干扰物存在时对指定组分进行定量测定提供了依据。从而产生多种相应的因子分析方法.秩消因子分析是其中的方法之一上一页下一页返回4.5秩消因子分析4.5.2秩消因子分析的原理和步骤秩消因子分析法的基本原理就是利用纯物种二维光谱数据矩阵是一双线性矩阵.其秩为1的特点来进行的。其基本思路为:设已测得被分析物的纯物种二维光谱数据矩阵.将其作为标准.进而对含末知干扰的混合体系的二维光谱数据矩阵来进行消去该标准的运算。设末进行消去运算前.含末知干扰的混合体系的量测矩阵的秩为厂.那么.当被消去的标准正好等于其存在于混合体系的该物种的浓度大小时.此时末知干扰的混合体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论