第五章因子分析和主成分分析_第1页
第五章因子分析和主成分分析_第2页
第五章因子分析和主成分分析_第3页
第五章因子分析和主成分分析_第4页
第五章因子分析和主成分分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、5.1 因子分析因子分析模型与应用模型与应用1. 1. 因子分析模型因子分析模型 设设p维可观测的随机向量维可观测的随机向量X = (X1,.,Xp)(假定(假定Xi为为标准化变量,即标准化变量,即E(Xi) = 0,Var(Xi) = 1,i = 1,2,p)表示为表示为)(212121222211121121pmFFFaaaaaaaaaXXXpmpmppmmp或或 X = AF + 其中其中F1、F2、Fm称为公共因子,简称因子,是不称为公共因子,简称因子,是不可观测的变量;待估的系数阵可观测的变量;待估的系数阵A称为因子载荷阵,称为因子载荷阵,aij(i = 1,2,p;j = 1,2,

2、m)称为第)称为第i个变量在第个变量在第j个因个因子上的载荷(简称为因子载荷);子上的载荷(简称为因子载荷); 称为特殊因子,是不能被前称为特殊因子,是不能被前m个公共因子包含的个公共因子包含的部分。并且满足:部分。并且满足:cov(F,) = 0,即,即F,不相关;不相关; D(F) = Im,即,即F1、F2、Fm互不相关,方差为互不相关,方差为1;D() = diag( 12, 22, p2),即,即1、2、p互不相关,互不相关,方差不一定相等,方差不一定相等,iN(0, i2)。 因子分析的目的就是通过模型因子分析的目的就是通过模型X = AF + 以以F代替代替X,由于由于m 0,相

3、应的特征向量为,相应的特征向量为u1*,u2*,up*,则有近似分解式:则有近似分解式:R* = AA其中其中 ,令,令 (i = 1,p),),则则A和和D为因子模型的一个解,这个解称为主因子解。为因子模型的一个解,这个解称为主因子解。),.,(*2*2*1*1mmuuuAmkikia122*1)( 在实际中特殊因子方差在实际中特殊因子方差(或变量共同度或变量共同度)是未知的。是未知的。以上得到的解是近似解。为了得到近似程度更好的以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的解,常常采用迭代主因子法。即利用上面得到的D* = diag( )作为特殊因子

4、方差的初始估计,重复上述步骤,直作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。到解稳定为止。 变量共同度变量共同度hi2常用的初始估计有以下几种方法:常用的初始估计有以下几种方法: 取第取第i个变量与其他所有变量的多重相关系数的个变量与其他所有变量的多重相关系数的平方;平方; 取第取第i个变量与其他变量相关系数绝对值的最大个变量与其他变量相关系数绝对值的最大值;值; 取取1,它等价于主成分解。,它等价于主成分解。221,.,p(3) 极大似然法极大似然法 假定公共因子假定公共因子F和特殊因子和特殊因子服从正态分布,那么服从正态分布,那么可得到因子载荷阵和特殊因子方差的极大似然估计,

5、可得到因子载荷阵和特殊因子方差的极大似然估计,设设p维观测向量维观测向量X(1),.,X(n)为来自正态总体为来自正态总体Np(,)的随机样品,则样品似然函数为的随机样品,则样品似然函数为,的函数的函数L(,)。 设设= AA + D,取,取 = ,则似然函数为,则似然函数为A,D的函的函数:数: (A,D),求,求A,D使使 达最大。为保证得到唯一达最大。为保证得到唯一解,可附加计算上方便的唯一性条件:解,可附加计算上方便的唯一性条件:AD-1A = 对角对角阵,用迭代方法可求得极大似然估计阵,用迭代方法可求得极大似然估计A和和D。X2. 2. 因子旋转(正交变换)因子旋转(正交变换) 所谓

6、因子旋转就是将因子载荷矩阵所谓因子旋转就是将因子载荷矩阵A右乘一个正交右乘一个正交矩阵矩阵T后得到一个新的矩阵后得到一个新的矩阵A*。它并不影响变量。它并不影响变量Xi的的共同度共同度hi2,却会改变因子的方差贡献,却会改变因子的方差贡献qj2。因子旋转。因子旋转通过改变坐标轴,能够重新分配各个因子解释原始通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。变量方差的比例,使因子更易于理解。 设设p维可观测向量维可观测向量X满足因子模型:满足因子模型:X = AF +。T为为正交阵,则因子模型可写为正交阵,则因子模型可写为X = ATTF + = A*F* +其中其中

7、A* = AT,F* = TF。 易知易知, = AA + D = A*A* + D(其中其中A* = AT)。这。这说明,若说明,若A,D是一个因子解,任给正交阵是一个因子解,任给正交阵T,A* = AT,D也是因子解。在这个意义下,因子解是不惟一的。也是因子解。在这个意义下,因子解是不惟一的。 由于因子载荷阵是不惟一的,所以可对因子载荷由于因子载荷阵是不惟一的,所以可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向载荷矩阵每列或行的元素平方值向0和和1两极分化,两极分化,这样的因子便于解释和命名。这样的因子便于

8、解释和命名。 有三种主要的正交旋转法:四次方最大法、方差有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。这些旋转方法的目标是一致最大法和等量最大法。这些旋转方法的目标是一致的,只是策略不同。的,只是策略不同。 如果两种旋转模型导出不同的解释,这两种解释如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。倒不如说是看待相同事物的两不能认为是矛盾的。倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。只种不同方法,是在公因子空间中的两个不同点。只取决于惟一的一种你认为是正确旋转的任何结论都取决于惟一的一种你认为是正确旋转的任何结论都是不成立的。是不成立的。 在

9、统计意义上所有旋转都是一样的,即不能说一在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。因此,在不同的旋转方法些旋转比另一些旋转好。因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。容易解释的旋转模型。3. 3. 因子得分因子得分 计算因子得分的途径是用原有变量来描述因子,计算因子得分的途径是用原有变量来描述因子,第第j个因子在第个因子在第i个样本上的值可表示为:个样本上的值可表示为:Fji = j1xi1 + j2xi2 + jpxip (j = 1,2,k) 式中,式中,xi1,xi2,xip分

10、别是第分别是第1,2,p个原个原有变量在第有变量在第i个样本上的取值,个样本上的取值, j1, j2, jp分别分别是第是第j个因子和第个因子和第1,2,k个原有变量间的因子值个原有变量间的因子值系数。可见,它是原有变量线性组合的结果系数。可见,它是原有变量线性组合的结果(与因子与因子分析的数学模型正好相反分析的数学模型正好相反),因子得分可看作各变量,因子得分可看作各变量值的加权值的加权( j1, j2, jp)总和,权数的大小表示了总和,权数的大小表示了变量对因子的重要程度。变量对因子的重要程度。于是有:于是有: Fj = j1X1+ j2X2+ jpXp (j = 1,2,k) 上式称为

11、因子得分函数。由于因子个数上式称为因子得分函数。由于因子个数k小于原有变小于原有变量个数量个数p,故式中方程的个数少于变量的个数。因此,对,故式中方程的个数少于变量的个数。因此,对因子值系数通常采用最小二乘意义下的回归法进行估计。因子值系数通常采用最小二乘意义下的回归法进行估计。可将上式看作是因子变量可将上式看作是因子变量Fj对对p个原有变量的线性回归方个原有变量的线性回归方程程(其中常数项为其中常数项为0)。可以证明,式中回归系数的最小二。可以证明,式中回归系数的最小二乘估计满足:乘估计满足:Bj = AjR-1,其中,其中Bj = ( j1, j2, jp),Aj = (a1j,a2j,a

12、pj)为第为第1,2,p个变量在个变量在第第j个因子上的因子载荷,个因子上的因子载荷,R-1为原有变量的相关系数矩阵为原有变量的相关系数矩阵的逆矩阵。的逆矩阵。 由上式计算出因子变量由上式计算出因子变量Fj的因子值系数,再利用因子得的因子值系数,再利用因子得分函数可算出第分函数可算出第j个因子在各个样本上的因子得分。个因子在各个样本上的因子得分。13.3 主成分分析(主成分分析(PCA)的概念与步骤的概念与步骤1. 1. 主成分分析基本思想主成分分析基本思想 主成分分析是数学上对数据降维的一种方法。其主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指基本思想

13、是设法将原来众多的具有一定相关性的指标(比如标(比如p个指标),重新组合成一组新的互不相关个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就的综合指标来代替原来指标。通常数学上的处理就是将原来是将原来p个指标作线性组合,作为新的综合指标。个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?应该如何去选取呢? 在所有的线性组合中所选取的在所有的线性组合中所选取的F1应该是方差最大应该是方差最大的,故称的,故称F1为第一主成分。如果第一主成分不足以为第一主成分。如果第一主成分

14、不足以代表原来代表原来p个指标的信息,再考虑选取个指标的信息,再考虑选取F2即选第二个即选第二个线性组合。为了有效地反映原有信息,线性组合。为了有效地反映原有信息,F1已有的信已有的信息就不需要再出现在息就不需要再出现在F2中,用数学语言表达就是要中,用数学语言表达就是要求求Cov(F1,F2)0。称。称F2为第二主成分,依此类推可为第二主成分,依此类推可以构造出第三、第四、以构造出第三、第四、第、第p个主成分。个主成分。2. 2. 主成分分析的数学模型主成分分析的数学模型 设有设有n个样本(多元观测值),每个样本观测个样本(多元观测值),每个样本观测p项项指标(变量):指标(变量):X1,X

15、2,Xp,得到原始数据资料,得到原始数据资料阵:阵:其中其中Xi = (x1i,x2i,xni),i = 1,2,p。),.,(.21212222111211pnpnnppXXXxxxxxxxxxX 用数据矩阵用数据矩阵X的的p个列向量(即个列向量(即p个指标向量)个指标向量)X1,X2,Xp作线性组合,得综合指标向量:作线性组合,得综合指标向量:简写成:简写成:Fi = a1iX1 + ai2X2 +apiXp i = 1,2,pppppppppppXaXaXaFXaXaXaFXaXaXaF.22112222112212211111 为了加以限制,对组合系数为了加以限制,对组合系数ai =

16、(a1i,a2i,api)作如下作如下要求:要求:即:即:ai为单位向量:为单位向量:aiai = 1,且由下列原则决定:,且由下列原则决定: 1) Fi与与Fj(ij, i, j = 1, , p)互不相关,即)互不相关,即Cov(Fi,Fj) = ai ai = 0,其中,其中是是X的协方差阵。的协方差阵。 2) F1是是X1,X2,Xp的一切线性组合(系数满足上述要的一切线性组合(系数满足上述要求)中方差最大的,即求)中方差最大的,即 ,其中,其中 a= (a1,a2,ap) F2是与是与F1不相关的不相关的X1,X2,Xp一切线性组合中方差最一切线性组合中方差最大的,大的,Fp是与是与

17、F1,F2,Fp-1都不相关的都不相关的X1,X2,Xp的一切线性组合中方差最大的。的一切线性组合中方差最大的。piaaapiii, 1, 122221)(max)(111piiiaaXaVarFVar 满足上述要求的综合指标向量满足上述要求的综合指标向量F1,F2,Fp就是就是主成分,这主成分,这p个主成分从原始指标所提供的信息总量个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值原指标相关系数矩阵相应的

18、特征值 i,每一个主成,每一个主成分的组合系数分的组合系数ai = (a1i,a2i,api)就是相应特征值就是相应特征值 i所对应的单位特征向量。方差的所对应的单位特征向量。方差的贡献率为贡献率为 , i越大,说明相应的主成越大,说明相应的主成分反映综合信息的能力越强。分反映综合信息的能力越强。1/piiii3. 3. 主成分分析的步骤主成分分析的步骤(1) 计算协方差矩阵计算协方差矩阵 计算样品数据的协方差矩阵:计算样品数据的协方差矩阵: = (sij)p p,其中,其中 i,j = 1,2,p(2) 求出求出的特征值及相应的特征向量的特征值及相应的特征向量 求出协方差矩阵求出协方差矩阵的

19、特征值的特征值 1 2 p0及相应的正交化单位及相应的正交化单位特征向量:特征向量:则则X的第的第i个主成分为个主成分为Fi = aiX i = 1,2,p。nkjkjikiijxxxxns1)(11pppppppaaaaaaaaaaaa21222122121111.,(3) 选择主成分选择主成分 在已确定的全部在已确定的全部p个主成分中合理选择个主成分中合理选择m个来实现个来实现最终的评价分析。一般用方差贡献率最终的评价分析。一般用方差贡献率解释主成分解释主成分Fi所反映的信息量的大小,所反映的信息量的大小,m的确定以累的确定以累计贡献率计贡献率达到足够大(一般在达到足够大(一般在85%以上)为原则。以上)为原则。另外,如果主成分对应的特征根已小于另外,如果主成分对应的特征根已小于1,一般也不,一般也不选用选用pkkii1/pkkmiimG11/)(4) 计算主成分得分计算主成分得分 计算计算n个样本在个样本在m个主成分上的得分:个主成分上的得分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论