方法:因子分析法_第1页
方法:因子分析法_第2页
方法:因子分析法_第3页
方法:因子分析法_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、因子分析基础理论知识1概念因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系, 以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因 子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。两者关系:主成分分析(PCA)和因子分析(F

2、A)是两种把变量维数降低以便于描述、 理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。2特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少 分析中的工作量。(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能 够反映原有变量大部分的信息。(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分 变量之间多存在较显著的相关关系。(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间

3、解释系统要比在高维系统容易的多。3类型根据研究对象的不同,把因子分析分为R型和Q型两种。当研究对象是变量时,属于 R型因子分析;当研究对象是样品时,属于 Q型因子分析。但有的因子分析方法兼有 R型和Q型因子分析的一些特点,如因子分析中的对应分析 方法,有的学者称之为双重型因子分析,以示与其他两类的区别。4分析原理假定:有n个地理样本,每个样本共有p个变量,构成一个 nx p阶的地理数据矩阵XiiX12X1pX21X22X2pXn1 Xn2Xnp当p较大时,在p维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标, 而且使这些综合指标既能尽量多地反映原来指标所反映的信

4、息,同时它们之间又是彼此独立的。线性组合:记x1, x2,,xp为原变量指标,z1, z2,,zm (mwp)为新变量指标(主成分),则其线性组合为lii xil12X2l2ixil22x2li px p12Pxplmixi1 m2x2l mp xpLij是原变量在各主成分上的载荷lii xil2ixili2x2l22x2li px p12PxpZm lmixi l m2 x2l mp xp无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。zi与 zj相互无关;zi是xi, x2,,xp的一切线性组合中方差最大者,z2是与zi不相关的xi, x2, 的所有线

5、性组合中方差最大者。则,新变量指标zi,包,分别称为原变量指标的第一,第二,主成分。Z为因子变量或公共因子,可以理解为在高维空间中互相垂直的m个坐标轴。主成分分析实质就是确定原来变量xj (j=i , 2 ,p)在各主成分zi (i=i , 2,m)上的荷载lij。从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m个较大的特征值所对应的特征向量。5分析步骤5.i确定待分析的原有若干变量是否适合进行因子分析(第一步)因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。其潜在的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,计算原始变量之间的相

6、关系数矩阵。如果相关系数矩阵在进行统计检验时,大部分相关系数均小于0.3且未通过检验,则这些原始变量就不太适合进行因子分析。iir12ri pr21r22r2 pRr p 1r p 2r ppn(XkiXi)(. Xj)k 1rij-m(XkiXi)2(XkjXj)V k 1k 1进行原始变量的相关分析之前,需要对输入的原始数据进行标准化计算(一般采用标准差标准化方法,标准化后的数据均值为0,方差为1)。SPSS在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要有以下3种:巴特利特球形检验(Bartlett Test of Sphericity )反映象相关矩阵检验( Anti-im

7、age correlation matrix )KMO (Kaiser-Meyer-Olkin )检验(1)巴特利特球形检验该检验以变量的相关系数矩阵作为出发点,它的零假设H0为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0,也即原始变量两两之间不相关。巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值较大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝零假设H0,认为相关系数不可能是单位阵,也即原始变量间存在相关性。(2)反映象相关矩阵检验该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元素取反,得到反映

8、象相关矩阵。偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。(3) KMO (Kaiser-Meyer-Olkin )检验该检验的统计量用于比较变量之间的简单相关和偏相关系数。KMO值介于0-1 ,越接近1 ,表明所有变量之间简单相关系数平方和远大于偏相关系数 平方和,越适合因子分析。其中,Kaiser给出一个 KMO检验标准:KMO>0.9 ,非常适合;0.8<KMO<0.9 ,适合; 0.7<KMO<0.8 , 一般;0.6<KMO<0.7 ,不太适合;

9、KMO<0.5 ,不适合。5.2 构造因子变量因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。前者应用最为广泛。主成分分析法( Principal component analysis ):该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量Zi (主成分)。求相关系数矩阵的特征根入i (入1,入2,,入p>0)和相应的标准正交的特征向量 li;根 据相关系数矩阵的特征根,即公共因子 Zj的方差贡献(等于因子载荷矩阵 L中第j列各元 素的平方和),计算公共因子Zj的方差贡献率与累积贡献率。p-

10、i-(i 1,2, P)kkp1 (i 1,2,p)kk 1主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。公共因子个数的确定准则:1)根据特征值的大小来确定,一般取大于 1的特征值对应 的几个公共因子/主成分。2)根据因子的累积方差贡献率来确定,一般取累计贡献率达 85-95%的特征值所对应的第一、第二、第 m (mwp)个主成分。也有学者认为累积方 差贡献率应在80 %

11、以上。5.3 因子变量的命名解释因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子Z1,Z2,Zm是对原有变量的综合。在实际的应用分析中,主要通过对载荷矩阵进行分析, 得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。利用因子旋转方法能使因子变量更具有可解释性。aj( 1,2,p)Xia11z1a12Z2X2a21Z1a22Z2a1pZpa2 PzpXmam2Z2ampZpZ1l11x1l12X2l1 pxpZ2l21X1l 22x2l 2 pxpl m1 X1lm2X2lmpxpa11a12.a1ml111l122.l 1 mma21A二a21.a2ml2

12、11l212.l2m m.ap1.ap1.apm.Jl p1 1.l p1 2.l . pm v m计算主成分载荷,构建载荷矩阵A。载荷矩阵A中某一行表示原有变量 Xi与公共因子 的相关关系。载荷矩阵 A中某一列表示某一个公共因子能够解释的原有变量Xi的信息量。有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。因子旋转的主要方法:正交旋转、斜交旋转。&1a12a1ml111l12-./ 2.l1m" ma21A二a21.a2 ml 21 , 1l212.l2m ,= .: m. .ap1ap1 .apm1l p1 X 1l p1 2.1. l

13、pm m正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性,因此使用最多。正交旋转的方法很多,其中以方差最大化法最为常用。方差最大正交旋转(varimax orthogonal rotation -基本思想:使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。斜交旋转(oblique rotation -因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。各因子间不再相互独立,而是彼此相关。各因子对各变量的贡献的总和也发生了改变。因子旋转的目的是使因子负荷两极分化,要么接近于0,要么接近于1。从而使原有因子变量更具有可解释性。5.4 计算因子变量得分因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。估计因子得分的方法主要有:回归法、Bartlette法等。计算因子得分应首先将因子变量表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论