管理统计SPASS第11章主成分分析与因子分析_第1页
管理统计SPASS第11章主成分分析与因子分析_第2页
管理统计SPASS第11章主成分分析与因子分析_第3页
管理统计SPASS第11章主成分分析与因子分析_第4页
管理统计SPASS第11章主成分分析与因子分析_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第11章主成分分析与因子分析

在实际问题中,我们设计调查表,收集到大量指标(变量)数据,但这些指标间通常不是相互独立,而是相关的。此时,为了简化问题,我们就可以运用主成分分析法,在众多的指标中找出少数几个综合性指标,来反映原来指标所反映的主要信息(即,绝大部分的方差),实现简化问题的目的。例如,企业的利润、成本、市场占有率等是明显相关的;某地区的企业数、GDP、物流量、信息量等也是明显相关的;一组青年中人的年龄、身高、肺活量等指标之间,通常也存在着相关性。对这些相关性较强的指标,可通过主成分分析法实现复杂问题的简单化。一、主成分分析基本概念

主成分(Principalcomponents)分析是把给定的一组变量,通过线性变换,转化为一组不相关的变量。在这种变量的转化过程中,变量的总方差(的方差之和)保持不变。同时,使具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推,原来有k个变量,就可以转换出k个主成分。但在实际应用中,为了简化问题,通常不是找出k个主成分,而是找出q(q<k)个主成分就够了,只要这q个主成分反映出原来k个变量的绝大部分的方差就行。

调查n个个体(样本)在k个指标下的数值(或者用

k个指标来评价n个对象),就可得到数据矩阵:

统计描述现在的目的是要求解出,使得即简记为向量Y满足如下条件:指标

之间不相关。方差尽可能大,即对n

个对象的分辨率尽可能强,信息损失尽可能的少。主成分分析小结:(1)从相关的多个指标中,求出相互独立的多个指标。(2)的方差信息不损失,尽可能等同于的方差。

X

与Y

的转换关系为:几何解释

在下图的坐标中,散点大致为椭圆状。经过线性变换可以得到新的坐标。在椭圆的长轴上,反映出了散点在这个方向的最大方差。在椭圆的短轴上,反映出了散点在这个方向的方差。主成分的计算流程步骤一:对矩阵而言(它是k阶的实对称矩阵),首先找到它的k个实特征根。步骤二:相应的k个长度为1的、相互正交的特征向量,

即特征向量矩阵为式中,,。

主成分的计算流程步骤三:按如下方法得到主成分:式中,。是相互正交的综合变量。将k个主成分放到一起可得矩阵表达式:主成分的计算流程主成分更为明晰的表达式:

主成分的计算流程结语:若从中只取q个,就能使则,就是体现了原来多指标下数据主要信息的少数几个综合性指标,就是我们要找的主成分。主成分分析实例例1:全国经济发展基本情况的指标主要有八项:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值,现收集有全国30个省市自治区的相关指标(见例),请用主成分分析方法选出适当的指标项。二、因子分析

方法概述

人们在研究实际问题时,往往希望尽可能多的收集相关变量,以期望对问题有比较全面、完整的把握和认识。为解决这些问题,最简单和最直接的解决方案是减少变量数目,但这必然又会导致信息丢失或不完整等问题。为此,人们希望探索一种有效的解决方法,它既能减少参与数据分析的变量个数,同时也不会造成统计信息的大量浪费和丢失。因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多个变量减少为少数几个因子的方法。这几个因子可以高度概括大量数据中的信息,这样,既减少了变量个数,又同样能再现变量之间的内在联系。

二、因子分析因子分析方法是利用各变量间存在一定的相关关系,用较少的综合指标分别综合存在于各变量中的相关关系,而综合指标之间彼此不相关,即各指标代表的信息不重叠。代表各类信息的综合指标就称为因子变量或公因子。这种方法能以较少的因子变量和最小的信息损失来解释变量之间的结构。因子分析概述因子变量的特点:(1)因子变量的数量远少于原有变量的数量,对因子变量的分析可以减少分析中的计算工作量。(2)因子变量并不是原有变量简单的取舍,而是对原始变量的重新组构,他们能够反映原始众多变量的绝大部分信息,不会产生重要信息的丢失。(3)因子变量之间没有线性相关关系,对因子变量的分析就能避开原始变量的共线性问题,使研究工作更加简便。(4)因子变量具有命名解释性。因子变量的命名解释性可以理解为某个因子变量是对某些原始变量的总和,它能够反映这些原始变量的绝大部分信息。因此我们可以对因子变量根据专业知识和其所反映的独特含义给予命名。因子分析概述因子分析的主要应用有两方面:一是寻求基本结构,简化观测系统,将具有错综复杂关系的变量综合为少数几个因子(不可观测的,相互独立的随机变量),以再现因子与原始变量之间的内在联系;二是用于分类,对p个变量或n个样本进行分类。因子分析概述因子分析根据研究对象可以分为R型和Q型因子分析:R型因子分析研究变量之间的相关关系,通过对变量的相关阵或协差阵内部结构的研究,找出控制所有变量的几个公共因子,用以对变量或样本进行分类。Q型因子分析研究样本之间的相关关系,通过对样本的相似矩阵内部结构的研究找出控制所有样本的几个主因子。这两种因子分析的处理方法一样,只是出发点不同。R型从变量的相关阵出发,Q型从样本相似阵出发。因子分析实例为了了解青年对婚姻家庭的态度,随机访问了100人,询问了30个问题,把这些问题归结于不可测的因子变量,即对外型的重视、对孩子的教育观点、对家庭的重视、对金钱的重视等其它方面,因子分析的目的就是要建立一个模型,用这些不可测的、所有原始变量共有的因子变量和一些每个原始变量所特有的特殊因子来描述可测的原始变量,进而分析和解释青年人对婚姻家庭的态度。因子模型描述如下:因子分析模型因子分析模型那么因子分析模型可以构造成:因子分析模型则称上式为因子模型,它的矩阵形式为:其中矩阵是待估系数矩阵,称为因子载荷矩阵,系数a11称为变量X1在因子F1上的载荷。称F1,F2,…,Fm为的公共因子,它一般对X每一个分量Xi都有作用;称为的X1特殊因子,它起着残差的作用,只对X1起作用因子分析模型因子模型的四个关键性假设:因子分析的基本步骤因子分析的标准分析步骤为:(1)根据具体问题,判断待分析的原始若干变量是否适合作因子分析,并采用某些检验方法来判断数据是否符合分析要求。(2)选择提取公因子的方法,并按一定标准确定提取的公因子数目。(3)考察公因子的可解释性,并在必要时进行因子旋转,以寻求最佳的解释方式。(4)计算出因子得分等中间指标进一步分析使用。1.判断原始变量是否适合进行因子分析因子分析有一个默认的前提条件,就是原始各变量间必须有较强的相关性,否则根本无法从中综合出能反映原始变量结构的因子变量,这就是因子分析最为严格的前提要求,所以一般在进行具体的因子分析前,需先对原始变量进行相关分析。最简单的方法是计算变量之间的相关系数矩阵并进行统计检验。如果相关系数矩阵中的大部分相关系数都小于0.3且未通过统计检验,那么,这些变量就不适合作因子分析。除此之外,SPSS还提供了几种帮助判断变量是否适合作因子分析的统计检验方法:1.判断原始变量是否适合进行因子分析(1)巴特利特球度检验(Bartletttestofsphericity)巴特利特球度检验原假设H0是:相关阵是单位阵,即各变量各自独立。巴特利特球度检验的统计量根据相关系数矩阵的行列式计算得到。如果该统计量值比较大,且其对应的相伴概率值小于用户心中的显著性水平,则应拒绝H0

,认为相关系数矩阵不太可能是单位阵,适合作因子分析;相反,如果该统计量值比较小,且其对应的相伴概率值大于用户心中的显著性水平,则不能拒绝H0

,可以认为相关系数矩阵可能是单位阵,不适合作因子分析。1.判断原始变量是否适合进行因子分析(2)反映象相关矩阵(Anti-imagecorrelationmatrix)检验反映象相关矩阵检验是将偏相关系数矩阵的每个元素取反,得到反映象相关阵。如果变量之间确实存在较强的相互重叠传递影响,由于计算偏相关系数时是在控制其它变量对两变量影响的条件下计算出来的净相关系数,因此如果变量中确实能够提取出公共因子,那么偏相关系数必然很小,则反映象相关矩阵中的有些元素的绝对值比较大,则说明这些变量可能不适合作因子分析。1.判断原始变量是否适合进行因子分析(3)KMO(Kaiser-Meyer-Olkin)检验KMO统计量是比较各变量间简单相关系数和偏相关系数的大小。可见,KMO统计量的取值在0和1之间,KMO统计量越接近1,则越适合作因子分析,KMO越小,则越不适合作因子分析。一般认为,KMO值大于0.9就非常适合,0.7以上效果一般;0.6则不太适合,0.5以下不适合。2.提取公因子和确定公因子数目因子分析有许多提取公因子的方法,如主成分分析法,最大似然法,α因子提取法等,其中应用最广泛的是主成分分析法。主成份分析法的目的是从原始的多个变量取若干线性组合,使得能尽可能多地保留原始变量中的信息。主成分分析法是通过坐标变换手段,将原始变量转换到新变量,是一个正交变换(坐标变换)。2.提取公因子和确定公因子数目该方程组要求:考虑它的线性变换:设有

是一个p维随机变量2.提取公因子和确定公因子数目2.提取公因子和确定公因子数目分别将如上确定的成为原始数据的第一、第二、……第p主成分。在实际应用中,我们往往只需要能反映原始数据绝大部分信息的少数几个主成分即可,因此一般选取前面几个方差最大的主成分。2.提取公因子和确定公因子数目基于上述基本原理,现将主成分模型的系数求解步骤归纳如下:(1)将原有变量数据进行标准化处理。(2)计算变量的简单相关系数矩阵。(3)求解协方差阵的特征根,并将特征值从大到小排序并重新编码:2.提取公因子和确定公因子数目(4)按预先规定所取的P个公因子的累计方差贡献率达到的百分比m%2.提取公因子和确定公因子数目(6)写出因子负荷阵2.提取公因子和确定公因子数目选定提取因子方法的同时,还需确定所需提取的公因子的数目。其实在确定公因子数量的问题上,并无统一的原则来遵循,也无统一的标准来确定所应该有的公因子数目,一般来说,主要通过以下几个方面来确定公因子数量。2.提取公因子和确定公因子数目(1)根据特征根来确定。特征根在某种程度上可以被看成是表示公因子影响力度大小的指标,如果特征根小于1,说明该公因子的解释力度还不如直接引入一个原变量的平均解释力度大。因此在SPSS中默认用特征根大于1作为纳入标准。2.提取公因子和确定公因子数目(2)根据公因子的累积方差贡献率来确定。其实公因子的累积方差贡献率也就是前面在主成分分析中讲到的主成分的累积贡献率。一般来说,提取公因子的方差累积贡献率达到85%-90%以上就比较满意了,可以此决定需要提取多少个公因子。2.提取公因子和确定公因子数目大量的实践表明,根据方差累积贡献率确定公因子数往往较多,而用特征根来确定又往往偏低,许多时候应当将两者结合起来,以综合确定合适的数量。其实在因子分析中,提取公因子数量的原则重点在于提取出的公因子的可解释性上,如果有实际意义,即使贡献率较小,也可以考虑保留。而如果特征根大于1,但是找不到合理的解释,则也可考虑将该公因子去除。3.公因子的命名解释某个原始变量xi同时与几个公因子都有比较大的相关关系,即xi的信息要由若干个公因子共同解释;同时,虽然一个公因子能够解释许多原始变量的信息,但它都只是解释每一个原始变量的一部分信息,而不是任何一个变量的典型代表。这样在按照默认的分解方式,各因子可能难以找到所代表的实际意义3.公因子的命名解释因子模型的一个特点:因子载荷阵不唯一,则可以利用这一特点对因子载荷矩阵进行适当的旋转,使公因子载荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易,但保持因子载荷矩阵A各行的元素的平方和即变量X的共同度不变。实现以上目的是通过因子轴的旋转进行变换的。3.公因子的命名解释设从公因子F旋转到公因子G,则模型变为:是旋转后的因子模型,其中b11仍称为因子载荷。由旋转前后的模型比较可以看出旋转并不会影响公因子的提取过程和结果,只会改变原始变量的信息量在不同因子上的分布,即改变因子载荷阵。3.公因子的命名解释常用的旋转方法可分为正交和斜交两大类。在因子旋转过程中如果因子轴仍相互正交,则称为正交旋转。如果因子轴之间不是相互正交的,则是斜交旋转。进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。3.公因子的命名解释常用的是方差最大化正交旋转(Varimax),它旋转的原则是各因子仍保持直角正交,但使得因子间方差的差异达到最大,即使得在每个因子具有较高载荷的变量个数最小化。这种方法一般能简化对因子的解释。3.公因子的命名解释但如果正交变换后对公因子仍然不易解释,也可以进行斜交旋转,或许可以得到比较容易解释的结果。斜交旋转最常用的是倾斜旋转(Promax),这种方法是在方差最大化正交旋转的基础上进行斜交旋转,计算速度较快,旋转后允许因子间存在相关(交角非直角)。3.公因子的命名解释在对因子矩阵进行旋转以后,就必须给不同的因子进行命名。因子命名有一些原则:(1)因子分析的命名必须简明、用尽量少的词(2~3个)去解释因子。(2)必须要注重不同因子荷载高的变量之间的相似性(3)可以根据因子中包含什么样的变量来给因子命名。4.计算因子得分在因子分析中,还可以将公因子表示为原始变量的线性组合,这样就可以从原始变量的观测值估计各个公因子的值,求出的此值就是因子得分。4.计算因子得分由此可以得到以下模型:称为因子得分模型,每一个式子都是因子得分函数。由它可计算出每个样本的因子得分。SPSS在因子分析中的应用

3、基本步骤总结(1)确认待分析的原变量是否适合作因子分析因子分析的主要任务是将原有变量的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。故它要求原始变量之间应存在较强的相关关系。进行因子分析前,通常可以采取计算相关系数矩阵、巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。(2)构造因子变量将原有变量综合成少数几个因子是因子分析的核心内容。它的关键是根据样本数据求解因子载荷阵。因子载荷阵的求解方法有基于主成分模型的主成分分析法、基于因子分析模型的主轴因子法、极大似然法等。SPSS在因子分析中的应用

(3)利用旋转方法使因子变量更具有可解释性将原有变量综合为少数几个因子后,如果因子的实际含义不清,则不利于后续分析。为解决这个问题,可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷,这样使提取出的因子具有更好的解释性。(4)计算因子变量得分实际中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分。于是,在以后的分析中就可以利用因子得分对样本进行分类或评价等研究,进而实现了降维和简化问题的目标。SPSS在因子分析中的应用

根据上述步骤,可以得到进行因子分析的详细计算过程如下:①将原始数据标准化,以消除变量间在数量级和量纲上的不同。②求标准化数据的相关矩阵。③求相关矩阵的特征值和特征向量。④计算方差贡献率与累积方差贡献率。⑤确定因子:设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标。⑥因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。⑦用原指标的线性组合来求各因子得分。⑧综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。SPSS在因子分析中的应用实例分析:居民消费结构的变动1.实例内容消费结构是指在消费过程中各项消费支出占居民总支出的比重。它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。而消费结构的变动不仅是消费领域的重要问题,而且也关系到整个国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高,而且也为建立合理的产业结构和产品结构提供了重要的依据。表11-2是某市居民生活费支出费用,具体分为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐及服务、居住和杂项商品与服务等8个部分。请利用因子分析探讨该市居民消费结构,为产业政策的制定和宏观经济的调控提供参考。SPSS在因子分析中的应用2.实例操作

数据文件11-1.sav是某市居民在食品、衣着、医疗保健等八个方面的消费数据,这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,无法能够分析居民消费结构的特点。因此,可以考虑采用因子分析,将这八个指标综合为少数几个因子,通过这些公共因子来反映居民消费结构的变动情况。SPSS在因子分析中的应用3.实例结果及分析(1)描述性统计表下表显示了食品、衣着等这八个消费支出指标的描述统计量,例如均值、标准差等。这为后续的因子分析提供了一个直观的分析结果。可以看到,食品支出消费所占的比重最大,其均值等于39.4750%,其次是文化娱乐服务支出消费和交通通信支出消费。所有的消费支出中,医疗保健消费支出占的比重最低。SPSS在因子分析中的应用SPSS在因子分析中的应用(2)因子分析共同度

下表是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度。它表明,对原有八个变量如果采用主成分分析法提取所有八个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,所有变量的绝大部分信息(全部都大于83%)可被因子解释,这些变量信息丢失较少。因此本次因子提取的总体效果理想。SPSS在因子分析中的应用SPSS在因子分析中的应用(3)因子分析的总方差解释接着Spss软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如下表所示。在下页表中,第一列是因子编号,以后三列组成一组,组中数据项的含义依次是特征根、方差贡献率和累计贡献率。第一组数据项(第二至第四列)描述了初始因子解的情况。可以看到,第一个因子的特征根值为4.316,解释了原有8个变量总方差的53.947%。前三个因子的累计方差贡献率为94.196%,并且只有它们的取值大于1。说明前3个公因子基本包含了全部变量的主要信息,因此选前3个因子为主因子即可。同时,ExtractionSumsofSquaredLoadings和RotationSumsofSquaredLoadings部分列出了因子提取后和旋转后的因子方差解释情况。从表中看到,它们都支持选择3个公共因子。SPSS在因子分析中的应用因子分析的总方差解释SPSS在因子分析中的应用(4)因子碎石图下图为因子分析的碎石图。横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,取值都小于1,说明它们对解释原有变量的贡献很小,称为可被忽略的“高山脚下的碎石”,因此提取前三个因子是合适的。SPSS在因子分析中的应用SPSS在因子分析中的应用(5)旋转前的因子载荷矩阵下表中显示了因子载荷矩阵,它是因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如“食品”指标在三个因子的载荷系数区别不大。因此接着采用因子旋转方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小。这样结果更具可解释性。SPSS在因子分析中的应用旋转前的因子载荷矩阵SPSS在因子分析中的应用(6)旋转后的因子载荷矩阵下表中显示了实施因子旋转后的载荷矩阵。可以看到,第一主因子在“交通和通信”和“医疗保健”等五个指标上具有较大的载荷系数,第二主因子在“居住”和“衣着”指标上系数较大,而第三主因子在“杂项商品与服务”上的系数最大。此时,各个因子的含义更加突出。SPSS在因子分析中的应用实施因子旋转后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论