主成分分析与因子分析_第1页
主成分分析与因子分析_第2页
主成分分析与因子分析_第3页
主成分分析与因子分析_第4页
主成分分析与因子分析_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第章主成分分析与因子分析第一页,共25页。第10章主成分分析与因子分析 实际工作中,为了全面系统地反映问题,往往收集的变量实际工作中,为了全面系统地反映问题,往往收集的变量较多,但这样就会经常出现所收集的变量间存在较强相关较多,但这样就会经常出现所收集的变量间存在较强相关关系的情况。这些变量间存在着较多的信息重复,直接用关系的情况。这些变量间存在着较多的信息重复,直接用它们分析现实问题,不但模型复杂,还会因为变量间存在它们分析现实问题,不但模型复杂,还会因为变量间存在的多重共线性而引起极大的误差。的多重共线性而引起极大的误差。 为了能够充分而有效的利用数据,通常希望用较少的新指为了能够充分而有

2、效的利用数据,通常希望用较少的新指标代替原来较多的旧变量,同时要求这些新指标尽可能地标代替原来较多的旧变量,同时要求这些新指标尽可能地反映原变量的信息。主成分分析和因子分析正是解决此问反映原变量的信息。主成分分析和因子分析正是解决此问题最有效的多元统计方法,它们能够提取信息,使变量简题最有效的多元统计方法,它们能够提取信息,使变量简化降维,从而使问题更加简单直观,在经济、社会等领域化降维,从而使问题更加简单直观,在经济、社会等领域得到广泛应用。得到广泛应用。第二页,共25页。10.1 主成分分析的概念 主成分分析是考察多个变量间相关性的一种多元统计方法主成分分析是考察多个变量间相关性的一种多元

3、统计方法。它是研究如何通过少数几个主分量来解释多个变量间的。它是研究如何通过少数几个主分量来解释多个变量间的内部结构。内部结构。 也就是说,从原始变量中导出少数几个主分量,使它们尽也就是说,从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。可能多地保留原始变量的信息,且彼此间互不相关。 主成分分析的应用目的可以被简单归结为两句话:数据的主成分分析的应用目的可以被简单归结为两句话:数据的压缩、数据的解释。它常被用来寻找判断某种事物或现象压缩、数据的解释。它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释的综合指标,并且给综合指标

4、所包含的信息以适当的解释,从而更加深刻的揭示事物的内在规律。,从而更加深刻的揭示事物的内在规律。第三页,共25页。10.2 主成分分析的数学模型通常数学上的处理是将原来的个指标作线性组合,作为通常数学上的处理是将原来的个指标作线性组合,作为新的综合指标。新的综合指标。如果将选取的第一个线性组合即第一个综合指标记为,一如果将选取的第一个线性组合即第一个综合指标记为,一般自然希望中尽可能多地反映原来指标的信息,这里的般自然希望中尽可能多地反映原来指标的信息,这里的“信息信息”用什么表示呢?用什么表示呢?最经典的方法就是用的方差来表达,即越大,则表示包含的信息最经典的方法就是用的方差来表达,即越大,

5、则表示包含的信息越多。越多。因此在所有的线性组合中所选取的第因此在所有的线性组合中所选取的第1 1主成分应该是方差最主成分应该是方差最大的。大的。如果第如果第1 1主成分不足以完全代表原来个指标的信息,再考虑选第主成分不足以完全代表原来个指标的信息,再考虑选第2 2个线性组合,即第个线性组合,即第2 2主成分,主成分,第四页,共25页。 依次类推可以造出第依次类推可以造出第3 3,第,第4 4, ,第个主成分。这些主,第个主成分。这些主成分间互不相关,且方差递减。成分间互不相关,且方差递减。 在实际应用中,通常只选前面几个最大的主成分,在实际应用中,通常只选前面几个最大的主成分,虽然这样损失了

6、部分信息,但抓住了主要矛盾,并虽然这样损失了部分信息,但抓住了主要矛盾,并从原始变量中进一步提取了某些信息,从而既减少从原始变量中进一步提取了某些信息,从而既减少了变量的数目又抓住了主要矛盾,有利于问题的分了变量的数目又抓住了主要矛盾,有利于问题的分析和处理。析和处理。第五页,共25页。10.2.1 主成分模型中各统计量的意义()特征根:它可以被看成是主成分影响力度的指标,代表引入该主成分后可以解释平均多少原始变量的信息。如果特征根小于,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大。因此一般可以用特征根大于作为纳入标准。()主成分的方差贡献率:其计算公式为表明主成分的方差在全

7、部方差中的比重。这个值越大,表明主成分综合信息的能力越强。第六页,共25页。()累计贡献率()累计贡献率:前个主成分的累计贡献率定义为,表:前个主成分的累计贡献率定义为,表示前面个主成分累计提取了多少的信息。一般来说,如示前面个主成分累计提取了多少的信息。一般来说,如果前个主成分的贡献率达到果前个主成分的贡献率达到85,表明前个主成分基本,表明前个主成分基本包含了全部测量指标所具有的信息,这样既减少了变包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。量的个数又便于对实际问题的分析和研究。第七页,共25页。10.2.2 主成分分析的步骤主成分分析的步骤 主成分

8、分析常常通过以下步解决:主成分分析常常通过以下步解决:()对原来的个指标进行标准化,以消除变量在数量极()对原来的个指标进行标准化,以消除变量在数量极或量纲上的影响。或量纲上的影响。()根据标准化后的数据矩阵求出协方差或相关阵()根据标准化后的数据矩阵求出协方差或相关阵。()求出协方差矩阵的特征根和特征向量。()求出协方差矩阵的特征根和特征向量。()确定主成分,结合专业知识给各主成分所蕴含的信()确定主成分,结合专业知识给各主成分所蕴含的信息给予适当的解释。息给予适当的解释。第八页,共25页。 SPSS中没有把主成分分析作为一种独立的分析方法,而中没有把主成分分析作为一种独立的分析方法,而是和

9、因子分析共用一个过程,因此在是和因子分析共用一个过程,因此在SPSS中进行主成分中进行主成分分析时会输出许多因子分析中的结果,但是这并不影分析时会输出许多因子分析中的结果,但是这并不影响分析结果的准确性,而且相应的输出都可以根据因响分析结果的准确性,而且相应的输出都可以根据因子分析模型和主成分分析模型之间的关系进行转换。子分析模型和主成分分析模型之间的关系进行转换。第九页,共25页。10.2.3 主成分分析的用途主成分分析的用途如前所述,主成分分析往往会在大型研究中成为一个中间如前所述,主成分分析往往会在大型研究中成为一个中间环节,用于解决数据信息浓缩等问题,这就可能产生各种环节,用于解决数据

10、信息浓缩等问题,这就可能产生各种各样的组合方法。这里仅举最为典型的两种应用情况。各样的组合方法。这里仅举最为典型的两种应用情况。()主成分评价()主成分评价 在进行多指标综合评价时,由于要求评价结果客观、全面在进行多指标综合评价时,由于要求评价结果客观、全面,就需要从各个方面用多个指标进行测量,但这样就使得,就需要从各个方面用多个指标进行测量,但这样就使得观测指标间存在信息重叠,同时还会存在量纲、累加时如观测指标间存在信息重叠,同时还会存在量纲、累加时如何确定权重系数等问题。为此就可以使用主成分分析方法何确定权重系数等问题。为此就可以使用主成分分析方法进行信息的浓缩,并解决权重的确定等问题。本

11、章最后的进行信息的浓缩,并解决权重的确定等问题。本章最后的综合分析实例即为此类问题。综合分析实例即为此类问题。第十页,共25页。()主成分回归()主成分回归 在线性回归模型中,常用最小二乘法求回归系数的估计。在线性回归模型中,常用最小二乘法求回归系数的估计。 但是当存在多重共线性时,最小二乘法的估计结果并不很但是当存在多重共线性时,最小二乘法的估计结果并不很理想,因为此时它的均方误差大,使估计不稳定。理想,因为此时它的均方误差大,使估计不稳定。 这时可考虑用主成分回归求回归系数的估计,所谓主成分这时可考虑用主成分回归求回归系数的估计,所谓主成分回归是用原自变量的主成分代替原自变量作回归分析。回

12、归是用原自变量的主成分代替原自变量作回归分析。 多重共线是由自变量之间关系复杂、相关性大引起的,而多重共线是由自变量之间关系复杂、相关性大引起的,而主成分既保留了原指标的绝大部分信息,又有主成分间互主成分既保留了原指标的绝大部分信息,又有主成分间互不相关的优点,故用主成分替代原指标后,再用最小二乘不相关的优点,故用主成分替代原指标后,再用最小二乘法建立主成分与目标变量间回归方程所得的回归系数估计法建立主成分与目标变量间回归方程所得的回归系数估计能克服能克服“估计不稳定估计不稳定”的缺点。但主成分估计不是无偏估的缺点。但主成分估计不是无偏估计。计。第十一页,共25页。 10.2.4分析实例例10

13、.1我们对100个学生的成绩进行分析,具体的6项成绩指标是数学、物理、化学、语文、历史、英语。的成绩的数据,数据文件student.sav。第十二页,共25页。 这是一个综合分析问题,八项指标较多,可以用主成分分析法进行综合。打开文件后在SPSS中的操作如下:选择菜单:【分析】【降维】【因子分析】于是出现如图10.3所示的窗口。第十三页,共25页。 选择参与主成分分析的变量到【变量】框中,点击【描述】于是出现如图10.4所示的窗口第十四页,共25页。 SPSS在调用因子分析过程进行分析时,首先会自动对原始变量进行标准化,因此以后的输出结果中在通常情况下都是指标准化后的变量。在结果输出中会涉及一

14、些因子分析中的内容,因此这里仅给出与主成分分析有关的部分如下:表表10.1 10.1 相关矩阵相关矩阵第十五页,共25页。表10.2给出的是各成分的方差贡献率和累计贡献率,由表10.2可知,只有前2个特征根大于,因此SPSS只提取了前二个主成分。第一主成分的方差所占所有主成分方差的62.254%,前二个主成分的方差贡献率达到81.142%,因此选前二个主成分已足够描述学生成绩的水平。 第十六页,共25页。在表10.3中的输出为主成分系数矩阵,可以说明各主成分在各变量上的载荷,从而得出各主成分的表达式,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、

15、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 第十七页,共25页。10.3 因子分析 因子分析是由因子分析是由Charles Spearman在在1904年首次提出,并在年首次提出,并在其后半生一直致力于发展此理论,使之最终成为了现代统其后半生一直致力于发展此理论,使之最终成为了现代统计学的重要分支,因此它被公认为因子分析之父。计学的重要分支,因此它被公认为因子分析之父。 因子分析在某种程度上可以被看成是主成分分析的推广和因子分析在某种程度上可以被看成是主成分分析的推广和扩展,它对问题的研究更为深入

16、,是将具有错综复杂关系扩展,它对问题的研究更为深入,是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,探讨多个能够直接测量,始变量与因子之间的相互关系,探讨多个能够直接测量,并且具有一定相关性的实测指标是如何受少数几个内在的并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配的,同时根据不同因子还可以对变量进行独立因子所支配的,同时根据不同因子还可以对变量进行分类,属于多元分析中处理降维的一种统计方法。分类,属于多元分析中处理降维的一种统计方法。第十八页,共25页。10.4 因子分析数

17、学模型 因子分析是通过研究多个变量间相关系数矩阵(或因子分析是通过研究多个变量间相关系数矩阵(或协方差矩阵)的内部依赖关系,找出能综合所有变协方差矩阵)的内部依赖关系,找出能综合所有变量的少数几个随机变量,这几个随机变量是不可测量的少数几个随机变量,这几个随机变量是不可测量的,通常称为因子。然后根据相关性的大小把变量的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。同组的变量相关性较低。 各个因子间互不相关,所有变量都可以表示成公因子的各个因子间互不相关,所有变量都可以表示成公因子的线性组合。

18、因子分析的目的就是减少变量的数目,用少线性组合。因子分析的目的就是减少变量的数目,用少数因子代替所有变量去分析整个经济问题。数因子代替所有变量去分析整个经济问题。第十九页,共25页。第二十页,共25页。()样本量不能太小()样本量不能太小。对于因子分析而言,要求样本。对于因子分析而言,要求样本量比较充足,否则结果可能不太可靠。一般而言,要求量比较充足,否则结果可能不太可靠。一般而言,要求样本量至少是变量数的倍以上,如果要想得到比较理样本量至少是变量数的倍以上,如果要想得到比较理想的结果,则应该在倍以上。其次,除了比例关系想的结果,则应该在倍以上。其次,除了比例关系外,样本总量也不能太少,按理论

19、要求应该在以外,样本总量也不能太少,按理论要求应该在以上。不过在实际的经济和社会问题中,很多时候样本量上。不过在实际的经济和社会问题中,很多时候样本量都达不到这个要求,这时也可以适当放宽要求,通过检都达不到这个要求,这时也可以适当放宽要求,通过检验来判断结果的可靠性。验来判断结果的可靠性。第二十一页,共25页。()各变量间应该具有相关性()各变量间应该具有相关性。如果变量间彼此独立,则。如果变量间彼此独立,则无法从中提取公因子,也就谈不上因子分析法的应用。无法从中提取公因子,也就谈不上因子分析法的应用。在在SPSS中,可以通过中,可以通过Bartlett球形检验来判断,如果相关阵是球形检验来判断,如果相关阵是单位阵,则各变量独立,因子分析法无效。单位阵,则各变量独立,因子分析法无效。()()KMO检验检验。KMO检验用于检查变量间的偏相关性,取值在检验用于检查变量间的偏相关性,取值在01之间。之间。KMO统计量越接近

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论