如何利用SPSS进行主成分分析_第1页
如何利用SPSS进行主成分分析_第2页
如何利用SPSS进行主成分分析_第3页
如何利用SPSS进行主成分分析_第4页
如何利用SPSS进行主成分分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、利用SPSS进行主成分分析【例子】以全国31个省市的8项经济指标为例,进行主成分分析 第一步:录入或调入数据(图1)省份国内生产|居民消费固定资产|职工工资货物周转|消费价格商品零售工业产值11394.092505.00513 018144.00373.9011730112.60343.432920.112720,。345 46E501.003429011520110 60532.5132849.521250.00704 S74339.002033.3011520115.S01234.3541092.461250 00290 904721.00717.3011S.9011560697.2556

2、32.061367.00250.234134.007B1 70117.60116.60419 3962793.372397 00337.994911.00137170115.10114 001940.557吉林11 为.201872.00320.454430.00497 40115.20114.20762.47B黑耘江2014.532334.00435.734145.00924.80115.10114.301240.3792462.575343. 99S.469279.00207.40118.70113.001642.95105155.251926 001434.955943.001025.5

3、0115.90114.302026.64113524.792249. 1006.39B619.D0754 40115.60113.5091E 59122003.581254.00474.004E09.D0908.30114.S0112.70824.14132160.522320 U0563 975357.00皿30115.20114.40433.671431西1205.111182.002E2.E44211.00411.70115.90115.90571.34156002.341527,。1229 55勺皈001196,印117 E0114 202207.5916河南300274103J.UU

4、670 354344.001574.4011560114 901367.92172391.421527.00671.634665.00S4S.00120.00llhoU1220.72182195701406.00422.614797.001011.B0119.00115.50日 43,3319rw5381.722699.001639.336250.0065E.90114.00111.601396 3520广西1606.151314.003S2.595106.00536.00113.40116.40554.97213B4.171S14.00198.355340.00232.10113.50111

5、.3064.33223534.00261.00022 544645.00902.30118.50117.001431.8123630.07942 00150.944475.00301.10121.40117.20324 72241206.6S1261 00334.00S149.D0310.40121.30119.10716.552555.96qw.oo17 877382.004.20I17.3D114.9Q5 57261000.031208 00300 2713 施 00500.90119.00117.00600.9627甘矿553.351007.00114.E15493.00507.0011

6、9.B011E.60466.792B青矿166.31i446.nn47 7G6763.0061.B01130011E30105.9029169.761355.UU01 sa5073.00121.30117 10115.30114.4030K疆S34.571469.00376 S55348.00339.00119 70116.70426.76图1原始数据(未经标准化)第二步:打开“因子分析”对话框。沿着主菜单的"Analyze一 Data Reduction一 Factor -”的路径(图2)打开因子分析 选项框(图3)。国全国30个省市区箸济发展的8哽指曲-SPSS Data Edi

7、torFile Edit View Data Transform Analyze Graphs Utifitie Window Help行旧|昌|回三Id回ReportsDescriptive Statistics Compare MeansGeneral Linear Model CarrelateRegressionClassiF剽垂腐1号6: 省份国西生另匚职工工资1匕京1394.E18144.002夭津920.166501.003河北2849.EData Reduction 1Factor.4山1092.2111 .ScaleNonparametric Tests Mu|tipie R

8、esponse5F蒙832.E34134.006辽宁2793.394911 同图2打开因子分析对话框的路径图3因子分析选项框第三步:选项设置首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会" Value”栏。下面逐项设置。Variables:产费产资转格售值 生消资工周价零产 内民芝工物费品吐 国居固职贷消商TDescrip+ives.Extraction.Selection Variable:Value.Rotation.Options.

9、图4将变量移到变量栏以后1.设置 Descriptives 选项。单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。图5描述选项框在Statistics栏中选中Univariate descriptives复选项,则输出结果中将会给出原始数 据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。在Correlation Matrix栏中,选中 Coefficients复选项,则会给出原始变量的相关系 数矩阵(分析时可参考);选中Determinant复选项,

10、则会给出相关系数矩阵的行列式, 如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项 一般不用,但在特殊情况下可以用到(本例不选) 。设置完成以后,单击 Continue按钮完成设置(图5)。2.设置 Extraction 选项。打开Extraction对话框(图6)。因子提取方法主要有 7种,在Method栏中可以看 到,系统默认的提取方法是 主成分(rPi/了c&o安g ),因此对此栏不作变动, 就是认可了主成分分析方法。在Analyze栏中,选中Correlation matirx复选项,则因子分析基于数据的相关系数 矩阵进行分析;如果选中 Covar

11、iance matrix复选项,则因子分析基于数据的协方差矩阵 进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选 其一即可。在Display栏中,选中Unrotated factor solution (非旋转因子解)复选项,则在分析 结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样; 对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。选中Scree Plot C山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。在Extract栏中,有两种方法可以决定提

12、取主成分(因子)的数目。一是根据特征根(Eigenvalues)的数值,系统默认的是 知=1。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认,-c =1,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将,七值降低,例如取如=0。;如果认为最后的提取的主成分数量偏多,则可以提高九值,例如取勾=1.1。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值 的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取 舄=0.8 ),这样提取的主成分将会偏多,根据初次分析的结果,在第二 轮分析过

13、程中可以调整特征根的大小。第二种方法是直接指定主成分的数目即因子数目,这要选中Number of factors复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不房将数值设大一 些,但不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为8,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。图6提取对话框13需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是 25次。但是,当数据量较大时,25次迭代是不够的,需要改为 50次、100次乃至更多 对于本例而言,变量较少,25次迭代足够,故无需改动。设置完成以后,单击 Cont

14、inue按钮完成设置(图6)。3.设置Scores设置选中Save as variables栏,则分析结果中给出标准化的主成分得分(在数据表的后 面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。Factor AiHelp |P Save as variablesMethod* Regression广旦artlett厂 Anderson-Rubin9 Display factor score coefficient matrix图7因子得分对话框选中Display factor score coefficient matrix ,则

15、在分析结果中给出因子得分系数矩阵 及其相关矩阵。设置完成以后,单击 Continue按钮完成设置(图7 )。4.其它。对于主成分分析而言,旋转项( Rotation)可以不必设置;对于数据没有缺失的情 况下,Option项可以不必理会。全部设置完成以后,点击OK确定,SPSS很快给出计算结果(图8)。"73Factor AnalysisDescriptive Stad$tfi££Meanstd. DeviationAnaly$i$ N国匹主尸1霁 LD931474.3060330居民消费1745.933051.6419330固定资产511=5083432,0054

16、830职工工暨545由31310.2180530货物周转北弗湖三30117.29672.0253130商品零售114.9D671.0980830工业产值862.9930534.5672&3DCorrelation Matrix*居民陶费固戏产职工工觉隋物周特消费侨格商品零罟产值Correlator)国 PD生产1.000.267.951.191.617-.273-.264J74居炭消费&71.Q0D426.71B-451-.235-<999.363固定遂产.951.4261.D00,00.-131-.280-.35S.792职工I资.191.7101.000-.356-.

17、539104魅物周转C17-.151-431-.3561.000-253皿-699带牌价咯-.235-.260-.135.2531.000崩3-.125商品零售-.264-.593-3S9.539.0221.000.192工皈唯.874.363,792.104.659-.125-.1921.000a. Determinant 1.133E-CH图8主成分分析的结果第四步,结果解读。在因子分析结果(Output)中,首先给出的 Descriptive Statistics,第一列 Mean对应的变量的算术平均值,计算公式为Xj =i Xjn i a第二列Std. Deviation对应的是样本标

18、准差,计算公式为气=土/ (xj Xj)21,2n -1旧第三列Analysis N对应是样本数目。这一组数据在分析过程中可作参考。Descriptive StatisticsMeanStd. DeviationAnalysis N国内生产1921.0931474.8060330居民消费1745.933861.6419330固定资产511.5083402.8854830职工工资5457.6331310.2180530货物周转666.1400459.9669930消费价格117.28672.0253130商品零售114.90671.8980830工业产值862.9980584.5872630接下

19、来是CorrelationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的 因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从 计算相关系数矩阵的特征根开始的。相关系数阵下面的Determinant=1.133E-0.4是相关 矩阵的行列式值,根据关系式d et* - R) = 0可知,det( K)=det( R),从而 Determinant=1.133E-0.4= X*祛衫泌祐方*万* %。这一点在后面将会得到验证。Correlation Matrix a国内 生产居民 消费

20、固定资产职工 工资物转货周消费价格商品 零售工业产值国内生产1.000.267.951.191.617-.273-.264.874居民消费.2671.000.426.718-.151-.235-.593.363固定资产.951.4261.000.400.431-.280-.359.792职工工资.191.718.4001.000-.356-.135-.539.104货物周转.617-.151.431-.3561.000-.253.022.659消费价格-.273-.235-.280-.135-.2531.000.763-.125商品零售-.264-.593-.359-.539.022.7631

21、.000-.192工业产值.874.363.792.104.659-.125-.1921.000a. Determinant = 1.133E-04在Communalities(公因子方差)中,给出了因子载荷阵的 初始公因子方差(Initial)和提取公因子方差(Extraction ),后面将会看到它们的含义。CommunalitiesInitialExtraction国内生产1.000.945居民消费1.000.800固定资产1.000.902职工工资1.000.875货物周转1.000.857消费价格1.000.957商品零售1.000.929工业产值1.000.903Extractio

22、n Method: Principal Component Analysis.(初始特在Total Variance Explained(全部解释方差)表的 Initial Eigenvalues征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根 入,因此可以直接根据特征根计算每一个主成分的方差百分比(% ofVariance)。由于全部特征根的总和等于变量数目,即有m=习入=8,故第一个特征根的方差百分比为 Rm=3.755/8=46.939 ,第二个特征根的百分比为 切m=2.197/8= 27.459,其余依此类推。然后可以算出方差累计值(C

23、umulative %)。在ExtractionSums of Squared Loadings,给出了从左边栏目中提取的三个主成分及有关参数,提取的 原则是满足41,这一点我们在 图6所示的对话框中进行了限定。Total V ariance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative%Total% of VarianceCumulative%13.75546.93946.939 :3.75546.93946.93922.19727.45

24、974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.99976.5E-02.81899.81781.5E-02.183100.000Extraction Method: Principal Component Analysis.Scree PlotepavnegEComponent Number图8特征根数值衰减折线图(山麓图)主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的特征根刚好等于主成分的方差,而方差是变量数

25、据蕴涵信息的重要判据之一。根据能决定主成分数目的准则有三:i只取A1的特征根对应的主成分从Total Variance Explained表中可见,第一、第二和第三个主成分对应的膻都大于1,这意味着这三个主成分得分的方差都大于1。本例正是根据这条准则提取主成分的。ii累计百分比达到80%85%以上的 膻对应的主成分在Total Variance Explained表可以看出,前三个主成分对应的游累计百分比达到89.584%,这暗示只要选取三个主成分,信息量就够了。iii根据特征根变化的突变点决定主成分的数量从特征根分布的折线图(Scree Plot)上可以看到,第4个膻是一个明显的折点,这 暗

26、示选取的主成分数目应有 p< 4 (图8)。那么,究竟是3个还是4个呢?根据前面两条 准则,选3个大致合适(但小有问题)。在Component Matrix (成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显 示了各个变量与有关主成分的相关系数。以第一列为例,0.885实际上是国内生产总值(GDP)与第一个主成分的相关系数。 将标准化的GDP数据与第一主成分得分进行回归, 决定系数R2=0.783 (图9),容易算出R=0.885,这正是GDP在第一个主成分上的载荷。Component Matrix aComponent123国内生产.885.384.121居民消费.607-.598

27、.271固定资产.912.161.212职工工资.466-.722.368货物周转.486.738-.275消费价格-.509.252.797商品零售-.620.594.438工业产值.823.427.211Extraction Method: Principal Component Analysis. a. 3 components extracted.下面将主成分载荷矩阵拷贝到 Excel上面作进一步的处理:计算公因子方差和方差 贡献。首先求行平方和,例如,第一行的平方和为h12=0.88492+0.38362+0.12092=0.9449这是公因子方差。然后求列平方和,例如,第一列的平方

28、和为si2=0.88492+0.60672+, +0.82272=3.7551这便是方差贡献(图10)。在Excel中有一个计算平方和的命令 sumsq,可以方便地算出 一组数据的平方和。显然,列平方和即方差贡献。事实上,有如下关系成立:相关系数矩阵的特征根=方差贡献=主成分得分的方差至于行平方和,显然与前面 公因子方差(Communalities )表中的Extraction列对应的数 据一样。如果我们将8个主成分全部提取,则主成分载荷的行平方和都等于1 (图11),即有n=1, s=九。到此可以明白:在 Communalities中,Initial对应的是初始公因子方差, 实际上是全部主成

29、分的公因子方差; Extraction对应的是提取的主成分的公因子方差 ,我 们提取了 3个主成分,故计算公因子方差时只考虑 3个主成分。国内生产总值图9国内生产总值(GDP的与第一主成分的相关关系(标准化数据)ABCD|_ E5第一主成分第二主成分第三主成分公因子方差6国内生产0. 8849000. 3836190.1208860. 9448247居民消费0. 606719-0. 5981770. 2713130. 7995348固定资产0. 9116870.1611060. 2119970. 9020719职工工资0. 466222-0. 7224100. 3679380. 8746171

30、0货物周转0. 4858310. 738275-0. 2752520. 85684511销费价格-0. 5085630. 2519090. 7966330. 95671812荷品零售-0. 6195890. 5943750. 4375550. 92862713工业产值0. 8227290. 4267370. 2109700. 90349614方差贡献3.7551332.196704L2148957.16673315特征根3. 7551332.1967041.2148957. 166733图10主成分方差与方差贡献Component Matrix aComponent12345678国内生产.8

31、85.384.121-.203-6.87E-021.143E-022.420E-029.192E-02居民消费.607-.598.271.409-7.61E-02.1575.525E-021.317E-02固定资产.912.161.212-.270-7.71E-028.271E-028.113E-02-7.36E-02职工工资.466-.722.368-.164.304-1.64E-02-7.62E-023.949E-03货物周转.486.738-.275.212.3052.254E-026.855E-02-6.02E-03消费价格-.509.252.797.0722.716E-02-.161

32、.1072.435E-03商品零售-.620.594.438-.0273.531E-02.247-9.23E-021.634E-03工业产值.823.427.211.209-9.38E-02-.137-.157-2.30E-02Extraction Method: Principal Component Analysis.a. 8 components extracted.1ABCDEFGHIJ12345678公因子方差2国内生产0.8B490. 38360.1209 -0. 2032-0.06870. 01140.02420. 091913居民消费0. 6067-0,5930. 27130.

33、 4085-0. 07610, 15680. 05520.013214固定流产0.91171G1L0. 212 -0. 2705-0. 07710. 08270.0811-(, 0741 I5职工工资0. 4662-0.7220. 3679-0. 16350. 30421-0,016-0.0760.003916货物周转0. 48580.7383-0.2750. 211840. 305020. 02250. 06S5-0. 00617消费价格-0, 50925190. 79660071760. 02716-0.1610.10710.00241 1S商品零售-0. 620.59440. 4376

34、-0. 02670. 035310. 2468-0.0920.001619工业产值0. 82270.42670. 2110.20S88-0. 0938-0, 137-0.157-0. 023110方差灵献3. 75512.1967L 2149 0. 402440. 212S0.13S0. 06540. 01468 111特征根3.75512.19671. 21490.402440. 21280.13S0.。睫土0. 01461.133E-04图11全部主成分的公因子方差和方差贡献提取主成分的原则上要求公因子方差的各个数值尽可能接近,亦即要求它们的方差极小,当公因子方差完全相等时,它们的方差为0

35、,这就达到完美状态。实际应用中,只要公因子方差数值彼此接近(不相差太远)就行了。从上面给出的结果可以看出:提 取3个主成分的时候,居民消费的公因子方差偏小,这暗示提取3个主成分,居民消费方面的信息可能有较多的损失。至于方差贡献,反映对应主成分的重要程度,这一点从方 差的统计学意义可以得到理解。在图11中,将最后一行的特征根全部乘到一起,得 0.0001133 ,这正是相关系数矩 阵的行列式数值(在Excel中,求一组数据的乘积之和的命令是product )。最后说明 Componentscore Coefficient Matrix (成分得分系数矩阵)和 Component Score Co

36、variance Matrix(成分得分协方差矩阵),前者是主成分得分系数,后者是主成分得分的协方差即相关系数。从Component Score Covariance Matrix可以看出,标准化主成分得分之间的协方差即相关系数为0 (j丰k)或1 (j=k),这意味着主成分之间彼此正交即垂直。初学者常将Component Score Coefficient Matrix表中的数据当成主成分得分或因子得分,这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结 果。在Component Matrix表中,将第一列数据分别除以为=3.755,第二列数值分别除以为=2.197, 立即

37、得到 ComponentScore Coefficient ;反过来,如果将 Component Score Coefficient Matrix表中的各列数据分别乘以方=3.755 , *=2.197,则可将其还原为主成分载荷即Component Matrix中的数据。Component Score Coefficient MatrixComponent123国内生产.236.175.100居民消费.162-.272.223固定资产.243.073.174职工工资.124-.329.303货物周转.129.336-.227消费价格-.135.115.656商品零售-.165.271.360工

38、业产值.219.194.174Extraction Method: Principal Component Analysis. Component Scores.Component Scor e Covariance Matr ixComponent12311.000.000.0002.0001.000.0003.000.0001.000Extraction Method: Principal Component Analysis. Component Scores.实际上,主成分得分在原始数据所在的 SPS对前数据栏中给出,不过给出的都是标 准化的主成分得分(图12a);将各个主成分乘以相应

39、的/ 波叫寺征根的二次方根可以将其 还原为未经标准化的主成分得分。得分1 |得分2得分3.42743-1.52320.49020.33935-1 78001-1.06264700551.58632-1.19211-5102B.26259-51833-03667.48824- 34594.85022.66619-.56565-19958-28604-1 09746.27330.22055-642881 64990-2.211322.615631 84235,05093.34924.97196- 32761.20459.22957.08007*1.68897.21602-.62016-.59561

40、-71726.20176-.479531 54S011.39467.49539.527421,44744-.85361-.14599.977271.03843-.21177.7167323108j-.67419.08630-.59311.25733.33602)-.29055-1.54444-2.18402.293711.33351.77269-1.44632.396411.10800-1.04217.48771171494-1.040231.36153.01475-.91716.47657.41703-1.09189.11265.62990)-1 21110-.72568.23914-1.11530-.67162-44176- 88905-.02915.92508得分一得分二得分三.64250-2.29500.54B70.66940-2.68230-1 193101 381302.39050-1 33560-1 OOEOO.39530-.58090-1,6495073500-.38730

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论