




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、使用SPSS软件进行数据分析文档通过自己论证属实。【例子】以全国31个省市的8项经济指标为例,进行主成分分析第一步:录入或调入数据(图1 )省份国内生生|居民泊舞固定受产斯上一资货物周转消费阶格商品零隹工业产值11394 m2S05 m5fg 31日00373. =01173011260043.43292D 112720.03345 466501 00342. E 口1150110 S3682.51现9 521256.03704.074839.002033,3011520115.301234.05山西1 田a 431250.0 J290.304721 叩7"三口116叩115.501
2、597.25缸向宗832印1387 0J250.2343 007£1.70117SJ116.30419.39C辽宁2793 372397.0 J387. JQ4011.001371.70116 10114.001M.其7吉林1129201372.00J20.4G4430.00497,可115201U.2J7G2.47r黑龙江2014g435734.延 00024. f0110 10114 JO1240 17g上海2432 575343 03996 40邙匚nil皿40IIS 7口11900IQ42 3510江募5155 251326 031434.355943.001025.501
3、1580MdR2026.SH11淅江JS24 /y224a.UJlUUb.jybb19.CU旧J:L11btU113.W31E.5912一撤2003 £81JS4 0J4"4JU4blM 口tLb.cL114601127J324.1413血2160 £2m.u653.975857.00IzLU,L115J114.40433.BZU江西1235 111102.03202.344211.00-11.70113 90115力571.9415I*印02 341527 m1229 5551J5001196.601"H111421?(I7 图ie河南2 74113r
4、n670 1543JJ 00-"4 如I1I1BS51113013£7 9217湖北2391 421527.00CT1.B9怖 £,QQss.co120 00116.60122072It湖南2135 701 Ji 08.0 J422.B14757 ua1011,£0115.60843.319东63S1 722s99W1639.33026D.OOESELflD11400111 BJ1396.3620广西1Q0B1S13140J982.59610.00fiSELOO1104011S4J5S4J721陶闰3G4.171314.01190.35匚。口232 10
5、113£D111 3364.3322SJII3534 001261 03022.54拓眼00902.3011BfO117.011431.9123贵出I63007942 03150.344Z75 00301 10121 ZOir pi324.721206 681261 03334.DO51 血口 0310 40121 30118.10TT6.65国藏55581110.0317J7丁30之 004.20117 30114.906.5726隈百1UU0C33883D0J74-39E.0D5UJ.9U119CU117,006W.?U27廿毫5s3 351007.0 J114.315招MWso
6、z.au11960116.5046B792E营海-155 J11445.0J47765753L0061.6011BC01163。105.002?159751355 00fi1站5079 00121.001V 10115301t4 4030934 571469 00376兆53JE 00339.001197Diifi/a438 76图1原始数据(未经标准化)第二步:打开“因子分析”对话框沿着主菜单的“Analyze -Data Reduction -factor”的路径(图2)打开因子分析选项框(图3)国全国3U个省小区轻海&展的H域指标-SPSS Data Editor日u Edit
7、出用 £ata Iransfcrm | Analyze Srptis Ut甫ties flndow Help闺0|副司|不|Reports卜Descriptive Statistics 卜Compare Mear»s卜Ge ner 己I Lrer Model 卜Correlate1卜安gr日tsion卜Classic卜凰由医 N&n省份国内生工职工工资E 1北京1的4W118144.002天津920.1166501 00r 3河北2晅£Eta Redaction卜 |FactarM-i I4山西109245cale卜Monparmetric Testi 卜
8、Multiple Response卜u_l udr s内蒙史2比34134.006辽宁27S3.Se4911.00图2打开因子分析对话框的路径,Factor Analysis产费产资转格售值 生曹工周怖零产 份内民定工物费昂业 省国居固服贷消商工 事合金*>.做假唆专Variables:OK Selection Vrkble:1n Value.,Descriptive®,+hExtraction,Rotation.Scores. Options.图3因子分析选项框第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variabl
9、es )栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会" Value ”栏。下面逐项设置。图4将变量移到变量栏以后1 .设置 Descriptives 选项。单击Descriptives 按钮(图4),弹出Descriptives 对话框(图5)。图5描述选项框在Statistics 栏中选中Univariate descriptives复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。在Correla
10、tion Matrix 栏中,选中 Coefficients 复选项,则会给出原始变量的相 关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。其它 复选项一般不用,但在特殊情况下可以用到(本例不选)。设置完成以后,单击 Continue按钮完成设置(图5)。2 .设置 Extraction 选项。打开Extraction 对话框(图6)。因子提取方法主要有 7种,在Method 栏中可以 看到,系统默认的提取方法是主成分(),因此对此栏不作变动,就是认可了主成分分析方法。在Analy
11、ze栏中,选中Correlation matirx复选项,则因子分析基于数据的相关 系数矩阵进行分析;如果选中Covariance matrix复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因 此任选其一即可。在Display 栏中,选中 Unrotated factor solution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。选中Scree Plot (“山麓”图),则在分析结果中给出特征根按大小分布
12、的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。在Extract栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eigenvalues )的数值,系统默认的是c 1。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认c 1 ,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c值降低,例如取c 0.9 ;如果认为最后的提取的主成分数量偏多,则可以提高c值,例如取c 1.1。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分
13、析时,最好降低特征根的临 界值(如取c 0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二 轮分析过程中可以调整特征根的大小。第二种方法是直接指定主成分的数目即因子数目,这要选中Number of factors复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为8,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。图6提取对话框需要注意的是:主成分计算是利用迭代(Iterations )方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为
14、50次、100次乃至更多。对于本例而言,变量较少, 25次迭代足够,故无需改动。设置完成以后,单击 Continue按钮完成设置(图6)3 . 设置 Scores 设置选中Save as variables 栏,则分析结果中给出标准化的主成分得分(在数据表的 后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression )法即可。V Save as variables-MethodQ RegressiianC Bartlettr Ander&oh-Rubin匠 Display factor score coefficienl matrix图7
15、因子得分对话框选中Display factor score coefficient matrix ,则在分析结果中给出因子得分系 数矩阵及其相关矩阵。设置完成以后,单击 Continue按钮完成设置(图7)。4 .其它。对于主成分分析而言,旋转项(Rotation )可以不必设置;对于数据没有缺失的情 况下,Option项可以不必理会。全部设置完成以后,点击 OK确定,SPSS很快给出计算结果(图8)Factor AnalysisDeuriptiw5tri. gwflhm小庄严压 1Hg3L-30居民消费1745.93096L,6419330落住济立E11 SQE3402.3ffiaBO期,1
16、1贷54ET831310133530IS物应需BGb.lCO4阻5前汨30消酰那117396721025mL:30百品零辔114。算,7i.aceaa3011步值甑品囱5扫三S7非aoCunuidUuii 'ijtrlK*即3生卢匡区有群国核声职工工仔渭卷箭第群品零售工注声信Ccrrabujr 国内生产i.oao.ZG7,951,191,&P-.Z/3-2&4,074驾星梏受,2b7Iwa恪J1日-.151-.235-.593.曲固定强声皿,426i.om.400.431-.280.702乳口赍,191,710,4031.DD0-.356-.135-.539.104生物
17、周需,617出1,A31-360LDOO-.253.口 22消青除格-273".235<2HU一比*2S3i.iua.763-1S荀品零意.咨4-.no-5的.022.7531.000-102一蛀产值,S74M3,792,104,0:9.125施i.oro1 Clbtliiridi. - 1 123E-CH*图8主成分分析的结果第四步,结果解读。在因子分析结果 (Output )中,首先给出的 Descriptive Statistics ,第一列Mean对应的变量的算术平均值,计算公式为xjnxiji 1第二列Std. Deviation对应的是样本标准差,计算公式为n12
18、,1/ 2j;(xijxj) n 1 i 1第三列Analysis N 对应是样本数目。这一组数据在分析过程中可作参考。Descriptive StatisticsMeanStd. DeviationAnalysis N国内生产1921.0931474.8060330居民消费1745.933861.6419330固定资产511.5083402.8854830职工工资5457.6331310.2180530货物周转666.1400459.9669930消费价格117.28672.0253130商品零售114.90671.8980830工业产值862.9980584.5872630接下来是Corr
19、elationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。相关系数阵下面的Determinant=1.133E-0.4 是相关矩阵的行列式值,根据关系式det( I R) 0可知,det(入I)=det( R),从而Determinant=1.133E-0.4= 为* M* %*k*尢* %*万*?8。这一点在后面将会得到验证。Correlat ion Matrix a国内 生产居民 消费固定 资
20、产职工 工资货物 周转消费 价格商品 零售工业 产值国内生产1.000.267.951.191.617-.273-.264.874居民消费.2671.000.426.718-.151-.235-.593.363固定资产.951.4261.000.400.431-.280-.359.792职工工资.191.718.4001.000-.356-.135-.539.104货物周转.617-.151.431-.3561.000-.253.022.659消费价格-.273-.235-.280-.135-.2531.000.763-.125商品零售-.264-.593-.359-.539.022.7631
21、.000-.192工业产值.874.363.792.104.659-.125-.1921.000a. Determinant = 1.133E-04在Communalities( 公因子方差)中,给出了因子载荷阵的 初始公因子方差(Initial )和提取公因子方差(Extraction ),后面将会看到它们的含义CommunalitiesInitialExtraction国内生产1.000.945居民消费1.000.800固定资产1.000.902职工工资1.000.875货物周转1.000.857消费价格1.000.957商品零售1.000.929工业产值1.000.903Extracti
22、on Method: Principal Component Analysis.在Total Variance Explained( 全部解释方差)表的 Initial Eigenvalues(初始特征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根 入,因此可以直接根据特征根计算每一个主成分的方差百分比( ofVariance )。由于全部特征根的总和等于变量数目,即有 m= E'=8 ,故第一个特征根 的方差百分比为入 1/m=3.755/8=46.939,第二个特征根的百分比为氾/m =2.197/8=27.459 ,,其余依此类推。
23、然后可以算出方差累计值(Cumulative % )。在ExtractionSums of Squared Loadings ,给出了从左边栏目中提取的三个主成分及有关参数,提 取的原则是满足 41 ,这一点我们在 图6所示的对话框中进行了限定。Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% ofVarianceCumulative %Total% ofVarianceCumulative %13.75546.93946.9393.75546.93946.
24、93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.99976.5E-02.81899.81781.5E-02.183100.000Extraction Method: Principal Com ponent Analysis.Scree Plotepavne«uEComponent Number图8特征根数值衰减折线图(山麓图)主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的
25、特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。根据也决定主成分数目的准则有三:i只取入1的特征根对应的主成分从Total Variance Explained表中可见,第一、第二和第三个主成分对应的也都大于1 ,这意味着这三个主成分得分的方差都大于1。本例正是根据这条准则提取主成分的。ii累计百分比达到80%85% 以上的入值对应的主成分在Total Variance Explained 表可以看出,前三个主成分对应的 油t累计百分比达到89.584% ,这暗示只要选取三个主成分,信息量就够了。iii根据特征根变化的突变点决定主成分的数量从特征根分布的折线图(Scree
26、Plot )上可以看到,第4个才直是一个明显的折点,这暗示选取的主成分数目应有 p<4 (图8)。那么,究竟是3个还是4个呢?根据前面两条准则,选3个大致合适(但小有问题)。在Component Matrix (成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数。以第一列为例,0.885实际上是国内生产总值(GDP)与第一个主成分的相关系数。将标准化的GDP数据与第一主成分得分进行回归,决定系数R2=0.783 (图9),容易算出R=0.885 ,这正是GDP在第一个主成分上的载荷。Com ponent MatrixaComponent123国内生产.
27、885.384.121居民消费.607-.598.271固定资产.912.161.212职工工资.466-.722.368货物周转.486.738-.275消费价格-.509.252.797商品零售-.620.594.438工业产值.823.427.211Extraction Method: Principal Component Analysis.a. 3 com ponents ex tracted.下面将主成分载荷矩阵拷贝到Excel上面作进一步的处理:计算公因子方差和方差贡献。首先求行平方和,例如,第一行的平方和为h12=0.8849 2+0.3836 2+0.1209 2=0.944
28、9这是公因子方差。然后求列平方和,例如,第一列的平方和为Si2=0.8849 2+0.6067 2+ - +0.8227 2=3.7551这便是方差贡献(图10)。在Excel中有一个计算平方和的命令 sumsq ,可以方便地算出一组数据的平方和。显然,列平方和即方差贡献。事实上,有如下关系成立:相关系数矩阵的特征根=方差贡献=主成分得分的方差至于行平方和,显然与前面公因子方差(Communalities )表中的Extraction列对应的数据一样。如果我们将8个主成分全部提取,则主成分载荷的行平方和都等于1 (图11 ),即有hi=1 , Sj= /jo到此可以明白:在 Communali
29、ties 中,Initial对应的是初始公因子方 差,实际上是全部主成分的公因子方差;Extraction对应的是提取的主成分的公因子方0.0010 00.0020 00.0030 00.0040 00.0050 00.00国内生产总值第一主成分=227+°.00*差,我们提取了 3个主成分,故计算公因子方差时只考虑3个主成分。4.000 00第一主成分2.000 000.000 00-2 .0 0000图9国内生产总值(GDP)的与第一主成分的相关关系(标准化数据)E5第一主成分第二主成分第三生成分公因子方差6国内生产0. 8849000. 383619 0. 1208360. 9
30、448247居民消费0. 606719-0, 598177 0. 2713130.7995348固定资产0, 9116070.161106 0.21199T0, 9020719职工工资0. 466222-0. 722410 0. 3S79380. 87461710货物周转0, 4858310, 738275 -0. 2752520. 85684511消费价格-0. 5085630. 251909 0.7966330. 95671812商品零售-0. 6195890, 594375 0. 4375550. 92862713工业产值0. 8227290. 426737 0. 2109700. 90
31、349614方差贡献3.7551332.196704 1.2148957. 16673315特征根3. 7551332.1S6704 L 21 如957. 166733图10主成分方差与方差贡献Com ponent Matrix aComponent12345678:国内生产.885.384.121-.203-6.87E-021.143E-022.420E-029.192E-02居民消费.607-.598.271.409-7.61E-02.1575.525E-021.317E-02固定资产.912.161.212-.270-7.71E-028.271E-028.113E-02-7.36E-02
32、职工工资.466-.722.368-.164.304-1.64E-02-7.62E-023.949E-03货物周转.486.738-.275.212.3052.254E-026.855E-02-6.02E-03消费价格-.509.252.797.0722.716E-02-.161.1072.435E-03商品零售-.620.594.438-.0273.531E-02.247-9.23E-021.634E-03工业产值.823.427.211.209-9.38E-02-.137-.157-2.30E-02Extraction Method: Principal Com ponent Analys
33、is.a. 8 components ex tracted.AB |C1 DEFGHIJ1123+5678公因千方差2国内生产0.羽490.383E0.1209一1 2032-0.06870, 01140, 024213居民消费0. 6067-1). 5980. 2713J. 4085-0.07610.15680. 05520. 013214固定贵产0.91170.1B110. 212-0, 2705-0, 07710.06270. 0B11也07415职工工资0. 4662-0. 722Q. 36T3-0.际5Q. 3Q121一必 016-q. ore583916货物周转0. 4S580.
34、7385-0. 2750. 211S4Q. 30502。,0225Q. 0585一。.OQG1F-1消费价格-0. 5090.251C0. 7S6&0. 0"17£0. 02716-0. 1610. 1 5710. 00211£商品等隹- 0. G20.59440. 4376一0. 02£7工 035310, 24SE-0. 0920. 00161g工业产值0. 82270.42670. 21】0. 20808-0.09GB-IL 17-0. 157-0. 023110方斐贡献3.7551Z 1阿1490. 402440.21230. 1330L
35、Q5&4C. 01468n特征根3. 75512.19671,2149。4Q2纲0.21280.1380. 0双0. 0146L133E-M图11全部主成分的公因子方差和方差贡献提取主成分的原则上要求公因子方差的各个数值尽可能接近,亦即要求它们的方差极小,当公因子方差完全相等时,它们的方差为 0,这就达到完美状态。实际应用中, 只要公因子方差数值彼此接近(不相差太远)就行了。从上面给出的结果可以看出:提 取3个主成分的时候,居民消费的公因子方差偏小,这暗示提取3个主成分,居民消费方面的信息可能有较多的损失。至于方差贡献,反映对应主成分的重要程度,这一点从方 差的统计学意义可以得到理解。
36、在图11中,将最后一行的特征根全部乘到一起,得 0.0001133 ,这正是相关系数矩 阵的行列式数值(在Excel中,求一组数据的乘积之和的命令是 product )。最后说明Component Score Coefficient Matrix(成分得分系数矩阵)和Component Score Covariance Matrix(成分得分协方差矩阵),前者是主成分得分系数,后者是主成分得分的协方差即相关系数。从 Component Score Covariance Matrix可以看出,标准化主成分得分之间的协方差即相关系数为0 (jwk)或1 (j=k),这意味着主成分之间彼此正交即垂直
37、。初学者常将Component Score Coefficient Matrix表中的数据当成主成分得分或因子得分,这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的 结果。在Component Matrix 表中,将第一列数据分别除以方=3.755,第二列数值分别除以22=2.197,,立即得到Component Score Coefficient ;反过来,如果将 Component Score Coefficient Matrix表中的各列数据分别乘以 为=3.755 ,入2=2.197,,则可将其还原为主成分载荷即 Component Matrix中的数据。Compon
38、ent Score Coefficient MatrixComponent123国内生产.236.175.100居民消费.162-.272.223固定资产.243.073.174职工工资.124-.329.303货物周转.129.336-.227消费价格-.135.115.656商品零售-.165.271.360工业产值.219.194.174Extraction Method: Principal Component Analysis.Component Scores.Component Score Covariance MatrixComponent12311.000.000.0002.0
39、001.000.0003.000.0001.000Extraction Method: Principal Com ponent Analysis.Component Scores.实际上,主成分得分在原始数据所在的 SPSS当前数据栏中给出,不过给出的都是标准化的主成分得分(图12a);将各个主成分乘以相应的, 屈阱寺征根的二次方根可以将r得分1得分2得分3,42743-1.52320,4902033935-1,780011Q6264700551.58632>1.19211-.61028.26259-51833-83667.48824-.3459485822£6666-.19
40、950-,26604,09746,27330.22955-.6423B1.64990-2.211322.E15S31 34235.05093,34924,97196-.327612045Q,22957.08007*1,68897,21602-.52015-59561-.71726.20175-.479531.548011.39467,49539527421.4474485351-.14599.977271.03643-21177.71673.231082.3B062-.8741308630-.59311.2573333602-.29055-1.54444-2.18402,29371卜 33351,77269-1 44632,396411 108001.CU217.487711.71494-1.04023-1.36153.01475-.91716.47E57,41703-1.09189.11265,62990-.72563,23914-1 11530-E7162-44176-S8905-.02915,92506其还原为未经标准化的主成分得分a.标准化的主成分得分得分一得分二|得分三84260-2.2350064870GG940-2.68230-1 193101.381302.3905D-1.33560-1 00600,3953a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025秋统编版(2024)新教材三年级语文上册第七单元《语文园地七》练习题及答案
- 特种玻璃电子束切割超硬涂层工艺考核试卷及答案
- 印染烘干操作工综合考核试卷及答案
- 电机铁芯叠装工异常处理考核试卷及答案
- 印后成型工数字化技能考核试卷及答案
- 信息技术考试ps试题及答案
- 有限空间作业及企业安全管理风险管控与隐患治理试卷
- 银行综合试题及答案
- 银行债务员面试题目及答案
- 银行押运员面试题及答案
- 2025年医疗工作人员定向招聘考试笔试试题(含答案)
- 第二单元混合运算单元测试卷(含答案) 2025-2026学年人教版三年级数学上册
- 超声引导下经支气管针吸活检术核心组织采集率的影响因素分析介绍演示培训课件
- 绘本《其实我很喜欢你》冯玉梅
- 铸牢中华民族共同体意识主题班会
- 公司内部审计制度范本(四篇)
- 绿色建筑材料和建筑设备
- 可靠性试验管理办法
- 蓄电池组充放电记录表格格式模板
- 智慧交通典型城市案例及启示
- 国家开放大学《人文英语4》边学边练参考答案
评论
0/150
提交评论