《出版社多元统计分析》课件-第07章-主成分分析_第1页
《出版社多元统计分析》课件-第07章-主成分分析_第2页
《出版社多元统计分析》课件-第07章-主成分分析_第3页
《出版社多元统计分析》课件-第07章-主成分分析_第4页
《出版社多元统计分析》课件-第07章-主成分分析_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析主成分分析MultivariateStatisticalAnalysis案例斯通关于国民经济的研究?

1947年英国经济学家斯通(Stone)在利用美国1929一1938年数据,得到了17个反映国民收入与支出的变量要素。进行主成分分析后,以97.4%的精度,用3个新变量就取代了17个变量。Stone(1913—1991)《国民经济核算体系》(SNA)第7章主成分分析7.1什么是主成分分析7.2总体主成分7.3样本主成分7.1什么是主成分分析在力求数据信息丢失最少的原则下,对多维变量进行加工降维,即研究多维变量的线性组合,使它们构成的综合变量尽可能多地保留原始变量的信息。这些综合变量就称为主成分。KarlPearson

(1857-1936)Hotelling(1895—1973)信息是事物之间的差异!图1通过对原始变量协方差阵或相关阵的研究,利用原始变量的线性组合形成几个综合变量(主成分),在保留原始变量主要信息下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。这就是主成分分析(PrincipalComponentsAnalysis,PCA)。1.每个主成分都是各原始变量的线性组合,2.主成分的数目大大少于原始变量的数目,3.主成分保留了原始变量绝大多数信息,4.各主成分之间互不相关。可见,主成分与原始变量有如下关系:7.2总体主成分7.2.1主成分7.2.2总体主成分的推导7.2.3总体主成分的性质因子负荷可以帮助我们对主成分进行命名和解释!表7.2.1主成分与原始变量的相关系数(因子负荷)

例7.2

设的协方差矩阵为解得特征根为,,,,

第一个主成分F1的贡献率为5.83/(5.83+2.00+0.17)=72.875%,第一个主成分的贡献率挺大。Xi与F1的相关系数平方Xi与F2的相关系数平方信息提取率xi10.9250.855000.8552-0.9980.996000.996300111尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。7.2.4标准化变量的主成分表7.2.2标准化变量的因子负荷量7.3样本主成分实际问题中总体是未知的,只有抽样样本。案例分析及软件操作主要有四方面:一是解释。在心理学和教育学中应用很广。二是综合评价。三是分类。主成分分析方法把p维数据简化为m(m<p)维数据后,进一步地可用于变量的分类、样品的分类四是与其他方法的结合。比如主成分回归,主成分聚类,多维正态数据的主成分检验等。主成分分析的应用例7.4

对1996年全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据见表7.3.2:

省份GDPX1居民消费水平X2固定资产投资X3职工平均工资X4货物周转

量X5居民消费价格指数X6商品零售价格指数X7工业总产

值X8北

京1394.892505519.018144373.9117.3112.6843.43天

津920.112720345.466501342.8115.2110.6582.51河

北2849.521258704.8748392033.3115.2115.81234.85山

西1092.481250290.94721717.3116.9115.6697.25内

蒙832.881387250.234134781.7117.5116.8419.39辽

宁2793.372397387.9949111371.1116.11141840.55吉

林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.7114.31240.37上

海2462.575343966.489279207.4118.71131642.95江

苏5155.251926434.9559431025.5115.8114.32026.64浙

江3524.7922491006.396619754.4116.6113.5916.59安

徽2003.5812544744609908.3114.8112.7824.14表7.3.2全国30个省市自治区八项指标数据福

建2160.522320553.975857609.3115.2114.4433.67江

西1205.111182282.844211411.7116.9115.9571.84山

东5002.3415271229.5551451196.6117.6114.22207.69河

南3002.741034670.3543441574.4116.5114.91367.92湖

北2391.421527571.684685849120116.61220.72湖

南2195.71408422.6147971011.8119115.5843.83广

东5381.7226991639.838250656.5114111.61396.35广

西1606.151314382.595105556118.4116.4554.97海

南364.171814198.355340232.1113.5111.364.33四

川35341261822.544645902.3118.51171431.81贵

州630.07942150.844475301.1121.4117.2324.72云

南1206.6812613345149310.4121.3118.1716.65西

藏55.98111017.8773824.2117.3114.95.57陕

西1000.031208300.274396500.9119117600.98甘

肃553.351007114.815493507119.8116.5468.79青

海165.31144547.76575361.6118116.3105.8宁

夏169.75135561.985079121.8117.1115.3114.4新

疆834.571469376.955348339119.7116.7428.76数据来源:1996年《中国统计年鉴》表7.3.3样本相关系数矩阵

X1X2X3X4X5X6X7X8X11.0000.2670.8480.1910.617-0.273-0.2640.874X20.2671.0000.4430.718-0.151-0.229-0.5930.363X30.8480.4431.0000.4010.408-0.247-0.3660.688X40.1910.7180.4011.000-0.356-0.146-0.5390.104X50.617-0.1510.408-0.3561.000-0.2510.0220.659X6-0.273-0.229-0.247-0.146-0.2511.0000.763-0.119X7-0.264-0.593-0.366-0.5390.0220.7631.000-0.192X80.8740.3630.6880.1040.659-0.119-0.1921.000表7.3.4样本相关系数矩阵的特征值和方差贡献主成分特征值方差贡献率累计方差贡献率13.66545.81345.81322.18327.29373.10631.21315.16388.27040.4045.04893.31750.2052.56195.87860.1792.23298.10970.1181.47599.58580.0330.415100.000从表7.3.4可见,前3个特征值累计贡献率已达88.27%,说明前3个主成分基本包含了全部指标具有的信息。表7.3.5样本相关系数矩阵的特征向量第一特征向量第二特征向量第三特征向量0.4500.2770.1060.330-0.3880.2540.4530.0950.2050.255-0.4810.3220.2460.516-0.236-0.2680.1580.726-0.3370.3840.3970.4160.3070.193前三个主成分为:软件操作SPSS没有直接提供主成分分析的命令窗口,只提供了与它有关的因子分析(因子分析将在第八章介绍)。因子分析和主成分分析有密切联系,因子提取的最常用方法就是“主成分法”。下面利用因子分析的命令窗口来实现主成分分析。以例7.3为例。SPSS软件操作:在SPSS窗口中选择Analyze→DataReduction→Factor菜单项,调出因子分析主对话框。图7.3.1因子分析软件操作SPSS软件默认从样本相关系数矩阵出发进行主成分分析。若想从协方差阵出发进行主成分分析,则可在Extraction按钮下的Analyze中,勾选Covariancematrix,见图7.3.2。图7.3.2Extraction对话框软件默认选取特征值大于1的主成分,若想得到全部主成分(本例为8个),点击因子分析主对话框下的Extraction按钮,可在Extract中修改默认选项。一、基本结果主要的基本结果表有3个。表7.3.6共同度表(被提取率)表7.3.6的第2列反映原始变量X1-X8被8个主成分提取的信息率为100%。8个原始变量被8个主成分提取,信息是不损失的。表7.3.6的第3列Extraction反映原始变量X1-X8被3个主成分提取的信息率为0.922-0.886。相对来说,居民消费水平信息损失略大。(1)共同度表7.3.7方差贡献表表7.3.7是方差贡献率表,是一个主要的结果表。其中Total列为各主成分对应的特征根,%ofVariance列为各主成分的方差贡献率;Cumulative%列为累计方差贡献率。默认选取特征值大于1的主成分,本例有3个特征值大于1,可以看出,前3个主成分已经可以解释88.27%的方差。(2)方差贡献表7.3.8因子载荷表表7.2.2因子载荷表(3)因子载荷第一主成分的表达式中第一、二、八项指标的系数较大,可以把第一主成分看成是反映经济发展状况的综合指标;第二主成分中,第五、七、八项指标的影响大,可以看成是反映货物周转量、商品零售价格指数的综合指标;第三主成分中,第四、六、七项指数影响大,可看成是居民消费价格指数的影响。二、其它结果(1)原始变量相关性的判断SPSS软件操作:Analyze→DataReduction→Factor,点击Descriptives按钮,在correlationmatrix中选择coefficients,可得相关系数矩阵结果。表7.3.9相关系数矩阵SPSS软件操作:Analyze→DataReduction→Factor,点击Descriptives按钮,在correlationmatrix中选择KMOandBartless'sTestofsphericity,可得KMO和Bartless's检验结果。图7.3.3Descriptives对话框表7.3.10KMO和Bartless's检验结果表7.3.10可见值为0.55,Bartlett'sTest的P值很小,所以认为适合做主成分分析。在做主成分分析时,应该首先看这些结果,判断是否适合做主成分分析,然后再看其它结果。(2)计算样本主成分得分法1:用因子载荷阵表7.3.8已算出主成分得分函数。法2:SPSS软件操作:Analyze→DataReduction→Factor,点击Scores按钮,勾选Displayfactorscorecoefficientmatrix,回原对话框OK运行,则输出主成分得分函数中的系数。表7.3.11主成分得分系数表7.3.11主成分得分公式表达1)主成分得分函数:2)样本主成分得分:法1:将样本标准化数据代入主成分得分函数,则得主成分得分。法2:SPSS软件操作:Analyze→DataReduction→Factor,点击Scores按钮,勾选Saveasvariables,回原对话框OK运行,则会在原始数据窗口生成新变量FACn_m(n主成分编号,第m次分析结果),储存样本标准化主成分得分,结果如下表7.3.12。表7.3.12样本标准化主成分得分省份FAC1_1FAC2_1FAC3_1北

0.494-1.5030.480天

0.406-1.753-1.081河

0.7201.641-1.136山

西

-0.5110.249-0.522…………(3)排序&评价表7.3.13样本主成分综合得分及排序省

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论