19主成分分析法_第1页
19主成分分析法_第2页
19主成分分析法_第3页
19主成分分析法_第4页
19主成分分析法_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

19.主成分分析法一、方法介绍基本思路:主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。主成分分析的基本思想就是,设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。最经典的方法就是用F1的方差来表达,即Vr(F1)越大,表示F1包含的信息越多。理论模型:设有n个样品每个样品观测p项指标(变量):X1,X2,...,Xp,设有n个样品x11(1){Xn1X.=其中,.用数据矩阵X的p个向量(即p个指标向量)X]….,Xp作线形组合(即综合指标向量)为:Fi=a11X1+a21X2+...+a”XpTOC\o"1-5"\h\zF2=a12X1+a22X?+…+a.?XP

i>(2)、Fp=a1pX1+a2pX2+...+a*,简写成Fi=a1X1+a2iX2+…+apXi=1,..,p(3)(注意:Xi是n维向量,所以Fi也是n维向量。)上述方程要求:a1i+a2i+…%=1i=1,…,p(4)且系数aij由下列原则决定:(1)Fi与F.(i#j,i,j=1,…,?)不相关;(2)F1是Xi?...,Xp的一切线性组合(系数满足上述方程组)中方差最大的,F2是与Fi不相关的Xi?...,X『勺一切线性组合中方差最大的,…,Fp是与其他都不相关的%,...,xp的一切线性组合中方差最大的。二、实证模型实证模型中,我们运用主成分分析的方法,建立我国蔬菜总产的主成分回归预测模型。我们确立了以下13个因素:蔬菜种植面积(103hm2),记为%;物质费用(元/hm2),以每公顷每年投入物质费用总金额表示,记为%;劳动投入(日/hm2),以每hm2每年投入劳动标准工作日表示,记为%;蔬菜零售物价指数(1990年=100),记为X4;成本纯收益率(%),记为%;市场化程度(元/人),以人均年社会消费品零售额表示,记为x6;城市化水平1(%),用城市人口所占全国人口比重表示,记为%;城市化水平2(%),用全国从事第二、三产业人口占全国人口比重表示,记为x8;交通(t/人),用每年人均货物运输量表示,记为X9,城镇居民人均可支配收入(元),记为、,农村居民人均纯收入(元),记为X”,农业劳动力受教育程度(年),用农民家庭劳动力的平均文化程度表示,记为X12;气候条件(%),用每年成灾面积占农作物播种面积比重表示,记为X13。使用软件:采用Eviews5.1、SPSS12.0、Stata5.1、SAS8.1等计量软件均可完成上述因子分子模型。三、一个简单的例证:我国蔬菜总产的主成分回归模型为了弄清13个因素之间的相关关系,我们利用SAS8.1软件将影响我国蔬菜总产的13个因素变量作了共线诊断。我们发现,从第5维开始条件指数开始超过30,第14维条件指数竟达到3680430,这表示13个影响因素之间存在着严重的多重共线性,而且X与X、X、X、X,X以及X与X、X等有很强的相关性。由167101224811于讨论的是多个因素对蔬菜总产的影响,多个因素之间相关系数又是错综复杂的,任何两个因素之间都有简单的线性关系,而这种相关关系还夹杂了其它变量所带来的影响。因此,现在就需要有一种进行简化的方法,可以在不损失或很少损失原有信息的前提下,将上述若干个个数较多而且彼此相关的因素转化为新的且个数较少并且彼此独立或不相关的综合因素,然后将这些因素作为解释变量,与被解释变量蔬菜总产一起,建立回归模型。首先,将影响我国蔬菜总产因素的数据写成矩阵形式:X=[%,X2,…,X13],*为13维列向量(i=1,2,…,13)。为了消除原来各指标的量纲,使各指标之间具有可比性,需对原数据作标准化处理得到标准化矩阵Y=E,]•••,%]。计算其列向量相关系数矩阵R=[%]13x13(i,j=1,2,…,13),其中%是第i个指标与第j个指标之间的样本相关系数,并进一步由R的特征方程IR-入I13I=0计算出其特征值入i(i=1,2,…,13)(表1只给出了日的前3个特征值)。由于第一、第二、第三主成分Z]、Z2、Z3累计解释方差的比率已经超过了94%,所以只需求入1、入2、入3所对应的正交化特征向量a「(i=1,2,3)以及模型(*)。计算结果见表1。表1相关矩阵的特征值特征值序号特征值入累计方差比率特征向量模型(*)110.1630.782a1Z=aYT1—121.2500.878a2Z=aYT2230.8790.946Z=aYT33表1中:a1=(0131,0129,-0125,0130,-0109,0131,0130,0130,0130,0131,0131,0131,0113),a2=(-0103,0123,0151,0111,0177,0101,-0109,0113,0119,0107,0104,-0103,-0109),a3=(0103,-0103,0124,-0108,0101,-0103,0102,-0106,-0104,-0103,-0108,0105,0196)其次,利用公式「(《七)=&]J(其中k=1,2,3,j=1,2,…,13)可以计算出Zk与七的相关系数,并称为因子载荷,见表2。表2因子载荷矩阵Y1y2y3y<y<Ey7y8y°y10yny『y13Z10.99*0.92*-0.8*0.96*-0.30.99*0.96*0.96*0.96*0.99*0.99*0.99*0.41Z—2——-0.030.260.57*0.120.86*0.01-0.100.150.210.080.05-0.03-0.10Z0.03-0030.23-0.080.01-0.030.02-0.06-0.04-0.03-0.080.050.90*注:*表示在0.05水平下显著。从表2结果可以得到,前面3个主成分(Z1〜Z3)基本上反映了原来所有信息。第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民纯收入、农民文化素质等密切相关,表示的是市场经济综合因素,着重反映的是市场经济的成熟程度与国家现代化水平;第二主成分与每公顷劳动投入、成本纯收益率等密切相关,表示的是劳动者动力因素;第三主成分与气候条件密切相关,显然表示的是气候因素。将影响我国蔬菜总产的数据的标准化矩阵Y(*)式,得到了每个年份的3个

主成分得分。表3给出了Z1、Z2、Z3的具体得分以及1990〜2002我国蔬菜总产的具体数据。表3主成分得分以及蔬菜总产年份主成分得分蔬菜总产(104t)年份主成分得分蔬菜总产(104t)Z1Z2Z3Z1Z2Z31990-4.62-0.54-1.401951919971.42-0.200.59344731991-4.13-0.200.971957819981.61-0.70-0.77384851992-3.50-1.930.361963719992.07-0.09-0.45405141993-2.980.29-0.181969520003.37-0.971.10424001994-1.721.371.591660220013.92-0.100.534833719950.942.73-0.422572320024.720.10-0.595290919960.790.13-1.3430379继续利用SAS8.1软件将表3的数据建立蔬菜总产Q对3个主成分的二次多元回归分析,得到Q的主成分回归方程为:Q=29481+3646.41Z1-1344.20Z3+352.21Z:-1705.54Z2(**)F=48.91,P值<0.0001,R2=0.9873模型(**)是把第一、第三主成分当作自变量来处理的。继续利用(*),将其代入(**),再将Y回代成X,这样就得到了。与乂的回归方程为:Q=29481+3646.41a1YT-1344.20a3YT+352.21(a1YT)2-1705.54(a3YT)2(***)其中,Y=[Y,Y,...,Y1:,Y=^r^r,X与、.分别是X.的均值与修正Si标准差。表41990-2002年蔬菜总产的主成分回归值与实际值比较年份实际值(104t)回归值(104t)相对误差(%)年份实际值(104t)回归值(104t)相对误差(%)19901951916756.50-4.2419973447334803.09-1.42319911957818861.53-10.5119983848535171.46-5.70719921963720916.143.519819994051438238.69-4.23619931969521789.0811.34420004240043661.27-0.40819941660219761.267.228620014833748767.78-0.70619952572326117.833.519420025290953644.190.13919963037929396.983.0983平均相对误差4.32最后,将1990〜2002各年的Xj数据代入模型(***)就得到了各年的蔬菜产量回归值。从表4中我们可以看出,蔬菜产量回归值与实际值的平均相对误差只有4.32%,显示了模型具有较高拟合程度,达到了预期的效果。虽然1993、1994这两年的相对误差较大,但造成这种局面主要是这两年的蔬菜总产波动幅度过大(达到了15.7%)所造成的。、评价及问题方法评价:主成分分析法的优点在于各综合因子的权重不是主观赋值而是根据各自的方差贡献率大小来确定的,方差越大的变量越重要,从而具有较大的权重;相反,方差越小的变量所对应的权重也就越小。这就避免了人为确定权重的随意性,使得排行结果唯一,而且较为客观合理。此外,主成分分析的整个过程都可以运用计算机软件方便快捷地进行,可操作性强。因此,与其他方法相比,主成分分析法是一种科学、实用、简便的综合排行方法,适用于解决多指标的综合评价问题。需注意问题:设定好主成分分析指标后,还要对主成分分析法的可行性进行研究。主成分分析法应用的前提是原有变量之间应具有较强的相关关系,否则根本无法从中综合出能够反映某些变量共同特性的几个较少的公共因子变量。在利用主成分分析法的开始阶段,应当尽可能多地选取与研究对象有关的指标,以免遗漏重要的评估指标。然后,就可以通过主成分分析选择相对更为有效的指标,构建研究对象评估的指标体系,进而进行基于数据本身的相对客观的评估。五、重要文献高志刚.新疆区域经济差异与预警系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论