主成分分析外文文献==.doc_第1页
主成分分析外文文献==.doc_第2页
主成分分析外文文献==.doc_第3页
主成分分析外文文献==.doc_第4页
主成分分析外文文献==.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

软件第二次作业 基于软件的主成分分析 学院:应用科学学院 班级:统计11-1 姓名: 学号: 1、 主成分分析基本原理设对于某个问题的研究涉及到个指标,分别用表示,这个指标构成的维随机向量设为,对进行线性变换,可以通过线性组合的方式形成新的综合变量,这里用表示。新的综合变量和原来变量之间的关系可以用下面的公式表示: 上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量的统计特征也是不一样的。为了使综合变量可以比较好的描述原变量的特征,应该要让的方差尽可能的大,并且之间相互独立。为此,上式要满足以下的约束:1) ;2) 和互不相关;3) 是所有满足约束1的线性组合中方差最大的,是线性组合中方差第二大的,其他的依次类推。以上三条约束确定的分别为称为原始变量的第一,第二,第个主成分。各主成分对变量的总方差贡献率的大小不同,在实际的研究过程中,一般挑选前面几个方差最大的主成分(累计方差贡献率在80%到90%之间)来分析问题,从而达到降低问题复杂程度,抓住主要矛盾矛盾的目的。二、主成分分析过程一般而言,用主成分分析对问题进行分析时,主要包括以下的基本过程:1) 为了消除不同变量在数量级和量纲上的差异,将收集的原始数据进行标准化;2) 求标准化后数据的相关矩阵;3) 求相关矩阵的特征值和特征向量;4) 根据特征值计算方差贡献率大于80%的原则,确定主成分为;5) 构建综合评价函数,其数学形式为: 6) 根据综合评价函数计算总得分,然后排序并评价。 三、R在主成分分析中的应用为了说明R软件是如何应用于因子分析中的,现以2004年城市综合发展水平为例。首先收集能反映我国2008年城市综合发展水平的12个指标和数据,这些指标分包括8个社会经济指标:非农业人口数(万人)(),工业总产值(万元)(),货运总量(万吨)(),批发零售住宿餐饮业从业人数(万人)(),地方政府预算内收入(万元)(),城乡居民年底储蓄余额(万元)(),在岗职工人数(万人)(),在岗职工工资总额(万元)(),4个城市公共设施水平的指标:人均居住面积(平方米)(),每万人拥有公共汽车数(辆)(),人均拥有铺装道路面积(平方米)(),人均公共绿地面积(平方米)()。为了让R软件可以顺利读取数据,先将原数据整理到文本文档中,保存,并命名为sj。打开R软件,在其命令板中输入下列的命令: sj names(sj)=c(非农业人口数,工业总产值,货运总量,批发零售住宿餐饮业从业人数,地方政府预算内收入,城乡居民年底储蓄余额,在岗职工人数,在岗职工工资总额,人均居住面积,每万人拥有公共汽车数,人均拥有铺装道路面积,人均公共绿地面积)sjt door dcor#输出的结果不是很清晰,故我们对结果做改善 symnum(dcor)#改善相关矩阵的结果 xb7 xb9 xbb xc5 xb5 xb3 在岗职工xc8非农业人口数 1 工业总产值 , 1 货运总量 + , 1 批发零售住宿餐饮业从业人数 , . . 1 地方政府预算内收入 , * + , 1 城乡居民年底储蓄余额 . . . + . 1 在岗职工人数 , , , , 1 在岗职工工资总额 + , , + * + . 人均居住面积 每万人拥有公共汽车数 . 人均拥有铺装道路面积 . 人均公共绿地面积 . . 在岗职工xb9 人均xbe xc3 人均xd3 人均xb9非农业人口数 工业总产值 货运总量 批发零售住宿餐饮业从业人数 地方政府预算内收入 城乡居民年底储蓄余额 在岗职工人数 在岗职工工资总额 1 人均居住面积 1 每万人拥有公共汽车数 . 1 人均拥有铺装道路面积 . * 1 人均公共绿地面积 . , 1 attr(,legend)1 0 0.3 . 0.6 , 0.8 + 0.9 * 0.95 B 1从输出的改善后的相关矩阵,我们可以看出原始变量之间有较强的相关性,进行因子分析是合适的。 deig deig$values#输出特征值 1 5.835828048 2.631830267 1.571951260 0.795023759 0.498043334 0.342064539 0.131256401 0.083296816 0.066330219 0.030039927 0.011617891 0.002717538screeplot(psjt,type=line,main=碎石图,lwd=2)#对数据做碎石图从碎石图上可以看出,前三个因子波动幅度较大说明他们携带的信息较多,而三个因子以后幅度明显较缓,故提取三个因子最为合适,下面验算一下前三个主成分的累计方差贡献率是否超过80%。 psjt psjt#输出结果,进行观察Call:princomp(x = sjt, cor = T)Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 2.41574586 1.62229167 1.25377480 0.89164105 0.70572185 0.58486284 0.36229325 Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 0.28861188 0.25754654 0.17332030 0.10778632 0.05213002 12 variables and 35 observations. summary(psjt)#对主成分分析做描述性统计Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5Standard deviation 2.415746 1.6222917 1.2537748 0.89164105 0.70572185Proportion of Variance 0.486319 0.2193192 0.1309959 0.06625198 0.04150361Cumulative Proportion 0.486319 0.7056382 0.8366341 0.90288611 0.94438972 Comp.6 Comp.7 Comp.8 Comp.9Standard deviation 0.58486284 0.36229325 0.288611877 0.257546538Proportion of Variance 0.02850538 0.01093803 0.006941401 0.005527518Cumulative Proportion 0.97289510 0.98383313 0.990774535 0.996302054 Comp.10 Comp.11 Comp.12Standard deviation 0.173320302 0.1077863208 0.0521300153Proportion of Variance 0.002503327 0.0009681576 0.0002264615Cumulative Proportion 0.998805381 0.9997735385 1.0000000000从上述结果中,我们可以看到前三个因子的累计方差贡献率达到0.8366341,已超过80%,故我们提取前三个因子较为合适。 sum(deig$values1:3)/12#求前三个主成分的累计方差贡献率1 0.8366341 psjt$loadings,1:3#输出前三个主成分的载荷矩阵 Comp.1 Comp.2 Comp.3非农业人口数 -0.36317564 -0.237167376 -0.10576236工业总产值 -0.36269442 0.111161484 -0.23816810货运总量 -0.34957248 -0.176536929 -0.26818412批发零售住宿餐饮业从业人数 -0.30469488 -0.120886589 0.45890060地方政府预算内收入 -0.39056479 0.002106990 -0.07213339城乡居民年底储蓄余额 -0.29892092 0.001305779 0.46593112在岗职工人数 -0.28980674 -0.088277781 -0.42805805在岗职工工资总额 -0.39319972 -0.043594016 0.21017732人均居住面积 -0.03667182 0.269731355 -0.40796468每万人拥有公共汽车数 -0.10284550 0.551653603 0.04633255人均拥有铺装道路面积 -0.11984753 0.563195991 -0.01790749人均公共绿地面积 -0.12141805 0.426204095 0.17598865 从上面输出的结果可以看到,公共因子在(非农业人口数),(工业总产值),(货运总量),(批发零售住宿餐饮业从业人数),(地方政府预算内收入),(城乡居民年底储蓄余额),(在岗职工人数),(在岗职工工资总额)上的载荷较大,因而为反映城市规模及经济发展水平的公共因子,在这个因子上的得分越高,城市经济发展水平越高,城市规模越大。公共因子由于在(每万人拥有公共汽车数),(人均拥有铺装道路面积),(人均公共绿的面积)上的载荷较大,是反映城市基础设施水平的公共因子。公共因子在(批发零售住宿餐饮业从业人数),(城乡居民年底储蓄余额),(在岗职工人数),(人均居住面积)上有较大的载荷,是反映城市居民就业收入及住房条件的公共因子。 deig$values1/12;deig$values2/12;deig$values3/12;#计算三个主成分的系数1 0.4863191 0.21931921 0.1309959从上述结果,我们可以得出,城市综合发展水平综合得分函数为: s=psjt$scores,1:3#输出前三个主成分的得分 c=s1:35,1*0.486319+s1:35,2*0.2193192+s1:35,2*0.1309959#计算综合得分cbind(s,c)#输出综合得分信息 Comp.1 Comp.2 Comp.3 c 1, -7.3063539 -1.59285912 5.3889398229 -4.11122135 2, -2.4208794 -0.98264856 -1.3134419871 -1.52155625 3, 0.6608709 -0.23440121 -0.2788203689 0.23927978 4, 1.1885022 -0.56861421 -0.0238274380 0.37879708 5, 2.1697050 0.18341057 0.0219492201 1.11942024 6, 0.1046679 -0.87539161 0.3259247466 -0.25576092 7, 0.7012658 -0.62369653 0.2096171095 0.12254858 8, -0.3098989 -1.22257969 0.4772337230 -0.57899782 9, -8.3026537 -1.13042579 -3.8794314665 -4.4337434710, -0.5688471 0.92492891 0.4041626697 0.0473753911, -0.1877451 -0.35667567 -0.1031199675 -0.2162528912, 1.6854470 0.83773890 0.1893668436 1.1131374813, 0.9985722 0.12275853 -0.1731356205 0.5286287814, 1.7239800 -0.12368781 0.1563412468 0.7950745315, 0.5619209 0.09131037 -0.6760774028 0.3052602316, 0.8463146 0.01134279 -0.3446086679 0.4155524217, -0.2787500 -1.21623560 -0.4287087536 -0.5616271418, 1.1624924 0.13896871 -0.0952202293 0.6140249619, -3.8691103 1.09028334 0.7416601900 -1.4996791320, 1.6513919 0.33014841 0.0009087863 0.9187592121, 2.2971475 0.29359265 -0.3438845664 1.2199964222, -0.5030572 -0.54593592 -0.4841206093 -0.4358958623, 1.5810234 0.25148044 0.6738822842 0.8569791324, 1.1432657 -0.59812286 0.4310515785 0.3464603825, 0.6051374 -1.16850189 0.4080433476 -0.1150540326, 1.7795905 -0.55262633 0.4853405467 0.6718553527, 2.4406328 -0.13032426 0.2822485028 1.1412715628, 2.2791390 0.22569185 0.7683433148 1.1874518629, 1.4869351 0.44873090 -0.3815166611 0.8803219830, 0.1318780 -0.66718667 0.5457363068 -0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论