主成分分析外文文献_第1页
主成分分析外文文献_第2页
主成分分析外文文献_第3页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、R软件第二次作业基于R软件的主成分分析学院:应用科学学院班级:统计11-1姓名:学号:、主成分分析基本原理设对于某个问题的研究涉及到p个指标,分别用Xi,X2,X3,Xp表示,这个指标构成的p维随机向量设为 X二Xi,X2,X3,,Xp ,对进行线性变换,可以通过线性组合的方式形 成新的综合变量,这里用C表示。新的综合变量和原来变量之间的关系可以用下面的公式表示:r G = U11X1 + U12X2 十+UipXpC2 = U21 Xi + U22X2 +八 + U2 p X pI Cp =UpiXi +UP2X2 + +UppXp上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量

2、的统计特征也是不一样的。为了使综合变量可以比较好的描述原变量的特征,应该要让Ci =Uj X的方差尽可能的大,并且G之间相互独立。为此,上式要满足以下的约束:1) u2i +U: +Ui; +U; =1 (i =1,2,3,p);2)Ci和互不相关(i = j;i, j =1,2,3,,p);3) Ci是Xi,X2,X3/ ,Xp所有满足约束1的线性组合中方差最大的,C2是线性组合中方差第二大的,其他的依次类推。以上三条约束确定的 X1,X2,X3/ ,Xp分别为称为原始变量的第一, 第二,第p个主成分。各主成分对变量的总方差贡献率的大小不同,在实际的研究过程中,一般挑选前面几个方差最 大的主

3、成分(累计方差贡献率在 80%到90%之间)来分析问题,从而达到降低问题复杂程度,抓 住主要矛盾矛盾的目的。、主成分分析过程一般而言,用主成分分析对问题进行分析时,主要包括以下的基本过程:1)为了消除不同变量在数量级和量纲上的差异,将收集的原始数据进行标准化;2)求标准化后数据的相关矩阵;3)求相关矩阵的特征值和特征向量;4)根据特征值计算方差贡献率大于80%的原则,确定主成分为 C1,C2 / ,Cm ;5)构建综合评价函数,其数学形式为:1C1九2。2 6)根据综合评价函数计算总得分,然后排序并评价。三、R 在主成分分析中的应用为了说明R软件是如何应用于因子分析中的,现以2004年城市综合

4、发展水平为例。首先收集能反映我国2008年城市综合发展水平的12个指标和数据,这些指标分包括8个社会经济指标:非 农业人口数(万人)( ),工业总产值(万元)(X2 ),货运总量(万吨)(X3 ),批发 零售住宿餐饮业从业人数(万人)(X4 ),地方政府预算内收入(万元)(X5 ),城乡居民年底储蓄余额(万元)(X6 ),在岗职工人数(万人)(X7 ),在岗职工工资总额(万元)(X8 ), 4个城市公共设施水平的指标:人均居住面积(平方米)(X9 ),每万人拥有公共汽车数(辆)(人0 ),人均拥有铺装道路面积(平方米)(Xn ),人均公共绿地面积(平方米)(捲2 )。为了让F软件可以顺利读取数

5、据,先将原数据整理到文本文档中,保存,并命名为sj。打开R软件,在其命令板中输入下列的命令: sj names(sj)=c(非农业人口数,工业总产值,货运总量,批发零售住宿餐饮业从业人数,地方政府预算内收入,”城乡居民年底储蓄余额,”在岗职工人数,”在岗职工工资总额,”人均居住面积,”每万人拥有公共汽车数,人均拥有铺装道路面积,人均公共绿地面积)sjt door dcor#输出的结果不是很清晰,故我们对结果做改善 symnum(dcor) #改善相关矩阵的结果xb7 xb9 xbb xc5 xb5 xb3 在岗职工 xc8非农业人口数1工业总产值, 1货运总量+J1批发零售住宿餐饮业从业人数J

6、1地方政府预算内收入*J+J1城乡居民年底储蓄余额+1在岗职工人数JJJ, 1在岗职工工资总额+JJ+* + .人均居住面积每万人拥有公共汽车数人均拥有铺装道路面积人均公共绿地面积在岗职工xb9人均xbe xc3人均xd3人均xb9非农业人口数工业总产值货运总量批发零售住宿餐饮业从业人数 地方政府预算内收入城乡居民年底储蓄余额在岗职工人数在岗职工工资总额1人均居住面积每万人拥有公共汽车数1人均拥有铺装道路面积*1人均公共绿地面积attr(,lege nd)1 0 0.30.6,0.8 +0.9 *0.95 B1从输出的改善后的相关矩阵,我们可以看出原始变量之间有较强的相关性,进行因子分析 是合

7、适的。 deig deig$values#输出特征值1 5.835828048 2.631830267 1.571951260 0.795023759 0.498043334 0.342064539 0.1312564010.083296816 0.066330219 0.030039927 0.011617891 0.002717538screeplot(psjt,type=line,main=碎石图,lwd=2) #对数据做碎石图碎石图0LZIaJUUEljraACompdlComp ,3Comp. 5Comp, 7Cornp.9从碎石图上可以看出,前三个因子波动幅度较大说明他们携带的信息

8、较多,而三个因子以后幅 度明显较缓,故提取三个因子最为合适,下面验算一下前三个主成分的累计方差贡献率是否超 过80% psjt psjt#输出结果,进行观察Call:prin comp(x = sjt, cor = T)Stan dard deviati ons:Comp.7Comp.1Comp.2Comp.3Comp.4Comp.5Comp.62.415745861.622291671.253774800.891641050.705721850.584862840.36229325Comp.8Comp.9Comp.10Comp.11Comp.120.288611880.257546540.1

9、73320300.107786320.0521300212 variables and 35 observati ons. summary(psjt) #对主成分分析做描述性统计 Importa nee of comp onen ts:Comp.1Comp.2Comp.3Comp.4Comp.5Stan dard deviati on2.4157461.62229171.25377480.891641050.70572185Proporti on of Varia nee0.4863190.21931920.13099590.066251980.04150361Cumulative Propo

10、rti on0.4863190.70563820.83663410.902886110.94438972Comp.6Comp.7Comp.8Comp.9Stan dard deviati on0.584862840.362293250.2886118770.257546538Proporti on of Varia nee0.028505380.010938030.0069414010.005527518Cumulative Proporti on0.972895100.983833130.9907745350.996302054Comp.10Comp.11Comp.12Stan dard d

11、eviati on0.1733203020.10778632080.0521300153Proporti on of Varia nee0.0025033270.00096815760.0002264615Cumulative Proporti on0.9988053810.99977353851.0000000000从上述结果中,我们可以看到前三个因子的累计方差贡献率达到0.8366341,已超过80%,故我们提取前三个因子较为合适。 sum(deig$values1:3)/12 #求前三个主成分的累计方差贡献率1 0.8366341 psjt$loadings,1:3 #输出前三个主成分的

12、载荷矩阵Comp.1Comp.2Comp.3非农业人口数-0.36317564-0.237167376-0.10576236工业总产值-0.362694420.111161484-0.23816810货运总量-0.34957248-0.176536929-0.26818412批发零售住宿餐饮业从业人数-0.30469488-0.1208865890.45890060地方政府预算内收入-0.390564790.002106990-0.07213339城乡居民年底储蓄余额-0.298920920.0013057790.46593112在岗职工人数-0.28980674-0.088277781-0.

13、42805805在岗职工工资总额-0.39319972-0.0435940160.21017732人均居住面积-0.036671820.269731355-0.40796468每万人拥有公共汽车数-0.102845500.5516536030.04633255人均拥有铺装道路面积-0.119847530.563195991-0.01790749人均公共绿地面积-0.121418050.4262040950.17598865从上面输出的结果可以看到,公共因子F!在捲(非农业人口数),X2 (工业总产值),X3X5 (地方政府预算内收入),X6 (城乡居民年底储蓄余额),(货运总量),X4 (批发

14、零售住宿餐饮业从业人数),X7(在岗职工人数),X8 (在岗职工工资总额)上的载荷较大,因而 为反映城市规模及经济发展水平的公共因子,在这个因子上的得分越高,城市经济发展水平越高,城市规模越大。公共因子 F2由于在捲0 (每万人拥有公共汽车数),Xn (人均拥有铺装 道路面积),X12 (人均公共绿的面积)上的载荷较大,是反映城市基础设施水平的公共因子。职工人数),X9 (人均居住面积)上有较大的载荷,是反映城市居民就业收入及住房条件的公 共因子。 deig$values1/12;deig$values2/12;deig$values3/12; # 计算三个主成分的系数1 0.4863191

15、0.21931921 0.1309959从上述结果,我们可以得出,城市综合发展水平综合得分函数C为:C =0.486319 *C10.21931928* C20.1309959* C3 s=psjt$scores,1:3 #输出前三个主成分的得分 c=s1:35,1*0.486319+s1:35,2*0.2193192+s1:35,2*0.1309959# 计算综合得分cbin d(s,c)#输出综合得分信息Comp.1Comp.2Comp.3c1,-7.3063539-1.592859125.3889398229-4.111221352,-2.4208794-0.98264856-1.313

16、4419871-1.521556253,0.6608709-0.23440121-0.27882036890.239279784,1.1885022-0.56861421-0.02382743800.378797085,2.16970500.183410570.02194922011.119420246,0.1046679-0.875391610.3259247466-0.255760927,0.7012658-0.623696530.20961710950.122548588,-0.3098989-1.222579690.4772337230-0.578997829,-8.3026537-1

17、.13042579-3.8794314665-4.4337434710,-0.56884710.924928910.40416266970.0473753911,-0.1877451-0.35667567-0.1031199675-0.2162528912,1.68544700.8377389001131374813,0.99857220.12275853-05286287814,1.7239800-0.1236878107950745315,0.56192090.09131037-0.67607740280.305

18、2602316,0.84631460.01134279-0.34460866790.4155524217,-0.2787500-1.21623560-0.4287087536-0.5616271418,1.16249240.13896871-0.09522022930.6140249619,-3.86911031.090283340.7416601900-1.4996791320,1.65139190.330148410.00090878630.9187592121,2.29714750.29359265-0.34388456641.2199964222,-0.5030572-0.545935

19、92-0.4841206093-0.4358958623,1.58102340.251480440.67388228420.8569791324,1.1432657-0.598122860.43105157850.3464603825,0.6051374-1.168501890.4080433476-0.1150540326,1.7795905-0.552626330.48534054670.6718553527,2.4406328-0.130324260.28224850281.1412715628,2.27913900.225691850.76834331481.1874518629,1.48693510.44873090-0.38151666110.8803219830,0.1318780-0.667

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论