主成分分析外文文献==_第1页
主成分分析外文文献==_第2页
主成分分析外文文献==_第3页
主成分分析外文文献==_第4页
主成分分析外文文献==_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、R 软件第二次作业基于 R 软件的主成分分析学院:应用科学学院班级:统计 11-1姓名:学号:1、主成分分析基本原理设对于某个问题的研究涉及到p个指标,分别用123 L, XP 表示,这个指标构成X,X,X ,的p维随机向量设为X12, X3L, XP ,对进行线性变换,可以通过线性组合的方式X , X,形成新的综合变量,这里用 C 表示。新的综合变量和原来变量之间的关系可以用下面的公式表示:Cu Xu X2LuXp111 1121pCu XuX2LuXp221 1222 pLCu XuX2LuXppp1 1p2pp上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量的统计特征也是不一

2、样的。为了使综合变量可以比较好的描述原变量的特征,应该要让Ciui X 的方差尽可能的大,并且 Ci 之间相互独立。为此,上式要满足以下的约束:1)u21u22 u23Luip1 (i1,2,3,L , p) ;22)Ci 和互不相关(ij;i, jL, p);1,2,3,3)C1是X , X, X , XP所有满足约束 1 的线性组合中方差最大的,C2是线性组合中方差123L第二大的,其他的依次类推。以上三条约束确定的123 L, XP 分别为称为原始变量的第一,第二,第p个主成X , X, X ,分。各主成分对变量的总方差贡献率的大小不同,在实际的研究过程中,一般挑选前面几个方差最大的主成

3、分(累计方差贡献率在 80%到 90%之间)来分析问题,从而达到降低问题复杂程度,抓住主要矛盾矛盾的目的。二、主成分分析过程一般而言,用主成分分析对问题进行分析时,主要包括以下的基本过程:1) 为了消除不同变量在数量级和量纲上的差异,将收集的原始数据进行标准化;2) 求标准化后数据的相关矩阵;3) 求相关矩阵的特征值和特征向量;4)根据特征值计算方差贡献率大于80%的原则,确定主成分为C1,C2,L ,Cm ;5) 构建综合评价函数,其数学形式为:CCLCC1 12 2m mL12m6) 根据综合评价函数计算总得分,然后排序并评价。三、 R 在主成分分析中的应用为了说明R软件是如何应用于因子分

4、析中的,现以2004 年城市综合发展水平为例。首先收集能反映我国2008 年城市综合发展水平的 12 个指标和数据,这些指标分包括8 个社会经济指标:非农业人口数(万人) ( x1 ),工业总产值(万元) ( x2 ),货运总量(万吨) ( x3 ),批发零售住宿餐饮业从业人数(万人) ( x4 ),地方政府预算内收入(万元) ( x5 ),城乡居民年底储蓄余额(万元) ( x6 ),在岗职工人数(万人) ( x7 ),在岗职工工资总额(万元)( x8 ),4 个城市公共设施水平的指标:人均居住面积(平方米)( x9 ),每万人拥有公共汽车数(辆)( x10 ),人均拥有铺装道路面积(平方米)

5、( x11 ),人均公共绿地面积(平方米)( x12 )。为了让 R 软件可以顺利读取数据,先将原数据整理到文本文档中,保存,并命名为sj 。打开 R软件,在其命令板中输入下列的命令: sj names(sj)=c( 非农业人口数 , 工业总产值 , 货运总量 , 批发零售住宿餐饮业从业人数 , 地方政府预算内收入 , 城乡居民年底储蓄余额 , 在岗职工人数 , 在岗职工工资总额 , 人均居住面积, 每万人拥有公共汽车数 , 人均拥有铺装道路面积 , 人均公共绿地面积 )sjt door dcor#输出的结果不是很清晰,故我们对结果做改善 symnum(dcor) #改善相关矩阵的结果xb7

6、xb9 xbb xc5 xb5 xb3在岗职工 xc8非农业人口数1工业总产值,1货运总量+,1批发零售住宿餐饮业从业人数,.1地方政府预算内收入,*+,1城乡居民年底储蓄余额.+.1在岗职工人数,1在岗职工工资总额+,+*+.人均居住面积每万人拥有公共汽车数.人均拥有铺装道路面积.人均公共绿地面积.在岗职工 xb9 人均 xbe xc3 人均 xd3 人均 xb9非农业人口数工业总产值货运总量批发零售住宿餐饮业从业人数地方政府预算内收入城乡居民年底储蓄余额在岗职工人数在岗职工工资总额1人均居住面积1每万人拥有公共汽车数.1人均拥有铺装道路面积.*1人均公共绿地面积.,1attr(,legen

7、d)1 0 0.3 . 0.6 , 0.8 + 0.9 * 0.95 B 1从输出的改善后的相关矩阵,我们可以看出原始变量之间有较强的相关性,进行因子分析是合适的。 deig deig$values#输出特征值1 5.835828048 2.631830267 1.571951260 0.795023759 0.498043334 0.342064539 0.1312564010.083296816 0.066330219 0.030039927 0.011617891 0.002717538 screeplot(psjt,type=line,main= 碎石图 ,lwd=2) #对数据做碎石

8、图从碎石图上可以看出,前三个因子波动幅度较大说明他们携带的信息较多,而三个因子以后幅度明显较缓,故提取三个因子最为合适,下面验算一下前三个主成分的累计方差贡献率是否超过 80%。 psjt psjt#输出结果,进行观察Call:princomp(x = sjt, cor = T)Standard deviations:Comp.1 Comp.2 2.41574586 1.62229167Comp.3 1.25377480Comp.4 0.89164105Comp.5 0.70572185Comp.60.58486284Comp.70.36229325Comp.8 Comp.9 Comp.10

9、Comp.11 Comp.12 0.28861188 0.25754654 0.17332030 0.10778632 0.0521300212variables and35 observations. summary(psjt) #对主成分分析做描述性统计Importance of components:Comp.1Comp.2Comp.3Comp.4Comp.5Standard deviation2.4157461.62229171.25377480.891641050.70572185Proportion of Variance0.4863190.21931920.13099590.06

10、6251980.04150361Cumulative Proportion0.4863190.70563820.83663410.902886110.94438972Comp.6Comp.7Comp.8Comp.9Standard deviation0.584862840.362293250.2886118770.257546538Proportion of Variance0.028505380.010938030.0069414010.005527518Cumulative Proportion0.972895100.983833130.9907745350.996302054Comp.1

11、0Comp.11Comp.12Standard deviation0.1733203020.10778632080.0521300153Proportion of Variance0.0025033270.00096815760.0002264615Cumulative Proportion0.9988053810.99977353851.0000000000从上述结果中,我们可以看到前三个因子的累计方差贡献率达到0.8366341,已超过 80%,故我们提取前三个因子较为合适。 sum(deig$values1:3)/12 #求前三个主成分的累计方差贡献率10.8366341 psjt$lo

12、adings,1:3 #输出前三个主成分的载荷矩阵Comp.1Comp.2Comp.3非农业人口数-0.36317564-0.237167376-0.10576236工业总产值-0.362694420.111161484-0.23816810货运总量-0.34957248-0.176536929-0.26818412批发零售住宿餐饮业从业人数-0.30469488-0.1208865890.45890060地方政府预算内收入-0.390564790.002106990-0.07213339城乡居民年底储蓄余额-0.298920920.0013057790.46593112在岗职工人数-0.28

13、980674-0.088277781-0.42805805在岗职工工资总额-0.39319972-0.0435940160.21017732人均居住面积-0.036671820.269731355-0.40796468每万人拥有公共汽车数-0.102845500.5516536030.04633255人均拥有铺装道路面积-0.119847530.563195991-0.01790749人均公共绿地面积-0.121418050.4262040950.17598865从上面输出的结果可以看到,公共因子F1 在 x1 (非农业人口数) , x2 (工业总产值) ,x3(货运总量), x4 (批发零售

14、住宿餐饮业从业人数) , x5 (地方政府预算内收入) ,x6(城乡居民年底储蓄余额) , x7 (在岗职工人数) , x8 (在岗职工工资总额)上的载荷较大,因而 F1 为反映城市规模及经济发展水平的公共因子,在这个因子上的得分越高,城市经济发展水平越高,城市规模越大。公共因子F2 由于在 x10 (每万人拥有公共汽车数) ,x11 (人均拥有铺装道路面积) , x12 (人均公共绿的面积)上的载荷较大,是反映城市基础设施水平的公共因子。公共因子F3 在 x4 (批发零售住宿餐饮业从业人数) , x6 (城乡居民年底储蓄余额),(在岗职工人数) , x9 (人均居住面积)上有较大的载荷,是反

15、映城市居民就业收入及住房条件的公共因子。 deig$values1/12;deig$values2/12;deig$values3/12;#计算三个主成分的系数1 0.4863191 0.21931921 0.1309959从上述结果,我们可以得出,城市综合发展水平综合得分函数C 为:C0.486319* C10.21931928* C20.1309959* C3 s=psjt$scores,1:3#输出前三个主成分的得分 c=s1:35,1*0.486319+s1:35,2*0.2193192+s1:35,2*0.1309959 #计算综合得分cbind(s,c)#输出综合得分信息Comp.

16、1Comp.2Comp.3c1,-7.3063539-1.592859125.3889398229-4.111221352,-2.4208794-0.98264856-1.3134419871-1.521556253,0.6608709-0.23440121-0.27882036890.239279784,1.1885022-0.56861421-0.02382743800.378797085,2.16970500.183410570.02194922011.119420246,0.1046679-0.875391610.3259247466-0.255760927,0.7012658-0.6

17、23696530.20961710950.122548588,-0.3098989-1.222579690.4772337230-0.578997829,-8.3026537-1.13042579-3.8794314665-4.4337434710,-0.56884710.924928910.40416266970.0473753911,-0.1877451-0.35667567-0.1031199675-0.2162528912,1.68544700.8377389001131374813,0.99857220.12275853-05286

18、287814,1.7239800-0.1236878107950745315,0.56192090.09131037-0.67607740280.3052602316,0.84631460.01134279-0.34460866790.4155524217,-0.2787500-1.21623560-0.4287087536-0.5616271418,1.16249240.13896871-0.09522022930.6140249619,-3.86911031.090283340.7416601900-1.4996791320,1.65139190.33014841

19、0.00090878630.9187592121,2.29714750.29359265-0.34388456641.2199964222,-0.5030572-0.54593592-0.4841206093-0.4358958623,1.58102340.251480440.67388228420.8569791324,1.1432657-0.598122860.43105157850.3464603825,0.6051374-1.168501890.4080433476-0.1150540326,1.7795905-0.552626330.48534054670.6718553527,2.4406328-0.130324260.28224850281.1412715628,2.27913900.225691850.76834331481.1874518629,1.48693510.44873090-0.38151666110.8803219830,0.1318780

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论