主成分分析法1_第1页
主成分分析法1_第2页
主成分分析法1_第3页
主成分分析法1_第4页
主成分分析法1_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

6.1主成分分析6.1.1主成分分析的概念与步骤6.1.2使用INSIGHT模块作主成分分析6.1.3使用“分析家”作主成分分析主成分分析6.1.1主成分分析的概念与步骤1.主成分分析基本思想主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0。称F2为第二主成分,依此类推可以构造出第三、第四、…、第p个主成分。2.主成分分析的数学模型设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,X2,…,Xp,得到原始数据资料阵:其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。用数据矩阵X的p个列向量(即p个指标向量)X1,X2,…,Xp作线性组合,得综合指标向量:简写成:Fi=a1iX1+a2iX2+…+apiXp

i=1,2,…,p

为了加以限制,对组合系数ai'=(a1i,a2i,…,api)作如下要求:即:ai为单位向量:ai'ai=1,且由下列原则决定:

1)Fi与Fj(i≠j,i,j=1,…,p)互不相关,即Cov(Fi,Fj)=0,并有Var(Fi)=ai'Σai,其中Σ为X的协方差阵

2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,即,其中c=(c1,c2,…,cp)'

F2是与F1不相关的X1,X2,…,Xp一切线性组合中方差最大的,…,Fp是与F1,F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线性组合中方差最大的。满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数ai'=(a1i,a2i,…,api)就是相应特征值i所对应的单位特征向量ti。方差的贡献率为,i越大,说明相应的主成分反映综合信息的能力越强。3.主成分分析的步骤(1)计算协方差矩阵计算样品数据的协方差矩阵:Σ=(sij)pp,其中

i,j=1,2,…,p(2)求出Σ的特征值及相应的特征向量求出协方差矩阵Σ的特征值12…p>0及相应的正交化单位特征向量:则X的第i个主成分为Fi=ai'X

i=1,2,…,p。(3)选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率达到足够大(一般在85%以上)为原则。(4)计算主成分得分计算n个样品在m个主成分上的得分:

i=1,2,…,m(5)标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中,,j=1,2,…,p。标准化后的数据阵记为X*,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。标准化后变量的协方差矩阵(CovarianceMatrix)Σ=(sij)pp,即原变量的相关系数矩阵(CorrelationMatrix)R=(rij)pp:i,j=1,2,…,p

此时n个样品在m个主成分上的得分应为:Fj=a1jX1*+a2jX2*+...+apjXp*

j=1,2,…,m6.1.2使用INSIGHT模块作主成分分析【例6-1】全国沿海10个省市经济指标的主成分分析表6-1全国沿海10个省市经济综合指标假设表6-1中数据已经存放在数据集Mylib.jjzb中,试对各地区的经济发展水平进行主成分分析。地区GDPx1人均GDPx2工业增加值x3第三产业增加值x4固定资产投资x5基本建设投资x6社会消费品零售总额x7海关出口总额x8地方财政收入x9辽宁5458.2130001376.22258.41315.95292258.4123.7399.7山东10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江苏10636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9广东11769.7150304224.64793.63022.91275.55013.61843.71201.6广西2455.45062367995.7542.2352.71025.515.1186.71.使用INSIGHT模块做主成分分析的步骤使用INSIGHT模块做主成分分析的步骤如下:

1)在INSIGHT模块中打开数据集Mylib.jjzb;选择菜单“Analyze”“Multivariate(YX)(多元分析)”,打开“Multivariate(YX)”对话框;

2)将做主成分分析的变量x1~x9选为Y变量,将变量diqu选为Label变量,如图所示。图6-1多元分析对话框

3)单击“Method”按钮,在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征值。系统默认计算相关系数矩阵的特征值和特征向量,单击“OK”按钮返回。

4)单击“Output”按钮,在打开的对话框(图左)中包括“DescriptiveStatistics”选项、“BivariatePlots”选项以及各种多元分析的选项。选中“PrincipalComponentAnalysis”复选框,单击下面的“PrincipalComponentOptions”按钮,打开“PrincipalComponentOptions”对话框,选中“Eigenvectors”复选框,取消“Correlations(Structure)”复选框,如图右所示。

2.主成分的结果分析输出的数字分析结果有4个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。

3)图6-5给出相关系数矩阵的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差贡献率(Proportion)以及累积贡献率(Cumulative)。

相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分的方差贡献率为80.11%,前两个主成分的累积贡献率已达92.33%,因此,只需用前面2个主成分就可以概括这组数据。

4)图6-6给出相关系数矩阵的两个最大特征值的特征向量,据此可以写出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+0.36x7*+0.30x8*+0.36x9*PCR2=-0.21x1*+0.94x2*–0.01x3*–0.05x4*+0.10x5*–0.02x6*–0.14x7*+0.05x8*+0.18x9*

对于第一主成分而言,除了x2(人均GDP)外,各变量所占比重均在0.3以上,因此第一主成分(Prin1)主要由x1、x3~x9八个变量解释;而第二主成分则主要由x2这一个变量解释。

5)选择菜单“Edit(编辑)”“Observations(观测)”“LabelinPlots”,在弹出的对话框中选中所有diqu变量值,单击“OK”按钮返回,显示结果中的散点图上出现地区名;图中看出,上海在第二主成分PCR2的得分远远高于其他省市,而在第一主成分PCR1的得分则处于中间。广东、江苏、山东和浙江则在第1主成分的得分上位于前列。

6)回到INSIGHT的数据窗口,可以看到前两个主成分的得分情况(如图6-8左)。单击数据窗口左上角的箭头,在弹出的菜单中选择“Sort(排序)”选项,在打开的对话框中选定排序变量PCR1,并单击“Asc/Des”按钮将其设为降序(Des),如图6-8所示。

单击“OK”按钮返回,得到按第一主成分排序的结果如图6-9左所示。同样方法可以得到按第二主成分排序的结果如图6-9右所示。从第一主成分排序情况来看,沿海19省市经济发展状况综合排名前5位的省市依次为:广东、江苏、山东、浙江、上海;从第二主成分排序情况来看,人均GDP排名前5位的省市依次是:上海、天津、浙江、广东、福建。

6.1.3使用“分析家”作主成分分析【例6-2】某企业为了了解其客户的信用程度,评价客户的信用等级,采用信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。

1)品格x1,指客户的信誉。

2)能力x2,指客户的偿还能力。

3)资本x3,指客户的财务势力和财务状况。

4)附带的担保品x4。

5)环境条件x5,指客户的外部因素。通过专家打分,得到10个客户5项指标的得分如表6-3所示。表6-210个客户5项指标的得分假设表6-2中数据已经存放在数据集Mylib.xydj中,试对各客户的信用等级进行评估。客户编号IDx1x2x3x4x5客户编号IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.67367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.874.8957.760.457.460.865585.668.57062.276.5107069.271.764.968.91.使用“分析家”做主成分分析的步骤

1)在“分析家”中打开数据集Mylib.xydj;

2)选择菜单“Statistics(统计)”“Multivariate(多元分析)”“PrincipalComponents(主成分分析)”,打开“PrincipalComponents”对话框;

3)在对话框中输入主成分分析的变量,如图所示。

4)单击“Statistics(统计)”按钮,打开“PrincipalComponents:Statistics”对话框;在“#ofcomponents:”右边的框中指定主成分的个数4,如图右。单击“OK”返回;

5)单击“SaveData”按钮,打开“PrincipalComponents:SaveData”对话框,在该对话框中可选择存储数据。选中“Createandsavescoresdata”,如图6-11所示。单击“OK”返回;

6)单击“Plots”按钮,打开“PrincipalComponents:Plots”对话框,可以设置图形输出。●在“ScreePlot(碎石图)”选项卡中(图左),选中“Createscreeplot(建立碎石图)”复选框。●在“ComponentPlot(成分图)”选项卡中(图右),选中“CreatecomponentPlot(建立成分图)”复选框。

2.主成分的结果分析输出的数字分析结果包括4个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。

1)图6-13

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论