




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章(1)主成分分析,汇报什么?,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。,每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。把变量维数降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。本章介绍主成分分析法。,11.1什么是主成分分析?,我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1語文a2数学a3自然a4社会科学确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量主成分,推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是pca。这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。,由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。主成分分析(principalcomponentanalysis,简称pca)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。,为什么要根据方差确定主成分?,情形ii下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息,对主成分的要求,上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。,主成分分析的目的,压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。,对这两个相关变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理假定只有两个变量x1和x2,从散点图可见两个变量存在相关关系,这意味着两个变量提供的信息有重叠,11.2主成分分析的基本思想(以两个变量为例),如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维的过程,椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据的变化明显较大,而短轴方向变化则较小如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量和原始变量间存在一定的数学换算关系,同时这两个新变量之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而,短轴变量只携带了一小部分变化的信息(变异)此时,只需要用长轴方向的变量就可以代表原来两个变量的信息。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大,降维也就越合理(见图示),主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,多维变量的情形类似,只不过是一个高维椭球,无法直观地观察每个变量都有一个坐标轴,所以有几个变量就有几主轴。首先把椭球的各个主轴都找出来,再用代表大多数数据信息的最长的几个轴作为新变量,这样,降维过程也就完成了,找出的这些新变量是原来变量的线性组合,叫做主成分,三变量主成分分析示意图,pc1=a1xi1+a2xi2+a3xi3pc2=b1xi1+b2xi2+b3xi3,主成分变换将三维空间的样本显示在二维空间,一、主成分分析的基本原理,假定有n个样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵,(1),11.3主成分分析的原理和步骤,当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。,定义:记x1,x2,xp为原变量指标,z1,z2,zm(mp)为新变量指标,(2),系数lij的确定原则:zi与zj(ij;i,j=1,2,m)相互无关;,z1是x1,x2,xp的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xp的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xp,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xp的第一,第二,第m主成分。,从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的荷载lij(i=1,2,m;j=1,2,p)。从数学上容易知道,从数学上可以证明,它们分别是相关系数矩阵的m个较大的特征值所对应的特征向量。,二、计算步骤,(一)计算相关系数矩阵rij(i,j=1,2,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为:,(3),(4),(二)计算特征值与特征向量:解特征方程,常用雅可比法(jacobi)求出特征值,并使其按大小顺序排列;,分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。,计算主成分贡献率及累计贡献率贡献率:,累计贡献率:,一般取累计贡献率达8595%的特征值所对应的第一、第二、第m(mp)个主成分。,计算主成分载荷各主成分的得分:,(5),(6),对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响根据标准化后的数据矩阵求出相关系数矩阵求出协方差矩阵的特征根和特征向量确定主成分,并对各主成分所包含的信息给予适当的解释,主成分分析的步骤小结,例1根据表1给出的数据,对某农业生态经济系统做主成分分析。体验处理过程。,表1某农业生态经济系统各区域单元的有关数据,11.4主成分分析实例分析,步骤如下:(1)将表1中的数据作标准差标准化处理,然后将它们代入公式(4)计算相关系数矩阵(见表2)。,表2相关系数矩阵,(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3)。由表3可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。,表3特征值及主成分贡献率,(3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式(5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表4)。,表4主成分载荷,第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。,分析:,显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。,第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。另外,表3.5.3中最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。,【例2】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释(spss),31个地区的6项经济指标,第1步选择【analyze】下拉菜单,并选择【datareduction-factor】,进入主对话框第2步在主对话框中将所有原始变量选入【variables】第3步点击【descriptives】,在【correlationmatrix】下选择【coefficirnts】,点击【continue】回到主对话框第4步点击【extraction】,在【display】下选择【screeplot】,点击【continue】回到主对话框第5步点击【rotation】,在【display】下选择【loadingplot】,点击【continue】回到主对话框点击【ok】,用spss进行主成分分析,用spss进行主成分分析,spss的输出结果,各变量之间的相关系数矩阵,变量之间的存在较强的相关关系,适合作主成分分析,spss的输出结果(选择主成分),各主成分所解释的原始变量的方差,该表是选择主成分的主要依据,“initialeigenvalues”(初始特征根)实际上就是本例中的6个主轴的长度特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率设特征根为,则第i个主成分的方差贡献率为比如,第一个主成分的特征根为3.963,占总特征根的的比例(方差贡献率)为66.052%,这表示第一个主成分解释了原始6个变量66.052%的信息,可见第一个主成分对原来的6个变量解释的已经很充分了,根据什么选择主成分?,根据主成分贡献率一般来说,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分比如表13.3中前两个主成分的累计方差贡献率为95.57%根据特特征根的大小一般情况下,当特征根小于1时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大比如表13.3中除前两个外,其他主成分的特征根都小于1。所以spss只选择了两个主成分就本例而言,两个主成分就足以说明各地区的经济发展状况了,根据什么选择主成分?,spss还提供了一个更为直观的图形工具来帮助选择主成分,即碎石图(screeplot)从碎石图可以看到6个主轴长度变化的趋势实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可,根据什么选择主成分?(screeplot),拐点,怎样解释主成分?,主成分的因子载荷矩阵,表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aij比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均gdp)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大,根据主成分分析模型和因子载荷,可以得到两个主成分与原来6个变量之间的线性组合表达式如下,怎样解释主成分?(主成分与原始变量的关系),注意:表达式中的不是原始变量,而是标准化变量,载荷图(loadingplot)直观显示主成分对原始6变量的解释情况图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数每一个变量对应的主成分载荷就对应坐标系中的一个点,比如,人均gdp变量对应的点是(0.670,0.725)第一个主成分很充分地解释了原始的6个变量(与每个原始变量都有较强的正相关关系),第二个主成分则较好地解释了居民消费水平、人均gdp和年末总人口这3个变量(与它们的相关关系较高),而与其他变量的关系则较弱(相关系数的点靠近坐标轴),怎样解释主成分?(loadingplot),相关系数的点越远离坐标轴,主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标,【例3】成绩数据(student.sav),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,从本例可能提出的问题,目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?,采用主成分分析法,spss输出为,这里的initialeigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。,特征值的贡献还可以从spss的碎石图看出,怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?spss可以输出下面的表。,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量的线性组合,系数(比例)为-0.806,-0.674,-0.675,0.893,0.825,0.836。,如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六个变量x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为:x1=-0.806y1+0.353y2x2=-0.674y1+0.531y2x3=-0.675y1+0.513y2x4=0.893y1+0.306y2x5=0.825y1+0.435y2x6=0.836y1+0.425y2这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。比如x1表示式中y1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。,把第一和第二主成分的载荷点画出一个二维图可以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。,该图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。,根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。1主成分分析能降低所研究的数据空间的维数。即用研究m维的y空间代替p维的x空间(mp),而低维的y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分yl(即m1)时,这个yl仍是使用全部x变量(p个)得到的。例如要计算yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个xi的系数全部近似于零的话,就可以把这个xi删除
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《幼儿园教育基础》电子教案-第1单元
- 宏志助航计划就业能力培训体系
- 美团招聘文员培训
- 《托育服务政策法规与职业伦理》课件-第五章
- 《论甲午海战谈》课件
- 独立结算协议书
- 达人经济代理合同协议
- 校园环保协议书
- 车位厂房转让合同协议
- 河坝合同协议书
- 《破产法学》课程教学大纲
- 造价咨询应急预案及措施
- 《伤逝》课件.教学课件
- 【 课件】上海普通中小学课程方案
- 第四讲大力推进现代化产业体系建设-形势与政策
- 有限空间安全技术交底
- 打混凝土劳务清包工合同
- 20世纪外国文学史课件:意识流文学
- 国家安全教育学习通超星期末考试答案章节答案2024年
- 中国上市发电公司2023年回顾及未来展望-安永-2024
- 用人单位调档函范文10篇
评论
0/150
提交评论