




免费预览已结束,剩余54页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章主成分分析,第一节引言,第二节主成分的几何意义及数学推导,第三节主成分的性质,第四节主成分分析应用中应注意的问题,第五节实例计算及Rcode,第一节引言,多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠用较少的变量来代替原来较多的变量,并可以反映原来多个变量的大部分信息“降维”思想,主成分分析(PrincipalComponentAnalysis,PCA)是由Hotelling于1933年首先提出的思想:多个变量之间往往存在一定程度的相关性;通过线性组合的方式,从这些指标中尽可能多地提取信息当第一个线性组合不能提取更多的信息时,考虑用第二个线性组合继续提取过程,直到所提取的信息与原指标相差不多时为止。用较少的主成分得到较多的信息量,得到一个更低维的随机向量;主成分分析既可以降低数据“维数”又保留了原数据的大部分信息,第一节引言,变量(属性、指标)的信息量当一个变量只取一个常数值时,提供的信息量非常有限取一系列不同数据时,可以从中读出最大值、最小值、平均数等信息变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大主成分分析中的信息-指标的变异性标准差或方差表示主成分分析的数学模型:设p个变量构成的p维随机向量为X=(X1,Xp)对X作正交变换,令Y=TX,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等,第一节引言,第二节主成分的几何意义及数学推导,一主成分的几何意义,二主成分的数学推导,一、主成分的几何意义,正交变换=坐标旋转考虑二维空间:假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用X1的方差和X2的方差测定如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法,图主成分的几何意义,一、主成分的几何意义,一、主成分的几何意义,n个点在新坐标系下的坐标Y1和Y2几乎不相关Y1和Y2为原始变量X1和X2的综合变量n个点在y1轴上的方差达到最大,在此方向上包含了有关n个样品的最大量信息欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小称Y1为第一主成分,称Y2为第二主成分第一主成分的效果与椭圆的形状有很大的关系:椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2轴上的方差就相对越小用第一主成分代替所有样品所造成的信息损失也就越小,一、主成分的几何意义,考虑两种极端的情形:椭圆的长轴与短轴的长度相等,即椭圆变成圆:第一主成分只含有二维空间点约一半信息若仅用这一个综合变量,则将损失约50的信息原因是:原始变量X1和X2的相关程度几乎为零它们所包含的信息几乎不重叠椭圆扁平到了极限,变成y1轴上的一条线:第一主成分包含二维空间点的全部信息仅用这一个综合变量代替原始数据不会有任何的信息损失主成分分析效果最理想第二主成分不包含任何信息,舍弃它没有信息损失,一、主成分的几何意义,二、主成分的数学推导,考虑如下线性变换:用矩阵表示为:,二、主成分的数学推导,二、主成分的数学推导,二、主成分的数学推导,二、主成分的数学推导,二、主成分的数学推导,二、主成分的数学推导,第三节主成分的性质,一主成分的一般性质,二主成分的方差贡献率,一、主成分的一般性质,一、主成分的一般性质,一、主成分的一般性质,一、主成分的一般性质,二、主成分的方差贡献率,主成分分析的目的是减少变量的个数,所以一般不会使用所有主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响,二、主成分的方差贡献率,例设X=(X1,X2,X3)的协方差矩阵为其特征值为1=5.83,2=2.00,3=0.17相应的特征向量为若只取一个主成分,则贡献率为5.83/(5.83+2.00+0.17)=0.72875=72.875%,Y1对第三个变量的因子载荷量为零X3与X1和X2都不相关,在Y1中未包含有关X3的信息仅取一个主成分就显得不够了,故应再取Y2累计贡献率为(5.83+2.00)/8=97.875%,(Y1,Y2)对每个原始变量的相关系数,三、主成分的解释,主成分分析成功与否取决于主成分是否有意义载荷由Yk=tk1X1+tk2X2+tkpXp称tki为第k主成分Yk在第i个原始变量Xi上的载荷,它度量了Xi对Yk的重要程度在解释主成分时,需要考察载荷大小方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系通常取前几个主成分,因此所取主成分会过于照顾方差大的变量,而对方差小的变量却照顾得不够,例设X=(X1,X2,X3)的协方差矩阵为经计算,的特征值及特征向量为1=109.793,2=6.469,3=0.738相应的主成分分别为,Y1=0.305X1+0.041X2+0.951X3Y2=0.944X1+0.120X20.308X3Y3=0.127X1+0.992X20.002X3方差大的原始变量X3在很大程度上控制了第一主成分Y1,方差小的原始变量X2几乎完全控制了第三主成分Y3,方差介于中间的X1则基本控制了第二主成分Y2.Y1的贡献率为高贡献率归因于X3的方差比X1和X2的方差大得多另外,Y1与X1,X3的相关系数远大于与X2的相关系数,第四节主成分分析应用中应注意的问题,一实际应用中主成分分析的出发点,二主成分的合理选择与解释,三如何利用主成分分析进行综合评价,一、实际应用中主成分分析的出发点,变量单位的影响主成分计算从协方差阵出发,变量单位的改变会产生不同的主成分“大数吃小数”主成分倾向于多归纳方差大的变量的信息标准化处理,从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的这种差异有时很大实际应用中:如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替采用R代替后,可以看作是用标准化的数据做分析,这样使得主成分有现实意义,便于剖析实际问题,又可以避免突出数值大的变量,一、实际应用中主成分分析的出发点,一、实际应用中主成分分析的出发点,上例化为相关阵出发计算.X的相关矩阵R的特征值及特征向量为相应的主成分分别为,的贡献率为和累计贡献率为从R出发的的贡献率0.705明显小于从出发的Y1的贡献率0.938原始变量方差之间的差异越大,这一点倾向越明显可用标准化前的原变量表达如下:,在原变量X1,X2,X3上的载荷相对大小与上例中Yi在X1,X2,X3上的载荷相对大小之间有着非常大的差距标准化后的结论完全可能会发生很大的变化,二、主成分的合理选择与解释,在主成分分析中,首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出具有意义的解释主成分的含义一般多少带点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”,如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,此时的累计贡献率通常较易得到满足主成分分析的困难之处在于要如何给出主成分的解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了主成分分析是变量降维的一种重要、常用的方法,但该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”,二、主成分的合理选择与解释,例:在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(X1)、坐高(X2)、胸围(X3)、手臂长(X4)、肋围(X5)和腰围(X6).样本相关矩阵列于下表:,表:男子身材六项指标的样本相关矩阵,经计算,相关阵的前三个特征值、相应的特征向量以及贡献率列于下表,表:的前三个特征值、特征向量以及贡献率,前三个主成分分别为前两个主成分的累计贡献率为78.2,前三个主成分的累计贡献率达85.9,因此可以考虑只取前面两个或三个主成分,它们能够很好地概括原始变量第一主成分对所有(标准化)原始变量都有近似相等的正载荷,故称第一主成分为(身材)大小成分,第二主成分在上有中等程度的正载荷,而在上有中等程度的负载荷,称第二主成分为形状成分(或胖瘦成分)第三主成分在上有大的正载荷,在上有大的负载荷,而在其余变量上的载荷都较小,可称第三主成分为臂长成分由于第三主成分的贡献率不高(7.65)且实际意义也不太重要,因此也可考虑取前两个主成分,三、利用主成分分析进行综合评价,评价指标体系的选择与综合加权权重如何选取?主成分分析能从选定的指标体系中归纳出大部分信息根据主成分提供的信息进行综合评价利用主成分进行综合评价是将原有的信息进行综合权重根据它们的方差贡献率来确定(主成分的信息含量),三、利用主成分分析进行综合评价,第五节实例分析与计算机实现,一主成分分析实例,二利用R进行主成分分析,一、主成分分析实例,表6.1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值,单位:万元;X2:职工人数据,单位:人;X3:工业总产值,单位:万元;X4:全员劳动生产率,单位:元/人年;X5:百元固定资产原值实现产值,单位:元;X6:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元/吨。,表6.1某市工业部门13个行业8项指标,一、主成分分析实例,如何从这些经济指标出发,对各工业部门进行综合评价与排序?先计算这些指标的主成分,然后通过主成分的大小进行排序。表6.2和表6.3分别是特征根(累计贡献率)和特征向量的信息利用主成分得分进行综合评价时,从特征向量可以写出所有8个主成分的具体形式:,一、主成分分析实例,表6.2特征根和累计贡献率,一、主成分分析实例,表6.3特征向量,一、主成分分析实例,以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表6.4。综合得分的计算公式是:并据此排序机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;排在最后三位的分别是皮革行业、电力行业和煤炭行业,一、主成分分析实例,表6.4各行业主成分得分及排序,一、主成分分析实例,表6.5分地区城镇居民家庭收支基本情况,二、利用R进行主成分分析,表6.5分地区城镇居民家庭收支基本情况,二、利用R进行主成分分析,二、利用R进行主成分分析,#readdatadata.frame=read.table(file=datasets/pca.dat,header=T)#calculatethecovariancematrixofthedatasetdata=data.matrix(data.framec(1:30),c(2:6)data.cov=cov(data)head(data.cov)#Byusingthefunctioneigentheeigenvaluesandeigenvectorsofthe#covariancematrixarecomputedEigenvalues-eigen(data.cov)$valuesEigenvectors-eigen(data.cov)$vectors#PrincipalComponentscanbeestimatedviaamatrixmultiplicationPC-as.matrix(data)%*%Eigenvectors,#Asacheckoftheresult,wecomputethecovariancematrixofPC.#Thevariancesofcov(PC)shouldbeequaltotheEigenvaluesandthe#covariancesshouldbe0(asidefromroundingerrors)sincethe#PrincipalComponentshavetobeuncorrelated.cov(PC)#WedothisforthefirstthreeEigenvaluesEigenvalues1:3cov(PC)1:3,1:3#Wecalculatetheproportionsofthevariationexplainedbythevarious#components:print(round(Eigenvalues/sum(Eigenvalues)*100,digits=2)round(cumsum(Eigenvalues)/sum(Eigenvalues)*100,digits=2),二、利用R进行主成分分析,#PCAusingprcomp#ThebestwaytodoPCAwithRistousethefunctionpr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 低空经济产业园基础设施建设项目节能评估报告
- DB54T 0007-2023 黄瓜保护地生产技术规程
- 跨境电商市场调研与策略分析报告
- 医院改善服务行动方案
- 六年级美术空间艺术教学案例
- 五年级语文后进生转化总结报告
- 教师与学生交流沟通技巧实战指南
- 五年级科学实验设计方案及教学目标
- 完形填空高频词汇快速记忆技巧
- 幼儿心理发展及行为观察记录范例
- 2025年竞选大队委笔试题及答案
- 2025年成人高考高升专试题(含答案)
- 统编版(2024)八年级上册语文:古诗文理解性默写 练习题+答案
- 船舶高级消防课件
- 管理岗位津贴管理制度
- 重症肺炎集束化治疗专题报告
- 麻醉科院内感染防控体系
- 2025年云南南方地勘工程有限公司招聘笔试参考题库含答案解析
- 工程部管理培训课件
- DB31/T 978-2016同步注浆用干混砂浆应用技术规范
- 【DAMA】2025智变-AI赋能政府与央国企智能化转型白皮书
评论
0/150
提交评论