




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主分量分析与核主分量分析,第一节主分量分析第二节核主分量分析,.,第一节主分量分析,概述主分量分析的基本原理主分量分析的计算步骤主分量分析主要的作用主分量分析方法应用实例,许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?,一、概述,事实上,这种想法是可以实现的,主分量分析方法就是综合处理这种问题的一种强有力的工具。主分量分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。,在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。,主成分概念首先由KarlParson在1901年首先提出,当时只是对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量,作了进一步发展。把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析(PCA),而次分量(MinorComponents,MCs)与主分量(PrincipalComponents,PCs)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称为次分量分析(MCA)。,主分量分析又称主成分分析,也有称经验正交函数分解或特征向量分析。分析对象:以网格点为空间点(多个变量)随时间变化的样本。主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报方法。我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称为主分量。,主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果就越好。PCA可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少方差。,在统计学中,主成分分析(principalcomponentsanalysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。,.,PCA主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的“精品”,而且计算量也变小了。对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。,例如,一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。,举一个例子:对于一个训练集,100个样本,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个样本的维数下降了。,二、主分量分析的基本原理,假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵,(1.2.1),当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。,定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标,(1.2.2),系数lij的确定原则:zi与zj(ij;i,j=1,2,m)相互无关;,z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。,从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的荷载lij(i=1,2,m;j=1,2,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。,三、主分量分析的计算步骤,(一)计算相关系数矩阵rij(i,j=1,2,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为,(1.3.1),(1.3.2),(二)计算特征值与特征向量解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;,分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。,计算主成分贡献率及累计贡献率贡献率,累计贡献率,一般取累计贡献率达85%95%的特征值所对应的第1、第2、第m(mp)个主成分。,计算主成分载荷主成分计算概括以下几点:,(1.3.3),(1.5.4),三、主分量分析主要作用,1主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分Y1(即m1)时,这个Y1仍是使用全部X变量(p个)得到的。例如要计算Y1的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。2有时可通过因子负荷aij的结论,弄清X变量间的某些关系。,3、多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。,4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。,四、主分量分析方法应用实例,下面,我们根据表3.5.1给出的数据,对某农业生态经济系统做主成分分析。,表3.5.1某农业生态经济系统各区域单元的有关数据,步骤如下:(1)将表3.5.1中的数据作标准差标准化处理,然后将它们代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。,表3.5.2相关系数矩阵,(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。,表3.5.3特征值及主成分贡献率,(3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式(3.5.5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表3.5.4)。,表3.5.4主成分载荷,上述计算过程,可以借助于SPSS或Matlab软件系统实现。,(1)第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。(2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。,分析:,显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。,(3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。(4)另外,表3.5.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。,.,第二节核主成分分析,概述核主成分的算法核主成分的特性计算的复杂性,一、概述,主分量分析法已经有许多成功的应用,但它的前提是只对服从高斯分布的数据特征提取效果较好,这就大大限制了它的应用范围。因为,如果数据呈任意分布,那么不论在原数据空间中如何做正交变换,都不可能找到一组最优的特征方向,找到的所谓“主分量”也就不能表达数据的特征结构了,而后续工作建立在这样的“主分量”表示的新特征向量的基础上,效果可想而知。PCA对数据分布有这样的苛刻要求,主要由于它是一个线性方法,对于提取数据的非线性结构无能为力。显然,不论在原空间中对PCA方法如何做改进,都不可能摆脱这个前提的限制,从本质上将其变为一个非线性算法。,核主成分分析是对主成分分析的一种改进,主成分分析要求处理的数据服从高斯分布,因此其应用受到大大的限制。针对之一局限性,核主成分分析首先利用非线性变换,将数据映射到特征空间,使其近似服从高斯分布,然后在特征空间利用主成分分析,所以,核主成分分析能够处理较多类型的数据。,基于核函数的非线性主成分分析方法,简称为核主成分分析(KPCA),于1998年由Scholkopf首次提出。主要应用于模式识别、信号处理等。如果选用适当的映射函数,输入空间线性不可分问题在特征空间将转化为线性可分问题。这种非线性映射函数被称之为核函数。将核函数与一般的主成分分析有机融合而形成的基于核的主成分分析,不仅具有优秀的主成分提取性能尤其适合于处理非线性问题,其应用前景更为广泛。,基于核的主分量分析法(KPCA)是对主分量分析法的非线性推广,这一过程涉及许多重要的思想和技巧,深入理解这些理论和核技巧是进行核技巧工作的基础。核主成分是在高维特征空间F中做通常的线性主成分分析。特征空间是输入空间非线性变换得到的。在主向量上的连续投影的等高线在输入空间变为非线性的,在输入空间画不出特征向量的原象。对核主成分来说,其关键在于不必自特征空间对经过映射后的数据直接进行计算。所有的计算将通过空间中的核函数来实现。,二、核主成分的算法,计算基于核的主成分,又称为核主成分,步骤如下:(1)计算矩阵,(2)通过将K进行对角化变换,并通过使来归一化特征向量相对应的系数。(3)提取一个测试点x的主成分(按照相应的核K),根据下式计算特征向量的映射。,常用的核函数,:,三、核主成分的特性,核主成分,实际上就是在特征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司聚餐自助餐活动方案
- 公司桶装水活动方案
- 公司研讨活动方案
- 公司礼仪礼节活动方案
- 公司活力秀活动方案
- 公司组织趣闻活动方案
- 公司新年节目策划方案
- 公司演唱会年会策划方案
- 公司月会具体活动方案
- 公司新春活动策划方案
- 国家安全教育的笔记
- GB/T 33592-2017分布式电源并网运行控制规范
- 答案二语习得
- 黄金的冶炼工艺流程
- 注塑成型工艺流程图
- 美术学院 本科培养方案 - 清华大学 - Tsinghua University
- 项目延期申请表(样本)
- 《中国脑卒中护理指导规范(2021年版)》课件
- 入团志愿书(2016版本)(可编辑打印标准A4) (1)
- 三基训练习题集-风湿免疫科(题目及答案)
- 无损检测射线常见缺陷图集
评论
0/150
提交评论