主成分(修改)_第1页
主成分(修改)_第2页
主成分(修改)_第3页
主成分(修改)_第4页
主成分(修改)_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1主成分分析主成分分析2一、什么是主成分分析及基本思想一、什么是主成分分析及基本思想1 、什么是主成分分析、什么是主成分分析 主成分概念首先由主成分概念首先由Karl parson在在1901年引进,不年引进,不过当时只对非随机变量来讨论的。过当时只对非随机变量来讨论的。1933年年Hotelling将将这个概念推广到随机向量:这个概念推广到随机向量: 在实际问题中,研究多指标在实际问题中,研究多指标(变量变量)问题是经常遇到的,问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于然而在多数情况下,不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了

2、分指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个地反映原来指标的信息。这种将多个3指标化为少数互相无关的综合指标的统计方法叫做主成分指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。也是数学上处理降维的一种方法,分析或称主分量分析。也是数学上处

3、理降维的一种方法,例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多产一批新型服装绝不可能把尺寸的型号分得过多 ?而是?而是从多种指标中综合成几个少数的综合指从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合标,做为分类的型号,利用主成分分析将十几项指标综合成成3项指标,一项是反映长度的指标,一项是反映胖瘦的项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反

4、映特体的指标。在商业经济中用主成分分指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式,如物价析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数,商业活动指数等等。指数、生活费用指数,商业活动指数等等。 主成分分析除了可以单独用来处理上面所讨论的这主成分分析除了可以单独用来处理上面所讨论的这一类问题外,还可以与其它方法结合起来使用,例如与回一类问题外,还可以与其它方法结合起来使用,例如与回归分析结合起来就是主成分回归,它可以克服回归问题中归分析结合起来就是主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。由于自

5、变量之间的高度相关而产生的分析困难。42 基本思想基本思想 主成分分析就是设法将原来众多具有一定相关性的指主成分分析就是设法将原来众多具有一定相关性的指标标(比如比如p个指标个指标),重新组合成一组新的相互无关的综合,重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来指标来代替原来指标。通常数学上的处理就是将原来p个个指标作线性组合,作为新的综合指标,但是这种线性组合,指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记如果将

6、选取的第一个线性组合即第一个综合指标记F1, 自然希望自然希望F1尽可能多的反映原来指标的信息,这里的尽可能多的反映原来指标的信息,这里的“信信息息”用什么来表达用什么来表达?最经典的方法就是用最经典的方法就是用F1的方差来表达,的方差来表达,即即Var(F1)越大,表示越大,表示F1包含的信息越多。因此在所有的包含的信息越多。因此在所有的线性组合中所选取的线性组合中所选取的F1应该是方差最大的,故称应该是方差最大的,故称F1为第为第一主成分。如果第一主成分不足以代表原来一主成分。如果第一主成分不足以代表原来p个指标的信个指标的信息,再考虑选取息,再考虑选取 F 2 即选第二个线性组合,为了有

7、效地反即选第二个线性组合,为了有效地反映原来信息,映原来信息, F1已有的信息就不需要再出现在已有的信息就不需要再出现在F2中,用中,用数学数学5语言表达就是要求语言表达就是要求Cov(F1,F2)0,称,称F2为第二主成分,为第二主成分,依此类推可以造出第三,四,依此类推可以造出第三,四,第,第p个主成分。不难个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住虽然这样做会损失一部分信息,但是

8、由于它使我们抓住了上要矛盾,并从原始数据中进一步提取了某些新的信了上要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。题的分析和处理。2、主成分分析的数学模型及几何解释、主成分分析的数学模型及几何解释(1 )、)、 数学模型数学模型 设有设有 n 个样品,每个样品观测个样品,每个样品观测p项指标项指标(变量变量), X1, X2,Xp,得到原始数据资料阵:,得到原始数据资料阵:6其中其中用数据矩

9、阵用数据矩阵X的的p个向量个向量(即即p个指标向量个指标向量)X1,Xp作线作线性组合性组合(即综合指标向量即综合指标向量)为:为:7简写成简写成(注意:注意:Xi是是”维向量,所以维向量,所以Fi也是也是 n 维向量维向量)上述方程组要求:上述方程组要求:8的一切线性组合中方差第的一切线性组合中方差第P大的。大的。 如何求满足上述要求的方程组的系数如何求满足上述要求的方程组的系数aij呢呢?下一节将下一节将会看到每个方程式中的系数向量会看到每个方程式中的系数向量不是别的而恰好是不是别的而恰好是X的协差阵的协差阵所对应的特征向量;也就是说,数学上可以证明使所对应的特征向量;也就是说,数学上可以

10、证明使Var(F1)达到最大,这个最大值是在达到最大,这个最大值是在 的第一个特征值所对应特的第一个特征值所对应特征向量处达到。依此类推使征向量处达到。依此类推使Var(Fp)达到最大值是在达到最大值是在 的的的特征值的特征值9第第p个特征值所对应特征向量处达到。个特征值所对应特征向量处达到。 这里要说明两点:一个是数学模型中为什么作线性组合这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因:基于两种原因:数学上容易处理;数学上容易处理;在实践中效果很好。在实践中效果很好。另一个要说明的是每次主成分的选取使另一个要说明的是每次主成分的选取使Var(Fi)最大,如果最大,如果不加限制

11、就可使不加限制就可使Var(Fi) 则就无意义了,而常用的则就无意义了,而常用的限制是要求限制是要求(2 )、)、 主成分的几何意义主成分的几何意义 从代数学观点看主成分就是从代数学观点看主成分就是p个变量个变量X1,Xp的的一些特殊的线性组合,而在几何上这些线性组合正是把一些特殊的线性组合,而在几何上这些线性组合正是把X1,Xp构成的坐标系旋转产生的新坐标系,新坐标构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向轴使之通过样品变差最大的方向(或说具有最大的样品或说具有最大的样品方差方差)。下面以最简单的二元正态变量来说明主成分的。下面以最简单的二元正态变量来说明主成分的几何

12、意义。几何意义。10 设有设有 n 个样本,每个样本有个样本,每个样本有p个变量记为个变量记为X1,Xp,它们的综合变量记为它们的综合变量记为F1,F2,Fp。当。当p2时,原变量时,原变量是是X1,X2,设,设 它们有下它们有下图的相关关系:图的相关关系: 对于二元正态分布变量,对于二元正态分布变量,n个点的散布大致为一个椭个点的散布大致为一个椭园,若在椭园长轴方向取坐标轴园,若在椭园长轴方向取坐标轴F1,在短轴方向取,在短轴方向取F2,这,这相当于在平面上作一个坐标变换,即按逆时针方向旋转相当于在平面上作一个坐标变换,即按逆时针方向旋转 角度,根据旋轴变换公式新老坐标之间有关系:角度,根据

13、旋轴变换公式新老坐标之间有关系:11我们看到我们看到F1,F2是原变量是原变量 X1 和和 X2 的线性组合,用矩阵表的线性组合,用矩阵表示是示是显然显然且是正交矩阵,即且是正交矩阵,即 从上图还容易看出二维平面上的从上图还容易看出二维平面上的n个点的波动个点的波动(可用方可用方差表示差表示)大部分可以归结为在大部分可以归结为在 F1 轴上的波动,而在轴上的波动,而在F2轴上轴上的波动是较小的。如果上图的椭园是相当扁平的,那么我的波动是较小的。如果上图的椭园是相当扁平的,那么我们可以只考虑们可以只考虑F1方向上的波动,忽略方向上的波动,忽略F2方向的波动。这样方向的波动。这样一来,二维可以降为

14、一维了,只取第一个综合变量一来,二维可以降为一维了,只取第一个综合变量F1即可。即可。而而F1是椭园的长轴。是椭园的长轴。12 设设的特征根的特征根所以有:所以有:VarF 1VarF2VarFpo。 在解决实际问题时,一般不是取在解决实际问题时,一般不是取p个主成分,而是根个主成分,而是根据累计贡献率的大小取前几个。据累计贡献率的大小取前几个。定义定义 称第一主成分的贡献率为称第一主成分的贡献率为主成分的贡献率就是主成分的方差在全部方差中的比值主成分的贡献率就是主成分的方差在全部方差中的比值因此第一因此第一3 主成分的贡献率主成分的贡献率13个值越大,表明第一主成分综合个值越大,表明第一主成

15、分综合X1 ,Xp信息信息的能力越强。的能力越强。前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前前 k 个主成分的贡献率达到个主成分的贡献率达到85,表明取前,表明取前k个主成分基个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。的个数又便于对实际问题的分析和研究。如果如果 值得指出的是:当协差阵值得指出的是:当协差阵未知时,可用其估计值未知时,可用其估计值 S(样样本协差阵本协差阵)来代替,来代替, 设原始资料阵为:设原始

16、资料阵为:14 则则其中其中而相关系数阵:而相关系数阵:其中其中15显然当原始变量显然当原始变量Xl,Xp标准化后,则标准化后,则 实际应用时,往往指标的量纲不同,所以在计算之前实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这样一来先消除量纲的影响,而将原始数据标准化,这样一来S和和R相同。因此一般求相同。因此一般求R的特征根和特征向量,并且不妨取的特征根和特征向量,并且不妨取RX X。因为这时的。因为这时的R与与不变,它并不影响求主成分。不变,它并不影响求主成分。只差一个系数,显然只差一个系数,显然与与的特征根相差的特征根相差n倍,但它们的特征向量倍,但

17、它们的特征向量。164 计算步骤及实例计算步骤及实例 设有设有 n 个样品,每个样品观测个样品,每个样品观测 p 个指标,将原始数个指标,将原始数据写成矩据写成矩1将原始数据标准化。这里不妨设上边矩阵已标准化将原始数据标准化。这里不妨设上边矩阵已标准化了。了。2建立变量的相关系数阵:建立变量的相关系数阵:不妨设不妨设173求求R的特征根的特征根及相应的及相应的单位特征向量:单位特征向量:4写出主成分写出主成分 例例 对全国对全国30个省市自治区经济发展基本情况的八项个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:指标作主成分分析,原始数据如下:18192021第一步第一步 将

18、原始数据标准化。将原始数据标准化。第二步第二步 建立指标之间的相关系数阵建立指标之间的相关系数阵R如下如下22第三步第三步 求求R的特征值和特征向量。的特征值和特征向量。23 从上表看,前从上表看,前3个特征值累计贡献率已达个特征值累计贡献率已达89564,说明前说明前3个主成分基本包含了全部指标具有的信息,我们个主成分基本包含了全部指标具有的信息,我们取前取前3个特征值,并计算出相应的特征向量:个特征值,并计算出相应的特征向量:24因而前三个主成分为:因而前三个主成分为:第一主成分:第一主成分:第二主成分:第二主成分:25第三主成分:第三主成分: 在第一主成分的表达式中第一、二、三项指标的系

19、数在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一王成分看较大,这三个指标起主要作用,我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;划的反映经济发展状况的综合指标; 在第二主成分中,第四、五、六、七项指标的影响在第二主成分中,第四、五、六、七项指标的影响大,且第六、七项指标的影响尤其大,可将之看成是反映大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;物价指数、职工工资和货物周转量的综合指标; 在第三主成分

20、中,第八项指数影响最大,远超过其它在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。指标的影响,可单独看成是工业总产值的影响。26主成分分析用于系统评估主成分分析用于系统评估 系统评估是指对系统营运状态做出评估,而评估一个系统评估是指对系统营运状态做出评估,而评估一个系统的营运状态往往需要综合考察许多营运的指标系统的营运状态往往需要综合考察许多营运的指标.5 附注附注27 例如对某一类企业经济效益作评占,影响企业经济效例如对某一类企业经济效益作评占,影响企业经济效益就有许多指标,很难直接比较其优劣,听以解决评估问益就有许多指标,很难直接比较其优劣,听以解决

21、评估问题的焦点就是希望科学、客观地将一个多指标问题综合成题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式,也就是说只有在一维空间中才能使排一个单指标的形式,也就是说只有在一维空间中才能使排序评估成为可能,因此产生了许许多多评估方法。鉴于系序评估成为可能,因此产生了许许多多评估方法。鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用,统评估在社会、经济等许多领域中有着广泛而重要的应用,下面其中方法。下面其中方法。 具体方法,利用主成分具体方法,利用主成分F1,Fp做线性组合,并以每做线性组合,并以每个主成分个主成分 Fi 的方差贡献率的方差贡献率 作为权数构造一个综合评价

22、作为权数构造一个综合评价函数:函数:也称也称 y 为评估指数,依据对每个系统计算出的为评估指数,依据对每个系统计算出的 y 值大小值大小进行排序比较或分类划级。进行排序比较或分类划级。28 主成份分析的MATLANB实现 这里给出江苏省生态城市主成份分析实例。 城市环境生态化是城市发展的必然趁势,表现为社会、经济、环境与生态全方位的现代化水平,一个符合生态规律的生态城市应该是结构合理、功能高效和关系协调的城市生态系统。所谓结构合理是指适度的人口密度,合理的土地利用,良好的环境质量,充足的绿地系统,完善的基础设施,有效的自然保护;功能高效是指资源的优化配置、物力的经济投入、人力的充分发挥、物流的

23、畅通有序、信息流的快捷;关系协调是指人和自然协调、社会关系协调、城乡协调、资源利用和更新协调。一个城市要实现生态城市的发展目标,关键是在市场经济的体制下逐步改善城市的生态环境质量,防止生态环境质量恶化,因此,对城市的生态环境水平调查评价很有必要。29 我们对江苏省十个城市的生态环境状况进行了调查,得到生态环境指标的指数值,见表1。现对生态环境水平分析和评价。3031我们利用Matlab中的princomp命令实现。具体程序如下X= 0.7883 0 .7391 0.8111 0.6587 0.6543 0.8259 0.8486 0.6834 0.8495 0.7846 0.7633 0.7287 0.7629 0.8552 0.7564 0.7455 0.7800 0.9490 0.8918 0.8954 0.4745 0.5126 0.8810 0.8903 0.8288 0.7850 0.8032 0.8862 0.3987 0.3970 0.8246 0.7603 0.6888 0.8977 0.7926 0.7856 0.6509 0.8902 0.6799 0.9877 0.8791 0.8736 0.8183 0.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论