主成分分析的理论和应用_第1页
主成分分析的理论和应用_第2页
主成分分析的理论和应用_第3页
主成分分析的理论和应用_第4页
主成分分析的理论和应用_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 主成分分析的理论和应用1主成分分析及主成分回归的基本思想主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快的提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取过程,直到所提取的信息与原指标相差不多时为止。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。主成分回归是在主成分分析法的基础上,由个自变量选出前个主成分,他们

2、是互不相关的;在保持因变量不变,用这个主成分作为自变量作回归;最后把所得的结果作变量代换,转化成原来因变量与自变量的关系。2数学模型与几何解释 主成分分析的数学模型是,设个变量构成维随机向量为。对作正交变换,令,其中为正交阵,要求的各分量是不相关的,并且的第一个方差是最大的,第二个分量的方差次之,。为了保持信息不丢失,的各分量方差与的各分量方差和相等。其数学推导为:设为一个维随机向量,并假定存在二阶矩,其均值向量与协方差分别记为考虑如下的线性变换 用矩阵表示为 其中,;。满足如下条件:每个主成分的系数平方和为1。即。主成分之间相互独立,即无重叠信息。即主成分的方差依次递减,重要性依次递减,即2

3、.3 主成分分析的性质及推导(1) 第一主成份的推导: 设X的协方差阵为 由于x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵使得其中为的特征根,不妨假设。而恰好是由特征根相对应的特征向量所组成的正交阵。 设有维正交向量=当且仅当时,即 时,有最大的方差。因为 。如果第一主成分表达的信息不够,则须找第二主成分。(2)第二主成分:因为第一,第二主成分线性无关所以有条件,寻找第二主成分。,因为所以。则对维向量有。所以取线性变换,则方差次大。依次类推矩阵形式为 。2.3.2 主成份性质: 性质1 主成分的协方差矩阵是对角阵。 性质2 主成分的总方差等于原是变量的总方差。 性质3 主成分与

4、原是变量的相关系数为并称之为因子负荷量。 性质4 ,()。样本主成分性质:1、第个主成分的系数向量是第个特征根所对应的标准化特征向量。2、第个主成分的方差为第个特征根,且任意两个主成分都是不相关的,也就是的样本协方差矩阵是对角矩阵3、样本主成分的总方差等于原变量样本的总方差,为4、第个样本主成分与第个变量样本之间的相关系数为: (因子载荷量)。2.4主成分的方差贡献率主成分分析把个原始变量的总方差分解成了个相互独立的变量的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称为第k个主成分的贡献率。第一主成

5、分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取m个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。通常使得累计贡献率达到一个较高的百分数(如85%以上)。2.5主成分分析的计算步骤 (1)由观测数据计算, 及 (2)由协方差矩阵得到特征值,及各个主成分的方差贡献、贡献率和累计贡献率,并根据累计贡献率确定主成分保留的个数。 (3)写出m个基本方程 式中,利用施密特正交化方法,对每一个求他所对应的基本方程组的解,然后令,从而得到用所表示的主成分,或将代入后得到用所表示的主成分。(4)将的观测值带入主成分的表达式中计算各个主成分的值。(5)计算原指标与主成分的

6、相关系数即因子载荷,解释主成分的意义。表1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试对调查资料中的16个地区的农民生活水平进行主成分分析,并利用前两个主成分对16个地区的农民生活水平进行分类表1-1 16个地区的农民生活水平的调查数据 (单位:元)地区食品()衣着()燃料()住房()生活用品及其它()文化生活服务()北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.1636.493.94河北95.2122.839.3022.4422.812.80山西104.78

7、25.116.409.8918.173.25内蒙古128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619

8、.5221.756.73江西140.5421.5017.6419.1915.974.94山东115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.30再令标准化的矩阵为 Y= ,理论部分给出了如下的计算公式: (=1,2,16; =1,2,6)运用MATLAB对此公式进行计算,可得出矩阵Y设矩阵的相关阵为,前面有公式 (,=1,2,6)1. 运用MATLAB可得到下面的矩阵Y的相关阵R:前面介绍了这么个定理:设是维随机向量,且, .1.4 的特征值为,为相应的单位正交特征向量,则的第主成分为 下面,要做的应该是求R的特征值和特征向

9、量。设其特征值为(=1,2,6),且,(=1,2,6)对应的正则化的特征向量为(=1,2,6),同样运用MATLAB可计算出结果:=3.5584 =(0.4811,0.4612,0.0525,0.4668,0.4842,0.3173=1.3163 =(-0.2570,0.2176,-0.7777,0.1806,0.2438,-0.4355=0.6082 =(0.0445,0.1001,0.5488,0.0726,0.2472,-0.7877=0.3734 =(0.2772,-0.6540,-0.1033,0.6571,-0.1851,-0.1370=0.1072 =(-0.7203,-0.23

10、79,0.2355,0.2900,0.4634,0.2652=0.0365 =(-0.3238,0.4957,0.1584,0.4779,-0.6293,0.0016 这样,把各特征向量的数值作为系数就可以写出预期的6个主成分表达式:=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355=0.0445+0.1001+0.5488+0.0726+0.2472-0.7877=0.2772-0.6540-0.1033+0.6571-0.1851-0.1370=-0.7203-0.237

11、9-0.2355+0.2900+0.46340.2652=-0.3238+0.4957+0.1584+0.4779-0.6293+0.0016 为了说明各主成分(即新指标)反映的原信息量的多少,还应该求出主成分(=1,2,6)的贡献率(第个主成分反映的信息量)和累计贡献率。(前个主成分反映的总信息量)。实际结果如下表所示:表3-2 各主成分对应的贡献率与累计贡献率主成分贡献率累计贡献率0.593066670.593066670.219383330.812450000.101366670.913816670.062233330.976050000.017866670.993916670.0060

12、83331.00000000最后,将标准化后的样本数据代入前两个主成分=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173和=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355可得到各地区在第一主成分和第二主成分的得分情况表3-3 各地区在第一主成分和第二主成分的得分图地区1北京2天津3河北4山西第一主成分得分3.85150.7075-2.0544-2.1391第二主成分得分0.26971.26441.21661.5135地区5内蒙古6辽宁7吉林8黑龙江第一主成分得分-1.27330.44040.1334-0.7937第二主成分

13、得分1.0282-0.3943-1.4875-0.4943地区9上海10江苏11浙江12安徽第一主成分得分4.41500.26641.1474-0.6009第二主成分得分0.5354-0.00120.0948-1.5976地区13福建14江西15山东16河南第一主成分得分-0.6727-1.3231-0.3027-1.8012第二主成分得分-1.9124-1.66760.74020.89223.2 结果分析根据前面得出了六个主成分的表达式。第一主成分中、的系数都在0.5附近, 的系数也相差不远且都是正值,只有的系数比较小。它反映总体消费高的地区除燃料消费外,其它消费基本也都较高。它的贡献率为5

14、9.31%,表达出的信息量很大。第二主成分中的系数绝对值较大,它更多地反映了燃料消费的情况。它的贡献率为21.94%,表达的信息较大。第一主成分与第二主成分的累计贡献量达到81.25%。第三主成分更多地反映了农民文化生活服务消费的情况,它的贡献率为10.14%,已经较小;从第四到第六主成分的贡献率都很小,它们表达的信息量也小,基本上它们反映的消费指标间的关系已经没有太多意义。因此可以用两个或三个新生成的指标来对各地区的消费情况进行分析总结。下面用第一主成分与第二主成分对16个地区进行分类。根据前面各个地区第一主成分与第二主成分的得分,可用数学工具MATLAB列出第二主成分对第一主成分的散布图如

15、下:图3-1 第二主成分对第一主成分的散布图从图中可以看出,这些地区大体上可分为四类第一类包括:上海、北京。这些地区的农民总体消费最高,农民生活水平较高。第二类包括:浙江、江苏、辽宁、黑龙江。这些地区燃料消费相对于总消费的比率相对趋中。总消费普遍高于后两类地区。第三类包括:天津、山东、内蒙古、河南、河北、山西。这些地区燃料消费相对于总消费的比率较低。第四类包括:吉林、安徽、福建、江西。这些地区燃料消费相对于总消费的比率很高。如果要分得更简单点,可以只把北京和上海归为一类,其它14个地区分为另一类。只是这样的分类只需要依赖第一主成分,在反映信息的准确度上差了不少。当然,这样的分类也不能最完整地反

16、映实际情况,从累计贡献率上可以看出两个主成分只反映了原信息量的81.25%。要达到更精确的分类,得取更多的主成分,而取更多主成分又势必增大评价难度。4 结论课题中的6个指标是有一定联系的,论文用主成分分析找出了课题中6个指标的相关点,并找到了用原始指标表示的6个新指标。然后用可最多地表达原信息量的2个新指标(即取到第二个主成分)对16个样本进行分类比较。透过两个新指标的表达式和代入样本数据后算出的新指标值,很容易地看出了不同类的不同消费特点:上海、北京的农民总体消费最高,农民生活较富足;浙江、江苏、辽宁、黑龙江的农民燃料和消费相对总消费的比率趋中,总消费普遍高于后两类地区;天津、山东、内蒙古、河南、河北、山西的农民燃料消费相对总消费的比率偏低,其中天津、山东的农民消费水平相对较高;吉林、安徽、福建、江西的农民燃料消费相对总消费的比率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论