2.7主成分分析法与层次分析法_第1页
2.7主成分分析法与层次分析法_第2页
2.7主成分分析法与层次分析法_第3页
2.7主成分分析法与层次分析法_第4页
2.7主成分分析法与层次分析法_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.7主成分分析法与层次分析法

主成分概念首先是由KarlParson在1901年引进的,不过当时只对非随机变量来讨论的.1933年Hotelling将这个概念推广到随机向量.在实际问题中,经常会遇到研究多指标(变量)问题,然而在多数情况下,不同指标之间是有一定相关性.由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性.主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来指标的信息.

1

这种将多个指标化为少数互相无关的综合指标的统计方法就叫主成分分析或称为主分量分析.也是数学上处理降维的一种方法.

例1,生产服装有很多指标,比如袖长、肩宽、身高等十几个指标,服装厂生产时,不可能按照这么多指标来做,怎么办?一般情况,生产者考虑几个综合的指标,象标准体形、特形等。例2,企业经济效益的评价,它涉及到很多指标。如百元固定资产原值实现产值、百元固定资产原值实现利税,百元资金实现利税,百元工业总产值实现利税,百元销售收入实现利税,每吨标准煤实现工业产值,每千瓦时电力实现工业产值,全员劳动生产率,百元流动资金实现产值等,我们要找出综合指标,来评价企业的效益。

2基本思想:

主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。3如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此类推,可以制造出第三、四……第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此,在实际工作中,就挑选前几个最大的主成分(一般取信息量包含85%以上的前几个指标),虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。4主成分分析的数学模型

5此时所选取的综合指标,相当于在原指标的基础上,进行了坐标旋转,使得第一个指标的方差最大(含有最多的信息)。若只选取前几个综合指标,则意味着降维。6主成分分析的具体推导7若m个主成分的累计贡献率超过85%,那我们认为前m个主成分基本包含了原来指标信息。

8例:各地区居民消费情况主成分分析(2001年全国各地区消费情况指数)地区食品X1衣着X2家庭设备用品及服务X3医疗保健和个人用品X4交通和通信X5娱乐教育文化X6居住X7北京101.5100.497.098.7100.8114.2104.2天津100.893.595.9100.7106.7104.3106.4河北100.897.498.298.299.5103.6102.4山西99.496.098.297.899.198.3104.3内蒙古101.897.799.098.198.4102.0103.7辽宁101.896.896.492.799.6101.3103.4吉林101.398.299.4103.798.7101.4105.39黑龙江101.9100.098.496.9102.7100.3102.3上海100.398.997.297.498.1102.1102.3江苏99.397.797.6101.196.8110.1100.4浙江98.798.497.099.695.6107.299.8安徽99.797.798.099.397.3104.1102.7福建97.696.597.6102.597.2100.699.9江西98.098.497.1100.5101.4103.099.9山东101.198.698.7102.496.9108.2101.7河南100.498.698.0100.799.4102.4103.3湖北99.396.994.098.199.7109.799.2湖南98.697.496.499.897.4102.1100.0广东98.298.299.499.399.7101.599.9102001年全国各地区消费情况指数广西98.596.397.097.798.7112.6100.4海南98.499.298.1100.298.098.297.8重庆99.297.495.798.9102.4114.8102.6四川101.397.999.298.8105.4111.999.9贵州98.597.894.6102.4107.0115.099.5云南98.396.398.5106.292.598.6101.6西藏99.3101.199.4100.1103.698.7101.3陕西99.297.396.299.798.2112.6100.5甘肃100.099.998.298.3103.6123.2102.8青海102.299.496.298.6102.4115.3101.2宁夏100.198.797.499.8100.6112.4102.5新疆104.398.7100.2116.1105.2101.6102.611前三个主成分为:第一主成分:F1=0.3758X1+0.3682X2+0.3666X3+0.3764X4+0.3762X5+0.3991X6+0.3824X7第二主成分:F2=-0.1352X1-0.0898X2-0.2381X3-0.3488X4+0.0387X5+0.8762X6-0.1617X7第三主成分:F3=-0.2001X1-0.1447X2-0.0954X3+0.8332X4-0.2777X5+0.2098X6-0.3384X7前三个特征值累计贡献率已达99.987%,说明前三个主成分基本包含了全部指标具有的信息。在第一主成分的表达式中,每项指标的系数都差不多大,我们可以把第一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论