应用多元分析第7章主成分分析.ppt_第1页
应用多元分析第7章主成分分析.ppt_第2页
应用多元分析第7章主成分分析.ppt_第3页
应用多元分析第7章主成分分析.ppt_第4页
应用多元分析第7章主成分分析.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计划学时: 4学时 教学课型: 理论课 教学目的与要求:理解主成分的概念,掌握主成分分析 的基本方法 教学重点:主成分分析的方法 教学难点:主成分分析的方法 教学方法、手段与媒介:根据教材用多媒体课件课堂讲授 教学过程与内容:,主成分概念首先由 Karl Parson在1901年引进,当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量。,第七章 主成分分析,(Principal component analysis),7.1 引 言,在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。,主成分分析就是设法将原

2、来指标重新组合成 一组新的互相无关的几个综合指标来代替原来指 标。同时根据实际需要从中可取几个较少的综合 指标尽可能多地反映原来的指标的信息。,主成分分析是考察多个数值变量间相关性的一种多元统计方法,它是研究如何通过少数几个主成分来解释多变量的方差协方差结构。 导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关。,一、主成分分析的基本思想,将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。 以两个指标为例,信息总量以总方差表示:,Principal component in 2d,二、几何解释,y1,y2,旋转变换的目的是为了使得n个样本点在y1

3、轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量y2也损失不多的信息。,y1与y2除起了浓缩作用外,还具有不相 关性。,y1称为第一主成分,y2称为第二主成分。,推广开来,对于p维总体 ,寻求正交变 换 ,使得,在所有正交变换中,所选正交矩阵U,使 最大; 与 不相关;并且在所有与 不相关的变量中 最大; 与 、 不相关,同时在所有与 、 不相关的变量中 最大;依次类推。,为总体 的主成分, 为第一主成分, 为第 二主成分,三、主成分分析的数学原理,对原有变量作坐标变换,,要求满足:,如果z1=u1x满足,则称z1为第一主成分.

4、,如果z2=u2x满足,则称z2为第二主成分.,7.2 总体的主成分,设 为一p维随机向量,其二阶矩存在, 记 为 的特征值, 为相应的单位特征向量,且相互正交。,则yi为第i个主成分。,一、主成分的导出,二、主成分的性质,1、主成分的均值与协方差,记,2、主成分的总方差,3、原始变量 与主成分 的相关系数,4、m个主成分对原始变量的贡献率,其特征值为,相应的特征向量为,Proc iml; X=1 -2 0, -2 5 0, 0 0 2; Val=eigval(x); Vec=eigvec(x); D=1:2; B=(val)d,1; c=(vec),d; F1=(sqrt(inv(diag(

5、X)*vec*sqrt(diag(val),d; F2=(f1#f1),1; F=diag(c*diag(b)*t(c)*inv(diag(x)*j(3,1); Print val vec b c f1 f2 f;,VAL VEC B C 5.8284271 -0.382683 0 0.9238795 5.8284271 -0.382683 0 2 0.9238795 0 0.3826834 2 0.9238795 0 0.1715729 0 1 0 0 1 F1 F2 F -0.92388 0 0.8535534 0.8535534 0.9974842 0 0.9949747 0.99497

6、47 0 1 0 1,Data w(type=cov); Input x1 x2 x3; Cards; 1 -2 0 -2 5 0 0 0 2 ; Proc princomp cov; Run;,The PRINCOMP Procedure Observations 10000 Variables 3 Total Variance 8 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 5.82842712 3.82842712 0.7286 0.7286 2 2.00000000

7、 1.82842712 0.2500 0.9786 3 0.17157288 0.0214 1.0000 Eigenvectors Prin1 Prin2 Prin3 x1 -.382683 0.00000 0.923880 x2 0.923880 0.00000 0.382683 x3 0.000000 1.00000 0.000000,主成分分析在经济指标综合评价中的应用,核心:通过主成分分析,选择m个主成分y1,y2,ym,以每个主成分yi的方差贡献率i作为权数,构造综合评价函数,,其中 为第i个主成分的得分(求出主成分的表达式后,将标准化后的数据再代入yi中),当把m个主成分得分代入F

8、函数后,即可得到每个样本的综合评价函数得分,以得分的大小排序,可排列出每个样本的经济效益的名次。,5、原始变量对主成分的影响,分析:y1主要由x3控制,y2主要由x1控制,,y3主要由x2 控制,Y1的贡献率为:109.793/117=0.938,x1 ,x2 ,x3之间的线性关系,Data w(type=cov); Input x1 x2 x3; Cards; 16 2 30 2 1 4 30 4 100 ; Proc princomp cov; Run;,三、从相关矩阵出发求主成分,性质:,例7.2.3 在例7.2.2中,x的相关矩阵,相应的主成分为:,7.3 样本的主成分,设数据矩阵为,

9、样本协方差矩阵为,样本相关矩阵为,例7.3.1 在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有:身高(x1)、坐高(x2)、胸围(x3)、手臂长(x4)、肋围(x5)和腰围(x6)。所的样本相关矩阵如下:,表7.3.1 男子身材六项指标的样本相关矩阵,SAS程序,data examp731(type=corr); input x1-x6; cards; 1.00 . . . . . 0.79 1.00 . . . . 0.36 0.31 1.00 . . . 0.76 0.55 0.35 1.00 . . 0.25 0.17 0.64 0.16 1.00 .

10、0.51 0.35 0.58 0.38 0.63 1.00 ; proc princomp ; Run;,The SAS System 08:44 Wednesday, November 24, 2006 1 The PRINCOMP Procedure Observations 10000 Variables 6 Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.28720078 1.88096073 0.5479 0.5479 2 1.40624004 0.947144

11、96 0.2344 0.7822 3 0.45909508 0.03275335 0.0765 0.8588 4 0.42634173 0.13154160 0.0711 0.9298 5 0.29480013 0.16847790 0.0491 0.9789 6 0.12632223 0.0211 1.0000 Eigenvectors Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 x1 0.468906 -.364756 0.092208 -.122427 0.079696 -.785645 x2 0.403726 -.396606 0.613011 0.3264

12、44 -.027035 0.443430 x3 0.393570 0.396800 -.278870 0.655713 -.405232 -.125342 x4 0.407640 -.364842 -.704801 -.107829 0.234585 0.370564 x5 0.337472 0.569214 0.164251 -.019297 0.730502 0.033531 x6 0.426822 0.308369 0.119265 -.660671 -.489941 0.178828,例7.3.3 测得八项男子径赛运动纪录,样本相关矩阵如下:,data examp733(type=co

13、rr); input x1-x8; cards; 1.000 . . . . . . . 0.923 1.000 . . . . . . 0.841 0.851 1.000 . . . . . 0.756 0.807 0.870 1.000 . . . . 0.700 0.775 0.835 0.918 1.000 . . . 0.619 0.695 0.779 0.864 0.928 1.000 . . 0.633 0.697 0.787 0.869 0.935 0.975 1.000 . 0.520 0.596 0.705 0.806 0.866 0.932 0.943 1.000 ; proc princomp ; Run;,五、若干补充及应用中需注意的问题,1.关于时间序列数据 2.主成分用于聚类分析 3.关于不同时期的主成分分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论