版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 主成分分析 ( Principal Components Analysis) 是由Hotelling于1933年首先提出的, 它是利用降维的思想,把多指标转化 为少数几个综合指标的多元统计分析 方法。 从数学角度来看,这是一种降维处理 技术。 主成分分析的目的与功能 n在多变量分析中,分析者所面临的最大难题是 解决众多变量之间的关系问题。进行数据降维 可以用尽可能少的新指标取代原来较多的指标 变量,并能包含原来指标变量所包含的大部分 信息 。 n解决多元回归分析中的多重共线性问题。 n综合评价中,人们总是尽可能多地选取评价指 标,而这些评价指标之间往往相互重叠,信息 冗余是不可避免的。主成分
2、分析则可以把这众 多指标所蕴含的信息压缩到少数几个主成分指 标,然后给出这几个主成分指标的权重,综合 到一个评价指标中。 主成分的主要功能 n数据降维(Dimension Reduction) n变量筛选(Variables Screening) 一、数据处理 采集m维随机向量x=(x1,x2,xm)T的n个样品 xi=(xi1,xi2,xim)T, i=1,2, ,n, nm,构造样本 阵X x1T x11 x12 x1m x2T x21 x22 x2m X= = xnT xn1 xn2 xnm 1.对样本阵X中的元进行如下变换 x ij , 对正指标 Y ij = - x ij, 对逆指标
3、 得 Y= Y ij n p 2 2 对Y中元进行如下标准化变换 ijj j yy ij s 1,2, ;1,2,in jm 其中 得标准化矩阵Z: 2 2 11 , 1 nn ijijj ii jj yyy ys nn Z= z1T z11 z12 z1m z2T = z21 z22 z2m znT zn1 zn2 znm 一、主成分分析的基本原理 n假定有n个样本,每个样本共有m个变量, 构成一个nm阶的数据矩阵(标准化后的 数据) 11121 21222 12 m m nnnm xxx xxx X xxx (3.5.1) n 当m较大时,在m维空间中考察问题比较麻 烦。为了克服这一困难,
4、就需要进行降维 处理,即用较少的几个综合指标代替原来 较多的变量指标,而且使这些较少的综合 指标既能尽量多地反映原来较多变量指标 所反映的信息,同时它们之间又是彼此独 立的。 定义:记x1,x2,xm为原变量指标,F1, F2,Fp(pm)为新变量指标 111 11221 221 12222 1 122 mm mm ppppmm Fe xe xe x Fe xe xex Fe xexex (3.5.2) n系数eij的确定原则: Fi与Fj(ij;i,j=1,2,p)相互 无关; F1是x1,x2,xm的一切线性组合中方差 最大者,F2是与F1不相关的x1,x2,xm的 所有线性组合中方差最大
5、者; Fp是与F1,F2,Fp1都不相关的x1, x2,xm, 的所有线性组合中方差最大者。 则新变量指标F1,F2,Fp分别称为原变量 指标x1,x2,xm的第一,第二,第p 主成分。 从以上的分析可以看出,主成分分析的 实质就是确定原来变量xj(j=1,2 ,m) 在诸主成分Fi(i=1,2,p)上的权重 eij ( i=1,2,p; j=1,2 ,m)。 从数学上容易知道,从数学上可以证明, 它们分别是的相关系数矩阵的p个较大的特征 值所对应的单位化特征向量。 二、计算步骤 (一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,m)为原变量xi与xj 的相关系数, rij=
6、rji,其计算公式为: 11121 21222 12 m m mmmm rrr rrr R rrr (3.5.3) n k n k jkjiki n k jkjiki ij xxxx xxxx r 11 22 1 )()( )( (3.5.4) (二)计算特征值与特征向量:(二)计算特征值与特征向量: 解特征方程,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排 列 ; 0RI 12 ,0 m 分别求出对应于特征值的特征向量 ,要求 =1,即, 其中表示向量 的第j个分量。 i (1,2,) i e im i e 2 1 1 m ij j e ij e i e 计算主成分贡献率及累
7、计贡献率 贡献率: 1 (1, 2,) i m k k im 累计贡献率: 1 1 (1,2,) i k k m k k im 一般取累计贡献率达8595%的特征值 所对应的第一、第二、第p(pm)个主成分。 12 , p (三)确定主成分 12 (,)T iiim eee 1122 1 iiiimm Fe Xe Xe Xip 其中 为第i个特征值所对应 的特征向量 2.计算主成分载荷计算主成分载荷 1.主成分表达式主成分表达式: ( ,) (1,2, ,1,2,) ijijiij lp F xeip jm 表示主成分与对应变量的相关系数表示主成分与对应变量的相关系数 (四)排序问题:(四)排
8、序问题: 1122 1 iiiimm Ye Xe Xe Xip 12 12 111 p pmmm kkk kkk YYYY 2.综合得分:选取综合评价函数为综合得分:选取综合评价函数为 1.主成分得分主成分得分 三、主成分分析实例1 下表是10名初中男学生的身高(cm), 胸围(cm),体重(kg)的数据,试进 行主成分分析。 身高身高x1胸围胸围x2体重体重x3 149.569.538.5 162.577.055.5 162.778.550.8 162.287.565.5 156.574.549.0 156.174.545.5 172.076.551.0 173.281.559.5 159.
9、574.543.5 157.779.053.5 Matlab程序 n%cwfac.m nfunction result=cwfac(vector); nfprintf(相关系数矩阵:n) nstd=corrcoef(vector) %计算相关系数矩阵 nfprintf(特征向量(vec)及特征值(val):n) nvec,val=eig(std) %求特征值(val)及特征向量(vec) nnewval=diag(val) ; ny,i=sort(newval) ; %对特征根进行排序,y为排序结果,i为索 引 nfprintf(特征根排序:n) nfor z=1:length(y) n ne
10、wy(z)=y(length(y)+1-z); nend nfprintf(%gn,newy) nrate=y/sum(y); nfprintf(n贡献率:n) nnewrate=newy/sum(newy) Matlab程序 nsumrate=0; nnewi=; nfor k=length(y):-1:1 n sumrate=sumrate+rate(k); n newi(length(y)+1-k)=i(k); n if sumrate0.85 break; n end nend %记下累积贡献率大85%的特征值的序号放入newi 中 nfprintf(主成分数:%gnn,length(
11、newi); nfprintf(主成分载荷:n) nfor p=1:length(newi) n for q=1:length(y) n result(q,p)=sqrt(newval(newi(p)*vec(q,newi(p); n end nend %计算载荷 ndisp(result) 主成分分析实例主成分分析实例 2 n表1是某市工业部门13个行业的8项重要经济指标的数 据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:
12、资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。 利用Matlab求解 1.0000 0.54500.6092 0.5450 1.00000.9515 0.6092 0.9515 1.0000 R n相关系数矩阵为 n特征值为 2.42 0.53 0.045 n对应的特征向量为 n 0.4983 0.8638 -0.0747 n 0.6063 -0.4088 -0.6822 n 0.6198 -0.2947 0.7274 贡献率为 0.8069 0.1781 0.0150 前两个的累计贡献率为98.5% 选取两个主成分 1123 0.560.420
13、.71yxxx 2123 0.830.330.45yxxx 1 y是反映学生身材魁梧与否的综合指标 是反映学生体形特征的综合指标。 2 y 表1是某市工业部门13个行业的8项重要经济指标的数 据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。 表表1 某市工业部门某市工业部门13个行业个行业8项指标项指标 我们要考虑的是:如何从这些经济
14、指 标出发,对八个指标进行适当的缩减, 便于我们对某市经济状态做定性分析? 0.0024 42 0000000 0 0.03218 4 000000 00 0.08659 8 00000 000 0.3040 8 0000 0000 0.6421 2 000 00000 0.9302 2 00 0000002.89740 00000003.1049 -0.245-0.75762-0.065854-0.184220.0453030.104190.295990.47665 -0.527110.51841-0.0484510.30545-0.174430.162980.277890.47281 0.
15、780540.174040.0990480.0174750.058670.156260.377950.42385 -0.220130.249430.28786-0.539410.51609-0.00854430.45141-0.21289 -0.030623-0.232970.582290.4499-0.199420.321130.33094-0.38846 0.042355-0.056436-0.713570.316840.279260.145140.40274-0.35243 -0.04116-0.0528420.193590.41820.758170.14046-0.377410.214
16、83 0.0032996-0.0671110.122170.32220.071855-0.891160.272740.055034 表表2 特征根和累计贡献率特征根和累计贡献率 表表3 特征向量特征向量 * 21234 * 5678 0.2960.2780.3780.451 0.3310.4030.3770.273 YXXXX XXXX * 11234 * 5678 0.4770.4730.4240.213 0.3880.3520.2150.055 YXXXX XXXX * 31234 * 5678 0.1040.1630.1560.009 0.3210.1450.1400.891 YXXXX XXXX 载荷 成份 123 年末固定资产 净值 .840.504.100 职工人数.833.473.157 工业总产值.747.643.151
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年玉树州辅警招聘考试真题含答案详解(a卷)
- 2025年秦皇岛辅警招聘考试真题附答案详解(巩固)
- 2025年苏州辅警招聘考试真题附答案详解(预热题)
- 2025年省属虚拟辅警协警招聘考试真题及完整答案详解
- 2025年红河州辅警协警招聘考试真题附答案详解(夺分金卷)
- 2025年盐城辅警招聘考试真题及答案详解(网校专用)
- 2025年淄博辅警招聘考试真题附答案详解(满分必刷)
- 2025年漯河辅警协警招聘考试真题含答案详解ab卷
- 2025年齐齐哈尔辅警招聘考试真题及答案详解(有一套)
- 2025年驻马店辅警协警招聘考试真题含答案详解(黄金题型)
- 2024年葫芦岛辅警协警招聘考试真题含答案详解ab卷
- 防渗漏监理实施细则
- GCP培训考试题库及参考答案(完整版)
- 2025年入团积极分子团章知识题库(含答案)
- 活动《中国空军建军节》主题班会
- 广东省深圳市深圳实验学校2025-2026学年七年级上学期期中考试数学试卷(含答案)
- 教育局教育督导人员考核方案
- 2025第二季度辽宁盘锦客运公交集团社会招聘35名工作人员笔试历年参考题库附带答案详解
- 期中复习资料2025-2026学年统编版语文四年级上册
- NDIR腔室清洗终点检测仪全球前5强生产商排名及市场份额(by QYResearch)
- 2025年公安民警初级执法资格考试题库及答案
评论
0/150
提交评论