版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、专题 主成分分析,1 引言 2 基本概念 3 概述 4 主成分分析 5 Matlab及SPSS实例分析,1,1 引言,在学生学习过程中,已经修完p门课程,其成绩为x1,x2,xp,如何评价每个学生的综合能力?假设每门课程有权重c1,c2,cp,则加权之和为:s= c1x1+c2x2+cpxp。 每个学生对应这样一个成绩,假设有n个学生,其成绩分别为:s1,s2,sn。如果这些值很分散,表明每个人的综合能力能很好地区分。关键是如何确定权重c1,c2,cp?在数学上反映的问题是什么呢?,2,一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标; 另一方面随着考虑指标的增多增加了问题的复杂性,同时由
2、于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律; 基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。,3,一项十分著名的工作是美国的统计学家Stone在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,4,在进行主成分分析后,竟以97.4的精度,用三个新变量就取代
3、了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,5,6,主成分分析的目标,目标化简多指标系统,构造方便系统分析的少数综合指标; 数学本质利用降维技术,将多个变量(指标)归结为线性无关的几个(少数)主成分(综合指标).,7,2 基本概念,(1)均值(mean) 均值作为一组数据的代表,反映该组数据平均水平,计算公式如下: 性质1:,Matlab命令:mean(x),8,(2)方差(vari
4、ance) 方差用于衡量数据的集中或分散程度,公式为: Matlab命令:var(x) 标准差(standard deviation)是观测值与均值间的平均距离,公式为: Matlab命令:std(x),9,图1.不同方差数据示意图,10,(3)协方差(covariance) 协方差用于衡量数据的协变趋势,公式为: matlab命令:cov(x,y) (4)均方误差(root mean square error) 用于衡量实际数据与预测数据的偏离程度,公式为:,11,(5)数据标准化 假定有n组样本,m个变量,其原始数据矩阵X为: 对矩阵进行标准化,其公式为: 从而使得矩阵的每一列均值为0,方
5、差为1 标准化2,12,标准化的优点: 消除数据量纲的影响; 例如: 杭州市的温度:-1045 大气压力:105Pa 湿度:0%100% 怎么分析温度、大气压力和湿度对心情的影响?,13,(6)相关系数(correlation coefficient) 相关系数是对于变量而言,第j个和第k个变量之间的相关系数公式为: 相关系数大小在区间-1,1之间,也可写为:,14,相关系数几何意义 1.余弦定理: 2.两点间距离公式:,15,对于标准化数据,原点为 ,记为点A,计算X与Y的夹角有 从而有,16,图2.夹角余弦示意图,17,矩阵代数 1.特征向量 向量(3, 2)T表示二维平面中从原点(0,
6、0)指向点(3,2)的一个箭头,而矩阵可以认为是转移矩阵; 经转移矩阵变换后还是自身(倍数)的向量称为矩阵的特征向量; 一般对单位特征向量进行处理。,18,2.特征值 与特征向量成对出现。,19,3 概述: 统计学历史,统计学之父:Karl Pearson(18571936) Karl Pearson 最重要的学术成就,是为现代统计学打下基础。自从达尔文演化论问世后,关於演化的本质争论不断,在这方面他深受 Galton(达尔文表哥,“优生学”一词的发明者)与 Weldon 影响。,20,Weldon 1893年提出所谓变异,遗传与天择事实上只是算术的想法。这促使 K Pearson 在1893
7、-1912年间写出18篇在演化论上的数学贡献的文章,而这门算术,也就是今日的统计。许多熟悉的统计名词如标准差,成分分析,卡方检定都是他提出的。,21,Ronald Fisher(18901962),英国统计与遗传学家,现代统计科学的奠基人之一,并对达尔文进化论作了基础澄清的工作。 他在1925所著研究工作者的统计方法影响力超过半世纪,遍及全世界。,22,Harold Hotelling 1895年9月29日出生在美国明尼苏达,他对统计理论最重要的贡献是多变量分析及或软率,最重要的论文则是 The generalization of Students ratio,即目前著称的Hotellings
8、 T2统计量。 他在主成分分析(principal component analysis)和典型相关分析(canonical correlation analysis)的发展上也扮演重要的角色。 经济学家,23,主成分(Principal components)最早可以追溯到Karl Pearson 于1901 年开创的非随机变量的多元转换分析;1933 年H.A. Hotelling 将其推广到随机变量。 工作对象:样本点定量变量类型的数据表。 工作目标:将多变量的平面数据进行最佳综合、简化,以期: 降维处理:高维变量化为低维变量,且信息损失最少 统计简化:简化变量系统的统计数字特征。,24
9、,4 主成分分析,什么是主成分分析(Principal Component Analysis)? 用于辨识数据中模式的一种方法(模式识别),目的是突出数据间的相似和差异,而这些特征在高维数据中难以得到(无法给出图形表示); PCA的主要优势是能够处理高维数据,通过减少数据维数实现数据压缩,同时不损失过多的信息;能有效处理“维数灾难”(Curse of Dimensionality)问题; 在图像处理、经济学、统计学等各个领域得到了广泛应用。,25,PCA的基本思路,假定我们有 p 组相关变量的n 组观察值x1,x2,xp; PCA的主要目标是寻找xi的一组投影,得到一组新的(p个)不相关变量y
10、i ; 其中yi是xi的线性组合。,26,数据矩阵,27,降维(data reduction),降维最简单的方法就是保留一个变量,舍弃其余的变量; 对所有变量平均加权; -除非所有变量具有同样方程,否则不合理 基于某种标准做加权平均; 何种标准?,28,加权平均的构成,寻找X (nxp)矩阵的变量满足以下条件 Y= T X=1 X1+ 2 X2+.+ p Xp 其中 =(1 , 2 ,., p)T 是一组权重向量 1+ 2+.+ p =1,29,比较好的标准如下:,极大化观测值在Y变量上投影的方差 即寻找 使得 max Var(T X)= T Var(X) 矩阵C=Var(X) 是Xi 个变量
11、的协方差矩阵,30,Good,Better,31,协方差矩阵,C=XTX=,32,因此PCA的目标就是寻找,的方向是寻找矩阵C的具有最大特征值的特征向量方向; 要找的第二个向量就是具有第二大特征值的特征向量方向; 第三个,第四个 ,33,因此PCA得到的就是,原始变量xi的线性组合Yi: Yi= ai1x1+ai2x2+aipxp ; i=1.p 新变量Yi 按其重要性的降序排列; 这些新变量称为“主成分(Principal Component)”.,34,35,一个小例子,考虑两个变量,其协方差c0 C= C-I= det(C-I)=(1- )-c 求解特征值可以得到 1 =1+c 2 =1
12、-c 1,36,如何理解PCA?,得到的新的变量 (PCs)的方差等于其对应的特征值 Var(Yi)= i for all i=1p i 小 方差较小 在成分Yi的方向上数据变化较小 每个PC的相对方差计算为li / li,37,保留几个主成分?,38,PCA的具体步骤,步骤1:获取数据; 步骤2:去均值(标准化)处理;,39,步骤3:计算协方差矩阵 步骤4:计算协方差矩阵的特征值和特征向量,40,步骤5:选择主成分,构成特征向量,41,5. Matlab和SPSS实例分析,例.在企业经济效益的评价中,涉及的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发
13、求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表3-1,即样品数n=28,变量数p=9。,42,43,续表,44,clear load czsr2003.txt n,p=size(czsr2003); MEAN=mean( czsr2003) ; %求各变量的均值 STD=std( czsr2003); %求各变量的标准差 MEAN=ones(n,p)*diag(MEAN); STD=ones(n,p)*diag(STD); x=(czsr2003-MEAN)./STD; %原始数据标准化,原始数据标准化,45,R=cov(x); 注释: 由
14、于数据已经过标准化处理,故x的协方差矩阵等于其相关系数矩阵,即R=corrcoef(x).,2. 建立变量的协方差矩阵,V,D=eig(R); 注释:函数eig的功能是对矩阵R进行正交对角化变换,矩阵D是以R的特征值为对角元的对角矩阵(对角元按从小到大的顺序排列),矩阵V是正交变换矩阵。,3. 求得特征根及相应的单位特征向量,46,%计算主成份的方差贡献率和累计方差贡献率 DD= ; %将特征值对角矩阵D改写为列向量DD for i=p:-1:1 %此处要注意eig函数的输出D中特征值的排列顺序 DD=DD;D(i,i); end OFFER=DD/sum(DD); %计算特征值的方差贡献率
15、cumOFFER=cumsum(DD)/sum(DD); %计算特征值的方差累计贡献率 OUTCOME=DD,OFFER,cumOFFER %综合输出计算结果 OUTCOME=DD,OFFER,cumOFFER %综合输出计算结果 PCACOV=V(:,end:-1:end-2) %输出正交单位化的特征向量矩阵V的前3列 OUTCOME=DD,OFFER,cumOFFER%综合输出计算结果,47,OUTCOME = 6.1499 0.6833 0.6833 1.4729 0.1637 0.8470 0.6974 0.0775 0.9245 0.3178 0.0353 0.9598 0.1900
16、 0.0211 0.9809 0.1160 0.0129 0.9938 0.0291 0.0032 0.9970 0.0243 0.0027 0.9997 0.0024 0.0003 1.0000,OUTCOME=DD,OFFER,cumOFFER %综合输出计算结果,48, 选取主成分 根据特征值的方差累计贡献率,取前2个(贡献率达84.70%)或前3个(贡献率达92.45%)主成分即可。 PCACOV=V(:,end:-1:end-2) %输出正交单位化的特征向量矩阵V的前3列,PCACOV = 0.3756 0.2595 -0.0141 0.3934 -0.1344 -0.0853 0.
17、3753 -0.2653 -0.1074 0.0935 -0.7113 -0.5223 0.1746 -0.4913 0.8022 0.3721 0.1650 -0.2246 0.3616 0.2254 0.0424 0.3513 0.0524 0.0830 0.3626 0.1268 0.0747,49,(3) 分析并命名主成分,对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变
18、量的属性的作用。,线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。,50,第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成是x1, x2, x3, x6, x7, x8, x9 的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是“投入”与“产出”之比。第一主成分所占信息总量为68.3%,在我
19、国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产的有效所产生的经济效益更大一些。 第一主成分的系数取为 0.3756 0.3934 0.3753 0.0935 0.1746 0.3721 0.3616 0.3513 0.3626,51,第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所作的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓住了这2个方面,经济效益就一定会提高。 第二主成分的系数取为 0.2595 -0.1344 -0.2653 -0.7113 -0.4913 0.16
20、50 0.2254 0.0524 0.1268,52,第三主成分又如何解释呢? 第三主成分的系数取为 -0.0141 -0.0853 -0.1074 -0.5223 0.8022 -0.2246 0.0424 0.0830 0.0747,如何解释第二、三主成分主成份系数的负号,可能需要更多的经济学理论的支持。,53,Matlab Statistics Toolbox主成分分析函数及应用,用原始数据进行主成份分析 【函数与语法】 PC=princomp(x) PC,SCORE,latent,tsquare=princomp(x) 【参数说明】 x 原始数据矩阵(样本点变量) PC 主成分系数向量
21、(列) SCORE 样本点的主成分得分 latent x的协方差矩阵的特征值 tsquare 每一个样本点的HotellingT2统计量的值 注意:princomp函数没有数据标准化的功能。 【应用czsr2003.txt】 PC,SCORE,latent,tsquare=princomp(x),54,2. 用原始标准化数据的协方差矩阵进行主成分分析 【函数与语法】 PC=pcacov(R) PC, latent,explained=pcacov(R) 【参数说明】 R 原始数据相关系数矩阵(样本点变量) PC 主成分系数向量(列) latent 相关矩阵R的特征值 explained 每一个
22、主成分的方差贡献率 【应用czsr2003.txt】 PC, latent,explained=pcacov(R),55,SPSS软件介绍,几种常用的统计软件 SAS SPSS MINITAB STATISTICA Splus Excel,56,统计分析是数据分析的主要工具 完整的数据分析过程包括 数据的采集 数据的整理 数据的分析 统计学为数据分析过程提供了一套完整的科学的方法论。统计软件为数据分析提供了手段。,57,SPSS(Statistical Package for the Social Sciences),即“社会科学统计软件包”。但随着SPSS产品服务领域的扩大和服务深度增加,S
23、PSS公司于2000将英文全称改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”。 其统计过程包含了常用的、较为成熟的统计过程,完全可以满足非统计专业的需求。 非专业统计人员的首选统计软件。,58,以全国31个省市的8项经济指标为例,进行主成分分析。,59,第一步:录入或调入数据;,60,第二步:打开“因子分析”对话框。沿着主菜单的“AnalyzeData ReductionFactor ”的路径打开因子分析选项框。,图4.2. 打开因子分析对话框的路径,61,图4.3. 因子分析选项框,62,第三步:选项设置。 首先,在源变
24、量框中选中需要进行分析的变量,点击右边的 箭头符号,将需要的变量调入变量(Variables)栏中。在 本例中,全部8个变量都要用上,故全部调入。,图4.4 将变量移到变量栏以后,63,3.1 设置Descriptives选项。 单击Descriptives按钮,弹出Descriptives对话框。,在Statistics栏中选中Univariate descriptives复选项,则输出结果中 将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可 供检验参考);选中Initial solution复选项,则会给出主成分载荷 的公因子方差(这一栏数据分析时有用)。在Correlation
25、Matrix 栏中,选中Coefficients复选项,则会给出原始变量的相关系数矩 阵(分析时可参考)。设置完成以后,单击Continue按钮完成设置。,64,3.2 设置Extraction选项。 打开Extraction对话框(图6)。因子提取方法主要有7种 ,在Method栏中可以看到,系统默认的提取方法是主成分(Principal components),因此对此栏不作变动,就是认可了主成分分析方法.,65,在Analyze栏中,选中Correlation matirx复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covariance matrix复选项,则因子分析基于数
26、据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。,66,选中Scree Plot(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。 需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无需改动。,67,3.3 Scores设置 选中Save as variables栏,则分析结果中给出标准化的主成分得分(在数据表
27、的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。 选中Display factor score coefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置。,68,选中Display factor score coefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置,对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option项可以不必理会。
28、全部设置完成以后,点击OK确定,SPSS很快给出计算结果。,69,70,公因子方差,71,图4.8 特征根数值衰减折线图(山麓图),72,公因子方差:h12=0.88492+0.38362+0.12092=0.9449 方差贡献:s12=0.88492+0.60672+0.82272=3.7551,相关系数矩阵的特征根方差贡献主成分得分的方差,73,图4. 10. 主成分方差与方差贡献,74,全部主成分的公因子方差和方差贡献,75,76,实际上,主成分得分在原始数据所在的SPSS当前数据栏中给出,不过 给出的都是标准化的主成分得分(图左); 将各个主成分乘以相应的即特征根的二次方根可以将其还原为未经 标准化的主成分得分(图右)。,77,第五步,计算结果分析。 从Component Matrix即主成分载荷表中可以看出,国内生产总值、固定资产投资和工业产值在第一主成分上载荷较大,亦即与第一主成分的相关系数较高;职工工资和货物周转量在第二主成分上的载荷绝对值较大,即负相关程度较高;消费价格指数在第三主成分上的载荷较大,即相关程度较高。 因此可将主成分命名如下: 第一主成分:投入产出主成分; 第二主成分:工资物流主成分; 第三主成分:消费价格主成分。,78,例3,利用主成分分析法,综合评价六个工业行业的经济效益指标。 (单位:亿元),79,解:我们考虑的是:如何根据这些经济指标,对各行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东茂名市电白区城镇公益性岗位招聘10人(第三批)考试参考题库及答案详解
- 2026安徽医科大学第五附属医院招聘劳务派遣工作人员10人笔试备考题库及答案详解
- 2026国际关系学院社会在职人员(含出站博士后)招聘1人(第8号北京)考试模拟试题及答案详解
- 2026届湖北省恩施市崔坝、沙地、双河、新塘四校中考试题猜想物理试卷含解析
- 2026广东广州医科大学附属第五医院人才招聘1人(九)考试参考题库及答案详解
- 陕西省咸阳市2026届中考二模物理试题含解析
- 2026年全国公用设备工程师之专业案例(暖通空调专业)考试黑金提分题附答案
- 2026年广东省深圳市锦华实验校中考五模物理试题含解析
- 浙江省上虞市实验中学2026年中考适应性考试物理试题含解析
- 2025年注册环保工程师考试《专业基础考试》真题及答案详解
- 洞口开挖安全技术措施
- 普通车床主传动系统设计
- 2023年湖南省长沙市雨花区初中会考科目调研检测地理试题
- 2022苏教版科学五年级下册每课教学反思(附目录)
- 人防区域顶板预留洞封堵方案
- GB/T 18422-2013橡胶和塑料软管及软管组合件透气性的测定
- GA/T 497-2016道路车辆智能监测记录系统通用技术条件
- 《薄膜材料与薄膜技术》教学配套课件
- 湖南省长沙市长郡教育集团2021-2022学年中考三模数学试题含解析
- 脱挂式索道(检测)课件
- 审理商品房买卖合同纠纷案件司法解释的理解与适用
评论
0/150
提交评论