主成分分析法的原理应用及计算步骤_第1页
主成分分析法的原理应用及计算步骤_第2页
主成分分析法的原理应用及计算步骤_第3页
主成分分析法的原理应用及计算步骤_第4页
主成分分析法的原理应用及计算步骤_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、概要在处理信息时,如果两个变量之间存在恒定的相关关系,则两个变量可以被解释为反映该问题的信息具有恒定的重叠。 例如,高中科学研究状况评价中的立项课题数与项目经费、经费支出等之间有高相关性的学生综合评价研究中的专业基础课成绩与专业课成绩、奖学金的获得次数等之间也有高相关性。 变量间的信息的高度重叠和高度的相关给统计方法的应用带来很多障碍。为了解决这些问题,最简单直接的解决方法是减少变量的数量,这必然引起信息丢失和不完整等问题。 因此,希望大幅度减少参与数据建模的变量的数量,同时寻找不丢失大量信息的更有效的解决方法。 主成分分析能如正式那样有效地降低变量维数,得到了广泛应用的分析方法。主成分分析是在最小限度的信息丢失的前提下,将许多固有变量整合为少数综合指标,通常综合指标(主成分)具有以下特征主要成分的个数远远少于原变量的个数当原始变量被集成到少数元素中时,元素可以参与数据建模而不是原始变量,从而大大减少了分析过程中的计算量。主成分可以反映原变量的大部分信息因子不是原变量的单纯取舍选择,而是原变量被重构的结果,因此,不会大量丢失原变量的信息,能够代表原变量的大部分信息。主要成分之间必须互相无关。主成分分析得到的新的综合指标(主成分)不相互关联,因子参与数据建模可以有效地解决给变量信息的叠加、多重共线性等分析应用带来的许多问题。主要成分有命名的说明也就是说,主成分分析法是一种多元统计分析法,研究用少量信息损失将多个固有变量浓缩成少数因子,使因子具有一定的命名说明的方法。二、基本原理主成分分析是数学上将数据二维化的一种方法。 其基本思想是将许多原始相关性指标X1、X2、XP (例如,p个指标)重组成少量不互相关的综合指标Fm来代替原始指标。 那么,综合指标应该如何提取,最大限度地反映以原变量Xp代表的信息,保证新的指标之间相互无关(信息不重叠)。当F1表示基于原变量的最初线性组合的主成分指标时,从数学知识可知,可以通过其方差来测量按每个主成分提取的信息量,该方差Var(F1 )越大,表示F1中包含的信息越多。 我常常希望在第一主要分量F1中包含的信息量最大,因此在所有线性组合之中选择的F1应该是X1,X2,XP的所有线性组合中方差最大,并且把F1称为第一主要分量。 在第一主成分不足表示原始p个指标的信息的情况下,考虑选择第二主成分指标F2,F1的现有信息不需要出现在F2中,即F2和F1是独立的,用数学语言表示其协方差Cov(F1、F2 ),以有效地反映原始信息。 F2把在与F1无关的X1、X2、XP的所有线性组合中方差最大的F2称为第二主分量,把这样构建的F1、F2、Fm设为原变量指标X1、X2、XP第一、第二、第m主分量。根据以上分析(1) Fi和Fj彼此无关,Cov(Fi,Fj)=0,其中存在var (fi )=aiai,并且是x的协方差矩阵(2)F1是在所有X1、X2、Xp的线性组合中方差最大的(系数满足上述要求),即,Fm是在所有与F1、F2、Fm-1无关的X1、X2、Xp的线性组合中方差最大的。F1、F2、Fm(mp )是结构的新变量指标,即原变量指标的第一、第二、第m个主要成分。以上分析表明,主成分分析法的主要任务有两个(1)针对原始变量XJ (j=1,2,p )的公式,即,系数(I=1,2,m; j=1、2、p )。 在数学上,可以证明原变量协方差矩阵的特征根是主成分的方差,所以前m个大的特征根表示前m个大的主成分方差的原变量协方差矩阵的上位m个大的特征量(这样,能够确保主成分的方差依次最大)所对应的特征向量成为对(2)计算反映主成分Fi和原变量Xj的相互关联度的主成分负荷三、主成分分析法的计算顺序主成分分析的具体步骤如下(1)计算协方差矩阵计算样本数据的协方差矩阵:=(sij)pp,其中I、j=1、2、p(2)求的特征量和与其对应的正交化单位特征向量前m个大的特征值l1l2lm0是与前m个主分量对应的方差,对应的单位特征向量是与主分量Fi的原变量相关的系数,原变量的第I个主分量Fi如下Fi=X主要成分的分散(信息)贡献率反映信息量的大小,因此如下(3)选择主要成分最后,在几个主要分量(即F1、F2、以及Fm )处的m的确定是通过方差(信息)累积贡献率G(m )来确定的累积贡献率超过85%,被认为能充分反映原变量的信息,对应的m是提取的前m个主成分。(4)计算主成分的负荷主成分的载荷反映了主成分Fi和原变量Xj的相互关联度,对原变量XJ (j=1,2,p )的各主成分fi (I=1,2,m )的载荷lij (I=1,2,m; j=1、2、p )。在用SPSS软件进行主成分分析后的分析结果中,“成分矩阵”对主成分载荷矩阵作出反应。(5)计算主成分得分计算样品相对于m个主要成分的分数I=1,2,m在实际应用中,指标的测纲往往不同,应在主成分计算前消除测纲的影响。 有许多方法来删除数据的维度,通常的方法是使原始数据标准化,即进行下述数据转换在其中根据数学式,任意随机变量进行归一化变换后,其协方差和其相关系数,即归一化的变量协方差矩阵就是其相关系数矩阵。 另一方面,从协方差的公式,可推定正规化后的协方差是原变量的相关系数,即正规化后的变量的协方差矩阵是原变量的相关系数矩阵。 也就是说,归一化前后变量的相关系数矩阵不变化。根据以上讨论,为了消除维度的影响,对变量进行标准化来计算其协方差矩阵是直接计算原变量的相关系数矩阵,因此主分量分析的实际通用计算过程如下计算相关系数矩阵求出相关系数矩阵的特征量和与其对应的正交化单位特征向量选择主要成分计算主成分得分总结:说明符合原指标相关系数矩阵的特征值li为主成分方差的贡献,方差的贡献率越大,该主成分反映综合信息的能力越强,可以从li的大小提取主成分。 每个主分量的组合系数(原变量对该主分量的载荷)是与对应的特征值li对应的单位特征向量。主成分分析法的计算步骤原始指标数据的标准化是p维随机向量x=(x1,X2,Xp)T)n个样本xi=(xi1,xi2,xip)T,I=1,2,nnp,构建样本数组,并将样本数组元素标准化转换如下其中,需要标准化排列z。2 .对归一化阵列z获得相关系数矩阵其中。3 .解采样相关矩阵r的特征方程,获得p个特征根,确定主成分在所确定的m值下,解方程Rb=jb得到每一个单位特征向量,使得信息的利用率在85%或更大。4 .将标准化指标变量转换为主要成分U1称为第一主成分,U2称为第二主成分,Up称为第p主成分。5 .综合评价m个主要成分m个主成分进行加权相加,得到最终的评价值,权重是每个主成分的分散贡献率。一、主成分分析的基本原理概念:主成分分析是一种将原多个变量分为少数综合指标的统计分析方法。 在数学上,这是一种降低维数的处理技术。构思:研究对象往往是多因素的复杂系统。 变量过多会增加分析问题的难度和复杂性,利用原变量间的相关关系,将原许多变量替换为少的新变量,这些少数变量尽可能地保持原许多变量反应的信息,那么问题就简单了。原理:假设有n个样本,每个样本共享p个变量,构成np个数据矩阵设原变量的指标为x1、x2、xp,设这些降维处理后的综合指标即新变量为z1、z2、z3、zm(mp )时系数lij的决定原则:zi和zj(ij; I、j=1、2、m )彼此无关z1是x1、x2、xP所有线性组合中方差最大的,z2是与z1无关的x1、x2、xP所有线性组合中方差最大的zm是z1、z2、与zm-1无关的x1、x2、xP所有线性组合中新变量指标z1、z2、zm分别被称为原始变量指标x1、x2、xP的第一、第二、第m主成分。根据以上分析,主成分分析的本质是对原始变量XJ (j=1,2,p )的各主成分zi (I=1,2,m )的载荷lij (I=1,2,m; j=1、2、p )。在数学上,证明了分别是与相关矩阵的m个大特征量相对应的特征向量。二、主成分分析的计算顺序1 .计算相关系数矩阵rij(i,j=1,2,p )是原变量xi和xj的相关系数,rij=rji,其计算公式为2 .计算特征量和特征向量求出特征方程式,用雅可比法(雅可比)求出特征值,按大小顺序排列求出与特征量对应的特征向量,求出请求=1、即这里表示向量的第j个分量。3 .计算主要成分贡献率和累积贡献率贡献率:累积贡献率:一般来说,累计贡献率达到85%-95%的特征值,对应的第一、第二、第m(mp )个主要成分。4 .计算主成分载荷5、各主成分得分三、主成分分析法在SPSS中的操作1 .指标数据的选择、收集和输入(表1 )2、显示analyze-data reduction-factoranalysis、factor analysis对话框3 .在“Variables”框中选择指标数据,在“descriptive s : correlation matrix”框组中选择“Coefficients”,单击“Continue”,然后单击“Factor Analysis”。注意:如果SPSS调用Factor Analyze过程进行分析,则SPSS会自动对原始数据进行标准化处理,因此得到计算结果的变量都是指标准化的变量,但SPSS不直接提供标准化的数据,在需要获得标准化的数据的情况下,则为descr表3显示,GDP和工业增值、第三产业增值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入几个指标有着极显着的关系,与海关输出总额有着显着的关系。 许多变量之间的直接相关性很强,证明有信息上的重复。主成分个数提取原则对应于主成分的特征值大于1的上位m个主成分。 特征量可以认为是表示主成分的影响力的大小一定程度的指标,但如果特征量小于1,则表示其主成分的解释力比直接导入1个原变量的平均解释力大,因此一般来说可以将特征量大于1的指标作为采用基准。 从表4 (分散分解主成分提取分析)中提取2个主成分,即m=2,从表5 (初始因子负荷矩阵)中可知GDP、工业附加价值、第三产业附加价值、固定资产投资、基本建设投资、社会消费品零售总额、海关输出总额、地方财政收入对第一主成分有高负荷, 发现第一主要成分基本反映了这些指标的信息人均GDP和农业附加值指标对第二主要成分有高负荷,第二主要成分基本反映了人均GDP和农业附加值指标的信息。 因此,提取两个主成分是基本上能够反映所有指标的信息,因此决定将原来的10个变量置换为两个新的变量。 但是,这两个新变量的表示不能直接从输出窗口获得。 “Component Matrix”是指初始因子的载荷矩阵,各载荷重量表示主成分和对应变量的相关系数。如果将表5 (主成分载荷矩阵)的数据除以与主成分对应的特征量的平方根,则得到与两个主成分各自的指标对应的系数。 在数据编辑窗口(变量B1、B2 )中输入初始系数载荷矩阵的两列数据,使用“TransformCompute Variable”,在“Compute Variable”对话框中输入“a1=B1/sqr (7.22 )” 类似地,可以获得特征向量a-2。 注:本例仅说明了用SPSS进行主成分分析的方法,所以在此不要对提取的主成分进行命名,感兴趣的读者可以自己命名。标准化:在analyzedescriptivestatisticsdescriptive s对话框中显示实现:的descriptive s对话框时,选择X1X10作为Variables框。 挂接到savestandardizedvaluesasvariables前面的框,然后单击“确定”,标准化数据将自动输入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论