主成分分析计算方法和步骤_第1页
主成分分析计算方法和步骤_第2页
主成分分析计算方法和步骤_第3页
主成分分析计算方法和步骤_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析计算方法和步骤:在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。主成分分析的应用目的可以简单地归结为:数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标, 并且对综合指标所包含的信息给予适当的解释,从而更加深刻地揭示事物的内在规律。主成分分析的基本步骤分为:对原始指标

2、进行标准化,以消除变量在数量极或量纲上的影响;根据标准化后的数据矩阵求出相关系数矩阵 R;求出 R 矩阵的特征根和特征向量;确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;合成主成分,得到综合评价值。结合数据进行分析本题分析的是全国各个省市高校绩效评价,利用全国 2014 年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表 5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高, 到达了 0.963,而各组成

3、成分之间的相关性都很高,这也充分说明了主成分分析的必要性。表 5-6 相关系数矩阵本科院校数招生人数教育经费投入相关性师生比0.2790.3290.252重点高校数0.3450.2040.310教工人数0.9630.9540.896本科院校数1.0000.9380.881招生人数0.9381.0000.893教育经费投入0.8810.8931.000师生比重点高校数教工人数相关性师生比1.000-0.2180.208重点高校数-0.2181.0000.433教工人数0.2080.4331.000本科院校数0.2790.3450.963招生人数0.3290.2040.954教育经费投入(元)0.

4、2520.3100.896表 5-7 给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于 1,因为,如果特征根小于 1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于 85%如果这两个标准不能同时符合要求, 则往往是因为选择的指标不合理或者样本容量太小,应继续调整。表 5-7 还显示,只有前 2 个特征根大于 1,因此 SPSSR 提取了前两个主成分,而这两个主成分的方差贡献率达到了 87.081%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。表 5-7 方差贡献率以及累计贡献率元件起始特征值提

5、取平方和载入合计方差的贡献率%累加贝献率%合计方差的贡献率%累加贡献率%13.98366.39066.3903.98366.39066.390121.24120.69187.0811.24120.69187.081130.5719.50896.589.5719.50896.589140.1402.33598.925.1402.33598.925150.0520.86999.794.0520.86999.794160.0120.206100.000.0120.206100.000表 5-8 为输出的主成分系数矩阵,可以说明各主成分在各变量上的载荷。由表 5-8可以看出标准化后的第一主成分(简称

6、E)对所有变量都有载荷,且载荷绝对值几乎都在 0.7 以上,因此可以说第一主成分是对人口结构的度量,代表了一个地区人口结构状况,可以称之为“综合因子”。在综合因子中,平均每户人口,农业与非农业人口比例,人口的自然增长率比重即人口自然增长各指标具有较强的作用,人与经济等其他指标所起的作用次之,男女比例也起一定作用。第二主成分(简称 F2)对重点高校数和教工人数具有负载荷,其他变量具有正载荷,并且除师生比和重点高校数载荷绝对值均小于 0.2,有的甚至接近于 0.1。因此,第二个主成分只是汇集了第一主成分遗漏的部分信息,我们称之为“辅助因子”。表 5-8 主成分矩阵成分F1F2师生比0.3170.7

7、99重点高校数0.396-0.759教工人数0.984-0.095本科院校数0.9730.005招生人数0.9640.131教育经费投0.9390.011入表 5-9 主成分评分系数矩阵成分F1F2师生比.079.643重点高校数.099-.612教工人数.247-.077本科院校数.244.004招生人数.242.106教育经费投.236.009入根据表 5-9 可以得到各主成分的表达式F1=0.07 氏 0.099x20.247x30.244x40.242x50.236x6F2-0.643x1-0.612x2-0.077x30.004x40.106%0.009x6把变量分别代入以上表达式,

8、可以得出 Fi和 F2两个主成分得分,但单独一个主成分不能很好地评价十个地区人口结构的情况,因此需要按照各主成分对应的方工用如斗眉物斗警”人公斗匚/l0.6639Fi0.20691F2差贝献率为权数计算综合统计 F,(F=)0.87081主成分分析法的优点:1、可消除评价指标之间的相关影响因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标之间相关程度越高,主成分分析效果越好。2、可减少指标选择的工作量对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。3、当评级指标较

9、多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分, 只取前后方差较大的几个主成分来代表原变量, 从而减少了计算工作量。4、在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。5、这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件主成分分析法的缺点:1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论