




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、§8 主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。设有个样品,个变量(指标)的数据矩阵 寻找个新变量,使得1、2、彼此不相关 这便是主成分分析。主成分的系数向量的分量刻划出第个变量关于第个主成分的重要性。 可以证明
2、,若为维随机向量,它的协方差矩阵的个特征值为,相应的标准正交化的特征向量为,则的第主成分为。称为主成分的贡献率,为主成分的累计贡献率,它表达了前个主成分中包含原变量的信息量大小,通常取使累计贡献率在85%以上即可。当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。计算步骤如下:1、由已知的原始数据矩阵计算样本均值向量; 其中2、计算样本协方差矩阵其中3、把原始数据标准化,即,记。形成样本相关矩阵;4、求的特征根及相应的标准正交化的特征向量,可得主成分为。 关于主成分的实际
3、意义,要结合具体问题和相关的专业知识才能给出合理的解释。例1 下表是10名初中男学生的身高(),胸围(),体重()的数据,试进行主成分分析。身高()/cm胸围()/cm体重()/kg149.569.538.5162.577.055.5162.778.550.8162.287.565.5156.574.549.0156.174.545.5172.076.551.0173.281.559.5159.574.543.5157.779.053.5 由表中数据计算得到 解出的三个特征值和相应的三个标准正交化的特征向量为 , , 由于三个主成分的贡献率分别为 当保留前两个主成分时,累计贡献率已达98.86
4、%,因此第三个主成分可以舍去。得到的前两个样本主成分的表达式为 现在我们来解释这两个主成分的意义,从的表达式可以看出,是身高、胸围、体重三个变量的加权和,当一个学生的数值较大时,可以推断其或较高或较胖或又高又胖,故是反映学生身材魁梧与否的综合指标。的表达式中系数的符号为一正()两负(,),当一个学生的数值较大时,表明其大,而,小,即为瘦高个,故是反映学生体形特征的综合指标。 需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析,但这往往并不意味着分析问题的结束。主成分分析本身往往并不是最终目的,而只是达到某种目的的一种手段。很多情况下,主成分分析只是作为对原问题进行统计
5、分析的中间步骤,目的是利用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效果。例如,利用主成分变量作回归分析、判别分析、聚类分析等等。下面再举一个利用主成分进行样品排序的例子。例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。其中资金利税率(%)固定资产利税率(%)流动资金利税率(%)全员利税率(%)成本利税率(%)流动资金周转天数厂序 经济效益排序值123456789101112131415 69.87 269.10 94.38 115.74 23.85 74 66.31 260.00 89.01 93.30 40.09 80 67.26 272.54 89.29 78
6、.90 26.70 84 68.46 250.18 94.24 76.87 24.98 18 39.45 146.17 54.04 90.95 17.46 109 24.82 116.86 31.51 81.59 10.42 11730.21 73.60 51.23 39.52 31.06 22731.24 168.31 38.37 62.16 14.29 12923.29 109.42 29.59 29.67 8.23 9923.10 92.41 30.80 43.57 12.48 13618.95 57.63 28.24 21.91 17.23 231 8.65 21.71 14.35 9
7、.63 8.26 177 5.10 27.27 6.38 8.60 6.46 239 4.66 18.42 6.24 8.59 4.54 231 1.92 9.28 2.42 3.33 9.67 135(1)(2)(3)(4)(5)(6)(8)(7)(9)(10)(11)(12)(13)(15)(14)0.7850.7270.6720.6340.2060.029-0.083-0.050-0.170-0.196-0.32-0.51-0.55-0.66-0.64按照上述步骤,可以计算出样本相关矩阵为 的特征根及相应的标准正交化的特征向量分别为特征向量累计贡献率(%)5.03900.62300.10
8、300.10300.02600.00040.441 0.437 0.436 0.410 0.359 -0.3580.083 -0.092 0.175 -0.184 0.667 0.678 0.013 0.057 -0.006 0.737 -0.360 0.568-0.364 -0.401 -0.347 0.501 0.502 -0.285 0.177 -0.757 0.554 0.050 -0.170 -0.0950.796 -0.243 -0.551 -0.002 -0.003 0.00683.794.597.599.599.9100第一个主成分为此主成分主要反映前四个经济指标的效果,因为其系数之值比较接近,它们几乎以一样的重要性综合说明了各厂的经济效益。第二个主成分为此主成分主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业生物技术研发及应用推广合同书
- 软件设计类合同协议
- 遗产放弃协议书范本
- 农业合作社种植与养殖一体化协议
- 运动馆经营合同协议
- 文员劳动用工合同
- 网络舆情监测与应对措施制定指南
- 音乐史与音乐欣赏能力测试
- 婚姻抚养费协议书
- 灯具维修协议书
- 2025年医保知识考试题库:医保基金监管案例及答案解析试卷
- 2024年湖南省普通高中学业水平合格性考试历史试题(原卷版+解析版)
- 《建设工程施工合同(示范文本)》(GF-2017-0201)条款
- 新版人教版七年级下册地理课件 第九章 东半球其他的地区和国家 第四节 澳大利亚
- 《水门事件简介》课件
- 《建筑CAD 》课程标准
- 《抖音竞品分析》课件
- 医院药学 课件全套 陈菲 模块1-12 医院药学认知-临床药学进展
- 医保知识及政策培训课件
- 印染行业安全培训
- 2024年中考二轮专题复习道德与法治主观题答题技巧(小论文)之演讲稿
评论
0/150
提交评论