


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、(完整word版)PCA的原理及详细步骤编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们 对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(完整word版)PCA的原 理及详细步骤)的内容能够给您的工作和学习带来便利。同时也真诚的希望收到您的建议和反馈, 这将是我们进步的源泉,前进的动力。本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以 下为(完整word版)PCA的原理及详细步骤的全部内容。一、基本原理主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的 具有一定相
2、关性的指标X1, X2,XP(比如D个指标),重新组合成一组较少个数 的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其 既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关 (信息不重叠)。设F1表示原变量的第一个线性组合所形成的主成分指标,即 人如乙+冬/:+如冷,由数学知识可知,每一个主成分所提取的信息量可用其方 差来度量,其方差Var (F1)越大,表示F1包含的信息越多.常常希望第一主成分 F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1, X2,,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代
3、 表原来P个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息, F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学 语言表达就是其协方差Cov(F1, F2)二0,所以F2是与F1不相关的X1, X2,, XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、 F2、Fm为原变量指标X1、X2XP第一、第二、第m个主成分。f;=6/I1X1+6/12X2+. + 1/,XpF? =+。22*2 + + SpXpJ 二厲“/ +ain2X2+. + allipXp根据以上分析得知:(1) Fi 与 Fj 互不相关,即 Cov (Fi,
4、 Fj) = 0,并有 Var(Fi)二 ai Xai,其中 工为X的协方差阵(2) F1是X1,X2,,Xp的一切线性组合(系数满足上述要求)中方差最大 的,即Fm是与F1, F2,,Fm-1都不相关的X1, X2,,XP的所有线性 组合中方差最大者.F1 , F2,,Fm(mp)为构造的新变量指标,即原变量指标的第一、第 二、第m个主成分.由以上分析可见,主成分分析法的主要任务有两点:(1 )确定各主成分Fi ( i=1, 2,,m)关于原变量Xj (j=1, 2,p)的 表达式,即系数呦(i=1, 2,; j=1,2 ,,p) o从数学上可以证明,原变 量协方差矩阵的特征根是主成分的方差
5、,所以前m个较大特征根就代表前m个较大 的主成分方差值;原变协方差矩阵前m个较大的特征值人(这样选取才能保证主 成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数,为 了加以限制,系数启用的是人对应的单位化的特征向量,即有川加二1o(2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量XJ之间的相互关二、主成分分析法的计算步骤主成分分析的具体步骤如下:(1)计算协方差矩阵计算样品数据的协方差矩阵:工二(Sij)p,P,其中(2)求出2的特征值人及相应的正交化单位特征向量,p工的前m个较大的特征值I卩123Im0,就是前m个主成分对应的方差,对应的单位特征向量就是主成分Fi的关
6、于原变量的系数,则原变量的第i个主成 分Fi为:Fi =X主成分的方差(信息)贡献率用来反映信息量的大小,为:m匕=人/ 22人(3)选择主成分最终要选择几个主成分,即F1, F2,Fm中m的确定是通过方差(信息) 累计贡献率G(m)来确定mpG伽)=亍&/亍心/-I z当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就 是抽取的前m个主成分.(4)计算主成分载荷主成分载荷是反映主成分Fi与原变量XJ之间的相互关联程度,原来变量Xj(j=1, 2,p)在诸主成分Fi (i=1, 2, m)上的荷载lij ( i=1,2, , m; j=1,2 ,p):I (Zj 旳)=頁5
7、 (j = 1,2,,也;J = 1,2,,/?)在SPSS软件中主成分分析后的分析结果中,“成分矩阵“反应的就是主成分载 荷矩阵。(5)计算主成分得分 计算样品在m个主成分上的得分:Fi=aliXi+a2iX2+. + apiXp.二2,,m实际应用时,指标的量纲往往不同,所以在主成分:计备之命应先消除量纲的影响。 消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:* _ xi-Xj曲=3、解样本相关矩阵R的特征方程I* 一入厶丿=。得p个特征根,确定主成分亍七 0.85按乙丿=1,勺确定m值使信息的利用率达85%以上,对每个入八j=1, 2,.o .m,解方r i?程
8、组处=入0得单位特征向量勺。4、将标准化后的指标变量转换为主成分U*j =称为第一主成分,仏 称为第二主成分、a 称为第p主成分。5、对m个主成分进行综合评价对m个主成分进行加权求和即得最终评价值,权数为每个主成分的方差贡献率。一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方 法。从数学角度来看,这是一种降维处理技术。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问 题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的 变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题 就简单化了.原理:假
9、定有n个样本,每个样本共有p个变量,构成一个nXp阶的数据矩阵,记原变量指标为UX2,心设它们降维处理后的综合指标,即新变量为 Zi, Z2, Z3,,Zm(mWp),贝Iz1=/11x1+/12x2 + -+/1/,xpz2=/21x1+/22x2 + -+/2/,xp弓”=/,”内+/沁尤2 + .-+/“沁.系数I jj的确定原则: 乙与Zj (i$j;i, j=1, 2,,m)相互无关; 乙是Xi, X2,,Xp的一切线性组合中方差最大者,Z2是与乙不相关的Xi, x2,Xp的所有线性组合中方差最大者;Zm是与Zl, Z2,Zmi都不相关的X.,X2,Xp ,的所有线性组合中方差最大者
10、。新变量指标Z, Z2,,Zm分别称为原变量指标Xi, X2,Xp的第1,第2, 第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量Xj(j=1, 2,: p) 在诸主成分乙(i=, 2,,m)上的荷载1订(i=1,2,,m; j=1, 2 ,, P)从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。 二、主成分分析的计算步骤仁计算相关系数矩阵G斤2R=忌忌如6如叽-(/, 7=1, 2,,Q)为原变量七与七的相关系数, 肯5 其计算公式为-耳)為-耳)r = ( 3 门n工(SY)近 _ 耳)22、计算特征值与辅征向量山解特征方程川胡“,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;P分别求出对应于特征値的特征问量1,2,L,p)阀要求 滸:議其中切 表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB23-T2846-2021-电子政务云平台服务管理规范-黑龙江省
- 医院卫生安全管理制度
- 电梯井加装方案(3篇)
- 土地合同清查方案(3篇)
- 商场租户安全管理制度
- 家具出租定价方案(3篇)
- 合作项目公司管理制度
- 建筑单位节税方案(3篇)
- 兽药电销公司管理制度
- 海码头-拆除方案(3篇)
- 16MWh储能电站项目建设计划与进度安排
- 2025-2030年中国蛭石市场发展前景及投资策略分析报告
- 2025年四川省成都市中考语文作文预测题及范文
- 2025版食堂承包食品安全责任协议3篇
- 2015-2019高考全国卷历史小论文真题(附答案)资料
- 舞蹈艺考合同范例
- 2024-2025学年广东省广州市高二下学期7月期末英语质量检测试题(含答案)
- 蒸压加气混凝土板检测原始记录表(含型式检验)
- 户口迁移的承诺书
- 宇宙科普知识单选题100道及答案解析
- 高空清洁服务合同
评论
0/150
提交评论