《主成分分析》PPT课件.ppt_第1页
《主成分分析》PPT课件.ppt_第2页
《主成分分析》PPT课件.ppt_第3页
《主成分分析》PPT课件.ppt_第4页
《主成分分析》PPT课件.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/6/10,第一章 主成分分析,2019/6/10,主成分分析的重点,1、掌握什么是主成分分析; 2、理解主成分分析的基本思想; 3、理解主成分求解方法:协方差矩阵与相 关系数矩阵的差异; 4、掌握运用数学软件求解主成分; 5、对软件输出结果进行正确分析.,2019/6/10,一、主成分分析的基本思想,主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。 主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。,2019/6/10,主成分分析得到的主成分与原始变量之间的关系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合。,2019/6/10,主成分分析的运用: 1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析(Cluster)中变量的数目 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定,2019/6/10,二、数学模型,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,2019/6/10,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,2019/6/10,满足如下的条件: 1、每个主成分的系数平方和为1。即 2、主成分之间相互独立,即无重叠的信息。即 3、主成分的方差依次递减,重要性依次递减,即 F1,F2,Fp分别称为原变量的第一、第二、第p个主成分。,2019/6/10,了解了主成分分析的基本思想、数学模型后,问题的关键: 1、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 2、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 3、如何解释主成分所包含的经济意义?,2019/6/10,四、总体主成分的求解及其性质,矩阵知识回顾: (1)特征根与特征向量 A、若对任意的k阶方阵C,有数字 与向量 满足: ,则称 为C的特征根, 为C的相应于 的特征向量。 B、同时,方阵C的特征根 是k阶方程 的根。 (2)任一k阶方阵C的特征根 的性质:,2019/6/10,(3)任一k阶的实对称矩阵C的性质: A、实对称矩阵C的非零特征根的数目C的秩 B、k阶的实对称矩阵存在k个实特征根 C、实对称矩阵的不同特征根的特征向量是正交的 D、若 是实对称矩阵C的单位特征向量,则 若矩阵 ,是由特征向量 所构成的,则有:,2019/6/10,主成分分析的目标: 1、从相关的X1, X2,Xk ,求出相互独立的新综合变量(主成分)Y1,Y2 ,Yk。 2、Y(Y1,Y2,Yk)所反映信息的含量无遗漏或损失的指标方差,等于X(X1,X2,Xk)的方差 。 X与Y之间的计算关系是: 如何求解主成分?,2019/6/10,一、从协方差矩阵出发求解主成分 (一)第一主成分: 设X的协方差阵为 由于x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得,2019/6/10,其中1 , 2 , ,p为X的特征根,不妨假设1 2 p 。而U恰好是由特征根相对应的特征向量所组成的正交阵。 下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。,2019/6/10,证明:设有P维正交向量,2019/6/10,当且仅当a1 =u1时,即 时,有最大的方差1。因为Var(F1)=U1xU1=1。 如果第一主成分的信息不够,则需要寻找第二主成分。,2019/6/10,(二) 第二主成分 在约束条件 下,寻找第二主成分 因为 所以 则,对p维向量 ,有,2019/6/10,所以如果取线性变换: 则 的方差次大。 类推,2019/6/10,写为矩阵形式:,2019/6/10,例:设 的协方差矩阵为: 从协方差矩阵出发,求解主成分 ()求协方差矩阵的特征根 依据 求解,2019/6/10,()求特征根对应的特征向量,2019/6/10,()主成分: ()各主成分的贡献率及累计贡献率: 第一主成分贡献率: 第二主成分贡献率: 第三主成分贡献率:,2019/6/10,第一和第二主成分的累计贡献率: 由此可将以前三元的问题降维为两维问题第一和 第二主成分包含了以前变量的绝大部分信息97.875%,2019/6/10,从协方差矩阵出发求解主成分的步骤: 1、求解各观测变量 的协方差矩阵。 2、由X的协方差阵,求出其特征根,即解方程 ,可得特征根 。 3、求解 可得各特征根对应的特征向量U1, U2,Up 。 其中最大特征根的特征向量对应第一主成分的系数向 量;第二大特征根对应的特征向量是第二大主成分的系 数向量,2019/6/10,4、计算累积贡献率,给出恰当的主成分个数。 5、计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。 6、对结果进行正确分析和合理解释.,2019/6/10,二、由相关矩阵求解主成分 当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的均值为0,方差为1。,2019/6/10,数据标准化后,总体的协方差矩阵与总体的相 关系数相等.,2019/6/10,主成分与原始变量的关系式为:,2019/6/10,从相关系数矩阵出发求解主成分的步骤: 1、标准化各观测变量数据。 2、求解标准化各观测变量的相关系数矩阵。 2、根据矩阵知识 求解相关系数矩阵的特征根。 3、求解各特征根对应的特征向量。 其中最大特征根的特征向量对应第一主成分的系数向 量;第二大特征根对应的特征向量是第二大主成分的系 数向量,2019/6/10,三、主成分性质 1、主成分的协方差阵为对角阵 2、p个随机变量的总方差为协方差矩阵的所有 特征根之和 说明主成分分析把p个随机变量的总方差分解 成为p个不相关的随机变量的方差之和。 当进行相关系数矩阵求解主成分,各变量标准化 后,则p个主成分总的方差之和等于p 。,2019/6/10,3、贡献率: 第i个主成分的方差在全部方差中所占比重 称为贡献率,反映了原来p个指标多大的信息,有多大 的综合能力。 4、累积贡献率: 前k个主成分共有多大的综合能力,用这k个主成分 的方差和在全部方差中所占比重 来描述,称为累积贡献率。,2019/6/10,5.原始变量与主成分之间的相关系数(因子负荷量) 和 的相关密切程度与对应线性组合系数向量成正比,与主成分标准差成正比,与原始变量 的标准差成反比。 当原始变量标准化后,标准化变量与主成分的相关关系:,2019/6/10,五、样本主成分求解,变量X 样本协方差为总体协方差的无偏估计 相关矩阵R为总体相关矩阵的估计,2019/6/10,若X已标准化,则可用相关矩阵代替协方差矩阵,2019/6/10,2019/6/10,为相关矩阵的特征值,2019/6/10,将R的特征根依大小顺序排列 其对应的特征向量记为U1,U2,Un 说明y1有最大方差,y2有次大方差,2019/6/10,说明新的综合指标即主成分彼此不相关,2019/6/10,样本主成分的性质: 1、第K个主成分yk的系数向量是第K个特征根k所对应的标准化特征向量。 2、第K个主成分的方差为第K个特征根k,且任意两个主成分都是不相关的,也就是y1,y2,yp的样本协方差矩阵是对角矩阵 3、样本主成分的总方差等于原变量样本的总方差,为p 4、第K个样本主成分与第j个变量样本之间的相关系数为: (因子载荷量),2019/6/10,六、主成分个数的确定以及主成分分析的实现,一、主成分个数的选取 1.累积贡献率达到85%以上 2.根据特征根的变化来确定 数据标准化情况下: 3.作碎石图 描述特征值的贡献,2019/6/10,二、主成分分析的步骤 1、根据研究问题选取初始分析变量; 2、根据初始变量特性判断用协方差矩阵求主成分还是用相关矩阵求主成分;(量纲不一致则将原始数据进行标准化处理用相关矩阵求主成分) 3、求协方差矩阵或相关矩阵的特征根与相应的特征向量; 4、判断是否存在明显的多重共线性,若存在,返回至第1步; 5、得到主成分表达式并确定主成分个数,依据方差贡献率选取主成分; 6、对主成分作出合理解释,并结合其他研究法对研究问题进行深入分析。,2019/6/10,Matlab里的主成分分析函数,1.princomp 功能:主成分分析 格式:PC=princomp(X) PC,SCORE,latent,tsquare=princomp(X) 说明:PC,SCORE,latent,tsquare=princomp(X)对数据矩阵X进行主成分分析,给出各主成分(PC)、所谓的Z-得分(SCORE)、X的方差矩阵的特征值(latent)和每个数据点的HotellingT2统计量(tsquare)。,2019/6/10,2.pcacov 功能:运用协方差矩阵进行主成分分析 格式:PC=pcacov(X) PC,latent,explained=pcacov(X) 说明:PC,latent,explained=pcacov(X)通过协方差矩阵X进行主成分分析,返回主成分(PC)、协方差矩阵X的特征值(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)。,3.pcares 功能:主成分分析的残差 格式:residuals=pcares(X,ndim) 说明:pcares(X,ndim)返回保留X的ndim个主成分所获的残差。注意,ndim是一个标量,必须小于X的列数。而且,X是数据矩阵,而不是协方差矩阵。,2019/6/10,4.barttest 功能:主成分的巴特力特检验 格式:ndim=barttest(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论