




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
zf,主成分分析,2019/11/26,2cxt,主成分分析的重点,1、掌握什么是主成分分析?2、理解主成分分析的基本思想和几何意义?3、理解主成分求解方法:协方差矩阵与相关系数矩阵的差异?4、对结果进行正确分析,2019/11/26,3cxt,5.1主成分分析的基本思想,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,2019/11/26,4cxt,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。,2019/11/26,5cxt,主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。,2019/11/26,6cxt,主成分分析得到的主成分与原始变量之间的关系:1、主成分保留了原始变量绝大多数信息。2、主成分的个数大大少于原始变量的数目。3、各个主成分之间互不相关。4、每个主成分都是原始变量的线性组合。,2019/11/26,7cxt,主成分分析的运用:1、对一组内部相关的变量作简化的描述2、用来削减回归分析或群集分析(Cluster)中变量的数目,2019/11/26,8cxt,二、数学模型与几何解释数学模型,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,2019/11/26,9cxt,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,2019/11/26,10cxt,满足如下的条件:1、每个主成分的系数平方和为1。即2、主成分之间相互独立,即无重叠的信息。即3、主成分的方差依次递减,重要性依次递减,即F1、F2.Fp分别称为原变量的第一、第二.第p个主成分。,2019/11/26,11cxt,5.2数学模型与几何解释几何解释,为了方便,我们在二维空间中讨论主成分的几何意义:设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,2019/11/26,12cxt,如果我们将xl轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,2019/11/26,13cxt,平移、旋转坐标轴,2019/11/26,14cxt,平移、旋转坐标轴,2019/11/26,15cxt,平移、旋转坐标轴,2019/11/26,16cxt,根据旋转变换的公式:,2019/11/26,17cxt,旋转变换的目的:为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。(变量Fl代表了原始数据的绝大部分信息,在研究某问题时,即使不考虑变量F2也无损大局)。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,2019/11/26,18cxt,Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。,2019/11/26,19cxt,由此可概括出主成分分析的几何意义:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。,2019/11/26,20cxt,了解了主成分分析的基本思想、数学和几何意义后,问题的关键:1、如何进行主成分分析?(主成分分析的方法)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。2、如何确定主成分个数?主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。,2019/11/26,21cxt,主成分分析的目标:1、从相关的X1,X2,Xk,求出相互独立的新综合变量(主成分)Y1,Y2Yk。2、X与Y之间的计算关系是:如何求解主成分?,5.3总体主成分的求解及其性质,2019/11/26,22cxt,一、从协方差矩阵出发求解主成分(一)第一主成分:设X的协方差阵为x为非负定的对称阵,2019/11/26,23cxt,1,2,p为x的特征根,不妨假设12p。而U恰好是由特征根相对应的特征向量所组成的正交阵。,2019/11/26,24cxt,(二)第二主成分在约束条件下,寻找第二主成分,2019/11/26,25cxt,例:设的协方差矩阵为:从协方差矩阵出发,求解主成分()求协方差矩阵的特征根依据求解,2019/11/26,26cxt,()求特征根对应的特征向量,2019/11/26,27cxt,()主成分:()各主成分的贡献率及累计贡献率:第一主成分贡献率:第二主成分贡献率:第三主成分贡献率:,2019/11/26,28cxt,第一和第二主成分的累计贡献率:由此可将以前三元的问题降维为两维问题第一和第二主成分包含了以前变量的绝大部分信息.,2019/11/26,29cxt,从协方差矩阵出发求解主成分的步骤:1、求解各观测变量的协方差矩阵。2、由X的协方差阵x,求出其特征根,即解方程,可得特征根。3、求解可得各特征根对应的特征向量U1,U2,Up。其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量,2019/11/26,30cxt,4、计算累积贡献率,给出恰当的主成分个数。,2019/11/26,31cxt,二、由相关矩阵求解主成分当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的均值为0,方差为1。,2019/11/26,32cxt,数据标准化后,总体的协方差矩阵与总体的相关系数相等.,2019/11/26,33cxt,例:企业经济效益综合分析。用5个经济指标进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为:,2019/11/26,34cxt,(1)计算其特征值:(2)各特征值的累计方差贡献率为:(3)从以上方差贡献率看,k=2时主成分个数较为合适。对应的特征向量为:,2019/11/26,35cxt,(4)建立第一和第二主成分:,2019/11/26,36cxt,从相关系数矩阵出发求解主成分的步骤:1、标准化各观测变量数据。2、求解标准化各观测变量的相关系数矩阵。2、根据矩阵知识求解相关系数矩阵的特征根。3、求解各特征根对应的特征向量。其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量,2019/11/26,37cxt,三、主成分性质1,主成分的协方差阵为对角阵2、P个随机变量的总方差为协方差矩阵的所有特征根之和说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分总的方差之和等于p。,2019/11/26,38cxt,5.4样本主成分求解,变量X样本协方差为总体协方差的无偏估计相关矩阵R为总体相关矩阵的估计,2019/11/26,39cxt,若X已标准化,则可用相关矩阵代替协方差矩阵,2019/11/26,40cxt,2019/11/26,41cxt,为相关矩阵的特征值,2019/11/26,42cxt,将R的特征根依大小顺序排列其对应的特征向量记为U1,U2,Up说明y1有最大方差,y2有次大方差。,2019/11/26,43cxt,说明新的综合指标即主成分彼此不相关,2019/11/26,44cxt,样本主成分的性质:1、第K个主成分yk的系数向量是第K个特征根k所对应的标准化特征向量。2、第K个主成分的方差为第K个特征根k,且任意两个主成分都是不相关的,也就是y1,y2,yp的样本协方差矩阵是对角矩阵3、样本主成分的总方差等于原变量样本的总方差,为p4、第K个样本主成分与第j个变量样本之间的相关系数为:(因子载荷量),2019/11/26,45cxt,5.5主成分个数的确定以及主成分分析的实现,一、主成分个数的选取1.累积贡献率达到85%以上2.根据特征根的变化来确定数据标准化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论