统计学-多元统计分析ppt课件_第1页
统计学-多元统计分析ppt课件_第2页
统计学-多元统计分析ppt课件_第3页
统计学-多元统计分析ppt课件_第4页
统计学-多元统计分析ppt课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,南京财经大学统计学系,第十章多元统计分析,.,2,本章内容,第一节主成分分析一、基本思想二、数学模型三、模型的求解四、主成分的性质五、基本步骤与应用实例第二节因子分析一、基本思想二、数学模型三、因子载荷矩阵的统计含义四、因子的求解五、因子得分六、基本步骤与应用实例第三节聚类分析一、基本思想二、统计量三、分类方法四、基本步骤与应用实例第四节判别分析一、基本思想二、基本方法三、判别效果的评价四、基本步骤与应用实例,.,3,基本思想,主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。,二维空间多维空间,.,4,数学模型,旋转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究问题时,即使不考虑变量y2也损失不多的信息。y1与y2除起了浓缩作用外,还具有不相关性。y1称为第一主成分,y2称为第二主成分。,x1,y1,x2,y2,.,5,数学模型,.,6,如果系数uij满足;而且系数uij的确使yi、与yj(ij)相互无关,并使y1是x1,x2,xp的一切线性组合中方差最大者,y2是与y1不相关的x1,x2,xp的所有线性组合中方差最大者,yp是与y1,y2,,yp-1都不相关的x1,x2,xp的所有线性组合中方差最大者,则称y1,y2,yp为原变量的第一,第二,,第p主成分。,数学模型,.,7,模型的求解,在应用主成分分析研究问题时,通常先将数据标准化,以消除量纲对结果的影响。标准化的常用公式为:,为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。(可以证明,变量x1,x2,xp标准化以后,其协方差矩阵S与相关系数矩阵R相等。),.,8,主成分的性质,性质1:第k个主成分yk的系数向量是第k个特征根k所对应的标准化特征向量Uk。性质2:第k个主成分的方差为第k个特征根k,且任意两个主成分都是不相关的,也就是主成分y1,y2,yp的样本协方差矩阵是对角矩阵。,.,9,主成分的性质,性质3:样本主成分的总方差等于原变量样本的总方差。性质4:第k个样本主成分与第j个变量样本之间的相关系数为:该相关系数又称为因子载荷量。主成分个数的选取,.,10,基本步骤,(1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用,.,11,应用实例,【例10.1】我国2006年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表10.1,对各地区经济效益作出分析。,.,12,操作,.,13,.,14,基本思想,因子分析的基本思想是通过对变量相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个潜在随机变量去描述多个显在随机变量之间的相关关系,换句话说,因子分析是把每个可观测的原始变量分解为两部分因素,一部分是由所有变量共同具有少数几个公共因子构成的,另一部分是每个原始变量独自具有的,即特殊因子部分,对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。,.,15,数学模型,符号与假定设有n个样本,每个样本观测p个变量,记:原始变量矩阵为X:,公共因子变量矩阵为F:,特殊因子矩阵为E:,.,16,数学模型,假定因子模型具有以下性质:1.E(x)=0,cov(x)=2.E(F)=0,cov(F)=I3.E(E)=0,cov(e)=diag(12,22,p2)4.Cov(F,E)=0,.,17,数学模型,若用矩阵形式表示,则为:X=AF+E,式中的A,称为因子载荷矩阵,并且称aij为第i个变量在第j个公共因子上的载荷,反映了第i个变量在第j个公共因子上的相对重要性。,.,18,因子载荷的统计含义,可以证明因子载荷aij为第i个变量xi与第j个公共因子Fj的相关系数,即反映了变量与公共因子的关系密切程度,aij越大,表明公共因子Fj与变量xi的线性关系越密切。,变量共同度公共因子的方差贡献,.,19,因子的求解,设相关系数矩阵的特征根为12p,相应的特征向量为U1,U2,Up,设由列向量构成的矩阵有A表示,即A=,一般来说,公共因子的个数q要小于等于变量的个数p,.,20,因子得分,估计因子得分函数的常用方法是回归法,因子的得分估计为:,.,21,基本步骤,1.用公式对原始数据标准化2.建立相关系数矩阵R3.根据及求R的单位特征根与特征向量U;4.根据求因子载荷矩阵A;5.写出因子模型X=AF+E,.,22,应用实例,【例10.2】仍以我国2006年各地区全部国有及规模以上非国有工业企业主要经济效益指标作为研究对象,试求:(1)正交因子模型;(2)各个变量的共同度以及特殊因子方差;(3)每个因子的方差贡献率以及三个因子的累计方差贡献率;(4)说明三个因子的意义。,.,23,.,24,基本思想,其基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或变量)聚合为一类,把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整个分类系统画成一张图,将亲疏关系表示出来。,.,25,统计量,聚类分析可以分为Q型聚类和R型聚类两种,Q型聚类是指对样本进行分类,R型聚类是指对变量进行分类。通常Q型聚类采用距离统计量,R型聚类采用相似系数统计量,.,26,分类方法(系统聚类法),分类的形成类与类间的距离,.,27,基本步骤,1、先对数据进行变换处理,消除量纲对数据的影响;2、认为各样本点自成一类(即n个样本点一共有n类),然后计算各样本点之间的距离,并将距离最近的两个样本点并成一类;3、选择并计算类与类之间的距离,并将距离最近的两类合并;4、重复上面作法直至所有样本点归为所需类数为止;5、最后绘制聚类图。,.,28,应用实例,【例10.3】为了研究2006年我国部分地区工业企业经济效益的分布规律,根据调查资料做类型划分。,.,29,.,30,基本思想,判别分析是在已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类的分析方法。判别分析方法在处理问题时,通常要给出一个衡量新样本与已知组别接近程度的描述指标,即判别函数,同时也指定一种判别规则,用以判定新样本的归属。,.,31,基本方法,距离判别费歇尔判别贝叶斯判别,.,32,判别效果的评价,每次从已知类别的样本中剔除一个样本点,用剩余的样本建立判别函数,然后用这一判别函数去判别被剔除的样本;依此类推,直到所有已知类别的样本都被判别过。记下所有被错判的样本,计算出每个总体中的错判率和总的错判率,根据错判率的大小来衡量判别效果。,.,33,基本步骤,1.计算判别函数;2.检验判别效果;3.根据判别函数对待判样本进行判别所属类别。,.,34,应用实例,【例10.4】13个地区按经济效益已分为两大类,若又取得三个地区(山东、河南、湖北)的资料,试对其进行判别分析。,.,35,.,36,二维空间,以两个指标为例,信息总量以总方差表示:,其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1来分析问题,起到了降维的作用。,.,37,多维空间,推而广之,第一主成分y1的方差达到最大,其方差越大,表示其所包含的信息越多。如果第一主成分还不能反映原指标的全部信息,再考虑选取第二主成分y2,y2在剩余的线性组合中方差最大,并且与y1不相关,如若第一、第二主成分仍然不能反映原变量的全部信息,再考虑选取第三主成分y3,y3在剩余的线性组合中方差最大,并且与y1、y2不相关,依此可求出全部p个主成分,它们的方差是依次递减的。在实际工作中,在不损失较多信息的情况下,通常选取前几个主成分来进行分析,达到简化数据结构的目的。,.,38,主成分个数的选取,1.累积贡献率达到85%以上2.根据特征根的变化来确定,.,39,变量共同度,因子载荷矩阵中各行元素的平方和:,称为变量x1,x2,xp的共同度。它表示q个公共因子F1,F2,Fq对变量xi的方差贡献,变量共同度的最大值为1,值越接近于1,说明该变量所包含的原始信息被公共因子所解释的部分越大,用q个公共因子描述变量xi就越有效;而当值接近于0时,说明公共因子对变量的影响很小,主要由特殊因子来描述。,.,40,公共因子的方差贡献,因子载荷矩阵中各列元素的平方和:,称为公共因子F1,F2,Fq的方差贡献。它与p个变量的总方差之比为:是衡量各个公共因子相对重要程度的一个指标。方差贡献率越大,该因子就越重要。,.,41,距离,设有n个样本,每个样本观测p个变量,数据结构为,绝对距离:欧氏距离:切比雪夫距离:马氏距离:,.,42,相似系数,夹角余弦:相关系数:,.,43,分类的形成,先将所有的样本各自算作一类,将最近的两个样本点首先聚类,再将这个类和其他类中最靠近的结合,这样继续合并,直到所有的样本合并为一类为止。若在聚类过程中,距离的最小值不唯一,则将相关的类同时进行合并。,.,44,类与类间距离,设两个类,分别为n1和n2个样本,最短距离法:最长距离法:重心法:两类的重心分别为,则类平均法:离差平方和法:首先将所有的样本自成为一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使整个类内离差平方和增加最小的两类合并,直到所有的样本归为一类为止。,.,45,距离判别,距离判别法的基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。,判别函数为:W(x)=D(x,G2)-D(x,G1)判别准则为:,.,46,费歇尔判别,费歇尔判别法的基本思想是通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。所谓的投影实际上是利用方差分析的思想构造也一个或几个超平面,使得两组间的差别最大,每组内的差别最小。,费歇尔判别函数为:,其判别准则是:,将两类均值及待判

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论