应用多元统计分析 北大版 第六章_第1页
应用多元统计分析 北大版 第六章_第2页
应用多元统计分析 北大版 第六章_第3页
应用多元统计分析 北大版 第六章_第4页
应用多元统计分析 北大版 第六章_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,应用多元统计分析,第六章聚类分析,2,第六章聚类分析目录,6.1聚类分析的方法6.2距离与相似系数6.3系统聚类法6.4系统聚类法的性质及类的确定6.5动态聚类法6.6有序样品聚类法(最优分割法)6.7变量聚类方法补充:CLUSTER过程简介,3,第六章6.1聚类分析的方法什么是聚类分析,聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法.所谓的“类”,通俗地说就是相似元素的集合.聚类分析是按照观测样品(或变量)取值的相似程度,对观测样品(或变量)进行分类,使在同一类内的观测样品(或变量)是相似的,不同类间的观测(或变量)是不相似的.什么是分类?它只不过是将一个观测对象指定到某一类(组).,4,第六章6.1聚类分析的方法什么是聚类分析,分类的问题可以分成两种:一种是对当前所研究的问题已知它的类别数目,且知道各类的特征(如分布规律,或知道来自各类的训练样本),我们的目的是要将另一些未知类别的个体正确归属于其中某一类,这是第五章判别分析所要解决的问题.另一种是事先不知道研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的量,确定分类数目,建立一种分类方法,并按亲近程度对观测对象给出合理的分类.这种问题在实际中大量存在,它正是聚类分析所要解决的问题.,5,第六章6.1聚类分析的方法什么是聚类分析,聚类分析是实用多元统计分析的一个新的分支,正处于发展阶段,理论上虽不很完善,但由于它能够解决许多实际问题,因此这个方法很受人们的重视,特别是和其他方法联合起来使用往往效果更好.例如对一批观测对象先用聚类分析进行分类,然后用判别分析的方法建立判别准则,用以对新的观测对象判别归类.,6,第六章6.1聚类分析的方法,聚类分析的方法可分为以下几种:(1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对象归为一类为止.并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法);(3)最优分割法(有序样品聚类法);(4)模糊聚类法;(5)图论聚类法;(6)聚类预报法.,7,第六章6.1聚类分析的方法聚类分析的类型及目的,聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理.R型聚类分析的目的有以下方面:了解变量间及变量组合间的亲疏关系;对变量进行分类;根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为典型变量,利用少数几个典型变量进一步作分析计算,如进行回归分析或Q型聚类分析等.,8,第六章6.1聚类分析的方法Q型聚类分析的目的,Q型聚类分析的目的主要是对样品进行分类.分类的结果是直观的,且比传统分类方法更细致、全面、合理.当然使用不同的分类方法通常会得到不同的分类结果.对任何观测数据都没有唯一“正确的”的分类方法.实际应用中,常采用不同的分类方法,对数据进行分析计算,以便对分类提供意见,并由实际工作者决定所需要的分类数及分类情况.本章重点介绍应用最广泛的系统聚类法;且主要讨论Q型聚类分析问题.,9,第六章6.2距离与相似系数,为了对观测样品(或变量)进行分类,就必须研究它们之间的关系.描述样品之间亲疏相似程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量的定义与变量的类型密切相关,我们首先介绍变量的类型.,10,第六章6.2距离与相似系数定量变量和定性(属性)变量,定量变量就是我们通常所说的连续变量,例如长度、重量、产量、人口、温度等,它们是由测量或计数、统计所得到的量,这类变量具有数值特征,称为定量变量.,根据变量取值的不同,变量可分为两大类:定量变量和定性(属性)变量.,11,第六章6.2距离与相似系数定量变量和定性(属性)变量,定性(属性)变量只有性质上的差异,例如天气(阴、晴),性别(男、女),产品质量分为上中下三个等级.这些变量都是属性(定性)变量.属性变量又分为名义变量和有序变量二种:(1)有序变量:其值有明确的逻辑次序,但各个值之间的距离并不清楚.(2)名义变量:其值之间无逻辑次序,可按任何次序排序编码.例如性别,职业,地区,都是名义变量.不同类型的变量在定义距离或相似性测度时有很大差异.,12,第六章6.2距离与相似系数数据的变换方法,设有n个样品,每个样品测得m项指标(变量),得观测数据xij(i=1,n,j=1,m).通常将数据列成以下表格的形式.,13,第六章6.2距离与相似系数数据的变换方法,1.中心化变换变换后数据的均值为0,而协差阵不变.2.标准化变换变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据x*ij与变量的量纲无关.3.极差标准化变换变换后的数据,每个变量的样本均值为0,极差为1,变换后的数据也是无量纲的量.,14,第六章6.2距离与相似系数数据的变换方法,4.极差正规化变换(规格化变换)变换后的数据0x*ij1;极差为1,也是无量纲的量.5.对数变换它可将具有指数特征的数据结构化为线性数据结构.,15,第六章6.2距离与相似系数样品间的距离,描述样品间的亲疏程度最常用的是距离.n个样品看成m维空间中的n个点,用dij表示样品X(i)和X(j)之间的距离,一般要求:dij0,对一切i,j;当dij=0X(i)=X(j);dij=dji,对一切i,j;dijdik+dkj,对一切i,j,k(三角不等式).,X(k),X(i),X(j),16,第六章6.2距离与相似系数样品间的距离,1.闵科夫斯基(Minkowski)距离当q=1时的一阶Minkowski度量就称为绝对值距离.,17,第六章6.2距离与相似系数样品间的距离,当q=时的Minkowski度量称为切比雪夫距离.,当q=2时的二阶Minkowski度量称为欧氏距离.欧氏距离是聚类分析中用得最广泛的距离.,18,第六章6.2距离与相似系数样品间的距离,缺点:(1)与各变量的量纲有关;(2)没有考虑指标间的相关性;(3)没有考虑各变量方差的不同.如欧氏距离,变差大的变量在距离中的作用(贡献)就会大,这是不合适的.合理的方法就是对各变量加权,如用1/s2作为权数可得出“统计距离”:,19,第六章6.2距离与相似系数样品间的距离,对n个样品计算两两间的距离dij后,可排成矩阵D,d11d12.d1nd21d22.d2nD=.dn1dn2.dnn,nn,dij值越小,表示两个样品越接近,dij值越大,表示两个样品越不相近.,20,第六章6.2距离与相似系数样品间的距离,2.兰氏距离(要求xij0)这是由Lance和Williams最早提出的,故称为兰氏距离.这是一个无量纲的量.克服了闵氏距离与各指标的量纲有关的缺点.且兰氏距离对大的奇异值不敏感,这样使得它特别适合高度偏倚的数据.但兰氏距离也没有考虑变量间的相关性.,21,第六章6.2距离与相似系数样品间的距离,3.马氏距离(Mahalanobis),马氏距离既排除了变量间相关性的干扰,而且还不受各项指标量纲的影响.另马氏对线性变换具有不变性.,22,第六章6.2距离与相似系数样品间的距离,马氏距离虽然可以排除变量之间相关性的干扰,并且不受量纲的影响,但是在聚类分析处理之前,如果用全部数据计算均值和协差阵来求马氏距离,效果不是很好.比较合理的办法是用各个类的样本来计算各自的协差阵,同一类样品间的马氏距离应当用这一类的协差阵来计算,但类的形成都要依赖于样品间的距离,而样品间合理的马氏距离又依赖于类,这就形成了一个恶性循环,因此在实际聚类分析中,马氏距离也不是理想的距离.,23,第六章6.2距离与相似系数样品间的距离和相似系数,4.斜交空间距离在m维空间中,为使具有相关性变量的谱系结构不发生变形,采用斜交空间距离,即,在数据标准化处理下,rkl为变量Xk和Xl之间的相关系数5.相似系数样品间的亲疏程度除了用距离描述外,也可用相似系数来表示.参见以下“变量间的相似系数”的定义.,24,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,6.定性变量样品间的距离或相似系数下面来介绍定性变量(名义变量或有序变量)的距离或相似系数的定义方法.在数量化理论中,常把定性变量叫做项目,而把定性变量的各种不同取值叫做类目.例如性别是项目,而男或女是这个项目的类目;体形也是一个项目,而适中、胖、瘦、壮等是这个项目的类目.性别只能取男或女中一类,不能兼取;而体形可以是适中且壮,即兼取两类.,25,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,设样品X(i)的第k个项目(k=1,2,m)的取值为(i(k,1),i(k,2),i(k,rk)(i=1,2,n),其中n为样品的个数,m为项目的个数,rk是第k个项目的类目数.,并称i(k,l)为第k项目之l类目在第i个样品中的反应.,26,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,设两个样品为X(i)和X(j),若i(k,l)=j(k,l)=1,则称这两个样品在第k个项目的第l类目上1-1配对;若i(k,l)=j(k,l)=0,则称这两个样品在第k个项目之l类目上0-0配对;若i(k,l)j(k,l),则称为不配对.,27,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,记m1为X(i)和X(j)在m个项目的所有类目中1-1配对的总数;m0为0-0配对的总数;m2为不配对总数.显然m0+m1+m2=总类目数p(p=r1+r2+rm).表6.2给出两个样品的取“值”情况.显然m1=3,m0=7,m2=4.项目数m=4,总类目数p=14.,28,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,(1)两个样品为X(i)和X(j)间的距离定义为,即不配对的类目数在有反应的类目(包括1-1配对和不配对)数中的比例.比如表6.2,dij=4/7.,29,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,当项目只能取可能类目中的一类,不能兼取的情况下,两样品的距离定义为:,其中m*2是不配对的项目(变量)个数;m表示项目总个数.,类似于欧氏距离,还可以定义不配对的总数:,30,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,(2)样品X(i)和X(j)间的相似性度量由表6.3给出几种定义方法.这种相似性度量也称为匹配系数,31,第六章6.2距离与相似系数定性变量样品间的距离或相似系数,(p+m2=2m2+m1+m0),32,第六章6.2距离与相似系数变量间的相似系数和距离,在对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度.设Cij表示变量Xi和Xj间的相似系数,一般要求Cij=1Xi=aXj(a0,常数);|Cij|1,对一切i,j成立;Cij=Cji,对一切i,j成立.|Cij|越接近1,则表示Xi和Xj的关系越密切,|Cij|越接近0,两者关系越疏远.,33,第六章6.2距离与相似系数变量间的相似系数和距离,1.夹角余弦变量Xi的n次观测值(x1i,x2i,xni)看成n维空间的向量.Xi和Xj夹角ij的余弦称为两向量的相似系数,记为Cij(1),即当i=j时,夹角ij=0,Cij(1)=1,说明两向量完全相似;当Xi和Xj正交时,ij=90,Cij(1)=0,说明两变量不相关.,34,第六章6.2距离与相似系数变量间的相似系数和距离,2.相关系数相关系数就是对数据作中心化或标准化处理后的夹角余弦.变量Xi和Xj的相关系数常用rij表示,在这里我们记为Cij(2),即,当i=j时,Cij(2)=1表示两变量线性相关.一般情况,|Cij(2)|1.,35,第六章6.2距离与相似系数变量间的相似系数和距离,3.变量间的距离(1)利用相似系数来定义变量间的距离令dij=1-|Cij|或d2ij=1-C2ij(i,j=1,2,m).(2)利用样本协差阵来定义距离设样本协差阵S=(sij)0,变量Xi和Xj间的距离可定义为dij=sii+sjj-2sij(3)把变量Xi的n次观测值看成n维空间的点.在n维空间中按“样品间的距离和相似系数”中介绍的方法类似可定义m个变量间的种种距离.,36,第六章6.2距离与相似系数定性变量间的相似系数,4.定性变量间的相似系数当变量Xi是定性变量时,也可以定义多种相似系数.设变量Xi的p种取值记为r1,r2,rp(或称项目Xi有p个类目);Xj的q种取值记为t1,t2,tq.n个样品中两个定性变量的实际观察数列成表6.4,其中nkl表示在n个样品中Xi取rk且Xj取tl的频数.通常称表6.4为列联表.,37,第六章6.2距离与相似系数定性变量间的相似系数,38,第六章6.2距离与相似系数定性变量间的相似系数,利用列联表对两定性变量独立性的检验中常用到的统计量,建立在卡方统计量基础上的相似系数有(1)联列系数,39,第六章6.2距离与相似系数定性变量间的相似系数,(2)连关系数(有三种),40,第六章6.2距离与相似系数定性变量间的相似系数,如果Xi和Xj只取二个值(不妨记为0或1),则列联表化为:,这时常用的相似系数有(3)点相关系数,(习题6-2),(6.2.2),41,第六章6.2距离与相似系数定性变量间的相似系数,点相关系数是与定量变量的相关系数相对应的统计量。(4)四分相关系数,(5)夹角余弦,(习题6-2),(6.2.3),42,第六章6.2距离与相似系数定性变量间的相似系数,考虑到Cij=Cji,改进的统计量为,43,第六章6.3系统聚类方法HierachicalClusteringMethod,聚类所需的数据可以是通常的多变量的观测记录,也可以是描述样品间或变量间亲近(proximity)程度的一个矩阵.如用相关系数描述相似程度或用距离描述不相关程度。根据亲近程度进行聚类有多种方法,常用的方法是系统聚类方法(HierachicalClusteringMethod).他将n个样品各自看成一类,然后选择距离最近(或最相似)的一对合并成一个新类.再将距离最近的两类合并成一个新的类.每一步减少一个类,直至所有样品都成为一个类为止.,44,第六章6.3系统聚类方法系统聚类法的基本思想和基本步骤,设有n个样品,每个样品测得m项指标.首先定义样品间的距离(或相似系数)和类与类之间的距离.系统聚类方法的基本思想是:一开始将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离并类.这样每次缩小一类,直到所有的样品都成一类为止.这个并类过程可以用谱系聚类图形象地表达出来.,45,第六章6.3系统聚类方法系统聚类法的基本思想和基本步骤,系统聚类法的基本步骤如下:数据变换:可以使用上节介绍的方法对数据进行变换.数据变换目的是为了便于比较、计算上的方便或改变数据的结构.选择度量样品间距离的定义(如欧氏距离)及度量类间距离的定义(如最短距离法,见下面“系统聚类分析的方法”中的介绍).计算n个样品(个体)两两间的距离,得初始的距离矩阵D(1).,0,46,第六章6.3系统聚类方法系统聚类法的基本思想和基本步骤,一开始(第一步:i=1)n个样品各自构成一类,得类的个数k=n个类:Gt=X(t)(t=1,n).此时类间的距离就是样品间的距离.对步骤i=2,n执行并类过程的步骤和.步骤i得到的D(i-1),每次合并类间距离最小的两类为一新类.此时类的总个数k减少1类,即k=n-i+1.计算新类与其他类的距离,得新的距离矩阵D(i).若此时类的总个数k大于1类,重复和步;直到类的总个数为1时止.,47,第六章6.3系统聚类方法系统聚类法的基本思想和基本步骤,画谱系聚类图;决定分类的个数及各类的成员.,当临界值d=2.01应分为两类,当临界值d=1.51应分为三类,当临界值d=1.01应分为四类,48,第六章6.3系统聚类方法应用简例,例6.3.1设有5个产品,每个产品测得一项质量指标X,其值如下:1,2,4.5,6,8.试对5个产品按质量指标进行分类.解设样品间的距离取为欧氏距离,类间的距离取为类间的最短距离.根据上面介绍的步骤,计算如下:计算5个样品X(1),X(2),X(3),X(4),X(5)两两间的距离,得初始的类间距离矩阵D(1):,49,第六章6.3系统聚类方法应用简例,一开始n个样品各自构成一类,得5个类:Gi=X(i)(i=1,5),类的个数k=5.,=D(1),1,2,4.5,6,8,50,第六章6.3系统聚类方法应用简例,由D(1)可知距离为1时最小,首先合并X(1)和X(2)为一新类,记为CL4=X(1),X(2);此时类的总个数k减少1类,变为k=4,故把此步得到的新类记为CL4.按最短距离法计算新类CL4与其他类的距离,得新的距离矩阵D(2).,51,第六章6.3系统聚类方法应用简例,因此时类的总个数k=4大于1类,重复并类过程.,=D(2),1,2,4.5,6,8,CL4,52,第六章6.3系统聚类方法应用简例,由D(2)可知距离为1.5时最小,故合并X(3)和X(4)为一新类,记为CL3=X(3),X(4);此时类的总个数k减少1类,变为k=3,故把此步得到的新类记为CL3.按最短距离法计算新类CL3与其他类的距离,得新的距离矩阵D(3).,=D(3),53,第六章6.3系统聚类方法应用简例,因此时类的总个数k=3大于1类,重复并类过程.由D(3)可知,应合并X(5)和CL3为一新类,记为CL2=X(5),X(3),X(4);此时类的总个数k减少1类,变为k=2,故把此步得到的新类为CL2.按最短距离法计算新类CL2与其他类的距离,得新的距离矩阵D(4).,=D(4),54,第六章6.3系统聚类方法应用简例,因此时类的总个数k=2大于1类,重复并类过程.由D(4)可知,最后应合并CL4和CL2为一新类,记为CL1=X(1),X(2),X(3),X(4),X(5);此时类的总个数k=1,故把此步得到的新类为CL1.此时所有样品全并成一类,得新的距离矩阵D(5).,=D(5),55,第六章6.3系统聚类方法应用简例,根据并类过程绘制的谱系聚类图,56,第六章6.3系统聚类方法应用简例,1,8,2,4.5,6,并类的直观过程,X(1),X(2),X(3),X(4),X(5),57,第六章6.3系统聚类方法应用简例,根据谱系聚类图可得到分类的结果:若分为两类,则分为:X(1),X(2)和X(5),X(3),X(4)若分为三类,则分为:X(1),X(2),X(5)和X(3),X(4);若分为四类,则分为:X(1),X(2),X(5)和X(3)和X(4);若分为五类,则分为:X(1),X(2),X(3),X(4)和X(5).,58,第六章6.3系统聚类方法系统聚类分析的方法,系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法.,几个记号:用dij表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数Cij时,令dij=1-|Cij|(或d2ij=1-C2ij);用Dij表示类Gi和Gj间的距离.,59,第六章6.3系统聚类方法系统聚类分析的方法-最短距离法,1.最短距离法(SINglelinkage)类与类之间的距离定义为两类中最近样品之间的距离,即类Gp和Gq之间的距离Dpq定义为,比如:当G1=1,2,G2=4.5,6时,D12=4.5-2=2.5(即最近两样品x(2)=2和x(3)=4.5之间的距离),60,第六章6.3系统聚类方法系统聚类分析的方法-最短距离法,例6.3.1中类间距离就是使用最短距离法定义的.,当某步类Gp和Gq合并为Gr后,按最短距离法计算新类Gr与其他类Gk的类间距离,递推公式为,61,第六章6.3系统聚类方法系统聚类分析的方法-最短距离法,如第一步类G1和G2合并为Gr(记为CL4)后,按最短距离法计算新类Gr与其他类Gk(k=3,4,5)的类间距离,按递推公式计算:,由,可得,62,第六章6.3系统聚类方法系统聚类分析的方法-最长距离法,2.最长距离法(COMpletemethod)类与类之间的距离定义为两类中最远样品之间的距离,即类Gp和Gq之间的距离Dpq定义为,类Gp和Gq合并为Gr后,按最长距离法计算新类Gr与其他类Gk的类间距离也有类似的递推公式:,比如:当G1=1,2,G2=4.5,6时,D12=6-1=5.,63,第六章6.3系统聚类方法系统聚类分析的方法-中间距离法,3.中间距离法(MEDianmethod)如果类与类之间的距离既不采用两类间的最近距离,也不采用最远的距离,而是采用介于两者间的距离,这种方法称为中间距离法.,Gq,Gr,Gk,Drk(短)=Dpk,Drk(长)=Dqk,Drk(中),Gp,Dpq,64,第六章6.3系统聚类方法系统聚类分析的方法-中间距离法,当某步类Gp和Gq合并为Gr后,按中间距离法计算新类Gr与其他类Gk的类间距离,递推公式为(-1/40),当=-1/4时,由初等几何知Drk就是上面三角形的中线.如果用最长距离法,则Drk=Dqk;用最短距离法,则Drk=Dpk.,65,第六章6.3系统聚类方法系统聚类分析的方法-重心法,设某一步将Gp和Gq合并成Gr,它们所包含的样品个数分别为np、nq和nr(nr=np+nq).重心分别,4.重心法(CENtroidmethod)在定义类与类之间距离时,考虑每一类中所包含的样品个数.将两类间的距离定义为两类重心间的距离,这种聚类方法称为重心法.对样品分类而言,每一类的重心就是属于该类样品的均值.,比如:当G1=1,2,G2=4.5,6时,D212=(5.25-1.5)2=(3.75)2.,66,第六章6.3系统聚类方法系统聚类分析的方法-重心法,显然有,设某一类Gk(kp,q)的重心为,它与新类Gr的距离是,如果样品间的距离定义为欧氏距离,则有,67,第六章6.3系统聚类方法系统聚类分析的方法-重心法,68,第六章6.3系统聚类方法系统聚类分析的方法-重心法,(习题6-7),69,第六章6.3系统聚类方法系统聚类分析的方法-类平均法,5.类平均法(AVEragelinkage)重心法虽有较好的代表性,但并未充分利用各个样品的信息.比如下面两组类按重心法类间距离相等,这是不合理的.,70,第六章6.3系统聚类方法系统聚类分析的方法-类平均法,类平均法把类与类之间的距离定义为两类样品两两之间的平均平方距离,即,比如:当G1=1,2,G2=4.5,6时,D212=(4.5-1)2+(4.5-2)2+(6-1)2+(6-2)2/4=12.25+6.25+25+16/4=59.5/4=14.875或D12=3.85681,71,第六章6.3系统聚类方法系统聚类分析的方法-类平均法,设某一步将Gp和Gq合并成Gr,它们所包含的样品个数分别为np,nq和nr(nr=np+nq).Gr与其他类Gk的类间距离的递推公式为,72,第六章6.3系统聚类方法系统聚类分析的方法-类平均法,由类平均法类间距离的定义可得:,(kp,q),73,第六章6.3系统聚类方法系统聚类分析的方法-可变类平均法,6.可变类平均法(FLExiblebetamethod)类平均法的类间距离递推公式中,类Gp和Gq间的距离没有反映进去,有人建议将合并后新类Gr与其他类Gk的距离公式改为:,其中是可变参数,一般取4)的并类过程中R2的减少是逐渐的,改变不大;当分为3类时的R2=0.6405,而下一次合并后分为2类时R2下降较多(R2=0.4459).这时通过分析R2统计量可得出分为3个类是较合适的.,115,第六章6.4-应用例子应用例子的结果分析,查看R2变化的大小可以由合并类时的半偏R2(列标题为SPRSQ)得到.根据半偏R2的值是上一步R2与该步R2的差值,故某步的半偏R2值越大,说明上一步合并的效果好.此例半偏R2最大和次大分别为NCL=1、2和3,说明根据半偏R2准则分为二个类、三个类或四个类是较合适的.,伪F统计量(列标题为PSF)用于评价分为NCL个类的聚类效果.伪F值越大表示这些观测样品可显著地分为NCL个类.此例伪F最大和次大分别为NCL=4和5(当NCL=5),说明根据伪F准则为四个或五个类是较合适的.,116,第六章6.4-应用例子应用例子的结果分析,伪t2统计量用以评价此步合并类的效果.由该统计量的定义知伪t2值大表明上一次合并的两个类是很分开的,也就是上一次聚类的效果是好的.此例伪t2最大和次大分别为NCL=1,2和3,说明根据伪t2准则分为二,三或四个类是较合适的.,综合分析,认为用Ward法16个地区分为二类或四类较合适.,分为四类的结果为:G1=北京,上海,G2=天津,山东,江苏,浙江,辽宁,吉林,G3=黑龙江,安徽,福建,江西,G4=河北,河南,山西,内蒙.若分为两类,则第一类=G1,第二类=G2,G3,G4.,117,第六章6.4-应用例子应用例子的输出结果,输出6.4.2WARD聚类法的谱系聚类图,118,第六章6.4-应用例子应用例子的输出结果,PRINT过程输出分类结果及各类成员,119,第六章6.4-应用例子应用例子的输出结果,16个地区分类后各类中变量的常规统计量,120,第六章6.4-应用例子应用例子的输出结果,121,第六章6.5动态聚类法,系统聚类法一次形成类以后就不能改变了,这就要求一次分类分得比较准确,对分类的方法就提出较高的要求,相应的计算量自然比较大.如Q型系统聚类方法,聚类过程是在样品间的距离矩阵基础上进行的,当样本容量很大时,需要占据足够大的计算机内存空间,而且在并类过程中,需要将每类样品和其他类样品逐一加以比较,以决定应合并的类别,故还需要较多的计算时间.所以对于大样本问题,Q型系统聚类法可能因计算机内存或计算时间的限制而无法进行,这给应用带来一定的不便.基于这种情况,产生了动态聚类.,122,第六章6.5动态聚类法,动态聚类法又称为逐步聚类法,其基本思想是,开始先粗略地分一下类,然后按照某种最优的原则修改不合理的分类,直至类分得比较合理为止,这样就形成一个最终的分类结果.动态聚类法具有计算量较小,占用计算机内存空间较少,方法简单的优点,适用于大样本的Q型聚类分析.,123,第六章6.5动态聚类法,为了粗略地分一下类(以后简称为初始分类),有时首先选一批凝聚点,然后让样品向最近的凝聚点聚集,这样由凝聚点聚集形成的类,就得到初始分类.动态聚类法的聚类过程可用以下框图表示:,选凝聚点,初始分类,分类是否合理?,修改分类,最终分类,是,否,124,第六章6.5动态聚类法,SAS/STAT软

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论