数学建模优秀课件聚类分析与判别分析.ppt_第1页
数学建模优秀课件聚类分析与判别分析.ppt_第2页
数学建模优秀课件聚类分析与判别分析.ppt_第3页
数学建模优秀课件聚类分析与判别分析.ppt_第4页
数学建模优秀课件聚类分析与判别分析.ppt_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十六讲聚类分析与判别分析,第一部分 上一讲回顾 第二部分 聚类分析概念 第三部分 聚类分析的SPSS过程 第四部分 判别分析,1、回归分析及模型 2、线性回归 3、线性回归SPSS过程 4、曲线估计,第一部分 上一讲回顾,第二部分 聚类分析概念,俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,结构,一、分类 二、什么是聚类分析 三、如何度量远近 四、两个距离概念,分类,聚

2、类分析有 1、系统聚类法 2、有序样品聚类法 3、动态聚类法 4、模糊聚类法 5、图论聚类法 6、聚类预报法等 (注:一般用的是系统聚类法。),什么是聚类分析,1、聚类分析起源于分类学。在考古的分类学中,人们主要依靠经验和专业知识事项分类,形成数值分类学。 例子:对我国30个省市自治区独立核算工业企业经济效益的分析;对某些大城市物价指数考核等。 (注:值得提出的是将聚类分析和其他方法联系起来使用,如判别分析、主成分分析、回归分析等效果更好。),什么是聚类分析,2、聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同,

3、、分为样品(观测量)聚类 、变量聚类两种,样品聚类: 对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。 变量聚类: 找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。,什么是聚类分析,比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 本部分主要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,

4、而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。,如何度量远近?,如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。,如何度量远近?,判断关系方法 1、一种方法用相似系数 2、另一种方法将一个样本看作是P维空间的一个点,并在空间定义距离,距

5、离越近的点归为一类。 变量类型:scale、nominal、0rdinal。 问:聚类分析与相关分析和距离分析是否有关?,两个距离概念,按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。 1、点间距离的计算方法主要有: 欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离,类和类之间的距离,由一个点组成的类是最基

6、本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离。 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。,备注,在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。 另外还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。,相似性的度量(样本点间距离的计算方法),在对变量进行分类时,度量变量之间的相似性常用相似

7、系数,测度方法有,相似性的度量(变量相似系数的计算方法),类间距离的计算方法,Nearest neighbor(最短距离法)用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离 Furthest neighbor(最长距离法)用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离,类间距离的计算方法,Centroid clustering(重心法)用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离,离差平方和法,Wards

8、method(离差平方和法)使各类别中的离差平方和较小,而不同类别之间的离差平方和较大,最短距离法举例,设抽取五个样品,每个样品只测一个指标。它们是1、2、3.5、7、9、现采用最短距离法对五个样品进行分类。 (1)定义样品间距离采用绝对距离,计算样品两两之间的距离,得距离矩阵D(0) 表1,最短距离法举例,(2)找出中非对角线最小元素是1,即,则将并成一个新类,记为G6=X1, X2。 (3)计算新类G6与其它类之间的距离,按公式Di6=min(Di1, Di2) (i=3,4,5) 取前两列较小的一列再计算样品两两之间的距离,得距离矩阵D(1) 表2,最短距离法举例,(4)找出D(1)中非

9、对角线最小元素是1.5, 则将G3和G6并成一个新类,记为G7=X1, X2, X3。 (5)计算新类G7与其它类之间的距离,按公式Di7=min(Di1, Di2, Di3) (i=4,5) 得距离矩阵D(2) 表3,最短距离法举例,(7)找出D(2)中非对角线最小元素是2, 则将G4和G5并成一个新类,记为G8=X4, X5。 (8)计算新类G8与其它类之间的距离,再按公式计算, 得距离矩阵D(3) 表4,结果图,0 1 2 3 4,x1,x2,x3,x4,x5,1.5,3.5,2,1,G9,G8,G7,G6,由上图可以看出分成两类 X1, X2 ,X3 和X4, X5比较合适,在实际问题

10、中有时回给出一个阀值T,要求类与类之间的距离小于T,因此有些样品可能归不到类中。,第三部分 聚类分析的SPSS过程,在AnalyzeClassify下: 1、快速聚类(K-Means Cluster): 观测量快速聚类分析过程。 2、分层聚类(Hierarchical Cluster):分层聚类(进行观测量聚类和变量聚类的过程。,快速聚类过程(Quick Cluster),使用 k 均值分类法对观测量进行聚类。可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。 AnalyzeClassifyK-Means Cluster,K-均值聚类法

11、基本原理,K-均值聚类分析,K均值聚类法迭代终止条件 两次迭代计算的聚心之间距离的最大改变量小于初始聚心间最小距离的 倍 到达迭代次数的上限,K均值聚类的优缺点 优点:占有内存少、计算量小、处理速度快,特别适合大样 本的聚类分析 缺点:1、应用范围有限,要求用户指定分类数目; 2、只能对观测量聚类,而不能对变量聚类; 3、所使用的聚类变量必须都是连续性变量。,快速聚类过程中的选项,使用快速聚类的选择项: 类中心数据的输入与输出:Centers选项 输出数据选择项:Save选项 聚类方法选择项:Method选项 聚类何时停止选择项:Iterate选项 输出统计量选择项:Option选项,举例,下

12、表反映我国16各地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的6个指标。利用聚类方法进行分类。,步骤,步骤一:录入数据,打开分析菜单,选择ClassifyK-Means Cluster(逐步聚类分析),步骤二:选择聚类变量,聚类类数,聚类个案标识,步骤三:指定聚类过程中类是否调整类中心点,给出聚类过程中两个调整类中心点: 1、表示聚类过程中选择或指定初始类中心点,按照K-Means的迭代算法不断调整类中心点。,2、聚类过程中只使用初始的类中心点而不作调整,迭代次数也进行一次,步骤四:类中心数据的输入与输出。,Read initial fro

13、m 指定初始中心,Write final 保存结果中的各类中心数据,Iterate(迭代)选项,最大迭代次数,收敛准则 值在01之间,且不等于1.如果输入值为0.01,表示两次迭代计算的最小的类中心的变化距离小于初始类中心距离的1%时迭代停止,是否在每个个案被分配到一类后立即计算新的类中心,Save选项,添加默认变量名为qcl-1的新变量,变量值表示聚类结果。,添加默认变量名为qcl-2的新变量,变量值表示聚类终止后样本值距所属类中心的欧氏距离。,初始类中心,输出初始类中心的数据。,方差分析表,以聚类分析产生的类为控制变量的单因素方差分析,并输出个变量的值,输出每个个案的分类信息,包括分配到哪

14、一类和该个案距所属类中心的距离,结果分析,逐步聚类分析的初始类中心数据,迭代记录,下表给出了5个类中心点每次迭代时的变化。 第一次迭代后,5类中心点中变化最大的是那个? 第二次迭代后,5类中心点变化是否达到聚类结果的要求?(停止准则是什么?),逐步聚类分析的类成员,其中第三列给出了每个个案所属的类,第四列给出个案和所属中心的距离。 我省河南归到哪一类,与那几个省一类,且距所属中心距离多少?,聚类结束时的类中心数据,下表所示5个类的最终聚类中心。其中第几类各指数相对来讲较高?那个最低? 作用:为后续分析以及解释分类结果提供依据,最终聚类的类中心之间的距离,哪两类之间距离最大,值为多少? 对应的省

15、份是那些?说明什么问题?,逐步聚类分析的方差分析表,各指数在不同类的均值比较情况。 各项数据分别为:组间均方、组间自由度、组内均方、组内自由度。,聚类小结,显示5类成员情况,主要包括每一类的地区数,例2:利用如下数据将以下城市按照空气指标分类,在描述性统计分析中做标准化处理,利用标准化处理后变量进行聚类分析,结果解读 初始聚类中心表,迭代史表,最终聚类中心表,系统(分层)聚类(Hierarchical Cluster)过程,分层聚类又称系统聚类: 是指事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类 分层聚类方法: 分解法:先视为一大类,再分成几类 凝聚法:先视每个为一类

16、,再合并为几大类,分层聚类法可用于观测量(样本)聚类(Q型)和变量聚类(R型) 一般分为两步: Proximities:先对数据进行的预处理(标准化和计算距离等) Cluster:然后进行聚类分析 两种统计图:树形图(Dendrogram)和冰柱图(Icicle) 各类型数据的标准化、距离和相似性计算 定距变量、分类变量、二值变量 标准化方法p353:Z Scores、Range -1 to 1、 Range 0 to 1等,举例,现有对07级本科生中5名不同学科的学生能力测试的结果,并进行聚类分析。,步骤,步骤一:录入数据,打开分析菜单,选择Classify Hierarchical Clu

17、ster(逐步聚类分析),步骤二:选择聚类变量,选择聚类个案标识,步骤三:选择聚类类型和输出内容,选择Q型聚类,选择R型聚类,输出聚类分析的相关图形,输出聚类分析的相关统计量,Method选项,分层聚类的方法: 组间平均连锁法 组内平均连锁法 最近相邻法 最远相邻法 重心聚类法 中位数聚类法 离差平方和法,连续型定距变量的距离选择 (欧氏距离、平方欧氏距离、夹角余弦距离、皮尔逊相关系数距离、契比雪夫距离、Block距离、闵可夫斯基距离、自定义距离),计数变量的距离选择 (卡方测度、 Phi方测度),二值变量的距离选项 共26个选项,转换值,给出变量值的标准化方法的选项,距离计算完成后,对距离测

18、度的转换 距离值取绝对值 改变距离符号 距离与最小值之差,再除以极差得到距离标准化,Save选项,不建立新变量,单一结果,利用新变量表示每个个案聚类后所属的类。可以选择指定的分类数量,显示指定聚类数的范围内结果。自动生成若干个新变量,表示聚为若干个类时,每个个体聚类后所属的类。可指定最小、最大聚类数。,输出凝聚状态表,个案间的距离矩阵,聚类成员 不显示 列出某一类数个案所属的类 列出指定范围内的结果,Plots选项,树形图,冰挂图 输出聚类的每个阶段的冰挂图 指定显示聚类数的范围 不生成冰挂图,设置作图方向 1、显示纵向冰挂图;2、显示水平冰挂图,结果分析,摘要,欧氏距离矩阵,以矩阵的形式显示

19、个案间的距离或相似测度的值,并显示处距离类型。,凝聚状态表,其中第一列表示聚类分析的第几步;二、三列表示本步骤中哪两个案或小类聚成一类;四列为个案距离或小类距离;五、六表示本步骤类中参与聚类的是个案还是小类,0表示个案;七列标识本步骤类结果将在以下第几步中用到。,类成员聚类表,从表中可知,类数从2至4时的个案所属类别。 当聚成4类时,3、4个案聚成一类,其他个案自成一类,冰挂图,如何观察冰挂图: 从最后一行开始,当聚成4类时,3、4个案聚成一类,其他个案自成一类; 当聚成3类时,3、4个案,1、2个案聚成一类,个案五自成一类; 当聚成2类时,1、2个案聚成一类,其余个案聚成一类,树形图,树形图

20、以水平放置的树形结构呈现了聚类分析中每一次类合并的情况。SPSS自动将各类间的距离映射到025之间。如何看?那个更直观?,例2:观测量聚类:按照交通情况对各地进行聚类,标准化处理过程,系统聚类,结果,龙骨图,变量聚类:按照日照数对月份进行聚类,结果解读 聚类进度表垂直冰柱图,从下往上看,龙骨图,小结,除分层聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStep Cluster) 无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定。 聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果

21、。分类的结果没有对错之分,只是分类标准不同而已。,使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验。,从数据要求上看,1、参与分类的变量首先应符合要求 2、各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,而后再进行聚类) 3、各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距

22、离时,就加大了它们的贡献,而其他变量则相对被削弱,从聚类方法的选择上,1、看数据的类型,如果参与分类的变量是连续变量,层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量),则需要将先对离散变量进行连续化处理。当数据量较少时(比如小于100),两种方法都可以选用,当数据量较多时(比如大于1000),则应该考虑选用K-均值聚类法 2、要看分类的对象。如果是对样本分类,两种方法都可用;如果是对变量分类则应选择层次聚类法(至少SPSS的程序是这样),注意对分类结果的检验,分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较。 一般来说

23、,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些。,问题,1、什么时候用快速聚类? 2、什么时候用分层聚类?,第四部分 判别分析概念,有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。 这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。,判别分析(discriminant analysis),这就是本次课要讲的是判别分析。判别

24、分析和前面的聚类分析有什么不同呢? 主要不同点就是:在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。 而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。,判别的思想,判别分析:根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。,判别函数(discriminant function):指的是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可

25、以得到一个确定的函数值。 判别准则(discriminant rule):对样本的判别函数值进行分类的法则。,1、 判别分析的一般步骤,第三部分 判别分析的SPSS过程,在AnalyzeClassify下: 判别分析(Discriminant): 判别分析过程。 使用判别分析的选择项: 统计量选项:Statistics选项 判别分类选项:Classify选项 判别方法选择项:Method选项 输出数据选择项:Save选项,实例,为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了5059岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下所示。试做判别分析,建立判别分析,建立判别函

26、数一边在临床中用于筛选惯性病人。,步骤一:录入数据,打开分析菜单,选择AnalyzeClassify Discriminant(判别分析),步骤二:选择组别变量,步骤三:选择变量,1、当认为所有自变量都能对观测量特性提供丰富的信息时,使用该选项。不加选择地使用是所有自变量进行判别分析,2、逐步分析方法。选择该选项“Method”将被激活,Statistics选项,矩阵选项 1、类内相关矩阵 2、合并类内协方差矩阵 3、协方差矩阵 4、总样本的协方差矩阵,1、均值 2、单变量方差分析 3、对个类的协方差矩阵相等的假设进行检验,判别函数系数 1、可以直接用于对新样本进行判别分类的费氏系数,并给出一组系数,确定组中判别分数最大的观测量。 2、未经标准化处理的判别系数,判别分类选项,选择先验概率 1、各类先验概率相等; 2、各类的先验概率与其样本量成正比。,选择生成到输出窗口的分类结果 1、输出每个观测量; 2、输出分类的综述表; 3、输出对每个观测量进行分析的结果,协方差矩阵 1、指定使用合并组内协方差矩阵进行分类; 2、指定使用各组协方差矩阵进行分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论