已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章聚类分析clusteranalysis,概述距离与相似系数系统聚类法(hierarchicalclustering)快速聚类法(k-meansclustering)变量聚类,聚类分析是多元分析的主要方法之一,主要用来对大量的样品或变量进行分类,是初步数据分析的重要工具之一。,1,一、概述,聚类的实质根据样本(变量)间的亲疏关系将样本(变量)分为类,相近的归为一类,差别较大的归为另一类。所获得的分类应有一定的意义。聚类分析的关键亲疏关系的判别:相似性与距离(不相似性)分类数的确定:分多少类合适,2,聚类分析的应用,不同地区城镇居民收入和消费状况的分类研究。区域经济及社会发展水平的分析及全国区域经济综合评价产品市场细分:按照消费者的需求特征分成不同的细分市场在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类,3,聚类分析的类型,根据分类的对象Q型聚类(即样品聚类clusteringforindividuals)R型聚类(指标聚类clusteringforvariables)根据分类的方法:系统聚类(hierarchicalclustering)快速聚类(k-meansclustering),4,聚类分析数据格式,k,5,二、距离与相似系数,样本间的亲疏关系通常用距离描述,变量间的亲疏关系通常用相似系数或相关系数描述不同测量尺度的数据,其距离的计算方法不同,6,(一)、距离:样本间的亲疏关系,距离的定义:假使每个样品由p个变量描述,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dijdij满足下列条件dij0dii=0dij=djidijdik+dkj,7,1.欧式(Euclidian)距离,8,2.明氏(Minkowski)距离,当q=1,为绝对值距离,SPSS称为block当q=2,即为欧式距离当q=,有,称为切比雪夫(Chebychev)距离,9,实例计算,品,距离矩阵,10,绝对值距离,品,11,Euclidian距离的平方,2,12,Euclidian距离,13,明氏距离的缺点,各指标同等对待(权数相同),不能反映各指标变异程度上的差异距离的大小与各指标的观测单位有关,有时会出现不合理结果(p7,图1-1例)没有考虑指标之间的相关性,当各指标的测量值相差悬殊时,可以先对数据标准化,然后用标准化后的数据计算距离,14,3.马氏(Mahalanobis)距离,明氏距离没有考虑数据中的协方差模式,马氏距离则考虑了协方差,且不受指标测量单位的影响:,15,已知一二维正态总体G的分布为:GN(,),其中,分别求点A=(1,1),和点B=(1,-1)到均值的欧式距离和马氏距离,欧式等距离线,马氏等距离线,Mahalanobis距离例,A,B,16,欧氏距离、标准化变量的欧式距离与马氏距离的比较,17,4.Lance和Williams距离,对标准化变量:,18,5.配合距离,前几类距离多用于定距和定比尺度数据,对于定类和定序变量:,19,配合距离例,4种品牌的软饮料在4个方面的特性:是否可乐口味?是否含有咖啡因?是否节食饮料?是否可口可乐公司产?,距离矩阵,20,1.夹角余弦(Cosine),(二)相似系数:变量间的亲疏关系,受相似形的启发而来,AB和CD尽管长度不一,但形状相似,A,B,D,C,21,2.Pearson相关系数,(二)相似系数,22,SPSS的analyzecorelatedistances,23,Measures对话框,定距尺度,定序尺度,定类尺度,24,三、系统聚类法,聚合法,分解法,通常分为两步:先做出类别距离谱系图,再根据谱系图的特点确定分类数并分类,25,26,Agglomerative系统聚类法基本步骤,步骤1:将n个样品各作为一类,共n类:C1、C2、Cn。计算各类之间的距离,构成距离矩阵:dcicj=dij步骤2:找到距离最近的两类合并为一新类步骤3:计算新类与当前各类的距离。重复步骤2、3,直至合并成一类为止,形成谱系图根据谱系图确定如何分类,单样本类,类与类之间的距离为样品距离,类间距离,27,类与类间距离,28,类与类之间的距离,1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Wardsminimum-variancemethod),AgglomerativeMethods:各种不同方法的基本步骤相同,只是类与类之间距离的计算方法不同。,29,(一)最短距离法,类与类之间的距离是两类间两两样品间的最短距离,30,6个民族的粗死亡率与期望寿命,31,哈萨克与藏族的距离最短,最先合并形成新类CL7,新类CL7和其余四类的距离,32,第二次合并,新类和各类的距离,33,第三次合并,34,第四次合并,35,最后合并成一类,36,谱系图不显示实际距离,显示0-25的比例距离,树状图,37,冰柱图,1,2,3,4,5,融合在一起的为一类,38,(二)最长距离法,类与类之间的距离是两类间两两样品间的最长距离,39,前例:最长距离法,第1次合并仍取最短欧式距离,新类和各类的距离:取最大值,40,第2次合并,新类和各类的距离:取最大值,41,第3次合并,42,第4次合并,43,最后合并,44,45,(三)中间距离法(medianmethod),最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离,46,(四)类平均法(averagelinkagebetweengroup),SPSS作为默认方法,称为between-groupslinkage,47,(五)重心法(centroidmethod),类与类间的距离用各自重心间的欧式距离表示,48,(六)Ward最小方差法(Wardminimumvariancemethod),源于方差分析。类内离差平方和:类中各样品到类重心(均值)的平方欧式距离之和。基本思路:两类合并后,离差平方和就会增加。每次选择使离差平方和增加(SSMSSKSSL)最小的两类进行合并,直至所有的样品归为一类。,49,(七)各种系统聚类方法的统一,以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:,50,八种系统聚类法公式的参数,注意:几种聚类方法获得的结果不一定相同,51,最长距离法,最短距离法,分类数的确定及类别的解释,系统聚类法给我们提供了一个类别距离谱系,最终样本如何分类、分成几类需要我们自己根据研究的目的确定。,3类,2类,2类,52,系统聚类的SPSS实现,53,指定参与聚类的变量名和样品号,存放标识变量,选择聚类类型,54,Statistics,不显示类成员表,显示指定范围中每一步类成员,列出指定类数的类成员,55,Plot对话框,显示聚类的每一步,指定显示的聚类范围,不生成冰柱图,56,Method对话框,聚类方法选项,57,聚类方法选项,Between-grouplinkage:类平均法,使两两项对之间的平均距离最小Within-grouplinkage:类内平均连锁,合并后的类中所有项之间的平均距离最小。两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方。NearestneighborFartherstneighborCentroidclusteringMedianclusteringWardsmethod,58,距离测度方法选项,Interval:EuclideandistanceSquaredeuclideandistanceCosine:变量矢量的余弦ChebychevBlock:Manhattan距离,两观测单位间距离为其值差的绝对值和,用于Q型聚类MinkowskiCustomized:距离是一个绝对幂的度量,即变量绝对值的第p次幂值和的第r次根,59,数值标准化的方法选项,None:不标准化Zscores:标准化Range-1to1:标准化到-1到+1范围Maximummagnitude:标准化到最大值1Range0to1:标准化到0-1范围Meanof1:标准化到一个均值范围Standarddeviationof1:标准化到一个标准差,60,Save对话框,将分类结果存入数据文件中,生成一个新变量,表明每个个体所属类,指定范围内的结果,生成若干个新变量,61,系统聚类例:轿车的市场细分,对151名MBA学生的轿车偏好进行调查,要求他们对10种轿车打分,分值1-10(最高分)。10种轿车型号为:BMW328i,FordExplorer,InfinitiJ30,JeepGrandCherikee,LexusES300,ChryslerTown&Country,MercedsC280,Saab9000,PorscheBoxster,VolvoV90.用Wards系统聚类法进行分类初分析:根据谱系图确定分类数样本数太多,谱系图不易看,可随机抽样,62,四、快速聚类法(k-means),也叫动态聚类、逐步聚类、迭代聚类与系统聚类的主要区别非层次性递推过程从初始分类开始不断优化的过程当样本量很大时,用系统聚类法的计算工作量极大,作出的树状图也十分复杂,不便于分析,用快速聚类较好。,63,K-meansprocess,Important:initialcentroidsorclustercentersandthenumberofclusters,注意:快速聚类需事先确定分几类,64,65,容易产生局部最优而非全局最优,初始分类很重要,66,初始凝聚点的确定,自动选择必须给出允许分类的最大个数k凭经验选择可以先选取部分样本作系统聚类(例如用Wards方法,它与K-means的分类原则很相似),以得到初始分类的凝聚点(并确定分类数),建立一个初始凝聚点数据文件,67,快速聚类的SPSS实现,68,快速聚类主对话框,指定分类数,先定初始类别中心,再按K-means算法叠代分类,仅按初始类别中心点分类,点击centers按钮后展开:凝聚点的输入输出,69,Iterate对话框:叠代终止准则,限定最大叠代次数,限定K-means算法的收敛判据:0N1,含义:当两次叠代计算的最小的类中心的变化距离小于初始类中心距离的N%时,叠代停止。,限定在每个观测量被分配到一类后,马上计算新的类中心。如不选此项,则在完成了所有观测量的一次分配后,再计算各类的类中心,70,Save对话框,建立一个新变量记录分类结果(默认名:qx1_1)。,建立一个新变量记录各观测量距所属类中心间的欧式距离(默认名:qc1_2),71,Option对话框,72,例题输出结果,类别间距离差异均显著,73,轿车市场细分例-续,在系统聚类的基础上,用K-means进行进一步分析比较,确定最终分类数,并分析结果。分别按照分3类、4类和5类进行快速聚类,比较结果。对结果进行分析:计算各类平均得分,74,五、变量聚类法,分析的目的了解变量间及变量组合间的亲疏关系对变量进行分类根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类。,75,五、变量聚类法,76,变量聚类例,为了研究30个省、市、自治区1991年城镇居民消费的分布规律,对变量和样本分别进行聚类分析。月平均消费数据如表,其中:x1-人均粮食支出(元/人),x2-人均副食支出,x3-人均烟、酒、茶支出,x4-人均其他副食支出,x5人均衣着支出,x6-人均日用品支出,x7-人均燃料支出,x8-人均非商品支出,77,变量聚类例,先作样本聚类:类平均法、ward法再作变量聚类样本距离测度:夹角余弦或相关系数类距离:最短距离法、最长距离法、类平均注意:重心法、median、ward法都要求用欧式距离平方,数据,78,Ward法,类平均法,79,样品聚类结果,80,变量聚类:相关性强的指标归并到一起,相关系数,x1-人均粮食支出x2-人均副食支出x3-人均烟酒茶支出,x4-人均其他副食支出x5人均衣着支出x6-人均日用品支出,x7-人均燃料支出x8-人均非商品支出,81,聚类分析小结,1聚类分析的概念2两种聚类思想:系统聚类、快速聚类谱系图确定分类数3Q-型聚类分析4R-型聚类分析5SPSS的聚类分析过程6聚类分析的结果评述,82,系统聚类的统计思想,对于位置类别的样本或变量,依据相应的定义把它们分为若干类,分类过程是一个逐步减少类别的过程,在每一个聚类层次,必须满足“类内差异小,类间差异大”原则,直至归为一类。评价
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年绥化学院辅导员考试笔试题库附答案
- 2024年萍乡学院辅导员招聘备考题库附答案
- 2024年西南财经大学天府学院辅导员考试参考题库附答案
- 2024年赤峰工业职业技术学院辅导员招聘考试真题汇编附答案
- 2024年郑州航空工业管理学院辅导员考试笔试真题汇编附答案
- 2024年长江大学文理学院辅导员考试笔试题库附答案
- 2024年阿坝师范学院辅导员考试参考题库附答案
- 2025-2026福建厦门大学嘉庚学院体育教学部专任教师招聘1人参考题库附答案
- 2025上海浦东新区规划和自然资源局文员招聘8人参考题库必考题
- 2025下半年四川宜宾市翠屏区事业单位考核招聘74人笔试备考试卷含答案解析(夺冠)
- 人工搬运培训课件
- 建筑施工异常工况安全处置指南
- 2025年榆林神木市信息产业发展集团招聘备考题库(35人)及答案详解(新)
- 2025年公务员时事政治热点试题解析+答案
- 免疫联合治疗的生物样本库建设
- 项目管理沟通矩阵及问题跟进器
- 交通运输企业人力资源管理中存在的问题及对策
- 蒂森电梯安全质量培训
- 设备供货进度计划及保证措施
- 纯化水取样课件
- 2025年四川单招护理试题及答案
评论
0/150
提交评论