




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,第十九章聚类分析(clusteringanalysis),.,2,判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计分析方法。,.,3,聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。,.,4,指标聚类,目的:把多个指标按相似程度聚成几类,每类找一个典型指标来代表原来的多个指标。资料要求:指标是定量的,理论上也可以全部是定性的或等级的(要少用)效果不好。用途:1.分类找典型指标2.可与回归分析合用找典型自变量;可与判别分析合用找典型指标。,.,5,样品聚类,目的:把多个样品按照相近样品聚成几类,作分类比较研究。需要时也可每类找一个典型样品来代表各类样品。资料要求:描述样品的指标全部定量。用途:分类,.,6,无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量相似系数(similaritycoefficient)的定义。,.,7,聚类统计量,指标聚类(R型聚类)的聚类统计量:指标间的相似系数。0C1;C越大越相似。大则同类,小则异类。(1)定量指标:用简单相关系数定义为相似系数。(定量指标包含定性指标转化成0,1变量和等级指标转化成的1,2,变量)(2)定性指标或等级指标(包括含有定量指标转换成的等级指标),可用列联系数定义为和指标的相似系数:,.,8,R型(指标)聚类的相似系数X1,X2,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间的相似系数:绝对值越大表明两变量间相似程度越高。同样也可考虑用Spearman秩相关系数定义非正态变量之间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。,.,9,样品聚类(Q型聚类)的聚类统计量(相似系数):2个样品间距离,越短越接近,短则同类,长则异类。样品聚类的基本原则:把距离短的样品归在相同类,距离长的样品归在不同类。,.,10,Q型(样品)聚类常用相似系数将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。(1)欧氏距离:欧氏距离(Euclideandistance)(2)绝对距离:绝对距离(Manhattandistance)(3)Minkowski距离:绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。,.,11,(4)马氏距离:用S表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobisdistance)的计算公式为其中向量。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。,.,12,说明:当样品各指标的单位不同时,或各指标单位虽相同(包括各指标都无单位),但数量级相差大时,应先将各指标标准化,在计算距离。标准化方法:,.,13,第二节系统聚类系统聚类(hierarchicalclusteringanalysis)是将相似的样品或变量归类的最常用方法,聚类过程如下:1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数;重复第二步,直至全部样品(或变量)被并为一类。,.,14,一、类间相似系数的计算系统聚类的每一步都要计算类间相似系数(即:新形成的类别与其他类之间的类间相似系数的确定),当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。,.,15,当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用Gp,Gq分别表示两类,各自含有np,nq个样品或变量。,.,16,1最大相似系数法Gp类中的np个样品或变量与Gq类中的nq个样品或变量两两间共有npnq个相似系数,以其中最大者定义为Gp与Gq的类间相似系数。注意距离最小即相似系数最大。2最小相似系数法类间相似系数计算公式为3重心法(仅用于样品聚类)用,分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为,.,17,4类平均法(仅用于样品聚类)对Gp类中的np个样品与Gq类中的nq个样品两两间的npnq个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。,.,18,5离差平方和法又称Ward法,仅用于样品聚类。此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。,.,19,例19-1测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。,.,20,聚类过程如下:(1)各个指标独自成一类G1=X1,G2=X2,G3=X3,G4=X4,共4类。(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,等于0.852,将两类合并成G5=X1,X2,形成3类。计算G5与G3、G4间的类间相似系数G3,G4,G5的类间相似矩阵,.,21,(3)由于G3和G4类间相似系数最大,等于0.732,将两类合并成G6=G3,G4,形成两类。计算G6与G5间的类间相似系数。(4)最终将G5,G6合并成G7=G5,G6,所有指标形成一大类。,.,22,根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:X1,X2,X3,X4,即长度指标归为一类,围度指标归为另一类。,0.852,0.732,0.234,.,23,如何判断聚为几类,对于指标聚类而言:M个指标究竟聚几类为好,即聚成几类后停止并类,可分析聚类过程表和聚类过程图,还可以结合专业知识和实际需要确定。例:指定1个相似系数值(比如0.6),规定类那个指标间的相似系数值入小于该值,则停止并类。特别是当某步骤类使相似系数值的变化发生大的跳跃时,更是停止并类的讯号。,.,24,如何找典型指标,对指标聚类而言:为选择每类的典型指标,计算每类的每个指标与同类其他指标的相关指数(相关系数的平方)的均数,即式中为指标所在类的指标个数,在各类挑选值最大的作为该类的典型指标,.,25,第一类,.,26,例19-2今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。,变量的标准化X1X2,.,27,本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化,分别是Xi的样本均数与标准差。变换后的数据列在表19-1的,列。,.,28,聚类过程如下:(1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得同样负重下蹲与俯卧撑之间的距离同理,计算出距离矩阵,.,29,(2)G2,G4间距离最小,将G2,G4并成一新类G5=G2,G4。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离G1,G3,G5的距离矩阵(3)G1,G5间距离最小,将G1,G5并成一新类G6=G1,G5。计算G6与G3之间的距离(4)最终将G1,G6合并成G7=G1,G6,所有指标形成一大类。,d15=Max(d12,d14)=Max(1.289,1.803)=1.803,d35=Max(d23,d34)=Max(1.928,2.168)=2.168,.,30,根据聚类过程,绘制出系统聚类图(见图19-2)。结合系统聚类图和专业知识认为分成两类较好:G1,G2,G4,G3。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大,训练时应提高膳食标准。,图19-24个运动项目样品聚类的系统聚类图,G2G4G1G3,G5,G6,G7,.,31,例19-3调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况,检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据列于表19-3,其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。,.,32,.,33,本例选择了欧氏距离下的最小相似系数法、类平均法和离差平方和法对数据进行聚类分析。分析结果分别见图19-3、图19-4、图19-5。数据分析前,各变量已作标准化处理。,.,34,图19-327名沥青工和焦炉工的最小相似系数法系统聚类图,.,35,图19-427名沥青工和焦炉工的类平均法系统聚类图,.,36,图19-527名沥青工和焦炉工离差平方和法的系统聚类图,.,37,三种聚类结果有较大的出入,可见这些方法分类效果是有差异的,特别是在分类变量较多时差异愈加明显,这就要求在聚类分析前,尽可能地选择有效变量,如本例的变量P21和P53倍数。详细解读聚类图,一般都能够获得许多有用的信息。,.,38,(聚类实例分析结果)相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚类方法外,还必须结合专业知识。,.,39,结合专业知识,本例认为类平均法聚类结果比较合理,分类结果列入表19-3最后一栏。它将10,20,23号工人分为一类,其余分为另一类。研究者最终发现10,20,23号工人为癌症高危人群。根据离差平法和法聚类图,不难发现10,20,23,8,16,26号聚在一类,提示8,16,26号工人也可能是癌症高危人群之一。,.,40,以下列出类平均法具体聚类过程,供参考。,.,41,对于样品聚类而言如何确定聚为几类:1.可分析聚类过程表和聚类过程图,还可以结合专业知识和实际需要确定。2.当某步骤类使相似系数值(如最大距离发生大的跳跃时)的变化发生大的跳跃时,更是停止并类的讯号。如10个样品若从聚成3类变到聚成2类,则最长距离从4.64到12.46发生变长的大跳跃,于是确定聚成3类而不是2类。,.,42,第三节动态样品聚类当待分类的样品较多时,如海量数据挖掘,系统聚类分析将耗费较多的计算资源来储存相似系数矩阵,计算速度缓慢。另外,用系统聚类方法聚类,样品一旦归类后就不再变动了,这就要求分类十分准确。针对系统聚类方法的这些缺陷,统计学者提出所谓动态聚类分析方法,这种分类方法既解决了计算速度问题,又能随着聚类的进展对样品的归类进行调整。,.,43,动态样品聚类的原理是:首先确定几个有代表性的样品,称之为凝聚点,作为各类的核心,然后将其他样品逐一归类,归类的同时按某种规则修改各类核心直至分类合理为止。动态样品聚类方法中最常用的一种是k-means法.这种方法原理简单,分类快速,一般经过几轮归类就收敛了,即使样品很多也能迅速得到分类结果。此法的缺点是要事先知道分类数目。在某些具体问题中分类数目根据专业知识是完全可以事先确定的,而在有的问题中分类数目则难以确定。,.,44,第四节有序样品聚类前面讲到的样品聚类分析方法,适用于无序样品的分类。在科学研究中存在另一类型的资料,各样品在时域或空域存在自然顺序,如生长发育资料的年龄顺序,发病率的年代顺序和地理位置。我们称这种样品为有序样品。对有序样品分类时要考虑到样品的顺序特性这个前提条件,分类时不破坏样品间的顺序,由此形成的样品聚类方法称为有序样品聚类(ordinalclusteringmethods)。,.,45,应用注意事项1聚类分析方法常用于数据的探索性分析,聚类分析的结果解释应密切结合专业知识,同时尝
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年销售代表高级面试必-备问题与答案解析
- 【教案版】小学一班级上册 走与跑
- 2025年机电维修工程师应聘面试题解析与技巧
- 2025年特岗教师招聘笔试初中化学冲刺题
- 2025年大学英语四六级考试听力突破技巧
- 2025年山西省朔州市应县中考化学二模试卷
- 电信行业知识培训课件
- 2025年烟草专卖法律法规在遴选考试中的实际应用案例
- 2025年初级焊工技能考试试题及答案详解
- 2025年救援技巧速成救护员考试全真模拟及答案解读
- 成人癌性疼痛护理指南解读
- 浅谈实现小学语文单元整体教学的有效策略
- 手动液压叉车安全技术培训
- 小学语文跨学科学习任务群学习任务设计策略
- 输电线路工程项目划分表
- 第06章设计美学程能林第4版《工业设计概论》课课件
- DB23-T 3492-2023 工贸企业充电间安全设施技术规范
- 防水工程施工报价表
- 中行bfw框架开发和测试资料课件
- 住院患者非计划性拔管风险评估与护理指导意见
- MSA偏倚分析报告
评论
0/150
提交评论