




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析,科研处孙瑞华2016年6月,1,.,主要内容,一、聚类分析的基本概念二、聚类分析的指标三、聚类分析的方法四、聚类分析应用的注意事项,2,.,一、聚类分析的基本概念,类:相似元素的集合。分类:将一个观测对象指定到某一类(组)判别分析:对当前所研究的问题已知它的类别数目及各类的特征,要将另一些未知类别的个体正确地归属于其中一类。聚类分析:事先不知道研究的问题应分为几类,更不知道观测到的个体的具体分类情况,需要通过对观测数据进行分析处理,给出合理的分类。,3,.,一、聚类分析的基本概念,聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。聚类分析的目的:把相似的东西归成类。例如测量了n个样品的m个变量(指标),可进行:(1)R型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。,4,.,一、聚类分析的基本概念,聚类分析的核心:刻画指标和样品间的相似性。样本点之间按什么刻画相似程度?样本点和小类之间按什么刻画相似程度?小类与小类之间按什么来刻画相似程度?聚类分析的步骤:计算描述样品(变量)间相似性的指标:相似系数距离越小相似性越大相关越大相似性越大根据相似性对样品(变量)归类。,5,.,二、聚类分析的指标,R型聚类的相似系数:度量指标间的相似性。用两指标间相关程度定义相似系数,相关越大表明两指标间相似程度越高。正态变量:简单相关系数非正态定量变量或等级资料:用Spearman秩相关系数定性变量:列联系数,6,.,二、聚类分析的指标,Q型聚类的相似系数:度量样品间的相似性。用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。绝对值距离欧氏距离闵可夫斯基距离(Minkowski距离)马氏距离,7,.,二、聚类分析的指标,相似系数的选择原则:所选择的相似系数在实际应用中应有明确的意义。如,在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度;欧氏距离有非常明确的空间距离概念;马氏距离有消除量纲影响的作用。要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法适当地考虑计算工作量的大小和研究对象的特点。,8,.,三、聚类分析的方法,系统聚类法(层次聚类)-(例数少)*动态聚类法(快速聚类)-(例数多)*有序样品聚类法-(样品在时间和空间有自然顺序),9,.,三、聚类分析的方法,系统聚类法-最常用聚类过程如下:开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数;重复第二步,直至全部样品(或变量)被并为一类。,10,.,三、聚类分析的方法,系统(层次)聚类法-最常用类间相似系数的计算:当聚类的两类变量(样品)各只含一个变量(样品)时,两类间的类间相似系数为两变量的相关系数或两样本的距离系数。当聚类的两类变量(样品)含有两个或两个以上变量(样品)时,计算两类间的类间相似系数有多种方法可供选择。最大相似系数法最小相似系数法重心法(仅适用于样品聚类)类平均法(仅适用于样品聚类)离差平方和法(仅适用于样品聚类),11,.,三、聚类分析的方法,系统(层次)聚类法-类间相似系数最大相似系数法如图,Gp类有p个变量(样品),Gq类有q个变量(样品),两类的相似系数有pq个,取其最大者定义为类间相似系数。指标聚类:取最大相关系数样品聚类:取最小距离,12,.,三、聚类分析的方法,系统(层次)聚类法-类间相似系数最小相似系数法如图,Gp类有p个变量(样品),Gq类有q个变量(样品),两类的相似系数有pq个,取其最小者定义为类间相似系数。指标聚类:取最小相关系数样品聚类:取最大距离,13,.,三、聚类分析的方法,14,.,三、聚类分析的方法,系统(层次)聚类法-类间相似系数类平均法(仅用于样品聚类)如图,类间相似系数等于Gp类与Gq类中任两个样品距离的平均平方距离。,15,.,三、聚类分析的方法,16,.,三、聚类分析的方法,系统(层次)聚类法-举例指标聚类测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),试用系统聚类法将这4个指标聚类。(相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。)计算得相关矩阵如下:,图中显示归成两类较好,即长度指标归为一类,围度指标归为一类。,17,.,三、聚类分析的方法,系统(层次)聚类法-举例样品聚类今测得6名运动员4个运动项目的能耗、糖耗的均数见表1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。(相似系数选用欧氏距离,类间相似系数采用最小相似系数法计算),表1,样品聚类需先将数据标准化,18,.,三、聚类分析的方法,系统(层次)聚类法-举例样品聚类,19,.,三、聚类分析的方法,系统(层次)聚类法-应用注意事项用不同聚类方法,聚类结果(树状图)不同,一般计算多个方法尝试。结合专业和聚类图得到归类结果。主要用于样品(变量)较少的研究。系统聚类法的SAS实现:指标聚类:Procvarclusdata=example_1;Varx1-x4;Run;Proctree;run;样品聚类:Procclusterdata=example_2method=complete;Varx1-x4;run;Proctree;run;,single最大相似系数法complete最小相似系数法centroid类平均法average重心法ward离差平方和法,20,.,三、聚类分析的方法,动态样品聚类法(快速聚类)动态聚类法的提出:当待分类样品较多时,如海量数据挖掘,系统聚类法计算速度缓慢。用系统聚类法聚类,样品一旦归类后就不再变动了。动态聚类原理:先确定几个有代表性的样品,称之为凝聚点,作为各类的核心,然后将其他样品逐一归类,归类的同时按某种规则修改各类核心直至分类合理为止。,21,.,三、聚类分析的方法,动态样品聚类法(快速聚类)动态样品聚类方法中最常用的一种是k-means法。计算步骤:第一步:事先人为指定分类数(k类)。第二步:随机选择k个样品作为凝聚点各自成一类。k个样品观测值构成的向量即为k类的原始重心点(mean)。第三步:采用欧氏距离将样品自动归为距离最近的类。计算该类的均数向量,即为新的重心点(mean)。第四步:根据新重心点(mean),计算各样品的距离。第五步:重复3-4步,直至所有样品的归类不再变动为止。,22,.,三、聚类分析的方法,动态样品聚类法(快速聚类)优点:用于数量较大的样品聚类,计算量小,计算速度快,方法简便。可以根据经验,先作主观分类。提供统计检验比较类间的差异。缺点:须事先知道分类数。结果受选择凝聚点好坏的影响,分类结果不稳定。不能输出树状图的信息,不直观。,23,.,三、聚类分析的方法,动态样品聚类法(快速聚类)-举例调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况,检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数,进行k-means聚类,检测指标如下表所示:,24,.,三、聚类分析的方法,动态样品聚类法(快速聚类)-举例聚类前将观测指标标准化,消除量纲影响指定分类数k=2,最终将9,10,16,20,23号5名工人分为一类,其他22名工人组成另一类,两类的重心如下表所示:,动态聚类法的SAS实现:Procfastclusdata=example_3maxclusters=2out=clust;Varx1-x9;Run;Procglmdata=clust;Classcluster;Modelx1-x12=cluster;Meanscluster/bon;Run;,25,.,三、聚类分析的方法,有序样品聚类法各样品在时域或空域存在自然顺序对有序样品分类时不破坏样品间的顺序,与系统聚类不同有序样品聚类最常用的是最优分割法:由离差平方和法衍生出聚类步骤:定义类直径为该类的离差平方和所有类的类直径之和定义为分类目标函数寻找所有可能的分类下所有分割方法中最小的目标函数值,其所对应的分割方法即为该分类的最优分割确定分类数目,可以依靠专业知识,亦可通过画最小目标函数与分类数目的散点图确定,一般取散点连线后曲线的拐点处。,26,.,三、聚类分析的方法,有序样品聚类法(最优分割法)-举例调查了7-16岁女学生身高年平均增长量,对女青少年生长发育分期进行聚类。,不同分类数的分割方法:9类:9种分割方法8类:36种分割方法7类:84种分割方法6类:126种分割方法5类:126种分割方法4类:84种分割方法3类:36种分割方法2类:9种分割方法,27,.,三、聚类分析的方法,有序样品聚类法(最优分割法)-举例调查了7-16岁女学生身高年平均增长量如下表,对女青少年生长发育分期进行聚类。,对10个样品聚类:10类:1种分割方法9类:9种分割方法8类:36种分割方法7类:84种分割方法6类:126种分割方法5类:126种分割方法4类:84种分割方法3类:36种分割方法2类:9种分割方法1类:1种分割方法,核心:在每一种分类数目下,最小目标函数值对应的分割方法即为最优分割,28,.,三、聚类分析的方法,有序样品聚类法(最优分割法)-举例确定分类数目。做分类数与最小目标函数值的散点图,分类数达到4以后,再增加分类数导致目标函数值的降低较为平缓,故此处分类数选4较为合适。,29,.,三、聚类分析的方法,有序样品聚类法(最优分割法)-举例进行递推计算,将最小目标函数值p(n,k)陈列于下述表中:括号中的数字代表最优分割点。,聚类结果为以下4类:1、2,3,4,5,6,7、8,9、10即女性青少年生长发育的四个分期:7岁为第1期,812岁为第2期,1415岁为第3期,16岁为第4期。,30,.,三、聚类分析的方法,聚类方法小结系统(层次)聚类:可以对变量和样品聚类。用树状图反映聚类结果,直观、便于解释。数量较大时计算速度慢。动态聚类(k-means):主要对样品聚类。在样品量较大时,计算速度快。但结果展示不直观。需要事先指数分类数。有序样品聚类:主要对样品聚类。当样品的分布存在时域或空域的自然顺序时,聚类不破坏样品的顺序特性。计算过程复杂。SAS中未提供相应的分析过程,需要根据计算公式编
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三基临床考试题库及答案
- 纠纷调解考试题库及答案
- 25秋新人教版英语七年级上册 Unit 3 section B同步练习(含答案)
- 2025年新疆农业培训合作合同协议
- 2025年物业管理费缴纳合同协议
- 土木工程考试题及答案
- 医学定向考试题库及答案
- 日照社工招聘笔试题目及答案
- 人才培养笔试题及答案
- 2025年世界知识产权日知识产权考试练习题及答案
- 医学院研究生招生宣传
- 大型活动安全风险评估报告
- 大数据分析与数据挖掘知识习题集
- GB/T 25820-2025包装用钢带
- 制约婚内家暴协议书
- 点云质量评估-全面剖析
- 形婚协议书合同完整版
- 海南时政面试试题及答案
- 2025年乡镇计划生育工作培训方案
- 砭石疗法培训学习资料
- 2025年湖南生物机电职业技术学院单招职业技能测试题库附答案
评论
0/150
提交评论