版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计聚类分析371第1页,课件共37页,创作于2023年2月372判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。
聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。
二者都是研究分类问题的多元统计分析方法。第2页,课件共37页,创作于2023年2月373聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。
例如测量了n个病例(样品)的m个变量(指标),可进行:
(1)R型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。
(2)Q型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。第3页,课件共37页,创作于2023年2月374
无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similaritycoefficient)的定义。第4页,课件共37页,创作于2023年2月375
第一节相似系数
1.R型(指标)聚类的相似系数
X1,X2,…,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间的相似系数:
绝对值越大表明两变量间相似程度越高。
同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。
第5页,课件共37页,创作于2023年2月3762.Q型(样品)聚类常用相似系数
将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。
(1)欧氏距离:欧氏距离(Euclideandistance)
(2)绝对距离:绝对距离(Manhattandistance)
(3)Minkowski距离:
绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。
第6页,课件共37页,创作于2023年2月377(4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobisdistance)的计算公式为
其中向量。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。
以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。第7页,课件共37页,创作于2023年2月378
第二节系统聚类
系统聚类(hierarchicalclusteringanalysis)是将相似的样品或变量归类的最常用方法,聚类过程如下:
1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;
2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数;
重复第二步,直至全部样品(或变量)被并为一类。第8页,课件共37页,创作于2023年2月379一、类间相似系数的计算
系统聚类的每一步都要计算类间相似系数(即:新形成的类别与其他类之间的类间相似系数的确定),当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。第9页,课件共37页,创作于2023年2月3710
当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。(np与nq分别代表Gp与Gq两类的样品或变量数)
1.最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。
注意距离最小即相似系数最大。
2.最小相似系数法类间相似系数计算公式为
3.重心法(仅用于样品聚类)用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为
第10页,课件共37页,创作于2023年2月3711
4.类平均法(仅用于样品聚类)对Gp
类中的np
个样品与Gq类中的nq个样品两两间的个平方距离求平均,得到两类间的相似系数
类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。
第11页,课件共37页,创作于2023年2月37125.离差平方和法又称Ward法,仅用于样品聚类。此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。第12页,课件共37页,创作于2023年2月3713例19-1测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:
试用系统聚类法将这4个指标聚类。
本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。第13页,课件共37页,创作于2023年2月3714聚类过程如下:
(1)各个指标独自成一类G1={X1},G2={X2},G3={X3},G4={X4},共4类。
(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,等于0.852,将两类合并成G5={X1,X2},形成3类。计算G5与G3、G4间的类间相似系数
G3,G4,G5的类间相似矩阵
第14页,课件共37页,创作于2023年2月3715
(3)由于G3和G4类间相似系数最大,等于0.732,将两类合并成G6={G3,G4},形成两类。计算G6与G5间的类间相似系数。
(4)最终将G5,G6合并成G7={G5,G6},所有指标形成一大类。
第15页,课件共37页,创作于2023年2月3716根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:{X1,X2},{X3,X4},即长度指标归为一类,围度指标归为另一类。
身高下肢长腰围胸围
G1G2G3G4图19-14个指标聚类的系统聚类图0.8520.7320.234第16页,课件共37页,创作于2023年2月3717例19-2今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。
表19-14个运动项目的测定值运动项目名称能耗
X1(焦耳/分、m2)糖耗X2(%)负重下蹲G127.89261.421.3150.688引体向上G223.47556.830.1740.088俯卧撑G318.92445.13-1.001-1.441仰卧起坐G420.91361.25-0.4880.665变量的标准化X1‘
X2’第17页,课件共37页,创作于2023年2月3718本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化,分别是Xi的样本均数与标准差。变换后的数据列在表19-1的,列。第18页,课件共37页,创作于2023年2月3719聚类过程如下:
(1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得
同样负重下蹲与俯卧撑之间的距离
同理,计算出距离矩阵
第19页,课件共37页,创作于2023年2月3720(2)G2,G4间距离最小,将G2,G4并成一新类G5={G2,G4}。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离
G1,G3,G5的距离矩阵
(3)G1,G5间距离最小,将G1,G5并成一新类G6={G1,G5}。计算G6与G3之间的距离
(4)最终将G1,G6合并成G7={G1,G6},所有指标形成一大类。d15=Max(d12,d14)=Max(1.289,1.803)=1.803d35=Max(d23,d34)=Max(1.928,2.168)=2.168第20页,课件共37页,创作于2023年2月3721
根据聚类过程,绘制出系统聚类图(见图19-2)。结合系统聚类图和专业知识认为分成两类较好:{G1,G2,G4},{G3}。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大,训练时应提高膳食标准。
图19-24个运动项目样品聚类的系统聚类图G2
G4
G1G3
G5G6G7第21页,课件共37页,创作于2023年2月3722例19-3调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况,检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据列于表19-3,其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。
第22页,课件共37页,创作于2023年2月3723表19-3沥青工和焦炉工的生物标志物检测及聚类分析结果工人编号(样品号)年龄工龄吸烟支/d血清P21P21倍数P53SCE染色体畸变数染色体畸变细胞数聚类结680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221第23页,课件共37页,创作于2023年2月3724
本例选择了欧氏距离下的最小相似系数法、类平均法和离差平方和法对数据进行聚类分析。分析结果分别见图19-3、图19-4、图19-5。数据分析前,各变量已作标准化处理。第24页,课件共37页,创作于2023年2月3725
图19-327名沥青工和焦炉工的最小相似系数法系统聚类图第25页,课件共37页,创作于2023年2月3726图19-427名沥青工和焦炉工的类平均法系统聚类图
第26页,课件共37页,创作于2023年2月3727图19-527名沥青工和焦炉工离差平方和法的系统聚类图第27页,课件共37页,创作于2023年2月3728
三种聚类结果有较大的出入,可见这些方法分类效果是有差异的,特别是在分类变量较多时差异愈加明显,这就要求在聚类分析前,尽可能地选择有效变量,如本例的变量P21和P53倍数。详细解读聚类图,一般都能够获得许多有用的信息。第28页,课件共37页,创作于2023年2月3729(聚类实例分析结果)
相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚类方法外,还必须结合专业知识。
第29页,课件共37页,创作于2023年2月3730
结合专业知识,本例认为类平均法聚类结果比较合理,分类结果列入表19-3最后一栏。它将{10,20,23}号工人分为一类,其余分为另一类。研究者最终发现10,20,23号工人为癌症高危人群。根据离差平法和法聚类图,不难发现{10,20,23,8,16,26}号聚在一类,提示8,16,26号工人也可能是癌症高危人群之一。第30页,课件共37页,创作于2023年2月3731以下列出类平均法具体聚类过程,供参考。类平均法系统聚类过程聚类步骤两类合并欧氏距离1步(样品18,样品21)合并成新1类1.18562步(样品5,样品13)合并成新2类1.49693步(样品12,样品24)合并成新3类1.52254步(样品20,样品23)合并成新4类1.60505步(新1类,样品19)合并成新5类1.70796步(样品6,样品11)合并成新6类1.82437步(样品8,样品26)合并成新7类1.90988步(样品4,样品7)合并成新8类1.93179步(样品1,样品14)合并成新9类2.162010步(样品9,样品15)合并成新10类2.200711步(新6类,样品27)合并成新11类2.383312步(新7类,样品22)合并成新12类2.559013步(新3类,样品25)合并成新13类2.795614步(新5类,新2类)合并成新14类2.869615步(新4类,样品16)合并成新15类2.960516步(新12类,新8类)合并成新16类3.112717步(新10类,样品17)合并成新17类3.434618步(新11类,新9类)合并成新18类3.580819步(新16类,新13类)合并成新19类3.937920步(新18类,样品3)合并成新20类4.082421步(新15类,样品10)合并成新21类4.415522步(新20类,新14类)合并成新22类4.542023步(新19类,样品2)合并成新23类5.247924步(新23类,新22类)合并成新24类6.108625步(新24类,新21类)合并成新25类6.910226步(新25类,新17类)合并成新26类7.1642第31页,课件共37页,创作于2023年2月3732
动态样品聚类
当待分类的样品较多时,如海量数据挖掘,系统聚类分析将耗费较多的计算资源来储存相似系数矩阵,计算速度缓慢。另外,用系统聚类方法聚类,样品一旦归类后就不再变动了,这就要求分类十分准确。针对系统聚类方法的这些缺陷,统计学者提出所谓动态聚类分析方法,这种分类方法既解决了计算速度问题,又能随着聚类的进展对样品的归类进行调整。第32页,课件共37页,创作于2023年2月3733
动态样品聚类的原理是:首先确定几个有代表性的样品,称之为凝聚点,作为各类的核心,然后将其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2.3 数的组成(说课稿)-一年级数学下册(沪教版)
- Lesson 26:Keep the Candle Burning说课稿初中英语冀教版2012九年级全册-冀教版2012
- 2023三年级英语下册 Module 4 Things we enjoy Unit 10 Funny cartoons第2课时说课稿 牛津沪教版(三起)
- Module 3 Unit 2 Are you doing your homework (说课稿)-2023-2024学年外研版(一起)英语二年级下册
- 3.5.2 神经调节的结构基础(第一课时)说课稿-2023-2024学年济南版生物七年级下册
- 9 运动的形式说课稿-2025年小学科学四年级上册青岛版(五四制2024)
- 2024-2025学年高中语文 第一单元 中国古代戏曲和中外话剧 序列写作1 学习横向展开议论说课稿 新人教版必修4
- 9月全国计算机一级MSOffice应用考试真题
- 中职教师面试常见问题
- 2025年电信员工个人工作总结报告5篇
- 【核心素养目标】粤教粤民版《劳动技术》六上 第7课《挂钩》课件
- DB36T 1593-2022 高速公路日常养护技术规范
- 电力配网投标技术文件
- 省建设工程施工图审查中心方案节能评审意见书
- 互联网广告行业广告投放策略优化方案
- 装修案例汇报
- 非新生儿破伤风诊疗规范(2024年版)解读
- 6大国工匠百炼成器教案-蓝色
- 食品生产企业产品贮存运输及交付管理制度
- DB3301-T 65.11-2024 反恐怖防范系统管理规范 第11部分:医院
- 2025届广东省深圳市深圳实验学校初中部联考化学九年级第一学期期末综合测试试题含解析
评论
0/150
提交评论