




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、聚类分析与判别课件聚类分析与判别课件聚类分析(Cluster Analysis)是依据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医学等领域,有着广泛的应用。例 为制定我国成年女子的服装标准,选了14项身体指标:(1)总的体高Y1 (2)身高Y2 (3)上体长Y3 (4)手臂长Y4 (5)肩宽Y5 (6)胸围Y6 (7)颈围Y7 (8)前胸Y8 (9)后背Y9 (10)前腰节Y10 (11)后腰节Y11 (12)下体长Y12 (13)腰围Y13 (14)臀围Y14对3454个成年女子分别进行了测量。如何根据样本的测量数据制定合乎中国国情的成年女子服装标准。聚类分析与判别课
2、件上体长上体长y1手臂长手臂长y2下体长下体长y12总体高总体高y10身高身高y11前腰节前腰节y8后腰节后腰节y9胸围胸围y3腰围腰围y13臀围臀围y14颈围颈围y4前胸宽前胸宽y6后背宽后背宽 y7总肩宽总肩宽 y5 距离 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 相关系数 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3聚类分析与判别课件问如何将下述卡通人物分类?聚类分析与判别课件管理实际中经常会遇到类似的问题。一般地,设有p个指标(变量),n个对象,依据这n个对象在这p个指标下的数据,对这n个对象进行聚类。设数据为指标: 1, 2, , p对象1对象2对象n
3、npnnppxxxxxxxxx.212222111211pxxx11211.,P维空间中的一个点聚类问题,就是对p维空间中的n个点的聚类问题。聚类分析与判别课件一些要注意的问题变量(指标)并非越多越好。变量太多,就难以判断聚类结果的实际意义。例如对企业按照技术能力的各项指标(变量)聚类,可以在技术能力等方面把企业分为不同的类别。但如果把企业相关的所有指标都包括进来,对分类结果的含义就难以判断了。只要指标间有一定相关关系(不必高度相关),就可以对所观察的一群个体分类(Q-型聚类)。从而可以对个体进行进一步研究。例如可以对消费者的偏好进行分类;可以依据不同地区的有关经济特征(变量)对地区进行分类;
4、等等。如果指标(变量)过多,也可以对指标进行分类(R-型聚类),把含义相近的指标聚在一起,将所有指标分为若干类。聚类分析与判别课件为了消除不同变量的单位对聚类的影响,应当首先将所有的数据标准化。对上述数据矩阵X而言,按列进行标准化,就可解决不同数据单位问题。jjijijSXXx其中 分别表示第j列数据的均值与标准差。jjSX ,聚类分析与判别课件直观地,应将“相似”的对象分为一类,但如何刻画“相似”。根据前面的讨论,聚类实际上是对n维空间的点进行的,因此“相似”的点的“距离”也近。具体来说,先计算第i个对象与第j个对象之间的距离rij,就可得到对象之间“相似关系”矩阵:对象1对象2对象nnnn
5、nnnrrrrrrrrr.2122221112111, 2, , n对象, 对象, , 对象对通常的距离而言, rij= rji,因此该矩阵为对称矩阵。聚类分析与判别课件(1)欧氏距离:欧氏距离的平方为pkjkikijxxpr122)(1(2)偏差距离:pkjkikijxxpr1|1聚类分析与判别课件(3)明考夫斯基(Minkowski)距离(的q次方):pkqjkikqijxxr1|(4)马氏(Mahalanobis)距离(的平方):)()(12jiTjiijxxxxrV其中V是协方差矩阵。在聚类分析中,(1)、(2)中的常数因子(1/p)可以去掉,这样它们就是明氏距离的特殊情况。在具体应用
6、时,可根据实际问题选用其中一种距离。聚类分析与判别课件(1)相关系数:pkjjkpkiikpkjjkiikijxxxxxxxxr12121)()()((2)余弦:pkjkpkikpkjkikijxxxx12121cos聚类分析与判别课件(1)类的定义:由1个以上(含1个)对象组成的集合。(2)类与类之间的距离,有如下几种规定:用“代表点”之间的距离表示,可以采用两个类之间距离最近(或最远)的点,分别作为这两类的代表点。具体又可分为:最短距离:取距离最近的两点间距离为两类间的距离。最长距离:取距离最远的两点间距离为两类间的距离。聚类分析与判别课件用两个类(设它们分别是类S和类T)中所有点之间距离
7、(平方)的平均值,作为两个类之间的距离(的平方):TjSiijtsdnnTSd,221),(其中ns,nt分别是两类中点的个数。dij是点i与点j之间的距离。这种方法的优点在于,类间的距离不依赖于类内的个别点。采用这种距离聚类的方法称为组间连接法(Between-group linkage)。按照某一规则,选择类中的一点,作为该类的“代表点”,然后通过代表点间的距离计算类间距离。聚类分析与判别课件S1S3S2S4S5最短距离(single linkage)聚类分析与判别课件最长距离(complete linkage)S1S3S4S5聚类分析与判别课件S1S3S2S4S5平均距离(average
8、)(61235234225224215214212ddddddD 聚类分析与判别课件l基本思想来源于方差分析。它认为:如果分类正确,同类间的离差平方和应较小,类与类之间的类差平方和(与距离有关)应较大.l具体做法是,先将n个样本分成一类,然后每次缩小一类,每缩小一类离差平方和就要增大.聚类分析与判别课件思路:聚类是一个迭代过程,首先将每个对象本身作为一类,然后进行迭代,每次迭代都将距离最近(或最远)的类合并成新的类,因此每次迭代类的数目将减少,直至最后所有的对象并为一类为止。可以用下面的图形形象地说明聚类过程采用不同的“距离”将得到不同的聚类效果。第1层次第2层次第3层次第4层次第5层次聚类分
9、析与判别课件步骤:(1)把每一个点(对象)作为一类(称为第一层的类)。(2)找出距离最小(或最大)的dij,从而得出距离最近(或最远)的两类i和j,把它们合并成层次更高的一类。如果有两个距离dij和dst(例如d12和d56)同时达到最小(或最大),则同时把i、j并为一类,s、t并作一类。若i、j与s、t中有一个相同(例如d12 = d26),则把这三类并作一类。对有更多小类之间距离同时最小(或最大)可类似处理。(3)重复(2),直至所有的点(对象)都并成同一类为止。如果做(2)之前的类是第k层次的类,进行(2)之后的类就是第k+1层的类。聚类分析与判别课件将各点(对象)聚类后,最后需要确定以
10、第几层的类作为最终的分类标准。通常使用如下的准则1:准则1:各类重心之间的距离必须较大(为此应作假设检验)。准则2:各类所包含的元素个数都不过分地多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。但是,一般不使用第一层的类,这实际上是将每个元素各自作为一类;也不使用最后一个层次的类,这实际上是将所有元素作为同一类。这样做失去了分类的意义。聚类分析与判别课件聚类的另一种方式:反其道而行之。将前述的聚类过程反过来,先将所有点(对象)看成一类,然后按距离的远近,逐步将类拆分成更细的类,直到最后每一点自己为一类为止。为了区分:前面的方法也
11、称为聚集法;这里的方法也称为分解法。聚类分析与判别课件从上面的讨论来看,我们是根据“距离”的远近来分类,但须注意,距离的定义有多种,它们可能并不同于通常直观的距离。因此有时需要将距离最“远”的归并为一类。例如如果取相关系数作为“距离”,则该“距离”越大,相应的对象的相关程度就越高,因此宜将它们并为一类。但实际进行统计分析称相关系数等为相似系数, 并取距离=(1-相似系数).聚类分析与判别课件我们上面讨论的是对对象的分类,这相当于在下列矩阵中将每一行看成一点,然后考虑对这些点的分类。指标: 1, 2, , p对象1对象2对象nnpnnppxxxxxxxxx.212222111211但有的实际问题
12、,可能遇到较多的指标,因此为了清楚分类的实际意义,需要先对指标进行分类。这只须将上述矩阵中的每一列,看成n维空间的点,然后用前面的方法得到适当的分类即可。或者将上述的方法应用与上面矩阵的转置矩阵即可。聚类分析与判别课件聚类分析的方法:层次聚类法、迭代聚类法层次聚类法:就是上一节介绍的方法,又分为:聚集法(Agglomerative Method)和分解法(Divisive Method)。我们主要介绍层次聚类法,这也是最常用的聚类方法。聚类的结果可以用树状图或冰柱图表示。后面将结合例子说明这两种表示方法。聚类分析与判别课件迭代聚类法(也称为动态聚类法):这种方法需要指定聚类中心,这相当于指定各
13、类的典型元素。指定聚类中心的方法:可以人为地取定各类的中心,也可由机器产生初始中心。然后通过迭代过程得到所有对象的分类。用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。聚类分析与判别课件迭代过程是:1、先指定两个迭代(聚类)中心。2、计算每个点到迭代中心的“距离”, 该点到哪个迭代中心的距离近,就将其划分到那个迭代中心所在的那一类。3、修改迭代中心为各类的“重心”,再回到第2步。指定聚类中心第一次聚类聚类分析与判别课件计算各类的中心第二次聚类聚类分析与判别课件例例 现有13个运动员,从体形、生理、心理三个方面对他们进行了测评,现在要根据测评的结果对这些运动员进行分类。
14、数据:见文件“判别运动员”聚类分析与判别课件聚类分析与判别课件对运动员聚类而非对指标聚类同时给出统计分析结果与作图结果聚类分析与判别课件要求给出聚类进度表,将输出凝聚过程中每一步的结果聚类分析与判别课件输出树状图输出冰柱图聚类分析与判别课件对分类变量对二值变量聚类分析与判别课件聚类分析与判别课件聚类分析与判别课件聚类步骤合并时类的距离合并了哪些元素合并过程中第一类的元素上一次在第几步出现合并过程中第一类的元素下次出现在第几步聚类分析与判别课件V Ve er rt ti ic ca al l I Ic ci ic cl le eXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXX X XXXXXXXXXXXXXX XXXXXXX X XXXXXXXXXXXXXX X XXXXX X XXXXXXXXXXXXXX X XXXXX X XXXXXXXXX XXXX X XXXXX X X XXXXXXX XXXX X X XXX X X XXXXXXX XXXX X X XXX X X X XXXXX XXXX X X X X X X X XXXXX XXXX X X X X X X X XXXXX X XX X X X X X X X X XXX X XN
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目部归档管理办法
- 长沙指标生管理办法
- 工业园污水回用系统建设方案
- 源网荷储一体化项目用电负荷特性分析及优化方案
- 智慧水务系统防内涝应用方案
- 湖水生态修复效果评估方案
- 安全培训简答题课件
- 源网荷储一体化项目增量配电网建设运营方案
- 城市广场植物资源配置与景观应用研究
- 多学科交叉融合的人才培养策略
- 2025数学步步高大一轮复习讲义人教A版复习讲义含答案
- 《立在地球边上放号》《峨日朵雪峰》联读课件32张高中语文必修上册
- 家具厂封边技能培训
- 重点群体人员本年度实际工作时间表
- DBJ50-T-386-2021 建筑施工现场扬尘控制标准
- 数据科学与大数据技术导论-第1章-数据科学概述
- 健康指南妊娠糖尿病孕期饮食控制的重要性
- 《美丽中国是我家》-教学设计
- 军工行业保密知识传授培训
- 实验动物微生物学和寄生虫学质量控制课件
- 殡葬经济现代墓地投资项目分析报告
评论
0/150
提交评论