聚类分析课件_第1页
聚类分析课件_第2页
聚类分析课件_第3页
聚类分析课件_第4页
聚类分析课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类和聚类分析指导老师:任俊玲成员:宋小舟金铭胡锐豪程亚兵.目录1.聚类的概念2.聚类分析的原理3.聚类分析的分类4.距离和相似系数5.系统聚类分析6.快速聚类7.致谢.什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物.

什么是聚类聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。.聚类分析的原理聚类分析的基本原理:我们分析的样本或指标之间存在着程度不同的相似性(亲疏关系)。.聚类分析法的分类Q型聚类分析是对样本进行分类处理的R型聚类分析是对变量(指标)进行分类处理的。R型聚类分析的特点(1)R型聚类分析不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。

(2)根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析。.Q型聚类分析的特点

(1)可以综合利用多个变量的信息对样本进行分类。

(2)分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果。

(3)聚类分析所得到的结果比传统的分类方法更细致,全面,合理。.聚类分析的分类.距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法:相似系数;另一种方法:距离;.距离的定义方式绝对值距离欧氏(Euclidean)距离切比雪夫(Chebychev)距离明氏(Minkowski)距离.相似系数夹角余弦Pearson相关系数指数相似系数.系统聚类分析的原理于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样本(或指标)都聚合完毕.把不同的类型一一划分出来,形成一个由小到大的分类系统,最后在把所有的样品(或指标)间的亲疏关系表示出来,这种方法称为系统聚类分析法把.系统聚类的基本步骤构造n个类,每个类包含且只包含一个样品。计算n个样品两两间的距离,构成距离矩阵,记作D0。合并距离最近的两类为一新类。计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。画聚类图。决定类的个数,及各类包含的样品数,并对类作出解释。.系统聚类(Hierarchicalclustering)最短距离法(singlelinkage)最长距离法(completelinkage)中间距离法(medianmethod)可变距离法(flexiblemedian)重心法(centroid)类平均法(average)可变类平均法(flexibleaverage)Ward最小方差法(Ward’sminimumvariance).类间距离S1S3S2S4S5最短距离(singlelinkage).最长距离(completelinkage)类间距离S1S3S4S5.类间距离S1S3S2S4S5重心间距离(centroid).类间距离S1S3S2S4S5平均距离(average).类间距离S1S3S2S4S5最短距离.例6个不同民族的标化死亡率与出生时的期望寿命

.各民族之间的欧氏距离(标准化资料)D0

满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2020蒙古族G3={S3}1.7320.5320维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110.D1

G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2020G3={S3}1.7320.5320G4={S4}3.5702.3741.8510G7={S5,S6}3.1731.9731.4480.4060.D2G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5320G8={S4,S5,S6}3.1731.9731.4480.D3G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.2020G8={S4,S5,S6}3.1731.4480.D4G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.4480.例资料的谱系聚类图(最短距离法)

藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertrees)0.3110.4060.5321.2021.448.例资料的谱系聚类图(最长距离法)

藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论