聚类分析ppt课件.ppt_第1页
聚类分析ppt课件.ppt_第2页
聚类分析ppt课件.ppt_第3页
聚类分析ppt课件.ppt_第4页
聚类分析ppt课件.ppt_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2,一、基本概念,模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究中的一个重要领域。无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计算机视觉分析,统计分析,图像处理,医疗信息处理,生物学科,社会学科和心理学科等。聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成员拥有相似的特性,相反,不同组中的成员特性相异。,3,二、问题引出,要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度,而这个相似程度应该如何用数学描述和度量呢?(1)样本之间如何相似度测量?(2)类与类之间如何相似度测量?(3)变量相似度测量又会怎样呢?,4,三、距离和相似系数,对于一群有待分类的样本点需要P个变量描述,则每个样本点可以看成是空间中的一个点。因此,我们很自然地想到可以用距离来度量样本点间的相似程度。从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性”的度量。因此,我们会想到用相似系数来度量样品或变量的亲疏程度。,5,距离记是样本点集,距离是的一个函数,满足条件:(1)(2)(3)(4)这是距离定义,满足正定型、对称性和三角不等式。,6,在聚类分析中,最常用的是闵式(Minkowski)距离,即:当q=1,2或趋近于正无穷时,则分别可以得到:(1)绝对值距离:(2)欧氏距离:(3)车比雪夫距离:注意:采用闵式距离一般要求变量具有相同量纲!,7,在采用闵式距离时,注意的是避免变量的多重相关性,多重相关性所造成的重叠会片面强调某些变量的重要性。由于这些缺点,一种改进的距离就是马氏距离,即:其中:x,y为来自P维总体Z的样本观测值;为Z的协方差矩阵,实际中往往是未知的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。,8,相似系数,夹角余弦:夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在P维空间的向量:则:,相关系数:,9,四、类与类之间的相似性度量,如果有两个样本类之G1和G2,常用下列方法度量它们之间的距离:(1)最短距离法:,G1,G2,10,(2)最长距离法:,G1,G2,11,(3)重心法:,G1,G2,12,(4)类平均法法:,G1,G2,13,五、聚类图及实例分析,例如,在平面上有7个点如图a所示,可以用聚类图b表示聚类结果。,图a,图b,14,记聚类结果如下:(1)当距离为时,分为一类,即(2)当距离为时,分为两类,即(3)当距离为时,分为三类,即,15,(4)当距离为时,分为四类,即(5)当距离为时,分为六类,即(6)当距离小于时,分为七类,每一个点自成一类。,16,怎样才能生成以上的聚类图呢?设步骤如下:(1)计算n个样本点两两之间的距离;(2)首先构造n个类,每一个类中只包含一个样本点,每一类的平台高度均为0;(3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度;(4)计算新类与当前各类的距离,若类的个数已经等于1,转入先一步,否则返回第三步;,17,(5)画聚类图;(6)决定类的个数和类。最短距离法的聚类举例:设有5个销售员,他们的销售业绩由二维变量描述,见下表:,18,记销售员的销售业绩为。使用绝对值距离来测量点与点之间的距离,使用最短距离法来测量类与类之间的距离,即,19,由距离公式可以算出距离矩阵为:按照前面所述步骤可以得到如下聚类图:,有了聚类图,就可以按要求就行分类。可以看出,在这五个推销员中的工作成绩最好,的工作成绩较好,而的工作成绩较差!,20,MATLAB程序如下:clc,clear;a=1,0;1,1;3,2;4,3;2,5;y=pdist(a,cityblock);%求a的两两行向量间的绝对值距离yc=squareform(y);%变换成距离方阵z=linkage(y);%产生等级聚类树h,t=dendrogram(z);%画聚类图T=cluster(z,maxclust,3);%把对象划分成3类fori=1:3tm=find(T=i);%求第i类的对象tm=reshape(tm,1,length(tm);%变成行向量fprintf(第%d类的有%sn,i,int2str(tm);%显示分类结果end,21,六、变量聚类分析,在系统分析和评估过程中,为避免遗漏某些重要因素,往往在一开始选取指标时,尽可能多的考虑所有的相关因素。而这样做的结果则是变量过多,变量间的相关度高,给系统分析与建模带来很大的不便。因此,我们常常希望能够研究变量间的相似关系,按照变量的相似关系把它们聚合为若干类,进而找出影响系统的主要因素。,22,1、变量相似性度量与前面的样本相似性度量一样,常用的变量相似性度量有两种,分别是:(1)夹角余弦(2)相关系数,23,2、变量聚类法类似于样本集合聚类分析,变量聚类法采用了与系统聚类法相同的思路和过程,常用的有:(1)最长距离法(2)最短距离法,24,3、变量聚类法举例在服装标准制定中,对某地成年人的14个部位尺寸进行了统计,获得各因素之间的相关系数表如下:,25,类其中x1为上身长,x2为手臂长,x3为胸围,x4为颈围,x5为总肩围,x6为总胸宽,x7为后背宽,x8为前腰节高,x9为后腰节高,x10为总体长,x11为身高,x12为下体长,x13为腰围,x14为臀围。用最大系数法对这14个变量进行系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论