数据挖掘-第10章--聚类分析:基本概念和方法_第1页
数据挖掘-第10章--聚类分析:基本概念和方法_第2页
数据挖掘-第10章--聚类分析:基本概念和方法_第3页
数据挖掘-第10章--聚类分析:基本概念和方法_第4页
数据挖掘-第10章--聚类分析:基本概念和方法_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘与商务智能,范勤勤 物流研究中心,第十章 聚类分析,聚类分析,聚类分析:基本概念,4,聚类分析:应用示例,5,数据挖掘对聚类的典型要求,6,可以用于比较聚类方法的诸方面,7,基本聚类方法概述,8,9,基本聚类方法概述,划分方法,划分方法,11,K-均值:一种基于形心的技术,12,K-均值:一种基于形心的技术,13,K-均值:例子-步骤1,14,随机选择3个簇中心,K-均值:例子-步骤2,15,分配每个点到最近的簇中心,K-均值:例子-步骤3,16,移动每个簇中心到每个簇的平均位置,K-均值:例子-步骤4,17,把对象重新分布到离簇中心最近的簇中,K-均值:例子-步骤4,18,A: th

2、ree points with animation,K-均值:例子-步骤4b,19,重新计算簇的均值,K-均值:例子-步骤5,20,把簇的中心移到簇的均值,K-均值:缺点,21,是局部最优,不是全局最优 要求用户必须事先给出要生成的簇的数目,选择初始划分的最佳方向、更新分区和停止准则 不适合发现大小很不相同的簇或具有凹状的簇 算法只有在簇的平均值被定义的情况下才能使用,这不适合涉及有类属性的数据 对噪音和异常点非常敏感 孤立点(极大值)的存在,会大幅度扭曲数据的分布,K-中心点:一种基于代表对象的技术,22,K-中心点:一种基于代表对象的技术,23,0,1,2,3,4,5,6,7,8,9,10

3、,0,1,2,3,4,5,6,7,8,9,10,K=2,任意选取 k 个对象作为初始 medoids,将其余对象分配到最近的medoids所代表的类,随机选取一非中心对象,Oramdom,计算交换代价,如果聚类质量被提高,则代替原medoid,Do loop Until no change,层次方法,凝聚的与分裂的层次聚类,25,层次方法,26,算法方法距离度量,27,BIRCH:使用聚类特征树的多阶段聚类,28,29,CF树结构,Chameleon:使用动态建模的多阶段层次聚类,30,概率层次聚类,31,基于密度的方法,基于密度的方法,33,DBSCAN:一种基于高密度连通区域的基于密度的聚类,34,密度相连,DBSCAN:一种基于高密度连通区域的基于密度的聚类,35,OPTICS:通过点排序识别聚类结构,36,OPTICS:通过点排序识别聚类结构,37,例: 设=6(mm), MinPts=5. p的核心距离是p与第四个最近的数据对象之间的距离。 q1关于p的可达距离是p的核心距离(即=3mm), 因为它比从p到q1的欧几里得距离要大。 q2关于p的可达距离是从p到q2的欧几里得距离, 它大于p的核心距离 。,38,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论