数据挖掘 聚类分析(第六章)_第1页
数据挖掘 聚类分析(第六章)_第2页
数据挖掘 聚类分析(第六章)_第3页
数据挖掘 聚类分析(第六章)_第4页
数据挖掘 聚类分析(第六章)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 例 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表: x1 x1x2x2 x3 x3 x4 x4x5x5x6x6 x7 x7 x8 x8 x1 x10 00.600.600 00.430.430.460.460 00.470.470.450.450.120.120 00.570.570.450.450.230.230.220.220 00.380.380.400.400.210.210.290.290.220.220 00.310.

2、310.790.790.650.650.700.700.800.800.660.660 00.450.450.450.450.270.270.230.230.140.140.190.190.770.770 0 试用将它们聚类。x2x2x3x3x4x4x5x5 x6 x6 x7 x7 x8 x8确定类的个数确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。 给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=2.2,当聚类时,类间的距离已经超过了2.2,则聚类结

3、束。什么是好的聚类方法?v一个好的聚类方法可以产生高质量的聚类:类的内部具有较高的相似度类间具有较低的相似度v聚类结果的质量依赖于相似度评价方法以及它们的应用;v聚类结果的质量也取决于它发现隐藏模式的能力。.K-均值聚类vK-均值聚类方法是最简单、最常用的使用使用准则的方法。vK-均值聚类是属于划分方法中的基于质是属于划分方法中的基于质心技术的一种方法。划分的思路是以心技术的一种方法。划分的思路是以k为参数,把为参数,把n个对象分为个对象分为k 个类,以使类个类,以使类内具有较高的相似度,而类间的相似度内具有较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象较低。相似度的计算根据一

4、个类中对象的平均值的平均值(被看作类的重心被看作类的重心)来进行。来进行。 v K-均值聚类的处理流程如下。首先,随均值聚类的处理流程如下。首先,随机选择机选择k个对象,每个对象都初始地代表一个个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其类的平均值或中心。对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。这个过程不然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛。断重复,直到准则函数收敛。 v注意:类均值的初始值是任意分配的,可以随机分配也可以直接使用前K个成员的属性值。K-均值聚

5、类实例均值聚类实例v假设给定如下要进行聚类的元组:假设给定如下要进行聚类的元组:2,4,10,12,3,20,30,11,25,并假设,并假设k=2.初始初始时用前两个数值作为类的均值;时用前两个数值作为类的均值;m=2 和和 m=4.利用欧几里德距离,可得利用欧几里德距离,可得K1=2,3和和K2=4,10,12,20,30,11,25。数值。数值3与两个均与两个均值的距离相等,所以任意地选择值的距离相等,所以任意地选择K1作为其所作为其所属类。在这种情况下,可以进行任意指派。属类。在这种情况下,可以进行任意指派。计算均值可得计算均值可得m1=2.5 和和 m2=16。重新对类。重新对类中的

6、成员进行分配,不断重复上述过程,直中的成员进行分配,不断重复上述过程,直至均值不再变化。至均值不再变化。 v具体过程如表:具体过程如表:m1m2K1K2242,34,10,12,20,30,11,252.5162,3,410,12,20,30,11,253182,3,4,1012,20,30,11,254.7519.62,3,4,10,11,1220,30,257252,3,4,10,11,1220,30,25 v注意在最后两步中类的成员是一致的,由于均值不再变化,所以均值已经收敛了。因此,该问题的答案为: K1=2,3,4,10,11,12 和 K2=20,30,25 K-均值法要求定义的类

7、均值存在,并且要以期均值法要求定义的类均值存在,并且要以期望的类的数目望的类的数目k作为输入。作为输入。 要求用户必须事先给出要求用户必须事先给出k(要生成的类的数目)(要生成的类的数目)可以算是该方法的一个缺点。而且,它对于可以算是该方法的一个缺点。而且,它对于“噪声噪声”和孤立点数据是敏感的,少量的该类和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。数据能够对平均值产生极大的影响。K-MeansK-Means聚类示例聚类示例v 01234567891001234567891001234567891001234567891001234567891001234567891001

8、2345678910012345678910 增量聚类v 在越来越多的应用中,必须对收集来的大量数据进行聚类。“大量”的定义随着技术的改变而不同。在六十年代,“大量”意味着几千个聚类的样本。现在,有些应用涉及到成千上万个高维样本的聚类。 v增量聚类方法是最流行的,我们将解释它的基本原理,下面是增量聚类方法的所有步骤: v1、对样本排序后,把第一个数据项分配到第一个类里。v2、考虑下一个数据项,把它分配到目前某个类中或一个新类中。给分配是基于一些准则的,例如新数据项到目前类的重心的距离。在这种情况下,每次添加一个新数据项到一个目前的类中时,需要重新计算重心的值。v3、重复步骤2,直到所有的数据样

9、本都被聚类完毕。 v例如: 设 x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5,0),X5=(5,2) 假定样本的顺序是:X1,X2,X3,X4,X5, 类间相似度的阈值水平是s=3。1、第一个样本X1将变成第一个类C1=x1.x1的坐标就是重心坐标M1=0,2。2、开始分析其他样本。a)把第2个样本x2和M1比较,距离d为: d(x2,M1)= =2.032202 v因此,x2属于类C1,新的重心是: M1=(0,1)b)第3个样本x3和重心M1(仍是仅有的重心)比较: d(x3,M1)=C)第4个样本X4和重心M1比较: 221.5 11.8 3 312311 , 1 0.5,0.66xCCx x xM v d(x4,M1)=v因为样本到重心M1的距离比阈值s大,因此该样本将生成一个自己的类C2=X4, 其相应的重心为M2=5,0。d)第5个样本和这两个类的重心相比较: d(x5,M1)= d(x5,M2)=224.50.66

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论