改进的k_平均聚类算法研究_第1页
改进的k_平均聚类算法研究_第2页
改进的k_平均聚类算法研究_第3页
改进的k_平均聚类算法研究_第4页
改进的k_平均聚类算法研究_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 200 改进的 k-平均聚类算法研究孙士保 1,2,秦克云 1(1. 西南交通大学智能控制开发中心,成都 610031; 2. 河南科技大学电子信息工程学院,洛阳 471003摘 要:聚类算法的好坏直接影响聚类的效果。该文讨论了经典的 k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤 立点数据敏感等不足,提出了一种基于加权改进的 k-平均聚类算法,克服了 k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。 实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。 关键词:聚类算法; k-平均;权;聚类数据挖掘Research on Mod

2、ified k-means Data Cluster AlgorithmSUN Shibao1,2, QIN Keyun1(1. Intelligent Control Development Center, Southwest Jiaotong University, Chengdu 610031;2. Electronic Information Engineering College, Henan University of Science and Technology, Luoyang 471003【 Abstract 】 The method of data clustering w

3、ill influence the effect of clustering directly. The algorithm of k-means is discussed, the shortagesof this algorithm such as it can not deal with symbolic data and it is sensitive for data of isolation point and noise are demonstrated. A modified k-meansclustering algorithm based on weights is put

4、 forward, it changes the shortcomings of k-means. Its complexity is analyzed from theoretical. Theexperiments show that, compared with traditional method based on means, the modified data clustering algorithm can improve the efficiency of dataclustering.【 Key words】 cluster algorithm; k-means; weigh

5、ts; cluster data mining计 算 机 工 程 Computer Engineering第 33卷 第 13期Vol.33 No.13 2007年 7月July 2007·人工智能及识别技术 ·文章编号:1000 3428(200713 0200 02文献标识码:A中图分类号:TP183聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。它的目的是使得属于同一类别的个体 之间的相似度尽可能大,而不同类别的个体之间的相似度尽 可能小。在机器学习领域,聚类是无指导学习的一个例子。 聚类分析是知识发现的重要方法,在图像识别、信息检索、 数据挖掘、

6、统计学、机器学习、空间数据库、生物学以及市 场营销等领域有着广泛的应用 14。目前常用的聚类算法包括:以 k-平均算法 (k-Means5和 k-中心点算法 (k-Medoid6为代表的划分法;以 AGNES 6和 DIANA 6为代表的层次聚类算法; 以 DBSCAN 7和 OPTICS 8为代表的基于密度的方法;以 STING 9为代表的基于网格的 方法;以 COBWEB 2和 SOM 10为代表的基于模型的方法; 以顺序地比较一个集合中的对象 11和 OLAP 数据立方体 12为代表的基于孤立点的分析方法。这些方法中的大部分聚类 算法都是面向数值属性,而针对符号属性的比较少 1,2。现有

7、 许多改进的算法,如基于数据场改进的 PAM 聚类算法 13, 基于 Rough 集的层次聚类算法 14。对于文献 13中基于数据 场改进的 PAM 聚类算法是一种较好的划分聚类算法, 但在处 理数据场势函数时的计算开销很大,很难应用到大型数据集 中去;另外,它对数值属性效果较好,对符号属性基本上不 能实现。本文给出一种基于加权改进的 k-平均聚类算法,这 种新的划分聚类算法,不仅可以处理数值属性,而且可以处 理符号属性, 另外, 当被挖掘的数据中存在孤立点数据和 “噪 声”时,这种算法的处理效果也非常好。1 k-平均算法的分析k-平均 (k-Means算法是一种基于划分方法的聚类算法, 它是

8、最早提出的较为经典的聚类算法之一。 1.1 k-平均算法k-平均算法的主要思想是试图对 n 个对象给出 k 个划分 (k n ,其中每个划分代表一个簇。首先,随机地选择 k 个对 象,每个对象初始地代表一个簇的平均值或中心。对剩余的 每个对象, 根据其与各个簇中心的距离, 将它赋给最近的簇。 然后重新计算每个簇的平均值,对数据库中的每个对象与每 个簇的平均值相比较,把对象赋给最相似的某个簇。这个过 程不断重复,直到簇中的对象都是“相似的” ,而不同簇中的 对象都是 “相异的” , 即准则函数收敛使平方误差函数值最小。 1.2 k-平均算法的优缺点用 k-平均算法来聚类时,当结果簇是密集的,而簇

9、与簇 之间区别明显时,它的效果较好。对处理大数据集,该算法 是相对可伸缩的和高效率的,因为它的复杂度是 O (nkt ,其 中, n 是所有对象的数目, k 是簇的数目, t 是迭代的次数。 通常 k «n 且 t «n 。这个算法经常以局部最优结束。但是, k-平均方法只有在簇的平均值被定义的情况下才能使用。这对 于处理符号属性的数据不适用,它还要求用户必须事先给出 k (要生成的簇的数目 值。另外,对于“噪声”和孤立点数据 是敏感的,少量的该类数据能够对平均值产生极大的影响。 1.3 k-平均算法的过程算法:k-平均。划分的 k-平均算法基于簇中对象的平 均值。输入:簇

10、的数目 k 和包含 n 个对象的数据库。基金项目:国家自然科学基金资助项目 (60474022作者简介:孙士保 (1970- ,男,讲师、博士研究生,主研方向:智 能信息处理;秦克云,博士、教授、博士生导师 收稿日期:2006-07-10 E-mail :sunshibao 201输出:k 个簇,使平方误差准则最小。 方法:(1任意选择 k 个对象作为初始的簇中心; (2repeat ;(3根据簇中对象的平均值, 将每个对象 (重新 赋给最类似的簇; (4更新簇的平均值,即计算每个簇中对象的平均值; (5until 不再发生变化。2 基于加权改进的 k-平均算法2.1 权的产生在含有 n 个数

11、据对象的数据库中,每个数据对象对于知 识发现来说作用是不同的,为了区分这些相异之处,给每个 数据对象赋予一个定量的值 j w 即权。 =n j jjj w w w 1,其中=ni j i j x x d n w 1, (1, , (j i x x d 为 i x 与 j x 之间的相异度, 通常 它是一个非负的数值,当 i x 与 j x 之间越相似或接近,其值越 接近 0, 反之就越大, 0 , (=i i x x d 。 相异度有多种计算方法 2, 不同的方法会有不同的聚类效果,这里采用常用的距离作为 度量方式。权重越小,说明越相似或越接近;权重越大,说 明差异性越大或越远。对于比较密集的

12、数据点,它们距中心 点的距离相近,权重是比较接近的,很容易聚类在一簇。而 对于一个稳定的系统来说 “噪声” 和孤立点的数目不会太多, 如果太多这个系统就没法使用,在本算法中“噪声”和孤立 点的权重稍大,为了消除“噪声”和孤立点数据的影响,采 用加权平均的方式来解决。当与别的数据点一起经加权平均 后对整体影响远小于直接采用平均的方法。因此,这种权重 的计算方法还是比较合理的。2.2 基于加权改进的 k-平均算法 (k-WMeans该算法的基本思想是对簇中每个对象计算加权平均值, 将数据库中的每个对象 (重新 赋给最类似的簇,反复进行这 种操作,直到准则函数收敛即使平方误差的总和达到满意的 程度。

13、这显然是针对数值属性数据,而符号属性数据直接对 簇中对象求权平均值,然后再对数据库中的每个对象重新调 整。每一簇的加权平均值的计算方法是:=ti i i j p w t AWM 11, 其中 1(k j AWM j 表示簇 j C 的加权平均值 (或权平均值 ; t 是簇 j C 中对象的个数,不同的簇 t 值不同; i p 是空间中的点, 表示给定的簇 j C 中 t 个数据对象之一; i w 是簇 j C 中数据对象 的权重。准则函数 (平方误差总和 21|ijk i j j p C E p AWM =,其中 i p 取簇 j C 中的每一个数据。k-WMeans 算法:基于簇中对象的加权

14、平均值或权平 均值。输入:簇的数目 k 和包含 n 个对象的数据库。 输出:k 个簇,使平方误差总和 E 最小。 方法:(1任意选择 k 个对象作为初始的簇中心; (2repeat;(3根据簇中对象的加权平均值 (或权平均值 , 将每个对象 (重新 赋给最类似的簇;(4更新簇的加权平均值 (或权平均值 ,即计算每个簇中对象的 加权平均值 (或权平均值 ;(5until不再发生变化。3 与经典的 k-平均算法的比较本算法与经典的 k-平均聚类算法 5相比,就是把经典算 法中的平均值变成了这里的加权平均值或权平均值,在计算 加权平均值或权平均值时会增加一些时间开销,但它的处理 能力却大大增强。它不

15、仅能处理数值属性数据,还可以处理 符号属性数据,对“噪声”和孤立点数据不怎么敏感,少量 的该类数据不会对加权平均值 (或权平均值 产生大的影响。 该算法的复杂度和经典算法是一致的,也是 O(nkt,其中, n 是所有对象的数目, k 是簇的数目, t 是迭代的次数。因此当 k«n且 t«n时对处理大数据集是可伸缩的和高效率的。另外, 该算法和经典算法一样都需要事先估计簇的个数 k ,如想得 到最优解时必须试探不同的 k 值。4 实验结果本文采用 UCI 15提供的机器学习数据库中的部分数据对 k-WMeans 算法和 k-Means 算法进行了测试。对于数值属性 数据采用

16、iris, thyroid-disease和 glass 3组数据集;符号属性 数据采用 balloon, soybean 和 zoo 3组数据集,按 k-WMeans 算法和 k-Means 算法分别对它们进行聚类。在表 1中给出了 聚类的结果。其中,第 1列是数据集的名称;第 2、 3、 4列 分别给出了数据集的样品个数,决策值的个数,以及条件属 性的个数;第 5列和第 6列是 k-WMeans 算法和 k-Means 算 法在数据集上对数据进行分类的精确度。表 1 k-WMeans算法和 k-Means 算法在 UCI 数据集上的比较DataSet #Instance#Concept#A

17、ttribute k-WMeans Accuracy/%k-MeansAccuracy/%Iris 150 3 4 93.1 89.6 Thyroid-disease 215 3 5 95.2 94.3 Glass 214 7 9 88.7 82.6 Balloon 20 2 4 88.0 0 Soybean 47 4 35 97.3 0 Zoo 101 7 16 95.7 0由表 1可以看出 k-WMeans 对数据的聚类结果总体上优 于 k-Means ,同时它又能较好地聚类符号属性数据。5 结束语引进加权方法对现有的 k-Means 算法进行了尝试性的改 进,使其减小了孤立点和“噪声”的

18、影响,实验证明了这种 基于加权改进的 k-平均聚类算法的有效性。而且这种基于加 权的 k-平均算法能够处理符号属性数据,是传统的 k-平均算 法所不能达到的。它可以运用到较大的数据库中去,但它能 否运用到特大型复杂的数据库中进行聚类数据挖掘还有待进 一步的研究。参考文献1 史忠植 . 知识发现 M. 北京 : 清华大学出版社 , 2002.2 Han Jiawei, Kamber M. Data Mining: Concepts and TechniquesM. San Francisco: Morgan Kaufmann Publishers, 2000.3 Grabmeier J, Rud

19、olph A. Techniques of Cluster Algorithms in Data MiningJ. Data Mining and Knowledge Discovery, 2002, 6(4: 303. 4 Jain A K, Murty M N, Flynn P J. Data Clustering: A ReviewJ. ACM Computing Surveys, 1999, 31(3: 264-323.5 MacQueen J. Some Methods for Classification and Analysis of Multivariate Observati

20、onsC/Proc. of the 5th Berkeley Symp. on Math. Statist. 1967: 281-297.6 Kaufman J, Rousseeuw P J. Finding Groups in Data: An Introduction to Cluster AnalysisM. New York: John Wiley & Sons, 1990. 7 Ester M, Kriegel H P, Sander J, et al. A Density-based Algorithm for Discovering Clusters in Large S

21、patial DatabasesC/Proc. of 1996 Intl. Conf. on Knowledge Discovery and Data Mining, Portland, OR. 1996-08: 226-231.(下转第 209页 209 图 3 lena原图 图 4 星球表面 图 5 对图 3处理后的结果 =0.64图 6 对图 3处理后的结果 = 1.64图 7 对图 3处理后的结果 =1.84图 8 对图 4处理后的结果 =0.84图 9 对图 4处理后的结果 =1.64图 10 对图 4处理后的结果 =1.843 结论图 11是利用 photoshop7.0对图 3生

22、成的一幅鱼眼图像, 对比图 5图 7、图 11可以看出,鱼眼图像在表达整体联系 方面的确具有较好的效果,但其缺点也是很显然的。 图 11 由图 3生成的鱼眼图像而由本文方法生成的图像序列 (图 5图 7 不仅对用户感 兴趣的焦点图像给予详细的刻画,同时对焦点图像之间的联 系作出合适的表达,这种表达是以适合人们的记忆特点为基 础的。将本文方法的相关程序在 VC+6.0环境下运行,也获 得了成功。程序代码没有进行优化,以上图像序列的生成时 间分别为 0.22s 和 0.26s ,优化后的结果能够满足用户实时性 浏览的要求。实验表明,本方法显示的图像序列效果是良 好的。参考文献1 Johnson B

23、, Shneiderman B. Treemaps: A Space-filling Approach to the Visualization of Hierarchical Information StructuresC/Proc. ofthe 2nd Intl. IEEE Visualization Conf. 1991-10.2 Zhang X, Furnas G W. MCVEs: Using Cross Scale Collaboration to Support User Interaction with Multiscal StructuresJ. Teleopera- tor

24、s and Virtual Environments, 2005, 14(1: 31-46.3 Roberston G G, Mackinlay J D, Card S K. Cone Trees: Animated 3D Visualizations of Hierarchical InformationC/Proc. of ACM Conference on Human Factors in Computing Systems. 1991: 189. 4 Ziegler J, Kunz C, Botsch V. Matrix Browser Visualizing and Explorin

25、g Large Networked Information SpacesC/Proc. of Extended Abstracts of the International Conference on Computer Human Interaction. 2002: 602-603.5 Ham F V. Using Multi-level Call Matrices in Large ProjectsC/Proc. of IEEE Symp. Information Visualization Conference. 2003: 227-232. 6 Furnas G F. Generali

26、sed Fisheye ViewsC/ Proc. of CHI86 Human Factors in Computing Systems. 1986: 16-23.7 Schaffer D, Zao Z, Greenberg S, et al. Navigating Hierarchically Clustered Networks Through Fisheye and Full-zoom MethodsJ. Transaction on Computer Human Interaction, 1996, 3(2: 162-188. 8贾云得 , 吕宏静 , 刘万春 . 鱼眼变形立体图像恢

27、复稠密深度图的方 法 J. 计算机学报 , 2000, 23(12: 1232-1234.9 Wijk J J V, Nuij W A A. Smooth and Efficient Zooming and PanningC/Proc. of IEEE Symp. Information Visualization Conference. 2003: 15-22.10 Igarashi T. Hinckley K. Speed-dependent Automatic Zooming forBrowsing Large DocumentsC/Proceedings of ACM Symposiu

28、m of User Interface Software and Technology. 2002: 139-148. 11 Bederson B B, Meyer J, Good L. Jazz: An Extensible Zoomable User Interface Graphics Tookit in JavaC/Proc. of the ACM Symp. on User Interface Software. 2000: 171-180.12 Bederson B B. Photo Mesa: A Zommable Image Browser UsingQuantum Treem

29、aps and BubblemapsC/Proceedings of Sym- posium of User Interface Software and Technology. 2001: 71-80. . 13杨立志 , 顾耀林 . 一种基于有理二次样条曲线的图像放大方法 J.计算机应用 , 2006, 26(5: 1061-1063.(上接第 2018 Ankerst M, Breuning M, Kriegel H P, et al. OPTICS: Ordering Points to Identify the Clustering StructureC/Proc. of 1999 ACM-SIGMOD Intl. Conf. on Management of Data, Philadelphi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论