聚类分析原理及步骤_第1页
聚类分析原理及步骤_第2页
聚类分析原理及步骤_第3页
聚类分析原理及步骤_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析原理及步骤i传统的统计聚类分析方法包括系动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用UH聚类分析工具已被加入到许多著名 的统计分析软件包中,如 SPSS SAS等。典型应用1动植物分类和对基因进行分类2 在网上进行文档归类来修复信息3 帮助电子商务的用户了解白己的客户,向客户提供更合适的服务主要步骤1 数据预处理一一选择数量,类型和特征的标度(依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化 为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免维数灾”进行聚类 )和将孤立点移出数据( 孤立点是不依附于一般数 据行为或模型的数据)2为衡虽数据点间的

2、相似度定义一个距离函数既然相类似性是定义一个类的基础,那么不同数据之间在同一个特 征空间相似度的衡量对丁聚类步骤是很重要的,由丁特征类型和特 征标度的多样性,距离度量必须谨慎,它经常依赖丁应用,例如, 通常通过定义在特征空间的距离度量来评估不同对象的相异性,很 多距离度都应用在一些不同的领域一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据问的相异性,一些有关相 似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概 念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两 个图形的相似性3聚类或分组一一将数据对象分到不同的类中【划分方法(划分方法一般从初始划分和最优

3、化一个聚类标准开始,CrispClustering和 Fuzzy Clusterin是划分方法的两个主要技术,CrispClustering,它的每一个数据都属于单独的类; Fuzzy Clustering,它的 每个数据可能在任何一个类中)和 层次方法(基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分 离性用来合并和分裂类)是聚类分析的两个主要方法,另外还有基于密度的聚类,基于模型的聚类,基于网格的聚类】4 评估输出 评估聚类结果的质量(它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般 都用来评价聚类结果的质量,类有效索引在决

4、定类的数目时经常扮演 了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取, 一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳 值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准, 很多已经存在的标准对于相互分离的类数据集合都能得出很好的结 果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集 合。)聚类分析的主要计算方法原理及步骤划分法1将数据集分割成K个组(每个组至少包含一个数据且每一个数据纪录属于且仅属于一个分组),每个组成为一类2通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好(标准就是:同一分组中的记录越近越好,而不同分组中的纪

5、录越远越好,使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、 CLARANS 算法)层次法1自底向上”方案一一将每个数据单独作为一 组,通过反复迭代的方法,把那些相互邻近的 组合并成一个组,直到所有的记录组成一个分 组或者某个条件满足为止,代表算法有:BIRCH 算法、CURE算法、CHAMELEON算法等2自顶向下”方案主要算法原理及步骤K-MEANS 算法k-means算法接受输入H k ;然后将n个数据对象划 分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似 度是利用各聚类中对象的均值所获得一个中心对象”(

6、引力中心)来进行计算的。k-means算法的工作过程说明如下:1从n个数据对象任意选择 k个对象作为初始聚 类中心;而对于所剩下其它对象,则根据它们与这些聚类中 心的相似度(距离),分别将它们分配给与其最相似的(聚 类中心所代表的)聚类;2»计算每个所获新聚类的聚类中心(该聚类中所 有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数k个聚类具有以下特点:各聚类本身尽可能的紧 凑,而各聚类之间尽可能的分开。K-MEDOIDS 算法K-MEANS有其缺点:产生类的大小相差不会很大, 对于脏数据很敏感。改进的算法:kmedoids 方法:选取一个

7、对象叫做 mediod来代替上面的中心的作用,这样的一个 medoid就标识了这个类。步骤:(1)、任意选取 K个对象作为 medoids (O1,O2,OiOk)。以下是循环的:(2)、将余下的对象分到各个类中去(根据与medoid最相近的原则);(3)、对于每个类(Oi) 中,顺序选取一个 Or,计算用Or代替Oi后的消 耗一E (Or)。选择E最小的那个 Or来代替Oi。这 样K个medoids就改变了,下面就再转到2。(4)、这样循环直到 K个medoids固定下来。种算法对于脏数据和异常数据不敏感,但计算虽显然要比K均值要大,一般只适合小数据虽Clara算法K-medoids算法不适合于大数据H的计算,Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些 抽样的数据上利用 K-medoids算法得到最佳的 medoids。Clara 算法从实际数据中抽取多个采样,在每个采样上都用 K-medoids算法得到相应的(O1,O2OiOk),然后在这当 中选取E最小的一个作为最终的结果。Clarans 算法Clara算法的效率取决于采样的大小,一般不太可能得 到最佳的结果在Clara算法的基础上,乂提出了 Clarans的算法,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论