



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
将物理或抽象对象的集合分组成为有类似的对象组成的多个簇的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类的目的和应用。如果聚类分析备用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。大体上,主要的聚类技术可以划分为如下几类:1.划分方法给定一个个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚簇,并且k(i)每个组至少包含一个对象;(ii)每个对象必须属于且只属于一个组。给定要构建的划分数目k,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的一般准则是:在同一类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可能“远离”或不同。还有许多其它划分质量评判准则。为了达到全局最优,基于划分的聚类会要求穷举三所有可能的划分。实际上,绝大多数应用采用了以下两个比较流行的启发式方法:(1)聚于质心的技术: k-平均方法k-平均算法以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行。k-平均算法的处理流程如下。首先,随机地选择k个对象,每个对象初始地代表一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常采用平方误差准则,其定义如下:(2-1) 这里的E是数据库中所有对象的平方误差的总和,p是空间的点,表示给定的数据对象,mi是簇Ci的平均值(p 和mi都是多维的)。这个准则是使图生成的结果簇尽可能的紧凑和独立。例1 假设有一个分布在空间中的对象集合,如图21所示。给定k=3,即要求将这些对象聚类为三个簇。根据k-平均算法,我们任意选择三个对象作为初始簇的中心,簇中心在图中用“”来标示。根据与簇中心的距离,每个对象分配给离其最近的一个簇。这样分布形成如图a中所绘的图形。这样的分组会改变聚类的中心,也就是说,每个聚类的平均值会根据类中的对象重新计算。依据这些新的聚类中心,对象被重新分配到各个类中。这样重新分配形成了图b中描绘的轮廓。以上的过程重复产生了图c的情况。最后,当没有对象重新分配发生时,处理过程结束,聚类的结果被返回。图2-1基于K-means方法的一组对象的聚类这个算法尝试找出是平方误差函数值最小的K个划分,当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂程度是 O(nkt)。其中,n是所有对象的数目,k是簇的数目,t是迭代的数目。通常的,k但是,k-平均方法只有在簇的平均值被定义的情况下使用。这可能不适应某些应用。例如涉及有分类属性的数据。要求用户必须事先给出k(要生成的簇的数目)可能算是该方法的一个缺点。K-平均方法不适合于发现非凸面形状的簇,或者大小差别很大的簇,并且,它对于“噪声”和孤立点数据很敏感,少量的该类数据能够对平均值产生很大影响。(2)基于有代表性的对象的技术 k-中心点方法采用簇中位置最中心的对象,作为参照点即中心点,这样划分依然是基于最小化所有对象与参照点之间的相异度之和的原则来执行的。这是k-中心点的基础。它的基本策略是:首先为每个簇随意选择一个代表对象;剩余对象根据与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象,以改进聚类的质量。聚类结果的质量用一个代价函数来估算,该函数度量对象与参照对象之间的平均相异度。为了判定一个非代表对象是否是当前一个代表对象的好的替代,对于每一个非中心点对象p,下面的四种情况被考虑:1.第一种情况:p当前隶属于中心点Oj。如果Oj被Orandom所代替作为中心点,且p离一个Oi最近,ij,那么p被重新分配给Oi.2.第二种情况:p当前隶属于中心点Oj.如果Oj被Orandom代替作为中心点,且p离Orandom最近,那么p被重新分配给Orandom。3.第三种情况:p当前隶属于中心点Oi,ij。如果Oj 被Orandom代替作为一个中心点,而p依然离Oi最近,那么对象的隶属不发生变化。4.第四种情况: p当前隶属于中心点Oi,ij。如果Oj 被Orandom代替作为一个中心点,且p离Orandom最近,那么p被重新分配给Orandom。图22描述了上述四种情况。每当重新分配发生时,平方误差E所产生的差别对代价函数有影响。因此一个当前的中心点对象被非中心点所代替,代价函数计算平方误差值所产生的差别。替代的总代价使所有非中心点对象所产生的代价之和。如果总代价是负的,那么实际的平方误差将会减小,Oj可以被Orandom代替。如果总代价是正的,则当前中心点Oj被认为是可以接受的,在本次迭代中没有变化发生。一个典型的k-中心点算法描述在图2-2中给出。图2-2K-中心点聚类代价函数的四种情况“那个方法更健壮:k-平均或者k-中心点?”当存在“噪声”和孤立点数据时,k-中心点比k-平均更健壮,这是因为中心点不像平均值那样容易受到极端数据影响。但是,k-中心点的执行代价比k-平均方法高.这些启发式方法对中小规模的数据库中发现球状簇很实用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。2.层次的方法一个层次的聚类方法将数据对象组成一棵聚类的树。根据层次分解是自底向上的还是自顶向下形成的,层次的聚类方法可以进一步分为凝聚的(agglomerative)和分裂的(divisive)层次聚类。(1)凝聚的层次聚类:这种自底向上的策略首先将每个对象作为单独的一个簇,然后和并这些原子簇为越来越大的簇,直到所有的对像都在一个簇中,或者达到某个终止条件。(2)分裂的层次聚类:这种自顶向下的策略与凝聚的层次聚类相反,它首先将所有的对象置于一个簇中。然后逐渐细分为越来越小的簇,直到每个对象在单独的一个簇中,或者达到一个终止条件,例如打到了某个希望的簇数目后者两个簇之间的距离超过了某个阀值。例2 图23描述了一个凝聚的层次聚类方法AGNES(Agglomerative NESting)和一个分裂的层次聚类方法DIANA(Divisive Analysis)在一个包含五个对象的数据集合a,b,c,d,e上的处理过程。最初,AGNES将每个对象作为一个簇,然后这些簇根据某些准则一步步合并。例如,如果簇C1中的一个对象和簇 C2中的一个对象之间的距离使所有属于不同簇的对象间欧式距离最小的,C1和C2可能被合并。其每个簇可以被簇中所有对象代表,两个簇间的相似度由两个不同簇中距离最近的数据点对的相似度来确定。聚类的合并过程反复进行直到所有对象最终合并为一个簇。 图2-3 在对象集合(a,b,c,d)上的凝聚与分裂层次聚类在DIANA方法处理过程中,所有的对象都放在一个簇中。根据一些原则(如簇中最邻近的对象的最大欧氏距离),将该簇分裂。簇的分裂过程反复进行,直到最终每个新的簇只包含一个对象。层次聚类方法尽管简单,但经常会遇到合并或分裂点选择的困难。这样的选择是非常关键的,因为一旦一组对象(合并或分裂)完成,它就不能被撤销,下一步的处理将在新完成的簇上进行。这个严格规定是有用的,由于不用担心组合数目的不同选择,计算代价会比较小。但是,已做的处理不能被撤消,聚类之间也不能交换对象。如果在某一步没有很好的选择合并或分裂的决定,可能会导致低质量的聚类结果。而且,这种聚类不具有很好的可伸缩性。因为合并或分裂的决定需要检查和估算大量的对象或结果。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术集成。有两种方法可以改进层次聚类的结果:(i) 在每层划分中,仔细分析对象间的“联接”,例如CURE和Chameleon中的做法。(ii)综合层次凝聚和迭代的重定位方法。首先用自底向上的层次算法,然后用迭代的重定位来改进结果。例如BIRCH中的方法。3.基于密度的方法绝大多数划分方法给予对象之间的距离进行聚类。这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的聚类方法,它是将簇看作是数据空间中被低密度区域分割开的高密度区域。其主要思想是:只要邻近区域的密度(对象或数据点的数目)超出了某个阀值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。DBSCAN是一个有代表性的基于密度的方法,它根据一个密度阀值来控制簇的增长。OPTICS是另一个基于密度的方法,它为自动的和交互的聚类分析计算一个聚类顺序。4.基于网格的方法基于网格的方法把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构(即量化的空间)上进行。这种方法的主要优点是处理速度快,其处理时间独立与数据对象的数目,只与量化空间中的每一维的单元数目有关。基于网格方法的有代表性的例子:STING,它利用存储在网格单元中的统计信息;WaveCluster
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 46023.1-2025汽车用智能变色玻璃第1部分:有机电致变色玻璃
- 2025年物业管理师面试高频问题精解
- 2025年财务会计专员中级求职面试技巧与常见问题解析
- 2025年汽车维修技术员岗位技能测评试卷及答案解析
- 机票知识培训
- 2025年模特经纪人执业资格考试试题及答案解析
- 2025年家庭服务师初级笔试备考模拟题集
- 2025年交通规划师专业能力评估试题及答案解析
- 2025年建筑材料化验员职业资格考试试题及答案解析
- 2025年机动车驾驶教练员专业资格考试试题及答案解析
- 二年级上册语文课内阅读理解每日一练(含答案)
- 苏式彩画古建181班授课郭佩锦37课件讲解
- 2025-2030年中国功率器件市场发展趋势规划研究报告
- 基层管理培训课程
- 宇宙飞船的发射与回收技术分析
- 2025农村租地合同农村租地合同范本
- 2024考研 政治 思维导图(马原)
- 物业小区安全生产管理制度
- 高血压性脑出血中国多学科诊治指南2020
- 心肺复苏术课件2024新版
- 孕产妇危重症评审实施方案解读课件
评论
0/150
提交评论