人工智能K-means讲稿_第1页
人工智能K-means讲稿_第2页
人工智能K-means讲稿_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类算法之K-means概述:1. 什么是聚类算法?2. 聚类的关键;3. K-means算法概述4. 算法原理5. 介绍一个实例6. 相关问题。7. 结论“物以类聚,人以群分”,聚类是人类的一项最基本的认识活动。聚类的用途非常广泛。在生物学中,聚类可以辅助动、植物分类方面的研究,以及通过对基因数据的聚类,找出功能相似的基因;在地里信息系统中,聚类可以找出具有相似用途的区域,辅助石油开发;在商业上,聚类可以帮助市场分析人员对消费者的消费记录进行分析,从而概括出每一类消费者的消费模式,实现消费群里的区分。本次我们的讲课安排如下:首先,对聚类算法进行一个简要、全面的概述,包括对聚类算法的概念、算法的分类方法、相似性度量等;然后详细介绍以划分方法为思路的K-means算法,因为前一组有讲原理,我们就简要介绍K-means的原理;接着用一个实例来讲解K-means算法;本次讲课的重点是与K-means算法相关的结果问题:1 最重要的问题:K值的选择2 处理数据的类型3 孤立点的敏感处理4 执行结果与输入顺序相关5 如何避免算法陷入局部极小值最后,为本次讲课做个小结。1. 什么是聚类算法?聚类算法可以做什么?在人工智能和数据挖掘领域,聚类是指将数据对象分组成为多个类或簇(Cluster),划分的原则是在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。与上一次课所讲的C4.5的分类不同,聚类操作中要划分的类是事先不知道的,类的形成完全是数据驱动的,属于一种无指导的学习方法。聚类分析在数据挖掘中的应用 聚类分析可以作为其他算法的预处理步骤 可以作为一个独立的工具来获得数据的分布情况 聚类分析可以完成固定点挖掘2. 聚类的关键;一个聚类分析过程的质量取决于对度量标准的选择,因此必须仔细选择度量标准。为了度量对象之间的接近或相似程度,需要定义一些相似性度量标准。但通常情况下,聚类算法不是计算两个样本间的相似度,而是用特征空间中的距离作为度量标准来计算两个样本间的相异度。对于某个样本空间来说,距离的度量标准可以是度量的或半度量的,以便用来量化样本的相异度。相异度的度量用d(x,y)来表示,通常称相异度为距离。当x和y相似时,距离d(x,y)的取值很小;当x和y不相似时,d(x,y)就很大。对于k-means的距离选取(准则函数):E是数据库中所有对象的平方误差的总和,其中x是空间中的点,表示给定的数据对象,mi是簇Ci的平均值。这个准则可以保证生成的结果簇尽可能的紧凑和独立。3. K-means算法概述Assign initial value for meansREPEATFor j=1 to n DO assign each xj to the cluster which has the closest mean;For i =1 to k DO get meanCompute EUNTIL E不再明显变化4. 算法原理算法首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象更具与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。5. 介绍一个实例6. 相关问题。1 最重要的问题:K值的选择预设类别数12345678正确率%33.16894.993.380.348.955.143.3对于相同的数据集合,采用不同的聚类方法,可能得到不同的聚类结果。即便是采用同一种聚类方法,若初始参数(如聚类数、聚类中心等)选取不同也可能得到不同的结果。例如,采用同一种K均值聚类算法对同一个wine测试数据集(来自UCI机器学习数据库)进行聚类,当预设聚类类别数分别是18时,则得到聚类正确率是不同的,如图所示。2 处理数据的类型k-means算法只有在簇的平均值被定义的情况下才能使用。这可能不适用于某些应用,例如涉及有分类属性的数据。为了对离散数据的快速聚类,k-模算法被提出,它保留了k-means算法的效率,同时将k-mean的用用范围扩大到了离散数据。K-原型可以对离散与数值书香两种混合的数据进行聚类,在k-原型中定义了一个对数值与离散属性都计算的相异性度量标准。3 孤立点的敏感处理K-means算法对于孤立点是敏感的,为了解决这个问题,不采用簇中的平均值作为参照点,可以选用簇中位置最靠近中心的对象,即中心点作为参照点,有兴趣可以研究k中心算法。4 执行结果与输入顺序相关5 如何避免算法陷入局部极小值对于基于目标函数的聚类算法,迭代优化易收敛于局部极值,难以获得全局最优解。以k均值为例,常采用梯度下降法实现迭代。由于梯度法的搜索方向是沿着能量减小的方向进行,因此易陷入局部极值。7. 结论优点: K-means算法是解决聚类问题的一种经典算法,这种算法简单、快速。 对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度大约是O(n*k*t),其中n是所有对象的数目,k是簇的数目,t是迭代的次数。 算法尝试找出使平方误差函数值最小的k的划分。当结果簇是密集的,而簇与簇之间区别明显时,效果好。缺点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论