《机器学习从入门到精通》课件-第8章聚类_第1页
《机器学习从入门到精通》课件-第8章聚类_第2页
《机器学习从入门到精通》课件-第8章聚类_第3页
《机器学习从入门到精通》课件-第8章聚类_第4页
《机器学习从入门到精通》课件-第8章聚类_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章

聚类算法8.1聚类分析的基础知识8.2K-means算法8.3层次聚类8.4密度聚类8.5聚类分析模型评估8.1聚类分析的基础知识所谓的聚类就是对大量的未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,的目的是使类别内的数据比较相似,类别之间的数据相似度比较大。8.1聚类分析的基础知识8.1.2聚类分析的距离计算数据可以分为很多类,有连续属性的数据,有文档数据,对于这些不同的数据来说聚类分析往往是通过距离计算的方式来进行聚类,距离计算的方式根据不同类型的数据有如下不同的方法:1)对于连续属性的数据来说2)对于文档数据来说8.1聚类分析的基础知识8.1.3基站商圈数据准备移动终端的普及,手机用户时间序列的手机定位数据,映射到现实的地理空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘出人口空间分布与活动联系的特征信息。(移动通信网络的信号覆盖逻辑上被设计成由若干六边形的基站小区相互邻接而构成的蜂窝网络现状服务区)8.2K-means算法

8.2K-means算法K-Means聚类的算法过程从N个样本数据中随机选取K个对象作为初始的聚类中心;分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中;所有对象分配完成后,重新计算K个聚类的中心;与前一次计算得到得K个聚类中心比较,如果聚类中心发生变化,转2),否则转5);当质心不发生变化时停止并输出聚类结果。8.2K-means算法

8.2K-means算法3、K-means算法的优缺点K-means算法的优点是理解容易,聚类效果不错,在处理大数据集的时候,该算法可以保证较好的伸缩性和高效率,当簇近似高斯分布的时候,效果非常好。但K-means算法并不是万能的,通过对该过程的理解可以看出来,K-means算法对初始值的敏感度是非常强的,选择不同的初始值可能导致不同的簇划分结果。

8.2K-means算法8.2.2K-means算法的应用在sklearn中集成了K-means算法,可以通过调用KMeans()函数通过之前整理好的数据,训练属于自己的模型。KMeans()函数中包含的主要参数有:n_clusters:即的k值,一般需要多试一些值以获得较好的聚类效果。max_iter:最大的迭代次数,一般如果是凸数据集的话可以不过这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。n_init:用不同的初始化质心运行算法的次数,由于K-Means是结果受初始值影响的局部最优的迭代算法,因此需要多试几次以选择一个较好的聚类效果,默认是10,一般不需要修改。如果K值较大,则可以适当增大这个值。init:即初始值选择的方式,可以完全随机选择‘random’,或者自己指定初始化的k个质心。一般建议使用默认的‘K-means’。algorithm:有“auto”,“full”or“elkan”三种选择。“full”就是传统的K-means算法,“elkan”是原理篇讲的elkanK-Means算法。8.3层次聚类8.3.1层次聚类原理层次聚类是通过距离来判断两个簇之间的相似度的,距离最小的两个簇将它判断为两个簇之间的相似程度最高。那么通过距离的方式有几种方式来进行判断:1)最小距离,即单链接SingleLinkage,它是由两个簇的最近样本决定。2)最大距离,即全链接CompleteLinkage,它是由两个簇之间的最远样本来决定。3)平均距离,即均链接AverageLinkage,它是由两个簇所有的样本共同决定。1)和2)都容易受到极端值的影响,而第3)种方法的计算量是比较大的,但是这种度量的方式往往又是最合理的。8.3层次聚类8.3.2层次聚类算法的应用sklearn库下的层次聚类方法是集成在sklearn.cluster的AgglomerativeClustering()函数中,包含了主要的三个重要的参数,分别为n_clusters,linkage,affinity。n_clusters:构造函数中最终要进行簇类的个数按照常理来说,凝聚层次聚类是不需要指定簇的个数的,但是Sklearn的这个类需要指定簇的个数。算法会根据簇的个数判断最终的合并依据,这个参数会影响聚类质量。Linkage:是衡量簇与簇之间的远近程度的方法具体说来包括最小距离,最大距离和平均距离三种方式。对应于簇融合的方法,即簇间观测点之间的最小距离作为簇的距离,簇间观测点之间的最大距离作为簇的距离,以及簇间观测点之间的平均距离作为簇的距离。一般说来,平均距离是一种折中的方法。Affinity:连接度量,簇间距离的计算方法包括各种欧式空间的距离计算方法以及非欧式空间的距离计算方法。如果该参数=‘euclidean’,则代表该方法中簇间距离的计算方法是采用的欧几里得的方式来进行的。8.4密度聚类8.4.1密度聚类原理学习了K-means算法,但是从K-means算法的缺点则不太适用于凸数据集中,那么这节讲的密度聚类DBSCAN(Density-basedspatialclusteringofapplicationswithnoise),则即可以适用于凸样本集又可以适用于非凸样本集中来。目的就是通过找到几个由密度可达关系导出的最大的密度相连样本的集合,将其判断为同一个类别,也就是所说的一个簇。8.4密度聚类8.4.2密度聚类算法的应用关键代码如下:fromsklearn.clusterimportDBSCANmodel=DBSCAN(eps=0.5,min_samples=5)model.fit(data_std)8.5聚类分析模型评估8.5.1外部度量外部度量,即需要有标签,即数据的真实类别。外部度量的比较和之前讲过的分类、回归模型的分类方法是相同的,衡量指标有如下:均一性:一个簇中只包含一个类别的样本,则满足均一性;其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)完整性:用来衡量的是同类别样本被归类到相同簇中的比例;每个聚簇中正确分类的样本数占该类型的总样本数比例的和V-measure:均一性和完整性的加权平均8.5聚类分析模型评估8.5.1外部度量Randindex(RI,兰德系数),RI取值范围为[0,1],Ri的值越大意味着聚类结果与真实情况越吻合。调整兰德系数(ARI,AdjustedRndIndex),ARI取值范围[-1,1],值越大,表示聚类结果和真实情况越吻合。从广义的角度来说,ARI是衡量两个数据分布的吻合程度的。8.5聚类分析模型评估8.5.2内部评估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论