《数据挖掘原理与应用 第2版 》课件 7.6聚类分析-聚类算法评估_第1页
《数据挖掘原理与应用 第2版 》课件 7.6聚类分析-聚类算法评估_第2页
《数据挖掘原理与应用 第2版 》课件 7.6聚类分析-聚类算法评估_第3页
《数据挖掘原理与应用 第2版 》课件 7.6聚类分析-聚类算法评估_第4页
《数据挖掘原理与应用 第2版 》课件 7.6聚类分析-聚类算法评估_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章聚类分析聚类算法评估评估聚类算法评估聚类结果评估聚类算法评估可伸缩性处理不同字段类型的能力处理任意形状的数据集领域知识运用最小化(决定输入参数时)处理高维数据的能力处理噪声点数据的能力对数据顺序的不敏感性可解释性和可用性算法是否适用于大数据量,算法的效率是否满足大数据量高复杂性的要求是否能够应付不同的数据类型,能否处理符号属性是否能发现不同类型的聚类是否能应付脏数据或异常数据聚类结果评估簇评估、簇确认ClusterValidity内容比较两个簇的特性比较不同的算法、参数的得到的两组簇通过比较两组簇来比较聚类算法避免得到的簇是来自噪声数据的簇评估:簇评估非监督监督的相对的凝聚性分离性已知分类,对聚类结果进行检验和评估准确率、精度、召回率、F度量不同聚类方法的比较SSEvs.熵内聚度与分离度簇相似度通常以簇中两两数据元素的相似度之和来衡量,称之为内聚度。对于一个簇,希望其中元素具有最大的相似度。衡量分离程度的指标分离度,定义为分属于不同簇中的数据元素的两两邻近度之和。两个簇之间,希望能够最大程度地分离。内聚度与分离度对于有原型的簇:Cic–总体原型质心轮廓系数轮廓系数(SilhouetteCoefficient),是聚类效果好坏的一种评价方式。最早由PeterJ.Rousseeuw在1986提出。结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。轮廓系数假设已通过一定算法(如K-means或DBSCAN),将数据进行了聚类,分为了k

个簇。对于簇中的每个数据(向量),可分别计算它们的轮廓系数。计算过程对于其中的一个点iai=average(i

向量到所有它属于的簇中其它点的距离)bi=min(i

向量到所有非本身所在簇的点的平均距离)则i

向量轮廓系数就为:i向量到同一簇内其他点不相似程度的平均值i向量到其他簇的平均不相似程度的最小值轮廓系数轮廓系数的值是介于[-1,1]越趋近于1代表内聚度和分离度都相对较优。将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数。轮廓系数轮廓系数可用于估算簇的个数簇个数相似性矩阵相似性矩阵体现了数据的邻近关系,通过其图示的方法,可以直观地展示数据的内聚度和分离度情况对聚类结果进行视觉上的评价在聚类前对数据的聚集情况建立基本的认知,来帮助选择更为有效的聚类算法和参数相似性矩阵可以看出(借助人工视觉进行审视、评估):簇内数据元素的相似性较强(图中左上、中间、右下颜色较深的区块)簇间数据元素的相似性较弱(图中颜色较浅的区块)与散点图所展现的特性相同。

150points相似性矩阵ClustersinrandomdataarenotsocrispDBSCAN相似性矩阵ClustersinrandomdataarenotsocrispK-means相似性矩阵ClustersinrandomdataarenotsocrispCompleteLink相似性矩阵DBSCAN簇评估:随机数据的聚类结果RandomPointsK-meansDBSCANCompleteLink高维度不易检出这样的问题簇评估:任务能够识别数据中是否存在非随机结构是簇确认的重要任务之一:确定数据集的聚类趋势(clusteringtendency),即识别数据中是否实际存在非随机机构确定正确的簇个数不引用附加的信息,评估聚类分析结果对数据拟合情况将聚类分析结果与已知的客观结果(如外部提供的类标号)进行比较比较两个簇集,确定优劣非监督监督的簇评估:非监督(凝聚度、分离度)总体簇有效性为各个簇的有效性的加权和可以是各种度量指标簇评估:非监督(凝聚度、分离度)分离度,基于原型组平方和SSB:簇质心Ci到所有数据点的总平均值c的距离的平方和簇评估:非监督(凝聚度、分离度)凝聚度vs

分离度误差平方和SSE组平方和SSB总平方和TSS:每个点到数据集总平均的距离的平方和CorrelationCorrelationofincidenceandproximitymatricesfortheK-meansClusteringsofthefollowingtwodatasets.Corr=-0.9235Corr=-0.5810InternalMeasures:SSESSEisgoodforcomparingtwoClusteringsortwoClusters(averageSSE).CanalsobeusedtoestimatethenumberofClusters对于SSE的显著性ExampleCompareSSEof0.005againstthreeClustersinrandomdataHistogramshowsSSEofthreeClustersin500setsofrandomdatapointsofsize100

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论