K均值聚类PPT课件_第1页
K均值聚类PPT课件_第2页
K均值聚类PPT课件_第3页
K均值聚类PPT课件_第4页
K均值聚类PPT课件_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、发表:周润景教授单位:电子信息工程学院,k平均聚类算法,2、目录,k平均聚类概要k平均聚类原理k平均算法的优缺点k平均聚类MATLAB实现聚类对象样本的分类结果,3、 1.k均值聚类的概况,k均值聚类是在1956年发明的,该算法的最常见形式采用被称为Lloydalgorithm的迭代性改进搜索法。 在有效载荷算法中,首先可以将输入点分成k个初始化分组,并且可以使用随机或启发式数据。 然后,计算各组的中心点,基于中心点的位置将对象分为最接近的中心,再决定组。 继续计算中心并重新组织群组,直到它们收敛为止,即物件不会变更群组(中心点的位置不会变更)。 4,2.k均值聚类的原理,2.1K-均值聚类算法所使用的聚类参考函数是误差平方和参考:应当将参考最小化以优化聚类结果。 2.2初始群集中心的选择方法1 .初始群集中心的选择方法1 .选择代表点后,代表点为群集中心,计算从其他样本到群集中心的距离,将所有样本归属于最近的群集中心,形成初始分类,重新计算各群集中心(该方法为本文采用的选择方法)、5、2.k平均聚类原理、2 .选择代表点后,依次计算其他样本的分类,计算初始样本时,将其分类为最近的类,形成新的分类。 重新计算新的集群中心,计算从第二个样本到新集群中心的距离,并对第二个样本进行分类。 也就是说,每个样本的分类改变了集群中心。 这种方法称为逐次处理法。 3 .直接使用样本来执行初始分类,确定距离d,确定第一样本作为第一类群集中心,考虑第二样本,如果第二样本小于距离第一类群集中心的距离d,则将第二样本分类为第一类,否则,第二样本成为第二类群集中心,而另一样本成为第二类群集中心假设.6,2.k平均聚类原理,2.3类数选择方法C-平均算法,其类型数为k。 如果k是未知的,可以如k=1,2那样逐渐增加k,并且利用C-平均算法,误差均方和Jc随着k的增加而单调减小。 最初,由于k小,类型的分裂使Jc急速减少,但是k增加到一定值时,Jc的减少速度变慢,即随着初始分类k增大,基准函数急速减少,通过拐点时减少速度变慢。 拐点处的k值是最佳的初始分类。 7,2.k平均聚类原理,给出2.4算法流n混合样本,表示迭代运算次数,选择k个初始凝聚中心针对每个样本计算距聚合中心的距离,如果是这样的话。 计算k个新的集合中心。 判断:如果是,则返回,否则算法结束。8、2.k均值聚类的原理给出最类似的中心每个对象,更新聚类平均值、重新分配、更新聚类平均值、重新分配算法流程图:9、3.k均值算法的优势和缺点: (1)如果变量较大,则k平均值或层级聚类(2)k平均值与阶层集群相比,可以得到更紧密的集群,特别是球状集群。 (3)大数据汇集,效率高。 (4)算法尝试找出使均方误差函数最小的k个区间。 结果聚类密集,聚类与聚类差异明显时,效果较好。 缺点: (1)未示出初始化平均值的方法。 常见的方法是随机选择k个样本作为平均值。 (2)发生的结果依赖于平均值的初始值,经常得到次要的区分。 解决办法是多次尝试不同的初始值。 (3)因为最靠近群集中心mj的样本集可能为空,所以mj不被更新。 (4)不适合发现非凸面形状的聚类,且对噪声和离群点的数据敏感。 因为少量的数据对平均值有很大的影响。、10、4.k平均集群的MATLAB实现,完整程序: clearall; data= 1702.81639.7979068.741877.931860.961975.38675325.682535.11831.491713.111604.68460.693274.772172.9923774.98975.312271.81 97.992261.31198.833250.452445.080853494.6363072.592550.511597.031921.522126.761598.931921.0853525353535353535353 3535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353完整程序: 2336.312640.261599.633543300 62591.51515326.313105.292057.81507.131556.891954.515352535253525352535353535353535353535353535353535353535353535353535353535353535353 5353535353535353535353535353535353535353535353 077.871298.871580.11752.0707285363.041962.41594.971835.951495.181957.44445352535255 535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353 12,4.k实现平均集群MATLAB,完整过程: 1817.36927.42328.791860.451782.881875.13; IDX,c,SUMD,d =k means (数据,4 ) plot3(数据(:1 ),数据(:2 ),数据(:3 ),*) grid; d=dmind=min (d ) index1=find (d (1, )=min (d ) ) index2=find (d (2, )=min (d ) ) index3=find (d (3, )=min (d ) ) index4=find (d (4, )=min (d ) )行(数据(索引1,1 )数据(索引1,2 )、数据(索引1,3 )、行样式、无、标记、颜色、g ); 实现line (data (index 2,1 )、data (index 2,2 )、data (index 2,3 )、linestyle、13,4.k平均集群的MATLAB,完整步骤: none,marker,color,r; 行(数据(索引3,1 )、数据(索引3,2 )、数据(索引3,3 )、行样式、无、标记、颜色、b ); 行(数据(索引4,1 )、数据(索引4,2 )、数据(索引4,3 )、行样式、无、标记、颜色、y ); title(C平均聚类分析图) xlabel (第一特征坐标) ylabel (第二特征坐标) zlabel (第三特征坐标), 14,5 .聚类对象样本的分类结果(1)被分类的4种聚类中心C:C=1.0e 03* 1.29641.91942.8753(index1群集中心)0.30123.27274892.2052(index2群集中心)2.26033.04101.0579(index3群集中心)1.75831.74931.9655(index4群集中心) 四个分类: index1=310132242527 in de2=5915171926 index3=6714162021 index4=1248112182325330、15、5 .聚类对象样本的分类结果,总结为16、6.k平均值kameans算法主要通过迭代搜索获得聚类分割结果,kameans算法运算速度快,占用存储器小,适用于相对大的样本量,但聚类结果对初始聚集点的影响大,不同初始点的选择导致完全不同的结果。 进而在最近进行分类,在两个凝聚点的距离相等的情况下,结果根据选择而不同。 因此,取决于初始中心的不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论