




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘,Topic3-聚类分析K-meansI=randperm(N);M=X(I(1:K),:);Mo=M;forn=1:Max_Itsfork=1:KDist(:,k)=sum(X-repmat(M(k,:),N,1).2,2);endi,j=min(Dist,2);fork=1:Kifsize(find(j=k)0M(k,:)=mean(X(find(j=k),:);endend,2019/12/17,Matlab程序实现(续),Z=zeros(N,K);form=1:NZ(m,j(m)=1;ende=sum(sum(Z.*Dist)./N);fprintf(%dError=%fn,n,e);Mo=M;end,2019/12/17,k-平均聚类算法(续),例,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2任意选择K个对象作为初始聚类中心,将每个对象赋给最类似的中心,更新簇的平均值,重新赋值,更新簇的平均值,重新赋值,2019/12/17,在图像分割上的简单应用,例1:,图片:一只遥望大海的小狗;此图为100 x100像素的JPG图片,每个像素可以表示为三维向量(分别对应JPEG图像中的红色、绿色和蓝色通道);将图片分割为合适的背景区域(三个)和前景区域(小狗);使用K-means算法对图像进行分割。,2019/12/17,在图像分割上的简单应用(续),分割后的效果,注:最大迭代次数为20次,需运行多次才有可能得到较好的效果。,2019/12/17,在图像分割上的简单应用(续),例2:,注:聚类中心个数为5,最大迭代次数为10。,2019/12/17,k-平均聚类算法(续),优点:相对有效性:O(tkn),其中n是对象数目,k是簇数目,t是迭代次数;通常,k,tn.当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好Comment:常常终止于局部最优.全局最优可以使用诸如确定性的退火(deterministicannealing)和遗传算法(geneticalgorithms)等技术得到,2019/12/17,k-平均聚类算法(续),弱点只有在簇的平均值(mean)被定义的情况下才能使用.可能不适用于某些应用,例如涉及有分类属性的数据需要预先指顶簇的数目k,不能处理噪音数据和孤立点(outliers)不适合用来发现具有非凸形状(non-convexshapes)的簇,2019/12/17,k-中心点聚类方法,k-平均值算法对孤立点很敏感!因为具有特别大的值的对象可能显著地影响数据的分布.k-中心点(k-Medoids):不采用簇中对象的平均值作为参照点,而是选用簇中位置最中心的对象,即中心点(medoid)作为参照点.,2019/12/17,k-中心点聚类方法(续),找聚类中的代表对象(中心点)PAM(PartitioningAroundMedoids,1987)首先为每个簇随意选择选择一个代表对象,剩余的对象根据其与代表对象的距离分配给最近的一个簇;然后反复地用非代表对象来替代代表对象,以改进聚类的质量PAM对于较小的数据集非常有效,但不能很好地扩展到大型数据集CLARA(Kaufmann剩余的对象根据其与代表对象的距离分配给最近的一个簇然后反复地用非代表对象来替代代表对象,以改进聚类的质量聚类结果的质量用一个代价函数来估算,该函数评估了对象与其参照对象之间的平均相异度,2019/12/17,k-中心点聚类方法(续),为了判定一个非代表对象Orandom是否是当前一个代表对象Oj的好的替代,对于每一个非代表对象p,考虑下面的四种情况:第一种情况:p当前隶属于代表对象Oj.如果Oj被Orandom所代替,且p离Oi最近,ij,那么p被重新分配给Oi第二种情况:p当前隶属于代表对象Oj.如果Oj被Orandom代替,且p离Orandom最近,那么p被重新分配给Orandom第三种情况:p当前隶属于Oi,ij。如果Oj被Orandom代替,而p仍然离Oi最近,那么对象的隶属不发生变化第四种情况:p当前隶属于Oi,ij。如果Oj被Orandom代替,且p离Orandom最近,那么p被重新分配给Orandom,2019/12/17,k-中心点聚类方法(续),1.重新分配给Oi2.重新分配给Orandom,3.不发生变化4.重新分配给Orandom,k-中心点聚类代价函数的四种情况,2019/12/17,k-中心点聚类方法(续),算法:k-中心点(1)随机选择k个对象作为初始的代表对象;(2)repeat(3)指派每个剩余的对象给离它最近的代表对象所代表的簇;(4)随意地选择一个非代表对象Orandom;(5)计算用Orandom代替Oj的总代价S;(6)如果S0,则用Orandom替换Oj,形成新的k个代表对象的集合;(7)until不发生变化,2019/12/17,PAM,PAM(PartitioningAroundMedoids)(KaufmanandRousseeuw,1987)是最早提出的k-中心点聚类算法基本思想:随机选择k个代表对象反复地试图找出更好的代表对象:分析所有可能的对象对,每个对中的一个对象被看作是代表对象,而另一个不是.对可能的各种组合,估算聚类结果的质量,2019/12/17,PAM(续),TotalCost=20,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2,Arbitrarychoosekobjectasinitialmedoids,Assigneachremainingobjecttonearestmedoids,Randomlyselectanonmedoidobject,Oramdom,Computetotalcostofswapping,TotalCost=26,SwappingOandOramdomIfqualityisimproved.,DoloopUntilnochange,2019/12/17,PAM(续),当存在噪音和孤立点时,PAM比k-平均方法更健壮.这是因为中心点不象平均值那么容易被极端数据影响PAM对于小数据集工作得很好,但不能很好地用于大数据集每次迭代O(k(n-k)2)其中n是数据对象数目,k是聚类数基于抽样的方法,CLARA(ClusteringLARgeApplications),2019/12/17,CLARA(ClusteringLargeApplications)(1990),CLARA(KaufmannandRousseeuwin1990)不考虑整个数据集,而是选择数据的一小部分作为样本它从数据集中抽取多个样本集,对每个样本集使用PAM,并以最好的聚类作为输出优点:可以处理的数据集比PAM大缺点:有效性依赖于样本集的大小基于样本的好的聚类并不一定是整个数据集的好的聚类,样本可能发生倾斜例如,Oi是最佳的k个中心点之一,但它不包含在样本中,CLARA将找不到最佳聚类,2019/12/17,CLARA-效率,由取样大小决定PAM利用完整资料集CLARA利用取样资料集盲点:取样范围不包含最佳解,Trade-off,24,2019/12/17,CLARA改良,解決:CLARANS(ClusteringLargeApplicationbaseduponRANdomizedSearch)应用graph考虑紧邻节点不局限于区域性负杂度:O(n2)缺点,25,2019/12/17,CLARANS(“Randomized”CLARA)(1994),CLARANS(AClusteringAlgorithmbasedonRandomizedSearch)(NgandHan94)CLARANS将采样技术和PAM结合起来CLARA在搜索的每个阶段有一个固定的样本CLARANS任何时候都不局限于固定样本,而是在搜索的每一步带一定随机性地抽取一个样本聚类过程可以被描述为对一个图的搜索,图中的每个节点是一个潜在的解,也就是说k-medoids相邻节点:代表的集合只有一个对象不同在替换了一个代表对象后得到的聚类结果被称为当前聚类结果的邻居,2019/12/17,CLARANS(续),如果一个更好的邻居被发现,CLARANS移到该邻居节点,处理过程重新开始,否则当前的聚类达到了一个局部最优如果找到了一个局部最优,CLARANS从随机选择的节点开始寻找新的局部最优实验显示CLARANS比PAM和CLARA更有效CLARANS能够探测孤立点聚焦技术和空间存取结构可以进一步改进它的性能(Esteretal.95),2019/12/17,综合比较,精確度,速度,28,2019/12/17,作业,编程实现K-means算法针对UCI的waveform数据集中每类数据取100个;对一副无噪图像进行分割;编程实现PAM对部分waveform数据集加20%的高斯噪声;同时对一副噪声图像进行分割;编程实现CLARA在全部的waveform数据集上的聚类;duedate:4月25日,2019/12/17,K-means聚类算法(续),分组:将样本分配给距离它们最近的中心向量,并使目标函数值减小确定中心:亦须有助于减小目标函数值,2019/12/17,k-中心点聚类方法(续),1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字化浪潮中的公路货运行业:2025年效率提升与智能仓储技术应用
- 无人机培训机构运营管理方案
- 石油公司运营管理方案
- 公路运输公司运营管理方案
- 房地产公司运营管理方案
- 碳排放练习试卷附答案
- 高效能太阳能灶具企业制定与实施新质生产力项目商业计划书
- 物流行业供应链金融服务行业跨境出海项目商业计划书
- 高精度游戏方向盘与脚踏板行业跨境出海项目商业计划书
- 高硬度合金钻头企业制定与实施新质生产力项目商业计划书
- 网球俱乐部实习报告3000字
- 遗传学(中国农业大学)智慧树知到答案章节测试2023年
- 高三数学(人教B版)知识点汇总
- 继续医学教育管理组织管理制度和继续医学教育规划实施方案
- GB/T 2951.12-2008电缆和光缆绝缘和护套材料通用试验方法第12部分:通用试验方法-热老化试验方法
- 南阳防爆厂降压变电所的电气设计
- 《一滴水经过丽江》课件-002
- 大会-冠脉微循环障碍课件
- 《城市环境卫生质量标准》
- QTZ80(6013)塔吊基础天然基础计算书施工方案
- 初一英语竞赛课件
评论
0/150
提交评论