版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模式识别中的常见聚类算法第1页,课件共27页,创作于2023年2月聚类问题的描述(1)第2页,课件共27页,创作于2023年2月聚类问题的描述(2)聚类问题:根据给定的数据集,要求寻找T上的一个“好”的划分(划分成m个类;m可以是已知的,也可以是未知的),满足约束条件:第3页,课件共27页,创作于2023年2月聚类问题的描述(3)模糊聚类问题:根据给定的数据集,要求寻找T上的一个“好”的模糊划分(划分成m个模糊集),满足约束条件:模糊聚类问题可以看成是前面聚类问题(硬聚类)的一个推广,当uj的值域限制为{0,1}时,模糊聚类就是硬聚类.第4页,课件共27页,创作于2023年2月聚类问题的要点样本间的接近度(ProximityMeasures)聚类评价准则:“好”的聚类指什么?聚类算法聚类有效性检验(统计假设检验)聚类结果解释(结合专家知识)聚类的泛化能力或一致性或抗扰动能力第5页,课件共27页,创作于2023年2月样本间的接近度度量差异性度量(DissimilarityMeasure,DM)对称性自己与自己的差异性最小例子:距离差异性度量相似性度量(SimilarityMeasure,SM)对称性自己与自己的相似性最大例子:高斯径向基函数第6页,课件共27页,创作于2023年2月常用的接近度度量点与点之间点与集合之间集合与集合之间第7页,课件共27页,创作于2023年2月点与点之间——DM第8页,课件共27页,创作于2023年2月点与点之间——SM第9页,课件共27页,创作于2023年2月点与集合之间第10页,课件共27页,创作于2023年2月集合与集合之间第11页,课件共27页,创作于2023年2月聚类评价准则类内样本间的接近度大,类间样本间的接近度小…………第12页,课件共27页,创作于2023年2月主要聚类算法(1)N个样本聚为m类的可能聚类数S(N,m):S(15,3)=2375101;S(20,4)=45232115901S(25,8)=690223721118368580;S(100,5)≈1068枚举聚类是行不通的!第13页,课件共27页,创作于2023年2月主要聚类算法(2)顺序聚类(SequentialCluteringAlgorithms)分层聚类(HierachicalCluteringAlgorithms)模型聚类(basedoncostfunctionoptimization)其他第14页,课件共27页,创作于2023年2月顺序聚类最基本的顺序聚类算法(1)第1个样本归为第1类;(2)计算下一个样本到己有类的最短距离,若其距离小于给定的域值,则将该样本归为其对应的类,否则增加一个新类,并将该样本归为新类。(3)重复(2),直到所有样本都被归类。特点聚类结果与样本的顺序和给定的域值有关;聚类速度快第15页,课件共27页,创作于2023年2月分层聚类将数据对象按层次进行分解,形成一个分层的嵌套聚类(聚类谱系图或聚类树状图),可分为凝聚算法(AgglomerativeAlgorithms)开始将每个对象作为一个类,然后相继地合并上轮中最相近的两个类,直到所有的类合并为一个类或者达到某个终止条件。分裂算法(DivisiveAlgorithms)开始将所有对象置于一个类中;然后将上轮的每个类按某个准则分裂为两类,在从中选择其中最好的一个分裂,作为该轮的类分裂;直到每个对象都在单独的一个类中或达到某个终止条件。缺点在于一旦一个合并或分裂完成,就不能撤销,导致分层聚类方法不能更正错误的决定。第16页,课件共27页,创作于2023年2月分层(凝聚)聚类的一些结论聚类结果和样本点间距离函数以及类间距离函数的关系:一般来讲,最短距离法使用于长条状或S形的类,最长距离法,重心法,类平均法,离差平方和法适用于椭球型的类。我们用Dk表示第k次并类操作时的距离,如果一个系统聚类法能够保证{Di}是单调上升的,那么我们称之为具有单调性。可以证明,最短距离法,最长距离法,类平均法,离差平方和法具有单调性,重心法和中间距离法不具有单调性。从聚类谱系图中可以看出,不具有单调性表现为出现一个凹陷,并且不容易划分类。第17页,课件共27页,创作于2023年2月分层(凝聚)聚类的一些结论有人从极端距离矩阵的观点出发,认为相比于其他方法,类平均法既不太浓缩,也不太扩张,比较适中;因而从空间的浓缩和扩张的角度,他们推荐类平均法。有人证明与初始距离矩阵A最接近的极端距离矩阵,恰好是使用最短距离法得到的极端距离矩阵,而其他的凝聚型分层聚类法都不具有这个最优性质。从这个角度出发,最短距离法比较受到推崇。第18页,课件共27页,创作于2023年2月模型聚类K-meansClusteringK-中心点聚类模糊K-均值聚类或ISODATA………第19页,课件共27页,创作于2023年2月K-meansClustering—模型将N个样本{x1,…,xN}划分到m个类{C1,…,Cm}中,最小化评分函数
这里c1,…,cm是C1,…,Cm的质心,是划分到类Cj的样本第20页,课件共27页,创作于2023年2月K-meansClustering—实现随机选择m个样本点作为m个初始质心c1,…,cm
;按距离最近原则,将所有样本划分到以质心c1,…,cm为代表的m个类中;重新计算m个类的质心c1,…,cm;重复(2)和(3)直到质心c1,…,cm无改变或目标函数J(c1,…,cm)不减小。第21页,课件共27页,创作于2023年2月K-meansClustering—特点优点:当类密集,且类与类之间区别明显(比如球型聚集)时,聚类效果很好;强的一致性算法的复杂度是O(Nmt)(t为迭代次数),对处理大数据集是高效的。缺点:结果与初始质心有关;必须预先给出聚类的类别数m;对“噪声”和孤立点数据敏感,少量的这些数据对平均值产生较大的影响;不适合发现非凸面形状的聚类第22页,课件共27页,创作于2023年2月K-中心点聚类避开k-均值聚类对“噪声”和少数孤立点的敏感性,将类中各个对象的平均值(质心)更改为类中各个对象的中心点。但运算代价比k-均值聚类大。第23页,课件共27页,创作于2023年2月模糊k-均值聚类(ISODATA)第24页,课件共27页,创作于2023年2月谱聚类第25页,课件共27页,创作于2023年2月谱聚类可以看成是特征空间中的聚类问题原空间不具备球型(或椭球型)的聚类问题,可通过映射将其转化为特征空间中的球型(或椭球型)聚类问题第26页,课件共27页,创作于2023年2月基于密度的方法Step1:寻找数据集中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学生感恩父母亲情主题班会说课稿
- 小学中年级语文阅读理解说课稿
- 2026年五步拳说课稿数学
- 初中环保法规学习说课稿2025
- 构建全球技术治理体系中国方案
- 2026年高中物理说课稿图案
- 2026年初中开学测试题及答案
- 2026年焦虑强迫测试题及答案
- 2026年滴滴校招测试题及答案
- 2026年中信保诚测试题及答案
- 2026年人教版(新教材)小学信息技术三年级全一册第二学期(第5-8单元)期末质量检测卷及答案(二套)
- 2026内蒙古赤峰市人大常委会办公室所属事业单位竞争性比选人员3人备考题库及一套完整答案详解
- 四川-(2025年)高考四川卷历史高考真题(含答案)
- 《金融大数据分析》试题及答案
- 2026年《民法典》应知应会知识竞赛测试题题库及答案
- 2026三年级科学下册全册知识点(教科版)
- 2026年睿创微纳行测笔试题库
- JG/T 368-2012钢筋桁架楼承板
- 生育服务证办理承诺书
- 部队安全员职责
- 267104 保险原理与实务 配套习题答案
评论
0/150
提交评论