版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十五章聚类分析与离群点分析数据分析与数据挖掘01聚类问题与聚类类型30%40%聚类是指将数据对象分组成为多个类或簇,其中同类对象具有较高的相似性,不同类对象具有较大的差异性。
聚类的过程属于无监督学习(Unsupervisedlearning),数据样本不需要预先标记类别,也没有预先定义的各类别列表,聚类好坏的衡量准则通常是:类内相似性高、类间相似性低。聚类问题
聚类是设法通过特征和聚类模型来挖掘隐含在各样本数据内部的相似关系,并把相似的样本数据聚集在一起。Bagging法聚类方法总体可分为以下六种类型:(1)基于划分的方法。(2)基于层次的方法。(3)基于密度的方法。(4)基于网格的方法。(5)基于模型的方法。(6)核聚类方法。02基于划分的聚类k-means聚类k-均值(k-means)算法是一种常用的聚类算法,它属于一种划分方法。k-means算法将n个数据对象划分为k个聚类,使得聚类满足同一类中的对象相似度较高,不同聚类中的对象相似度较小的原则。k-中心点(k-medoids)算法不选用簇中对象的平均值作为中心点,而是选用簇中的中心点对象作为参照点。中心点(Medoid)对象是数据集中的一个实际对象,而k-means中的类中心对象是通过求簇中各对象均值而获得的虚拟对象。k-medoids聚类03层次聚类20%30%40%50%层次聚类(Hierarchicalclustering)的结果是分层次的,每层的聚类个数不同,粒度大小不同。层次聚类方法可分为两种:凝聚型层次聚类(自底向顶的聚类)和分裂型层次聚类(自顶向底的聚类)。簇间距离的计算凝聚型层次聚类的主要过程如下。(1)将每个对象都视作一个簇,作为层次聚类树的最底层,准备向高层逐步聚类。(2)对所有待聚类的簇计算任意两个簇之间的距离。(3)合并具有最小距离的两个簇。如果存在几组具有相同距离的两个簇,且簇之间不存在交叉,则可以同时合并。(4)如果全部对象合并为一个簇,或者满足停止合并的条件(如限定最大合并次数、达到预设的最小簇数),则停止凝聚,否则跳到步骤(2)。层次聚类方法分裂型层次聚类的主要过程如下。(1)将所有对象视作一个簇,视作层次聚类树的最顶层,准备向底层逐步聚类。(2)利用某种分裂点评价算法计算待划分为两个簇的候选分裂点,准备进行分裂。注意,如果簇中只有一个对象则不再分裂。(3)评价各候选分裂点,选择最佳分裂点,分裂对应的簇为两个新簇。最佳分裂点的常用准则是:可使得分裂后的簇间距离增加最大。(4)如果全部簇都仅有1个对象,或者满足停止分裂的条件(如限定最大分裂次数),则停止分裂,否则跳到步骤(2)。层次聚类方法04基于密度的聚类DBSCAN(Density-BasedSpatialClusteringofApplicationwithNoise)是一种典型的基于密度的聚类算法,它根据样本分布的紧密程度(密度)进行聚类,能够除去噪声点,并且聚类的结果是划分为多个簇,簇的形状是任意的,如图15.4所示。DBSCAN聚类OPTICS算法(OrderingPointtoIdentifytheClusterStructure)是DBSCAN的一种改进算法,其降低了参数的敏感度。OPTICS聚类05基于网格的聚类与基于模型的聚类CLIQUE聚类CLIQUE(ClusteringInQuest)聚类是一种基于网格的聚类方法,用于发现子空间上的基于密度的簇。它把每个维划分成不重叠的区间,从而将数据对象空间划分成单元(子区域或单元格)。自组织神经网络聚类原理自组织神经网络(SelfOrganizingMaps,SOM)聚类,它自动寻找样本数据的内在规律和本质属性,通过竞争机制逐步抽取主要特征,实现聚类过程。SOM是无监督学习网络,一个神经网络接收外界输入模式时,自动地将其划分到不同的对应区域,各区域对输入模式有不同的响应特征。自组织神经网络聚类原理SOM具有这样几个特点:①可以将高维空间的数据转化到2维空间表示,并且其优势在于源空间的输入数据彼此之间的相似性在2维离散空间得到很好保持,因此在高维空间数据之间的相似程度可以转化为表示空间(Representationspace)的位置临近程度,即可以保持拓扑有序性;②抗噪声能力较强;③可视化效果较好;④可并行化处理。聚类具有高维和与语义密切相关的特点。06离群点分析离群点(Outlier)是一个数据对象,它显著不同于其他数据对象。离群点是指异常数据。离群点可能由客观或主观操作错误所致。离群点检测(Outlierdetection)是离群点分析的主要任务之一。离群点检测又称离群点识别或离群点发现,即找出或识别哪些对象是离群点,通常属于无监督模型。离群点分析20%30%40%50%离群点检测(OutlierDetection)是指在给定的数据集中寻找离群点对象,通常属于无监督模型。
数组的离群点检测:对于给定的一组数据,通常是单个属性数据。离群点检测
回归数据的离群点检测:线性回归可以计算对象真实值与回归预测值间的残差,并进行异常数据检验,得到离群点。基于聚类方法的离群点检测:聚类算法将相似对象聚为一类,不相似对象分散在多类中。有些聚类算法,如密度聚类、网格聚类有助于识别异常值。
基于距离的离群点检测:如果一个对象到周边点的密度低于某个预设阈值,则该对象为离群点。离群点检测
单类样本学习模型的离群点检测:目前已有多种学习模型,它们将离群点检测问题看作分类问题,如二分类的“正常值、不是正常值”问题。07本章小结本章小结聚类是数据挖掘的一个重要类型分析方法。目前的聚类方法大致分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 团队协作会议计划及总结工具有效规划推动进度版
- 5-Oxopentanoic-acid-生命科学试剂-MCE
- 零售业法律顾问招聘面试要点详解
- 护理共情的角色体验
- 基于物联网技术的物料快速定位与高效搬迁机器人的研究
- 客户服务流程中的投诉处理与解决模板
- 快消品行业财务评估专家面试技巧
- 零售业数字化人才面试全解
- 生活垃圾分类达标管理承诺函4篇
- 客户满意度调查结果反馈报告联系函(7篇)
- GB/T 1425-2021贵金属及其合金熔化温度范围的测定热分析试验方法
- 机械设计之凸轮机构
- 专题02 中国经济史-高中历史 思维导图
- 职业技能鉴定考评员课件
- 外墙保温吊篮施工方案
- 新部编版四年级下册道德与法治全册优秀教学课件(1-12课)
- 箱变施工方案
- 初中语文:演讲的知识梳理
- 化学电源电化学原理
- 沈阳师范大学教学实验平台建设规划
- 口腔四手操作技术教学课件PPT
评论
0/150
提交评论