R语言-聚类分析.ppt

上传人：y*** IP属地：广东上传时间：2020-01-02 格式：PPT 页数：52 大小：1.32MB 积分：30 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

聚类的基本步骤什么是类粗略地讲相似样品或指标的集合成为类聚类的两个基本步骤邻近度度量的选择检验每一对观测值对象取值的相似性一个相似性邻近度的度量定义为对象间的接近程度越接近越同质组别构建算法的选择根据邻近度的度量被分配到各组的对象间的差别变大而被分配到同一组的观测值应尽可能接近关于聚类聚类应用领域仓储管理对不同类的商品在入库过程中进行聚类储存营销发现客户集群并进行直销和重组天文发现相似恒星群以及星系群地震研究观测到的地震震源应聚集在大陆断层带基因分析发现具有相似表达式的基因群关于聚类探索性的分析方法作为一种探索性技术 Everitt 1993 评价到聚类方法基本上是用于产生一些假设而不是检验假设有多少作聚类分析的人就有多少聚类方法聚类的分类划分聚类方法层次聚类方法密度聚类方法网格聚类方法模型聚类方法在基于划分的聚类中任务就是将数据划分成K个不相交的点集使每个子集中的点尽可能同质基于划分的方法其代表算法有k means算法 K medoids等划分聚类方法 k means算法 k means算法基本步骤从n个数据对象任意选择k个对象作为初始聚类中心根据每个聚类对象的均值中心对象计算每个对象与这些中心对象的距离并根据最小距离重新对相应对象进行划分重新计算每个有变化聚类的均值中心对象计算标准测度函数当满足一定条件如函数收敛时则算法终止如果条件不满足则回到步骤2 k means优缺点主要优点是解决聚类问题的一种经典算法简单快速对处理大数据集该算法是相对可伸缩和高效率的当结果簇是密集的它的效果较好主要缺点在簇的中心平均值被定义的情况下才能使用必须事先给出k 要生成的簇的数目而且对初值敏感对于不同的初始值可能会导致不同结果不适合于发现非凸面形状的簇或者大小差别很大的簇而且它对于躁声和孤立点数据是敏感的层次聚类方法层次聚类方法对给定的数据集进行层次的分解直到某种条件满足为止具体又可分为凝聚的层次聚类一种自底向上的策略首先将每个对象作为一个簇然后合并这些原子簇为越来越大的簇直到某个终结条件被满足分裂的层次聚类采用自顶向下的策略它首先将所有对象置于一个簇中然后逐渐细分为越来越小的簇直到达到了某个终结条件层次凝聚的代表是AGNES算法层次分裂的代表是DIANA算法层次聚类优缺点层次聚类方法是不可逆的也就是说当通过凝聚式的方法将两组合并后无法通过分裂式的办法再将其分离到之前的状态反之亦然另外层次聚类过程中调查者必须决定聚类在什么时候停止以得到某个数量的分类在不必要的情况下应该小心使用层次聚类方法 1 距离的定义距离的定义有很多但是必须遵循一定的规则假设表示样本之间的距离则一般要求它满足如下条件 1 对一切i j都大于等于0 2 等于0当且仅当i j 3 对一切i和j可以互换 4 如果距离的定义仅满足前三条则称此距离为广义距离常用的距离有明氏距离兰氏距离马氏距离斜交空间距离列名变量的相似性度量 2 常用的距离明氏距离特别地当k 1时即为绝对值距离 1 明氏距离设原始数据为明氏距离当k 2时即为欧氏距离当k 时即为切比雪夫距离欧氏距离切比雪夫距离例明考夫斯基距离有以下两个缺点明氏距离的数值与指标的量纲有关当各变量的测量值相差悬殊时常发生大数吃小数的现象为消除量纲的影响通常先将每个变量进行标准化明氏距离的定义没有考虑各个变量之间相关性的影响 2 标准化的欧氏距离设原始数据为 3 马氏距离马氏距离是由印度著名统计学家马哈拉诺比斯 Mahalanobis 所定义的一种距离其计算公式为马氏距离又称为广义欧氏距离马氏距离考虑了观测变量之间的相关性如果假定各变量之间相互独立即观测变量的协方差矩阵是对角矩阵此时马氏距离就是标准化的欧氏距离马氏距离不受指标量纲及指标间相关性的影响系统聚类法系统聚类法的基本思想先将n个样品各自看成一类然后规定样品之间的距离和类与类之间的距离选择距离最近的两类合并成一个新类计算新类和其它类各当前类的距离再将距离最近的两类合并这样每次合并减少一类直至所有的样品都归成一类为止系统聚类法的基本步骤 1 计算n个样品两两间的距离记作D 2 构造n个类每个类只包含一个样品 3 合并距离最近的两类为一新类 4 计算新类与各当前类的距离 5 重复步骤3 4 合并距离最近的两类为新类直到所有的类并为一类为止 6 画聚类谱系图 7 决定类的个数和类最短距离法最长距离法中间距离法重心法类平均法离差平方和法 Ward法系统聚类方法上述6种方法归类的基本步骤一致只是类与类之间的距离有不同的定义定义类p与q之间的距离为两类最近样品的距离即一最短距离法设类p与q合并成一个新类记为k 则k与任一类r的距离是例最短距离法设抽取5个样品每个样品观察2个指标您每月大约喝多少瓶啤酒您对饮酒是人生的快乐这句话的看法如何观察数据如下对这5个样品分类 2 合并距离最小的两类为新类按顺序定为第类 3 计算新类与各当前类的距离得距离矩阵如下为最小 4 重复步骤2 3 合并距离最近的两类为新类直到所有的类并为一类为止 6 按聚类的过程画聚类谱系图 4 5 并类距离 3 1 2 7 决定类的个数与类观察此图我们可以把5个样品分为3类二最长距离法定义类p与q之间的距离为两类最远样品的距离即三中间距离法定义类与类之间的距离既不采用两类之间最近的距离也不采用两类之间最远的距离而是采用介于两者之间的距离故称为中间距离法四重心法 Centroid 五类平均法 Average 定义两类之间的距离平方为这两类元素两两之间距离平方的平均六差平方和法 Ward法反映样品之间的差异程度设变量X的n个样品观察值为 n个样品的离差平方和为直观上容易想到把两群样品聚为一大群大群的离差平方和将超过原来两个群的离差平方和之和如果将p和q并类得到新类k 则类k的离差平方和为把增加的量记为定义类p和q之间的距离为动态聚类法 K均值法系统聚类法是一种比较成功的聚类方法然而当样本点数量十分庞大时则是一件非常繁重的工作且聚类的计算速度也比较慢比如在市场抽样调查中有4万人就其对衣着的偏好作了回答希望能迅速将他们分为几类这时采用系统聚类法就很困难而动态聚类法就会显得方便适用动态聚类适用于对大型数据的聚类动态聚类法基本思想选取若干个样品作为凝聚点计算每个样品和凝聚点的距离进行初始分类然后根据初始分类计算其重心再进行第二次分类一直到所有样品不再调整为止选择凝聚点分类修改分类分类是否合理分类结束 Yes No 用一个简单的例子来说明动态聚类法的工作过程例如我们要把图中的点分成两类快速聚类的步骤 1 随机选取两个点和作为凝聚点 2 对于任何点分别计算3 若则将划为第一类否则划给第二类于是得图的两个类 4 分别计算两个类的重心则得和以其为新的凝聚点对空间中的点进行重新分类得到新分类 c b 任取两个凝聚点 a 空间的群点 e 第二次分类动态聚类法优点计算量小方法简便可以根据经验先作主观分类缺点结果受选择凝聚点好坏的影响分类结果不稳定选择凝聚点和确定初始分类凝聚点就是一批有代表性的点是欲形成类的中心凝聚点的选择直接决定初始分类对分类结果也有很大的影响由于凝聚点的不同选择其最终分类结果也将出现不同故选择时要慎重通常选择凝聚点的方法有 1 人为选择当人们对所欲分类的问题有一定了解时根据经验预先确定分类个数和初始分类并从每一类中选择一个有代表性的样品作为凝聚点 2 重心法将数据人为地分为A类计算每一类的重心将重心作为凝聚点第一选择凝聚点第二初始分类对于取定的凝聚点视每个凝聚点为一类将每个样品根据定义的距离向最近的凝聚点归类第三修改分类得到初始分类计算各类的重心以这些重心作为新的凝聚点重新进行分类重复步骤2 3 直到分类的结果与上一步的分类结果相同表明分类已经合理为止动态聚类法的基本步骤划分聚类方法层次聚类方法密度聚类方法基于密度的聚类方法以数据集在空间分布上的稠密程度为依据进行聚类无需预先设定簇的数量因此特别适合对于未知内容的数据集进行聚类网格聚类方法模型聚类方法密度聚类方法基于密度方法的聚类密度聚类方法的指导思想是只要一个区域中的点的密度大于某个域值就把它加到与之相近的聚类中去对于簇中每个对象在给定的半径的邻域中至少要包含最小数数目 MinPts 个对象这类算法能克服基于距离的算法只能发现类圆形的聚类的缺点可发现任意形状的聚类且对噪声数据不敏感代表算法有 DBSCAN OPTICS DENCLUE算法等基于密度方法的聚类 DBSCAN DBSCAN Density BasedSpatialClusteringofApplicationswithNoise 一个比较有代表性的基于密度的聚类算法与层次聚类方法不同它将簇定义为密度相连的点的最大集合能够把具有足够高密度的区域划分为簇并可在有噪声的空间数据库中发现任意形状的聚类传统基于中心的密度定义为数据集中特定点的密度通过该点半径之内的点计数包括本身来估计显然密度依赖于半径传统的密度定义基于中心的方法基于密度方法的聚类 DBSCAN所用到的基本术语定义对象的邻域给定对象在半径内的区域定义核心对象如果一个对象的邻域至少包含最小数目MinPts个对象则称该对象为核心对象例下图中 1cm MinPts 5 q是一个核心对象定义直接密度可达给定一个对象集合D 如果p是在q的邻域内而q是一个核心对象我们说对象p从对象q出发是直接密度可达的例在下图中 1cm MinPts 5 q是一个核心对象对象p1从对象q出发是直接密度可达的基于密度方法的聚类 DBSCAN所用到的基本术语密度可达定义密度可达的如果存在一个对象链p1 p2 pn p1 q pn p 对pi D 1 i n pi 1是从pi关于和MitPts直接密度可达的则对象p是从对象q关于和MinPts密度可达的例在下图中 1cm MinPts 5 q是一个核心对象 p1是从q关于和MitPts直接密度可达 p是从p1关于和MitPts直接密度可达则对象p从对象q关于和MinPts密度可达的基于密度方法的聚类 DBSCAN所用到的基本术语图密度相连图噪声定义噪声一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合不包含在任何簇中的对象被认为是噪声边界点边界点不是核心点但落在某个核心点的邻域内噪声就是那些既不是边界点也不是核心点的对象定义密度相连的如果对象集合D中存在一个对象o 使得对象p和q是从o关于和MinPts密度可达的那么对象p和q是关于

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

R语言-聚类分析.ppt

文档简介

温馨提示

最新文档

评论

R语言-聚类分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档