DBSCAN聚类算法_第1页
DBSCAN聚类算法_第2页
DBSCAN聚类算法_第3页
DBSCAN聚类算法_第4页
DBSCAN聚类算法_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DBSCAN聚类算法介绍,李欣,目录,基于密度的聚类算法介绍DBSCAN算法在生物领域的应用,基于密度的聚类算法,发展原因:弥补了层次聚类算法和分区聚类算法只能找到凸聚类的缺陷。核心思想:只要一个区域中的点密度大于某个阈值,它就会被添加到它附近的簇中。密集采样点的低密度区域(噪声),基于密度聚类算法,以及密度的定义,传统的基于中心的密度定义为:通过统计点(包括其自身)Eps半径内的点来估计数据集中特定点的密度。显然,密度取决于半径。DBSCAN点分类,基于密度定义,我们将点分为:密集区域内的点(核心点),密集区域边缘的点(边界点),稀疏区域的点(噪声或背景点),DBSCAN点分类,核心点):包

2、含的点比半径Eps中的最小点多,那么这个点就是核心点。这些点都是群集中的边界点。半径Eps中的点数小于最小点数,但任何不是核心点或相邻噪声点中的边界点的点):最小点:给定点成为E域核心对象的最小域点。DBSCAN:的核心点、边界点和噪声点,原始点,点类型:核心、边界和噪声,EPS=10,minpts=4,DBSCAN算法概念,EPS邻域:给定对象Eps半径内的邻域称为该对象的Eps邻域。我们使用点p Eps半径内的点集,即:个核心对象:如果一个对象的Eps邻域至少包含最小数量的MinPts对象,那么该对象称为核心对象。边界点:边界点不是核心点,而是在核心点的邻域内。噪声点:既不是核心点也不是边

3、界点的任何点。DBSCAN算法的概念,直接密度可达性:给定一个对象集D,如果P在Q的Eps邻域内,并且Q是一个核心对象,那么当从对象Q开始时,对象P是直接密度可达的。密度可达性:如果有一个对象链,它是从Eps和MinPts的直接密度可达的,那么对象P是从Eps和MinPts的密度可达密度连接的;如果存在物体外径,这使得物体P和Q都可以从0到达,那么物体P到Q在Eps和MinPts上是密度连接的。DBSCAN算法概念示例,如图所示,Eps由相应的半径表示,让MinPts=3,请分析五个采样点之间的关系:q、m、p、s、o和R.“直接密度可达性”和“密度可达性”概念的示意性描述和解决方案。根据上述

4、概念,已知标记点M、P、O和R的Eps邻居都包含三个以上的点,因此它们都是核对象;m是从P“直接可及的密度”;而q是m的“直接密度可及性”;基于以上结果,q是p的“密度可及性”;然而,磷并不是“密度可及的”(非对称)。类似地,s和r是o的“密度可及性”;o、r和s都是“密度相关的”。根据DBSCAN算法的原理,DBSCAN通过检查数据集中每个点的Eps邻域来搜索聚类。如果点p的Eps邻域包含的点多于MinPts,则创建一个以p为核心对象的聚类。然后,DBSCAN迭代地从这些核心对象中直接聚合密度可达对象。这个过程可能包括合并一些密度可达的集群。当没有新的点被添加到任何集群时,该过程结束。DBS

5、CAN算法的伪代码,输入:数据集D,参数MinPts,Eps输出:聚类集(1)首先将数据集D中的所有对象标记为未处理状态(2)对于每个对象p do (3)如果数据集D中的p已被分类到某个聚类中或标记为噪声,则(4)继续;(5)否则(6)检查对象P的Eps邻域;(7)如果包含的对象的数量小于最小点,则(8)将对象标记为边界点或噪声点;(9) else (10)将对象p标记为核心点,建立新的聚类C,并将p邻域中的所有点添加到C (11)中所有未处理的对象q do (12)上,以检查它们的Eps邻域。如果至少有MinPts对象,则在c中添加未分类到任何集群中的对象;(13)end for(14)en

6、d if(15)end if(16)end for,当dbscan工作正常时,它对噪声不敏感,可以处理不同形状和大小的数据,Clusters,Original Points,DBSCAN工作不正常,Original Points,(minpts=4,Eps=9.75),(minpts=4,EPS=9.92),密度变化的高维数据,DBSCAN算法的一些问题,DBSCAN的基本时间复杂度是O(N*找出Eps域中的点所需的时间),N在最坏的情况下,时间复杂度为0(N2)。在低维空间数据中,有一些数据结构,如KD树,可以有效地搜索距特定点给定距离内的所有点。时间复杂度可以降低到0。DBSCAN算法的一

7、些问题,在低维或高维空间复杂的数据中,其空间为O (N),只需要为每个点维护少量的数据。即聚类标签和每个点(核心点、边界点或噪声点)的标识,如何正确选择EPS和MinPts,对于一个类中的所有点,它们的第K个最近邻之间的近似距离是相同的,而噪声点的第K个最近邻之间的距离相对较远,所以尽量根据每个点与其第K个最近邻之间的距离进行选择,然后Eps取什么值?MinPts需要什么?基于密度定义的DBSCAN算法的优点和缺点是相对抗噪声的,并且可以处理任何形状和大小的簇的缺点。当簇的密度变化太大时,就会有麻烦。对于高维问题,密度定义是一个麻烦的问题。DBSCAN应用程序,DBSCAN应用程序,DBSCAN应用程序,6x6mbox,EPS: 100nm,minpts: 10,DBSCAN应用程序,DBSCAN,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论