DBSCAN.doc_第1页
DBSCAN.doc_第2页
DBSCAN.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DBSCAN:基于密度的聚类简单的说就是根据一个根据对象的密度不断扩展的过程的算法。一个对象O的密度可以用靠近O的对象数来判断。学习DBSCAN算法,需要弄清楚几个概念:一:基本概念1.:对象O的是与O为中心,与为半径的空间。参数,是用户指定每个对象的领域半径值。2. MinPts(领域密度阀值):对象的的对象数量。3. 核心对象:如果对象O的对象数量至少包含MinPts个对象,则该对象是核心对象。4. 直接密度可达:如果对象p在核心对象q的内,则p是从q直接密度可达的。5. 密度可达:在DBSCAN中,p是从q(核心对象)密度可达的,如果存在对象链,使得,是从关于和MinPts直接密度可达的,即在的内,则到密度可达。6. 密度相连:如果存在对象,使得对象都是从q关于和MinPts密度可达的,则称是关于和MinPts密度相连的。二:密度可达和密度相连这里图1基于密度的聚类中的密度可达和密度相连性由上图可看出m,p,o.r 都是核心对象,因为他们的内都只是包含3个对象。1. 对象q是从m直接密度可达的。对象m从p直接密度可达的。2. 对象q是从p(间接)密度可达的,因为q从m直接密度可达,m从p直接密度可达。3. r和s是从o密度可达的,而o是从r密度可达的,所有o,r和s都是密度相连的。三:DBSCAN聚类过程1. DBSCAN发现簇的过程 初始,给定数据集D中所有对象都被标记为“unvisited”DBSCAN随机选择一个未访问的对象p,标记p为“visited”,并坚持p的是否至少包含MinPts个对象。如果不是,则p被标记为噪声点。否则为p创建一个新的簇C,并且把p的中所有对象都放在候选集合N中。DBSCAN迭代地把N中不属于其他簇的对象添加到C中。在此过程中,对应N中标记为“unvisited”的对象,DBSCAN把它标记为“visited”,并且检查它的。如果的中的对象都被添加到NZ中。DBSCAN继续添加对象到C,知道C不能扩展,即知道N为空。此时簇C完成生成,输出。为了找到下一个簇,DBSCAN从剩下的对象中随机选择一个未访问过的对象。聚类过程继续,直到所有对象都被访问。2. DBSCAN聚类算法流程算法:DBSCAN,一种基于密度的聚类算法输入: D:一个包含n个对象的数据集 :半径参数 MinPts:领域密度阀值输出:基于密度的簇的集合方法:1 标记所有对象为unvisited;2 Do3 随机选择一个unvisited对象p;4 标记p为visited;5 If p的至少有MinPts个对象6 创建一个新簇C,并把p添加到C;7 令N为p的中的对象集合8 For N中每个点9 If 是unvisited;10 标记为visited;11 If 的至少有MinPts个对象,把这些对象添加到N;12 如果还不是任何簇的成员,把添

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论