数据挖掘最新精品课程完整(第14讲)---基于密度的聚类

上传人：闯*** IP属地：广东上传时间：2020-05-22 格式：PPT 页数：32 大小：618KB 积分：25 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

.1、基于密度的聚类方法。2、基于密度的聚类方法、分区和分层方法都是为了寻找球形聚类。他们很难找到任何形状的星团。改进后的思想将聚类视为由数据空间中的低密度区域分隔的高密度对象区域。这是基于密度的聚类方法的主要策略。基于密度的聚类方法可用于过滤噪声孤立点数据和发现任意形状的聚类。基于高密度连通区域的聚类光学：基于点排序识别的密度分布函数的聚类。3，DBSCAN，基于密度的聚类是收集密集连接点以找到由低密度区域分隔的高密度区域的主要思想只要相邻区域的密度(每单位大小的对象或数据点的数量)超过某个阈值，聚类就继续。4，DBSCAN，两个参数：Eps:邻域的最大半径最小值3360核心对象Eps半径邻域的最小顶点数。5，DBSCAN，密度=定义半径内的内点数量(Eps)。如果一个对象的Eps邻域至少包含最小数量的MinPts对象，则该对象称为核心点。如果一个对象是非核心对象，但其邻域中有核心对象，则该对象称为边界点。核心对象和边界点以外的点是噪声点。密度可达对于对象P和核心对象Q(关于E和MinPts)，如果对象P在对象Q的E邻域内，我们称P为从Q(关于E和MinPts)直接可达的密度。如果存在对象链P1，pn，P1=q，pn=p，相对于Eps和MinPts直接密度，pi 1可从pi到达，那么相对于Eps和MinPts密度，对象p可从对象q到达。密度可达性是直接密度可达性的传递闭包，这种关系是不对称的。只有核心物体才能互相接触。如果在对象集合d中有一个对象o，使得相对于Eps和MinPts密度，对象p和q可从o到达，那么对象p和q相对于Eps和MinPts密度是连接的。密度连通性是一种对称关系。如图所示，由相应的半径表示，最小值为3。请分析五个样本点q、m、p、s、o、r之间的关系。根据上述概念，我们知道标记点m、p、o和r的邻居都包含3个以上的点，因此它们都是核物体。m是从p“可达的直接密度”；q是从m“直接密度可达”的；基于上述结果，Q是从P“密度可达”的；但P不能从q“密度可达”(不对称)。同样，S和R也是从O“密度可达”；o、r和s都是“密度相关的”。根据上面的定义，dbscan算法在数据库中查找聚类和噪声。一个集群可以等同于集合D中所有对象的集合，其集群核心对象的密度可以达到。DBSCAN通过检查数据集中每个对象的邻域来寻找聚类。如果点p的-邻域包含的对象多于MinPts对象，则创建一个以p为核心对象的新聚类c。然后，DBSCAN从c中寻找未处理对象q的-邻域，如果q的-邻域包含多个MinPts对象，则将c中未包含的q的邻域添加到聚类中，并在下一步中检测这些点的-邻域。重复此过程，当没有新的点可以添加到任何集群时结束。详情如下：DBSCAN算法步骤：输入：数据集d，参数minpts，输出：聚类集(1)首先将数据集d中的所有对象标记为未访问；(2)做(3)随机选择一个未访问的；d中的对象p，并将p标记为已访问；ifp的邻域至少包含最小点对象，以创建一个新的聚类C并将P添加到C；邻域中的一组对象，其中n是p；(7)FOr中的每一点都是不可见的；参观马克皮；Ifpi在其邻域中至少有MinPts对象，并且这些对象被添加到n；Ifpi还不是任何集群的对象。将pi添加到集群c；(12)结束(13)输出C(14)否则标记P为噪声(15)直到没有标记为未看见的物体。基于密度方法聚类-数据库扫描，下面给出了一个事务数据库示例(见下表)，用于在其上实现数据库扫描算法。根据给定的数据，实现了DBSCAN算法。以下是算法的步骤(设置n=12，用户输入=1，MinPts=4)，样本事务数据库，DBSCAN聚类过程。步骤1，在数据库中选择一个点1。因为以它为中心且半径为1的圆包含两个点(小于4)，所以它不是核心点，下一个点被选中。步骤2:在数据库中选择点2。由于圆心和半径为1的圆中有2个点，所以它不是核心点。选择下一点。步骤3:在数据库中选择点3。因为圆心和半径为1的圆有3个点，所以它不是核心点。选择下一点。DBSCAN聚类过程，步骤4，在数据库中选择一个点4。因为它在圆心和半径为1的圆中包含5个点，所以它是核心点。找到从中可以到达的点(最多4个直接到达，3个间接到达)，并为新类选择下一个点1，3，4，5，9，10，12。DBSCAN聚类过程，步骤5，在数据库中选择一个点5，已经在聚类1中，选择下一个点。步骤6:在数据库中选择一个点6。因为圆心和半径为1的圆有3个点，所以它不是核心点。选择下一点。DBSCAN聚类过程，步骤7，在数据库中选择一个点7。因为它在圆心和半径为1的圆中包含5个点，所以它是核心点。找到从中可到达的点，并收集新的类2，6，7，8，11以选择下一个点。DBSCAN聚类过程，步骤8，在数据库中选择一个点8，已经在聚类2中，选择下一个点。步骤9:在数据库中选择一个点9，并且已经选择了集群1中的下一个点。步骤10:在数据库中选择一个点10，然后在集群1中选择下一个点。步骤11:在数据库中选择一个点11。下一个点已经在集群2中被选择。步骤12:选择12: 00，它已经在集群1中。因为这是最后一点，所以所有的点都被处理并且程序被终止。基于密度的聚类-DBSCAN，算法执行过程：19、DBSCAN、原始点、簇、特征：抗噪声可以处理任何形状的簇，基于密度的聚类的优点是克服了基于距离的算法只能找到“类圆形”聚类的缺点，可以找到任何形状的聚类，并且可以有效地处理数据集中的噪声数据。数据输入顺序不敏感。输入参数是敏感的。很难确定参数和最小值。选择不当会导致聚类质量下降。由于变量和MinPts在DBSCAN算法中是全局唯一的，当空间聚类密度不均匀且聚类间距离变化较大时，聚类质量较差。计算密度单元的计算复杂度较大，因此需要建立空间索引来减少计算量，并且对数据维度的可扩展性较差。这种方法需要扫描整个数据库，并且每个数据对象都可能导致一个查询，从而在数据量很大时导致频繁的输入/输出操作。尽管dbscan可以根据给定的输入参数和MinPts对对象进行聚类，但它将选择能够产生可接受的聚类结果的参数值的责任留给了用户。这是许多其他算法中存在的问题。然而，为高维数据设置精确的参数非常困难。参数设置的细微差异可能会导致非常不同的聚类结果。全局参数不能很好地描述其固有的聚类结构。光学算法。下图中描述的数据集无法通过全球密度参数同时区分组群A、组群B、组群C、组群C1、组群C2和组群C3。只有甲，乙，丙或C1，C2和C3可以获得。对C1、C2和C3来说，A、B和C是噪音。对于固定的最小值和两个1 2，1的最小值簇C必须是2和最小值簇C的子集，这意味着。如果两个对象在同一个基于密度的群集中，它们也在具有较低密度要求的同一个群集中。嘿。嘿。23，OPTICS:通过点排序识别聚类结构。对于真实的高维数据集，参数设置通常依赖于经验，很难确定。大多数算法对参数值非常敏感：设置上的细微差异可能会导致非常不同的聚类结果。光学算法通过对对象进行排序来识别聚类结构。OPTICS不显式生成数据集聚类，它为自动和交互式聚类分析计算聚类顺序。该顺序表示基于密度的数据聚类结构。在聚类排序中，密度较大的对象彼此靠近。聚类的排序选择这样的对象：关于最小e值，它是密度可达的，以便具有较高密度(较低e值)的聚类可以首先完成。对象的核心距离P:使P成为核心对象的最小值。如果p不是核心物体，那么p的核心距离就没有意义。可达距离：物体q到物体p的可达距离是指p的核心距离与p和q之间的欧氏距离之间的较大值。如果p不是核心物体，p和q之间的可达距离就没有意义。光学算法，核心距离和可达距离，假设=6mm，最小值=5。p的核心距离是p和第四个最近的数据对象之间的距离，q1到p的可达距离是p的核心距离(=3 mm)，因为它大于q1到p的欧几里德距离。q2关于p的可达距离是从p到Q2的欧几里德距离，它大于p的核心距离。光学算法不显式地生成数据和聚类，而是输出聚类排序，这是所有分析对象的线性表，并且表示数据的基于密度的聚类结构。在集群排序中，密度较大的集群中的对象彼此靠近。这种排序相当于从一组更广泛的参数中获得基于密度的聚类。因此，光学不需要用户提供特定的密度阈值。聚类排列可用于提取基本的聚类信息，导出内在的聚类结构，并提供聚类的可视化。光学算法，为了构造不同的类，需要以特定的顺序处理对象，该顺序选择这样的对象，并且相对于最小值，它是密度可达的，以便首先完成较高密度(较低值)的聚类。光学算法计算给定数据库中所有对象的排序，并存储每个对象的核心距离和相应的可达距离。光学维护一个名为orderseeds的表来生成输出排列。orderseeds中的对象按照到最近核心对象的可达距离和每个对象的最小可达距离进行排序。嘿。嘿。28，OPTICS:通过点排序识别聚类结构。该算法首先检查数据对象集合D中任何对象的E邻域。将其可达距离设置为“未定义”并确定其核心距离，然后将对象及其核心距离和可达距离写入文件。如果P是核心对象，则对象P的e邻域中的对象N(P)被插入到种子队列中，并且包含在种子队列中的对象P根据到其直接密度可达的最近核心对象q的可达距离被排序。首先选择种子队列中可达距离最小的对象，确定该对象的E邻域和核心距离，然后将该对象及其核心距离和可达距离写入文件。如果当前对象是一个核心对象，那么更多的后选扩展对象将被插入到种子队列中。重复此过程，直到没有新对象添加到当前种子队列中。，and，and，and，and，and，and，and，and，and，and，and，and，and，and，and，and，and，and，and，and，and，否则，选择一个未处理的对象(即不在结果队列中)并将其放入有序种子队列：步骤3:如果有序种子队列为空，则返回步骤2；否则，选择种子队列中的第一个对象p进行扩展：步骤3.1:如果p不是核心节点，则转移步骤4；否则，对p的e邻域内任何未扩展的邻居q执行步骤3.1.1，如果q已经在有序种子队列中，并且从p到q的可达距离小于旧值，则更新q的可达距离，并将q调整到相应位置，以确保队列的有序性；步骤3.1.2:

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘最新精品课程完整(第14讲)---基于密度的聚类

文档简介

温馨提示

最新文档

评论

数据挖掘最新精品课程完整(第14讲)---基于密度的聚类

文档简介

温馨提示

最新文档

评论

相关文档