(计算机软件与理论专业论文)基于相邻关系的聚类和离群点检测算法的研究.pdf_第1页
(计算机软件与理论专业论文)基于相邻关系的聚类和离群点检测算法的研究.pdf_第2页
(计算机软件与理论专业论文)基于相邻关系的聚类和离群点检测算法的研究.pdf_第3页
(计算机软件与理论专业论文)基于相邻关系的聚类和离群点检测算法的研究.pdf_第4页
(计算机软件与理论专业论文)基于相邻关系的聚类和离群点检测算法的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机软件与理论专业论文)基于相邻关系的聚类和离群点检测算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于相邻关系的聚类与离群卢检测算法的研究中文摘要 摘要 聚类分析和离群点检测都是数据挖掘邻域的主要研究方向之一。随着信息技 术在科学研究、生产管理及商务应用中的日益普及,聚类分析和离群点检测在大 量日常数据的挖掘分析中的重要地位也日渐显现。本文通过对空间数据间的相邻 关系的深入研究,提出利用数据空间内局部密度不同的特性,进行聚类分析和离 群点检测的算法,主要贡献如下: 1 提出了一种新颖的基于相邻关系的聚类算法- n b c 算法。与传统的基 于密度的聚类算法使用全局密度门限值不同,该算法引入邻基密度系数 的概念,对每个数据对象周围的相对局部密度进行考察和度量。和以往 的算法相比,n b c 算法能够更有效地识别出同一数据集中任意形状、不 同密度的簇,很好地解决了使以往算法失效的局部密度不均匀问题和多 粒度问题。 2 提出了一种高效的基于相邻关系的离群点检测算法- n o f 算法。该算 法充分利用数据对象之间的相邻关系来度量数据对象的孤立程度。与基 于距离的方法相比,它解决了局部离群点不能被准确识别的问题;与基 于密度的方法相比,它更简练、直观和有效,并在一些l o f 算法失效的 数据集上依然能准确识别离群点。在大数据集和高维数据集的应用中, n o f 算法在有比较高的效率和比较好的可扩展性。 关键词:数据挖掘,聚类分析,离群点检测,算法 基于相邻关系的聚类与离群电检测算珐的研究英文摘要 a b s t r a c t c l u s t e r i n ga n a l y s i sa n do u t l i e rd e t e c t m na l et w oi m p o r t a n tr e s e a r c ht o p i c so f k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ( k d d ) ,a n da r ew i d e l ya p p l i c a b l ei nm a n ya r e a s , s u c ha se x p l o r a t o r yd a t aa n a l y s i s ,b u s m e s si n t e l l i g e n c e ,a n di m a g ep r o c e s s i n ge t c t h i st h e s i si n t r o d u c e san o v e lc o n c e p to fl o c a ld e n s i t yo fs p a t i a ld a t at ou n v e i lt h e n e i g h b o r h o o dr e l a l a o n s h i pb e t w e e nd a t ao b j e c t s ,w h i c hi su s e dt od i s c o v e rc l u s t e r s a n dt od e t e c to u t l i c r si nl a r g e s c a l ed a t a b a s e s m a j o rc o n t r i b u t i o n so f t t u st h e s i sa a s f o l l o w s : 1 an e wc l u s t e n n ga l g o r i t h m ,n b c ,i e ,n e i g h b o r h o o db a s e dc l u s t e r i n gi s p r e s e n t e d ,w h i c hd i s c o v e r sc l u s t e r sb a s e d o nt h en e l g h b o r h o o dc h a r a c t e r i s t i c s o fd a t at h en b ca l g o r i t h mh a st h ef o l l o w i n ga d v a n t a g e s :( 1 ) b e i n ge f f e c t i v e i nd i s c o v e r i n gc l u s t e r so fa r b i t r a r ys h a p ea n dd i f f e r e n td e n s i t i e s ;( 2 ) r e q u i r i n g f e w e ri n p u tp a r a m e t e r st h a nt h ee x i s t i n gc l u s t e r i n ga l g o r i t h m s ;( 3 ) b e i n ga b l e t oc l u s t e rb o t hl a r g ea n dh x g h - d i m e n s i o n a ld a t a b a s e se f f i c i e n t l y 2 an o v e la l g o r i t h mt od e t e c tl o c a lo u t h e r si nl a r g ed a t a b a s eb yu t i l i z i n g n e i g h b o r h o o dp r o p e r t yo fd a t ao b j e c t si sp r o p o s e d t h en e wa l g o r i t h md o e s n o tn e e dd i r e c tc o m p u t a t i o no fd i s t a n c ea n dd e n s i t y c o m p a r e dw i t ht h e e x i s t i n gm e t h o d s ,i ti ss i m p l e ra n dm o r ei n t u i t i v e ,a n di ti sa d v a n t a g e o u so v e r t h ed e n s i t y - b a s e dm e t h o db o t hi ne f f i c i e n c ya n de f f e c t i v e n e s s b e s i d e s ,i ta l s o h a sg o o ds c a l a b i l i t yo nh i g h - d i m e n s i o n a ld a t a s e t s k e y w o r d s :d a t an u n i n g ,c l u s t e r i n ga n a l y s i s ,o u t l i e rd e t e c t i o n ,a l g o r i t h m i i 基于相邻关系的聚类与离群卢柃测算法的研究引言 第一章引言 1 1 数据挖掘及其分类 进入2 0 世纪以后,随着科学技术的迅猛发展,人类文明正在以前所未有的 速度向前跨步。同时,人们正处于一个信息爆炸的时代,在科学研究、金融贸易 和生产管理过程中产生的数据的快速增长,也已经远远超出了人们能够理解和处 理的范围。在信息严重超载的今天,“生活在信息的海洋中,但却忍受着知识的 饥渴”已经成为了一对急需解决的矛盾,人们需要强有力的数据分析工具来帮助 他们从海量数据中提取有用的知识。正因为如此,近年来,数据挖掘( d a t a m i n i n g ) 引起了信息产业界的极大关注,并逐渐地发展成为一门重要的学科。 简单地说,数据挖掘就是从大量的数据中提取或“挖掘”知识。广义地理解, 可以将数据挖掘等同于数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , k d d ) ,即从大规模的数据库中抽取非平凡的( n o n - t r i v i a l ) 、隐含的( i m p l i c i t ) 、 未知的、并且有使用价值的信息的过程。一般意义上的知识发现涵盖了一下四个 方面的任务:依赖关系的发现( d e p e n d e n c yd e t e c t i o n ) 、分类的识别( c l a s s i d e n t i f i c a t i o n ) 、分类的描述( c l a s sd e s c r i p t i o n ) 和小模式发现( s m a l lp a a e m d e t e c t i o n ) 。其中,前三个方面的任务都是为了发现数据集中大多数数据对象的 通用模式。数据挖掘领域的大多数研究都属于这三部分,例如关联规则的挖掘、 分类、聚类等。相反地,第四方面的任务,l l 】d , 模式发现,则着重于发现数据集 中那些被前三方面工作忽略或者认定为噪声、但在一些特定应用中有极大价值的 小部分数据对象。 狭义地理解,数据挖掘又可以看成数据库中知识发现过程的一个基本步骤。 知识发现过程由主要的七大步骤组成:数据清理( d a mc l e a n i n g ) 、数据集成( d a m i n t e g r a t i o n ) 、数据选择( d a ms e l e c t i o n ) 、数据转换( d a t at r a n s f o r m a t i o n ) 、数据 挖掘( d a t am i n i n g ) 、模式评估( p a t t e r ne v m u a t i o n ) 和知识表示( k n o w l e d g e p r e s e n t a t i o n ) 。数据挖掘是其中最重要的一步,它用来发现隐藏的模式,而其他 步骤可以看成是对原始数据的预处理以提供数据挖掘的输入,以及对数据挖掘结 果的后期处理以生成提交给用户的最终形式。 以上两种理解虽然有所不同,但两者对以下两个问题的认识是统一的:1 ) 基于相邻关系的聚类与离群占检测算法的研究 引言 数据挖掘的最终目的是辅助用户进行决策支持,因此挖掘结果必须是准确的、可 用的、未知的和合理的知识;2 ) 数据挖掘的对象是大规模的数据,因此必须具 有高效性和良好的可伸缩性。 数据挖掘是- f 7 交叉学科,它受数据库系统、统计学、机器学习、可视化和 信息学等多个学科的影响,并从各个方面都衍生出许多研究课题和方法,其侧重 点不尽相同。根据不同的标准,数据挖掘大致地可以划分为一下几类: 根据被挖掘数据对象及其存放的数据库类型分类 r t k o o l 。数据库系统本身可以 根据不同的标准分类,每一类都有相应的、符合其特点的数据挖掘方法和技 术。按照数据模型分类,可分成关系型、事物型、面向对象型、对象一关系 型以及数据仓库的数据挖掘技术;按照数据本身的特点和用途,又可分为空 间数据、时间序列、文本、多媒体以及w e b 数据的挖掘技术等。 根据挖数据挖掘的具体目的和发现的目的模式的类型【h k 0 0 1 ,可以分为分类和 预测( c l a s s i f i c a t i o na n dp r e & c t i o n ) 、关联分析( a s s o c i a t i o n a n a l y s i s ) 、聚类 分析( c l u s t e n n g a n a l y s i s ) 以及离群点检测( o u t l i e rd e t e c t i o n ) 等。 根据所采用的主要技术分类,可以分为基于统计的方法、决策树方法、神经 网络方法、最近邻方法、遗传算法、规则归纳方法等。复杂的数据挖掘系统 往往同时采用多种技术进行挖掘,或将多种方法结合使用,因此这种分类也 并非是一成不变的。 本文的工作着着重于聚类分析和离群点检测两方面内容。 1 2 聚类分析及其定义 设想对一个数据对象的集合进行分析,聚类( c l u s t e r i n g ) 就是将数据对象 分组成为多个类或簇( c l u s t e r ) ,在同一个簇中的对象之间具有较高的相似度, 而不同的簇中的对象差别较大。更具体形象的定义和例子将在第三章中给出。 聚类分析已经得到了广泛的应用,包括模式识别、数据分析、图像处理、以 及市场研究。通过聚类,人们能够识别密集的和稀疏的区域,从而发现全局的分 布模式,以及数据属性之间的潜在关系。在生物学上,聚类能用于推导植物和动 物的分类,对基因进行分类,获取对基因中固有结构的认识。聚类在地球观测数 据库中相似地区的确定、汽车保单持有者的分组、以及根据房屋的类型、价值和 地理位置对个城市中房屋的分组上也能发挥作用。此外,聚类分析可以作为其 他算法的预处理步骤,再在生成的簇上进行处理。 2 基于相邻关系的聚类与离群占检测算法的研究引言 聚类是一个富有挑战性的研究领域。在数据挖掘邻域,聚类的研究工作已经 集中在为大型数据库上进行有效的聚类分析寻找合适的方法。活跃的研究主题集 中在聚类方法的可伸缩性、对复杂形状和类型的数据的有效性、对高维数据的聚 类方法,以及针对大型数据库中混合数值和分类数据的聚类方法等。也可以说, 聚类分析在这些方面的问题并未得到很好的解决。 1 3离群点检测及其定义 与聚类的寻找“共性”的目的不同,离群点检测是为了找出那些具有“个性” 或与其他大多数数据不具有“共性”的对象。从知识发现的角度来看,在一些特 定的应用中,偶尔发生的事件往往比经常发生的更值得关注,例如电子商务犯罪、 电信和信用卡欺诈的侦察、视频监视和网络入侵检测等等。在这些应用中,我们 更关注诸如现金流量、物体的位景、网络流量方面的突变,以及一些事务的非常 规组合等,因为这些往往是扰乱系统正常运作的行为的征兆。“一个人的噪声数 据可能是另一个人的有用信号。”因此,离群点检测技术具有广泛的应用前景。 由于对“个性”的评判标准千差万别,每个应用可能都有自己的要求,因此与簇 较为统一稳定的定义相比,离群点的定义往往会随着方法的不同而改变。这里给 出几个具有代表性的、影响较广的定义。 1 3 ih a w k i u s 的定义 定义1 1 离群点是在某些特性上与其他观察对象( o b s e r v a t i o n ) 偏离很大, 足以使人怀疑它是由另一种机制所产生的观察对象m 删o 】。 作为最早出现的有关离群点的定义之一,h a w k m s 给出的定义是抽象的,它 只给出了离群点的最主要的特征:与其他点的性质偏离很大。至于“其他对象” 具体指哪些对象、数量多少、在多少个特性上偏离的程度大小、以及标称偏离的 尺度和标准,在这个定义中都没有得到体现。在具体的离群点检测算法中,这些 问题都必须一一具体定义。因此,h a w k i n s 的定义是一个抽象的形式定义,在这 个形式定义下,扩展到不同的领域,结合不同的实际情况,就可以构造不同的具 体定义。 为了在h a w k i n s 的定义下构造一个具体的离群点定义,一般需要定义以下元 素: 1 ) 观察属性( a t t r i b u t e s ) 即在哪些属性上与其他观察对象偏离很大。 数据集中的元组可以有若干个属性。在进行离群点检测时,可以把所有属性都作 3 基于相邻关系的聚类与离群卢检铡算珐的研究引言 r 为评价因素;也可以根据实际需求选取部分属性来考察,此时,把数据集中的数 据做这些属性上的映射,以降低维数。 2 ) 群观测对象( n o r m a lo b s e r v a t i o n ) 即非离群点,它的定义可以是显 式的,也就是给出一个明确的式子来规定落入某个闽值范围的点是非离群点。但 更多时候,非离群点的定义是隐式的,因为在通常隋况下,用户并不清楚数据的 具体特性。 3 ) 偏离标准( s t a n d a r df o rd e v i a t i o n ) 用于计算一些数值,来衡量数据 对象的属性的偏离程度,作为考察某数据对象是否是离群点的依据。 4 ) 阈值( t h r e s h o l dv a l u e ) 按照偏离标准计算出的值超出这个阈值的, 就识别为离群点。 以上四个元素中,( 3 ) 不是必需的。非离群点可以是普通数据,也可以是环 境噪声,而且不同的普通数据可能属于不同的聚簇,这样,它们之间的差异也会 很大。因此给出非离群点的定义本身就是一件很繁琐很困难的事。离群点检测的 最终目标是得到离群点,在一开始我们可以认为所有的点都是非离群点,然后对 其进行一一考察,挑出离群点即可,而不必考虑它到底是环境噪声还是有用的普 通数据,这是离群点检测和聚类分析的最大的差别。 1 3 2 基于距离的离群点定义 定义1 2 给定数据集丁,0 是r 中的一个数据对象。如果数据集丁中至少有 p i r i ( 0 p 0 ) ,那么数据对象o 是数据集t 中的d b ( p ,d ) 离群点刚9 s 。 这个定义符合h a w k i n s 的定义。它适合于不符合任何标准分布的数据集。当 定义了合适的两数据对象间的距离d 的具体计算方法后,这个定义是可以适用于 任意维数的数据集的。一般地,对于连续值使用欧氏距离( e u c l i d e a nd i s t a n c e ) , 而对于离散值使用海明距离( h a m m i n gd i s t a n c e ) 来衡量。 对于欧氏空间里的d b ( p ,d ) 离群点有d a t - - 条常用的性质【8 r 嗍: 性质1 1 数据对象d 的d 邻域中,任意两点间的距离不大于2 d 。 性质1 2 如果o 的d 2 邻域中有至少p i r l 个数据对象,那么0 的d 邻域中 所有的点都不是离群点。 性质1 3 如果0 的2 d 邻域中的数据对象个数少于p l 丁i ,那么0 的d 邻域中 4 基于相邻关系的聚类与离群占检测算法的研究引言 所有的点都是离群点。 这三条性质经常用于对数据对象的删减,以减少不必要的计算。 d b ( p ,d ) 离群点定义的优点在于简单直观,而且通用性比较好。但它的一 个致命的缺点在于它要给出一个全局性的距离参数d 。当数据集中有密度不同的 几个聚簇存在的时候,基于这个定义的离群点检测就会失效。 作为最基本的d b ( p ,d ) 离群点定义的改良,其他的基于距离的离群点定义 有: 1 ) 到k 个最近邻的距离之和最大的n 个数据对象: 2 ) 到k 个最近邻的平均距离最大的,1 个数据对象; 3 ) 到第k 个最近邻的距离最大的疗个数据对象i r g s 0 0 。 以上定义在判定一个点是否是离群点时,采用了与其他数据对象的邻域特征 进行比较的方法。但在计算自身邻域特征的过程仍然是一个独立的、与其他数据 对象的邻域无关的过程。从本质上来讲,它们都是基于距离的离群点定义( 有别 于基于密度的离群点定义) 。因此,这些定义也不能很好的解决d b ( p ,d ) 离群点 定义在多密度簇存在的情况下失效的问题。 1 3 3 空间离群点定义 定义1 3 一个数据对象的某个或某些特征值比它的邻居数据对象相比高或低 很多,那么这个数据对象就是一个空间离群点,简记为s - o u t l i e r 。 s l z 0 3 1 这个定义是建立在特殊的应用场景上的,即空间。这里牵涉到邻居的概念。 此处的邻居不同于同一个聚簇中性质相同或相近的点,而是空间意义上的邻居。 进一步扩展地说,这里邻居和是不是离群点的划分,是基于两种不同的参照属性 的。比如,对于张图来说,我们可以用空间上的位置直观地定义邻居,用颜色 的差异来定义空间离群点,从而找出某块区域内与周围颜色不同的点;也可以用 颜色属性为参照,颜色相近的点定义为邻居,用空间位置的差异来定义离群点, 从而找出颜色相近但分散在不同区域的点。 由空间离群点的定义,可以得到空间离群点的两个重要特性: 1 ) 空间离群点的比较对象是它的邻居数据对象; 2 ) 空间离群点是局部的概念,它不必与数据集中所有的其他点都不同。 这两点是揭示了空间离群点定义和基于距离的离群点定义的本质差别。 1 3 4 其他有关离群点的定义 基于相邻关系的聚类与离群卢检测算法的研究引言 除了上述三种离群点的定义之外,一些文章中还提出了其他的离群点定义, 例如基于密度的离群点【b k n 0 0 1 、基于连接性的离群点f 0 2 1 以及在高维数据集上特 殊的离群点的定义哗g 叫等等。由于这些定义大多针对某种特定的算法而建立的, 因此定义的普遍性和抽象性不是很高,具体定义也比较繁琐。在以后的章节中, 将结合具体算法,加以介绍和分析。 10 4 研究目的与内容 聚类分析和离群点检测的研究发展至今,涌现出了许多算法,但普遍不能解 决好多密度、多颗粒度以及高维数据效率的问题。本文将通过对空间数据集上的 各局部空间内不同密度的深入研究,准确、全面地描述数据集中各数据对象间的 相邻关系,并充分利用这种相邻关系来寻找简洁、有效且高效的聚类分析和离群 点检测的新方法。 本文将分别提出基于相邻关系的聚类和离群点检测的新方法。这两种方法能 准确地识别出各局部空间的数据密度都不同的空间数据集中的簇和离群点。与此 同时,新算法对数据分布是不敏感的,能有效地应用于各种分布的数据集。通过 简单的参数调节,新方法能较好地解决数据集中的多颗粒度问题。此外,由于采 用了有效的数据索引结构,新算法在多维甚至高维数据集上也能有较高的准确性 和运行效率。 1 5 本文结构 本文总共分为五章,第一章为引言,第二章为聚类和离群点检测研究邻域的 相关工作。第三、第四章为本文的重点,介绍了如何利用相邻关系来迸行数据挖 掘,并引入了数据间的局部相对密度的重要概念。第三章提出了一种新颖的基于 相邻关系的聚类分析方法,第四章则仍然围绕着数据对象间的相邻关系,对离群 点检测方法展开研究,并提出了一种简洁、高效的算法。此外,这两章都对新算 法做出了必要的理论分析和详细的实验评估。第五章为总结与展望。 6 基于相邻关系的聚类与离群占检测算告的研究相关工作 第二章相关工作 2 1聚类分析的分类及主要方法 2 1 1 划分方法( p a r t i t i o n i n gm e t h o d ) 给定一个包含个数据对象的数据集,划分方法将把数据集划分成 k ( t 3 时,时间复 杂度就显得难以忍受了。 2 2 4 基于距离的方法( d i s t a n c e b a s e dm e t h o d ) 基于相邻关系的聚类与离群点检测算法的研究 相关工作 基于距离的离群点检测技术是影响比较大、应用比较广的技术。k n o r r 和n g 提出基于距离的离群点定义d b ( p ,d ) - 离群点,并且给出了这个定义下的算 法删9 8 1 之后,许多其他算法都沿用了这个定义,或者在它的基础上进行改进,发 展出新的定义和算法。 k n o r r 和n g 之所以成功的一个很重要的因素,是因为他们提出的定义和算法 很直观。从基于距离的离群点定义的直接表现来看,离群点就是距离上远离大多 数点的数据点。这是离群点的一个普遍的性质。虽然它只考虑了单密度簇的情况, 但对于单看一个簇的情况,这个定义的确揭示了通常意义上的离群点的本质。 d b ( p ,d ) 一离群点检测的有效性和准确性很大程度上依赖于d 的取值。而这 个值的选取一般与数据点的分布有关。经过大量实验证明,对于正态分布的数据 集,d 的取值一般是正态分布数据的标准差的3 倍【k n 9 7 1 。一般来讲,d 值的选 取是一个经验性的工作,要熟悉具体数据集的专家给出。 典型的基于距离的离群点检测算法有n e s t e d l o o p 算法和c e l l b a s e d 算法 1 r ( n 9 8 。n e s t e d l o o p 算法的主旨是把数据集分成大小相等的块( b l o c k ) ,每次在 内存中存放两个数据块,进行比较,排出非离群点( 即距离被考察点小于d 的数 据点的数量比例大于l p 的考察点) ,最后剩下离群点。这个算法的好处在于它 省去了为了寻找离群点而去建立索引的开销。该算法的时间复杂度是o ( k n 2 ) , 其中k 为数据的维数,为数据集的大小。相对于那些不考虑i o 开销的逐个元 组比较的算法,n e s t e d l o o p 算法更注重i 0 开销最小化,一次性读进来一个块, 然后在内存中进行比较,从而减少了对磁盘的操作。 作为n e s t e d l o o p 算法的改良,b a y 和s c h w a b a c h e r 提出了一种基于随机采 样的简单筛选方法【b s 0 3 l ,可将时间复杂度控制在与数据量成近似于线性关系的范 围内。该算法的主要思想是,在做离群点检测之前,先把数据集里的数据顺序随 机化。随后采用n e s t e d l o o p 的方法找出到k 近邻的平均距离最大的一个数据对 象。在此过程中,在离群点的候选集合中始终只保存疗个对象( 已经算出其精确 的妒近邻平均距离) ,数据块( b l o c k ) 中的某一数据对象的当前k t j 丘邻平均距 离一旦小于所有候选离群点的k 近邻平均距离,那么该数据对象就可以被筛去 而不必继续算出其精确的k 近邻平均距离。该算法从本质上来看仍然是 n e s t e d l o o p 算法,所以在最坏的情况下,该算法的时间复杂度仍为0 ( 七2 ) 。但 由于进行了先前的随机化预处理,在一般情况下实际的时间复杂度被大大降低、 接近于o ( k 0 。随机化的过程可在一遍扫描之后完成,因此总的时间复杂度仍然 接近于线性。 1 4 一 基于相邻关系的聚类与离群卢检测算法的研究相关工作 c e l l b a s e d 算法的主要思想是,把k 维数据空间用边长为二;的k 维立方体 2 4 k 划分,每个数据点都落在某一个特定的立方体中。对于每一个数据对象p ,以p 所在的立方体为中心,边长为兰姿的立方体( 即3 个小立方体) 内的所有的点 2 4 k 与p 的距离都小于d :以p 所在的立方体为中心,边长为( 2 1 2 4 _ k 芹i + 1 ) o ( 即 上- q 1 : ( 2 1 2 a - i + 1 ) 个小立方体) 之外的所有的点与p 的距离都大于d 。通过这样的方 法,不必计算太多具体的距离,就可以排除掉许多非离群点。对于剩下的不能确 定是否是离群点的数据点,也可利用立方体空间的性质,来简便地计算与周围 - 三! 圣立方体以外、堡睦塑4 坚坐立方体以内的空间的点距离,从而确认是否是 2 4 k 2 4 k 离群点。c e l l b a s e d 算法不必计算大量的点到点的距离,因此适用于数据量较多 的大数据集。该算法的时间复杂度是o ( c + ) ,其中c 是与七和c e l l 数量的1 k 次幂有关的常量。 虽然基于距离的离群点检测对于高维数据集以及大数据集都可以达到令人 满意的效率,但是仍然存在着两大缺陷。第一个缺陷即前面所提到的,d 值的给 定完全是经验性的,对于不太了解数据集中数据特性的一般用户而言,很难准确 把握d 值的选取。事实上,不仅仅是d 值,p 值的选取也一样依赖于经验以及 对具体数据集的特性的把握。不能很好地选择d 和p 的值,得到好的效果也就无 从谈起了。第二个缺陷是由于d 值的选取是全局的,所以限制了该类方法只支持 单一密度的数据集,对于那些拥有不同密度的多个簇的数据集而言,这种方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论