已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)离群点挖掘及其内涵知识发现研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据是当今信息社会宝贵的资源,发现并利用潜藏在那些复杂数据集中的有 用知识已成为科学决策的前提。数据挖掘技术通过关联规则、聚类及分类等方法 实现从大量的、不完全的、有噪声的数据中,提取隐含在其中的、人们事先不知 道的、潜在有用的信息和知识。 离群挖掘是数据挖掘中的一项重要技术。所谓离群点就是那些明显偏离其它 数据、不满足数据的一般模式或行为,以至于被怀疑可能是由另外一种完全不同 的机制产生的数据对象。离群数据不等同于错误数据,有的离群数据可能蕴含着 重要的信息。如欺诈行为、入侵行为、不寻常的消费行为等。因此,对离群数据 进行研究具有十分重要的意义。 离群挖掘可分为3 个子问题:在给定的数据集合中什么样的数据是被认为 不一样的;找到一个有效的方法来挖掘这样的离群点;对离群点的合理解释, 即离群点的内涵知识。已有的很多离群挖掘算法都只是集中于前两个子问题,即 在检测出离群点后未能揭示离群点的内涵知识,而这个才是用户真正关心的问 题,也是我们挖掘的真j 下目的。 本文提出了一种基于关联空间的离群挖掘算法,能够找出造成离群点离群的 最小属性集,揭示离群点的内涵知识正是这些属性造成了离群点的离群。具 体地讲,本文的研究工作主要包含以下几个方面: 研究了数据挖掘相关概念和技术,包括数据挖掘功能和分类、数据预处理、 聚类分析及关联规则。 分析了k m e a n s 算法的优缺点,并总结了各种初始中心选取方法,最后提 出了一种新的初始值选取方法。 对基于距离的离群挖掘技术进行了较为全面的分析和总结,设计了一种基 于k 一最近邻距离和的离群挖掘算法,介绍了基于分区的算法。 通过分析算法f i n d n o n t r i v i a l o u t s ,提出了一种基于关联空间的离群挖掘 算法,并给出实验验证。 关键词:离群挖掘;内涵知识;关联空间 a b s t r a c t a b s t r a c t d a t aa l ec o n s i d e r e da sak i n do fm o s tv a l u a b l er e s o u r c ei ni n f o r m a t i o ns o c i e t y t o d a y l o t so fu s e f u lk n o w l e d g e i sh i d d e ni nc o m p l e xd a t a s e t s ,d i s c o v e r i n ga n du s i n g s u c hk n o w l e d g eh a v eb e c o m et h ep r e c o n d i t i o n so fs c i e n t i f i cd e c i s i o n 。d a t am i n i n g e x t r a c tt h ep o t e n t i a lu s e f u li n f o r m a t i o na n dk n o w l e d g ew h i c hi sh i d d e na n dp r i o r i g n o r a n tf r o ml a r g e ,u n c o m p l e t e da n dn o i s yd a t a s e t sb ym e a n so fa s s o c i a t i o nr u l e s m i n i n g ,c l u s t e r i n ga n dc l a s s i f y i n g o u t l i e rm i n i n gi so n eo fi m p o r t a n tt e c h n o l o g yi nd a t am i n i n g o u t l i e r sa r e o b s e r v a t i o n st h a tl i ea na b n o r m a ld i s t a n c ef r o mt h eo t h e r sa n dd on o ts a t i s f yt h e c o m m o np a t t e r n so ra c t i o n s t h e ya r ea l w a y sd o u b t e dg e n e r a t e db ya n o t h e rw a y o u t l i e r sa r en o tc o n s i d e r e da sw r o n gd a t a ,s o m eo u t l i e r sm a y b ec o n t a i ni m p o r t a n t i n f o r m a t i o n ,s u c ha sf r a u d u l e n tb e h a v i o r , i n t r u s i o na c t i v i t y , u n u s u a lc o n s u m i n g b e h a v i o ra n ds oo n s o ,i ti sv e r ys i g n i f i c a n tt or e s e a r c ho u t l i e r s o u t l i e rm i n i n gc a nb eb r o k e nu pi n t o3p a r t s :w h a tk i n do fo b s e r v a t i o ni s c o n s i d e r e da sa no u t l i e r ? h o wt of i n do u to u t l i e r se f f e c t i v e l y ? w h yt h eo u t l i e r s a r ee x c e p t i o n a l ,w h i c hw ec a l li n t e n s i o n a lk n o w l e d g e a tp r e s e n t ,m o s to fo u t l i e r m i n i n ga l g o r i t h m sj u s tf o c u so nt h ei d e n t i f i c a t i o no fo u t l i e r s t h e ya l lf a i lt op r o v i d e t h er e a s o n sf o rw h ya no u t l i e ri sc o n s i d e r e de x c e p t i o n a l ,w h i c hi sa l s oi m p o r t a n tt o t h eu s e r sa n dt h ep u r p o s eo fo u t l i e rm i n i n g a na s s o c i a t i o ns p a c e b a s e do u t l i e rm i n i n ga l g o r i t h mi sp r o p o s e di nt h i sp a p e r i t f i n d so u tt h es m a l l e s ta t t r i b u t es e tw h i c hc a u s e sa no b s e r v a t i o nt ob ee x c e p t i o n a l ,a n d p r o v i d ei t si n t e n s i o n a lk n o w l e d g e - - i ti st h e s ea t t r i b u t e st h a tc a u s et h eo b s e r v a t i o n o u t l i e r s p e c i f i c a l l ys p e a k i n g ,t h er e s e a r c hh e r em a i n l yi n c l u d e sf o l l o w i n ga s p e c t s : s e v e r a lk e yn o t i o n sa n dt e c h n o l o g i e so fd a t am i n i n ga r er e s e a r c h e d ,i n c l u d i n g t h e a p p l i c a t i o na n dc l a s s i f yo fd a t am i n i n g ,d a t ap r e t r e a t m e n t ,c l u s t e r i n g ,a n d a s s o c i a t i o nr u l e s g o o dp o i n t sa n db a dp o i n t so fk - m e a n sa l g o r i t h ma r ed i s c u s s e d ,a n ds e v e r a l i n i t i a l i z a t i o nm e t h o d sa r es t u d i e d f i n a l l y , an o v e li n i t i a l i z a t i o nm e t h o di sp r o p o s e d t h et h e o r i e sa n dm e t h o d so fd i s t a n c e b a s e do u t l i e rm i n i n ga r ea n a l y z e da n d 离群点挖掘及j e 内涵知识发现研究 s u m m a r i z e dr o u n d l yas u m - o f - k n e a r e s tn e i 曲b o r - b a s e do u t l i e rm i n i n ga l g o r i t h mi s d e s i g n e d a n dap a r t i t i o n b a s e da l g o r i t h mi si n t r o d u c e d t h ef i n d n o n t r i v i a l o u t sa l g o r i t h mi si n v e s t i g a t e d ,a n da na s s o c i a t i o n s p a c e b a s e d o u t l i e rm i n i n ga l g o r i t h mi s p r o p o s e d ,w h i c h i sv e r i f i e d t h r o u g h e x p e r i m e n ts t u d y k e yw o r d s :o u t l i e rm i n i n g ;i n t e n s i o n a lk n o w l e d g e ;a s s o c i a t i o ns p a c e 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( 签名) : 连1 曳易开 刎孚年厂月z o o - e t 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门 大学有权保留并向国家主管部门或其指定机构送交论文的纸质版 和电子版,有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据 库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学 位论文在解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( 。 ( 请在以上相应括号内打“ ) 作者签名:遵啷 导师签名多一潲书k 日期:撕勰珲上月谚日 日期:少r 年c - 月增e l l 绪论 1 绪论 本章介绍了论文的研究背景和国内外研究现状,阐述了论文的主要研究内 容,并就论文的整体组织进行说明。 1 1 研究背景 计算机技术的发展,带来了海量的数据,也带来了“数据危机”。因为没有 强有力的数据分析工具,人们难于从海量数据中获得对数据高度概括性的知识, 大量数据变成了“数据坟墓” 1 。这时,数据挖掘应运而生,它运用基于计算 机的智能技术从大量数据集中获取知识,通过关联规则、分类与聚类等方法实现 从数据集中挖掘出潜在的实用知识,将“数据坟墓”转换成了知识“金块 。 离群挖掘是数据挖掘中的一项重要技术。它有着广泛的应用:它能用于欺诈 检测,发现不寻常的信用卡使用或电信服务;也能用于贷款申请处理,发现欺骗 性申请或潜在的问题客户;又或者在医疗分析中用于发现对多种治疗方式的不同 寻常的反应。 离群点( o u t l i e r ,也有称之为孤立点、异常点) ,指的是那些不同于一般数据 对象的数据。h a w k i n s 在文献 2 】中揭示了离群点的本质:“离群点的表现与其他 点是如此的不同,不禁让人怀疑他们是由另外一种完全不同的机制产生的”。 许多的数据挖掘方法都是将离群点视为噪声或异常而试图排除他们,但这就 有可能导致重要的隐匿信息丢失。离群点的产生原因有很多 3 】,有可能是输入 错误、度量错误或是系统故障,也有可能是欺诈行为。如果是数据形成过程中出 现的错误所导致的离群点,那么可以剔除;但是,如果是欺诈行为这类情况导致 的离群点,离群点本身可能就蕴含着极其重要的信息,对这一类离群点应该进一 步分析,以获取从常规模式不能得到的新知识。 离群挖掘( o u t l i e rm i n i n g ) 可以被看作3 个子问题:在给定的数据集合中什 么样的数据是被认为不一样的;找到一个有效的方法来挖掘这样的离群点; 给出离群点的合理解释,即离群点的内涵知识( i n t e n s i o n a lk n o w l e d g e ) 。 现有的离群挖掘算法大都只是完成离群挖掘的前两个子问题,即在认定的离 离群点挖掘及j e 内涵知识发现研究 群点定义下,找出满足这样的点,但未能给出离群点的内涵知识,即不能说明是 什么原因导致了离群点的产生。但是,在很多数据挖掘应用中,离群点的内涵知 识比检测到离群点本身更有意义,因为它提高了离群挖掘的可靠性和正确性,同 时也提高了用户对数据的认知。 1 2 国内外研究现状 目前离群数据的检测研究很活跃,人们根据对离群点存在不同的假设,开发 了很多的离群挖掘算法,大致上可划分为5 大类另j j 4 ,即基于统计的方法、基 于深度的方法、基于距离的方法、基于聚类的方法和基于密度的方法。基于统计 ( d i s t r i b u t i o n b a s e d ) 的方法假定数据集服从某种分布或概率模型,认为那些严重 偏离分布曲线的对象就是离群点。使用该方法要求关于数据集参数的知识,如分 布模型、分布参数和预期的一场的数目,而在大多数情况下,数据分布可能是未 知的,因此这就限制了它的使用范围。 在基于深度( d e p t h b a s e d ) 的方法中,每个数据对象被映射为k 维空间中的 一个点,并赋予了一个深度值( 深度的定义有多种,参见文献 5 ,6 ) 。深度小的数 据对象是离群点的可能性比较大。基于深度的方法对二维和三维空间上的数据比 较有效,但对四维及四维以上的数据,处理效率比较低。 基于距离( d i s t a n c e b a s e d ) 的方法:给定数据集t 及阈值d ,对于对象o t , 若至少存在t 中的p 部分的数据到o 的距离大于d ,则称o 为d b ( p ,d ) 离群点。 这种方法能够处理任意维的数据,但是使用该方法需要用户通过实验确定合适的 参数,一旦参数选择不当,会大大影响到算法的效果。 基于密度( d e n s i t y - b a s e d ) 的离群点的定义是在基于距离的方法的基础上建立 起来的。这种方法将点之间的距离和某一给定范围内点的个数这两个参数结合起 来,得到“密度 的概念。如果一个数据点的局部离群因子高于一个阂值则被认 为是一个离群点。相对于基于距离的方法,基于密度的方法更强调对象的局部性。 基于聚类的方法:很多的聚类算法如:d b s c a n 、b i r c h 、c u r e ,也具备 一定的发现离群点的能力,那些数据点很少的类或不能聚类的数据点被视为离群 点。这类离群点更多的是作为副产品被检测出来的。 近来又出现了一些在这五类之外的研究方法,文献 7 】提出了一种基于分区 2 l 绪论 ( p a r t i t i o n b a s e d ) 的方法,先把数据集按一定规律划分为多个子集,再对各个子集 进行筛减处理,通过不断对正常数据剪枝来提高离群点的发现效率。详细的算法 在【7 中有讨论。文献 8 用一个基本的离群数据挖掘方法挖掘出一个初步的离群 数据集合,称为离群点可解集( o u t l i e r d e t e c t i o ns o l v i n gs e t ) ,然后利用此集合来 预测新的未被发现的离群数据对象,由于离群点可解集的规模比原数据集的规模 小很多,因而可以获得较好的性能和效益。随着人工智能、机器学习、模式识别 等领域的不断发展以及各种新方法、新技术的涌现,离群挖掘也出现了很多新的 方法、新的技术。文献 9 1 3 研究了利用人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a 卜发现离群点的方法;文献 1 4 1 6 讨论了基于模糊粗糙集( f u z z ys e t ) 的离群 数据挖掘方法;文献【1 7 给出了一种基于离群数据挖掘的数据查询方法,可以有 效解决传统数据抽查方法很难保证数据抽查有效性的缺点;文献【1 8 】利用自组织 映射( s e l f - o r g a n i z i n gm a p ,s o m ) 技术对离群数据进行研究,并建立了噪声模型。 相对于离群检测技术而言,对离群数据集的解释与分析方面的研究则略显滞 后。已有的方法也多数是以提高原数据的质量及可靠性为目的去讨论离群点检测 方法对提高数据分析能力的影响,如基于距离的、基于聚类的、基于密度的离群 挖掘方法都可用于数据清洗过程中的噪声去除。k n o r r 在文献 1 9 】中认为,一个 点的某些属性与其他点有很大差异,就足以使它成为离群点了,关键在于发现是 哪些属性导致了它的离群。文中以属性域子空间为背景,按对象与属性统一的观 点对离群数据对象特性进行了分析,他把离群点分为平凡离群点( v i a l ) 和非平 凡离群点( n o n t r i v i a l ) 两类,其中非平凡离群点又分为强离群点( s t r o n g e s t ) 和弱离 群点( w e a k ) 。由于文中是以所有的属性域子空间为背景,所以在多维或高维数据 中会有维度灾难和组合爆炸问题。文献 2 0 】发展了k n o r r 的思想,该文把属性空 间分割为标识子空间( i d e n t i f i c a t i o n ) 、指示子空间( i n d i c a t i o n ) 及观测子空间 ( o b s e r v a t i o n ) ,以此建立了一种关于离群数据分类与特征相似性模型。 1 3 主要研究内容 本论文研究离群数据检测及其内涵知识发现。“一个点的某些属性与其他点 有很大差异,就足以使它成为离群点了,关键在于发现是哪些属性导致了它的离 群。 【2 1 因此,本论文提出了一种基于关联空间的离群挖掘算法,能够找出造 离群点挖掘及j e 内涵知识发现研究 成离群点产生的最低维的、有意义的属性子空间,从而揭示离群点的内涵知识。 本论文的研究工作主要包含以下几个方面: 1 系统研究了聚类分析,总结了各种常用的聚类分析方法,分析其优缺点 点、使用领域及改进的方向。通过分析k - m e a n s 的优缺点,并总结了各种常用的 初始值选取方法,最后提出了一种改进方法。 2 介绍了关联规则挖掘相关概念,并对其算法的发展做了总结,重点介绍 了f p g r o w t h 算法和用于离散化的聚类算法c p 。 3 对基于距离的离群挖掘技术进行了全面的分析与总结,设计了一种基于 k 一最近邻距离和的离群挖掘算法,介绍了一种基于分区的算法。 4 提出了一种基于关联空间的离群挖掘算法,在存在关联规则的属性子空 间中挖掘强离群点和弱离群点,能够找出造成离群点离群的有效的最低维属性 集。 1 4 论文的组织 本文共分六章,按如下方式组织: 第1 章阐述了论文的研究背景,并对离群数据挖掘的国内外现状进行了较全 面的介绍,给出了论文的主要研究内容。 第2 章介绍了与本论文相关的观念及技术,包括数据挖掘概念、功能、分类 等,和数据预处理及聚类分析和关联规则挖掘等内容。 第3 章分析了k m e a n s 优缺点,总结了各种初始值的选取方法,提出了一种 改进算法,并通过实验验证。 第4 章总结了基于距离的离群挖掘算法,设计了一种基于k 最近邻距离和的 离群挖掘算法,重点介绍了基于分区的算法。 第5 章提出了一种基于关联空间的离群挖掘算法,在存在关联规则的属性子 空间中挖掘强离群点和弱离群点,能够找出造成离群点离群的最低维有意义属性 集。最后在a d u l t 数据集进行了测试实验。 第6 章对前面的工作进行了总结和展望。 4 2 相关概念j 技术 2 相关概念与技术 本章简述数据挖掘相关概念与技术,包括数据挖掘的功能与分类,数据预处 理,聚类分析及关联规则挖掘的基本思想和算法发展。 2 1 数据挖掘概论 数据挖掘( d a t am i n i n g ) 可以说是数据库中的知识发现。它是指从大量的、不 完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知 道的但又是潜在的、有用的信息和知识的过程。它综合利用了统计学方法、模糊 识别技术、人工智能方法、人工神经网络技术等相关技术,并对各行各业的生产 数据、管理数据和经营数据进行处理、组织、分析、综合和解释,以期从这些数 据中挖掘出揭示客观规律、反映内在联系和预测发展趋势的知识。 2 1 1 数据挖掘的功能 数据挖掘功能用于指定数据挖掘任务中要找得模式类型。数据挖掘任务一般 可以分两类:描述和预钡l j 1 】。描述性挖掘任务刻画数据库中数据的一般特性。 预测性挖掘任务在当前数据上进行推断,以进行预测。其主要功能可概括为如下 八个方面: 1 关联分析( a s s o c i a t i o na n a l y s i s ) 。若两个数据项的取值具有一定的联系,这 种联系中可能存在着某种知识,关联分析就是发掘与描述蕴含在关联规则中的有 用知识的过程。常用y 。一y 2 表示一条关联规则,用支持度与置信度来衡量关联 规则强度,设事务集合为s t ,如果s t 中有s 的事务包含y 1uy 2 ,规则y 。一y 2 具有支持度s ,如果s t 中包含y l 的c 的事务同时也包含项集y 2 ,规则y ,一y 2 具有置信度c 。关联分析是数据挖掘的重要功能,已广泛应用于各个领域。 2 分类( c l a s s i f i c a t i o n ) 。数据挖掘的另一重要功能是对数据进行分类,即建立 能够描述数据典型特征的模型即分类器,由此分类器可以将数据项映射到其中一 个类中。决策树算法是最常用的分类方法,如i d 3 及后续版本c 4 5 、c 5 等,其 他方法包括贝叶斯( b a y e s ) 分类、神经网络分类、支持向量机( s u p p o r tv e c t o r 离群点挖掘及j e 内涵知识发现研究 m a c h i n e ,s v m ) 分类以及基于粗糙集的分类技术。 3 聚类( c l u s t e r i n g ) 。“人以群分,物以类聚”,聚类分析是数据挖掘应用极其 广泛的功能,聚类与分类有明显区别,分类属于有导师学习方法,其模型建立时 使用的数据是已有类别归属的,而聚类需要划分的类是未知的,它根据样本间关 联的量度将数据分成若干簇( c l u s t e r s ) ,其划分原则是“簇内相似度最大化,簇间 相似度最小化 ,是一种无导师学习方法。 4 离群检测( o u t l i e rd e t e c t i o n ) 。现实世界数据集不可避免地存在着一些异常 或离群数据对象( o u t l i e r ) ,它们与数据集中的大多数数据对象所遵循的规律不相 符合。数据挖掘需要检测出离群数据,一方面因为离群数据的存在严重影响大多 数分类或聚类算法的有效性,需要检测出以便进行隔离,另一方面,有些离群数 据本身可能含有重要信息,如在信用卡欺诈检测、疾病诊断、网络入侵检测等多 个领域,需要对离群数据进行进一步分析。 5 预钡j j ( p r e d i c t i o n ) 。预测是数据挖掘的基本功能之一,它利用历史数据建立 模型用于预测变量未知或未来的值。分类实际上也是用于预测,即通过样本数据 集建立的分类器对后续数据进行归类。分类和预测是两种数据分析形式,分类是 针对有限离散值的预测,而预测一般是建立连续值函数模型。常用回归分析或神 经网络方法建立预测模型。 6 时间序列分析( t i m es e r i e s a n a l y s i s ) 。对时间序列的挖掘应提供时序模式挖 掘和数据演化分析功能。挖掘序列模式包括搜索相似序列模式以及挖掘频繁序列 模式,即在某个最小的时间内发生概率不低于某一阈值的模式,数据演化分析对 时间序列变化趋势或周期性进行分析与预测。 7 概念描述( c o n c e p td e s c r i p t i o n ) 。通过概要性总结提供对数据集或子集( 类、 簇) 的简明准确的整体描述功能。实际上,即使是一个类或簇中都可能包含大量 数据,如果能用简洁清晰的高层抽象泛化名称对其整体含义进行概要性总结,将 会有更多的可能对数据中存在的隐含性知识进行进一步探索。概念描述可通过在 更广义的属性层次对所分析的数据进行描述而获得,也可以通过两类数据进行对 比而获得。 8 数据可视化( d a t av i s u a l i z a t i o n ) 。数据挖掘可视化功能使计算和数据内容对 人是可理解的,它把信息转化为我们的感觉和头脑可以分析和遵循的经历,使数 6 2 相关概念1 j 技术 据和挖掘结果更容易理解和验证。数据可视化方法包括几何投影方法、分层表示 方法、基于像素的方法等,如二元散点图、多维测量图、散布矩阵、放射性可视 化图、平行坐标、数据立方体以及自组织映射s o m 图等。 2 1 2 数据挖掘的分类 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、 机器学习、可视化和信息科学。因此,数据挖掘研究就产生了大量的、各种不同 类型数据挖掘系统。根据不同的标准,数据挖掘系统可以分类如下: 1 根据挖掘的数据库类型分类:数据库系统本身可以根据不同的标准分类, 每一类可能需要自己的数据挖掘技术。如根据数据模型分类,可分为关系的、事 务的、面向对象的、对象关系的或数据仓库的数据挖掘系统。如根据所处理的 数据的特定类型分类,可分为空间的、时间序列的、文本的或多媒体的数据挖掘 系统,或啊懈,数据挖掘系统。 2 根据挖掘的知识类型分类:即根据数据挖掘的功能分类,可分为关联分析、 分类、聚类、离群点分析、演变分析和偏差分析等的数据挖掘系统。数据挖掘系 统还可以分类为挖掘数据规则性( 通常出现的模式) 和数据不规则性( 异常的存 在) 。一般地,概念描述、关联分析、分类、聚类和预测挖掘数据规律,将离群 点作为噪声排除。 3 根据所用的技术分类:如根据用户交互程度,可分为自动系统、交互探查 系统、查询驱动系统。如根据所用的数据分析方法描述,可分为面向数据库或数 据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络。 4 根据应用分类:例如,可能有些数据挖掘系统特别适合金融、电信、d n a 、 股票市场、e m a i l 等等。不同的应用通常需要集成对于该技术特别有效的方法。 因此,普通的、全能的数据挖掘系统可能并不适合特定领域的挖掘任务。 2 2 数据预处理 根据功能,数据挖掘可概括为3 个主要部分:数据准备、采掘过程、结果表 达和解释。其中数据准备包括数据收集和数据预处理,为后续挖掘提供集成的、 干净的、规范的数据。采掘过程就是执行数据挖掘算法的过程。结果表达和解释 7 离群点挖掘及j c 内涵知识发现研究 就是对挖掘结果应用某种兴趣度进行度量,识别出表示知识的真正有趣的模式, 并使用可视化和知识表示技术,向用户提供挖掘的知识。 数据预处理( d a t ap r e t r e a t m e n t ) 是数据挖掘中的一个重要步骤。数据挖掘面向 的是大规模数据集,信息常常来自多个数据源,数据复杂且可能冗余,同时现实 世界数据库中不可避免的存在着错误数据、不一致数据甚至空缺数据,为了提高 数据质量,使挖掘过程更有效、更容易,进而提高数据挖掘结果的可信度,必须 对数据进行预处理。 数据预处理方法一般包括数据清理、数据集成和数据转换、数据约简 2 1 1 。 1 数据清理( d a t ac l e a n i n g ) 。数据清理例程通过填写空缺的值,平滑噪声数 据,识别、删除离群点,并解决不一致数据来“清理数据。处理空缺值的技术 有:忽略元组、人工填写空缺值、使用一个全局常量填充空缺值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年黔西南州辅警协警招聘考试备考题库含答案详解(综合题)
- 2025年玉林辅警协警招聘考试备考题库含答案详解(达标题)
- 2025年阳江辅警协警招聘考试备考题库含答案详解(典型题)
- 2025年红河州辅警招聘考试题库及参考答案详解1套
- 2025年白山辅警招聘考试题库含答案详解(典型题)
- 2025年莆田辅警招聘考试真题附答案详解(a卷)
- 2025年莱芜辅警招聘考试真题及答案详解(考点梳理)
- 2025年西双版纳州辅警协警招聘考试真题参考答案详解
- 2025年铜梁县辅警协警招聘考试真题附答案详解ab卷
- 2025年长春辅警招聘考试真题含答案详解(模拟题)
- 《病历书写基本规范》课件
- 联通人员职业生涯规划书
- 【知识清单】九年级化学(下册)同步必备单元知识清单(人教版)
- 移动端应用开发与用户界面设计
- 烟花爆竹零售经营安全培训
- 工作票培训课件
- 小儿普外科常见疾病的课件
- 废钢采购结算单范本
- 送教上门学生教案(生活适应和实用语数共17篇)
- 椭圆的第三定义
- 土地-基准地价修正法测算表
评论
0/150
提交评论