已阅读5页,还剩82页未读, 继续免费阅读
(计算机应用技术专业论文)weka平台设计的研究和其数据预处理功能的改进.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 w b k a 已缀逐渐成为一个困际知名的数据挖掘乎螽,其免费开源、算 法丰富、架稿稽对麓范、兼容经好,霞魏吸弓l 了越来越多的研究者参入其 中。随着数据挖掘技术在海量信息处理中卓越的表现,数据挖掘系统的设 计氇会越来越有徐蘧,毽由予菇韭数箨稼据系统设计褥代筠静保密性,开 源的w e k a 是一个不可多得的选择,就像l i n u x 正在吸引更多的用户和内 核蚕胥炎喾一梯,融b 在数擐挖撼舞墩褥可麓势不可攒。 本文分祈了w j k a 的框架( a r c h i t e c t u r e ) ,剖析了、k a 的各个包 ( p a c k a g e ) 的结构设计和功隧,分析了w e k a 的内骇文件。逐就w e 奴兹 来源、功能、使用、输入输出、可视化、二次开发、扩展领域进行了简要 介绍,指出了w 呔a 存在的主要问题,并对w b k a 数搬预处理的增强提出 了改逶的播藏。 另外由于w j k a 系统包含了林林总总的功能和算法,数据挖掘算法本 隽又一 分复杂,傻礅轴十分“庞大”,溉妇系统懿矮耨敝本3 5 - 2 源代 码约3 0 万行,8 0 0 个j a v a 源文件。将w e k a 的部分内核分离出来,也是 一传+ 分有意义麴事绩,本文凝分类黪法,将疑妇徽了最小穗燕瘦囊, 完整的n a v i e s b a v e s 分类算法仪需3 1 个、c k a 中的源文件。 w b k a 作为一个松散耦会( 或者不糕合) 嬲数据携握系统鸭由予不 能使嗣d b 国w ( 数据库,数据仓库) 系统的功能,在数据预准备阶段溪花 大量的时间查找、收集、清理和转换数据。不与这些系统耦台,d m ( 数 据挖穗) 就禳难将这释系统集成蜀信怠处理环鞴中罐i 在数据挖掘过程申, 普遍认为数据预处理约占据整个过程6 0 8 0 的时间。提商数据预处理 耱誊憝往就曩褥茏兔蘩要。本文最嚣结合坤娓妇平台、j d b c w f a 印e f ,藏 w e k a 和数据库的耦合性,智能的数据预处理进行了分析和设计。 本文对那皴运雳w e 袈a 徽耠m 鞠关算法以及对那些跌事数据挖握系统 设计的人都有很好的借鉴意义。 关键字:w e k a ;数据挖掘:w b k a 架构;w e k a 内核;数据预处理 北京交通大学硕士学位沦文 a b s t r a c t w 酞ah a sg f a d u a l l yb e e naw o r l dw e l l k n o w nd a l am i n i n gp l a t f o r m , w h i c hi sa t t r a c c m gm o r ea n dm o r eu s e r st oi o i ni i lb e c a u s eo fw b k a s c h a r a c t e r so fo p e ns o u r c ec o d ea n df r e eu s i n 舀l o t so fa l g o r i t h m s ,s t a i l d a r d a r c h i t e c t u r e ,g o o dc o m p a t i b i l i t y w i t t lt h ee x c e l l e n tb e h a v i o ro fd a t am i n 血g t e c h n o l o g yp l a y i n g r e a td a t ap r o c e s s i n g ,d e v e l o p i n gan e wd a t am i n i n g s y s t e mw i l lm a k ec o u n t ,b u te v e r yc o m m e r c ed m t 0 0 1 sa l m o s ti sk e p ts e c r e ti i l d e s i g n i n ga n ds o u r c ec o d e ,j u s tl i k em o r ea n dm o r eu s e r sa r ei n t e r e s i e di n l i n u x sc o r e w b k aw i l lb eaw i s d o ms e l e c t i o n t h ep a p e rl u c u b r a t e si nt h ea r c h n e c t u r eo fw e k ap l a t f o 姗,g e n e r a l l y a n a t o m i z e se a c hp a c k a g ea n dd e t a i l e d l ya n a l y s e sc o r ef i l e so fw 色k as y s t e m w h a t sm o r e ,“b f i e f l ys u m m a r i z e st h er e g i o n ,f l l n c t i o n ,u s a g e ,i n p u t & o u t p u t , v j s u a l i z a t i o n ,c u s t o md e v e l o p m e n t ,r e l a t e dp r o j e c t s ;p o i n t so u tt l l ep r o b l e mi n f a c eo fw b k a ;a n dp r e s e n t sam e t h o dt 0e n h a n c et h ef l l n c t i o no fd a t a p r e p r o c e s s i i l go fw e k a w 呔au s u a n yi m p r e s s e so n en u m e r o u sa n dj u m b l e d ,t h a ti si t ,t h e r ea r e m u l t i f a r i o u sf i 】n c t j o n sa n da l g o r i t h m sw h i c hi s t e r r i b l yc o m p l e x ,t h i n y t h o u s a n dl i n e sa n de j g h th a n d r e df i l e so fj a v ae x t i ti sas i g n i f i c a t i v ej o bt o d i s p a nt h ec o r eo fw e k ap l a t f o m 1 m i sp a p e fw i l l r e d u c et h es y s t e mi n c l a s s i f ! i e r e g o n l yt h i r t yo n e 矗l e ss u p p o r t 如en a v i e b a y e s s i m p l ec l a s s i f i e l w e k ab e l o n g st ou n t i g h tc o u p l e i mt o o l s ,u s u a l l ys p e n t sm u c ht i m eo n s e a r c h i n g ,e x t r a c t i n g ,c l e a n i n 岛t r a i l s f o r m i n g i n t l l e p h a s e o fd a t a p r e p r o c e s s i n g ,w h a t sm o r e ,u t i g h tc o u p l ed m t o o lr e c i l r st oo t h e rm e t t l o d s t oe x t r a c td a t a ,a n di sh a r dt oi i l t e g r a t ew i d li n f o 咖a t i o np m c e s ss y s t e m s a s f a ra st i m ec o n s u m i n gp h a s eo fd a t a 皿i n 岛d a t ap r 印m c e s s i n gt a k e su p 6 0 _ 8 0 i h ew h o l et i m e ,a l lt h a tm a k ei ti s i m p o r t a n t t o i m p r o v et h e i n t e l l i g e n c eo fd a t ap m c e s s i n g a tl a s t ,a f t e rc o m b i n i n gw i t hw e k ap l a t f 0 咖 a n dj d b c w r a p p e rt h ep a p e ra n a l y s e sa n dd e s i g n st h ec o u p l eb e t w e e nw e k a a n dd 嚣掂1 ) 矗s e 鑫魏di 珏t e l l l n ld a t ap f e p 0 娌s s 鞋g t h ep a p e rb e n e f i t sm o s ew h 0u s ew e k ap l a t f o f mo rt h o s ew h ow o r ka t d e v e l o p i n gp f o g f a n l m i n go fd a t al 癌n n gs y s l e m , k e yw b r d s :w e k a ,d a 组m i n 妇吕w 酞aa 糟h i 量e c u r e ,w e k ac o 糟,d a t a p r e p r o c e s s i n g 独创性声骥 本人声明,所墨交豹学位论文是我个人在导师指导下 涟行的研究工作及取褥的磷究域果。尽本人所糕,除了文 中特别加以标注稻致谢的地方外,沦文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得北京交通大 学或其他教学机构鲍学位或诞书两使月过的材料。与我一 起工作静同志对本 湃究所傲豹任悸贾献已奁论文中作了明 确豹说明并表示了谢意。 本人签名:! 童垫 日期:丛年土月卫目 关于论文使用授权的说明 本人完全了解北京交通大学有关保留、使用学位论文 的规定,即:学校有权保留送交论文的复印件,允许论文 被查阅和借阅;学校可以公布论文的全部或部分内容,可 以采用影印、缩印或其他复制手段保存论文。论文中所有 创新和成果归北京交通大学计算机与信息技术学院所有。 未经许可,任何单位和个人不得拷贝。版权所有,违者必 究。 本人签名:! i 盔 曰期:三生年上月止日 弟1 章绪论 1 1 课题背景 第1 章绪论 数据挖掘技术发展到今天,已经走出了实验室,实实在在、时时 刻刻的影响着我们的生活。有问题问g o o g l e ,问b a i d u 已经成为很多 人在遇到不明白问题的第一反应。 此外,目前企、i p 在不断信息管理中,已经积累的大量的操作性, 流程性数据。这些离散的操作性数据汇集起来、连续起来,就是对企 业发展足迹的良好反映和记录。根据事物发展的连续性和进化性,这 些大量的历史数据汇集起来经过提取信息能对未来企业的发展决策 起着良好的借鉴作用。要从从这些浩瀚的数据中挖掘有用的知识,要 建立一个怎样的数据挖掘系统呢? 这个系统如何构造呢。 目前支持数据挖掘的软件有很多3 1 4 l ,但w :k a 作为一种开源而 功能毫不逊色的数据挖掘平台,就像一个璀璨的明珠,格外引人注目。 在k d n u g g e t s 口j 网站关丁数据挖掘工具的使用情况调查中,w 酞a 连 续几年榜上有名,并且在所有的d m 工具中,w e k a 曾一度高屑前5 名之列。作为一个开源的数据挖掘平台,能取得如此好的成绩,是很 值得研究和学习的。 在数据挖掘过程巾,普遍认为数据预处理约占据整个过程 6 0 8 0 的时间i ”,w b k a 作为一个松散耦合( 或者不耦合) 的数据 挖掘系统,不能直接很好的直接和d b ,d w 系统交换数据,不能不说 是个遗憾。另外若能改善数据预处理的智能性,使数据预处理尽可 能的智能化,也许或多或少的可以提高数据预处理的进程,减少繁杂 的数据准备时间。 的数据准备时问。 北京交通大学硕h 学位论文 1 2 发展和国内外现状 随着数据的不多积累,能够帮助人们把数据加工成知识的工具肯 定会大受欢迎。数据挖掘作为其中的一种技术,前景也为人所十分看 好。国际知名调查机构g a n n e r g r o u p 【5 1 在高级技术调查报告中,将数 据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五 大关键技术”之首,还将并行处理体系和数据挖掘列为未来五年内投 资焦点的十大新兴技术前两位。g a m l e r 的调查报告预计:到2 0 1 0 年, 数据挖掘在相关市场的应用将从目前少于5 增加到超过8 0 。随着 我国加入w t o ,国内企业面临国际的竞争,国内企业必将加快信息 化建设。国外专家预测,在今后的5 1 0 年内,随着数据量的日益积 累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。也就是 说将有更多科学工作者将随市场的需求而加入数据挖掘的行业。于是 本文系统地介绍分析了一种开源d m 工具w e k a ,希望对同行学习和 选择d m 工具有一定的帮助和借鉴。 1 2 1w e k a 的发展 w b k a 的实现起源于作者e i b ef f a n l 【等在机器学习方面的研究积 累【6 1 1 9 9 8 年之前的版本是用c + + 实现的。从1 9 9 8 年开始,e i b ef r a i l l 【, i a n h w i t t e 等人开始用j a v a 重写系统。2 0 0 0 年4 月在世界最著名的 开源站点s o u r c e f o r g e n e t 注册为正式开源项目。据s o u r c e f 0 唱e n e t 【7 】 数据显示目前每周约5 7 万人下载w “a 的相关程序和数据。 1 2 2w b k a 国外现状 目前国际上,从事w b k a 或借助w j k a 研究的人员不少,扩展领 域也相当广泛丰富,相关扩展课题多达2 9 个【6 】。例如有从事基于w e k a 文本关键字提取得k e a ;在互联网上分类应用的l 0 c b o o s t ;多关系数 据格式处理的m a r f f ;基于m q l 语言研究的k d d m 卜m q l ;可 2 第1 章绪论 褫豫豹w c 妇v i s a l i z a t i o 珏t o o l s 等;毽扶系绞设计的角度分板w b k 鑫麴 文献却穰少。 1 2 3w e k a 国内情况 通过g o o g l e ,b a i d u ,万方论文库检索发现,国内也有不少关于 w b k a 的研究或瓣于其应用的文献。例如国外有人运用w 酞a 通过分析 奶牛的品静来选择种牛嘲;国内寅人用借鉴w i 妇中的聚炎舞法作w e b 羧熬客户冀俸翔分翻。这些大多建w i 妇熬嶷接应爱或畿w e k a 豹菜 一块源代码的二次开发应用。但很少有系统分析w b k a 樵架的资料。 1 2 ,4w 毫k a 存在的主要闻题 w e k a 存在的主要问题有以下几个方面: ( 1 ) 各种数据挖掘问题及挖掘方法基予不同的模型和技术,彼 瑟互鞠孤立,联系绞少; ( 2 ) 缺少简明精确的问题描述方法,挖掘的语义通常是由实现 方法决定的: ( 3 ) 数据挖掘系统仅提供孤立的知识发现功能,娥于嵌入大型 盛麓; ( 4 ) 数据挖掘引擎与数据库系统是松散耦合批; ( 5 ) 数据加载于内存,滩以处理大规模的数据; 1 3 本文工作和结构安排 一个完整数据挖掘系统是怎样构建的,它有哪几部分组成,各部 分之阗又是怎样豹缝合? 本文镑对w e h 平螽,详缨豹分援了其絮穆 帮备模块之间的关系。指出w 汰a 数据预处壤的不足,并提出了增强 和改进其数据预处理功能一些措旌。本文主舞工作和论文结构安排如 下; 3 北京交通大学硕士学位沦文 ( 1 ) 首先主要探讨了课题背景,w j k a 的国内外发展现状,w 酞a 面临的问题等。 ( 2 ) 其次在第二章的一、二节简要的介绍数据挖掘的相关基本 概念。列举了数据挖掘和一些常用术语的关系和区别。分析了个数据 挖掘工具的使用情况,数据挖掘工具的选择标准。第三节对数据预处 理作了重点介绍。第四节介绍了w 酞a 的功能,使用,w e k a 的相关扩 展课题;探讨了如何在w j k a 上作二次开发,指出w e k a 在数据预处 理方面的不足。 ( 3 ) 在此第四章对w e k a 设计架构进行分析,重要内核研究和解 析,剖析了w e k a 的最小内核文件,每个内核文件的作用,重要函数, 关键数据结构;分析了最小内核和最小分类器的关系,在w 哉a 这个 融合众多功能的环境中提取一个最小可用内核和分类器。 ( 4 ) 最后,第五章指出w 酞a 在数据预处理功能上改进的方案, 改进前后的流程对照,改进设计中的关键问题和解决方法。第六章做 了全文的总结和展望。 4 第2 章相关理论知议 第2 章相关理论知识 在剖析数据挖掘工具w 酞a 的设计之前,先简单的介绍数据挖掘的基 础知识,数据挖掘静流程,数据挖掘瀚关谜环节,容翁混淆的几个概念。 2 1 数据挖掘 下霆麸数捺挖据鹃意义、演变、避程、王 笮囊分布耱数据挖掘工艇夯 绍数据挖掘。 2 1 1 数据挖掘的意义 :i 琏十几年,随着科学技术飞速的发展,经济和社会都取褥了极大的进 步,与此同对,在各个领域产生了大擞的数据,如人类对太空的探索,银 行每天的巨额交易数据。显然在这些数据中蕴涵丰富的信怠,如何处理这 些数据得到有蓣的信息,人们进行了肖益的探索。计算机技术的迅速发展 使得楚遴数据成为酉筑,这赣攘动了数据库技术韵极大发震,健是蠢对不 断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层 次阚瑟;戆不麓麸数撂孛提取售患或豢知识秀决蓑l 受务。藏数攥痒技拳嚣 言已经显得无能为力了,同样。传统的统计技术也面临了极大的挑战。这 就急霰有耨豹方法来处理这些海量般的数据。予是,入稍结合统计学、数 据库、机器学习等技术,提出数据挖掘来解决这一难题1 1o j 。 2 1 1 数据挖掘的演变 数据挖掘其实是一个逐渐演变的过程,毫子数据簸瑾的初期,入稻就 试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦 点橇瓣学习豹过程裁燕将一些琶翔懿并已被成功瓣浚静褥题律为藏弼输 入计算机,机器通过学习这些范例总结并生成相应的规则,这魑规则舆有 北京交通大学硕士学位论文 通用性,使用它们可以解决某一类的问题随后,随着神经网络技术的形 成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给 计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的 规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种 方法所得到的成果,但它有投资大、效果不甚理想等不足。8 0 年代人们 又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成 果应用于处理大型商业数据库。随着在8 0 年代末一个新的术语,它就是 数据库中的知识发现,简称k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 它泛指 所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用k d d 来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分 析,而用数据挖掘d m ( d a t am i n i n g ) 来描述使用挖掘算法进行数据挖掘 的予过程。但最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计 方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起 来。 f r i e d m n 【1 j 列举了四个主要的技术理由激发了数据挖掘的开发、应用 和研究的兴趣: ( 1 ) 超大规模数据库的出现,例如商业数据仓库和计算机自动收集 的数据记录; ( 2 ) 先进的计算机技术,例如更快和更大的计算能力和并行体系结 构; ( 3 ) 对巨大量数据的快速访问; ( 4 ) 对这些数据应用精深的统计方法计算的能力。 所以也可以说数据挖掘技术是人们长期对数据库技术进行研究和开 发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到 可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘 使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询 和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、 人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库 引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入 了实用的阶段。那么数据挖掘是怎么定义的呢? 6 篇2 章相关理论知识 2 1 3 数据挖掘的定义 在学术的角度上,数据挖掘( d a t am i n i n g ) 是从大量历史数据中寻找 其规律的技术,是统计学、数据库和人工智能技术的综合。关于数据挖掘 的定义有很多,但目前广泛认为可能比较好的定义是j i a w e i h a n 扩展给出 的【4 】:数据挖掘( d a t am i n i n 2 ) 就是从大量的、不完全的、有噪声的、模 糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。这个定义包括好几层含义: ( 1 ) 数据源必须是真实的、大量的、含噪声的; ( 2 ) 发现的是用户感兴趣的知识; ( 3 ) 发现的知识要可接受、可理解、可运用; ( 4 ) 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 在商业的角度上【“】,数据挖掘是一种新的商业信息处理技术,其主 要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模 型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其 实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只 不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算 能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现 在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这 些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产 生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提 供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是: 企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据 中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石 中淘金一样,数据挖掘也因此而得名。因此,数据挖掘又可以描述为:按 企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未 知的或验证己知的规律性,并进一步将其模型化的先进有效的方法。 2 1 4 数据挖掘的过程和工作量 数据挖掘的过程可以分为6 个步骤 1 2 北京交通大学硕f - 学位论文 理解业务:从商业的角度理解项目目标和需求,将其转换成一种数 据挖掘的问题定义,设计出达到目标的一个初步计划。 理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据 描述,数据探索和数据质量验证等。 准备数据:将最初的原始数据构造成最终适合建模工具处理的数据 集。包括表、记录和属性的选择,数据转换和数据清理等。 建模:选择和应用各种建模技术,并对其参数进行优化。 模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步 骤,确认其是否真正实现了预定的商业目的。 模型部署:创建完模型并不意味着项目的结束,即使模型的目的是 为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来 组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以 简单到只生成一份报告,也可以复杂到在企业内实施一个可重复的数据挖 掘过程。 看图2 1 能很好的表示这个过程。 图2 1c r i s p d m 过程模型 8 第2 章干甘关理沧知识 数据挖掘过程工作量,在数据挖掘中被研究的业务对象是整个过程的 基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完 成数据挖掘的依据和顾问。数据挖掘的过程并不是自动的,绝大多数的工 作需要人工完成图2 - 2 给出了各步骤在整个过程中的工作量之比口j 。可以 看到,6 0 的时间用在数据预处理上,这说明了数据挖掘对数据的严格要 求,而后挖掘工作仅占总工作量的1 0 。 7 0 6 0 5 0 4 0 3 0 2 0 l o 0 业务分析 数据预处理数据挖掘结果分析 图2 2 数据挖掘过程工作量比例 2 1 5 数据挖掘的标准模型 数据挖掘的标准化目前包括以下三个标准1 1 4 】【1 5 】:c r i s p d m 、 p m m l 、o l ed bf o rd m 。c r i s p d m 全称是交叉行业数据挖掘过程标准 ( c m s s i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) 。它由s p s s 、n c r 、 以及d a i m l e r c h r y s l e r 三个公司在1 9 9 6 开始提出,是数据挖掘公司和使用 数据挖掘软件的企业一起制定的数据挖掘过程的标准。这套标准被各个数 据挖掘软件商用来指导其开发数据挖掘软件,同时也是开发数据挖掘项目 的过程的标准方法。p m m l 全称是“预言模型标记语言”( p r e d i c t i v e m o d e lm a r k u pl a n g u a g e ,p m m l ) 。它由数据挖掘协会( t h ed a t am i n i n g g r o u p ,h t t p :w w w d m g o r g ,d m g ) 开发。p m m l 是对数据挖掘模型进 行描述和定义的语言,已经被w 3 c 接受,成为国际标准,如果数据挖掘 系统在模型定义和描述方面遵循p m m l 标准,那么各数据挖掘系统之间 可以共享模型。o l e d bf o r d m 【1 6 】是微软公司在2 0 0 0 年3 月推出的数据 9 慧京变透大学硬t 学斑论文 挖掘标准。0 l ed bf o rd m 的规范包括创建原语以及许多重要数据挖掘 模型的定义和使用( 包括预言模型和聚集) 。它是个基于s q l 预言的 协议,秀软黪鹰和应蠲秀发人员提供了个开藏豹接口,该接口憋数据挖 箍工其; 蟊熊力更有效缝和商业戬及电予蕊务应用集成。同时,o l 溅d bf o f d m 已经与d m g 发布的p m m l 标凇结合。c r i s p ,d m 模型是侧重应用 的模型。注藏数据挖掘的模型如何与业务问题相结合、如何部署成用挖掘 遗熬模型,粥蘧c 薹t i s p d m 过程模型双囊翌嚣受震绘窭了霹数掇挖撼方 法的理解。大多商业数掇挖掘系统的研制和开发大部遵循c r l s p d m 标 准。p m m l 主要强调挖掘模型的共享性,挖掘原语的复用性。o d bf o r d m 主要掇d 啪w 和d m 精密耦台在一起,优势互补,协同处趣数据。 2 1 6 常见的数据挖掘工具和选撵标准 数据挖攒工其就是g 铁大量数据审挖知识豹软热。d m 工其大数可分 为三类: ( 1 ) 一般分析目的用的软件包 s a se n t e 巾r i s em i n e r 、i b mi n | e l l 培e n tm i n e r 、u n i c ap r w 、s p s s e l e 磁e 珏畦蘸e 、s 馁戮i 珏嚣s e t 、0 强c l ed 曩粼涵、a 娶g o s s 、轴湖l e d g e s 耘e f ( 2 ) 针j c 幸特定功熊或产业而研发的软件 k d l ( 针对零售业) 、o p t i o n s & c h o i c e s ( 针对保险业) 、h n c ( 针 对信用卡诈欺或呆帐侦测) 、u n i c a 耋o d e l1 ( 针对行销业) , ( 3 ) 整合d s s ( d e c 至s l s 珏潮f s y s l e i 珏s ,躞脚a 纽醚撅撼g 魏大 型分析系统 c o g n o ss c c n a r i o 、b u s i n e s s0 b j e c t s 根据国鼯知名k d d 燃站k d n u 鹪e s ( w w w k d n u g g e 姆。c o 珏1 ) 上连续 三年的诱套【2 觅表2 1 ,矜m 软传鹣健精捧行榜弱下: 袭2 1 ) n u g g e t s 网站调查2 0 0 2 - 2 0 0 4 年d m 工具使用排行榜 l o 第2 章相关理沦知识 北京交通大学顶上学位论文 注:在此表中为7 摊舨我们龋除7 a 个低予l o 票的统计行,其中2 4 年数据 豹也= _ f 、全蕴程到2 0 0 4 年1 1 局份的调查结瓢 面对各种数据挖掘工具,如何选择满足需要的数据挖掘工具已成为一 个问题【3 】。具体的选择标准应从以下几方面考虑: ( 1 ) 解决复杂问题的能力:数据量的增大,对模式精细度、准确度 要求的增高都会导致问题复杂性的增大。 ( 2 ) 验证方法:在评估模式时采用多种校验方法,从而达到最大的 准确度。 ( 3 ) 可视化:可视化工具提供了直观、简洁的方法,方便了用户, 更有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。 ( 4 ) 数据选择和转换:模式通常被大量的数据项隐藏。有些数据是 冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值的 1 2 第2 章相关理论知识 模式的发现。数据挖掘系统的一个很重要功能就是能够处理数据复杂性, 提供工具,选择正确的数据项和转换数据值。 ( 5 ) 扩展性:为了更有效的提高处理大量数据的效率,数据挖掘系 统的扩展性十分重要。要了解数据挖掘系统能否充分利用硬件资源? 是否 支持并行性能? 支持那种并行计算机? 当处理器的数量增加时,计算规模 是否相应增长? 是否支持数据并行存储? 为单处理器的计算机编写的数 据挖掘算法不会在并行计算机上自动以更快的速度运行。为充分发挥并行 计算的优点,需要编写支持并行计算的算法。 ( 6 ) 操作性能:操作性能的好坏是一个至关重要的因素。图形界面 友好的工具可以方便用户,引导用户执行任务,为用户节省时间。提供嵌 入技术的工具更是它的可取之处,通过嵌入到应用程序中,缩短了开发时 间。既可以将模式运用到已存在或新增加的数据上,也可以把模式导出到 程序或数据库中。 ( 7 ) 数据存取能力:好的数据挖掘工具可以使用s q l 语句直接从 d b m s 中读取数据。这样可以简化数据准备工作,并且可以充分利用数 据库的优点。没有一种工具可以支持大量的d b m s ,但可以通过通用的 接口连接大多数流行的d b m s 。 ( 8 ) 于其他产品的接口:传统的查询工具、可视化工具可以帮助用 户理解数据和结果。数据挖掘工具能否提供与这些工具集成的简易途径是 衡量数据挖掘工具好坏的标准。 2 1 7 什么是完备的数据挖掘系统 根据以上的罗列,不难总结出一个完备的数据挖掘系统要具备以下几 个方面: ( 1 ) 丰富的数据接口,因为用户的数据格式五花八门,d m 工具必 须有丰富的接口,才能更好获取数据。满足更广泛的用户的需求。 ( 2 ) d m 工具应该集成o l a p ( o l i ea n a l v s i sp r o c e s s ) 、d w ( d a t a w a r e h o u s e ) 、数据预处理、d m q l ( d a t am i n i gq u e r yl a n g u a g e ) ,因 为据统计数据挖掘的工作量在数据预处理上占据了6 0 ,集成这些功能 【7 l ,有望能大大加快数据挖掘的进程。但目前,d m 工具和d w 大都还是 分离的,d m o l 还没有统一的标准。 北京变通大学硕十学位论文 ( 3 ) p m m l ( p r e d i c t i v em o d e lm a 水u pl m n g u a g e ,p m m l , 预言横 型标记添言) ,它怒患d m g 协会鏊予以下愚想制定的。数攒挖掘建模谬 言是辩数据挖撼禳澎进行播述稻定义的语言。鲡聚我们设计一静标准的数 据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵 循,那么各系统之间可以共享模型,既可以解决目前各数据挖掘系统之间 封翊毪的闻爨,又霉疆在其它应攘系绞中阗嵌入数据挖褪搂整,嫠决孤立 的知识发现问题。至于数据挖掘技术的计算方法,主要有贝叶式、决策树、 人工神缀恻络、遗传算法、近邻算法、规则推姆等,以及在缚种方法上的 很多种扩展算法。现在有些组织和企业推出了数据挖掘谣言包,例如 m 主c m 辩蠹夔蚤醚o 毛嚣d b ,d 越am 速堍a p l 戴x p e r 重g m 珏p 熬l s r 7 3 1 1 霸。 这些有臻导致据挖獭技术的计算方法成为一种语言,标准的数据挖掘语言 的产生。 ( 4 ) 友好的操作暴恧g u l ( g f a 曲i c su 辩轴l e f f a c e ) 蠖予用户使用系 统;友好豹矮户交嚣秘镌,麓使挖獬静模式雯蠢趣。携摇模式韵塑影展示、 适当解释便于用户理解挖掘产生的知识。其功能模块看图2 。3 。 圈2 3 完备的数据挖掘系统功麓模块 1 4 第2 章相关理论知识 2 2 数据挖掘相关概念的区别 数据挖掘作为一个新兴的领域,其上的概念很多样,到目前还不统一, 很多概念意思相近但存在微妙的区别。 2 2 1 数据挖掘与k d d 区别 k d d 是从数据集中识别出有效的、新颖的、潜在有用的以及最终可 理解模式的高级处理过程。从定义中可以看出,k d d 是一个高级的处理 过程,它从数据集中识别出以模式来表示的知识。高级的处理过程是指一 个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式 的上升过程。数据挖掘是k d d 的核心部分,是采用机器学习、统计等方 法进行知识学习的阶段。k d d 是一门交叉学科,涉及到人工智能、机器 学习、模式识别、统计学、智能数据库、知识获取、数据可视化、专家系 统等多个领域。数据挖掘算法的好坏将直接影响到所发现知识的好坏。数 据挖掘的任务是从数据中发现模式。 数据挖掘的前身即知识发现( k n o w l e d g ed i s c o v e f y ) ,它源自于人工 智能的机器学习领域,其实质的内涵是在一个已知状态的数据集( d a t a s e t ) 上,通过设定一定的学习算法,从数据集中获取所谓的知识。坦白 地说,人工智能领域中的知识发现技术已经发展到了一个很成熟的阶段, 但是由于缺乏应用的土壤,它的路越走越窄。而与此同时,数据库技术也 已经发展到一定的阶段,并得到了广泛的应用,各个企业都已经积累了无 数的数据资源,迫切需要有一种技术能够帮助他们从数据中发掘出其内在 的规律,数据挖掘技术正好能满足这一需求,它实质上就是知识发现技术 在数据库领域中的应用。 数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库的大 量的数据中挖掘有趣知识的过程。这样,d a t am i n i n g 就等同了数据库中 的知识发现或k d d ( k n o w l e d g ed e s c o v e r y ) ,对此可以认为【4 】1 ) d m 是k d d 的最核心的部分:2 ) 数据挖掘( d m ) 和知识发现( k d d ) 基本 意思都是从大量数据中提取知识,但“挖掘”让人联想到淘金,更生动形 北京变谳大学硕士学位沦义 象。所以用d m 等同k d d 的意义未尝不可。谴样就可以用k d d 的过程 定义数据挖掘系统模型。 2 2 2 数据挖掘冀机器学习关系和区别 数据兹援裁趱了天王餐爨( 愆 窝统诗分辑翁送多麓港来翡葑楚。 这两门学科都致力予模式发现和预测。 机器学习是计算机科学和人工智能a i 发展的产物。机器学习分为两 种学习方式:自组织学习( 如神经网络) ;从例子中归纳啦规则( 如决策 瓣) ,农是够多豹数据和诗算戆力下,毪稍梵乎不蘑天熬关照鑫动就熊完 成许多有价值的功能。 数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深 复杂的技术越装起来,使人们不用自己掌握这些技术迮能完成羼样款功 能,并强更专注于秘己掰要解决静润瑟。 2 2 - 3 数据挖掘与统计分析关系和区别 数据挖掘与传统的数据分析( 如查询、报液、联机应用分析) 的本腰 区别是数据挖掘是程没有明确假设的前提下去挖掘信息、发现知识数据挖 掘所得到的信息应暴有先未知,搿效和可实用三个特征。先麓未知的信怠 是指该落惑霆颈先来蓉颈瓣虱静,溉数据燕箍楚簧发囊那些不窘靠直觉发 现的信息或知识,甚蕊是违背直徽的信息或知识,挖掘出的信息越是出乎 意料,就可能越有价值。 d 嗽am n b g 鸯掇当大酶魄蓬是由裹等统诗学中鲍多变量分据赝支 撑。穆麓为骨么d a t am i n i n g 与统计又有所不鞠裙? 主要淼阂在福较予传 统统计分析而言,d a t am i n i n g 有下列几项特性:处理大量黛际资料更强 势,且无须太专业的统计背景去使用d a t am i n i n g 的工具; 资料分撰趋势必铁大型数据露繇取藤零凌辩芽菠瘸专瓣诗算孛昱分攒 软件,d a t am i n 谗业酌工其更符合企业需求。 纯就理论的基础点来看,d a l am i l l i n g 和统计分析有应用上的差别, 毕竟d a t am i n i n g 联的是方便企蚍末端用者使用而非给统计学家检测用 豹。 第2 章相关理论知识 首先统计方法适合有先验概率模型的数据或者有大量样本的数据,统 计不适合没有先验知识的小数据,这样很不准确。其次,d m 是一个概念, 它的对象可以适合任何数据的数据,针对不同的数据选择不同的挖掘算 法。可以在d m 中利用统计的算法来解决问题。 数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方 法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超 的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着 计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通 过相对简单和固定的方法完成同样的功能。 2 2 4 数据挖掘与数据仓库 数据仓库的实质就是一个数据库,但是它存储的数据与普通数据库中 的数据不太一样,它存储的是从数据库里面经过加工整理后的数据。数据 挖掘技术能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内 在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要 作用的模式,从而建立新的业务模型,以达到帮助决策者制定市场策略、 作出正确决策的目的。 数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘 过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来 源的广泛性和完整性。另方面,数据挖掘技术已经成为数据仓库应用中 极为重要和相对独立的方面和工具。数据挖掘和数据仓库是融合与互动发 展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专 家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据 库“奴隶”到数据库“主人”转变的企业最终用户的通途。 2 2 5 数据挖掘与在线分析处理( 0 l a p ) 所谓0 l a p ( o n l i n ea n a l y t i c a lp r o c e s s ) 意指由数据库所连结出来 的线上查询分析程序。有些人会说:我已经有o l a p 的工具了,所以我 不需要d a 诅m i n i n g 。事实上两者间是截然不同的,主要差异在于d a t a m i n i n g 用在产生假设,o l a p 则用于查证假设。简单来说,o l p 是由使 1 7 北京交通大学硕上学位沦文 用者所主导,使用者先有一些假设,然后利用0 l 气p 来查证假设是否成 立;而d a t am i n i l l g 则是用来帮助使用者产生假设。所以在使用o l a p 或 其它o u e r y 的工具时,使用者是自己在做探索( e x p l o 豫t i o ) ,但d a t a m i i l i n g 是用工具在帮助做探索。 d a t am i l l i l l g 常能挖掘出超越归纳范围的关系,但0 l 仅能利用人 工查询及可视化的报表来确认某些关系,是以d a t am i n i n g 此种自动找出 甚或不会被怀疑过的资料型样与关系的特性,事实上已超越了我们经验、 教育、想象力的限制,0 l p 可以和d a t am i n i n g 互补,但这项特性是d a t a m i n i n g 无法被0 l p 取代的。 数据挖掘和o l 廿具有一定的互补性。在利用数据挖掘出来的结论 采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么 样的影响,那么o l 廿工具能回答你的这些问题。而且在知识发现的早 期阶段,o l a p 工具还有其他一些用途。可以帮你探索数据,找到哪些是 对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮 你更好的理解你的数据,加快知识发现的过程。 2 3 数据预处理 在数据挖掘流程模块的时间占用上,调查 5 】表明数据预处理占了整个 流程5 0 - 8 0 的时闯,那么数据挖掘者为什么愿意在此环节上“劳师动 众”呢? 如此费时的工作能否简化昵? 2 3 1 数据预处理的重要性 为什么要发费如此多的时间在数据的预处理上呢? 现实世界中,数据 库容易受噪声数据,空缺数据和不一致数据的困扰
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JNJ-47965567-Standard-生命科学试剂-MCE
- 2026年红旗谱阅读测试题及答案
- 2026年孤单心理小测试题及答案
- 2026年littlefuse 面试测试题及答案
- 2026暑假开学前自查报告(2篇)
- 2026年人口教育测试题及答案
- 2026年公司excel 测试题及答案
- 2026年变态心态犯罪测试题及答案
- 2026年关键冲突测试题及答案
- 智力测试烧脑题目及答案
- 2026中国热带农业科学院热带生物技术研究所第一批招聘38人备考题库及完整答案详解1套
- GIS安装施工方案
- 维保作业安全培训内容课件
- (2025年)社会工作考试试题及答案
- DB11-T 513-2025 绿色施工管理规程
- 2025四川泸州交通物流集团有限公司及下属公司招聘12人笔试参考题库附带答案详解
- 危险作业审批培训
- (正式版)DB54∕T 0428-2025 《“一河(湖)一策”方案编制规程》
- 地贫防控知识培训课件
- GB/T 26941-2025隔离栅
- 人工智能概论课程教学大纲
评论
0/150
提交评论