(计算机应用技术专业论文)数据挖掘试验平台dmlab的设计与原型实现.pdf_第1页
(计算机应用技术专业论文)数据挖掘试验平台dmlab的设计与原型实现.pdf_第2页
(计算机应用技术专业论文)数据挖掘试验平台dmlab的设计与原型实现.pdf_第3页
(计算机应用技术专业论文)数据挖掘试验平台dmlab的设计与原型实现.pdf_第4页
(计算机应用技术专业论文)数据挖掘试验平台dmlab的设计与原型实现.pdf_第5页
已阅读5页,还剩88页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘试验平台dmlab的设计与原型实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 从数据挖掘技术产生以来,国内外出现了形形色色的数据挖掘工具, 其中也不乏可以为用户提供算法试验和测试接口的例子,但其目标都倾向 于挖掘任务,而非挖掘算法的开发、调试和试验。直到今天,对于数据挖 掘领域的算法研究人员来说,实现、测试算法仍然是一项效率较低的工作, 于是我们开发了这个数据挖掘集成试验平台d m l a b ( d a t am j n i n g l a b o r a t o r y ) ,为算法研究人员提供了一个集算法实现、测试、试验等功能 于一体的高效的集成开发试验环境,使得他们不再需要花过多的精力在试 验系统的设计和编码上,而把精力都投入到对算法本身的实现和研究上。 d m l a b 是个专门为数据挖掘研究人员进行算法试验而设计的集成开 发环境,融合了数据准备和新算法的实现、调试及评价等功能。系统提供 的数据服务器d a t a s e e r 使得用户通过简便的操作即可实现对数据集的读 取、解析、探索和预处理,而且数据集可以重复使用和跨网络使用,大大 的提高了数据集准备和使用过程的效率。跟其他挖掘工具相比,d m l a b 提供了更加高效的二次开发接口,借助于p y t h o n 的强大功能,d m l a b 具 有其他系统无可比拟的扩展性和简便性,用户可以在短时间内开发实现自 己的挖掘算法,实现对挖掘算法或数据的试验;系统集成了算法运行结果 的可视化模块和智能化评价模块,使用户评价新算法的过程交得更加客观、 简便。 本文首先从d m l a b 的体系结构、d m l a b 的模块组成、d m l a b 的集成 方式以及功能特征和实现机制等四个方面介绍了该系统的分层设计模式, 模块化、组件化的设计原则,以及系统具有的灵活性和可扩展性。 然后详细讲解了d m b b 的设计与原型实现过程,主要介绍了d m l a b 系统实现过程中的关键技术,比如系统中基本数据结构的定义,包括一些 重要的类、全局常数以及其内部关系,系统中的数据通信方式,通信协议, 图形用户界面的实现等。 最后对各个部分进行了测试,证明了系统预期的主要功能都已经实现, 用户可以利用系统完成对数据集解析、探索及预处理,编辑、调试算法脚 本,配置运行试验过程,在系统提供的基础接口上面扩展自己的数据加载 西南交通大学硕士研究生学位论文第| | 页 器、预处理算法、挖掘算法及试验算法。 d m h b 系统在功能上具有极强的可扩展性和适应性,可以应用在多种 环境和领域中,具有一定的适应性和很好的应用前景,同时系统也存在一 些缺陷和不足,需要进一步完善和改进。本系统是对开发高效挖掘算法试 验平台的一个尝试,对于今后相关工具的发展提供了一个借鉴,将有利于 数据挖掘算法研究的发展。 关键词:数据挖掘;算法试验;d m l a b ;p y t h 蛐 西南交通大学硕士研究生学位论文第| 1l 页 a l b s t r a c t s i n c ed a t am i l l i n gt e c h n o l o g yc o m ei m ob e i n g ,t h e r ew e r em a n ys o n so f d a t a m i i l i n g t o o l s p r o d u c e d s o m e0 ft h e m p r o v i d e i n t e r f a c ef o r a l g o r i t l l m - e x p e f i m e n t a “o a n dt e s t i n g ,h o w e v e i ,t h e yf o c u s e do nm i n i n gt a s k s m o r e ,t h e i rm a i nt a r g e tw a sn o to nt h ea l g o r i t h md e v e l o p i n g ,d e b u g g i n ga n d t e s 恤g u pt on o w a sf o r t h es c h o l a ri nd a t am i n i n gf i e l d ,i ti sa ni n e f f i d e n tj o b t o i m p l e m e n ta l l dt e s ta l g o r i t h r n sa ut h es 锄e s o ,t l l ee f f i c i e n ti n t e 掣a t e d d e v e l o p i n g t e s t i n ge n v i r o n m e n tc a l l e da s d a t am i n i n gl a b o 飓t o r y ( d m i 且b ) w a sd e s i g n e da n dd e v e l o p e dl b rt h er e s e a r c h e r st oi m p l e m e n t ,d e b u ga n dt e s t t h e i ro w n a l g o r i t l l i i l si nac o n v i e n tw a y ,r e l e a s e dt h e mo fd e s i g n i n g 衄dc o d i n g , a n dd e v o t et h e m s e l v e st ot h er e s e a r c ho ft h e a l g o r i t l l m s d m i 。a bi sd e s i g n e da sas p e c i f i ci n t e g r a t e dd e v e l o p i n ge n v i r o n m e n tf o r d a t am i n i i l gr e s e a r c h e r st 0c o d ea n dt e s ta l g o r i t h m s ,a n dt h i st o o lu n i t e st h e f h n c t i o n s0 fd a t ap r e p a r a t i o n ,a n di m p l e m e n t a t i o n ,d e b u g g i n g ,e v a l u a t i o no f n e wa l g o r i t h m s t h ed a t as e v e rp r o v i d c db yd m l 曲c a ni m p l e m e n tt h e a c c e s s i n g ,a i l a l y s i s ,e x p l o r a t i o n a n dp r e p r o c e s s i n go fd a t a s e tb ys i m p l e h a n d l i n g ,a n dt h ed a t a s e t sc a nb eu s e dr e p e a t e d l ya n dc a ns p a nm u l t i n e t s , w h i c hi m p m v et h ee f f i c i e n c yo fd a t ap r e p a r a t i o na n du s i n gp r o c e s s c b m p a r e t o0 t h e rd a t am i n i n gt o o l s ,d m l a bp r o v i d e sm o r ee f f i c i e n tp r o g f a m m i n g i n t e r f a c ei nv i f t u eo ft h ep o w e ff u n c t i o no fp y t h o n ,a n dd m l a bh a st h eu n i q u e f u n c t i o n so fe x t e n s i b i l i t ya n df a c i l i t y ,u s e r sc a nd e s 蟾na n dt e s t t h e i fo w nd a t a m i n i n ga 1 9 0 r i t h m s i nas h o nm i n u t e d m l a bi n t e g r a t e st h ev i s u a l i z a t i o n m o d u l ea n di n t e l l i g e te v a l u a t i o nm o d u l eo ft h et e s t i n gr e s u l t s ,w h i c hl e tt h e e v a l u a t i o np r o c e d u r eb e c o m em o r eo b j e c t i v ea n ds i m p l e 1 1 l i sp 印e ri n t r o d u c e sd m l a bf r o mf o u ra s p e c t s ,t h es y s t e ms t n l c t u r e ,t h e c o m p o n e n t so fm o d u l e s ,i n t e 目丑t i n gm o d e sa n df u n c t i o nf c a t u r e s ,o fs t r a t i f i e d d e s i g np a t t e m ,m o d u l a r i z a t i o ,t h ed e s i g nr u l e so fc o m p o n e n t s ,t h en e x i b l ea n d e x t e n df e a t u f e s t 电e ,t h ed e s i g na n dp r o t o t y p eh n p l e m e n t a t i o np r o c e d u r eo fd m i 。a ba f e 西南交通大学硕士研究生学位论文第l v 页 d e s c r i b e di nd e t a i l a n dt h ek e yt e c h n i q u e so fd m i 且bi m p l e m e n t i n ga r e i n t m d u c e d ,f o re x a m p l e ,t h ei m p l e m e n t a t i o n0 fb a s i cd a t as t r u c t u r e st h a t c o n t a i ns o m ei m p o n a n td a s s ,g l o b a lc o n s t a n t sa dt h e i ri n t e m a lr e l a t i o n s ,t h e c o m m u n i c a t i o nm o d e sa n dp r o t o c o lf o rd a t a s e t ,a n dt h ei m p l e m e n t a t i o n0 f g r a p h i cu s e ri n t e r f a c e i i n a l ly ,t h et e s t i n go fa l lt j l ef u n c t i o n si sc a r r i e do u t ,w h i c hp r o v e dt h e e x p e c t e d m a i nf u n c t i o n sh a v eb e e ni m p l e m e n t e d u s e rc 如m a k eu s eo f d m l a bt o i m p l e m e mt h ep r o c e d u r e o fd a t a s e t a a l y s i s ,e x p l o r a t i o n , p r e p r o c e s s i n g ,a n de d i t i n g ,d e b u g g i n gt h ea l g o r i t h m - s c r i p t ,c 0 i l f i g u r i ga n d i _ i l n n i n ge x p e r i m e n t a t i o ni nc h i l d t h r e a da n ds oo n ,u s e rc a na i s oe x t e n dt h e i r o w nd a t al o a d e r p r e p r o c c s s i n ga l g o r i t h m s ,d a t a m i n i n ga l g o r i t h m s ,a n dt e s t i n g a l g o r i t h m st h r o u g ht l l eb a s i ci n t e r f a c ep r o v i d e db yd m l a b d m l a bh a sa nb e t t e ra b i l i t yo fe x t e n da l l da d a p t i v e ,w h i c hm a ya p p l yi n m a n y 姐v i r o m e n t sa n df i e l d s i th a sa9 0 0 da p p l i c a t i o f u t u r e o nt h eo t h e r h a d ,i ta l s oh a ss o m ed r a w b a c k s ,a n di ti sn e e d e dt oi m d r o v ei nf u t u r e d m k bi s 彻i y 如a n 锄p tt o d e s 咖e f f i c j e n p l a f f 0 册f o rt c s t i g d a t a m i n i n g - a l g o r i t l l m s , i t c a p r o v i d ee x p e r i e n c ew h e nd e v e l o p i n gs i m i l a r t o o l s , a l li no n ew o r d ,i tw i l ld om o r e h e l p o nt h er e s e a r c ho f d a t a m j i l i n g a l g o r i t l l s 【k e yw o r d s 】d a t am i n i n g ;a l g o r i t h me x p e r i m e n t ;d m l a b ;p y t h o n 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景 第一章绪论 数据挖掘( d a t am i n i n g ) ,又称为数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) ,就是从大量数据中获取有效的、新颖的、潜 在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从 大量数据中提取或“挖掘”知识的过程【3 5 】。数据挖掘是目前具有相当广泛 应用的新兴科学,已经大量地应用到电信、金融、保险、零售以及生物医 药等很多领域的数据分析当中,发挥着重要作用。 数据挖掘是一门实践性很强的工程学科,到目前为止还没有形成完整 的理论框架,许多算法都还需要用试验来验证和测试。从收集的资料来看, 算法试验可以归结为两个途径【1 0 j :一、独立构建完整的试验程序,在文献 【3 ,1 2 ,1 4 ,1 8 】中都介绍了这种方式:二、基于已有挖掘系统提供的二次开发 接口进行试验程序设计,在文献【2 0 2 2 】中对这种方式进行了详细的介绍。 许多从事数据挖掘研究的学者在学习、研究过程中都有这样的体会:如 果为了实现并验证一个新算法的性能,从数据准备到算法实现再到算法评 估都完全由自己编码实现,那将是一个有很大跨度的过程,有相当大的难 度。但是目前仍有相当数量的学者采用的是这种低效的试验方法,这造成 了大量的重复性工作,是对智力的浪费,对数据挖掘理论研究的发展也相 当不利。 随着数据挖掘技术的逐步发展,国内外出现了形形色色的数据挖掘工 具【1 2 0 。22 1 ,其中有一部分设计了二次开发接口,用户可以在此基础上开发 自己的算法,并集成到系统中去运行,由此达到算法试验的目的,现在有 部分算法研究人员采取这种试验途径。与前面提到的方法相比,这种方法 明显的减少了工作量,但是它也有一些缺陷:因为不管是是商业性的还是 非商业性的挖掘工具都有个共同的特点,那就是以挖掘任务为根本目的, 所以其软件在设计上是倾向于挖掘任务的,要完成用户各种各样的算法试 验就相对比较困难,比如开发接口太复杂、运行环境和算法编辑调试环境 分离、不能针对多种算法进行对比试验等等。所以现在仍然有一些人宁愿 西南交通大学硕士研究生学位论文第2 页 舍弃这种看似简单的方法而去重新构建完整的、单纯的试验程序,尤其是 对于那些初学者更是如此。 为了避免数据挖掘研究人员耗太多的精力在重复的软件编码上,提高算 法研究的效率,我们开发了这个数据挖掘集成试验平台d m l 丑b ( d a t a m i n j n gl a b o r a t o r y ) ,为算法研究人员提供了一个集算法实现、测试、试验 等功能于一体的高效开发试验环境,使得他们不再需要花过多的精力在系 统的设计上,而把精力都投入到算法本身的实现和研究上。 在这个平台提供的统一开发接口数据挖掘类库d m c ( d a t am i n i n g a a s s ) 的基础上,用户可以很容易地实现关联规则提取、分类预测、聚类 等各种挖掘算法1 1 1 】。d m l a b 集算法的编辑、调试、数据集的预处理、挖 掘结果的可视化、存储和分析等功能于一体,相比文献【1 】中介绍的其他工 具和方法大大的提高了算法开发的效率,降低了开发难度。 这个平台是通用的。它具有统一的开发接口,在这个平台上可以容易 地实现比如关联规则提取、分类预测、聚类等各种挖掘模式,甚至可以应 用于机器学习的研究。 这个平台是可重用的。它抽象了实现挖掘系统的各种底层细节,使得 用户不再需要在每次试验算法时都重新开发整个系统;而且它还为每个算 法针对每个试验数据集的试验结果建立了统一的数据库,便于对试验结果 的分析比较,评测算法的优劣。 这个平台是集成的。用户对算法的编辑、调试,对数据集的处理和可 视化,对试验结果的分析都可以在这个平台上实现,而不需要其它的专门 工具,所以也可以把这个算法试验平台看成数据挖掘算法的集成开发环境 ( i d e ) 。实质上,这个系统的思路有点类似于m a t l a b 【3 3 】,称得上是数据挖 掘领域的“m a t l a b ”。 1 2 论文所做的工作 论文主要完成了以下工作: 研究分析数据挖掘中几个主要的挖掘模式如关联规则提取、分类预 测、聚类等的算法及收集的相关代码,总结其中实现算法的方法及 规律,对目标系统进行需求分析; 西南交通大学硕士研究生学位论文第3 页 参照已有的各式各样的数据挖掘系统完成系统的框架设计,使得系 统在满足功能需求的同时在结构上更加合理; 针对系统功能分别完成对系统的测试,验证系统的完整性和合理 性: 编写用户手册和系统底层接口规范。 1 3 论文结构 本论文以后的章节安排如下: 在第二章首先介绍了数据挖掘领域流行的挖掘工具,并对其进行了对比研 究,并据以完成对目标系统d m l a b 的需求分析:然后在第三章介绍了系 统整体上的结构设计和各个子功能模块的设计,之后在第四章详细讲述了 系统实现的底层细节、数据通信方式以及图形用户界面的实现:之后在第 五章针对各个功能需求进行了详细的测试并且描述了实现用户挖掘算法及 试验算法的规范;最后对整个系统的设计和实现进行了总结,说明了出现 的问题与不足,提出了以后的研究方向。 西南交通大学硕士研究生学位论文第4 页 第二章数据挖掘工具及试验方法 2 1 数据挖掘过程模型 学术界对数据挖掘过程模型的研究很多,设计和实现了基于各个过程 模型的许多数据挖掘原型系统与商业系统。归纳目前近百个数据挖掘系统, 大致可以将数据挖掘过程模型分为两类:一类是f a y y a d 总结出的过程模 型,另一类是遵循c r i s p d m 3 7 】标准的过程模型。 2 1 1f a y y a d 过程模型 f a y y a d 过程模型是f a y y a d 等人于1 9 9 6 年提出的过程模型,该模型对 数据挖掘行业有重要影响,模型如图2 1 所示。 图2 - 1f a y y a d 等提出的过程模型 图2 1f a y y 8 d 等提出的过程模型 西南交通大学硕士研究生学位论文第5 页 f a y y a d 过程模型主要步骤: 1 数据集成:将多种数据源组合在一起; 2 数据选择:去除数据集中跟目标任务不相关的属性以提高效率和 准确率; 3 数据预处理:对数据集进行数据清洗,使之变成“干净”的数据, 然后将“干净”的数据转换成数据挖掘算法所要求的格式; 4 数据挖掘:使用合适的数据挖掘算法完成对数据的分析; 5 解释和评估:以适当的可视化技术和知识表示技术将模式以合适 的形式展示给用户,方便用户对结果的理解和解释,并据以评估 模型的有效性。 根据f a y y a d 过程模型,数据挖掘是一个循环迭代的过程,在这个过程 的每一个阶段,如果发现第n 个阶段产生的结果和预先设想或者预先分析 的内容不一致,则需要用户重复以前的工作,即是重复第n 1 阶段,或者 重复第1 到第n i 阶段的任意组合。早期开发的大部分数据挖掘系统都遵 循f a y y a d 过程模型,即数据挖掘系统的主要功能是发现模式、生成模型, 但是没有涉及模型如何被使用即如何在商业解决方案中部署,因此在实际 应用中有一些困难。 2 1 2 遵循c s p d m 标准的过程模型 c r i s p - d m ( c r o s s - 1 1 1 d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n d 【3 8 4 0 j 是 s p s s 公司联合n c r 在1 9 9 6 年制定的关于数据挖掘技术的行业标准,目 的是推广数据挖掘技术,解决越来越多、越来越复杂的商业问题。与以往 仅仅局限在技术层面上的数据挖掘方法论不同,c r i s p d m 把数据挖掘看 作一个商业过程,并将其具体的商业目标映射为数据挖掘目标。该模型注 重技术的应用,解决了f a y y a d 过程模型存在的缺陷,经过不断发展和完善, 该模型于1 9 9 9 年发布了c r l s p d m1 o 版。最近次调查【3 9 】显示,5 0 以 上的数据挖掘工具采用的都是c r i s p d m 的数据挖掘流程,它已经成为事 实上的行业标准。举一个显著的例子,c l e m e n t i n e 完全支持c r l s p d m 西南交通大学硕士研究生学位论文第6 页 标准,这不但规避了许多常规错误,而且其显著的智能预测模型有助于快 速解决出现的问题。 c r i s p d m 过程模型从数据挖掘技术应用的角度划分数据挖掘任务, 将数据挖掘技术与应用紧密结合,更加注重数据挖掘的模型的质量以及如 何与业务问题相结合、如何应用挖掘出的模型等实际应用中用户最关心的 问题,因此c r i s p d m 过程模型从商业角度给出了对数据挖掘方法的理解。 目前商业数据挖掘系统的研制和开发大都遵循c r i s p d m 过程模型,将模 型的挖掘和模型的部署紧密结合,例如著名的统计软件s p s s 。 数据挖掘项目生命周期分为六个阶段,各阶段的顺序并不严格规定, 一般都需要在不同的阶段之间前后移动,这取决于那个即将执行的阶段或 者即将执行的具体任务所在的阶段的输出。箭头表明了阶段之间的重要性 以及频繁依赖性。数据挖掘并不是一次解决方案部署的结束,在解决方案 的部署过程中学习到的经验将触发更多的、新的商业关注问题,使得后续 的数据挖掘从先前的经验中获益很多。 下面简要介绍各个阶段: 1 业务理解:这是初始化阶段,关注的是从业务的角度理解项目目标 和需求,然后将这些知识转化为数据挖掘问题定义和为达到目标而 设计的初步计划; 2 数据理解:这个阶段开始于初始数据采集以及熟悉数据的活动过程 中,识别数据质量问题,洞察数据和检测有兴趣的子集以形成关于 隐含信息的假设; 3 数据准备:这个阶段涵盖了根据原始数据创建最终数据集( 适合建 模工具装载的数据) 的所有活动,数据准备任务大致是多次执行而 且不是以给定的顺序执行,任务包括表、记录、属性选择以及数据 转换和数据清洗: 4 建立模型:在这个阶段,不同的建模技术被选择和应用,它们的参 数要校准到优化值,一些技术对数据的形式有特殊要求,因此,分 级返回在数据准备阶段常常发生: 5 评估:在这个阶段,从数据分析角度看,在这个项目里你已经建立 了一个看起来有高质量的模型或者一系列这样的模型,在进行到最 后的模型部署之前,全面评估模型和创建模型的执行步骤,确保能 正确达到业务目标是十分重要的,关键点就是决定是否还有没被充 西南交通大学硕士研究生学位论文第7 页 分考虑的业务问题存在;在这个阶段结束的时候,需要作出关于数 据挖掘结果的应用的决定; 6 部署:通常创造出一个模型并不是一个项目的结束,甚至,如果模 型的应用将增加数据的知识,则需要以用户能应用的方式组织和表 示所获得的知识,这常常在一个组织决定产生过程中包含了“动态” 模型的应用,例如实时的个性化网页和不断刷新的市场数据库中的 积分记录。然而, 根据这些需求,部署阶段可以与产生报表一样 简单,或者和实现一个在企业间可重复的数据挖掘过程一样复杂。 在大多数情形下,是用户而不是数据分析专家从事部署的步骤。然 而,分析专家不会采取任何部署工作,则理解需要执行什么活动以 便好好利用生成的模型,对用户来讲是很重要的。 2 1 3 两类模型的比较 f a y y a d 模型是偏技术的模型,它从数据入手到知识结束,至于如何选 择数据,如何利用知识,它没有涉及。但f a y y a d 模型结构清晰,不面向特 定的应用,可以集合大量通用算法,便于技术实现,在小型挖掘系统中应 用较普遍。 而c r i s p d m 模型是侧重技术应用的模型,是注重数据挖掘的模型如 何与业务问题相结合、如何部署应用挖掘模型。c r i s p d m 模型针对特定 行业领域,主要从商业的角度给出对数据挖掘方法的理解,技术实现较复 杂,目前主流的商用数据挖掘系统大都支持c r i s p d m 模型。 总之,两类模型各有优缺点,各有自己的适用领域,d m l a b 系统正是 参照f a y y a d 模型来设计和实现的。 2 2 数据挖掘工具研究 西南交通大学硕士研究生学位论文第8 页 2 2 1 流行的数据挖掘工具介绍 随着数据挖掘技术的日益发展,各种各样的数据挖掘工具频频问世 下面就目前国内外流行的部分挖掘工具予以介绍: 1 埘v a n c e ds c o u t a s ( a d v a n c e ds c o u d 【4 5 】i b m 公司为n b a 专门定制的数据挖掘工 具,用于发现篮球比赛数据中的有趣模式,给教练提供参考信息。经 过实践的证明,a s 提供的信息确实能够很好的指导设计比赛策略,应 用于后来的比赛。 a s 自动将挖掘的结果转换成文本描述和图形的方式,使之易于教 练理解,下面是一个文本结果的例子: w h e np r i c ew a sp o i n t g u a r d ,t w i l l i a m sm i s s e d0 ( 0 ) o fh i sj u m pf i e l d g o a l a t t e m p t sa n dm a d e1 0 0 ( 4 ) o fh i s j u m pf j e l d g o a l - a t t e m p s t 1 l e t o t a ln u m b e ro f s u c h f i e l d 2 0 a 1 a t t e m p t sw a s4 t h i si sad i 矗i c r e n tp a t t e mt h a n t h en o r mw h i c hs h o w st h a t :c a v a l i e r sp l a y e r sm i s s e d 5 0 7 0 o ft h e i rt o t a lf i e l d g o a l a t t e l p t s c a v a l i e r sp l a y e r s s c o r e d4 9 3 0 o ft h e i rt o t a l f i e l d g o a l - a t t e m p t s 对于a s 提供的有趣模式,教练可能需要进一步解释,a s 为此设计 了一个强大的功能就是,教练可以交互地查看支持该模式的比赛录像 片断,从而更深刻地理解该模式。 z q u e s i 。 q u e s t 【2 2 ,4 2 l 是i b m 公司a l m a d e n 研究中心开发的一个多任务数据挖 掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据挖掘基 本构件。系统( 图2 2 ) 具有如下特点: 1 ) 提供了专门在大型数据库上进行各种挖掘的功能:关联规则发现、 序列模式发现、时间序列聚类、决策树分类、递增式主动挖掘等; 2 ) 各种挖掘算法具有近似线性( o ( n ) ) 的计算复杂度,可适用于任 西南交通大学硕士研究生学位论文第9 页 意大小的数据库 3 1 算法具有找全性,即能将所有满足指定类型的模式全部寻找出来 4 ) 为各种发现功能设计了相应的并行算法。 s ( i - c ) n5g u i e x p c nt o 【d 5 j i d n t n d e f in j t i 。n i m i i l i n ge x p 。n ,1、 | l c i i e n 轴 j w t 岫一卜 誉丁) m i n i n g d n l na c c p lm m h g m 刨4 图2 20 u e s t 系统结构图 3 m i n e s e t m i n e s e t 4 1 ,4 7 】是由s g i 。珊公司和美国s t a n d f o r d 大学联合开发的多任 务数据挖掘系统,在1 9 9 6 年最初发布的时候还是一个主要以数据可视化为 主要功能的产品,经过两年的发展,m i n e s e t 发展成为个全功能的集数 据挖掘和可视化为一体的强大数据挖掘工具,帮助用户直观地、实时地发 掘、理解大量数据背后的知识。m i n e s e t 依赖于图形库i n v e n t o r o p e n g l 和 分析算法库m l c + + ,以s e n r e r c 1 i e n t 结构设计( 如图2 3 ) ,对数据集的处 理和挖掘都布置在s e r v e r 上面,c l i e n t 仅仅是对于挖掘过程的控制和数据 集及结果的可视化,因此对于海量数据集,m i n e s e t 具有强大且灵活的处 理能力。 s i l i c o ng r a p h j c si n c ,h t | p :w w w s g i c o m 西南交通大学硕士研究生学位论文第1 0 页 d a t a s o u r c e 一盎一 一l 竺r 日 lt 。o l 1 一 - 匡一 d a t af i l e ; f c | 国 o d a t a b a s e o 髫 日d d a t a w a r e h o u s e 图2 3m h e s e t 系统结构图 m i n e s e t 有如下特点: 1 ) m i n e s e t 以先进的可视化显示方法闻名于世,m i n e s e t2 6 中使用 了6 种可视化工具来表现数据和知识,对同一个挖掘结果可以用 不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调 整最终效果,以便更好地理解; 2 ) 在m i n e s e t 的可视化模块中实现了模型的搜索和过滤功能,当系统 处理海量数据集时,挖掘模型将会变得很大,要用户自己观察理解 一个有5 0 0 0 0 个结点的决策树根本不能给用户提供任何有益信息。 因此m i n e s e t 提供的对结果模型的搜索及过滤功能将给用户带来 最大的效率; 3 ) 提供多种数据挖掘模式,包括分类器、回归模式、关联规则、聚类 等等; 4 ) 支持多种关系数据库,可以直接从o r a c l e 、i n f o 加i x 、s y b a s e 的表 读取数据,也可以通过s q l 命令执行查询; 5 ) 多种数据转换功能,在进行挖掘前,m i n e s e t 可以去除不必要的数 据项,统计、集合、分组数据,转换数据类型,构造表达式由已有 数据项生成新的数据项,对数据采样等; 6 ) 具有平缓的学习曲线,因为系统为大多数参数都提供了合理的默认 参数,只要用户选择好算法即可开始,等用户具有较多经验以后, 通过设置不问的参数来优化挖掘过程将变得不再困难: 西南交通大学硕士研究生学位论文第11 页 7 ) m i n e s e t 最初只可以运行在s i l i c o ng r 印h i c s 公司专门的硬件上,不 过现在已经实现或正在实现到其他平台比如w i l l d o w s 的移植; 黔m i n e s e t 提供了批处理和脚本配置的方式来组织操作,但是并没有 提供完全的时i 接口,因此这个缺陷限制了系统的扩展性。 4 d b m j i l e r d b m i n e r f 4 3 】是加拿大s i m o nf r a s e t 大学开发的一个多任务数据挖掘 系统,它的前身是d b k a m ,该系统设计的目的是把关系数据库和数据挖 掘集成在一起,以面向属性的多级概念为基础发现各种知识。d b m i n e r 系 统具有如下特色: 1 1 能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规 则、演化知识、偏离知识等; 综合了多种数据挖掘技术:面向属性的归纳、统计分析、逐级深化 发现多级规则、元规则引导发现等方法; 3 ) 提出了一种交互式的类s q l 语言数据开采查询语言d m q l ; 4 ) 能与关系数据库平滑集成; 5 ) 实现了基于客户服务器体系结构的u n i x 和w i n d o w s 版本的系 统。 但是d b m i n e r 也有一些不足【4 9 】: ( 1 ) 依赖于m se x c e l 和m s0 【a ps e i c e ,并不是完全独立的解决方 案; ( 2 ) d b m i n e r 的快速立方技术本质上是基于内存中的多维数组,因而 d b m i n e r 要求较大的内存。教育舨的小演示库在1 6 兆内存尚可运行, 但当基础数据库规模在1 兆级时,内存至少要3 2 兆,而6 4 兆或1 2 8 兆才有较理想的速度。根据小级别数据的经验,目前版本对千兆级的 数据采掘的速度不会很理想; ( 2 ) d b m i n e r 目前还是面向数据而不是面向主题的,需要用户了解被 对采掘库的结构( 表,字段的名称) ,然后建立数据立方。一个数据立方 只能对应一个表或视图,在对多个表综合涉及前,用户还必须首先建 立视图。 西南交通大学硕士研究生学位论文第12 页 5 i n t e l l i g e n tm i n e r 由美国l b m 公司开发的数据挖掘软件h n e l l i g e n tm i n e r 是一种分别面 向数据库和文本信息进行数据挖掘的软件系列i “,它包括i n t e l l i g e n tm i n e r f o rd a t a 和i n t e l l i 叠e mm i n e rf o rt c x t 。i n t e l l i g e tm i n e ff o rd a t a 可以挖掘包 含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据 库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、 诈骗行为监测及客户联系管理等:i n t e l l i g e n tm i n e rf o rt c x t 允许企业从文 本信息进行数据挖掘,文本数据源可以是文本文件、w e b 页面、电子邮件、 l d t u sn o t e s 数据库等等。 6 e n t e r p r i s em i n e r e n t e r d f i s em i e r 这是一种在我国的企业中广泛采用的数据挖掘工具, 比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应 用,s a se n t e r p r i s em i e r 是一种通用的数据挖掘工具,按照“抽样探索 转换建模评估”的方法进行数据挖掘。可以与s a s 数据仓库和o u 冲集 成,实现从提出数据、抓住数据到得到解答的“端到端”知识发现。 7 s p s sc l e m e n t i n e s p s sc l e m e n t i i l e 【4 8 】是一个开放式数据挖掘工具,曾两次获得英国政府 s m 蹦玎创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建 模、评估到最终部署的全部过程,还支持数据挖掘的行业标准,在 k d n u g g e t s 的数据挖掘工具排名中已经连接多次荣登榜首。c l e m e n t i n c 的 可视化数据挖掘使得“思路”分析成为可能,即将集中精力在要解决的问 题本身,而不是局限于完成一些技术性工作( 比如编写代码) 。提供了多种 图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找 到问题的最终解决办法,融合了3 d 、图形和动画等多种可视化技术来处理 多维数据,使得数据所表现出的特征、模式和关联性等信息一目了然。通 过轻点鼠标,就可以从中选择感兴趣的数据子集或是衍生新的变量,进行 深入处理,最终获得有价值的商业信息。 c l e m e n t i n e 支持同时采用多个异种数据源,通过配置o d b c 可以访问 。h l l p :,w w k d n u g g c t s c o m 西南交通大学硕士研究生学位论文第13 页 几乎所有数据库,同时支持平面数据文件、s p s s 数据文件、s a s 数据文 件等多种格式。 通过c s p ( c l e m e n t i n es o l u t i o np u b l i s h e r ) 可将整个挖掘流程打包输出为 i m a 的文件和p a r a m e t 盯文件,日后无需使用c l e m e n t i n c 即可进行挖掘工作, 通过a p i ,用户可以编程调用i m a g e 文件,实现和系统的整合。同时支持 流程模型标准c r i s p d m 和p m m l 标准,方便模型的发布。 8 w e k a w e k a 【1 ,2 0 】是1 9 9 4 年由n e w z e a l a n d 的w a i k a t o 大学的数据挖掘研究人员 开发的数据挖掘工具,最初仅仅是一个集成各种杂乱的数据挖掘试验程序 的平台,包括了用c c + + 及u s p 等各种语言实现的挖掘程序,它本身是 在x w i n d o w 下用n ( 厂r c l 实现的;后来w e k a 被用i a v a 重新实现,成为了 一个完整的、统一的挖掘工具,经过了1 0 年的发展,已经发展到比较成熟 的试验性工具。当前版本3 4 3 ;在学术界,w e k a 是国外最流行的挖掘工 具之一,因为它具有其他工具没有的特性: 1 1 遵守g n u 的g p l 协议,属自由软件,比起商业软件具有较高的性 价比: 2 ) 功能强大,涵盖了当前几乎所有的挖掘算法; 3 ) 最新版本提供了丰富的可视化操作窗口,极易上手,而且文档丰富; 4 ) 强大的跨平台性,w e k a 用j a v a 编写可以在当前的大多数o s 上 运行; 5 ) 开放源代码,可以充分地研究别人的算法,博采众长: 6 ) 提供了丰富的a _ p i ,有利于二次开发,所以现在有越来越多的p l u g i n 添加进去,使之功能愈来愈强大。 9 a r m i n e f a r m i n e r 【2 1 l 是一个用于挖掘关联规则的自由软件,用j a v a 开发,基于 c s 结构。 西南交通大学硕士研究生学位论文第14 页 2 2 2 数据挖掘工具分类 随着大量数据挖掘工具的面世,也出现了许多不同的分类标准,下面 列举了些广为流传的分类方式: 1 - 根据应用领域的广泛性分类可以分为特定领域的数据挖掘工具和 通用的数据挖掘工具: 特定领域的数据挖掘工具为某个特定领域提供解决方案,在设计 算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何 领域,都可以开发特定的数据挖掘工具,例如,1 b m 公司的 a d v a n c e d s c o u t 系统针对n b a 的数据,帮助教练优化战术组合;加州 理工学院喷气推进实验室与天文科学家合作开发的s c a = r 系统,帮 助天

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论