数据挖掘工具的选择、分析、比较与展望_第1页
数据挖掘工具的选择、分析、比较与展望_第2页
数据挖掘工具的选择、分析、比较与展望_第3页
数据挖掘工具的选择、分析、比较与展望_第4页
数据挖掘工具的选择、分析、比较与展望_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘工具的 选择、 分析、比较与展望 高春华 (南京大学计算机科学 与技术系,南京, 210093) 210093) As a of in in we a of so it is us to In to of At it of of It as a to do it M. it of of 要: 数据挖掘作为一项从海量数据中提取知识的信息技术引起了国内外学术界和产业界的广泛关注,它在商业方面的 成功 应用使得软件开发商不断开发新的数据挖掘工具,改进现有的数据挖掘工具,一时之间数据 挖掘工具可谓琳琅满目,于是出现了如何合理选择挖掘工具的问题。鉴此,本文提出并讨论了 几 点关于 理选择数据挖掘工具的技巧。 同时,就现有的几个著名挖掘工具,介绍各自的特点,以及相互的优缺点。然后,选用 种挖掘工具进行实际操作, 并且具体介绍它与 M 之间 的优 缺 点。最后,展望一下,未来数据 挖掘工具的特点与新功能。 关键词 :数据挖掘、 具使用、工具比较、展望 前言: 随着 信息时代的到来,信息利用的重要性日渐突出,因此数据库和计算机网络随之应运而生。如今 数据库和计算机网络 被 广泛应用,加上先进的数据自动生成和采集工具的使用,人们拥有的数据量急剧增大。然而数据的极速增长与数据分析方法的改进并不成正比,一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是 在这种状况下,数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个 以发现为驱动 的过程,已经引起了学术界和产业界的极大重视。特别是从 1989年 8月在美国底特律召开的第 11 届国际人工智能联合会议上首次出现数据库中的知识发现概念以来,数据挖掘在国际国内都受到了前所未有的重视,目前数据挖掘广泛应用于各个领域,如地理学、地质学、生物医学等等,总之数据挖掘的出现 _ 作者简介:高春华 (1988-),男,江苏海门人,大学本科生,主要研究领域为软件工程, 数据库技 术进入了一个更高级的阶段,不仅能对过去的数据进行查询和遍历,还能够找出以往数据间潜在的联系,促进信息的传播。 1. 数据挖掘定义 数据挖掘是一个从数据中提取模式的过程,是一个受多个学科影响的交叉领域 ,包括数据库系统、统计学、机器学习、可视化和信息科学等;数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是一种决策支持过程。通过预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。由于传统的事物型工具(如查询工具、报表工具)无法回答事先未定义的综合性问题或跨部门 /机构的 问题,因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门 /机构的问题,挖掘潜在的模式并预测未来的趋势,用户不必提出确切的问题,而且模糊问题更有利于发现未知的事实。 数据挖掘工具利用各种已知数据分析方法,使分析员和决策者脱离浩如烟海的繁杂的数据,使其更快更有效的得到其所需要的结果。 数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具。 专用数据挖掘工具是针对某个特定领域的问题提供解决方案, 在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。 通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择 。 一般我们见到的数据挖掘工具都是通用型的。 具简介 : 随着 数据信息量的不断增大,数据利用的重要性日益突出, 数据挖掘工具 也随之不断推陈出行,各式各样的工具可谓是琳琅满目。但最常见也最常用的还属那几种,如: 司 究中心开发的 统, 司开发的拿大 美国 美国 立大学开发的统计分析软件 开放源码的数据挖掘 软件 美国 斯坦福 大学研制的 及 各类 数据库厂商集成的挖掘工具 。 这里主要介绍 一款免费的,非商业化的,基于 境下 开源 的 机器学习 ( 及数据挖掘( 件。 为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类, 回归 、 聚类 、 关联规则 以及在新的交互式界面上的可视化。而开发者则可使用 用 一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据 访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。 据访问;数式的支持极其数据仓库设计。是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。 一种通用的数据挖掘工具,按照 抽样 的方法进行数据挖掘。可以与据仓库和 成,实现从提出数据、抓住数据到得到解答的 端到端 知识发现。 一个开放式数据挖掘工具,曾两次获得英国 新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准 可视化数据挖掘使得 思路 分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术 ,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。 而且获得最高的 of 注意,这里说的是 不等同于 出在于统计或数字计算分析功能,而 注于数据挖掘,可以做神经网络、决策树之类的分析,制图 功能更完整。所以, 适用于数据挖掘。前者,只是简单统计分析。 用 这里选用 版本为 为数据挖掘 工具 进行 使用介绍。 界面: 域 1 数据流设计区 : 主要的工作区域,如下图即知。 有向的箭头指明了数据的流向。 如下图的 流 1和 流 2。通过在管理区的 流 栏中点击切换不同的数量流。 流 1: 流 2: 域 2 管理区: 包括 流 、 输出 、 模型 三栏。 流 : 上面已经说过了,是管理数据流的。 输出 : 不要跟工具栏中的输出搞混 (将在下面介绍) ,这里的 输出 是图形、输出这类工具产生的分析结果。 模型: 经过训练的模型会出 现在这一栏中,这就像是真表( 概念那样,训练过的模型可以加入的数据流中用于预测和打分。 域 3 项目区: 顾名思义,是对项目的管理,提供了两种视图。其中 据挖掘跨行业标准流程)是由 姆勒克莱斯勒,汽车公司)、 是那个拥有同提出的。 通过组织 成项目。在项目中可以加入流、节点、输出、模型等 。 域 4 工具栏: 工具栏总包括了 据分析、挖掘模型工具,工具可以加入到数据流设计区中, 类工具 : 数据源、记录选项、字段选项、图形、建模、输出、导出。 每一个项目( 含了一系列相关的节点用于一个数据流( 作的不同阶段,例如: 数据源( 用来将资料读进系统的节点。 记录选项( 用来在资料记录上进行操作的节点,例如选择、合并和增加。 字段选项( 用来在数据域位上进行操作的节点,例如过滤、导出新字段和确定给出字段的数据类型。 图:在建模之前和之后用来可视化资料的节点。图包括点图、直方图、 点和评估图表。 建模:在 统中可用的代表有效建模算法的节点,例如类神经网络、决策树、聚类算法和资料排序。 收藏夹:在工具栏上的收藏夹项目能够被定义成包含使用者对 统的习惯用法。例如,如果使用者经常分析一个数据库中的时间序列资料,就可能想确保数据库来源节点和序列建模节点这两个都可 以从收藏夹 项目中获得。 据源 : 数据源节点包括: 数据库 用于通过 入资料。 变量文件 用于无限制字段的 料。 固定文件 用于固定字段的 料。 件 用于导入 文件。 件用于导入 用于导入 文件 件 用于导入 式的檔。 使用者输入 用于替代已存在的来源节点,也可通过在已存在节点 点击鼠标右键的方式使用该 节点。用户可根据不同格式的数据文件选择相对应的数据源节点。 录选项 记录操作节点用于在记录层次修改资料集。这些操作在资料采矿的资料理解和资料准备阶段很重要。 记录操作选项板包括以下节点: 选择( 抽样( 平衡( 汇总( 排序( 合并( 附加( 区分( 选择节点: 使用者可以使用选择节点根据具体条件从资料流程中选择或排除某一记录子集,如符合 ” 条件 的记录子集。 选择节点也用于选择一定比例的记录,使用者可以使用选择节点来创建自己的条件。例如,使用者可以创建如下条件: 0)2000 在 达式中,可以将多个函数合并起来: *1,行顺序分别为: 函数参数、函数调用、 / + -、 = 选项卡中点击 载数据源,如下图: 跟很多电子表格或数据分析软件一样, 处理的数据集是那一个二维的表格 。 件,这是一种 可以又一般的 事本就可打开。同时, 这种格式是被很多其他软件所支持的。此外, 问数据库的功能。 比 :首先, 一个基于 开源软件,也是开源软件的一个优秀成果,而 从性能上看, 比就稍显逊色了。首先, 视化程度没有。 完全可视化界面,用户友好性高,只要推动、连接几个节点就开完成一系列复杂的挖掘工作。其次, 数据载入格式没有如, 一个 对于 须先要把 载入 为数据源。而对于 要双击一下 件节点即可。从易操作性看,显而易见,可视化程度极高的以,纵观全局, ,当然这可能是因为 商业软件。 作为智能型的数据挖掘集成工具, M 的图形化界面、可视化操作可引导用户(即使是数理统计经验不太多的用户)按 户只要将数据输入,经过 M 运行, 即可得到一些分析结果。有经验的专家还可通过修改数据调整分析处理过程。 务智能及报表工具的无缝集成,它内含完整的数据获取工具、数据取样工具、数据筛选工具、数据变量转换工具、数据挖掘数据库、数据挖掘过程以及数据挖掘评价工具。 M 主界面: 同为商业软件的数据挖掘工具, 且 在 客户数据挖掘工具评估中,仅 这 两家厂商被列为领导者 。其中 得了最高to 分,代表着 市场执行 、推广、认知方面有最佳表现;而 得了最高的 of 明 技术创新方面遥遥领先 ,可谓两者不分伯仲之间。但从细节方面来看, 有 M 支持的数据格式要比 ,比如 M 能支持 了常见的直方图、散点图,更有 3高线 图,而 做不到 。在帮组文档方面, M 的帮助文档非常全面和系统,并且还有各种数据挖掘算法的细 节,而 对各种数据挖掘算法的介绍很少,这不利于分析人员用好数据挖掘工具。 随着当今信息时代数据的爆炸性增长,只是简单人工方式的分析和处理数据已然成为不现实,数据挖掘将成为当今以至未来的主 流,数据挖掘工程师这个职业需求也会越来越多 。通过自动化大规模数据分析技术,数据的收集,数据库存储,数据分析和挖掘,数据挖掘技术正无处不在的发挥其巨大的作用。在科学领域,科学仿真 ,遥感 , 生物信息学;在商业领域,电子商务,股票分析, 索;在社会学方面,人口普查,新闻制作,都蕴含着数据挖掘技术的身影。 但如今数据挖掘仍有很多不足之处: 数据挖掘的 60作量花在数据准备阶段 , 在建模过程也是需要大量的手工劳动的。目前的数据挖掘软件工具中,各算法采用默认的参数设置并不总是最合理的,不能得到最佳的预测模型的,因此对于每个业务新问题,都要重新探索数据的相关性,进行算法参数的重新调整和配置,以得到优化的模型 。 但是,由于现实问题太复杂,已有的原理并不能始终指导模型的调优方向,更多的时候还是依赖大量的数据试验摸索前进,因此建模的过程也是漫长痛苦的。现有 的很多数据挖掘工具并不支持复杂调优过程的自动化。 事实上,数据准备过程(或者归于挖掘建模的数据探索过程)也饱含不确定性,对于究竟应该选用哪些因素(字段)来建立模型,以及因素的粒度应该多大,目前缺乏足够的判断依据,只能按照惯例、业务直觉和猜测来进行确定。 但在未来, 挖掘工具 会 越来越强大,汇合的算法越来越多,预测类算法将吸纳颇具新意的算法(支持向量机、粗糙集、云模型、遗传算法等),并将实现算法的自动选择和参数自动调优。遗传编程( 归纳逻辑编程( 算法的巨大潜力将得到充分发挥。 这个时候,数据挖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论