网络信息挖掘系统评价初探(一)_第1页
网络信息挖掘系统评价初探(一)_第2页
网络信息挖掘系统评价初探(一)_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络信息挖掘系统评价初探 (一 )【正文】随着电子商务的蓬勃兴起, 许多企业已经开始意识到其所拥有的丰富的信息资源在商业决策 中具有潜在的巨大商业价值。 更好的决策支持需求和企业电子商务的开展正推动着网络信息 挖掘系统的研究与开发。鉴于网络信息挖掘是在数据挖掘的根底上开展起来的, 因此对于网络信息挖掘系统的根本问 题,本文仍将利用数据挖掘系统的根本理论来描述。目前,由于网络信息挖掘系统的开展正在起步阶段, 因此它的分类还无法到达数据挖掘系统 分类那样细致。 具体而言,对网络信息挖掘系统分类可以从商业能力、 挖掘数据类型、 挖掘 功能、数据分析方法和应用领域角度进行。 其中商业能力角度的分类与数

2、据挖掘系统的商业 能力分类完全相同, 即分为商业产品和研究原型。 而从另外几个角度看, 网络信息挖掘系统 的类型具有自身一些特点, 例如从应用领域角度看, 网络信息挖掘系统可以分为面向电子商 务型、 面向远程教育型、 面向旅游型、面向广告业型等。 随着网络信息挖掘技术的进一步发 展,将出现更加丰富的网络信息挖掘系统类型。1 系统评价现状调查据调查, 目前国内外还没有出现完全针对网络信息挖掘系统的评价成果, 因而对网络信息挖 掘系统的评价具有一定的创新性。 笔者认为, 对网络信息挖掘系统的评价可以充分地借鉴数 据挖掘系统的评价方法。应该说这两类系统在很多评价指标上都有重合。从国外来讲, 1998

3、 年前后已经有一些研究人员和机构对数据挖掘系统进行了一定的评价研 究。他们所采用的评价体系各有特点,以下是一些简要介绍。1) 等人主要对17种数据挖掘系统进行了评价1,其中包括了著名的 Clementine、IntelligentMiner系统。这些系统具有以下共同的特点:单平台(StandAlone)、多用途、支持多种模式和分类算法, 并支持模式构建中的工程阶段。 他们主要从 6 大方面对这些系统进行 比拟, 除此之外, 他们还单独从用户端角度对数据挖掘系统性能进行评价。他们认为并非支持的算法越多越好, 各种算法面对不同的问题其解决能力也是不同的, 它们具有自身的优点 与缺点。在文章的最后,

4、还对这 17种产品的优势 /劣势作了总体的描述性评价。2 )M.A. Ki ng等人针对14种桌面型数据挖掘系统 2,重点对各个系统的特征和性能进行比拟。 他们选用了 20 个评价指标,并设计了一个标准的评价过程6 分制评分标准来评价各种软件工具的优点和缺点。 他们评价的特色在于针对 4种算法的产品分别评价, 并采用 4类数 据集测试系统的性能。 他们认为网络法 ( PolynomialandNeural )要比分割法 ( TreesandRules) 更精确, 另外也提出可以参加计算机环境、 数据库连接性、 提供商的稳定性等指标进一步评 价。3) 等人主要针对高端型(High-end)用于欺

5、诈甄别的数据挖掘系统进行了评价3) 。尽管仅选择了 5 个系统(Clementine、IntelligentMineforMata、Darwin、En-terpriseMiner、PatternRecognitionWorkbench )进行评价,但是他们针对这 5 个专门应用于欺诈甄别的系统 进行了细致的比拟。4) M.Goebel等人将数据库中知识发现(KDD)与数据挖掘结合到一起评价 4。他们在介绍 一般知识发现任务以及解决这些任务的方法根底上,主要调查了43种提供这类功能的软件 工具。这些工具既包括研究的原型系统,也包括已经商业化的产品。其中有较为著名的Clementine 、DBMi

6、ner、IntelligentMiner 系统。他们采用了一个系统特征分类体系对上述产 品进行比拟,并提出一些尚待解决的问题:如不同技术的集成、可扩展性、与数据库的无缝集成、对正在变化中的数据进行管理以及非标准的数据类型等问题。5) J.Hah博士没有针对个别的数据挖掘系统具体评价,但他认为评价一个数据挖掘系统应包 括如下几个方面 5:数据类型、系统问题、数据源、数据控制的功能与方法、数据挖掘系 统和数据库或数据仓库系统的结合、 可伸缩性、 可视化工具、 数据挖掘查询语言和图形用户 接口。6A.Berson 等认为数据挖掘软件产品因为不同的目标用户和不同类型的解决问题而具有不 同的重点 6 。

7、主要可以分为目标解决方案、 商业工具、 商业分析工具、 研究分析工具 4 类。 另外,从目前整个数据挖掘市场看也可以分成 3 个主要组成局部:通用的工具、综合DSS/OLAP数据挖掘工具和快速成长的面向特定应用的工具。他们还进一步提供了一套专门 用于数据挖掘工具评价的属性和方法, 对11 种具体的工具进行了评价, 其中包括 Clementine 、 IntelligentMiner 等著名的工具。从国内来看, 数据挖掘系统的评价研究不如国外活泼, 这与数据挖掘系统在国内的应用仍处 于初步阶段有直接关系。目前这方面的研究状况如下。朱爱群提出了一种高级记分卡系统7,采用该记分系统有助于商业用户更好

8、地比拟不同的数据挖掘技术, 并以此作出正确的选择。 该系统共有 3 种不同的记分卡: 商业记分卡、 算法 记分卡、应用记分卡。从上述文献的调查看,国内外数据挖掘系统评价普遍具有的特点是:1 重视系统算法能力的评价。在7 个调查对象中,其中 6个都明确采用了算法评价指标, 特别是、朱爱群等人,对算法指标的分析尤为细致。2 突出或者具有从商业能力角度的评价。朱爱群和 A.Berson 都明确提出采用商业能力指标, 而其他研究者提供的从用户端角度对系统易用性的评价实际上可以作为系统商业能力评价 的一局部。3缺少对数据挖掘流程的评价。数据准备、数据预处理、数据建模、模型评估、模型应用 等一系列步骤是几

9、乎每个数据挖掘系统所必须经历的, 往往各种系统在每个阶段表现的能力 各有不同,因此有必要对过程中的每个阶段进行评价。4缺少从应用能力角度的评价。从所有的调查对象中看,仅有国内的一个评价提到了应用 评价,而且其具体的指标并不是直接针对如保险业、零售业、电子商务等实际应用领域的。 由此可见,本文所要进行的网络信息挖掘系统的评价应当积极吸取已有数据挖掘系统评价的 优点,同时结合网络信息挖掘的特点来弥补评价中的缺乏。2 评价系统的选择由于目前许多数据挖掘系统也同时提供网络信息挖掘功能, 因此本文所要评价的网络信息挖 掘系统,一方面从一些著名的数据挖掘系统中选择,一方面将参考KD-nuggets 上有关

10、网络信息挖掘软件的最新统计报道。从文献调查看 8 , Intellige ntMi ner、En terpriseMi ner、Min eSet、Cleme nti ne、Darwin、Sce nario 等被超过 50% 的团 体或个人选用作为数据挖掘评价系统。从KDNuggets2001对数据挖掘工具利用情况的调查看,位于前5位的工具依次为:Clementine18%、 SPSS/An-swerTree16%、 SAS12%、 CART/MARS 1 1 %、 SASEM6%。 通过进一步调查 KDnuggets关于网络信息挖掘的报道 9,可以发现它所提供的 19种网络信 息挖掘软件工具是目前这个领域比拟全面和权威的。因此,本文决定对这19种网络信息挖掘软件工具展开调查见表 1 。表 1 商业能力评价产品成熟度和提供商实力附图注:采用 7分制评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论