




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖据的工具数据挖掘工具的市场一般分为三个组成部分:通用型工具、综合DSSOLAP数据挖掘工具和快速发展的面向特定应用的工具。通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和BusinessObjects等。 面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的OptionChoices和针对欺诈行为探查开发的HNC软件。下面简单介绍几种常用的数据挖掘工具: 1.MineSet MineSet 是由SGI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点:1、MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果, 以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二维表,Statistics Visualize 是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。2、提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。3、支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据,也可以通过SQL 命令执行查询。4、多种数据转换功能。在进行挖掘前,MineSet 可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。5、操作简单。6、支持国际字符。7、可以直接发布到Web。2、IBM Intelligent MinerIBM公司以它在美国及世界各地的研究实验室发展数年的资料探勘解决方案,发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件。IBM的Intelligent Miner在资料探勘工具的领导地位上是极具竞争力的,因为它提供了以下的好处: 包含了最广泛的资料探勘技术及算法 ,可容纳相当大的资料量的能力且有强大的计算能力;事实上,这套产品在IBM SP的大量平行硬件系统上执行效率最好,这套产品也可以在IBM或非IBM平台上执行 丰富的APIs可用来发展自定的资料探勘应用软件; 所有资料探勘引擎和资料操作函式可以透过C+函式库来存取 Intelligent Miner支持classification、prediction、association rules generation、clustering、sequential pattern detection和time series analysis算法,Intelligent Miner藉由利用精密的资料可视化技术及强大的Java-based使用者接口来增加它的可用性(目标大多锁定在有经验的使用者),Intelligent Miner支持DB2关系型数据库管理系统,并整合大量精密的资料操作函式结论整体而言,Intelligent Miner(for Data)是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,有所算法的效能甚至比其它应用不同的应用软件还要好,IBM将它定位在企业资料探勘解决方案的先锋。 3、SAS Enterprise MinerSAS Enterprise Miner在资料探勘工具市场是非常杰出的工具,它运用了SAS统计模块的力量和影响力,且它增加了一系列的资料探勘算法,SAS使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式,包含合并、丛集、决策树、类神精网络、和统计回归 SASEnterpriseMiner适用于初学者及专业使用者,它的GUI接口是以资料流为导向,且它容易了解及使用,它允计分析师藉由使用连结连接资料节点及程序节点的方式建构一视觉数据流程图,除此之外,接口还允许程序码直接嵌入资料流因为支持多重模式。Enterprise Miner允许使用者比较models和利用评估节点所选择之最适模式,除此之外,Enterprise Miner提供产生评定模式之评定节点能够存取任何SAS应用软件结论SAS利用它在统计分析软件上的专业来发展全功能、易于使用、可靠且可管理的系统,有大范围的模式选项和算法、设计良好的使用者接口、利用已存在的资料储存能力,和在统计分析上相当大的市场占有率(允许公司取得SAS新增的组件比增加一套新的工作来得好多了),对SAS来说,它在资料探勘市场上终究还是领导者整体而言,这个工具适用于企业在资料探勘的发展及整个CRM的决策支持应用.4、Oracle DarwinDarwin常被认为是最早资料探勘工具之一,可见它的知名度,最近,Oracle从Thinking Machines公司取得Darwin来加强它的产品系列?S别是CRM方面,资料探勘可以扮演一个重要的角色,以下将讨论由Thinking Machines公司发展和行销的Darwin之特色(Oracle也许决定改变任何组件及工具架构) Darwin资料探勘工具组是一个复杂的产品,包含了三个资料探勘工具:neural networks、decision tree、和K-nearest neighbor,Darwin neural network tool (Darwin-Net)提供广泛的model建立工具组,它可以处理明确和连续预测因素和目标变量且可以用于分类、预测及预测问题决策树工具(DarwinTree)使用CART算法,且可以用于以明确和连续变量来分类问题解决,K-nearest neighbor工具(DarwinMatch)可用于以明确相依变量,和明确且连续预测变量来分类问题解决虽然每个组件工具有一些缺点,Darwin包含了模式评价的完全功能组,它可对所有模式型态产生summary statistics、confusion matrices、lift tablesDarwin提供初学者及专家相当好的使用者接口,虽然接口显得较适合专业使用者从一个大量并行计算机的第一制造者可知,Darwin在处理效能及范围有强大的优势,它的算法对并行计算是最适合的,且有足够的弹性执行平行及循序架构,Oracle当然不会忽视这种能力,且它定位在帮助Oracle成为可以包含到一个大型的全球企业的数据库及应用产品的首要厂商主要使用的算法为neural network、decision tree、和K-nearest neighborneural network-training algorithms包含back propagation,steepest descent,modified Newton等方法decision tree使用CART algorithms可选择所需的子树数目自动的修改决策树K-nearest neighbor algorithm是memory-based reasoning(MBR)技术,它可依训练组中K最接近的匹配记录来预测相依变量值结论Darwin的优点是支持多重算法(计画加入基因算法及人工智能逻辑)它可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,在多处理器服务器上,Darwin可以取得硬件及大范围能力的优势,Darwin证明了强大的效能及大范围的能力,整体而言,Darwin定位在中、大范围的执行.5、Thought and Scenario(Cognos)Cognos介绍两个资料探勘工具的组合:4Thought和Scenario来巩固它在OLAP市场的位置,这些工具藉由利用neural networks和CHAID技术提供资料探勘能力,一般而言,Cognos所有平台和特殊用途的窗口环境都支持这些工具,这两个工具都需要电子表格、数据库和ASCII文字文件作为资料来源 4Thought可以处理在寻求价格最佳化、需求预测及效能预测及衡量等各种商业问题,4Thought使用multilayer perceptron OLAP、neural network技术,适用于分析问题,处理non-linear forms、noisy datal及small data sets,4Thought提供了两个主要的分析:time series analysis及customer profiling,time series analysis寻找周期性的行为趋势,而customer profiling处理人口统计资料,例如,预测一顾客是否会购买一特定的产品Scenario是设计用来分类及结合问题;它可以找出一资料组中变量间的关系,Scenario使用Chi-squared Automatic Interaction Detection(CHAID),且可以产生多种对预测变量划分的方法,Scenario提供不同的分析策略、自动取样及决策树的产生,然而,Scenario并不是用来处理分类的目标变量,Scenario在资料探测及可视化是十分强大的Scenario及4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《计算机应用基础教程1》课件第9章
- 沙坪坝商场格栅施工方案
- 光学元件课件模板
- 数控车床编程与加工 课件 2.2FANUC 0i Mate-TD系统数控车床基本操作
- 光合作用课件高中
- 2025版民房屋租赁合同附社区文化活动场地租赁服务
- 二零二五年度能源机械租赁合同
- 2025版房地产营销顾问全渠道合作协议
- 二零二五年度光伏发电站电气安装劳务分包合同范本
- 护士预防接种证培训课件
- 电梯转让协议书范本
- 牛仔裤廓形趋势报告
- 年产2000吨电子级超高纯石英晶体材料制造项目环评报告表
- 2025年秋季开学第一次全体教师大会上校长讲话-:想为、敢为、勤为、善为
- 2025年圣经神学考试试题及答案
- 2025年e答网护士三基考试试题及答案
- 2025年佳木斯市郊区招聘公益性岗位人员(37人)笔试备考试题附答案详解(基础题)
- 基孔肯雅热医院感染防控
- 2025至2030年中国脚踏板总成市场现状分析及前景预测报告
- 船舶吊臂维修方案(3篇)
- 信息平台造价管理办法
评论
0/150
提交评论