常用的数据挖掘软件专题培训课件

上传人：工*** IP属地：北京上传时间：2026-03-07 格式：PPT 页数：48 大小：1.81MB 积分：12.99 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

常用的数据挖掘软件提纲数据挖掘软件介绍WekaRapidMinerKnime数据挖掘软件介绍Weka：名气最大的机器学习和数据挖掘软件高级用户可以通过Java编程和命令行来调用其分析组件为普通用户提供了图形化界面在Weka论坛有大量的扩展包很多其它开源数据挖掘软件也支持调用Weka的分析功能数据挖掘软件介绍RapidMiner：耶鲁大学的研究成果免费提供数据挖掘技术和库数据挖掘过程简单，强大和直观多层次的数据视图，确保有效和透明的数据400多个数据挖掘运营商支持强大的可视化引擎耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘数据挖掘软件介绍Knime：数据流模式的挖掘软件类似数据流（dataflow）的方式来建立分析挖掘流程用户可选择性地运行一些或全部的分析步骤用Java开发的，可以扩展使用Weka中的挖掘算法通过插件的方式，用户可以加入自己的处理模块，并可以集成到其它各种各样的开源项目中数据挖掘软件介绍IBMIntelligentMiner：IBM的商业级产品简单易用能处理大数据量的挖掘功能一般，没有数据探索功能与其他软件接口差，只能用DB2，连接DB2以外的数据库时，如Oracle,SAS,SPSS需要安装DataJoiner作为中间软件提纲数据挖掘软件介绍WekaRapidMinerKnimeWeka简介WEKA的全名是怀卡托智能分析环境（WaikatoEnvironmentforKnowledgeAnalysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。2005年8月，在第11届ACMSIGKDD国际会议上，怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖，Weka系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一（已有11年的发展历史）。Weka的每月下载次数已超过万次。Weka的数据格式WEKA所处理的数据集是一个二维的表格Weka的数据格式WEKA存储数据的格式是ARFF（Attribute-RelationFileFormat）文件，这是一种ASCII文本文件。整个ARFF文件可以分为两个部分。第一部分给出了头信息（Headinformation），包括了对关系的声明和对属性的声明。第二部分给出了数据信息（Datainformation），即数据集中给出的数据。从“@data”标记开始，后面的就是数据信息了。Code:%ARFFfilefortheweatherdatawithsomenumricfeatures

@relationweather

@attributeoutlook{sunny,overcast,rainy}

@attributetemperaturereal

@attributehumidityreal

@attributewindy{TRUE,FALSE}

@attributeplay{yes,no}

@data

%14instances

sunny,85,85,FALSE,no

sunny,80,90,TRUE,no

overcast,83,86,FALSE,yes

rainy,70,96,FALSE,yes

rainy,68,80,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,72,95,FALSE,no

sunny,69,70,FALSE,yes

rainy,75,80,FALSE,yes

sunny,75,70,TRUE,yes

overcast,72,90,TRUE,yes

overcast,81,75,FALSE,yes

rainy,71,91,TRUE,noWeka的数据格式关系声明

关系名称在ARFF文件的第一个有效行来定义，格式为

@relation<relation-name>

<relation-name>是一个字符串。如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。属性声明属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对应的“@attribute”语句，来定义它的属性名称和数据类型。

@attribute<attribute-name><datatype>数据准备使用WEKA作数据挖掘，面临的第一个问题往往是数据不是ARFF格式的。WEKA还提供了对CSV文件的支持，而这种格式是被很多其他软件所支持的。此外，WEKA还提供了通过JDBC访问数据库的功能。

“Explorer”界面数据属性例如，bank-data数据各属性的含义如下：

idauniqueidentificationnumber

ageageofcustomerinyears(numeric)

sexMALE/FEMALE

regioninner_city/rural/suburban/town

incomeincomeofcustomer(numeric)

marriedisthecustomermarried(YES/NO)

childrennumberofchildren(numeric)

cardoesthecustomerownacar(YES/NO)

save_acctdoesthecustomerhaveasavingaccount(YES/NO)

current_acctdoesthecustomerhaveacurrentaccount(YES/NO)

mortgagedoesthecustomerhaveamortgage(YES/NO)

pepdidthecustomerbuyaPEP(PersonalEquityPlan)afterthelastmailing(YES/NO)数据预处理有些算法，只能处理所有的属性都是分类型的情况。这时候就需要对数值型的属性进行离散化。在这个数据集中有3个变量是数值型的，分别是“age”，“income”和“children”。

其中“children”只有4个取值：0，1，2，3。在UltraEdit中直接修改ARFF文件，把

@attributechildrennumeric

改为

@attributechildren{0,1,2,3}数据预处理“age”和“income”的离散化需要借助WEKA中名为“Discretize”的Filter来完成点击“choose”后，出现一颗“Filter树”，逐级找到“weka.filters.unsupervised.attribute.Discretize”，点击后进行离散化，例如“bins=3”则会将属性分成三段

用Weka进行分类选择分类器在classify页面的顶部是Classifier栏。这一栏中有一个文本框，给出了分类器的名称和选项。左键点击文本框会打开一个GenericObjectEditor，可以配置当前的分类器。Choose按钮用来选择WEKA中可用的分类器。用Weka进行分类用Weka进行分类用Weka进行分类分类器、测试选项和class属性都设置好后，点击Start按钮就可以开始学习过程。右边的Classifieroutput区域会被填充一些文本，描述训练和测试的结果。输出结果分为几个部分Runinformation.给出了学习算法各选项的一个列表。包括了学习过程中涉及到的关系名称，属性，实例和测试模式。Classifiermodel(fulltrainingset).用文本表示的基于整个训练集的分类模型

所选测试模式的结果可以分解为以下几个部分Summary.一列统计量，描述了在指定测试模式下，分类器预测class属性的准确程度。DetailedAccuracyByClass.更详细地给出了关于每一类的预测准确度的描述ConfusionMatrix.给出了预测结果中每个类的实例数。其中矩阵的行是实际的类，矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个数。用Weka进行分类结果列表在训练了若干分类器之后，结果列表中也就包含了若干个条目。左键点击这些条目可以在生成的结果之间进行切换浏览。右键点击某个条目则会弹出一个菜单，包括如下的选项：用Weka进行分类分类模型生成结果提纲数据挖掘软件介绍WekaRapidMinerKnimeRapidMiner简介RapidMiner，以前叫YALE(YetAnotherLearningEnvironment)。RapidMinder提供的实验由大量的算子组成，而这些算子由详细的XML文件记录，并被图形化的用户接口表现出来。RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。下载地址：/content/view/26/201/RapidMiner操作界面各类算子和库主流程设计区错误提示区参数设置区RapidMiner的功能RapidMiner中的功能均是通过连接各类算子（operator）形成流程(process)来实现的，整个流程可以看做是工厂车间的生产线，输入原始数据，输出模型结果。算子可以看做是执行某种具体功能的函数，不同算子有不同的输入输出特性。大体上有这样几类算子：流程控制类，是为了实现循环和条件功能。数据输入和输出类，是为了实现数据交换。数据转换类，包括各种数据抽取、清洗整理功能；建模类，包括分类回归建模，关联分析、聚类分析、集成学习等功能。评估类，包括多重交叉检验，自助法检验等功能RapidMiner建模流程新建一个库（Repository）选择需要的算子（operator）放入主流程(mainprocess)中设置算子相关参数(parameter)进行算子连接执行流程以得到结果用RapidMiner进行关联规则挖掘回顾一下关联规则挖掘中最经典的例子——啤酒与尿布的关联。沃尔玛通过对原始交易数据的分析，发现跟尿布一起购买最多的商品竟是啤酒！调查显示，美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。对于隐藏在啤酒和尿布这类表面上风马牛不相及的商品背后的关联，如果不通过数据挖掘的技术，是没有办法靠拍脑袋的办法想出来的。用RapidMiner进行关联规则挖掘例如对软件自带的Transactions数据进行关联规则挖掘Transactions数据记录了一组人的经济统计数据，我们试图发现一个人是否富有和他的车房特征间的关联数据表字段解释：CAR：是否有车Appartement：是否住宿舍公寓Villa：是否住别墅Poor：是否是穷人Average：是否是中产阶级Rich：是否是富人用RapidMiner进行关联规则挖掘导入原始数据在左侧的RepositoryAccess下面找到Retrieve组件，将其拖到Process区，选中Retrieve结点，在右侧的repositoryentry处，单击目录图标，选择Transactions数据表后点击OK用RapidMiner进行关联规则挖掘对原始数据进行二值化在左侧的DataTransformation下面找到NominaltoBinominal组件，将其拖到Process区，并连接到Retrieve结点后面用RapidMiner进行关联规则挖掘按属性过滤在左侧的DataTransformation下面找到SelectAttributes组件，将其拖到Process区，并连接到NominaltoBinominal结点后面，然后在右侧选择过滤类型为“regular_expression”，regularexpression处填写“.*true.*”用RapidMiner进行关联规则挖掘生成频繁子项，为关联规则生成做准备在左侧的Modeling下面找到FP-Growth组件，将其拖到Process区，并连接到SelectAttributes结点后面用RapidMiner进行关联规则挖掘生成关联规则在左侧的Modeling下面找到CreateAssociationRules组件，将其拖到Process区，并连接到FP-Growth结点后面用RapidMiner进行关联规则挖掘运行工程得到关联规则挖掘结果如果某人住别墅，可以推断出他有车如果某人贫穷，可以推断出他在住宿舍或公寓提纲数据挖掘软件介绍WekaRapidMinerKnimeKnime简介KNIME是基于Eclipse环境的开源商业智能工具。KNIME是通过工作流来控制数据的集成、清洗、转换、过滤，再到统计、数据挖掘，最后是数据的可视化。整个开发都在可视化的环境下进行，通过简单的拖曳和设置就可以完成一个流程的开发。KNIME的全称是TheKonstanzInformationMiner。它的设计目的是用于教学、研究以及协同工作的平台。

Knime界面Knime架构特点在KNIME中，数据分析流程由一系列结点及连接结点的边组成。待处理的数据或模型在结点之间进行传递。每个结点都有一个或多个输入端和输出端。数据或模型从结点的输入端进入经结点处理后从结点的输出端输出。Knime结点的状态结点上有三盏灯，就像红黄绿交通灯一样。当结点刚被拖入工作区的时候，红灯亮起表示数据无法通过，这时需要对结点进行配置，让它可以执行。右键单击结点选择“Configure”对结点进行配置；配置完成并且正确的话，便会亮起黄灯，表示准备就绪数据可以通过；再次右键单击结点选择“Execute”运行这个结点，当绿灯亮起时表示结点执行成功，数据已经通过并传给下一个结点。Knime结点的分类IO类结点，用于文件、表格、数据模型的输入和输出操作；数据库操作类结点，通过JDBC驱动对数据库进行操作；

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

常用的数据挖掘软件专题培训课件

文档简介

温馨提示

最新文档

评论

常用的数据挖掘软件专题培训课件

文档简介

温馨提示

最新文档

评论

相关文档