第7章 常用的数据挖掘软件PPT参考幻灯片_第1页
第7章 常用的数据挖掘软件PPT参考幻灯片_第2页
第7章 常用的数据挖掘软件PPT参考幻灯片_第3页
第7章 常用的数据挖掘软件PPT参考幻灯片_第4页
第7章 常用的数据挖掘软件PPT参考幻灯片_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 做中国领先的科研资源提供商,第七章 常用的数据挖掘软件,总课时:6小时(实验:4小时),大数据处理配套课件,提纲,数据挖掘软件介绍 Weka RapidMiner Knime,数据挖掘软件介绍,Weka:名气最大的机器学习和数据挖掘软件 高级用户可以通过Java编程和命令行来调用其分析组件 为普通用户提供了图形化界面 在Weka论坛有大量的扩展包 很多其它开源数据挖掘软件也支持调用Weka的分析功能,数据挖掘软件介绍,RapidMiner:耶鲁大学的研究成果 免费提供数据挖掘技术和库 数据挖掘过程简单,强大和直观 多层次的数据视图,确保有效和透明的数据 400多个数据挖掘运营商支持 强大的可

2、视化引擎 耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘,数据挖掘软件介绍,Knime:数据流模式的挖掘软件 类似数据流(data flow)的方式来建立分析挖掘流程 用户可选择性地运行一些或全部的分析步骤 用Java开发的,可以扩展使用Weka中的挖掘算法 通过插件的方式,用户可以加入自己的处理模块,并可以集成到其它各种各样的开源项目中,数据挖掘软件介绍,IBM Intelligent Miner:IBM的商业级产品 简单易用 能处理大数据量的挖掘 功能一般,没有数据探索功能 与其他软件接口差,只能用DB2,连接DB2

3、以外的数据库时,如Oracle, SAS, SPSS需要安装DataJoiner作为中间软件,提纲,数据挖掘软件介绍 Weka RapidMiner Knime,Weka简介,WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http:/www.cs.waikato.ac.nz/ml/weka得到。 同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在

4、新的交互式界面上的可视化。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。,9,Weka的数据格式,WEKA所处理的数据集是一个二维的表格,Weka的数据格式,WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。 整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head in

5、formation),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“data”标记开始,后面的就是数据信息了。,Weka的数据格式,关系声明 关系名称在ARFF文件的第一个有效行来定义,格式为 relation 是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。 属性声明 属性声明用一列以“attribute”开头的语句表示。数据集中的每一个属性都有它对应的“attribute”语句,来定义它的属性名称和数据类型。 attribute ,数据准备,使用WEKA作数据挖掘,面临的第一个问题

6、往往是数据不是ARFF格式的。 WEKA还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。 此外,WEKA还提供了通过JDBC访问数据库的功能。,“Explorer”界面,数据属性,例如,bank-data数据各属性的含义如下: id a unique identification number age age of customer in years (numeric) sex MALE / FEMALE region inner_city/rural/suburban/town income income of customer (numeric) married is th

7、e customer married (YES/NO) children number of children (numeric) car does the customer own a car (YES/NO) save_acct does the customer have a saving account (YES/NO) current_acct does the customer have a current account (YES/NO) mortgage does the customer have a mortgage (YES/NO) pep did the custome

8、r buy a PEP (Personal Equity Plan) after the last mailing (YES/NO),数据预处理,有些算法,只能处理所有的属性都是分类型的情况。这时候就需要对数值型的属性进行离散化。 在这个数据集中有3个变量是数值型的,分别是“age”,“income”和“children”。 其中“children”只有4个取值:0,1,2,3。 在UltraEdit中直接修改ARFF文件,把attribute children numeric 改为 attribute children 0,1,2,3,数据预处理,“age”和“income”的离散化需要借助

9、WEKA中名为“Discretize”的Filter来完成 点击“choose”后,出现一颗“Filter树” ,逐级找到“weka.filters.unsupervised.attribute.Discretize”,点击后进行离散化,例如“bins=3”则会将属性分成三段,用Weka进行分类,选择分类器 在 classify 页面的顶部是Classifier 栏。这一栏中有一个文本框,给出了分类器的名称和选项。左键点击文本框会打开一个GenericObjectEditor,可以配置当前的分类器。Choose 按钮用来选择 WEKA 中可用的分类器。,用Weka进行分类,测试选项 应用选定的

10、分类器后得到的结果会根据 Test Option 一栏中的选择来进行测试。共有四种测试模式: Using training set. 根据分类器在用来训练的实例上的预测效果来评价它。 Supplied test set. 从文件载入的一组实例,根据分类器在这组实例上的预测效果来评价它。点击 Set 按钮将打开一个对话框来选择用来测试的文件。 Cross-validation. 使用交叉验证来评价分类器,所用的折数填在Folds 文本框中。 Percentage split. 从数据集中按一定百分比取出部分数据放在一边作测试用,根据分类器这些实例上预测效果来评价它。取出的数据量由% 一栏中的值决

11、定。,用Weka进行分类,Class属性设置 WEKA 中的分类器被设计成经过训练后可以预测一个 class 属性,也就是预测的目 标。默认的,数据集中的最后一个属性被看作 class 属性。如果想训练一个分类器,让它预测一个不同的属性,点击Test options 栏下方的那一栏,会出现一个属性的下拉列表以供选择。,用Weka进行分类,分类器、测试选项和class属性都设置好后,点击Start 按钮就可以开始学习过程。右边的Classifier output 区域会被填充一些文本,描述训练和测试的结果。 输出结果分为几个部分 Run information. 给出了学习算法各选项的一个列表。

12、包括了学习过程中涉及到的关系名称,属性,实例和测试模式。 Classifier model (full training set). 用文本表示的基于整个训练集的分类模型 所选测试模式的结果可以分解为以下几个部分 Summary. 一列统计量,描述了在指定测试模式下,分类器预测 class 属性的准确程度。 Detailed Accuracy By Class. 更详细地给出了关于每一类的预测准确度的描述 Confusion Matrix. 给出了预测结果中每个类的实例数。其中矩阵的行是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数。,用Weka进行分类,结果列表在训练了若干

13、分类器之后,结果列表中也就包含了若干个条目。左键点击这些条目可以在生成的结果之间进行切换浏览。右键点击某个条目则会弹出一个菜单,包括如下的选项:,View in main window. 在主窗口中显示输出该结果. View in separate window. 打开一个独立的新窗口来显示结果。 Save result buffer. 弹出一个对话框,使得输出结果的文本可以保存成一个文本文件。 Load model. 从一个二进制文件中载入以前训练得到的模型对象。 Save model. 把模型对象保存到一个二进制文件中。对象是以 Java“序列化”的形式保存的 Re-evaluate mo

14、del on current test set. 通过 Supplied test set 选项下的 Set 按钮指定一个数据集,已建立的分类模型将在这个数据集上测试它的表现。 Visualize classifier errors. 弹出一个可视化窗口,把分类结果做成一个散点图。其中正确分类的结果用叉表示,分错的结果用方框表示。 Visualize tree or Visualize graph. 如果可能的话,把分类模型的结构用图形来表示(决策树和贝叶斯网络)。 Visualize margin curve. 创建一个散点图来显示预测边际值。这个边际值的定义为:预测为真实值的概率与预测为真

15、实值之外其它某类的最高概率之差。 Visualize threshold curve. 生成一个散点图,以演示预测时改变各类之间的阀值后取得的平衡。 Visualize cost curve. 生成一个散点图。,用Weka进行分类,分类模型生成结果,提纲,数据挖掘软件介绍 Weka RapidMiner Knime,RapidMiner简介,RapidMiner,以前叫YALE (Yet Another Learning Environment) 。 RapidMinder提供的实验由大量的算子组成,而这些算子由详细的XML文件记录,并被图形化的用户接口表现出来。 RapidMiner是世界领

16、先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。 下载地址:http:/rapid-,RapidMiner操作界面,各类算子和库,主流程设计区,错误提示区,参数设置区,RapidMiner的功能,RapidMiner中的功能均是通过连接各类算子(operator)形成流程(process)来实现的,整个流程可以看做是工厂车间的生产线,输入原始数据,输出模型结果。算子可以看做是执行某种具体功能的函数,不同算子有不同的输入输出特性。 大体上有这样几类算子: 流程控制类,是为了实现循环和条件功能。 数据输入和输出类

17、,是为了实现数据交换。 数据转换类,包括各种数据抽取、清洗整理功能; 建模类,包括分类回归建模,关联分析、聚类分析、集成学习等功能。 评估类,包括多重交叉检验,自助法检验等功能,RapidMiner建模流程,新建一个库(Repository) 选择需要的算子(operator)放入主流程(main process)中 设置算子相关参数 (parameter) 进行算子连接 执行流程以得到结果,用RapidMiner进行关联规则挖掘,回顾一下关联规则挖掘中最经典的例子啤酒与尿布的关联。沃尔玛通过对原始交易数据的分析,发现跟尿布一起购买最多的商品竟是啤酒!调查显示,美国的太太们常叮嘱她们的丈夫下班

18、后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。对于隐藏在啤酒和尿布这类表面上风马牛不相及的商品背后的关联,如果不通过数据挖掘的技术,是没有办法靠拍脑袋的办法想出来的。,用RapidMiner进行关联规则挖掘,例如对软件自带的Transactions数据进行关联规则挖掘 Transactions数据记录了一组人的经济统计数据,我们试图发现一个人是否富有和他的车房特征间的关联,数据表字段解释: CAR:是否有车 Appartement:是否住宿舍公寓 Villa:是否住别墅 Poor:是否是穷人 Average:是否是中产阶级 Rich:是否是富人,用RapidMiner进行关联规

19、则挖掘,导入原始数据 在左侧的Repository Access下面找到Retrieve组件,将其拖到Process区,选中Retrieve结点,在右侧的repository entry处,单击目录图标,选择Transactions数据表后点击OK,用RapidMiner进行关联规则挖掘,对原始数据进行二值化 在左侧的Data Transformation下面找到Nominal to Binominal组件,将其拖到Process区,并连接到Retrieve结点后面,用RapidMiner进行关联规则挖掘,按属性过滤 在左侧的Data Transformation下面找到Select Attr

20、ibutes组件,将其拖到Process区,并连接到Nominal to Binominal结点后面,然后在右侧选择过滤类型为“regular_expression”,regular expression处填写“.*true.*”,用RapidMiner进行关联规则挖掘,生成频繁子项,为关联规则生成做准备 在左侧的Modeling下面找到FP-Growth组件,将其拖到Process区,并连接到Select Attributes结点后面,用RapidMiner进行关联规则挖掘,生成关联规则 在左侧的Modeling下面找到Create Association Rules组件,将其拖到Proce

21、ss区,并连接到FP-Growth结点后面,用RapidMiner进行关联规则挖掘,运行工程得到关联规则挖掘结果,如果某人住别墅,可以推断出他有车,如果某人贫穷,可以推断出他在住宿舍或公寓,提纲,数据挖掘软件介绍 Weka RapidMiner Knime,Knime简介,KNIME是基于Eclipse环境的开源商业智能工具。 KNIME是通过工作流来控制数据的集成、清洗、转换、过滤,再到统计、数据挖掘,最后是数据的可视化。整个开发都在可视化的环境下进行,通过简单的拖曳和设置就可以完成一个流程的开发。 KNIME的全称是The Konstanz Information Miner。它的设计目的

22、是用于教学、研究以及协同工作的平台。,Knime界面,Knime架构特点,在KNIME中,数据分析流程由一系列结点及连接结点的边组成。待处理的数据或模型在结点之间进行传递。每个结点都有一个或多个输入端和输出端。数据或模型从结点的输入端进入经结点处理后从结点的输出端输出。,Knime结点的状态,结点上有三盏灯,就像红黄绿交通灯一样。当结点刚被拖入工作区的时候,红灯亮起表示数据无法通过,这时需要对结点进行配置,让它可以执行。右键单击结点选择“Configure”对结点进行配置;配置完成并且正确的话,便会亮起黄灯,表示准备就绪数据可以通过;再次右键单击结点选择“Execute”运行这个结点,当绿灯亮起时表示结点执行成功,数据已经通过并传给下一个结点。,Knime结点的分类,IO类结点,用于文件、表格、数据模型的输入和输出操作; 数据库操作类结点,通过JDBC驱动对数据库进行操作; 数据操作类结点,对上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论