WEKA中文详细教程_第1页
WEKA中文详细教程_第2页
WEKA中文详细教程_第3页
WEKA中文详细教程_第4页
WEKA中文详细教程_第5页
已阅读5页,还剩295页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/7/9/1,数据挖掘工具- WEKA教程,WEKA介绍。2数据集。11数据准备。24数据预处理36分类63聚类。184关联规则225选择属性244数据可视化253知识流接口275,WEKA介绍。2/1,2020,WEKA的全名是用于知识分析的怀卡托环境。WEKA在新西兰也是一个鸟的名字。这是一个机器学习/数据挖掘开源软件,由新西兰怀卡托大学的韦卡团队用Java开发。2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的WEKA团队获得了数据挖掘和知识探索领域的最高服务奖,WEKA系统被公认为数据挖掘和机器学习历史上的里程碑,是当今最完整的数据挖掘工具之一。WEKA每月

2、被下载超过10,000次。2020/7/9/3,WEKA软件,这是一个综合数据挖掘工具,集成了数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法。具有交互式视觉界面。提供算法学习和比较环境,通过其界面,可以实现自己的数据挖掘算法。WEKA接口,2020/7/9,4、探索环境、命令行环境、知识流环境、算法测试环境、2020/7/9,5、资源管理器环境,2020/7/9,6,输入预处理:选择并修改要处理的数据。分类:训练和测试分类或回归模型。聚类:从数据中聚类。关联:从数据中学习关联规则。选择属性:选择数据中最相关的属性。可视化:查看数据的二维散点图。区域2是一些常用的按钮。包括打开、编

3、辑、保存数据和数据转换等功能。例如,我们可以将文件“bank-data.csv”保存为“bank-data.arff”。在区域3中,您可以选择过滤器来过滤数据或转换数据。数据预处理主要通过它来实现。2020年7月9日,区域4显示了基本信息,如关系名称、属性数和数据集实例数。数据集的所有属性都列在区域5中。检查一些属性并“删除”以删除它们。删除后,您还可以使用区域2中的“撤消”按钮来检索它们。区域5上方的一行按钮用于快速检查。在区域5中选择的当前属性的概要显示在区域6中。摘要包括属性名称、属性类型、缺失值的数量和比例、不同值的数量、唯一值的数量和比例。该图显示了数字属性“收入”的汇总。数字属性显

4、示最小、最大、平均和标准偏差。标称属性显示每个不同值的计数,2020/7/9/8,区域7是区域5中所选属性的直方图。如果数据集的最后一个属性(它是分类或回归任务的默认目标变量)是类标签变量(例如,“pep”),则直方图中的每个矩形将根据该变量的比例分成不同颜色的段。要更改分段的基础,请在区域7上方的下拉框中选择不同的分类属性。在下拉框中选择“无类别”,否则数字属性将变成黑白直方图。2020/7/9、9以及区域8的窗口底部区域,包括状态栏、日志按钮和Weka鸟。状态栏会显示一些信息,让您知道自己在做什么。例如,如果资源管理器正忙于加载文件,状态栏中将会出现一个通知。右键单击状态栏中的任意位置,将

5、出现一个小菜单。该菜单提供两个选项:内存信息-显示WEKA中可用的内存量。运行垃圾收集器-强制运行Java垃圾收集器,搜索不再需要的内存空间并释放它,以便为新任务分配更多内存。日志按钮可以查看weka操作的日志。如果右边的weka鸟正在移动,这意味着WEKA正在执行挖掘任务。2020/7/9,10,知识流环境,2020/7/9,11,2,WEKA数据集,WEKA处理的数据集是一个二维表。arff文件,2020/7/9,12,表中的水平线称为实例,相当于统计数据。垂直线称为属性,相当于统计数据中的变量或数据库中的字段。在WEKA看来,这样的表或数据集表示属性之间的关系。上图中有14个实例和5个属

6、性,关系名为“天气”。WEKA以ARFF(属性关系文件格式)文件存储数据,这是一个ASCII文本文件。上面显示的二维表格存储在以下ARFF文件中。这是WEKA自己的“weather.arff”文件,可以在WEKA安装目录的“data”子目录中找到。关系天气属性展望晴天,阴天,雨天属性温度真实属性湿度真实属性风真实属性假属性播放是,无数据晴天,85,85,假,无晴天,80,90,真,无阴天,83,86,假,有雨天,70,96,假,有雨天,68,80,假,有雨天,65,70,真,无阴天,64,65,真,有晴天,72,95,假,无晴天,69,70,假,是ARFF,可以通过写字板打开和编辑。删除注释后

7、,整个ARFF文件可以分为两部分。的第一部分给出了Head信息,包括关系声明和属性声明。第二部分给出数据信息,即数据集中给出的数据。从“数据”标签开始,数据信息如下。2020/7/9/16,relation declaration,关系名称在ARFF文件的第一个有效行中定义,格式为:relation是一个字符串。如果该字符串包含空格,则必须用引号括起来(英文标点的单引号或双引号)。2020/7/9/17,属性声明,由以“attribute”开头的语句列表表示。数据集中的每个属性都有相应的“attribute”语句来定义其属性名和数据类型):attribute,它必须是以字母开头的字符串。与关系

8、名一样,如果该字符串包含空格,则必须用引号引起来。属性声明语句的顺序很重要,它指示了属性在数据段中的位置。例如,“湿度”是第三个声明的属性,这意味着在数据部分用逗号分隔的列中,数据85 90 86 96.第二列(从第0列开始)是相应的“湿度”值。其次,最后声明的属性称为类属性,它是分类或回归任务中的默认目标变量。2020/7/9/18,数据类型,WEKA支持四种数据类型:数值型、名义型、字符串型、日期和时间型,也可以使用“整数”和“实数”两种类型,但WEKA将其视为“数字”。注意:“整数”、“实数”、“数字”、“日期”和“字符串”区分大小写,而“关系”、“属性”和“数据”不区分大小写。2020

9、/7/9/19,数字属性可以是整数或实数,但WEKA将它们视为实数。例如,属性温度实字符串属性字符串属性可以包含任意文本。示例:属性LCC字符串,2020/7/9,20,标称属性标称属性列出了一系列可能的类别名称,并将它们放在大括号中:数据集中此属性的值只能是类别之一。例如,属性声明:属性展望晴、阴、雨显示有三类“展望”属性:“晴”、“阴”和“雨”。对应于数据集中每个实例的“outlook”值必须是三个值之一。如果类名有空格,仍然需要用引号括起来。2020/7/9/21,日期和时间属性统一用“date”类型表示,其格式为:attribute date,这是一个字符串,用于指定如何解析和显示日期

10、或时间的格式。默认字符串是由ISO-8601给出的日期时间组合格式:“yyyy-mm-DD HH: mm3360 ss”,数据信息部分表示的日期字符串必须满足声明中规定的格式要求。例如,属性时间戳日期yyyy-mm-DD hh :mm 3360 sdata 2011-05-03 12:59336055,2020/7/9/22,数据信息,数据信息中的“数据”标记占据一行,其余是每个实例的数据。每个实例占用一行,实例的属性值用逗号分隔。如果属性值缺少值,请使用问号“?”说,这个问号不能省略。示例:数据sunny,85,85,FALSE,否?78,90?是的,2020/7/9/23,稀疏数据。有时数

11、据集包含大量的0值。此时,以稀疏格式存储数据更节省空间。稀疏格式意味着对于数据信息中对象的表示,ARFF文件的其他部分不需要修改。例如,数据:数据0,X,0,Y,classa0,0,W,0,classb是以稀疏格式表示的数据1 X,3 Y,A 2 W,4 B类。注意:ARFF数据集最左边的属性列是第0列,所以1 X表示X是第一列的属性值。2020/7/9,24,3。ARFF文件数据直接用于数据准备和数据采集。从CSV、C4.5、二进制和其他格式文件导入。通过JDBC从数据库中读取数据。从统一资源定位器获取网络资源数据。数据格式转换ARFF格式是WEKA支持的最好的文件格式。当WEKA用于数据挖

12、掘时,第一个问题是数据不是ARFF格式的。WEKA还提供对CSV文件的支持,这是由许多其他软件(如Excel)支持的。您可以使用WEKA将CSV文件格式转换为ARFF文件格式。2020/7/9/25,数据资源,WEKA自己的数据表程序文件WEKA-3-6数据网络数据资源http:/archive . ics . UCI . edu/ml/dataset . html,2020/7/9,26, XLS.csv.arff,Excel XLS文件可以将多个2D表放在不同的工作表中,并且只将每个工作表保存为不同的csv文件。打开XLS文件,切换到要转换的工作表,将其保存为CSV类型,单击“确定”、“是

13、”,忽略提示完成操作。在WEKA中打开一个CSV文件,并将其保存为ARFF文件。2020/7/9/27,在Excel中打开Iris.xls文件,2020/7/9/28,2020/7/9/29,并将Iris.xls另存为iris.csv文件,2020/7/9/30,2020/7 2020/7/9,33,2020/7/9,34,保存iris。csv为iris。arff文件,2020/7/9,35,2020/7/9,36,4,数据预处理,在WEKA中,数据预处理工具称为过滤器(。“过滤器”列用于为各种过滤器进行必要的设置。选择按钮:点击此按钮选择WEKA中的过滤器。选择过滤器后,其名称和选项将显示在“选择”按钮旁边的文本框中。2020/7/9/37,加载数据,浏览器预处理页面区域2的前四个按钮用于将数据加载到WEKA:打开文件.打开一个对话框,允许您浏览本地文件系统上的数据文件。打开网址.请求存储数据的网址。开放数据库.从数据库中读取数据。产生.从一些数据生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论