数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第1页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第2页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第3页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第4页
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘实验报告班 级 学号 姓 名 课程 数据挖掘实验名称实验一:数据准备实验类型实验目的:(1)掌握利用文本编辑软件生成ARFF文件的方法;(2)掌握将EXCEL表格文件转换为ARFF文件的方法;(3)掌握数据的预处理方法。实验要求:(1)将下列表格中的数据利用文本编辑软件生成ARFF文件:姓名出生日期性别婚否工资职业信用等级黄大伟1970.05.08男3580教师优秀李 明1964.11.03男是4850公务员优秀张明明1975.03.12女是职员优秀覃明勇1981.07.11男是2980职员良好黄燕玲1986.05.08女否2560工人一般表中没有填上的数据为缺失数据。请列出你编辑AR

2、FF文件并在WEKA中打开该文件。(2)将EXCEL表格文件“bankdata.xls”转换为ARFF文件的方法,并将它另存为ARFF文件“bankdata.arff”, 在WEKA中打开该文件,写出操作过程。(3)数值属性的离散化:在WEKA中打开ARFF文件“bankdata.arff”,对属性“age”和“income”分别按等宽分箱和等深分箱进行离散化为三个箱。给出分箱的结果。实验结果:(1) relation book1 attribute 姓名 黄大伟,'李 明',张明明,覃明勇,黄燕玲attribute 出生日期 1970.05.08,1964.11.03,197

3、5.03.12,1981.07.11,1986.05.08attribute 性别 男,女attribute 婚否 是,否attribute 工资 numeric data黄大伟,1970.05.08,男,?,3580李 ',1964.11.03,男,是,4850张明明,1975.03.12,女,是,?覃明勇,1981.07.11,男,是,2980黄燕玲,1986.05.08,女,否,2560(2)先把 bankdata.xls转化为CSV文件格式得到bankdata.csv,再在WEKA中打开,再另存为ARFF格式,就可以得到bankdata.arff。即由转换为,再转换得在WEKA

4、中打开如下:(3)对age按等宽进行离散化分箱如下:对income进行等深离散化分箱如下:实验名称实验二:关联规则挖掘实验类型综合性实验实验目的:(1)掌握WEKA关联规则挖掘中的数据准备方法。(2)掌握WEKA关联规则挖掘中的参数设置方法。(3)掌握关联规则挖掘结果的分析。实验要求:(1)将下列事务数据库转换为二元表格形式(以项目作为属性,在某个事务中,该项目出现则取值为yes,不出现则取值为no。)并生成ARFF文件格式。CustomerCommoditiesC1milk,egg,bread,chipsC2egg,popcorn,chips,beerC3egg,bread,chipsC4m

5、ilk,egg,bread,popcorn,chips,beerC5milk,bread,beerC6egg,bread,beerC7milk,bread,chipsC8milk,egg,bread,butter,chipsC9milk,egg,butter,chips(2)选择关联规则算法并设置相关参数。(3)运行算法,输出频繁项集及强关联规则。(4)从挖掘结果来看,你发现了什么有兴趣的规则?实验结果:(1)Customermilkeggbreadchipspopcornbeerbutterc1yesyesyesyesnononoc2noyesnoyesyesyesnoc3noyesyesy

6、esnononoc4yesyesyesyesyesyesnoc5yesnoyesnonoyesnoc6noyesyesnonoyesnoc7yesnoyesyesnononoc8yesyesyesyesnonoyesc9yesyesnoyesnonoyes将文件保存为“yes-no.csv”, 在WEKA中打开yes.csv文件,然后save为yes-no.arff即生成ARFF文件格式。(2) 打开数据文件:用“Explorer”打开“yes-no.arff”后,切换到“Associate”选项卡。选择算法: 默认关联规则分析是用Apriori算法。点“Choose”按钮在弹出的窗口中可以选

7、择关联规则算法。参数设置:单击“Choose”按钮右边的文本框会弹出参数设置对话框,可以修改默认的参数,弹出的窗口中点“More”可以看到各参数的说明。设置如下图:(3)运行算法单击“Start”按钮开始关联分析,输出频繁项集及强关联规则。(4)我发现本来在我们看来毫无联系的事物,经过分析发现它们有着密切联系。实验名称实验三:分类知识挖掘实验类型综合性实验实验目的:(1)掌握利用决策树(C4.5算法)进行分类的方法。(2)掌握利用朴素贝叶斯分类的方法。实验要求:(1)对数据集bankdata.arff利用决策树(C4.5算法)进行分类,给出得出的决策树及分类器的性能评价指标,并利用建立的分类模型对下列表中给出的实例进行分类。agesexregionincomemarriedchildrencarsave_actcurrent_actmortgagepep21MALETOWN5014.21NO0YESYESYESYES42MALEINNER_CITY17390.1YES0NOYESYESNO59FEMALERURAL35610.5NO2YESNONONO45FEMALETOWN26948NO0NOYESYESYES58FEMALETOWN34524.9YES2YESYESNONO30MA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论