版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘实验报告班 级 学号 姓 名 课程 数据挖掘实验名称实验一:数据准备实验类型实验目的:(1)掌握利用文本编辑软件生成ARFF文件的方法;(2)掌握将EXCEL表格文件转换为ARFF文件的方法;(3)掌握数据的预处理方法。实验要求:(1)将下列表格中的数据利用文本编辑软件生成ARFF文件:姓名出生日期性别婚否工资职业信用等级黄大伟1970.05.08男3580教师优秀李 明1964.11.03男是4850公务员优秀张明明1975.03.12女是职员优秀覃明勇1981.07.11男是2980职员良好黄燕玲1986.05.08女否2560工人一般表中没有填上的数据为缺失数据。请列出你编辑AR
2、FF文件并在WEKA中打开该文件。(2)将EXCEL表格文件“bankdata.xls”转换为ARFF文件的方法,并将它另存为ARFF文件“bankdata.arff”, 在WEKA中打开该文件,写出操作过程。(3)数值属性的离散化:在WEKA中打开ARFF文件“bankdata.arff”,对属性“age”和“income”分别按等宽分箱和等深分箱进行离散化为三个箱。给出分箱的结果。实验结果:(1) relation book1 attribute 姓名 黄大伟,'李 明',张明明,覃明勇,黄燕玲attribute 出生日期 1970.05.08,1964.11.03,197
3、5.03.12,1981.07.11,1986.05.08attribute 性别 男,女attribute 婚否 是,否attribute 工资 numeric data黄大伟,1970.05.08,男,?,3580李 ',1964.11.03,男,是,4850张明明,1975.03.12,女,是,?覃明勇,1981.07.11,男,是,2980黄燕玲,1986.05.08,女,否,2560(2)先把 bankdata.xls转化为CSV文件格式得到bankdata.csv,再在WEKA中打开,再另存为ARFF格式,就可以得到bankdata.arff。即由转换为,再转换得在WEKA
4、中打开如下:(3)对age按等宽进行离散化分箱如下:对income进行等深离散化分箱如下:实验名称实验二:关联规则挖掘实验类型综合性实验实验目的:(1)掌握WEKA关联规则挖掘中的数据准备方法。(2)掌握WEKA关联规则挖掘中的参数设置方法。(3)掌握关联规则挖掘结果的分析。实验要求:(1)将下列事务数据库转换为二元表格形式(以项目作为属性,在某个事务中,该项目出现则取值为yes,不出现则取值为no。)并生成ARFF文件格式。CustomerCommoditiesC1milk,egg,bread,chipsC2egg,popcorn,chips,beerC3egg,bread,chipsC4m
5、ilk,egg,bread,popcorn,chips,beerC5milk,bread,beerC6egg,bread,beerC7milk,bread,chipsC8milk,egg,bread,butter,chipsC9milk,egg,butter,chips(2)选择关联规则算法并设置相关参数。(3)运行算法,输出频繁项集及强关联规则。(4)从挖掘结果来看,你发现了什么有兴趣的规则?实验结果:(1)Customermilkeggbreadchipspopcornbeerbutterc1yesyesyesyesnononoc2noyesnoyesyesyesnoc3noyesyesy
6、esnononoc4yesyesyesyesyesyesnoc5yesnoyesnonoyesnoc6noyesyesnonoyesnoc7yesnoyesyesnononoc8yesyesyesyesnonoyesc9yesyesnoyesnonoyes将文件保存为“yes-no.csv”, 在WEKA中打开yes.csv文件,然后save为yes-no.arff即生成ARFF文件格式。(2) 打开数据文件:用“Explorer”打开“yes-no.arff”后,切换到“Associate”选项卡。选择算法: 默认关联规则分析是用Apriori算法。点“Choose”按钮在弹出的窗口中可以选
7、择关联规则算法。参数设置:单击“Choose”按钮右边的文本框会弹出参数设置对话框,可以修改默认的参数,弹出的窗口中点“More”可以看到各参数的说明。设置如下图:(3)运行算法单击“Start”按钮开始关联分析,输出频繁项集及强关联规则。(4)我发现本来在我们看来毫无联系的事物,经过分析发现它们有着密切联系。实验名称实验三:分类知识挖掘实验类型综合性实验实验目的:(1)掌握利用决策树(C4.5算法)进行分类的方法。(2)掌握利用朴素贝叶斯分类的方法。实验要求:(1)对数据集bankdata.arff利用决策树(C4.5算法)进行分类,给出得出的决策树及分类器的性能评价指标,并利用建立的分类模型对下列表中给出的实例进行分类。agesexregionincomemarriedchildrencarsave_actcurrent_actmortgagepep21MALETOWN5014.21NO0YESYESYESYES42MALEINNER_CITY17390.1YES0NOYESYESNO59FEMALERURAL35610.5NO2YESNONONO45FEMALETOWN26948NO0NOYESYESYES58FEMALETOWN34524.9YES2YESYESNONO30MA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 注册会计师税法中境外所得税收抵免的计算方法
- 某家具厂涂装安全制度
- 2026年文化旅游发展座谈会交流发言稿
- 2026清华大学出版社校园招聘备考题库附参考答案详解(培优b卷)
- 2026甘肃武威古浪县海子滩镇中心卫生院招聘2人备考题库附答案详解(能力提升)
- 2026湖南湘江研究院有限责任公司招聘7人备考题库有完整答案详解
- 2026云南昆明市晋宁区双河乡中心幼儿园编外教师招聘1人备考题库及答案详解(新)
- 2026安徽宣城广德市国信工程造价咨询有限公司社会招聘3人备考题库附答案详解(培优a卷)
- 2026重庆垫江县太平镇人民政府全日制公益性岗位招聘3人备考题库及1套参考答案详解
- 2026浙江深泓水利工程有限公司招聘第一批项目制用工人员6人备考题库带答案详解
- 婴幼儿发展引导员技能竞赛考试题库(含答案)
- 2026工伤赔偿政策新规详解(完整版)
- 食品生产日期排查制度
- 主题班会:传统文化润心田:诗词里的中国
- 2025年益阳事业单位真题
- 2026年河南信息统计职业学院高职单招职业适应性测试模拟试题带答案解析
- 增城市酒店行业分析报告
- 2026年交管12123学法减分复习考试题库带答案(培优)
- TCESS8-2021工业互联网界面用户体验第2部分评价模型和方法
- 基层人民调解员培训课件
- 宜宾市长江生态综合治理项目(东门连接线及滨江骑游道)报告表
评论
0/150
提交评论