数据挖掘WEKA报告bezdekIris_第1页
数据挖掘WEKA报告bezdekIris_第2页
数据挖掘WEKA报告bezdekIris_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3/3数据挖掘WEKA报告bezdekIris第一部分概述

1.数据挖掘目的:根据已有的数据信息,寻找出鸢尾的属性之间存在怎样的关联规则。

2.数据源:UCI提供的150个实例,每个实例有5个属性。

3.数据集的属性信息:

(1).sepallengthincm萼片长度(单位:厘米)(数值型)

(2).sepalwidthincm萼片宽度(单位:厘米)(数值型)

(3).petallengthincm花瓣长度(单位:厘米)(数值型)

(4).petalwidthincm花瓣宽度(单位:厘米)(数值型)

(5).class:类型(分类型),取值如下

--IrisSetosa山鸢尾

--IrisVersicolor变色鸢尾

--IrisVirginica维吉尼亚鸢尾

4.试验中我们采用bezdekIris.data数据集,对比UCI发布的iris.data数据集(08-Mar-1993)和bezdekIris.data数据集(14-Dec-1999),可知前者的第35个实例4.9,3.1,1.5,0.1,Iris-setosa和第38个实例4.9,3.1,1.5,0.1,Iris-setosa,后者相应的修改为:4.9,3.1,1.5,0.2,Iris-setosa和4.9,3.1,1.4,0.1,Iris-setosa。

第二部分将UCI提供的数据转化为标准的ARFF数据集

1.将数据集处理为标准的数据集,对于原始数据,我们将其拷贝保存到TXT文档,采用UltraEdit工具打开,为其添加属性信息。如图:

2.(1)将bezdekIris.txt文件导入MicrosoftOfficeExcel(导入时,文本类型选择文本文件),如图:

(2)下一步,设置分隔符号,如图:

(3)得到的XLS格式数据如图:

4.在Excel中将其另存为CSV格式文件(CSV格式的文件和XLS格式文件一样),保存的路径为C:\ProgramFiles\Weka-3-6,方便对其进行转化为weka标准的arff格式文件,如图:

5.采用weka的SimpleCLI模块输入命令:javaweka.core.converters.CSVLoaderbezdekIris.csv>bezdekIris.arff将CSV文件转化为标准ARFF文件。成功完成的提示信息:Finishedredirectingoutputto'bezdekIris.arff'。得到的数据集如图所示:

6.至此得到了标准的ARFF格式文件。

第三部分采用关联规则对ARFF数据集进行处理

1.对ARFF数据集进行预处理,即进行数据的离散化,将sepal-length,sepal-width,petal-length和petal-width四个数值型的数据转化为分类型的数据,设置相应的参数为:weka.filters.unsupervised.attribute.Discretize-B10-M-1.0-R1-4,即将每个属性的值分为10类,选择关联规则的Apriori算法,相应的参数设置为:weka.associations.Apriori-N10-T0-C0.9-D0.05-U1.0-M0.1-S-1.0-A-c-1,即计划挖掘出支持度在10%到100%之间,并且置信度超过90%,按照置信度排前10条的关联规则。

2.在关联规则挖掘面板中操作:(1)“car”设置为Ture,表示挖掘为类关联规则;(2)“classIndex”设置为-1,表示最后的属性被当作类属性;(3)把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为1和0.1,表示支持度的上界和下界;(4)“metricType”设为Confidence,表示以置信度衡量(类关联规则只能用置信度挖掘);(5)“minMetric”设为0.9,表示度量最小值;(6)“numRules”设为10,表示规则数。其他选项保持默认。“OK”之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集

3.1得到的关联规则结果如图:

3.2这样我们一共产生了9条规则,分析如下:

(1)对于规则1,可以得到的知识为:当花瓣宽度小于等于0.34厘米(petal-width≤0.34)时,此鸢尾为山鸢尾,规则的置信度为1,支持度为41/150=0.273。(2)对于规则2,可以得到的知识为:当花瓣长度小于等于1.59厘米(petal-length≤1.59)时,此鸢尾为山鸢尾,规则的置信度为1,支持度为37/150=0.247。(3)规则3其实是规则1和2的交集,演化。

(4)对于规则4,可以得到的知识为:花瓣宽度在1.06厘米到1.3厘米之间(1.06<petal-width≤1.3)时,此鸢尾为变色鸢尾,规则的置信度为1,支持度为

21/150=0.14。

(5)对于规则5,可以得到的知识为:花瓣长度在5.13厘米到5.72厘米之间(5.13<petal-length≤5.72)时,此鸢尾为维吉尼亚鸢尾,规则的置信度为1,支持度为18/150=0.12。

(6)规则6是规则1的演化。

(7)规则7是规则1的演化。

(8)对于规则8,可以得到的知识为:花瓣长度在3.95厘米到4.54厘米之间(3.95<petal-length≤4.54)时,此鸢尾为变色鸢尾,规则的置信度为0.96,支持度为25/150=0.167。

(9)对于规则9,可以得到的知识为:花瓣宽度在1.78厘米到2.02厘米之间(1.78<petal-width≤2.02)时,此鸢尾为维吉尼亚鸢尾,规则的置信度为0.96,支持度为22/150=0.147。

3.4从这些规则中我们可以知道,判断鸢尾属于那一种类,应该从花瓣的长度和宽度上进行考虑。

第四部分采用聚类对ARFF数据集进行处理

1.参数相应设置为weka.clusterers.SimpleKMeans-N3-A

"weka.core.EuclideanDistance-Rfirst-last"-I500-S800设置分为3个簇,距离公式采用欧几里德距离公式,随机种子数依次为100,200,300.……800,"Clustermode"设置为"classestoclustersevalution",以便对比进行评估,并且勾选"Store

2.我们知道Withinclustersumofsquarederrors是评价聚类好坏的标准,数值越小说明同一簇类实例之间的距离越小,聚类的结果也就越好。从这个表中我们可以知道当seed取值为200,400,600,800时,其Withinclustersumofsquarederrors值相同,且为最小,这时的聚类效果最好,这样我们就找到了最好的聚类方案。

3.1将seed取值为800,其聚类效果如图所示:

图4-1seed-800聚类效果图

注:□表示预测与真实不相符合,×表示预测与真实相符合,那么×越多表示聚类的效果越好。

4.1如果将seed取值改为100,其效果如图:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论