(电子商务)weka实验_第1页
(电子商务)weka实验_第2页
(电子商务)weka实验_第3页
(电子商务)weka实验_第4页
(电子商务)weka实验_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目列表序号实验项目名称1HYPERLINKDataPreprocessinginWEKA2HYPERLINKAssociationRuleMiningwithWEKA3HYPERLINKClassificationviaDecisionTreesinWEKA4HYPERLINKK-MeansClusteringinWEKA姓名班级学号实验要求必做实验类别数据挖掘实验时间2014.6.2实验名称DataPreprocessinginWEKA指导教师魏建国一、实验目的:本次实验主要目的是为了练习使用数据挖掘软件WEKA来进行一些基本的数据挖掘预处理操作。实验步骤:装载数据:WEKA中分析对象是以arff格式文件表示的WEKA也支持csv等格式的数据文件并可以将其转换成arff文件)。这里我们直接导入老师所给的bank-data.arff文件。移出不相关属性:我们可以看到bank-data.arff中的数据元组中都有ID属性,在进行相关数据挖掘之前(关联分析、分类、聚类),我们需使用WEKA中的Filter功能将ID属性过滤掉。点击Filter面板旁边的Choose按钮并选择"weka.filters.unsupervised.attribute.Remove",点击空白处并填写需要移出的属性序号为“1”,如下图:点击“OK”返回主界面,并点击Apply按钮实施移出,保存当前文件为“bank-data-R1.arff”。接下来要将一些属性的值做离散化(因为有一些算法只能在离散化的属性上才适用)。首先,我们用文本编辑器打开刚才存储“bank-data-R1.arff”文件,并将children属性后的numeric更改为@attributechildren{0,1,2,3}下面我们使用WEKA来进行"age"and"income"属性的离散化。在本实验中我们将这两个属性划分为三个区段。首先还在刚才的Filter面板旁点击Choose按钮,选择"weka.filters.unsupervised.attribute.Discretize",点击空白并填写相关属性,这里我们要离散化age属性,所以我们键入age属性的序号3,因为我们要进行的是简单的分箱操作,所以将其它选项置为false。点击OK返回并点击Apply进行离散化。之后再按此步骤对income属性进行离散化。都完成后将文件保存,并用Notepad++打开arff文件发现自动划分的边界并不是整数(不易读),我们利用Notepad++中的替换功能将边界值人工修正成我们想要的数值,最后修改结果见“实验结果”中的截图。实验结果进行属性值离散化之前:图1-1图1-2进行属性值离散化之后:图1-3图1-4成绩批阅人批阅时间姓名班级学号实验要求必做实验类别数据挖掘实验时间2014.6.2实验名称AssociationRuleMiningwithWEKA指导教师魏建国一、实验目的:学习使用WEKA对数据进行频繁模式、关联和相关方面的分析。二、实验步骤:将上次实验预处理完毕的arff文件导入至WEKA,并点击“Associate”选项卡,跳转至关联分析界面。这里我们看到“Assosiator”已经将Apriori算法设置为默认的分析器,但是我们需要更改一些参数,点击空白处调出参数设置页面。设置参数如下图(注意将metricType度量标准替换为Lift标准):返回并点击Start进行关联挖掘,返回结果如下图。三、实验结果图2-11当然也可以在WEKA命令行下键入命令及参数进行管理分析,在此不详述。成绩批阅人批阅时间姓名班级学号实验要求必做实验类别数据挖掘实验时间2014.6.2实验名称ClassificationviaDecisionTreesinWEKA指导教师魏建国一、实验目的:熟悉在WEKA中使用C4.5(J48)算法以及给定的训练集对未分类数据集进行分类(Classification)。二、实验步骤:首先我们点击选项卡“Classify”,进入分类界面,选择Trees下的J48算法。“TestOptions”中的“cross-validation”(交叉验证)选项中我们填入10(这个貌似在多个训练集同时使用的时候才有用还是怎么着?)。返回主界面后点击“Start”开始分类,文字结果出现在窗体右部,如下图:分类形成的可视化决策树如下:这里我们注意到结果的准确度仅有将近69%,但是在这里我们就不进一步采取其它方法提高此值了。下面我们将用以上分类得出的规则来对未知的数据进行分类。将“Testoptions”选项中的RadioButtion选到Suppliedtestset,并点击“Set…—>Openfile”,选择bank-new.arff并返回主窗口,再次点击“Start”,得出结果如下图:从上图看到我们什么也没有得到,因为这个数据是需要分类的——其pep属性均为“?”。在这里我们右键单击新产生的结果集,并选择“Visualizeclassifiererrors”,并保存此次运行的结果。找到我们保存的结果,用Notepad++打开此文件,发现属性中多了一项predictedpep,这就是我们按照训练集中的规律对于新的未知数据集做的分类结果,如下图所示。三、实验结果还未作分类的bank-new.arff:图3-1已经做完预测的bank-predicted.arff(可以看到定义和元组中均多了一项):图3-2成绩批阅人批阅时间姓名班级学号实验要求必做实验类别数据挖掘实验时间2014.6.2实验名称K-MeansClusteringinWEKA指导教师魏建国一、实验目的:熟悉在WEKA中使用K-means算法(在WEKA中的实现为SimpleKMeans)以及给定的训练集对未分类数据集进行分类(Classification)。二、实验步骤:首先介绍一下K-Means算法,一些K-Means算法的实现仅支持数值类型的数据而不支持离散类型的数据。但是WEKA算法中的实现SimpleKMeans实现的K-Means算法对于这两种数据类型都提供了支持,这就不需要我们自己做数据类型的转化。并且SimpleKMeans的实现也自动对数据进行规范化。SimpleKMeans使用欧几里德距离来衡量相似度。下面进行聚类。首先选择Cluster选项卡切换到聚类界面。选择算法为“SimpleKMeans”,并在空白处点击并设置算法参数如下图:这里的numClusters为最后生成聚类的数量,而seed是作为初始选择中心点的一个“种子”,K-Means

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论