商务智能实验五_第1页
商务智能实验五_第2页
商务智能实验五_第3页
商务智能实验五_第4页
商务智能实验五_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机科学与技术学院实验报告

实验题目:描述性数据挖掘学号:日期:2012-11-21班级:电商09姓名:Email:实验目的:1).复习关于聚类分析、关联规则等相关的知识点2).了解Weka中关于聚类分析、关联规则挖掘部分的功能3).掌握使用Weka进行聚类分析、关联规则挖掘的方法步骤硬件环境:

电子商务实验室计算机软件环境:WindowsXP实验步骤:聚类分析在这里,依然使用之前给出的bank-data.arff数据集进行聚类分析的实验,使用最常见的K均值(K-means)算法。下面简单描述一下K均值聚类的步骤:K均值算法首先随机的指定K个簇中心。然后:将每个实例分配到距它最近的簇中心,得到K个簇;计分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。重复1)和2),直到K个簇中心的位置都固定,簇的分配也固定。步骤一:数据预处理K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。Weka将自动实施这个分类型到数值型的变换,而且Weka会自动对数值型的数据作标准化。因此,对于原始数据“bank-data.arff”,此处的预处理只是删去属性“id”,修改属性“children”为分类型。这样得到的数据文件另存为“bank-data_cluster.arff”。步骤二:进行聚类配置用“Explorer”打开刚才得到的“bank-data_cluster.arff”,并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”,这是Weka中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明希望把这600条实例聚成6类,即K=6。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。不妨暂时让它就为10。选中“ClusterMode”的“Usetrainingset”,点击“Start”按钮,观察右边“Clustereroutput”给出的聚类结果。也可以在左下角“Resultlist”中这次产生的结果上点右键,“Viewinseparatewindow”在新窗口中浏览结果。关联规则挖掘步骤一:数据预处理打开数据集“bank-data.arff”后,需要去除ID属性,方法参照之前的实验内容;此外,由于在这次关联规则挖掘中采用的是Apriori算法,该算法不支持连续的数值型属性,所以需要将bank-data中关于age、income两个属性离散化。在这里使用Preprocess选项卡中的数据过滤器(filter),进行数据离散化。选择过滤器“choose”按钮,或者在同行的空白处点击一下,即可弹出过滤器选择框,逐级找到“Weka.filters.unsupervised.attribute.Discretize”,点击;若无法关闭这个树,在树之外的地方点击“Explorer”面板即可。现在“Choose”旁边的文本框应该显示“Discretize-B10-M-0.1-Rfirst-last”。点击这个文本框会弹出新窗口以修改离散化的参数。因为不打算对所有的属性离散化,只是针对对第1个和第4个属性,故把attributeIndices右边改成“1,4”。计划把这两个属性都分成3段,于是把“bins”改成“3”。其它框里不用更改,关于它们的意思可以点“More”查看。点“OK”回到“Explorer”,可以看到“age”和“income”已经被离散化成分类型的属性。若想放弃离散化可以点“Undo”。步骤二:参数设置选择Associate选项卡,进行关联规则挖掘。现在计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。点击文字框的空白处,在弹出的属性修改窗口中把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1,“metricType”设为lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认即可。“OK”之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果。结果如图所示:步骤三:结果分析1、对于结果中出现的一下信息Minimumsupport:0.15(90instances):最小支持度为0.15,也就是15%因为总数为600,所以共有90个实例Minimummetric<lift>:1.5:最小提升度为1.5Bestrulesfounds我们来分析其中的一条,具体内容如下:age='(-inf-34.333333]'195==>income='(-inf-24386.173333]'current_act=YES138conf:(0.71)<lift:(1.97)>lev:(0.11)[68]conv:(2.16) 从字面上很容易就可以读出这条规则的信息:对于那些年龄小于34.3岁的(共有195人),他们的收入低于24386.17,并且拥有日常开支账户。后面给出了各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论