版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘工具运用对比报告学生姓名:指导老师:冯霞学院名称:计算机学院专业名称:计算机科学与技术中国民航大学2012年11月17日数据挖掘工具Knime与Weka的运用与比较摘要数据挖掘(DataMining)乂称数据库中的知识发现(KnowledgeDiscoverinDatabase,是目前人工智能和数据库领域研究的热点问题。所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基丁人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,能够高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在模式,帮助决策者调整市
2、场策略,减少风险,做出正确的决策。在现代社会,无论是商业决策,还是信息管理,甚至国家大事如美国总统选举,数据挖掘都占有非常重要的地位。因此,作为一名计算机学科的研究生,熟练使用数据挖掘工具是必要的。现在主流五丰中数据挖掘软件为:weka、orange、rapidminer、jhepwork、rattle、knime而且这些软件都是开源的,可以供使用者根据自己的需要开发或者改进。本文将以weka和knime为例,介绍两种软件的运用以及比较。关键词:数据挖掘工、weka、knime、运用、比较Weka简介:WEKA的全名是WaikatoEnvironmentforKnowledgeAnalysis
3、同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。它是现今最完备的数据挖掘工具之一。作为一个大众化的数据挖掘工作平台,WEKA集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类关联分析以及在新的交互式界面上的可视化等等。通过其接口,可在其基础上实现自己的数据挖掘算法。WEKA的打开界面:数据格式:WEK用的数据格式在形式上与Excel类似。打开Explorer界面,点Openfile选择weka自带数据weather.nominal.arff进行分析,是离散好weather数据。打开数据如下所示:WEK存储数据的格式是ARFF(Attribut
4、e-RelationFileFormat)文件,这是一种ASCII文本文件表格里的一个横行称作一个实例(Instance),相当丁统计学中的一个样本,或者数据库中的一条记录。竖行称作一个届性(Attribute),相当丁统计学中的一个变量,或者数据库中的一个字段。这样一个表格或者叫作数据集,在WEKA看来,呈现了届性之间的一种关系(Relation)。上图中一共有14个实例,5个届性,关系名称为“weather”。整个ARF成件可以分为两个部分。第和对届性的声明;第二部分是数据信息WEK政持的<datatype>有四种:Numeric<nominal-specificatio
5、n>Stringdate<date-format>WEKA勺使用:1、“Explorer”界面使用WEK推数据挖掘,部分是头信息,包括对关系的声明数值型标称型字符申型日期和时间型面临的第一个问题往往是我们的数据不是ARFFWEKM提供了对CSVC件的支持,而这种格式是被很多其格式的。幸好,他软件,比如Excel,所支持的。现在我们打开“bank-data.csv”。利用WEKM以将CS"件格式转化成ARF成件格式。ARFFB式是WEKM持得最好的文件格式。此外,WEKM提供了通过JDBCW问数据库的功能“Explorer”界面提供了很多功能,是WEKAI用最多的模块
6、。现在我们先来熟悉它的界面,然后利用它对数据进行预处理。界面如下如所示:QWekaExplorer-二gET厂K:上图显示的是“Explorer”打开“weather.nominal.arff”的情况。我们根据不同的功能把这个界面分成8个区域。1. 区域1的几个选项卡是用来切换不同的挖掘任务面板。2. 区域2是一些常用按钮。包括打开数据,保存及编辑功能。3. 在区域3中“Choose某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。4. 区域4展示了数据集的一些基本情况。5. 区域5中列出了数据集的所有届性。勾选一些届性并“Remove就可以删除它们,
7、删除后还可以利用区域2的“Und6按钮找回。区域5上方的一排按钮是用来实现快速勾选的。在区域5中选中某个属性,则区域6中有关丁这个届性的摘要。注意对丁数值届性和标称届性,摘要的方式是不一样的。6. 区域7是区域5中选中届性的直方图。若数据集的某个届性是目标变量,直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。默认地,分类或回归任务的默认目标变量是数据集的最后一个届性(这里的“play”正好是)。要想换个分段的依据,即目标变量,在区域7上方的下拉框中选个不同的分类届性就可以了。下拉框里选上“NoClass”或者一个数值届性会变成黑白的直方图。7. 区域8是状态栏,可以查看Log以判断是
8、否有错。右边的weka鸟在动的话说明WE内在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。NominalToBinary的过滤器将所有nominal类型的届性转为binary(0,1二值)届性,一个可取k个值的nominal类型的届性转为k个二值届性,这样可将数据中所有届性转为数值(numeric)届性。以下是weather.arff转换后的结果Vie»Brkywindytinytinweather-*ejr.filter5-rmsTipervLsedq.ttribute.SaminairaririaryR.firt-lst:-r._-"T-',
9、39;r-T-<"30.00.010000010S3。7060101.0jrts;TtI000q10曲0000.tl850Nuthet<Bmeric0.0七tlurtVwae0nmerKDvhkf1-C®50f)VviHI>C11;L0Cancel1«.|nannyWEKAf巴分类(Classification)和回归(Regression)都放在"Classify选项卡中。在这两个任务中,都有一个目标届性(即输出变量或类标)。我们希望根据一个样本(WEK中称作实例)的一组特征(输入变量),对目标进行预测。为了实现这一目的,我们需要有一
10、个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以对新的未知实例进行预测了。衡量模型的好坏主要在于预测的准确率。WEK中的典型分类算法有以下几种:Bayes:贝叶斯分类器、BayesNet:贝叶斯信念网络、Na?veBayes:朴素贝叶斯网络、Functions:人工神经网络和支持向量机、MultilayerPerceptron:多层前馈人工神经网络、SMO:支持向量机(采用顺序最优化学习方法)、Lazy:基丁实例的分类器、旧1:1-最近邻分类器、旧k:k-最近邻分类器、Meta:组合方法、AdaBoostM1:AdaB
11、oostM1方法、Bagging:袋装方法、Rules:基丁规则的分类器、JRip:直接方法Ripper算法、Part:间接方法从J48产生的决策树抽取规则(不是C4.5规则算法)、Trees:决策树分类器、Id3:ID3决策树学习算法(不支持连续届性)、J48:C4.5决策树学习算法、RandomForestt:基丁决策树的组合方法。分析的图形表示包括有:实际类与预测类的散布图、贝叶斯网络、决策树等。如下面几个图所示:贝叶斯网络图D.DT30.首耳a:ctiqh=h1.|DQD.L3ttai叫flIS?ftffi?nilln淌d111)脸。.饵11ft?lc侦1UH.(1Tt,J?I?r口b
12、l亲欢用T'CUftSHts.,"&%£».-r-r3.r'g.快,芷曾D«B0X】BIc-kaLCk-a?hTa.iuoJw必七窜W:fsbJbiT口let3riODBiDllLtTClbClDUifibAc1IU7GM&决策树图表示有3个数据2、"Experimenter”界面Experiment界面可以创建,运行,修改和分析算法试验,这比单独的分析各个算法更加方便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判断是否某个算法比其他算法更好。Explorerment
13、er主要包括简单模式,复杂模式和远程模式。复杂模式是对简单模式的基本功能的扩充,而远程模式允许我们通过分布式的方法进行实验。分为设置模块,运行模块和分析模块三个功能模块。在设置模块中我们可以自定义实验,加入多个算法和多方的源数据(支持ARF以件,CSVi件和数据库)设置实验配置模式在运行模块中我们可以运行我们的实验,报告运行情况,运行后生成一个数据集。分析模块可以分析各种算法的的准确性,并对结果进行检验比较点击即可分析实验结果3、“KnowledgeFlow”界面这个界面的功能是将WEKAA件在设计画布上相互连接以形成可进行动态数据处理分析的知识流。例如:KnowledgeFlow提供了一个用
14、丁处理大型数据集的递增算法,处理数据很大时的问题。这个环境本质上和Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习(incrementallearning)。KnowledgeFlow为WEKA提供了一个”数据流”形式的界面。用户可以从一个工具栏中选择组件,把它们放置在面板上并按一定的顺序连接起来,这样组成一个II知识流II(knowledgeflow)来处理和分析数据。目前,所有的WEKA分类器(classifier)、筛选器(filter)、聚类器(clusterer)、载入器(loader)、保存器(saver),以及一些其他的功能可以在K
15、nowledgeFlow中使用。KnowledgeFlow可以使用增量模式(incrementally)或者批量模式(inbatches)来处理数据(Explorer只能使用批量模式)。当然对数据进行增量学习要求分类器能够根据各实例逐个逐个的更新.现在WEKA中有五个分类器能够增量地处理数据:NaiveBayesUpdateable,IB1,IBk,LWR(局部加权回归)。还有一个meta分类器RacedIncrementalLogitBoost可以使用任意基丁回归的学习器来增量地学习离散的分类任务。二、KNIME简介:KNIME(KonstanzInformationMiner)是一个用户友
16、好,智能的,并且有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。它给了用户有能力以可视化的方式创建数据流或数据通道,可选择性地运行一些或全部的分析步骤,并以后面研究结果,模型以及可交互的视图。KNIME由Java写成,其基丁Eclipse并通过插件的方式来提供更多的功能。通过以插件的文件,用户可以为文件,图片,和时间序列加入处理模块,并可以集成到其它各种各样的开源项目中。其打开界面如图所示:数据格式:Knime使用的数据格式比较多样化,可以使用.arff的,也可以使用.csv格式的等数据库中的数据格式。KNIMB!勺使用:打开KNIME后,点击OpenKNIMEworkbench.进
17、入主界面,在打开KNIME夹件后可以看到有几个区域,他们分别是WorkFlowProjects、FavoriteNodes、NodeRepository、Outline、WorkFlowEdit、NodeDescription。其中主要的部分就是在NodeRepository里面找到相应的结点在WorkFlowEdit里面进行编辑和运行。1、点击菜单栏File里的New,选择NewKNIMEProject,并按下Next键,之后点击Finish即可完成新文档的创建。2、生成K-D树与准确度判断1)布局。查找filereader拖拽结点并连接可得至U:lNodeRepositoryc£
18、|10亲RedFileRuder口岫3l*Z.Node4IntensiveTable匚Mode1ScatterPIM二Node62)导入数据导入数据右击第一个FileReader,选择Configure(或直接双击进入),在ValidURL处选择要导入的数据的文件。之后点击OK,<FileReader3)生成K-D树,右击旧K,点击Configure,可以修改KNN的数值。'1Dialog-0;3-IBkW*卜5妇OptiflitLMemoryPolicyAboutK-nearestneighboursdassifiier.MareCnpabiliti«s皿Falsi心
19、*,WeightbyldistanceFalseOblastLinttaiHMSarek-Awskt-cor*,crossV:alidatedtbiifdistaiLreleigiltingmeanSquared.nttrtsiIT«iEhlb0ur5»trchAL£oritbiiindowSiSelecttargetcolumnSclMS4)模型运行与验证1.将来自FileReader2的数据和来自旧K的K-D树模型输入到WekaPredictor中。注:当发现设置完的结点没有变成绿灯时要及时按下按钮来执行所有的结点。2.设置scorer的届性。右击后点击Configure,firstcolumn选择要预测的届性。5)查看结果,右击后点击accuracystatistics来查看预测的结果。三、两个软件的比较一、就界面来看,KNIMES比WEK/精爽干净。二、从应用来看,weka的应用更加广泛。其中weka的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省济南市市中学区育英中学2026届物理八上期末监测模拟试题含解析
- 2026届福建省漳州市物理九年级第一学期期末检测模拟试题含解析
- 安徽省安庆市安庆九一六校2026届物理九上期末综合测试模拟试题含解析
- 工业冷却池施工方案
- 柱底模(板)未封闭施工方案
- 多层线管施工方案设计
- 金沙固化地面施工方案
- 桥梁渗水管道施工方案
- 风力发电技术优化方案
- 电子线路风险管理方案
- 2025年学条令条例心得体会范文
- AI赋能社会保障数字化转型升级可行性分析
- 2025年下学期高中数学AMC试卷
- 企业创新激励政策设计方案
- 挖掘机剪刀手施工方案
- 小学二年级奥数思维训练100题
- 油库安全风险防控的预防性措施研究
- 设备装配安全培训课件
- 污水厂设备培训课件
- 2025年《AI人工智能知识竞赛》题库及答案解析
- 《船舶结构与货运》教学课件-02船体结构
评论
0/150
提交评论