资源目录
压缩包内文档预览:
编号:9104542
类型:共享资源
大小:57.47MB
格式:RAR
上传时间:2018-03-01
上传人:专业****设计
认证信息
个人认证
葛**(实名认证)
江苏
IP属地:江苏
25
积分
- 关 键 词:
-
设计
- 资源描述:
-
基于数据挖掘软件Weka 的数据分析与应用,设计
- 内容简介:
-
PAPERYY检测报告说明PAPERYY论文检测系统,做最接近标准的检测系统。PAPERYY与知网报告页面保持一致,包含4个报告页面。报告解读将下载的报告解压到桌面,确保您的电脑安装有解压软件。用浏览器打开第四个报告文件,没有括号后缀的。(建议使用IE8以上版本浏览器,或者CHROME,火狐,360等最新版本浏览器,以保证最好浏览效果)1该综合报告上面是论文的一些常用属性和您的论文参与对比的数据库。2下面分别是四个结果报告,对应学校知网的四个报告。3简介报告。主要列出文章所引用的和抄袭的文章列表4去除本人已发表文献。是排除您自己的已经发表过文献后的结果。这个报告需要您提交检测的时候填写您的真实姓名。5全文标明引文。是对整篇文章的中重复句子和引用句子进行标识。重复的标识为红色,引用标识为黄色。标识引文需要文章的参考文献按照标准格式编写。6全文对照。这个是主要报告,同学应该重点查看,分析。这个报告将重复的句子与对比库中相似的句子分开对比,清楚展示疑似句子。主要参照文本复制检测报告单(全文对照)修改分类号无锡职业技术学院毕业设计(论文)题目基于数据挖掘软件WEKA的数据分析与运用英文并列题目ANALYSISANDAPPLICATIONOFWEKADATABASEDONDATAMININGSOFTWARE院系物联网技术学院班级网络31232学生姓名张佳纬学号3020123236所在团队指导老师(1)江森林职称讲师指导老师(2)职称答辩委员会主任主答辩人二零一五年五月2毕业设计(论文)开题报告学生姓名张佳纬学号3020123236班级网络31232所属院系专业物联网技术学院计算机技术指导教师江森林职称讲师所在部门基础部毕业设计(论文)题目基于WEB的数据挖掘软件WEKA的分析与运用题目类型工程设计(项目)论文类作品设计类其他1、选题简介、意义选题简介在INTERNET飞速发展的今天,人们已经将互联网作为一个日常沟通,生活不可或缺的平台,网络信息搜索的需求与收集结果低效性的矛盾进一步严重,人们迫切需要对网络资源有效的整序与检索。所以传统数据挖掘技术在如今的情况下就有点力不从心了,数据挖掘由此而生。数据挖掘就是时代发展的典型产物。数据挖掘采用数据挖掘等信息处理技术,它融合了数据库、人工智能以及统计学等多种学科的知识,从WEB信息资源及WEB使用记录中发掘对特定用户未知、有效、实用的信息或知识的过程,其结果可以为用户决策所使用。选题意义现代社会的发展趋势要求必须对大量复杂的信息进行实时、有效和深层次的分析,从中找出真正有价值的信息知识,用于科学研究、决策支持、过程控制、趋势预测、偏差预防等,所以研究数据挖掘技术,具有十分重要的现实意义。1效率高,节省大量的时间与精力2快速方便3实时动态性4出错率低5有较强的目的性3二、课题综述(课题研究,主要研究的内容,要解决的问题,预期目标,研究步骤、方法及措施等)课题研究基于数据挖掘WEKA的数据分析及运用,为了更好的对数据挖掘进行阐述,因此选择了WEKA这款数据挖掘软件进行分析研究。主要研究的内容通过对WEKA数据挖掘软件的使用分析,了解数据挖软件的操作步骤以及操作过程到了解数据挖掘的方法以及结论。解决的问题数据挖掘先对WEKA数据挖掘软件浅层了解,然后熟悉它的一般操作过程,最终对数据进行操作分析。预期目标前期通过对WEKA数据挖掘软件的使用,了解数据挖掘操作过程。后期深层次分析这款软件,最终得出结论。研究步骤1确定WEKA数据挖掘软件为研究而对象,理解所要运用的内容。2整理所有要的要研究的相关资料,对要研究内容进行查阅。3对软件和所需要用到的分类算法进行介绍,对界面进行多方面的运用和熟悉。4进行对WEKA软件进行实际操作,采用分类算法对模型进行评估和分析。5最终得出结果,和预测结果进行比较和分析。研究方法、措施1图书馆搜索数据挖掘软件的相关书籍。2上网搜索不理解的问题。3进行反复试验得出实验结果。4询问相关的指导老师,解决问题。4三、设计(论文)体系、结构(大纲)1设计体系设计体系第一章引言第二章数据挖掘的介绍进行对数据挖掘的介绍和现如今数据挖掘的定义,功能和应用。第三章数据挖掘软件WEKA的介绍和实验目的对数据挖掘软件WEKA进行相关介绍,并表明实验的目的,实验中用到的分类方法,描述实验过程并得出结果。第四章总结和展望实验总结以及对于数据挖掘今后发展的看法。第5章小结对于本次毕业设计的自我评价。2系统功能模块结构图指导教师意见签字年月日院(系)审批意见签章年月日5毕业设计(论文)任务书2015年4月27日毕业设计(论文)题目基于数据挖掘软件WEKA的数据分析与应用题目来源企业指导教师江森林职称讲师所在部门基础部学生姓名张佳纬学号3020123236班级网络31232所属院系专业物联网技术学院外语翻译要求良好课题需要完成的任务【论文类课题】基于WEKA数据挖据中分类的挖掘,在本次课题中我们需要先了解数据挖掘的基本概念和操作流程,然后确定所用软件并对它进行熟悉和运用,接着了解WEKA软件的挖掘步骤。在分析数据集最适合用分类进行挖掘的时候,了解分类的概念和所涉及的算法和功能。完成这些预备工作后,在对选择的医疗数据集进行挖掘,运用算法建立模型,然后分析结果,最终得出想要结果,进行总结。序号内容时间安排1查阅相关文献资料,明确研究内容,了解研究所需掌握的知识范围,完成开题报告。第0周2分析WEB挖掘方法,定型挖掘软件。第1周3设计WEB挖掘策略和模型。第26周4WEB挖掘实践,在反复的试验中找出最佳策略并得到最佳结果第7周5完成并修改毕业论文。完成论文答辩,提交资料。第8周课题计划安排计划答辩时间答辩提交资料系统、论文(电子版、纸质版)教研室主任审核意见签名6分类号无锡职业技术学院毕业设计(论文)题目基于数据挖掘软件WEKA的数据分析与运用英文并列题目ANALYSISANDAPPLICATIONOFWEKADATABASEDONDATAMININGSOFTWARE院系物联网技术学院班级网络31232学生姓名张佳纬学号3020123236所在团队指导老师(1)江森林职称讲师指导老师(2)职称答辩委员会主任主答辩人二零一五年五月2毕业设计(论文)开题报告学生姓名张佳纬学号3020123236班级网络31232所属院系专业物联网技术学院计算机技术指导教师江森林职称讲师所在部门基础部毕业设计(论文)题目基于WEB的数据挖掘软件WEKA的分析与运用题目类型工程设计(项目)论文类作品设计类其他1、选题简介、意义选题简介在INTERNET飞速发展的今天,人们已经将互联网作为一个日常沟通,生活不可或缺的平台,网络信息搜索的需求与收集结果低效性的矛盾进一步严重,人们迫切需要对网络资源有效的整序与检索。所以传统数据挖掘技术在如今的情况下就有点力不从心了,数据挖掘由此而生。数据挖掘就是时代发展的典型产物。数据挖掘采用数据挖掘等信息处理技术,它融合了数据库、人工智能以及统计学等多种学科的知识,从WEB信息资源及WEB使用记录中发掘对特定用户未知、有效、实用的信息或知识的过程,其结果可以为用户决策所使用。选题意义现代社会的发展趋势要求必须对大量复杂的信息进行实时、有效和深层次的分析,从中找出真正有价值的信息知识,用于科学研究、决策支持、过程控制、趋势预测、偏差预防等,所以研究数据挖掘技术,具有十分重要的现实意义。1效率高,节省大量的时间与精力2快速方便3实时动态性4出错率低5有较强的目的性3二、课题综述(课题研究,主要研究的内容,要解决的问题,预期目标,研究步骤、方法及措施等)课题研究基于数据挖掘WEKA的数据分析及运用,为了更好的对数据挖掘进行阐述,因此选择了WEKA这款数据挖掘软件进行分析研究。主要研究的内容通过对WEKA数据挖掘软件的使用分析,了解数据挖软件的操作步骤以及操作过程到了解数据挖掘的方法以及结论。解决的问题数据挖掘先对WEKA数据挖掘软件浅层了解,然后熟悉它的一般操作过程,最终对数据进行操作分析。预期目标前期通过对WEKA数据挖掘软件的使用,了解数据挖掘操作过程。后期深层次分析这款软件,最终得出结论。研究步骤1确定WEKA数据挖掘软件为研究而对象,理解所要运用的内容。2整理所有要的要研究的相关资料,对要研究内容进行查阅。3对软件和所需要用到的分类算法进行介绍,对界面进行多方面的运用和熟悉。4进行对WEKA软件进行实际操作,采用分类算法对模型进行评估和分析。5最终得出结果,和预测结果进行比较和分析。研究方法、措施1图书馆搜索数据挖掘软件的相关书籍。2上网搜索不理解的问题。3进行反复试验得出实验结果。4询问相关的指导老师,解决问题。4三、设计(论文)体系、结构(大纲)1设计体系设计体系第一章引言第二章数据挖掘的介绍进行对数据挖掘的介绍和现如今数据挖掘的定义,功能和应用。第三章数据挖掘软件WEKA的介绍和实验目的对数据挖掘软件WEKA进行相关介绍,并表明实验的目的,实验中用到的分类方法,描述实验过程并得出结果。第四章总结和展望实验总结以及对于数据挖掘今后发展的看法。第5章小结对于本次毕业设计的自我评价。2系统功能模块结构图指导教师意见签字年月日院(系)审批意见签章年月日5毕业设计(论文)任务书2015年4月27日毕业设计(论文)题目基于数据挖掘软件WEKA的数据分析与应用题目来源企业指导教师江森林职称讲师所在部门基础部学生姓名张佳纬学号3020123236班级网络31232所属院系专业物联网技术学院外语翻译要求良好课题需要完成的任务【论文类课题】基于WEKA数据挖据中分类的挖掘,在本次课题中我们需要先了解数据挖掘的基本概念和操作流程,然后确定所用软件并对它进行熟悉和运用,接着了解WEKA软件的挖掘步骤。在分析数据集最适合用分类进行挖掘的时候,了解分类的概念和所涉及的算法和功能。完成这些预备工作后,在对选择的医疗数据集进行挖掘,运用算法建立模型,然后分析结果,最终得出想要结果,进行总结。序号内容时间安排1查阅相关文献资料,明确研究内容,了解研究所需掌握的知识范围,完成开题报告。第0周2分析WEB挖掘方法,定型挖掘软件。第1周3设计WEB挖掘策略和模型。第26周4WEB挖掘实践,在反复的试验中找出最佳策略并得到最佳结果第7周5完成并修改毕业论文。完成论文答辩,提交资料。第8周课题计划安排计划答辩时间答辩提交资料系统、论文(电子版、纸质版)教研室主任审核意见签名6基于数据挖掘软件WEKA的数据分析与应用摘要现今信息技术发展快速,信息化管理已经深入到了各个行业当中,由于信息化管理的高效性产生了许许多多繁杂的数据,这些数据用常规的方法很难分类,数据挖掘技术带来了解决这个问题的方法,越来越多的企业通过使用数据挖掘来提高效率。本文将使用WEKA数据挖掘软件的决策树功能对乳腺癌的复发进行预测。关键词数据;数据挖掘;定义;分类。ANALYSISANDAPPLICATIONOFWEKADATABASEDONDATAMININGSOFTWAREABSTRACTNOWADAYSINFORMATIONTECHNOLOGYDEVELOPINGFAST,INFORMATIONMANAGEMENTHASGONEDEEPINTOVARIOUSINDUSTRIESDUETOHIGHEFFICIENCYOFMANAGEMENTINFORMATIONPRODUCEDMANY,MANYCOMPLICATEDDATATHESEDATAWITHCONVENTIONALMETHODSISHARDTOCLASSIFY,DATAMININGTECHNOLOGYHASBROUGHTTHEMETHODTOSOLVETHISPROBLEM,MOREANDMOREENTERPRISESBYUSINGDATAMININGTOIMPROVEEFFICIENCYFORTHERECURRENCEOFTHISARTICLEWILLUSETHEWEKADECISIONTREEDATAMININGSOFTWAREFUNCTIONFORBREASTCANCERPREDICTIONKEYWORDSDATADATAMININGWEKADEFINITIONCLASSIFICATION无锡职业技术学院毕业设计(论文)说明书第1页共23页一、引言现如今社会发展迅速,无论是数字化的需要还是工业化进程的要求,都使我们面对着无法想象的日益增加的数据,大型商场的消费、生产公司的质管部门都需要读懂源源不断增加的数据,甚至随着网络的迅速发展,个人的网络使用都产生出了大量的数据,而这给数据挖掘的发展带来了极大的便利。因为通过数据挖掘人们可以花费极少的时间却可以从庞大的数据中找出对自己有用的数据,帮助人们调整策略,做出决策。随着计算机管理方法的成熟,计算机管理运用的领域也越来越多,医疗机构的数字化管理也日益广泛,这同时也产生出了一个问题医院数据库的信息在不断膨胀。这些医疗信息对于疾病的诊断、治疗和预防有着非常高的价值。本次课题我选择使用数据挖掘软件WEKA来对医疗数据集BREASTCANCER进行数据挖掘,希望可以从中挖掘出与疾病复发有关的数据,以此来预防疾病的复发。WEKA软件是一个公开的数据挖掘平台,不需要任何编程就可以操作,这样我们就不需要再绞尽脑汁去找代码编程了,它拥有我们非常熟悉的窗口化互动的界面,只要点击鼠标就能很好地操作,非常适合像我这种数据挖掘的初学者。无锡职业技术学院毕业设计(论文)说明书第2页共23页二、数据挖掘的介绍(1)数据挖掘的现状由于时代的飞速发展所带来的契机,数据挖掘已经成为与众多领域息息相关的广泛应用的技术,市面上的数据挖掘软件也因此开发出了很多,比如SPSSCLEMENTINE,也就是现在所说的IBMSPSSMODELER;SAS,甚至EXCEL都有自己的数据挖掘模块;这里我用的就是其中一种数据挖掘软件WEKA。(2)数据挖掘的定义及含义数据挖掘(DATAMINING)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现的可以在任何地方适用的规则,仅需要支持特定的待解决问题。1数据挖掘并不仅仅是一个独立的学科,它是一门涉及面十分广泛的学科,建立在统计学的抽样、估计和假设检验,机器学习的搜索算法、建模技术和学习理论的基础上,涉及接纳了诸如神经网络、信息论、数据集等多领域的知识。2数据挖掘大体可分为三个步骤数据收集,数据挖掘,数据评测。(3)数据挖掘的过程数据挖掘分为六大步骤分类首先将收集好的数据集合成数据集,然后运用数据挖掘的分类技术,建立分类模型,对数据进行分类。估计估计与分类类似,但是不同的是,分类描述的是离散型变量的输出,而估计处理的持续的输出;分类的类别的数目是确定的,估计的是无法确定的。预测观察数据经行分析,从而得出规律,并对未来的趋势做出预见。无锡职业技术学院毕业设计(论文)说明书第3页共23页相关性分组或关联规则寻找数据集中的值的关联性,找出事情一起发生的可能性。两种常用的技术是关联规则和序列分析。聚类聚类是对数据进行分组,将相似的数据分配到同一个分组中。聚类与分类的区别在于聚类不需要依赖于预先定义好的类。描述和可视化是对数据挖掘的结果的展示,通过文本描述出挖掘得到的结果,也可以进行可视化处理,来直观的表现出挖掘结果,由此来进行对于数据的分析,剖析,最终得到有意义的数据模型。(4)WEB数据挖掘WEB数据挖掘是数据挖掘在WEB领域的运用,它在数据挖掘原有的基础上添加了WEB技术。WEB数据挖掘是从大量的WEB数据集中发现潜藏在其中的不为人所指的数据。它的目标包括WEB的超链接、网页内容、用户日志和WEB数据库,同时还可以对WEB的组织结构和链接关系进行挖掘,而且由于页面间的互联,还可以利用搜集到的信息对页面进行排序,发现重要的页面。3WEB数据内容上的种类繁多决定了WEB挖掘任务的多样性。同样WEB数据挖掘的分类方法也分很多种,比如按WEB文本的语言分类、按挖掘站点的属性分类等。根据挖发掘对象的不同,能够分为WEB内容挖掘、WEB使用挖掘和WEB结构挖掘这三类。WEB内容挖掘WEB上的内容挖掘多为基于文本信息的挖掘,它和通常的文本数据挖掘的功能和方法十分的相似。WEB内容挖掘是指对WEB页面内容以及WEB数据库进行挖掘,从WEB文本内容中获得有益知识的过程。WEB内容挖掘的分为四个步骤文本总结,文本分类,文本聚类,关联规则。WEB使用挖掘WEB使用挖掘又被称为WEB日志挖掘或WEB访问信息挖掘。通过挖掘指定网站的日志文件和对应数据来发现浏览该站点的用户的行为,获取到相应的信息;也可以对指定用户的WEB访问记录进行分析,来了解用户的喜好和浏览习无锡职业技术学院毕业设计(论文)说明书第4页共23页惯,可以对用户的行为进行预测,以此为依据可以给用户提供相应的个性服务,来增加用户的满意度,发展潜在用户,增加网站的竞争力。而WEB使用挖掘可利用的数据有很多,比如IP地址、参考页面、访问日期和时间、用户WEB站点及配置信息。WEB结构挖掘WEB结构挖掘通过对WEB的超链接结构挖掘来挖掘出WEB潜在的内部结构模式。由此可以获得不同页面的相似性和不同,也可由此获得竞争对手的信息。1无锡职业技术学院毕业设计(论文)说明书第5页共23页三、数据挖掘软件WEKA的介绍和实验目的(1)数据挖掘实验的目的通过WEB数据挖掘对医院信息系统中的285例乳腺癌患者数据进行分析,以此来得出乳腺癌患者复发与患者其他属性之间的关系,由此来进行对乳腺癌患者二次发病的预防。WEKA软件支持很多种文件格式,包括ARFF、XRFF、CSV,甚至还有LIBSVM的格式。其中,ARFF时最常用的格式,所以这里我实验选择的数据集是来自WEKA开源数据集UCI中的BREASTCANCERARFF,即乳腺癌患者数据集。如图1所示图1数据集BREASTCANCER这个数据集中包含了病人年龄(AGE),更年期(MENOPAUSE),肿瘤大小无锡职业技术学院毕业设计(论文)说明书第6页共23页(TUMORSIZE),受侵淋巴结数(INVNODES),有无节冒(NODECAPS),肿瘤的恶性程度(DEGMALIG),肿瘤的位置(BREAST),肿瘤所在象限(BREASTQUAD),是否进行过放射性治疗(IRRADIAT),是否复发(CLASS)共10个属性作为每个病例的属性。我通过对这10个属性的分析,希望可以获得对乳腺癌患者复发起到影响的属性,由此来对乳腺癌复发起到及时预防。(2)WEKA软件的简介WEKA软件的全称是怀卡托智能分析环境(WAIKATOENVIRONMENTFORKNOWLEDGEANALYSIS),它是新西兰怀卡拖大学开发的一个开源项目,是一款免费的,费商业化的,基于JAVA环境所开发出来的机器学习以及数据挖掘的软件。WEKA软件和它的源代码都可以通过它的官网HTTP/WWWCSWAIKATOACNZ/ML/WEKA直接下载获得。同时这款软件的首字母缩写WEKA也是新西兰一种鸟类的名称,在这款软件的初始界面WEKAGUICHOOSER中就有这种鸟类的照片。4WEKA作为一个公开的免费的数据挖掘品台,集合了大量的能进行数据挖掘的机器学习算法,包括对数据的预处理,分类,回归,聚类,关联规则以及可视化等。本次实验将采用分类的方式对数据进行挖掘。我选择WEKA作为我课题软件的主要原因是这个软件对于初学者来说比较容易上手,十分的方便,同时这款软件也因为其包含的众多数据挖掘方法成为了很多资深数据分析师进行数据挖掘工作时的首选。(3)WEKA功能界面介绍1总界面打开WEKA之后会先跳出一个类似于命令符窗口的界面,然而这并不是WEKA的初始界面,在等待23秒后会出现WEKA的总界面WEKAGUICHOOSER如图2所示无锡职业技术学院毕业设计(论文)说明书第7页共23页图2总界面这个窗口中最常用的就是APPLICATIONS部分中的四个应用模块,EXPLORER、EXPERIMENTER、KNOWLEDGEFLOW、SIMPLECLI。2EXPLORER界面PREPROCESS这是普通用户用的最多的一个界面。如图3所示。图3EXPLORER界面用户可以从WEKA所支持的文件(如ARFF文件)、网页或数据库中读取数据无锡职业技术学院毕业设计(论文)说明书第8页共23页集。通过OPENFILE打开ARFF数据文件后,可以对数据进行预处理。这时窗体上ATTRIBUTE部分可以看到这个数据集的所包含的属性。右边SELECTEDATTRIBUTE部分则给出了各属性的一些简单统计量,在下方还给出一些可视化效果图。7这些都是比较直观的分析,如果想要挖掘出数据集潜藏的关系的话,我们可以在这个界面进行数据的预处理。点选CHOOSE按钮可以实现筛选数据或者对数据进行某种变换,选择不同的FILTER并设置好相关的参数之后,点击APPLY就可以等待数据属性发生变化了。同时如果数据集中的某些属性是你所不需要的话也可以通过REMOVE控件给移除掉。CLASSIFY点开这个选项卡,我们可以看到这个窗口被分成了四个部分,分别是CLASSIFIER、TEXTOPTIONS、RESULTLIST、CLASSIFIEROUTPUT,如图4所示。图4CLASSIFY的界面1CLASSIFER点开CLASSIFIER模块中的CHOOSE按钮,可以选择WEKA提供的分类器。常用的分类有BAYES下的NAVEBAYES(朴素贝叶斯)和BAYESNET(贝叶斯信念网络);FUNCTIONS下的LIBLINEAR、LIBSVM、LOGISTICREGRESSION、LINEAR无锡职业技术学院毕业设计(论文)说明书第9页共23页REGRESSION;LAZY下的IB1和IBK;MEAT下的多种分类器;TREES下的J48(WEKA版的C45)。2TEXTOPTIONS这个部分是评价模型效果的方法,有四个选项。USETRAININGSET采用训练集,意思就是说训练集和测试集采用同一份数据,一般来说不会使用这种方法。SUPPLIEDTESTSET设置数据集,可以使用本地文件或URL,测试文件的格式与训练文件的格式需要保持一致。CROSSVALIDATION交叉验证,很常见的验证方法。通过将训练集分成N份,然后使用N1分做训练,剩下的那份做测试,在经过N此循环之后,得出最终计算结果。PERCENTAGESPLIT根据一定的比例,把训练集分为两个部分,一个部分用来做训练,另一个部分用来作为测试。在这些验证方法的下面,有一个MOREOPTIONS按钮,可以设置模型的输出参数和模拟验证的参数。3RESULTLIST这个区域保存分类实验的历史,右键点击记录,可以看到很多选项。有SAVEMODEL或LODEMODEL和VISUALIZETREE的等一些常用的选项。4CLASSIFIEROUTPUT分类器的最终输出的实验结果,默认的输出选项有RUNINFORMATION,这个选项列出了特征、样本及模型验证的一些主要内容。CLASSIFIERMODEL,给出的是模型的一些具体参数,不同的分类器得出的信息不同。最下方是模型验证的结果,在这里面有一些常用的验证结果,比如真阳性率(TPRATE),假阳性率(FPRATE),准确率(PRECISION),召回率(RECALL)等。CONFUSIONMATRIX则测试样本的具体分类情况,在这里可以直观的看出数据的正确性。在EXPLORER模块中还有CLUSTER、ASSOCIATE、VISUALIZE等选项卡,由于本次实验并没有使用就不一一介绍了。3EXPERIMENTER界面EXPERIMENTER是一个用来进行实验,对不同的算法进行实验的环境。无锡职业技术学院毕业设计(论文)说明书第10页共23页EXPERIMENTER主要包括简单模式,复杂模式和远程模式。复杂模式是对简单模式的基本功能的扩充,而远程模式允许我们通过分布式的方法进行实验。如图5所示。图5EXPERIMENTER的界面4KNOWLEDGEFLOW界面KONWLEDGEFLOW的功能与EXPLORER类似,不过与EXPLORER相比它更能清晰的反应整个数据挖掘的流程,用户可以通过添加控件的方式去建立实验方案,而且支持增量学习。如图6所示。无锡职业技术学院毕业设计(论文)说明书第11页共23页图6KONWLEDGEFLOW的界面5SIMPLECLI界面SIMPLECLI提供了一个简单的命令行界面,能通过输入文本命令的方式来实现其他三个界面所提供的所有功能,从而可以在没有自带命令行的操作系统中直接执行WEKA命令。(4)WEKA数据挖掘流程在使用数据挖掘软件WEKA进行数据挖掘的时候,不是说随随便便就能进行数据挖掘的,我们必须要按照一定的流程,一步一步的进行下去,毕竟这只是一个工具,需要我们按照正确的步骤去操作这个软件,才能够得到正确的我们想要得到的结果。而在WEKA内进行的数据挖掘则分为三个步骤数据预处理,训练以及验证。如图7所示。无锡职业技术学院毕业设计(论文)说明书第12页共23页图7WEKA数据挖掘流程图1、数据预处理数据预处理包括特征的删除,样本的选择,特征值的修改等操作。简单来说就是对初始数据的进一步完善。2、训练训练包括算法选择,参数调整,模型训练。训练是数据挖掘中一个至关重要的过程,这一步出错了,基本就得不到正确的结果了。3、验证对最后得出模型结果进行验证。这就是对于最终结果的分析,可以验证我们在进行数据挖掘之前的猜测。(5)实验流程在进行数据挖掘之前我们要将我们的数据进行一次预处理,我所选择的数据集BREASTCANCER中共有10个属性,其中的更年期(MENOPAUSE)属性与我们的实验是没有关系的,因此在这里我们在EXPLORER界面中的PREPROCESS选项卡中勾选掉MENOPAUSE属性,点击REMOVE按钮将这个属性给去掉,并将得到的新的数据保存下来。打开新的数据集,如图8所示,剩余的属性有病人年龄(AGE),肿瘤大小(TUMORSIZE),受侵淋巴结数(INVNODES),有无节冒无锡职业技术学院毕业设计(论文)说明书第13页共23页(NODECAPS),肿瘤的恶性程度(DEGMALIG),肿瘤的位置(BREAST),肿瘤所在象限(BREASTQUAD),是否进行过放射性治疗(IRRADIAT),是否复发(CLASS)。图8预处理后的数据集图打开CLASSIFY分类选项,点击CHOOSE按钮选择算法。为了得到最优结果,本次实验我将使用三种分类算法进行实验,分别是决策树算法、K最近邻算法以及叶素贝叶斯算法。决策树算法决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,所谓决策树,顾名思义就是一种树状模型,一种依靠策略选择所建立起来的“树”,然后经过一系列规则将数据分类的过程。决策树模型的每个节点都表示某个对象,而每个分叉都表示这某个属性值的可能性,而每个叶节点对应从根节点到叶节点的路径都表示着所选对象的值。决策树的典型算法包括最早期的ID3算法,以及在其基础上延伸出来的C45算法也就是J48算法。与ID3算法相比,C45算法便于理解,准确性高,使用的较为广泛。5K最近邻算法无锡职业技术学院毕业设计(论文)说明书第14页共23页邻近算法,或者说K最近邻分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。8叶素贝叶斯算法贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,叶素贝叶斯NAVEBAYES,NB分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。9由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就衍生出许多降低独立性假设的贝叶斯分类算法,如TANTREEAUGMENTEDBAYESNETWORK算法。6首先,我们使用TREES目录下的J48算法,验证方式选择交叉验证,设置FOLDS10,然后点击START运行。输出结果如图9所示。无锡职业技术学院毕业设计(论文)说明书第15页共23页图9RUNINFORMATION结果图上图给出了实验用的分类器J48以及它的具体参数,实验的数据名称,数据集中的样本数量,特征数量以及所使用的特征和验证的方式。在这些输出结果的下方则是生成的决策树,以及叶子的节点数、树的节点数以及模型的训练时间,如图10所示。图10决策树信息图从上图中数据分析结果可以看到有两种患者的复发几率较高,一种是有节冒且肿瘤恶性程度为1级的;另一种则是有节冒且肿瘤恶性程度为3级的。如果感觉这样的结果不够直观的话,可以再RESULTLIST里面右键点击该实验,选择VISUALIZETREE选项,就可以看到图形决策树,十分直观。如图11所示。无锡职业技术学院毕业设计(论文)说明书第16页共23页图11决策树图最后模型的验证结果,如图12所示,模型的整体准确率在727,在最下方的矩阵中,可以看到假正与假负的数量。我们可以看到假正有14个,假负有64个。意思是说有14个复发的患者被标注为未复发,而有64个未复发的患者却被标注为复发了。图11决策树模型验证结果图为了保证结果的正确性,我又再次选择了另外两种不一样的分类方法来预无锡职业技术学院毕业设计(论文)说明书第17页共23页测模型评估结果,然后通过比较三种结果来选出最优结果。我选择的第二个算法是叶素贝叶斯NAIVEBAYES)分类算法。交叉验证数值依然设置为10,验证结果如下图12所示。图12叶素贝叶斯模型验证结果图如上图所示,最后整体准确率在731,而假正的数量为30,假负的数量为47,意思是说有30个复发的患者被标注为未复发,而有47个未复发的患者却被标注为复发了。与第一种决策树得出的结果整体没有多少差距,但是实例的错误范围却分散了。第三次我选择K最近邻算法(IBK),先设置K值为1,模型验证如图13所示。图13K最近邻算法模型验证结果图无锡职业技术学院毕业设计(论文)说明书第18页共23页使用不同的配置参数得出最佳结论,如表1所示。表1K最近邻算结果表配置不同的K值K值12345678910准确率713734734734741741741741745741结果分析使用KNN算法分类时,K最优值为9校验最优值K9时的模型评估图,如图14所示。图14K9模型验证结果图对使用K9训练出来的分类模型进行校验的结果,整体准确率达到了745,算是一个比较合理的数值。假正的数量仅为4个,假负的数量为69个。意思是说有4个复发的患者被标注为未复发,而有69个未复发的患者却被标注为复发了。(6)实验结果分析通过以上三种算法的比较,我们可以看出KNN算法模型的整体准确率最高,且它的最优参数为K9。最适合于我们观察数据,而通过整体的实验,可以知道乳腺癌患者的复发几率跟有无节冒和恶性肿瘤的严重性有关,跟患者的年龄,肿瘤生长的位置,是否进行过放射性疗法并没有很明显的关系。由此可无锡职业技术学院毕业设计(论文)说明书第19页共23页以对乳腺癌患者的二次复发起到预防作用。无锡职业技术学院毕业设计(论文)说明书第20页共23页四、总结和展望本次论文研究的课题是基于数据挖掘软件WEKA的数据分析与应用,首先,我对数据挖掘进行了一番了解,知道了数据挖掘的大致含义以及数据挖掘具体运用的方向,比如商业、农业、银行、医学等等。其次,我对我所选择的软件WEKA进行了学习已经运用。WEKA作为一个公开的免费的数据挖掘品台,集合了大量的能进行数据挖掘的机器学习算法,包括对数据的预处理,分类,回归,聚类,关联规则以及可视化等。本次实验我选择采用分类的方式对数据进行挖掘实验,同时在实验中选择不同的算法最终达到了我想要的效果,使用WEKA对UCI中的乳腺疾病进行挖掘,得出了判断乳腺癌患者二次复发几率的主要原因,准确率达到了745。数据挖掘在医疗数据处理中起到了极大的作用,对医学
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。