已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本 科 毕 业 论 文基于临床数据的数据挖掘软件开发 分类分析模块及关联规则模块设计The Software Development of Clinical Data MiningThe Design of Classification Analysis Module and Association Module姓 名: 学 号:学 院: 系: 专 业: 年 级: 校内指导教师: 助理教授 年 月毕业论文任务书题 目:基于临床数据的数据挖掘软件开发 分类分析模块及关联规则模块设计目标要求:一、整体设计目标完成一个针对癌症病理医学临床数据的数据分析挖掘软件,包括后台功能的实现和前台管理软件界面的设计。基于weka进行二次开发,参考AlphaMiner和KNIME的分析流程及可视化功能,完成算法程序的设计以及实现相应的软件包,并最终保证软件界面友好,运行稳定,功能完善。二、分类器模块设计目标简述模块功能:选择要处理的数据集,对数据集进行分类处理 。针对数据集可以选择不同的算法,最基本的分类器算法有:朴素贝叶斯、多层感知器、神经网络、J48决策树,集成学习算法,其中集成学习又可以选用多层感知器、神经网络、J48决策树的方法。模块算法可以添加、删除、扩展等新的功能。功能算法部分采用如果库函数有则直接调用,没有则直接编写的原则,实现基于weka库函数的若干算法。实现不同算法的参数设置、保存、修改、及解释。数据的查看,决策树挖掘结果的树形可视化,文本结果的保存等。设置测试选项,实现5折交叉测试和10折交叉测试。三、关联规则模块设计目标:简述模块功能:关联规则挖掘是软件设计的最基础目标,目的在于挖掘出不同类型数据之间的联系。采用weka库函数提供的Apriori算法,实现Apriori算法的参数设置、保存、修改、及解释,以此为基础实现基于单表的管理规则挖掘,选择特定的两属性进行关联规则挖掘。采用将两个不同的数据源合并的方法实现基于多表的关联规则挖掘。编写JSApriori算法,在有一个数据表的基础上,再导入一个数据表,并通过关键字段将两表连接成为一个表对拓展后的表进行数据挖掘。支持条件: 学校图书馆 学院实验室 权威学术刊物数据库校内指导教师(签名) 职称 学生(签名) 分阶段进度安排阶段起讫时间计划完成内容12009年11月16日-2010年1月11日阅读文献资料,理解任务,完成开题报告。22010年1月12日-2010年3月19日项目总体设计和详细设计,完成中期检查报告。32010年3月20日-2010年4月15日系统编码实现。42010年4月15日-2010年5月10日系统测试与完善以及论文的撰写、修改。52010年5月10日-2010年6月10日论文定稿,准备论文答辩。注:一般可分为资料文献搜索、拟定方案(提纲)、试验或初稿、定稿等阶段教师分阶段指导记录第一阶段:指导时间:2009年11月16日-2010年1月11日指导内容:阅读文献资料,理解任务,完成开题报告阶段任务:指导完成论文题目的选定,并提供给相应的课题材料用于参考与分析,明确参考文献的查找范围。帮助理解任务,指导完成开题报告。第二阶段:指导时间:2010年1月12日-2010年3月19日指导内容:进一步调研,部分完成核心模块代码,完成中期检查报告阶段任务:进一步细化和理解系统需求,指导学生掌握相关知识。第三阶段:指导时间:2010年3月20日-2010年4月15日指导内容:逐步完成项目的概要设计和详细设计以及系统编码阶段任务:在学生有了详细设计之后,帮助学生完成代码的编写,实现各个功能模块。第四阶段:指导时间:2010年4月15日-2010年5月10日指导内容:指导完成论文初稿 阶段任务:进行系统测试,并指导学生组织材料,完成论文初稿。第五阶段:指导时间:2010年5月10日-2010年6月10日指导内容:指导完成毕业论文及准备答辩阶段任务:通过对论文初稿的评阅,指出其论文内容和格式上的问题,指导他们进行更正,并最终完成毕业论文。并指导学生准备毕业论文答辩。厦门大学软件学院毕业设计(论文)开题报告学生姓名班级06级1班学号校外指导教师姓名/职称/所在单位/校内指导教师姓名刘昆宏职称助理教授所在单位厦门大学软件学院毕业设计(论文)题 目基于临床数据的数据挖掘软件开发 分类分析模块及关联规则模块设计毕业设计(论文)的目标:一、整体设计目标完成一个针对癌症病理医学临床数据的数据分析挖掘软件,包括后台功能的实现和前台管理软件界面的设计。基于weka进行二次开发,参考AlphaMiner和KNIME的分析流程及可视化功能,完成算法程序的设计以及实现相应的软件包,并最终保证软件界面友好,运行稳定,功能完善。二、分类器模块设计目标简述模块功能:选择要处理的数据集,对数据集进行分类处理 。针对数据集可以选择不同的算法,最基本的分类器算法有:朴素贝叶斯、多层感知器、神经网络、J48决策树,集成学习算法,其中集成学习又可以选用多层感知器、神经网络、J48决策树的方法。模块算法可以添加、删除、扩展等新的功能。功能算法部分采用如果库函数有则直接调用,没有则直接编写的原则,实现基于weka库函数的若干算法。实现不同算法的参数设置、保存、修改、及解释。数据的查看,决策树挖掘结果的树形可视化,文本结果的保存等。设置测试选项,实现5折交叉测试和10折交叉测试。三、关联规则模块设计目标:简述模块功能:关联规则挖掘是软件设计的最基础目标,目的在于挖掘出不同类型数据之间的联系。采用weka库函数提供的Apriori算法,实现Apriori算法的参数设置、保存、修改、及解释,以此为基础实现基于单表的管理规则挖掘,选择特定的两属性进行关联规则挖掘。采用将两个不同的数据源合并的方法实现基于多表的关联规则挖掘。编写JSApriori算法,在有一个数据表的基础上,再导入一个数据表,并通过关键字段将两表连接成为一个表对拓展后的表进行数据挖掘。实现方法:一、基本环境开发工具:Eclipse/MyEclipse开发语言:Java开发环境:Windows XP项目管理:SVN二、概念及原理(一) 分类器原理分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集,是为学习阶段。第二步,通过分析由属性描述的样本(或实例,对象等)来构造模型。1、分类方法介绍假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集。Weka分类算法的父类已经定义好了类Classifier的结构和框架,其中有三个最主要的方法:a) buildClassifier():这是一个抽象方法,所有继承他的类都要事先改方法。用于构造分类器,这是分类算法的统一接口,不同的分类算法主要就是在这个方法上不同,如Bayes等。b) classifyInstance()建立了分类学习模型后,训练了一定的数据,求每一个实例的类概率,就是这个方法实现的,用于预测实例更可能属于的类别,主要用于预测类标志为数值类型的分类。c) distributionForInstance()用于预测给定实例归为某个类的概率。如果实例没有被分类,返回一个全零的数组,如果类标志是数值类型的,则只返回一个值。所有的分类器必须实现classifyInstance()和distributionForInstance()中的一个。2、分类器算法1) 朴素贝叶斯(NBC)基于贝叶斯定理: 朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。在属性相关性较小时,NBC模型的性能最为良好。朴素贝叶斯模型:Vmap=arg max P( Vj | a1,a2.an) Vj属于V集合,其中Vmap是给定一个example,得到的最可能的目标值,其中a1.an是这个example里面的属性, Vmap目标值,就是后面计算得出的概率最大的一个.所以用max 来表示。2) 多层感知器(MLP)使用感知器的主要目的是为了对外部输入进行分类。多层感知器是通过在单层感知器的输入、输出层之间加入一层或多层处理单元所构成的,它的输入与输出之间是一种高度非线性的映射关系,可以实现非线性可分问题的分类。3) RBF神经网络神经网络思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。人工神经网络就是模拟人思维的第二种方式,其特色在于信息的分布式存储和并行协同处理。4) J48决策树决策树算一种类似于流程图的树结构,其中每个内部节点表示一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。决策树很擅长处理非数值型数据。5) 集成学习(Bagging)使用bagging算法进行预测,分别选择J48决策树,多层感知器和RBF神经网络作为基学习器,在单个学习器相同参数设置的情况下比较使用单个学习器与使用集成学习系统获得的结果有什么不同,并分析原因;一般设置基学习器个数为10。(二)测试集选项之所以要作测试主要算为了测试算法的准确性,最常用的测试方法有两种:设置测试集和交叉测试。选择选项里面的测试方式:1) 设置测试集(Supplied test set):需要导入测试集树据与原数据集处理的结果进行对比分析。2) 交叉测试:设置交叉测试参数(Cross-validation Flods),测试参数设置的越大准确性越高,但同时需要花费的时间也多,因此为了取得效率和质量的平衡,一般设置参数为10即10折交叉验证。为了满足不同测试数量的结果不同还要实现5折交叉验证。具体功能实现包含在参数设置模块里面。(三)关联规则原理数据关联:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets)。第二阶段再由这些高频项目组中产生关联规则(Association Rules)。1、Apriori算法:Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。Apriori在weka中关联规则用到的核心类有:Apriori.java,AprioriItemSet.java,ItemSet.java。Apriori.java实现了Apriori类, 它是Apriori算法实现的主类。在对数据源文件进行Apriori 算法运算时, 就是从该类的main 函数调用开始的。Apriori中用到的关键函数有:resetOptions():被构造函数Apriori()调用, 完成初始化变量的工作;buildAssociations(Instances):本函数是生成关联规则的核心函数, 它调用了findLargeItemSets和findRulesQuickly函数以生成规则;findLargeItemSets( ):找出所有出现频率大于m_ minSupport的选项集;findRulesQuickly():找出所有的关联规则。2、多表关联规则当数据库中的表以星型模式组织在一起的时候,采用一种非ILP方法的算法即JSApriori算法,该算法分为两个阶段;在第一阶段,通过分析事实表的外键到维表主键之间的联系,算法首先在每个单独的表上运用修改的Apriori算法找寻频繁项集;在第二阶段,将属于不同表的频繁项集进行合并,寻找合并后仍频繁的项集。该算法可以得出与Apriori算法运行在链接的表上相同的结果,而且具有更好的性能。算法步骤具体步骤如下:(1) 在每个单独的维表上寻找频繁项集。(2) 利用事实表发现跨维表的频繁项集。该算法先后采用两步完成不同的处理工作,连接和处理,因此,不必存储和完整的生成它。这是该算法比直接在连接表上运行Apriori算法效率有所提高的原因。三、具体实现方法主要基于开源数据挖掘软件weka进行关联规则和分类分析方法的实现,即通过使用weka中关联规则和分类分析相关的核心类和调用其中的方法,实现满足聚类分析的基本功能要求。最核心的方法有buildClusterer。buildClusterer是Apriori、J48、NaiveBayes、RBFNetwork、MultilayerPerceptron和Bagging方法的接口方法,是分类及关联规则都必须实现的方法。在调用weka的函数方法时,首先声明需要使用的方法对象,导入待进行挖掘的数据集,并对数据集进行格式判断,对不符合挖掘要求的数据首先进行格式转换。调用buildClusterer方法,对数据集进行挖掘,返回字符串型的挖掘结果。四、结果分析调用buildClusterer方法还只是对数据进行了挖掘,需要对挖掘的结果进行分析。Weka提供的结果分析模板类Evaluationt包含了toSummaryString()、toClassDetailsString()、toMatrixString(),三个不同方式的分析结果。在使用模板类进行结果分析之前还必须调用分类方法processClassifierPrediction方法对挖掘的数据集进行处理。数据挖掘的结果一般以文本结构显示在结果区,设置不同的参数,对不同参数的运行进行比较分析。J48分类决策树方法还提供了树形可视化结果,方便用户的结果全方位、多角度的分析。时间进度安排: 2009年11月16日2009年12月22日:查阅相关书记资料,所有概念的细节敲定,并提出系统的总体设计框架。 2009年12月23日2010年1月11日:征求导师意见后进一步改进,整理提交毕业设计开题报告。 2010年1月12日2010年2月21日:整理并研究数据,对必要技术以及工具进一步了解学习。 2010年2月22日2010年3月20日:完成系统的详细设计、界面原型,统一系统框架以及模块接口设计。 2010年3月20日2010年5月10日:完成基本代码的编写与修改,整个模块基本完成,并集成测试,整个软件主体基本完成。 2010年5月11日2010年5月17日:系统测试,确认所需要的功能均已经完成,并完成集体功能检查。 2010年5月18日2010年5月24日:项目文档终稿完成,提交毕业论文,准备毕业答辩。指导教师审核意见: 校内指导教师签名: 2010年 月 日厦门大学软件学院毕业设计(论文)中期检查报告学生姓名班级06级1班学号校外指导教师姓名/职称/所在单位/校内指导教师姓名刘昆宏职称助理教授所在单位厦门大学软件学院毕业设计(论文)题 目基于临床数据的数据挖掘软件开发 分类分析模块及关联规则模块设计毕业设计(论文)的目标和主要任务:一、整体设计目标完成一个针对癌症病理医学临床数据的数据分析挖掘软件,包括后台功能的实现和前台管理软件界面的设计。基于weka进行二次开发,参考AlphaMiner和KNIME的分析流程及可视化功能,完成算法程序的设计以及实现相应的软件包,并最终保证软件界面友好,运行稳定,功能完善。二、分类器模块设计目标简述模块功能:选择要处理的数据集,对数据集进行分类处理 。针对数据集可以选择不同的算法,最基本的分类器算法有:朴素贝叶斯、多层感知器、神经网络、J48决策树,集成学习算法,其中集成学习又可以选用多层感知器、神经网络、J48决策树的方法。模块算法可以添加、删除、扩展等新的功能。功能算法部分采用如果库函数有则直接调用,没有则直接编写的原则,实现基于weka库函数的若干算法。实现不同算法的参数设置、保存、修改、及解释。数据的查看,决策树挖掘结果的树形可视化,文本结果的保存等。设置测试选项,实现5折交叉测试和10折交叉测试。三、关联规则模块设计目标:简述模块功能:关联规则挖掘是软件设计的最基础目标,目的在于挖掘出不同类型数据之间的联系。采用weka库函数提供的Apriori算法,实现Apriori算法的参数设置、保存、修改、及解释,以此为基础实现基于单表的管理规则挖掘,选择特定的两属性进行关联规则挖掘。采用将两个不同的数据源合并的方法实现基于多表的关联规则挖掘。编写JSApriori算法,在有一个数据表的基础上,再导入一个数据表,并通过关键字段将两表连接成为一个表对拓展后的表进行数据挖掘。已经完成毕业设计(论文)任务的情况:1. 建立项目:eagleI,在googleCode上建立一个项目,使用SVN进行项目在线管理。2. 项目模块划分:界面模块UI部分,事件相应处理event模块,内部代码调用接口interfacers模块,数据预处理preparation模块,数据分类器classifiers模块,聚类clusterers模块,关联规则associ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扣款管理协议书范本
- 2025年中职经济贸易(国际贸易法规基础)试题及答案
- 2025年中职建筑工程施工(混凝土工程)试题及答案
- 2025年中职计算机应用技术(办公软件高级应用)试题及答案
- 2025年中职机电一体化技术(机电一体化应用)试题及答案
- 外科围手术期健康教育路径优化实践
- 可视化分析:成本管控目标的图形解读
- 骨牵引护理常见误区与规避课件
- 人教版六年级现在进行时测试题
- 六年级下册期末数学真题模拟试题A卷解析
- 【完整版】基于PLC的生产线输送带控制系统设计毕业论文设计(论文)
- 左肺上叶切除术后护理
- 建筑居间合同范本
- 2024版LPCVD设备操作详解培训
- 2024年设计服务协议标准文本版
- 01685《动漫艺术概论》历年考试真题试题库(含答案)
- 2024年全国“红旗杯”班组长大赛(复赛)备考试题库(简答、案例分析题)
- 土建劳务扩大分包招标文件模板
- DL5190.5-2019电力建设施工技术规范第5部分:管道及系统
- 中国音乐史智慧树知到期末考试答案章节答案2024年聊城大学
- 中外儿童文学经典阅读与写作智慧树知到期末考试答案2024年
评论
0/150
提交评论