开题报告-关联规则数据挖掘算法分析.docx_第1页
开题报告-关联规则数据挖掘算法分析.docx_第2页
开题报告-关联规则数据挖掘算法分析.docx_第3页
开题报告-关联规则数据挖掘算法分析.docx_第4页
开题报告-关联规则数据挖掘算法分析.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科生毕业论文(设计)开题报告题 目: 关联规则数据挖掘算法分析 姓 名: 学 院: 信息科技学院 专 业: 计算机科学与技术 班 级: 计科121 学 号: 指导教师: 职称: 副教授 2016 年 1 月 19 日南京农业大学教务处制本课题的意义、国内外研究概况、应用前景等(列出主要参考文献)本课题的意义、国内外研究概况、应用前景等(列出主要参考文献) 意义: 数据挖掘技术可以用来支持商业智能应用和决策分析,例如顾客细分、交叉销售、欺诈检测、顾客流失分析、商品销量预测等等,目前广泛应用于银行、金融、医疗、工业、零售和电信等行业。数据挖掘技术的发展对于各行各业来说,都具有重要的现实意义。 国内外发展概况及应用前景: 国内:与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。 国外:自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。 参考文献: 1 穆瑞辉,付欢.浅析数据挖掘概念与技术J.新乡教育学院学报,2008,03:105-106. 2 孔芳.数据挖掘技术中关联规则算法的研究D.江南大学,2008. 3 贾琳.数据挖掘技术及应用的研究D.兰州理工大学,2003. 4 王艳.数据挖掘中关联规则算法的研究D.西南交通大学,2004. 5 贺伟淞.可视化数据挖掘工具的设计与实现D.电子科技大学,2005. 6 张慧萍.数据挖掘技术与应用研究D.武汉科技大学,2005. 7 侯兵.关联规则挖掘算法研究D.西南交通大学,2006. 8 高明.关联规则挖掘算法的研究及其应用D.山东师范大学,2006. 研究的目标、内容和拟解决的关键问题研究的目标、内容和拟解决的关键问题 研究目标: 具体实现Apriori、FP-Growth及Eclat算法,对算法进行验证分析主要有以下几个目标: 1、 深入了解各个算法思想; 2、 算法的代码实现; 3、 对各个算法进行测试并进行对比; 4、 将对比结果直观的表现出来并对各个算法进行具体的分析比较。 研究内容: 这次所要做的算法是基于关联规则的数据挖掘算法,算法主要包括Apriori算法、Fp-growth算法以及Eclat算法,这三个算法是关联规则中具有代表性的算法。在进行验证时,对Mushroom、Accidents、T10I4D100K 三个数据集做频繁模式挖掘实验,设定不同的阈值,对比不同算法挖掘频繁模式的时间与结果。所以主要的研究内容有以下几个方面: 1、 数据挖掘的思想; 2、 基于关联规则的算法可以解决的问题; 3、 算法的原理; 4、 算法代码阐释; 5、 算法对不同的数据集进行挖掘; 6、 不同算法对相同的数据集进行挖掘; 7、 不同算法对相同数据集设定不同阈值时进行挖掘; 8、 将不同实验的挖掘结果与所用时间进行比较分析; 9、 分析各种算法的优缺点及其擅长领域; 10、 将分析结果直观的展现; 拟解决的关键问题: 1、 算法思想的理解; 2、 算法的代码实现; 3、 不同算法的比较分析。 研究方法、技术路线、实验方案及可行性分析研究方法、技术路线、实验方案及可行性分析 研究方法: 1、 通过查阅书籍资料以及网上搜寻相关论文资料做好前期准备; 2、 结合相关资料,了解算法的思想与步骤; 3、 编写具体代码,实现算法; 4、 对不同的算法进行测试; 5、 将各个算法的结果显示; 6、 对不同的算法进行比较与分析; 7、 将分析结果系统整理。 可行性分析: 用于测试的Mushroom、Accidents、T10I4D100K 三个数据集被广泛用于频繁模式挖掘,Accidents与Mushroom数据集较小,数据稠密,而T10I4D100K数据集较大,频繁项集较分散,是一个稀疏型的数据集;通过对三个数据集的数据挖掘的结果与时间进行分析与比较,从而看出不同的算法的更适于何种数据集及各种算法的优缺点分析。开发环境拟采用My Eclipse10.0及以上版本,都为现阶段被大量使用的开发环境,易于该系统的开发以及之后答辩时的展示和使用。 特色或创新之处特色或创新之处 1、 可以清楚的显示算法的执行结果及时间; 2、 方便对算法进行对比与分析。 研究计划及预期进展研究计划及预期进展 12.20之前 前期资料搜集,开题报告书写 12.20-1.20 系统学习数据挖掘 1.20-2.20 三个算法的思想学习并设计实现算法步骤 2.20-3.20 将算法的代码实现完成 3.20-4.01 对不同的算法进行比较与分析 已具备的条件、尚缺少的条件和拟解决的途径(包括利用教学实验中心、科研实验室、实习基地、校外其它企事业单位等条件的计划与落实情况)已具备的条件、尚缺少的条件和拟解决的途径(包括利用教学实验中心、科研实验室、实习基地、校外其它企事业单位等条件的计划与落实情况) 已具备的条件: 1、 指导老师 2、 资料 3、 电脑 4、 时间 不具备的条件: 1、 操作经验 2、 理论知识 本科生毕业论文(设计)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论