（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf

上传人：灰*** IP属地：宁夏上传时间：2020-01-09 格式：PDF 页数：73 大小：2.24MB 积分：0 举报 版权申诉

（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf_第2页

（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf_第3页

（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf_第4页

（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf_第5页

已阅读5页，还剩68页未读，继续免费阅读

（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要数据挖掘就是从海量数据中提取知识又被称为数据库中的知识发现它是一个跨学科的新兴研究领域关联规则分析是其中的一个重要分支它基于数据项的同时出现特征从数据库中发现项或属性间事先未知且隐藏的有趣联系从大型数据库中挖掘关联规则的问题已经成为近年来数据挖掘研究领域中的一个热点本文首先介绍了数据挖掘的基本概念存在问题及发展方向其次介绍了关联规则分析的基本概念分类及一些常见的算法思想并着重讨论了一些经典的关联规则算法为解决频繁模式挖掘问题本文通过分析f p g r o w t h 算法中包含的冗余操作引入数据结构f p 参考树表改变f p g r o w t h 算法中条件模式基的存储和生成方式提出了新的f p r s g 算法高效地解决了频繁模式挖掘问题理论分析与实验结果表明 f p r s g 算法优于经典的f p g r o w t h 算法数据挖掘与科学研究的结合是近来新兴的研究课题在很多方面都有值得研究的地方大规模科学数据具有数据量大特征复杂的特点在对其进行处理时往往使得理解分析这些科学数据并从中获取知识变得十分困难由此科学数据挖掘势在必行为了提高科学数据存储和传输的效率本文提出一种基于遗传算法的科学数据压缩率预测方法为检验本方法对给定的科学数据的效果关联规则被用于科学数据压缩率预测的训练结果评估评估结果对于领域研究人员也有一定的参考价值在本文的最后对全文内容进行总结并展望了数据挖掘进一步研究和应用的方向关键词数据挖掘科学数据关联规则频繁模式数据压缩 a b s t r a c t a b s t r a c t d a t am i n i n g a l s ok n o w na sk n o w l e d g ed i s c o v e r yi nd a t a b a s e d i s t i l l sk n o w l e d g e f r o mam a s so fd a t a i ti san e wr e s e a r c ha r e ai n v o l v i n gs e v e r a lb r a n c h e so fm a c h i n e l e a r n i n ga n dc o n t a i n i n gm a n yd o m a i n s a s s o c i a t i o nr u l ei so n eo ft h em o s ti m p o r t a n t d o m a i n sa m o n gt h o s eo fd a t am i n i n g w h i c hf i n d si n t e r e s t i n gr e l a t i o n s h i p sb e t w e e n i t e m so ra t t r i b u t e sf r o md a t a b a s e a s s o c i a t i o nr u l ee x t r a c t i o nf r o ml a r g ed a t a b a s eh a s b e c o m ea na c t i v ef i e l d i nt h eb e g i n n i n go ft h i st h e s i ss o m eb a s i cp r i n c i p a lt h e o r i e s a p p r o a c h e sa n d p r o b l e m so fd a t am i n i n g a r ei n t r o d u c e d f o l l o w e d b yc o n c e p t i o n s c a t e g o r i e sa n d g e n e r a lt h o u g h t so fp o p u l a ra l g o r i t h m sa b o u ta s s o c i a t i o nr u l e af e wc l a s s i ca s s o c i a t i o n r o l ee x t r a c t i n ga l g o r i t h m sa r ed e e p l yd i s c u s s e d i no r d e rt or e s o l v ef r e q u e n tp a t t e r nn f i n i n gp r o b l e me f f i c i e n t l y r e d u n d a n to p e r a t i o n a n dt e m p o r a r yd a t ai nf p g r o w t ha l g o r i t h ma r ea n a l y z e d d a t as t r u c t u r e s f p r t r e ea n d f p r l i s t a r ei m p o s e d t h em e t h o do fc o n d i t i o n a lp a t t e r nb a s eg e n e r a t i o na n ds t o r a g e i n f p g r o w t ha l g o r i t h mi si m p r o v e d a n d an e wf p r s ga l g o r i t b a ni s p r e s e n t e d t h e o r e t i c a la n a l y s i sa n de x p e r i m e n tr e s u l tb o t hs h o wt h a tf p r s gi sm o r ee f f i c i e n tt h a n f p g r o w t h t h ec o m b i n a t i o no fd a t am i n i n ga n ds c i e n t i f i cr e s e a r c hi sar e l a t i v e l yn e ws u b j e c t a n di ti sw o r t hr e s e a r c h i n gi nm a n ya s p e c t s l a r g e s c a l es c i e n t i f i cd a t ah a v ei t su n i q u e c h a r a c t e r i s t i c s s u c ha sh 1 耀pd a t aq u a n t i t i e sa n dc o m p l i c a t e df e a t u r e s w h i c hu s u m l y m a k e si td i f f i c u l tt ou n d e r s t a n d a n a l y z ea n de x t r a c tk n o w l e d g ef r o mt h e m t h u s s c i e n t i f i cd a t am i n i n gi si m p e r a t i v eu n d e rt h es i t u a t i o n i no r d e rt oi m p r o v ee f f i c i e n c yo fs c i e n t i f i cd a t as t o r a g ea n dt r a n s p o r t a t i o n s c i e n t i f i cd a t ac o m p r e s s i o nr a t ep r e d i c t i o nm e t h o db a s e do ng e n e t i ca l g o r i t h mi s p r o p o s e d a n da s s o c i a t i o nr u l ei su s e dt oe v a l u a t ei t st r a i n i n gr e s u l tt of i n do u tw h e t h e r t h em e t h o di sa p p l i c a b l et oc e r t a i ng i v e ns c i e n t i f i cd a t a t h ee v a l u a t i o nr e s u l t sa l s oh a v e c e r t a i nv a l u et od o m a i ns c i e n t i s t s i nt h el a s tp a r to ft h et h e s i s t h ec o n c l u s i o na n dp r o s p e c to fd a t am i n i n gr e s e a r c h a n da p p l i c a t i o ni sg i v e n k e yw o r d s d a t am i n i n g s c i e n t i f i cd a t a a s s o c i a t i o nr u l e s f r e q u e n tp a t t e r n d a t ac o m p r e s s i o n i i 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果据我所知除了文中特别加以标注和致谢的地方外论文中不包含其他人已经发表或撰写过的研究成果也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意签名磁日期 2 年f 月n 日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留使用学位论文的规定有权保留并向国家有关部门或机构送交论文的复印件和磁盘允许论文被查阅和借阅本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存汇编学位论文保密的学位论文在解密后应遵守此规定签名导师签名监日期 2 印彳年箩月 2 日第一章绪论 1 1 研究背景第一章绪论近十几年来人们利用信息技术生产和搜集数据的能力大幅度提高不计其数的数据库被用于商业管理政府办公科学研究和工程开发等领域这一势头仍将持续发展下去但是现代化的数据库技术虽然能够经济高效地储存检索与管理这些信息数据流但却缺乏必要的技术来帮助我们分析理解甚至是将这些数据可视化地表达出来在如此大量的数据背后隐藏了很多具有决策意义的信息怎样才能得到这些知识呢于是一个新的挑战摆在我们面前在这信息爆炸的时代信息过量几乎成为人人需要面对的问题如何才能不被信息的汪洋大海所淹没而是从中及时发现有用的知识提高信息利用率昵要想使科学实验数据真正地为科研服务只有充分对其进行分析挖掘帮助科研工作者发现以前不能发现的问题找出以前不能找出的规律要想使数据真正成为一个公司的资源只有充分利用它为公司自身的业务决策和战略发展服务才行否则大量的数据反而可能成为包袱甚至成为垃圾因此面对人们被数据淹没却饥饿于知识的挑战数据挖掘和知识发现技术应运而生并得以蓬勃发展越来越显示出其强大的生命力数据挖掘 d a t a m i n i n g 就是从大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程还有很多和这一术语相近似的术语如从数据库中发现知识 k d d 数据分析数据融合 d a t af u s i o n 以及决策支持等人们把原始数据看作是形成知识的源泉就像从矿石中采矿一样原始数据可以是结构化的如关系型数据库中的数据也可以是半结构化的如文本图形图像数据甚至是分布在网络上的异构型数据发现知识的方法可以是数学的也可以是非数学的可以是演绎的也可以是归纳的发现的知识可以被用于信息管理查询优化决策支持过程控制等还可以用于数据自身的维护因此数据挖掘是一门广义的交叉学科它汇聚了不同领域的研究者尤其是数据库人工智能数理统计可视化并行计算等方面的学者和工程技术人员理解数据挖掘定义需要从技术和应用两个层面进行从技术层面上来看数电子科技大学硕士学位论文据挖掘是利用多种分析手段f 1 2 3 1 基于机器学习统计学习神经网络数据库系统信息科学等技术从海量数据中发现其中的模式从应用层面看数据挖掘是决策支持过程运用各种技术分析企业商务数据为企业提供正确市场预测销售组合客户分析等支持特别要指出的是数据挖掘技术从一开始就是面向应用的它超越了面向特定数据库的简单检索查询调用而是对这些数据进行微观中观乃至宏观的统计分析综合推理学习和评估以指导实际问题的求解企图发现事件问的相互关联甚至利用已有的数据对未来的活动进行预测在科学研究领域技术的革新使科学家能够以不断增加的速度从试验仿真及观测中收集数据数据容量从近来的百万字节到现在的千兆字节并且不久就将达到万亿字节我们产生数据的能力已经远远超过了我们对它们的研究分析和理解的能力并且经常收集的可利用的复杂数据都是图像或者时间序列为了实现我们的科学目标我们需要通过从这些数据中提取有用的信息来充分的对它们进行知识开采可不幸的是在许多科学领域中数据的尺度范围如此之大复杂度如此之高以至于使用人工来对它们进行分析研究和理解完全是不切实际的科学家们几乎不可能通过手工的方式来发现各数据源之间的潜在联系这导致的结果是有用的信息经常被忽视掉并且增强了的计算能力和数据搜集能力的潜在优势只能部分发挥出来这迫切需要研究出与此对应的新的数据挖掘技术及其挖掘工具来解决此类问题为了解决这个问题我们应用并扩展了数据挖掘领域的方法开发了新的科学数据挖掘技术希望能够提高科学家与大规模高维度时变的科学数据之间的交互性这些技术能够帮助我们自动地在数据中进行模式识别并且使科学家们能够以交互方式对感兴趣的某些领域的数据进行知识开采目前国外对数据挖掘技术的研究比较多但专门针对科学数据的研究非常少国内此领域的研究处于初步的起始阶段成熟的研究成果基本空白现在科学仿真数据和实验数据越来越多越来越复杂给表示存储理解分析和可视化带来了困难目前国外已有不少的科学数据格式标准如c d f n e t c d f h d f 5 等也相应地诞生了各种各样的科学数据管理系统它们给科学数据的存储和管理带来了方便对于模拟数据常常以网格 m e s h 形式表示通用的格式系统如上述三种数据格式系统均支持网格数据 m e s hd a t a f f j 存储和处理尽管如此要理解分析这些数据并从中获取知识仍是不易科学数据集有其本身的特性如数据的时空相关性使得现有的数据挖掘技术不能够完全适应这种特性又如第一章绪论数值模拟科学数据具有特征互相交错复杂难于抽取数据维数高数据集大运算效率低等特性利用传统的数据挖掘算法进行知识发现执行效率低下且效果较差因此科学数据挖掘势在必行科学数据内在结构和应用上的特点使得科学数据挖掘不但具有很高的应用价值同时也具有显著的理论研究价值对科学数据的挖掘在方法的研究和应用上都具有空前的挑战性和驱动力如何对数值模拟的海量数据进行分析如何智能地从中获取科学家们感兴趣的有益信息如何从己知的海量数据去分析其间的相互关联预测未知信息及趋势这些都是我们在研究中需要克服的困难和关键问题因此我们将考虑新的适用解决方案以解决科学数据挖掘中不同于商业和传统数据挖掘中的特征析取和数据融合等问题 6 1 2 数据挖掘的发展及研究状况 1 2 1 知识发现和数据挖掘的起源早在八十年代人们就估算全世界的数据总量2 0 个月就会翻番进入九十年代后数据量会增长得更快在这样的数据增长速度下信息爆炸和数据过剩成为了当今数字化社会面l 缶的巨大挑战进入九十年代后数据库技术的一个新领域数据仓库 d a t aw a r e h o u s e 以及人工智能领域中的一个分支机器学习 m a c h i n el e a r n i n g 的研究取得了很大进展在这两门学科的相互融合下数据库中的知识发现 k n o w l e d g ed i s c o v e r yi n d a t a b a s e k d d 及其核心技术数据挖掘就这样应运而生了数据库技术的日益成熟和数据仓库的发展为知识发现和数据挖掘提供了发挥的平台而机器学习又为数据挖掘提供了大量的方法因此知识发现和数据挖掘是应用需求推动下跨学科发展的产物1 8 1 2 2 知识发现和数据挖掘的发展概况目前知识发现不仅被许多研究人员看作是数据库系统和机器学习方面一个重要的研究课题而且被许多工商界人士看作是一个能带来巨大回报的重要领域 1 9 8 9 年8 月在美国底特律的第1 1 届国际人工智能联合会议的专题讨论会上召电子科技大学硕士学位论文开了第一届k d d 的w o r k s h o p 1 9 9 1 1 9 9 3 和1 9 9 4 年又接着举行k d d 专题讨论会 1 9 9 5 年在加拿大蒙特利尔召开了第一届知识发现和数据挖掘学术会议数据挖掘一词随即流行开来此后每年都举办一次k d d 国际会议从1 9 9 7 年开始 k d d 也拥有自己的专门杂志 k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g 1 9 9 5 年以来国外在知识发现和数据挖掘方面的论文非常多已形成了热门研究方向 1 3 关联规则研究及应用状况关联规则挖掘 a s s o c i a t i o nr u l em i n i n g 是数据挖掘研究领域的一个重要分支该问题于1 9 9 3 年由a g r a w a l 等人在对市场购物篮问题 m a r k e t b a s k e t a n a l y s i s 进行分析时首次提出 9 用以发现商品销售中的顾客购买模式关联规则挖掘的目标是找出隐藏在数据间的相互关系它从一组给定的数据项以及事务集中分析出数据项集在事务集中出现的频度关系这些关系是事先未知的且隐藏的也就是说不能通过数据库的逻辑操作如表的联接或统计的方法得出著名的啤酒和尿布就是一个关联规则的例子所发现的关联规则可以辅助人们进行市场运作 m a r k e t i n g 决策支持 d e c i s i o ns u p p o r t 商业管t a b u s i n e s sm a n a g e m e n t 和网站设计 w e bs i t ed e s i g n 等m 关联规则问题提出以后诸多的研究人员对关联规则挖掘的各个方面进行了大量的研究他们的工作包括对原有的算法进行优化如引入随机采样并行的思想等以提高算法挖掘规则的效率也提出一些新种类的关联规则还对关联规则的应用进行推广在关联规则挖掘算法上 a g r a w a l 等人提出了经典的频集方法a p r i o r i 该方法衍生出许多不同的版本也有独立于该方法的工作以避免基于频集方法的一些缺陷同时随着o l a p 技术的成熟和应用将o l a p 和关联规则结合也成了一个重要的方向也有一些工作注重于对挖掘到的模式的价值进行评估他们提出的模型建议了一些值得考虑的研究方向目前关联规则挖掘问题己经引起了数据库人工智能统计学信息检索可视化及信息科学等诸多领域里的广大学者和研究机构的格外重视并取得了丰富的研究成果由于关联规则形式简洁易于解释和理解并能有效的捕捉数据间的重要关系因此从大型数据库中挖掘关联规则的问题已经成为近年来数据挖掘研究领域中的一个热点 4 第一章绪论 1 4 作者所做工作及本文内容安排 1 4 1 作者所做工作作者目前主要研究关联规则算法以及各种数据挖掘方法在科学数据挖掘中的应用这一题目涉及到数据挖掘与领域科学研究的结合具有显然的科学意义和很高的应用价值作者所做工作可概括为以下几个方面 1 通过查阅国内外大量相关技术文献在了解各种数据挖掘技术的基础上针对大规模科学数据集研究数据挖掘技术确定了数据挖掘试验平台的流程设计和采掘方案 2 在分析比较数据挖掘的各种方法基础上选定关联规则进行深入研究在 f p g r o w t h 算法的基础上进行改进提出了f p r s g 算法 3 实现了基于f p r s g 算法的关联规则挖掘模块并用其对多个涉及到关联规则的科学应用进行关联规则提取 4 对遗传算法在科学数据挖掘中的应用进行研究提出了基于遗传算法的科学数据压缩率预测方法 5 将关联规则用于压缩率预测的结果评估与科学数据压缩率预测方法相结合形成完整应用 1 4 2 本文内容安排第1 章回顾了数据挖掘相关技术的发展历史和研究现状介绍了本课题的研究背景研究内容以及论文章节安排第2 章介绍和分析了数据挖掘的相关技术及应用领域第3 章介绍了关联规则的基础知识和经典算法a p r i o r i 第4 章对关联规则挖掘的另一个经典算法f p g r o w t h 进行分析找到其不足之处并对其作出改进提出一种改进算法f p r s g 并将它们的性能进行了比较第5 章介绍了科学数据挖掘项目背景提出基于遗传算法的科学数据压缩率预测方法并用关联规则对其结果进行评估第6 章总结了本文所述研究方向中存在的问题及进一步发展的方向电子科技大学硕士学位论文第二章数据挖掘概述在传统的决策支持系统中知识库中的知识和规则是由专家或程序人员建立的是由外部输入的而数据挖掘的任务是发现大量数据中尚未被发现的知识是从系统内部自动获取知识的过程对于那些决策者明确了解的信息可以用查询联机分析处理 o n l i n ea n a l y t i c a lp r o c e s s i n g 简写为o l a p 或其它工具直接获取而另外一些隐藏在大量数据中的关系趋势即使是管理这些数据的专家也是没有能力发现的这些信息对于决策可能又是至关重要的这类问题就可以用数据挖掘来解决数据挖掘指的是从大型数据库或数据仓库等数据存贮中提取人们感兴趣的知识这些知识是隐含的事先未知的潜在有用的信息数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向之一数据挖掘技术作为一种重要的商业决策技术已经越来越受到国际上的重视并成为企业界研究的一个热点例如电讯企业通过分析用户登录记录来识别线路故障保险公司在制定新的保险项目时通过历史记录来预测某项投保的风险性超市通过分析购买记录来作出能够促进销售的经营策略等等无一不用到数据挖掘的方法数据挖掘发现的知识可以直接提供给决策者用以辅助决策过程或者提供给领域专家修正专家已有的知识体系也可以作为新的知识转存到应用系统的知识存储机构中比如专家系统规则库等数据挖掘是一个多学科交叉领域涉及到机器学习模式识别统计学智能数据库知识获取数据可视化高性能计算专家系统等多个领域数据挖掘的成果可以用在信息管理过程控制科学研究决策支持等许多方面 2 1 数据挖掘的定义当今数据库的容量已经达到万亿字节 t b 1 0 b y t e 的t g x z 在如此大量数据的背后隐藏了很多具有决策意义的信息那么怎么从数据中得到这些知识怎样通过一棵棵的树木了解到整个森林的情况计算机科学对这个问题给出的最新回答就是数据挖掘数据挖掘技术在数 6 第二罩数据挖掘概述据矿山中寻找蕴藏的知识金块帮助企业减少不必要投资的同时提高资金回报数据挖掘给企业带来的潜在的投资回报几乎是无止境的世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户重新制定他们的产品推广策略把产品推广给最需要的人希望以最小的花费得到最好的销售结果数据挖掘是一个逐渐演变的过程在计算机数据处理的初期人们就试图通过某些方法来实现自动决策支持当时机器学习成为人们关心的焦点机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机机器通过学习这些范例总结并生成相应的规则这些规则具有通用性使用它们可以解决某一类的问题随着神经网络技术的形成和发展人们的注意力转向知识工程知识工程不同于机器学习那样给计算机输入范例让它生成规则而是直接向计算机输入已被代码化的规则而计算机则通过使用这些规则来解决某些问题专家系统就是这种方法所得到的成果但它有投资大效果不甚理想等不足 8 0 年代人们又在新的理论指导下重新回到机器学习的方法上并将其成果应用于大型商业数据库的处理在8 0 年代末一个新的术语数据库中的知识发现 k d d k n o w l e d g ed i s c o v e r yi nd a t a b a s e 出现了它泛指所有从源数据中发掘模式或联系的方法人们接受了这个术语并用k d d 来描述整个数据发掘的过程包括最开始的制定业务目标到最终的结果分析而用数据挖掘 d a t am i n i n g 来描述使用挖掘算法进行数据挖掘的子过程但最近人们却逐渐开始发现数据挖掘中有许多工作可以由统计方法来完成并认为最好的策略是将统计方法与数据挖掘有机的结合起来数据挖掘 d a t am i n i n g 就是从大量的不完全的有噪声的模糊的随机的实际应用数据中提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程这个定义包括好几层含义数据源必须是真实的大量的含噪声的发现的是用户感兴趣的知识发现的知识要可接受可理解可运用并不要求发现放之四海皆准的知识仅支持特定的发现问题与数据挖掘相近的同义词有数据融合数据分析和决策支持等何为知识从广义上理解数据信息也是知识的表现形式但是人们更愿意把概念规则模式规律和约束等看作知识人们把数据看作是形成知识的源泉如同从矿石中采矿或淘金一样原始数据可以是结构化的如关系数据库中的数据也可以是半结构化的如文本图形和图像数据甚至是分布在网络电子科技大学硕士学位论文上的异构型数据发现知识的方法可以是数学的也可以是非数学的可以是演绎的也可以是归纳的发现的知识可以被用于信息管理查询优化决策支持和过程控制等还可以用于数据自身的维护因此数据挖掘是一门交叉学科它把人们对数据的应用从低层次的简单查询提升到从数据中挖掘知识提供决策支持在这种需求牵引下汇聚了不同领域的研究者尤其是数据库技术人工智能技术数理统计可视化技术并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域形成新的技术热点这里所说的知识发现不是要求发现放之四海而皆准的真理也不是要去发现全新的自然科学定理和数学公式更不是什么机器定理证明实际上所有发现的知识都是相对的是有特定前提和约束条件面向特定领域的同时还要能够易于被用户理解最好能用自然语言表达所发现的结果数据挖掘与传统的数据分析如查询报表联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息发现知识数据挖掘所得到的信息应具有先前未知有效和可实用三个特征其中先前未知的特征是指该信息是预先未曾预料到的即数据挖掘是要发现那些不能靠直觉发现的信息或知识甚至是违背直觉的信息或知识挖掘出的信息越是出乎意料就可能越有价值 2 2 数据挖掘的功能利用数据挖掘技术可以获得多种知识在许多情况下用户并不知道数据库中存在哪些有价值的知识因此一个数据挖掘系统应该能够同时发现多种模式的知识以便满足用户的需要下而介绍一下数据挖掘的功能数据挖掘功能用于指定数据挖掘任务中要找的模式类型数据挖掘任务一般可以分为两类描述和预测描述性挖掘要刻画数据库中数据的一般特性预测性挖掘在当前数据上进行推理来进行预测 1 概念描述定性与对比通过对含有大量数据的数据集进行概述性的总结可以获得简明准确的描述这种描述就称为概念描述获得概念描述的方法主要有以下三种 1 利用更为广义的属性对所分析的数据进行概要总结被分析的数据称为目标数据集 2 将所分析的两类数据的特点进行对比并对对比结果进行概要总结这两第二章数据挖掘概述类数据分别称为目标数据集和对比数据集 3 数据特征化和比较 2 关联分析详见第三章 3 分类和预测分类和预测是两种数据分析形式它们可用于抽取能够描述重要数据集和预测未来数据趋势的模型分类方法用于预测数据对象的离散类别预测方法用于预测数据对象的连续取值机器学习专家系统统计学和神经生物学等领域的研究人员已经提出了许多具体的分类预测方法数据分类过程主要包含两个步骤第一步是建立一个描述己知数据集类别的模型该模型通过对数据库中各数据对象内容的分析获得它是在己知训练样本类别的情况下通过学习建立相应的模型通常分类学习所获得的模型可以表示为分类规则形式决策树形式和数学公式形式第二步是利用所获得的模型进行分类操作经过评估如果模型的分类准确率是可以接受的那么就可以使用这一模型对未来的数据对象进行分类与分类学习方法相比预测方法可以认为是对未知类别数据对象的类别取值利用学习所获得的模型进行预测目前分类与预测方法己被广泛应用于各行各业如信用评估医疗诊断性能预测和市场营销等应用领域 4 聚类分析根据对象之间的相似程度将一群对象分为若干组的过程就是聚类过程一个聚类就是由彼此相似的一组对象所构成的集合不同聚类中的对象通常是不相似的聚类分析就是从给定的数据集中搜索数据对象之间所存在的有价值的联系在许多应用中一个聚类中所有对象常常被当作一个对象进行处理聚类分析己被应用于模式识别数据分析图象处理和市场分析等领域聚类分析与分类预测方法的区别在于两者的学习方法不同前者是无监督的学习方法后者属于有监督的学习方法 5 孤立点分析与其它数据不一致或非常不同的数据就称为孤立点数据大部分挖掘将孤立点视为噪声或异常而丢弃了但在一些应用场合如各种商业欺诈行为的自动检测小概率事件往往比经常发生的事件更有价值对孤立点的分析处理通常称为孤立点挖掘它的用途很广例如它可以用于欺诈检测即监测信用卡使用或电信服务中的异常行为还可以用于市场分析即通过分析花费较小或较高顾客的消费行为制定营销策略电子科技大学硕士学位论文 6 演变分析演变分析就是对随时间变化的数据对象的变化规律进行描述并建模这类分析包括时间序列数据分析序列或周期模式匹配和基于近似性的数据分析例如利用演化分析方法我们可以分析股票市场上主要股票的交易数据获得整个股票市场的股票演化规律这样我们能够准确地预测股票市场上的股票价格提高投资回报率 2 3 数据挖掘的工作流程数据挖掘中的工作流程大体内容如下 1 确定业务对象清晰地定义出业务问题认清数据挖掘的目的是数据挖掘的重要步骤挖掘最后生成的结果是不可预测的但要探索的问题应是有预见性的为了数据挖掘而数据挖掘则带有盲目性是不会成功的 2 数据准备 1 数据的选择搜集所有与业务对象有关的内部和外部数据信息并从中选择出适用于数据挖掘应用的数据 2 数据的预处理研究数据的质量为进一步的分析做准备并确定将要进行的挖掘操作的类型 3 数据的转换针对挖掘算法将数据转换成一个分析模型建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键 3 数据挖掘对经过转换的数据进行挖掘选择合适的挖掘算法是数据挖掘的关键其余一切工作都能自动地完成 4 结果分析解释并评估结果其使用的分析方法一般应视数据挖掘操作而定通常会用到可视化技术 5 知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去数据挖掘的工作流程如图2 1 所示第二章数据挖掘概述图2 1 数据挖掘工作流程图需要注意的是数据挖掘的工作流程不是固定的需要按照具体应用进行剪裁添加必要的处理步骤而去掉无意义不需要或价值不大的步骤否则投入的资源就不能得到充分的回报 2 4 数据挖掘的主要方法数据挖掘的方法很多每种方法都有其特定适用领域某一种方法不可能胜任所有的数据挖掘任务一个复杂的数据挖掘系统常常采用多种数据挖掘方法通过整合多种数据挖掘方法来弥补单个数据挖掘方法所存在的不足数据挖掘的方法主要有以下几种 1 基于决策树的方法决策树也称为判定树它是用于分类和预测的主要方法之一决策树技术发现数据模式和规则的核心是归纳算法它的目的是根据某个新记录的属性将其分派到预先定义好的若干类中的一个并为其添加一个字段以标识该记录的类别构建决策树的算法很多其中最具代表性的是c a r t 和c 4 5 算法它们的算法思想大致如下将给定训练集作为决策树的根结点训练集中的记录具有标识类别的字段利用信息增益来寻找结点上具有最大信息量的字段根据对该字段的不同取值建立该结点的若干分支并为所有分支子集建立对应的结点在每个分支子集中重复建立下层分支和结点直到结点中所有记录的类别都相同为止这样便生成了棵完整的决策树因为完整的决策树不利于分类和预测因此还要对该决策树电子科技大学硕士学位论文进行剪枝处理产生最终的决策树然后把决策树的结点分裂过程转化为 i f t h e n 的规则利用这些规则就可以对新数据进行分类决策树方法在许多应用领域被广泛地应用其主要优点有第一生成的规则容易理解决策树产生的规则能够轻易地转化为 i f t h e n 这种形式的关联规则也可以被翻译成自然语言或s q l 语句而且决策树模型的建立过程也比较直观第二决策树进行分类时所需的计算量不大第三决策树既支持离散数据也支持连续数据第四决策树的输出包含属性的排序决策树能够清楚地指出哪一个数据域对决策是最重要的当然决策树方法也存在着一定的不足例如训练一棵决策树的耗费很大对具有连续值的属性预测比较困难在类过多的情况下分类容易出错等 2 基于神经网络的方法神经网络最早是由心理学家和神经生物学家提出的神经网络是大量的简单神经元按一定规则连接构成的网络系统这种网络能够模拟人类大脑的结构和功能采用某种学习算法从训练样本中学习并将获取的知识存储在网络各单元之间的连接权中神经网络和基于符号的传统人工智能技术相比具有直观性并行性和抗噪声等优点目前已出现了多种网络模型和学习算法主要用于分类优化模式识别预测和控制等领域在数据挖掘领域主要采用前向神经网络提取分类规则从网络中提取规则主要有下述两种方向 1 网络结构分解的规则提取它以神经网络的隐层结点和输出层结点为研究对象把整个网络分解为许多单层子网的组合通过研究较简单的子网便于从中挖掘知识 k t 算法是有代表性的方法但其缺点是通用性差并且当网络比较复杂时算法的复杂性高容易产生组合爆炸问题所以对于大规模网络此类算法在提取规则前需要对网络结构进行剪枝和删除冗余结点等预处理工作 2 由神经网络的非线性映射关系提取规则这种方法直接从网络输入和输出层数据入手不考虑网络的隐层结构避免了基于结构分解的规则提取算法的不足 s e s t i t o 等人的相似权值法是一个典型的算法在数据挖掘领域神经网络的规则提取还存在许多问题如进一步降低算法的复杂度提高所提取规则的可理解性提取规则的评估标准在训练中从神经网络动态提取规则从而及时修正神经网络并提高神经网络性能等第二章数据挖掘概述 3 基于遗传算法的方法遗传算法利用了自然进化的思想最早由h o l l a n d 于2 0 世纪7 0 年代提出遗传算法包括选择交叉和变异三个基本算予首先创建一个随机产生的规则组成的初始群体每个规则可以用一个二进位串表示然后根据适者生存的原则形成由当前群体中最适合的规则组成的新的群体以及这些规则的后代一般用规则的适应度来对训练样本集的分类准确率进行评估第三通过使用交叉和变异等遗传操作来创建后代在交叉操作中通过来自规则对的子串交换形成新的规则在变异操作中反转规则串中随机选择的位由先前的规则群体产生新的规则群体的过程迭代进行直到p 进化 p 中每个规则满足事前指定的适应度阀值在应用遗传算法进行数据挖掘时需要把数据挖掘任务表达为一种搜索的问题以便发挥遗传算法的搜索能力它是基于群体的具有随机和定向搜索特征的迭代过程 4 贝叶斯方法贝叶斯网络是由r h o w a r d 和j m a t h e s o n 于1 9 8 1 年提出的它是一种概率推理方法它能从不完全不精确和不确定的知识和信息中作出推理可以处理不完整和带有噪音的数据集解决数据间不一致和相互独立的问题贝叶斯分类是统计学分类方法它可以预测类成员关系的可能性比较简单的朴素贝叶斯方法是一种基于概率的分类方法它通过样本的属性值计算样本属于某一个类的可能性然后将样本归属到最有可能的类中朴素贝叶斯分类在应用于大型数据库时表现出高准确率和高速度 5 基于粗糙集的方法粗糙集作为一种软计算方法它可以不需任何辅助信息如统计学中的概率分布模糊集中的隶属度等仅依据数据本身提供的信息就能对数据进行化简并求得知识的最小表达粗糙集方法可以克服传统的不确定信息的处理方法的不足并且能和它们有机结合进一步增强对不确定不完全信息的处理能力粗糙集方法首先用近似的方法把信息系统中的属性值离散化然后对每一个属性划分等价类再利用集合的等价关系进行信息系统的属性约简最后得到一个最小决策关系便于获得规则目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统为基于粗糙集的数据挖掘奠定了坚实的基础电子科技大学硕士学位论文 2 5 数据挖掘的应用目前国际上数据挖掘技术在科学研究金融投资市场营销保险医疗卫生产品制造业和通信网络管理等行业已得到广泛应用国内在数据挖掘方面也有成功的应用例如宝钢已应用数据挖掘系统辅助生产决策每年能节省近千万元资金现在我国的研究人员正在加紧研制有关领域的数据挖掘工具并且数据挖掘技术的应用领域正不断扩大下面列出一些有发展潜力的数据挖掘应用领域 1 科学研究在信息量极为庞大的天文气象生物技术等领域中由于所获得的大量实验和观测数据靠传统的数据分析工具已难以应付因此对功能强大的智能化自动分析工具有迫切的需求这种需求推动了数据挖掘技术在科学研究领域的应用发展并且已获得一些重要的应用成果例如美国加州理工学院喷气推进实验室与天文学家合作开发的s k i c a t 系统通过对几百万个天体进行分类已帮助天文学家发现了1 6 个新的类星体 2 金融投资由于金融投资的风险很大因此在进行投资决策时需要对各种投资方向的有关数据进行分析以选择晟佳的投资方问数据挖掘可以通过对己有数据进行处理并利用学习得到的模式进行市场预测例如国内开发的指南针神光 r m r 等智能股票分析系统可以对股票行情进行分析预测 3 市场营销在市场营销领域中数据挖掘可以辅助制定市场策略分析购物模式还可以用来预测销售行情例如 i b m 公司开发的q u e s t 和i n t e l l i g e n tm i n e r 系统就可以挖掘顾客的购物行为模式 4 保险业保险是一项风险业务保险公司的一个重要工作就是进行风险评估研究证明可以利用数据挖掘来进行风险分析在保险公司建立的保单及索赔信息数据库的基础上寻找保单中风险较大的领域从而得出一些实用的控制风险的规则以指导保险公司的工作例如利用s g i 公司的m i n s e t 系统提供的分类器就可以预测投保人在将来的索赔概率 5 制造业制造业应用数据挖掘技术来进行零件故障诊断资源优化和生产过程分析等例如 a c k n o s o f l 公司开发的c a s s i o p e e 系统已用于诊断和预测在波音飞机制造第二章数据挖掘概述过程中可能出现的问题 6 通信网络管理在通信网络运行过程中可能产生一系列警告虽然有的警告可以置之不理但是有的警告如果不及时采取措施则会带来不可挽回的损失哪些警告可以不予理睬哪些警告必须迅速处理这往往很难判断一般需要由人工根据经验来进行处理因此效率不高数据挖掘则可以通过分析已有的警告信息的正确处理方法以及警告之间的前后关系获得警告之间的关联规则这些有价值的信息可用于网络故障的定位检测和严重故障的预测例如芬兰h e l s i n k i 大学开发了一个基于通信网络中警报数据库的知识发现系统t a s a 它可用于寻找通信网络中的警报序列规则以便进行故障预测电子科技大学硕士学位论文第三章关联规则基础关联规则基于数据项的同时出现特征从数据库中发现项或属性间事先未知且隐藏的有趣联系关联规则挖掘问题是r a g r a w a l 等人于1 9 9 3 年在文献1 9 中首先提出来的一个典型的关联规则的例子就是在超市中 9 0 的顾客在购买面包和黄油的同时也会购买牛奶其直观的意义是顾客在购买某种商品时有多大的倾向会也购买另外一些商品这样的规则对于企业确定生产销售产品目录产品排放市场分析以及市场营销策略等多方面都是很有价值的 3 1 关联规则的定义和相关概念考察一些涉及许多物品的事务事务1 中出现了物品甲事务2 中出现了物品乙事务3 中则同时出现了物品甲和乙那么物品甲和乙在事务中的出现相互之间是否有规律可循呢关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式更确切的说关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf

文档简介

温馨提示

最新文档

评论

（计算机系统结构专业论文）关联规则算法研究以及在科学数据挖掘中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档