第七章-数据挖掘PPT课件_第1页
第七章-数据挖掘PPT课件_第2页
第七章-数据挖掘PPT课件_第3页
第七章-数据挖掘PPT课件_第4页
第七章-数据挖掘PPT课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,第7章数据挖掘,.,2,7.1数据挖掘概述7.1.1数据挖掘概念与发展随着科学技术的飞速发展,使得各个领域或组织机构积累了大量的数据。如何从这些数据中提取有价值的信息和知识以帮助做出明智的决策,成为巨大的挑战。计算机技术的迅速发展使得处理并分析这些数据成为可能,这种新的技术就是数据挖掘(DataMinging),又称为数据库知识发现(KnowledgeDiscoveryinDatabase,KDD)。,.,3,数据挖掘概念首次出现在1989年举行的第十一届国际联合人工智能学术会议上,其思想主要来自于机器学习、模式识别、统计和数据库系统。国内对数据挖掘的研究起步较晚,1993年国家自然科学基金首次支持该领域的研究。此后,国家、各省自然科学基金委,国家社科基金,“863”、“973”项目,国家、各省的科技计划,每年都有相关项目支持。众多研究机构和大学都成立专门的项目组。从事数据挖掘研究与应用的人员越来越多。现今,数据挖掘的基本理论问题逐步得到了解决,现在更多的是数据挖掘的应用。,.,4,7.1.2数据挖掘的任务数据挖掘的任务可以分为预测型任务和描述型任务。预测型任务就是根据其他属性的值预测特定属性的值,如回归、分类、离群点检测等。描述型任务就是寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。(1)分类分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其他记录进行分类。分类分析已广泛用于用户行为分析、风险分析、生物分析、生物科学领域等。,.,5,(2)聚类分析物以类聚,人以群分,聚类分析技术试图找出数据集中的数据的共性和差异,并将具有共性对象聚合在相应的簇中。聚类分析已广泛应用与客户细分、定向营销、信息检索等领域。聚类与分类是容易混淆的两个概念。聚类是一种无指导的观察式学习,没有预先定义的类。(3)关联分析关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称关联规则)。关联规则广泛用于市场营销、事务分析等领域。,.,6,7.1.3数据挖掘的应用数据挖掘就是为大数据应用而生,有大量数据的地方就有数据挖掘用武之地。目前,应用较好的领域或行业有生物信息学、电信业、零售业以及保险、银行、证券等金融领域。,.,7,在数据挖掘阶段,概括而言,数据挖掘分析员,可以使用的数据挖掘方法主要有如下几个:(1)预估模型,包括分类和预估两种类型。(2)聚类技术(3)连接技术(4)时间序列分析,.,8,7.2分类分类任务就是确定对象属于哪个预定义的目标类。分类问题是一个普遍存在的问题,有许多不同的应用。例如,根据电子邮件的标题和内容检查出垃圾邮件,对一大堆照片区分出哪些是猫哪些是狗。分类任务就是通过学习得到一个目标函数,把每个属性集x映射到一个预先定义的类标号y。目标函数也称分类模型。,.,9,7.2.1决策树分类法有关决策树学习在前一章机器学习已经提到,我们已经知道决策树分类法是一种简单但广泛的分类技术。原则上讲,对于给定的数据集,可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更为准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的。现在的许多算法都采取贪心算法,采取一系列局部最优决策来构造决策树,比如Hunt算法。,.,10,7.2.2基于规则的分类器基于规则的分类器是使用一组“if.then.”规则来对记录进行分类的技术。为了建立基于规则的分类器,需要提取一组规则来识别数据集的属性和类标号之间的关键联系。提取分类规则的方法有两大类,直接方法和间接方法。直接方法是直接从数据中提取分类规则,间接方法是从其他分类模型中提取分类规则。,.,11,7.2.3朴素贝叶斯分类器朴素贝叶斯方法是基于统计的学习方法,利用概念统计进行学习分类,如预测一个数据属于某个类别的概念。主要算法有朴素贝叶斯算法、贝叶斯信念网络分类算法等。,.,12,7.3聚类7.3.1概念聚类分析的核心是聚类,聚类是一种无监督学习,实现的是将整个数据集分成不同的“簇”,在相关的文献中,也将之称为“对象”或“数据点”。聚类要求簇与簇之前的区别尽可能的大,而簇内数据的差异要尽可能的小。与分类不同,不需要先给出数据的类别属性。,.,13,7.3.2聚类分析的基本方法聚类分析的研究主要基于距离和基于相似度的方法,经过长时间的发展,形成不少聚类算法。根据不同的数据类型,聚类的目的可以选择不同的聚类算法。,.,14,7.3.2.1划分聚类的方法给定一个数据集,将构建数据集的有限个划分,每个划分都是一个簇,且每一个划分应当满足如下两个条件:(1)每个划分中至少包含一个样本;(2)每个样本只能属于一个簇。K-Means和K-Medoids就是典型的划分聚类算法,下面将介绍K-Means具体算法。,.,15,7.3.2.2层次聚类的方法层次聚类技术是第二类重要的聚类方法。与K均值一样,与许多聚类方法相比,这些方法相对较老,但是它们仍然被广泛使用。在该方法中,采用的是某种标准对给定的数据集进行层次的分解。,.,16,7.3.2.3基于密度的方法大部分划分方法基于对象之间的距离进行聚类。这样的方法只能发现球状簇,而在发现任意形状的簇时遇到了了困难。已经开发了基于密度概念的聚类方法,其主要思想是:只要“领域”中的密度超过了某个阈值,就继续增长给定的簇。也就是说,对给定簇中的每个数据点,在给定半径的领域中必须至少包含最少数目的点。这样的方法可以用来过滤噪声或离群点,发现任意形状的簇。,.,17,7.3.2.4基于模型的聚类基于模型的聚类方法试图将给定数据与某个数学模型达成最佳拟合。此类方法经常假设数据是根据潜在的概率分布生成的。主要包括统计学方法、概念聚类方法和神经网络方法。,.,18,7.4关联规则关联规则是数据中所蕴含的一类重要规律,用关联规则进行挖掘是数据挖掘的一项根本任务,甚至可以说是数据库和数据挖掘领域中所发明并被广泛研究的最为重要的模型。关联规则的目标是在数据项目中找出所有的并发关系,这种关系也称为关联。,.,19,7.4.2关联规则挖掘算法关联规则挖掘算法中,以Agrawal等人提出的Apriori算法最为著名,它是常用的关联规则挖掘算法,其挖掘的过程主要包含两个阶段:第一阶段先从数据集中找出所有的频繁项集,他们的支持度大于等于最小支持度阈值(min_sup)。第二阶段由这些频繁项集产生关联规则,计算它们的置信度,然后保留那些置信度大于等于最小置信度阈值(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论