数据挖掘技术课件_第1页
数据挖掘技术课件_第2页
数据挖掘技术课件_第3页
数据挖掘技术课件_第4页
数据挖掘技术课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘技术,数据挖掘的起源,继后台网络之后的下一个技术热点,数据爆炸但知识贫乏,从商业数据到商业信息的演变,背景下,人类进入了一个新的信息时代,数据库中存储的数据量迅速膨胀,全球信息量以惊人的速度快速增长。目前的数据库系统虽然能够高效地实现数据录入、查询和统计功能,但却不能发现数据中的关系和规律,也不能根据现有数据预测未来的发展趋势。出现了一个新的研究方向:基于数据库的数据库知识发现,以及相应的数据挖掘理论和技术的研究。随着大型数据库的建立和海量数据的不断涌现,必然迫切需要强大的数据分析工具。但现实往往是“数据非常丰富,但信息相当贫乏。”在没有强大工具的情况下,大规模数据收集和存储在大型数据

2、库中的快速增长远远超出了人类理解它们的能力。因此,有人称之为“数据坟墓”。专家系统工具不可行,因为它们过于依赖用户或专家将知识手动输入知识库,并且分析结果通常包含偏差和错误,这既耗时又成本高。数据挖掘,信息掘金,数据挖掘工具,继网络之后的下一个技术热点,大量的信息给人们带来了方便,但也带来了很多问题:信息量过大,难以消化,难以区分真假信息,难以保证信息安全,难以统一处理,数据爆炸但知识贫乏,随着数据库技术的快速发展和数据库管理系统的广泛应用,人们积累了越来越多的数据。目前的数据库系统能够高效地实现数据录入、查询、统计等功能。但它不能在数据中找到关系和规则,也不能根据现有数据预测未来的发展趋势。

3、缺乏挖掘隐藏在数据背后的知识的手段导致了“数据爆炸而知识匮乏”的现象。自20世纪80年代人工智能研究项目投资失败后,人工智能在实际应用中出现了从商业数据到商业信息的演变、KDD的出现和数据挖掘。这是一个新的商业应用人工智能研究。术语基于数据库的知识发现(KDD)最早出现在1989年举行的第11届AAAI学术会议上。第一届KDD国际学术会议(KDD95)于1995年在加拿大蒙特利尔举行。由克鲁沃斯出版社出版,成立于1997年,Knowledge Discovery and Data Mining是该领域的第一份学术期刊。此后,1991年、1993年和1994年举行了KDD研讨会,汇集了来自不同领

4、域的研究人员和应用程序开发人员,重点关注数据统计、海量数据分析算法、知识表示和知识应用。起初,数据挖掘是KDD用算法处理数据的一个步骤,后来逐渐演变成KDD的同义词。数据挖掘、数据库技术、统计学、高性能计算、人工智能、机器学习、可视化、数据挖掘是许多学科的产物,KDD已经成为人工智能的研究热点,目前,KDD的研究工作已经受到许多领域的关注,如过程控制、信息管理、商业、医疗保健、金融等。作为大规模数据库中一种先进的数据分析工具,KDD研究已经成为数据库和人工智能领域的一个热点。数据挖掘的应用,电信:损失银行:聚类(细分),交叉销售百货商店/超市:购物篮分析(关联规则)保险:细分,交叉销售,损失(

5、原因分析)信用卡:欺诈检测,细分电子商务:网站日志分析税务部门:逃税检测警察机构:犯罪行为分析医学:医疗保健,英国电信需要发布新产品。从而使直邮的回复率提高了100%,电信、GUS日用品零售店需要准确预测未来的商品销售并降低库存成本。通过数据挖掘,库存成本比原来降低了3.8%。美国国税局零售商店需要提高对纳税人的服务水平,合理安排税务人员的工作,为纳税人提供更快捷、更准确的服务。税务局、银行和财务部门需要收集和处理大量数据。由于银行在金融领域的地位、工作性质、业务特点和激烈的市场竞争,信息化和电子化比其他领域更为迫切。使用数据挖掘技术可以帮助银行产品开发部门描述客户过去的需求趋势并预测未来。美

6、国商业银行是发达国家商业银行的典范,许多地方值得借鉴。美国银行家协会预测,数据仓库和数据挖掘技术在美国商业银行的应用增长率为14.9%。分析客户对分销渠道的使用和分销渠道的容量;建立利润评估模型;客户关系优化;风险控制等。数据挖掘和知识发现,数据挖掘(Data Mining)是从大量不完整、有噪声、模糊、随机的实际应用数据中,提取隐藏在其中的、人们事先不知道的、但却是一个潜在有用的信息和知识的过程。一个类似的概念叫做知识发现。数据库知识发现是利用数据库管理系统存储数据,利用机器学习方法分析数据,挖掘大量数据背后隐藏的知识,称为数据库知识发现。数据挖掘和数据仓库,在大多数情况下,数据挖掘必须首先

7、将数据从数据仓库带到数据挖掘库或数据集市。直接从数据仓库获取数据进行数据挖掘有很多优点。数据仓库中的数据清理类似于数据挖掘中的数据清理。如果数据在导入数据仓库时已经被清除,那么在进行数据挖掘时可能就不需要再次清除,所有的数据不一致问题都已经解决了。数据挖掘和信息处理,这是基于查询和可以找到有用的信息。但是这个查询的答案反映了直接存储在数据库中的信息。它们不反映隐藏在数据库中的复杂模式或规则。OLAP分析过程本质上是一个演绎推理过程,是决策支持领域的一部分。数据挖掘本质上是一个归纳推理的过程。数据挖掘和OLAP相辅相成。数据挖掘、人工智能和统计学等新兴技术在知识发现领域也取得了良好的效果,如神经

8、网络和决策树。有了足够的数据和计算能力,他们可以自动完成许多有价值的功能,而无需人工干预。数据挖掘是一种充分利用统计学和人工智能技术的应用,它将这些先进而复杂的技术封装在一起,使人们能够在不掌握这些技术的情况下完成相同的功能,并更加关注他们想要解决的问题。数据挖掘和统计、数据挖掘和海量数据分析许多数据库不适合进行统计分析。数据挖掘的定义是从大量数据中提取或“挖掘”知识。与数据挖掘相似但含义略有不同的术语有:来自/在数据库(KDD)中的知识发现、知识提取、数据/模型分析。考古数据挖掘的技术定义,商业定义和技术定义,数据挖掘是提取隐藏在大量不完整、有噪声、模糊和随机的实际应用数据中的信息和知识的过

9、程,这些数据人们事先并不知道,但却是潜在有用的。从商业角度来看,数据挖掘是一种新的商业信息处理技术。它的主要特点是提取、转换、分析和建模商业数据库中的大量业务数据,并提取关键数据来辅助业务决策。数据挖掘的定义(续),人们给数据挖掘下了很多定义,它们的内涵是不同的。目前,公认的定义是由法耶兹等人提出的。所谓的基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可理解的模式的非平凡过程。数据挖掘的数据源,关系数据库,数据仓库,事务数据库,高级数据库系统和高级数据库应用,面向对象数据库,空间数据库,时间序列数据库,文本数据库和多媒体数据库,WWW,数据挖掘过程,数据挖掘

10、是一个迭代的人机交互过程。这个过程需要经历许多步骤,许多决策需要由用户提供。从宏观角度来看,数据挖掘过程主要由三部分组成,即数据整理、数据挖掘和结果解释与评价。数据挖掘任务有两种类型:第一种是描述性挖掘任务:描述数据库中数据的一般特征;第二种类型是预测挖掘任务:从当前数据中进行推断进行预测。概念/类别描述:描述和区分,类别/概念描述:以概括、简洁和准确的方式描述每个类别和概念。数据特征:它是目标类数据的一般特征或特征的总结。数据特征的输出形式包括饼图、条形图、曲线、多维数据立方体、多维表等。数据鉴别:将目标类对象的一般特征与一个或多个比较类对象的特征进行比较。关联分析(1)定义:关联分析:发现

11、关联规则,它显示“属性值”在给定数据集中频繁出现的情况。关联规则:“x y”,即a1a2amb1b2bn的关联规则分为两类:一类是“多维关联规则”;二是“一维关联规则”。(2)示例年龄(x,“20.29”)收入(x,“20k”.29k”)购买(x,“光盘播放器”)支持=2%,信心=60%是一个有效的知识发现系统。为了使知识发现系统更加有效,出现了几种软件和软件来解决存储管理中的新问题并开发有效的存储机制。高级查询语言已经成为一个重要的研究课题。描述多维对象的可视化工具将在知识表示中发挥重要作用。可视化数据挖掘,可视化数据挖掘结果可视化数据挖掘过程可视化交互可视化挖掘,矿山集3.0中的关联规则可

12、视化,交互可视化挖掘,数据挖掘工具,目前,在世界上有较大影响的典型数据挖掘系统有:SAS公司的企业挖掘器,智能挖掘器SGI公司,SetMiner SPSS公司,克莱曼婷Sybase公司,warehouse studio rule quest research公司,See5公司还有CoverStory,EXPLORA,知识发现工作台,DBMiner,Quest等。数据挖掘过程,数据挖掘系统结构,数据仓库,数据清洗和集成,过滤,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,粗糙集理论的主要优势之一是它不需要任何关于数据的初步或额外信息。粗糙集可以用来对信息系统的属性进行约简

13、,即找到与原始属性集具有相同分类能力的原始属性集的子集。粗糙集已广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统、归纳推理等领域。聚类是将物理或抽象对象集分成多个组的过程,聚类生成的组称为聚类,即聚类是数据对象的集合。聚类是使生成的聚类中的任意两个对象具有较高的相似性,而属于不同聚类的两个对象具有较高的不相似性。从统计学的角度来看,聚类分析是一种对数据建模和简化数据的方法。聚类分析作为多元统计分析的一个主要分支,已经研究了很多年,主要集中在基于距离和相似性的聚类方法上。从机器学习的角度来看,聚类相当于隐藏模式,聚类是一个搜索聚类的无监督学习过程。从实际应用角度来看,聚类分析是数据挖掘

14、的主要任务之一。数据挖掘领域主要研究大型数据库和数据仓库的高效实用的聚类算法。聚类分析,数据挖掘中的聚类分析,数据挖掘关注聚类算法的以下特征:处理不同类型属性的能力,对大数据集的可扩展性,处理高维数据的能力,发现任意形状的聚类的能力,处理孤立点或“噪声”数据的能力,对数据顺序的不敏感性,对先验知识和用户定义参数的依赖性,聚类结果的可解释性和实用性,基于约束的聚类等。数据挖掘的主要聚类方法有:划分法、层次法、基于密度法、基于网格法、基于模型法等。Agrawal为大型超市的销售数据库建立了关联规则模型和数据挖掘算法。所谓关联规则是指数据集的支持度和信任度分别满足给定阈值的规则。近年来,AIS、SE

15、TM等数据挖掘算法出现在基于关联规则的算法研究中。最著名的算法是阿格拉瓦尔等人提出的Apriori算法。Apriori算法的核心思想是将发现关联规则的工作分为两步:第一步是通过迭代检索事务数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值;第二步是从频繁项集构造满足用户最小信任度的规则。决策树,决策树提供了一种方法来显示诸如“在什么条件下将获得什么价值”这样的规则。例如,在贷款申请中,我们应该判断申请的风险。为了解决这个问题,我们可以看到决策树的基本组成部分:决策节点、分支和叶子。决策树中的顶部节点称为根节点,它是整个决策树的开始。决策树(续),决策树是一个类似于树结构的流程图,每个内部节点表示对一个属性的测试,分支描述测试结果,而叶节点表示分类或分类的分布。构造决策树的方法是自上而下递归的。如果训练样本集中的所有样本都是同一种类的,它们将被视为一个叶节点,节点的内容将是该类别的标签。否

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论