数据挖掘技术教材课件_第1页
数据挖掘技术教材课件_第2页
数据挖掘技术教材课件_第3页
数据挖掘技术教材课件_第4页
数据挖掘技术教材课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术1综述1为什么要数据挖掘?数据的爆炸性增长:从TB到PB丰富数据的来源:商业:WEB、电子商务、交易数据、股市...科学:遥感、生物信息学、科学模拟,社会及每个人:新闻、数码相机我们被数据所淹没,但却渴望知识“需要是发明之母”-数据挖掘:海量数据的自动分析技术2数据库技术的演化60-70年代:网络数据库、层次数据库70-80年代:关系数据库模型和原型系统80-90年代:各种高级数据模型、各类以应用为导向的数据库。90-今:数据挖掘、数据仓库、多媒体数据库、WEB3什么是数据挖掘?数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识

数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼数据/模式分析数据考古数据捕捞、信息收获等等。45在今天,NBA的教练有了他们的新式武器:决策支持下的数据分析。大约20个NBA球队使用了IBM公司开发的数据挖掘软件来优化他们的战术组合。该软件就因为研究了魔术队队员不同的布阵,在魔术队与迈阿密热队的比赛中找到了获胜的机会。(1)系统分析显示魔术队先发阵容中的两个后卫哈德卫和伯兰在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫阿姆斯创组合时,魔术队得分为正14分。(2)在下一场中,魔术队增加了阿姆斯创的上场时间。此招果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。有趣的数据挖掘----美国NBA6零售业用于识别顾客的购买模式,在顾客的统计特征中发现关联,预测促销活动的反应,进行市场分析。

啤酒和尿布的的关系,我们非常熟悉!如在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”:(面包+黄油)→(牛奶)。数据挖掘其他应用7银行

洗钱:

发现可疑的货币交易行为二八定律:意大利经济学家帕累托发现了财富和收益间的关系,潜心研究发现,社会上的大部分财富被少数人占有,从大量具体的事实中挖掘出一个简单而让人不可思议的结论:

如果社会上20%的人占有社会80%的财富,那么可以推测,10%的人占有了65%的财富,而5%的人则占有了社会50%的财富。

数据挖掘其他应用8保险如;保险客户流失性判断数据挖掘其他应用收入>5万元年龄>35岁不易流失易流失是否事业单位不易流失易流失YNYYNN9股票预设

预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。

医疗探求各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究是非常有价值和发展前景的。同时,医疗数据是既有文本、如:预测肝癌患者存活期数据挖掘其他应用10专家们通过搜集1990年到2002年间因肝癌死亡的456名患者的各项指标,把患者血液检查结果、症状等详细信息数字化,所涉及的数据达77万种,然后运用数据挖掘分析其相关性。结果发现,某些数据和肝癌患者的存活期密切相关,如一种“PIVKA”蛋白质异常程度的数值到一定标准以上,90%以上的肝癌患者存活期不到一年。使用新方法不仅可较准确地预测肝癌患者的存活期,而且有助于选择恰当的治疗方法,来保持或改善那些与存活期密切相关的数值,进而延长患者生命。预测肝癌患者存活期11121314一前言数据仓库是紧跟internet而上,成为了信息社会中获得企业竞争优势的关键。据相关咨询公司调查,全球2000家大公司已有90%将internet网络和数据仓库这两项技术列入了企业的未来计划。

15一前言(续)IBM公司所推崇的BI(商业智能),其核心就是数据仓库。微软从SQLSVRVER7.0以后,将数据仓库功能集成到数据库中,并建立的数据仓库联盟。ORACLE公司已经有了自己ORACLEEXPRESS系列数据仓库产品用来提供决策支持。我国招商银行等、中国电信、中国移动等都已经建立起了自己的数据仓库系统。16一数据仓库概念的提出

顾名思义,数据仓库就是数据的仓库,它在存放大量数据的同时,又像仓库一样将大量的数据有效的管理起来。数据仓库主要侧重于对海量数据的组织和管理,提供有效的数据访问的手段。17一数据仓库概念的提出(续)目前在信息管理方面存在的普遍问题包括:(1)数据太多,“信息不足”的状况

随着数据库技术的发展,各企业积累并存放了大量的业务数据,但真正能为企业提供辅助决策的信息也太少。(2)异构环境的数据源

由于市场竞争激烈,新产品开发周期缩短,如何综合利用分散的、异构环境的数据源,及时得到准确的信息是使企业取得成功的关键。18一数据仓库概念的提出(续)(3)事务型处理环境不适宜DSS的应用事务处理和分析处理的性能特性不同

事务处理:存取操作频率高而每次操作处理的时间短。分析处理;某个DSS应用程序可能需要连续使用几个小时,从而消耗掉大量的系统资源,将具有如此不同处理性能的两种应用放在一个环境中运行,这种行为是不适当的。数据集成的问题

在DSS中数据收集得越完整,得到的结果越可靠。历史数据的问题

事务处理一般只需要当前的数据而对于DSS而言,历史数据是非常重要的19二数据仓库的概念1什么是数据仓库

随着大型数据库技术的发展及实际应用的需要,数据仓库技术(DataWarehouse,DW)被提出来解决管理决策应用的问题。1996年,《构建数据仓库》一书中,对数据仓库做的定义为:

面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策。202数据仓库的特点(1)数据仓库是面向主题的数据仓库系统是相对数据库系统而言的,数据库系统是事件驱动、面向应用的;数据仓库系统则是面向主题的。对于银行来说,客户是个永恒的主题,要研究客户的消费行为和心理,就要对客户进行各种分类,以此解决哪些客户的信用好,哪些客户的风险较大,等等诸如此类的问题就是一个主题。(2)数据仓库是集成的

不同的应用程序设计者设计的程序,可能有许多方面的不同,如数据编码、命名、习惯等。因此,原始数据进入数据仓库之前,必须经过加工与集成。首先要统一原始数据中所有不一致的地方,如字段的同名异义、异名同义、单位不统一、字长不统一等,还要将原始数据结构从面向应用转换为面向主题。212数据仓库的特点(续)(3)数据仓库是非易失的由于数据仓库保存的数据是反映历史的,因此对其操作只有两种,分别为数据载入、数据访问。数据仓库只有经过长时间之后,才会有老化数据的清除等问题的出现。

(4)数据仓库是随时间变化的数据仓库随时间不断地增加新的数据,不断将当前最新的操作型数据统一集成到数据仓库中。并且数据仓库内的数据一旦被载入,就不能修改。一般的操作性环境中的数据只保持60-90天,虽然数据仓库内的数据在很长的时间(5-10年)不发生变化。但是,数据仓库中必须包含反映时间的属性。223数据仓库系统和传统数据库系统的区别数据仓库和数据库是不同的概念

数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。数据仓库系统和传统数据库系统相比,不同点表现在以下几方面。233数据仓库系统和传统数据库系统的区别(续)对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主体域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只是定时添加数据结构高度结构化、复杂、市和操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对相应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位24251联机分析处理技术产生的背景

六十年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展。93年,Codd提出了联机分析处理(OLAP)的概念。

他认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了联机分析处理的概念即OLAP。262相关的概念1相关定义定义1:OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。273OLAP和OLTP的区别OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

OLTPOLAP功能日常操作决策支持DB设计面向应用的面向主题的数据最新数据细节数据是二维的分立的历史数据聚集数据是多维的集成的存取读/写,数十条记录一般只读,上百万条工作单位简单的事务复杂的查询DB100MB-GB100GB-TB285OLAP的多维数据分析多维分析方式迎合了人们的思维模式多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作。以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息、内涵。295OLAP的多维数据分析(续)(1)切片在多维数组的某一维上选定一维成员的动作成为切片。(2)切块:在多维数组的某一维上选定某一区间的维成员的动作。

305OLAP的多维数据分析(续)(3)旋转:旋转既是改变一个报告或者页面的维方向。

315OLAP的多维数据分析(续)(4)钻取钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。

326具体实现-1数据入口关系型数据库数据转换程序数据仓库事实表,维表,度量,计算成员的定义多维数据集图型表格336具体实现-21ORACLE产品中的:data

warehouse

builder

用以完成数据的抽取、转换、装载工具(etl)

express

olap分析工具2其它产品也有3通过自己的开发和设计来完成。34数据挖掘当前的热点网站的数据挖掘生物信息或基因的数据挖掘文本的数据挖掘353数据挖掘的发展

进化阶段商业问题支持技术产品特点数据搜集

(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘提供历史性的、静态的数据信息数据访问

(80年代-90年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;

决策支持

(90年代末期)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库在各种层次上提供回溯的、动态的数据信息数据挖掘

(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据仓库提供预测性的信息364数据挖掘的概念数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

375数据挖掘的功能数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

(1)自动预测趋势和行为

(2)关联分析

(3)聚类

(4)概念描述

(5)偏差检测

数据挖掘可粗略地理解为三部曲:数据准备、数据挖掘,结果的解释评估。386数据挖掘的方法

根据数据挖掘的方法分,可粗分为:统计方法机器学习方法神经网络方法数据库方法又可以进一步的细分为如下的结构!39(1)统计方法回归分析(多元回归、自回归、罗吉斯回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)探索性分析(主元分析法、相关分析法等)以及模糊集、粗糙集、支持向量机等。(2)机器学习归纳学习方法(决策树(ID3算法)、规则归纳等)、基于范例的推理CBR遗传算法贝叶斯信念网络等。(3)神经网络方法前向神经网络(BP算法等)自组织神经网络(自组织特征映射、竞争学习等)等。(4)数据库方法基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。40(1)统计方法回归分析(多元回归、自回归、罗吉斯回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)探索性分析(主元分析法、相关分析法等)以及模糊集、粗糙集、支持向量机等。(2)机器学习归纳学习方法(决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论