数据仓库与数据挖掘技术概述2final.ppt_第1页
数据仓库与数据挖掘技术概述2final.ppt_第2页
数据仓库与数据挖掘技术概述2final.ppt_第3页
数据仓库与数据挖掘技术概述2final.ppt_第4页
数据仓库与数据挖掘技术概述2final.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘技术概述 数据挖掘,第一讲 绪论,什么是数据挖掘? 数据挖掘的步骤 数据挖掘的主要功能(任务) 概念/类描述:特征化和区分 关联分析 分类和预测 聚类分析 孤立点分析 演变分析 在何种数据上进行数据挖掘(对象) 数据挖掘技术的前景,数据挖掘的案例:“啤酒”和“尿布”,一则广为流传的案例:啤酒和尿布的故事,美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。 结果:上述几种商品的销量几乎马上成倍增长。,什么是数据挖掘?,数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义: 数据挖掘是一个从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 -Fayyad. 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。 -Zekulin. 数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。 -Ferruzza 数据挖掘是发现数据中有益模式的过程。 -Jonn 数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。 -Parsaye,什么是数据挖掘?,从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 非平凡(的过程):有一定的智能性、自动性(仅仅给出所有数据之和不能算做一个发现过程)。 有效性:所发现的模式对新的数据仍保持一定的可信度。 新颖性:所发现的模式应该是新的。 潜在有用性:所发现的模式将来有实际的效用。 最终可理解性:能被用户理解,如:简洁性 有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。,数据挖掘: 多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,数据挖掘相关领域,知识发现领域充分体现了各种方法论的相互交叉、渗透和协作。相关的理论和技术可以分类如下: 按挖掘任务分类:包括概念/类描述、特征化和区分关联分析、分类和预测 、聚类分析 、孤立点分析、演变分析等。 按挖掘对象分类:包括关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、数据仓库、Web数据库等。 按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法等。,数据挖掘的称谓,数据挖掘涉及多学科领域,有多个术语名称(可能其内容的侧重点略有差异)。 数据挖掘(data mining) 数据库中的知识发现(KDD, knowledge discovery in databases) 知识抽取(knowledge extraction) 信息发现(information discovery) 智能数据分析(intelligent data analysis) 探索式数据分析(exploratory data analysis) 信息收获 (information harvesting) 数据考古(data archeology) “数据挖掘”流行于 统计界、数据库、数据分析、管理信息系统界,数据挖掘的步骤,观点:数据挖掘是数据库中的知识发现(KDD)的一个步骤。 粗略理解三部曲: 数据准备(data preparation)、 数据挖掘(data mining) 结果的解释评估(interpretation and evaluation),数据挖掘的步骤,数据准备 数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取 数据挖掘时,需要 明确任务如数据总结、分类、聚类、关联规则发现、序列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知识)。 根据具体的数据集合,选取有效的挖掘算法。,数据挖掘的步骤,结果的解释评估(interpretation and evaluation) 对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关的模式。 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户易于理解的形式表示。 评注 影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量 数据挖掘的过程是一个不断反馈的过程 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图或直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解。,KDD的一般步骤,传统KDD的一般步骤(细化) 数据清理: (这个可能要占全过程60的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示,数据挖掘: 数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,数据挖掘的主要功能 可以挖掘哪些模式?,一般功能 描述性的数据挖掘 预测性的数据挖掘 通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括: 概念/类描述: 特性化和区分(定性与对比) 关联分析 分类和预测 聚类分析 孤立点分析 趋势和演变分析,概念/类描述:特征化和区分,一个概念:对一个包含大量数据的数据集合总体情况的概述。 概念描述(concept description):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。 概念描述的主要方法: 对目标数据进行概述性的总结,数据泛化。 对两个数据集合概化后,进行对比并将对比结果进行概化。(以表格或对比规则形式给出) 如一个大学中讲师、副教授的情况 讲师:75% (papers=3) and (teaching courses=2),概念描述:示例,Prime Generalized Relation,Initial Relation,新增加,关联规则,关联规则挖掘就是发现大量数据中项集之间有趣的关联 关联规则挖掘的典型案例:购物篮问题 在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将所购买的商品放入到自己的购物篮中。 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯: 哪些物品经常被顾客购买? 同一次购买中,哪些商品经常会被一起购买? 一般用户的购买过程中是否存在一定的购买时间序列?,关联规则,基本表示形式: 前提条件结论支持度, 置信度 buys(x, “diapers”) buys(x, “beers”) 0.5%, 66% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75% 具体应用:利润最大化 商品货架设计:更加适合客户的购物路径 货存安排:实现超市的零库存管理 用户分类:提供个性化的服务,Presentation of Association Rules (Table Form ),分类与预测,分类的目的是提出一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。 数据分类可以分为两步进行。 第一步建立模型,用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。这一步也称作有监督的学习,导出模型是基于训练数据集的,训练数据集是已知类标记的数据对象。 第二步使用模型对数据对象进行分类。首先应该评估模型的分类准确度,如果模型准确度可以接受,就可以用它来对未知类标记的对象进行分类。,Classification Process (1): Model Construction,Training Data,Classification Algorithms,IF rank = professor OR years 6 THEN tenured = yes,Classifier (Model),Classification Process (2): Use the Model in Prediction,Classifier,Testing Data,Unseen Data,(Jeff, Professor, 4),Tenured?,决策树学习简介,决策树(Decision Tree)学习是以样本为基础的归纳学习方法。 决策树的表现形式是类似于流程图的树结构,在决策树的内部节点进行属性值测试,并根据属性值判断由该节点引出的分支,在决策树的叶节点得到结论。内部节点是属性或属性的集合,叶节点代表样本所属的类或类分布。 经由训练样本集产生一棵决策树后,为了对未知样本集分类,需要在决策树上测试未知样本的属性值。测试路径由根节点到某个叶节点,叶节点代表的类就是该样本所属的类。,Training Dataset,This follows an example from Quinlans ID3,Output: A Decision Tree for “buys_computer”,age?,overcast,student?,credit rating?,no,yes,fair,excellent,=30,40,no,no,yes,yes,yes,3040,决策树实例,关于PlayTennis的决策树如图所示:,预测,预测的目的是从历史数据记录中自动推导出对给定数据的推广描述,从而能够对事先未知的数据进行预测。 分类和回归是两类主要的预测问题。分类是预测离散的值,回归是预测连续值。,聚类分析,聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分。 文本聚类(Text clustering): 将文本集合分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。它是聚类分析技术在文本处理领域的一种应用。,Vivisimo SE,Microsoft Research Asia,孤立点分析,与数据的一般行为或模式不一致。多数为噪声或异常数据,常被剔除。 在某些应用中,孤立点数据更有趣,如:银行诈骗,洗黑钱、恐怖行为。 有专门进行孤立点研究的方法与技术。统计方法是占主流,考察数据的分布,用距离来度量。,演化分析,对随时间变化的数据对象的变化规律和演化趋势进行建模分析。(时序数据库) 如对主要股票的交易数据进行建模分析。 方法 趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析,实例1-产毛量,资料来源 选用1961年第一季至1996年第二季之间的台湾地區每季产毛资料,共計142笔。,观察 观测值资料呈现季节性变动,周期为4季;即12个月为一个循环。 数列亦呈现向上攀升的趋势,为一种无定向型的时间序列資料。,实例2-北海布兰特原油,资料来源 本研究选用1984年1月至1996年10月之北海布兰特原油現货价格(美元/桶)资料,共計154笔,作為研究的資料。,实例2-北海布兰特原油(续),介入因子: 时间点为80的时候即为1990年8月,正是伊拉克入侵科威特的時候,也是波斯湾危机的开始时间,也造成国际原油价突然上涨,于是可將波斯湾战争视为介入因子,而此影响持续了半年之久,于是在研究进口油价的时间序列分析时应以介入模型来探讨。,在何种数据上进行数据挖掘,关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库 文本数据库 万维网(WWW),典型数据挖掘系统的体系结构,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,数据挖掘的工具,SAS Enterprise Miner SPSS Intelligent Miner(IBM) Analysis Services(MS) DBMiner (DBMiner Technology Inc.) Matlab ,数据挖掘技术的研究历史,KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上 19891994年,由美国人工智能协会主办的KDD国际研讨会 1995开始,召开KDD and Data Mining国际学术大会 1998年,建立ACM SIGKDD组织 SIGKDD1999-2002 conferences SIGKDD Explorations 其它的国际和地区性的KDD和数据挖掘会议 PAKDD PKDD DaWaK SIAM-Data Mining (IEEE) ICDM 数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。 在Internet上还有不少KDD电子出版物,如:Knowledge Discovery Nuggets(/),数据挖掘技术的应用领域,科学研究 购物篮分析 Web点击流分析 市场营销(客户关系管理) 风险管理 ,数据挖掘技术的前景,国际知名调查机构Gartner Group在高级技术调查报告中,将 数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首 并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前二位 预计到2010年数据挖掘的市场将由目前小于5增加到大于80 美国银行家协会预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%,Data Mini

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论