数据仓库与数据挖掘.ppt_第1页
数据仓库与数据挖掘.ppt_第2页
数据仓库与数据挖掘.ppt_第3页
数据仓库与数据挖掘.ppt_第4页
数据仓库与数据挖掘.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘,日常生活的问题: 人们在日常生活中经常会遇到这样的情况: 超市的经营者希望将经常被同时购买的商品放在一起,以增加销售; 保险公司想知道购买保险的客户一般具有哪些特征; 医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;,企业面临的问题 经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录,由于缺乏集中存储和管理,这些数据不能为本企业加以利用, 不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息,数据爆炸: 自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中 。 我们会淹死在数据中, 但却为信息、知识所饿!,面临的问题 如何使企业或组织在激烈的市场竞争中保持对客户的吸引力? 如何预先发现和避免企业运作过程中不易察觉的商业风险? 如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?,不同层次的信息处理需求,事物处理需求 分析处理需求,事务处理需求(OLTP),不同的事务处理子系统 采购子系统:订单、订单细则、供应商 销售子系统:顾客、销售 库存子系统:出库领料单、进料入库单、库存台帐 人事子系统:员工、部门 各种事务处理需求 一笔订购、一笔销售、一次进料、一次出料 要求 强调多用户并发环境,数据的一致性、完整性,分析处理需求(OLAP),今年销售量下降的因素(时间、地区、商品、销售部门) 某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样? 要求 多个子系统中的数据(数据集成) 历史数据 汇总、综合的数据,随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持,数据库 数据仓库 数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP)应用和以分析处理为主的决策支持系统(DSS)应用共存于一个数据库系统时,就会产生许多问题(混乱现象)。 例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。,人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离(不能都在一个数据库环境中)。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。 数据仓库技术正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。,数据仓库的定义,数据仓库是一种面向主题的数据管理技术,它提供集成化的、历史的数据管理功能,支持综合性的数据分析,特别是战略分析。 数据仓库构成了DSS 和DBMS的技术基础,它必将推动DSS研究的全面发展和方法的实用性化。,通俗的解释,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫作数据仓库。,特征及体系结构,数据仓库的特征 数据仓库的体系结构,数据仓库的体系结构,一个完整的数据仓库结构一般由6个基本层次组成 1)数据源层。 2)数据后端处理层。 3)数据仓库及其管理层(包括源数据管理)。 4)数据集市层。 5)数据仓库应用层(或称前端处理层)。 6)数据展示层。,数据仓库层次结构示意图,数据展示层,数据仓库应用层,数据集市层,数据仓库及管理层,数据后端处理层,数据源层,数据挖掘,定义:数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。,经典案例尿布与啤酒,在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。 原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?,数据挖掘能做以下七种分析方法,分类 (Classification) 估计(Estimation) 预测(Prediction) 相关性分组或关联规则(Affinity grouping or association rules) 聚类(Clustering) 描述和可视化(Description and Visualization) 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等),数据挖掘分类,直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 。,数据挖掘过程和主要步骤,数据挖掘过程简介,(1).确定业务对象 (2). 数据准备 1)、数据的选择 2)、数据的预处理 3)、数据的转换 (3). 数据挖掘 (4). 结果分析 (5). 知识的同化,数据挖掘的发展前景,当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。 具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统,例如Weka等软件。 数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就国内情况而言,还有至少20年的发展空间。,谢谢观赏,决策支持系统(decision support system ,简称DSS)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。 它是管理信息系统(MIS)向更高一级发展而产生的先进信息管理系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。,应具备的特性,效率足够高 数据质量可靠 可扩展性,数据仓库的四个主要特征,数据的时变性 数据的非易失性 数据是集成的 面向主题,subject-oriented(面向主题性),面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数据都是围绕着某一主题组织展开的。例如,企业中的客户、产品、供应商等都可以作为主题看待。 从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。 从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。 确定主题是组织数据仓库中数据的前提。,integrated (数据集成性),数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。 数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。,time-variant 数据的时变性,数据仓库的时变性,就是数据应该随着时间的推移而变化。 尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10前的数据进行决策分析,那决策所带来的后果将是十分可怕的。,non-volatile 数据的非易失性,数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。 原因是数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。,数据源,数据源是数据仓库的数据来源,它是多种OLTP系统及外部文件, 一个数据仓库往往可以含多个数据源,这些数据源可以有多种不同数据结构类型,可以有桌面式数据库如Access,也可以是对象关系数据库、面向对象数据库.同时,数据源也可以包括各种数据文件如Excel、Word以及基于WWW的HTML、XML等文件形式。 数据源一般可以分布于网络的各个结点,通过网络中的数据接口与数据仓库相互连接。,数据后端处理,数据后端处理:数据源中数据经提取、清洗、转换最终成为数据仓库所需的数据。 它的主要工作是为数据仓库提供统一的数据并按阶段及时更新这些数据。,数据后端处理,一个完整的后端处理包括下面5个方面 1)数据提取 2)数据清洗 3)数据转换 4)数据加载 5)数据刷新,后端处理4个环节的流程图,数据仓库及管理层,1数据仓库 数据仓库是存储分析与决策数据的实体。它一般以关系结构形式存储,能支持数据共享。,数据仓库及管理,数据仓库管理系统(DWMS)是一种专门于管理数据仓库的软件,包括数据仓库中的数据结构构建;数据操纵;数据维护、控制、数据服务等内容。 其具体功能如下: (1)、数据仓库数据模式定义 它能定义数据仓库的关系结构,包括数据模式、数据子模式。,数据仓库及管理,(2)数据仓库的数据操纵 在数据仓库中能向用户直接提供的只有一种操作,即只读(或称查询)操作。 (3)数据仓库的数据控制 数据仓库具有完整性约束控制、数据授权和数据安全以及数据并发控制、故障恢复能力,均与传统数据库类似。,数据仓库及管理,(4)数据仓库的数据服务 数据仓库管理系统提供对数据仓库中数据的多种服务功能,如数据拷贝,转储,性能监测及网络监控等功能。,数据集市,数据集市是一种特殊形式的数据仓库。 数据仓库是面向整个企业决策的数据集合,面向多种应用,具有全局性;而数据集市则是面向企业中部门决策的数据集合,面向特定应用,具有局部性; 由此可见,数据集市是由数据仓库派生而出,针对特定应用的规模更小的,结构更集中的决策数据集合体。 数据仓库与数据集市的有效结合可以使数据仓库更能适应多种应用的不同需求。,数据仓库应用层,数据仓库应用层又称前端处理层。该层主要是以数据仓库为基础的应用。目前,该层主要包括有两种应用: (1)分析、决策应用 分析、决策应用主要是归纳型的分析、决策。即是以数据仓库中的数据为对象作归纳以获得分析、决策的模式(pattern)或规则(rule)。,数据仓库应用层,(2)统一平台的建立与应用 除了分析、决策应用外,数据仓库还具有为企业已有的多种平台、多种结构、多种语法语义、多种接口建立统一数据平台的功能,并在该平台上建立企业级应用。,数据展示层,在数据仓库应用层之上是数据展示层,即是将应用结果,特别是分析、决策结果以 多种媒体形式表示,它还可以通过Web发布 数据仓库的数据展示具有多种固定的图板,即固定的表示形式,而每个图板又有多种不同灵活表现手段。图板的类型有多种不同的直方图、条状图、饼图、报表、曲线等。,数据展示层,在Web方式下一般还有安全授权功能以控制结果数据的安全性。 目前市场上有多种数据展示工具,有名的有BRIO、BO等,当然也可以通过工具以编程方式实现。,OLTP技术,联机事务处理系统(OLTP)也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。 最大优点:即输即答,具有实效性。 重要性能指标:系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论