《数据仓库技术》PPT课件.ppt_第1页
《数据仓库技术》PPT课件.ppt_第2页
《数据仓库技术》PPT课件.ppt_第3页
《数据仓库技术》PPT课件.ppt_第4页
《数据仓库技术》PPT课件.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第13章 数据仓库技术,数据仓库是数据库技术的另一重要发展方向。 人们希望能更多地通过数据库系统获得决策支持信息的推动下发展起来的一项新数据库技术。 本章主要介绍操作性处理与分析型处理的区别,联机事务处理(OLTP)和联机分析处理(OLAP)的不同,数据仓库技术的基本概念、组成结构、技术特征、设计,数据挖掘和决策支持系统(DSS),以及SQL Server的DBMS对数据仓库的支持。,第13章 数据仓库技术,13.1 从数据库到数据仓库 13.2 数据仓库的结构 13.3 数据仓库的设计 13.4 OLAP与数据仓库 13.5 数据挖掘(data mining,DM) 13.6 决策支持系统与数据仓库 13.7 SQL Server 2000的数据仓库 13.8 小结 13.9 习题,13.1 从数据库到数据仓库,13.1.1 操作型处理和分析型处理 13.1.2 从数据库到数据仓库 13.1.3 操作型数据和分析型数据,13.1.1 操作型处理和分析型处理,13.1.2 从数据库到数据仓库,产生的根本原因是对决策信息的迫切需求。 20世纪90年代以来,在操作型数据环境中建立DSS效果不理想。 对传统数据库反思。? 在规划设计的基础上,对数据库中的数据按照不同的主题归纳、统计、汇总、集成,使其长期保存在计算机中,并随着时间推移不断追加,这样形成的数据集合便是我们所说的数据仓库。,13.1.3 操作型数据和分析型数据,13.2 数据仓库的结构,数据仓库是一个不同于传统数据库的数据集合,它是对传统数据库进行抽取、归纳、统计、汇总集成而成。 13.2.1 数据仓库的概念及特点 13.2.2 数据仓库的组成结构 13.2.3 数据仓库的数据组织 13.2.4 数据仓库需要的数据库技术,13.2.1 数据仓库的概念及特点,数据仓库是一种高级、复杂的数据库技术。完整的数据仓库理论包括三个方面:数据仓库技术、联机分析处理(OLAP)、数据挖掘(DM)。 数据仓库是一个面向主题的、集成的、稳定的、随时间而变的数据集合,用以支持经营管理过程中的决策制订过程。 数据仓库四特征:面向主题、集成、稳定和随时间变化。,13.2.2 数据仓库的组成结构,从构成元素上看,数据仓库由物理元素和功能元素的组成,包括数据源、关系数据库、数据集市、维度、级别、度量值、单元、多维数据集、分区和聚合等。 数据仓库系统总体组成结构一般包含7个部分:数据源部分、数据抽取转换和装载工具、数据建模工具、数据仓储、数据仓库的目标数据、数据仓库管理工具、前端数据访问分析工具。,13.2.2数据仓库的总体组成结构图,13.2.2数据仓库基本功能5部分图,数据定义,数据 提取,数据管理,信息目录,技术目录 专业目录 信息导航器,数据 应用,D,B,D,W,源数据库集合,数据仓库,最终用户,13.2.2数据仓库基本功能5部分1,(1)数据定义:主要完成仓库结构和环境定义,包括:定义数据仓库中数据库模式、数据源和从数据源提取数据时的一组规则或模型。 (2)数据提取:负责从数据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。 (3)数据管理:由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。数据分配完成获取数据的存储分布以及将其分发到多台数据库服务器。数据维护服务完成数据的转储和恢复、安全性定义和检测等。用户直接输入系统的数据也由该部分完成。,13.2.2数据仓库基本功能5部分2,(4)信息目录:信息目录描述系统数据的定义和组织,通过它用户或开发人员可以了解数据仓库中存放的数据,以及如何访问、使用和管理。按数据仓库数据管理与应用要求,其信息目录可以设计为多个子部分:技术目录、业务目录和信息导航目录。 (5)数据应用:除了一般的直接检索性使用外,还能完成常用的数据表示和分析,如图表表示、统计分析、结构分析、相关分析和时间序列分析等。对于涉及到众多数据的综合性较强的分析,可以借助专业数据分析工具。在客户机/服务器体系结构下,这部分功能可以放在客户端来完成,以便充分利用目前微机上丰富的数据分析软件。,13.2.3 数据仓库的数据组织,数据仓库的数据来源于RDB,需要进行转化。 数据仓库的数据长期保存。 数据组织需要考虑以下方面:粒度、分割以及数据的模型结构。,13.2.3 数据仓库的数据组织,图13_3 一个典型的数据仓库的数据组织结构,销售细节级 1985-2003,销售细节级 2003-2004,子生产线 每周销售 1985-2004,生产线每月销售 1982-2004,元 数 据,早期细节级,当前细节级,轻度综合数据级(数据集市),高度综合数据级,操作型数据,13.2.3 数据仓库数据组织:粒度,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级越小;相反,细化程度越低,粒度级越大。 粒度影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。 小粒度级或高细节级,可回答任何问题,但数据量大。大粒度级或低细节级,数据量少。在设计数据仓库时,需要在数据量大小与查询的详细程度之间要作出权衡,对粒度级进行权衡,最佳解决之法使双重粒度。,13.2.3 数据仓库数据组织:分割,数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。 在数据仓库中,围绕分割问题的焦点不是该不该分割而是如何去分割的问题。 分割总体目的是把数据划分成小的物理单元。 数据分割包括:时间、商业线、地理位置、组织单位、所有上述标准。,13.2.3 数据仓库数据组织:星型模型,数据仓库一般采用星型模型和雪片模型来描述系统结构。 通过“维表一事实表”构造关系型数据仓库。,事实表: 订单号 销售员号 客户号 产品号 日期 地区名称 数量 总价,产品表: 产品号 产品名称 规格 产品类别 单价,日期表: 日期 日 周 月 季 年,地区表: 地区名称 省别,销售员表: 销售员号 销售员名 城市,客户表: 客户号 客户名称 客户地址,订货表: 订单号 订货日期,13.2.3 数据仓库数据组织:雪花模型,事实表: 订单号 销售员号 客户号 产品号 日期 地区名称 数量 总价,产品表: 产品号 产品名称 规格 产品类别 单价,日期表: 日期 日 月,地区表: 地区名称 省别,销售员表: 销售员号 销售员姓名 城市,客户表: 客户号 客户名称 客户地址,订货表: 订单号 订货日期,产品类别: 产品类别 类别描述,月表: 月 年,省表: 省别,13.2.4 数据仓库需要的DB技术,1高性能数据库服务器 分析型应用涉及的数据量大,查询要求复杂,为了能较快地获得分析结果,因此,需要高性能的DBMS核心的支持,要求DBMS必须具有良好的查询优化机制。 2并行数据库技术 数据仓库可谓是超大规模数据库(VLDB),通常是GB甚至TB级的,而且随着时间延长,新数据还会不断进入。并行数据库技术是存储和管理VLDB,并提供对VLDB复杂查询处理的有效技术。 3数据库互操作技术,13.3 数据仓库的设计,数据仓库设计与传统的数据库设计有很大不同。数据仓库主要为数据分析服务,因此有时为了获得更好的分析效果,往往需要增加数据冗余,重复地保存一些经过计算就可得到的数据项。 13.3.1 数据仓库开发的生命周期 13.3.2 数据仓库设计步骤,13.3.1 数据仓库开发的生命周期,不同与数据库开发的生命周期。 数据仓库开发的生命周期受数据驱动,在开发数据仓库之前,用户需求不可预知,用户并不完全知道他们能从数据仓库中得到什么。 因此,开发过程是先实现数据仓库的一部分,然后经集成数据、检验偏差、针对数据编程、设计DSS系统、分析结果、理解需求而成。,13.3.2 数据仓库设计步骤,建立数据仓库包括5个方面工作:规划、任务和环境的评估、需求的搜集和分析、构造数据仓库、数据仓库技术的培训、数据仓库工程回顾。 规划完成后,建立数据仓库首先应为数据仓库选择不同的主题。 典型主题包括:顾客、产品、事务或活动、保险单、索赔、帐目等。 建立数据仓库可从第一个主题开始,先围绕第一个主题组织数据,实施应用,然后再逐步深入,反复开发。 第1天到第n天现象描述建立DW的具体过程。,13.4 OLAP与数据仓库,数据仓库中的数据分析工具主要包括:联机分析处理(On-Line Analytical Processing,OLAP)工具和数据挖掘(data mining,DM)工具。 13.4.1 OLTP 系统 13.4.2 OLAP 系统 13.4.3 多维数据视图和多维数据库 13.4.4 将 OLTP 数据转换到 OLAP 数据仓库 13.4.5 数据转换和数据仓库组件,13.4.1 OLTP 系统,OLTP系统基于计算机并记录企业的业务事务。 OLTP个别事务处理能够很快地完成,并且只需访问相对较少的数据。OLTP 系统旨在处理同时输入的成百上千的事务。 C/S,B/S,13.4.2 OLAP系统,联机分析处理 (OLAP) 系统是一种旨在处理发现趋势和关键因素所需的查询的系统。E.F.Codd于1992年最早提出了OLAP概念 OLAP可简明地理解为共享多维信息的快速分析。特点:快速性、可分析性、共享性、多维性和信息性。 OLAP工具分三类: 一类是基于多维数据库的(MOLAP) 另一类是基于关系数据库的(ROLAP) 第三类是将MOLAP和ROLAP结合起来,称为混合的OLAP(hybrid OLAP,HOLAP)。,13.4.3 多维数据视图和多维数据库,OLAP一般利用多维数据视图和多维数据库,以多维的形式组织数据,使分析方法和数据结构相分离,分析方法更加灵活。 多维数据库是以多维方式来组织数据,立方体、维、层次和量度是OLAP多维导航的实质。 维是人们观察现实世界的角度,决策分析需要从不同的角度观察分析数据。 度量值是多维数据集的基本单元,也是所分析数据的组成单元。 每个维度被划分为称为成员的单元。维度的成员通常被组织到层次结构中。,13.4.4 将 OLTP 数据转换到 OLAP 数据仓库,经过三个阶段: (1)将数据从 OLTP 或遗留数据源析取到中间存储区域中。 (2)将数据转换为更适合在 OLAP 系统中使用的格式,进行数据清理和聚合等操作。 (3)将数据装载到数据仓库或数据集市中。 从 OLTP 和遗留数据源中析取数据并将其转换到仓库服务器中的过程称为 ETL 过程,通常定期运行,如每周一次或每月一次。主要工作包括:1合并数据 2清理数据 3聚合数据 4将数据组织到多维数据集中 。,13.4.5 数据转换和数据仓库组件,13.5 数据挖掘(data mining,DM),“数据爆炸,但知识缺乏”。 如何才能从数据中发现知识和规律呢? 数据挖掘与知识发现(Knowledged Discovery in Database,KDD)。 数据挖掘是一种决策支持过程,它从大量的数据中提取隐含的、潜在的、以前未知的有用信息或模式,主要基于人工智能、机器学习、统计学和数据库等技术,注重自动发现隐藏在数据中的模式和有用的信息。 数据挖掘可直接使用操作数据源,数据仓库并不是数据挖掘的先决条件,但数据仓库的发展有效促进了数据挖掘的研究。,13.5 数据挖掘,数据挖掘与OLAP不同。OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图。 数据挖掘和知识发现技术最早源于人工智能的学习,涉及数据库技术、人工智能技术、机器学习与模式识别、数据仓库和OLAP、统计分析等技术。 20世纪80年代末开始逐渐发展起来,进入20世纪90年代后,数据挖掘和知识发现技术的研究广泛开展。 数据挖掘表明,知识就隐藏在日常积累下来的大量数据之中,而仅靠复杂的算法和推理并不能发现知识,数据才是知识的真正源泉。数据挖掘为A I技术指出了一条新的发展道路。,13.5.1 数据挖掘的任务,任务:从数据中发现模式 两种形式:验证驱动数据挖掘和发现驱动数据挖掘。 验证驱动的数据挖掘一般是针对某一特定的问题,通过数据库中的一些属性来预测另一个属性,需要用到的技术有查询和报告以及统计分析等。统计分析常用工具有:SAS、SPSS、S+、TSP等。 发现驱动的数据挖掘用于发现预先并不知道的知识,其关键技术是模式识别和关系识别的算法,主要包括关联规则发现、数据分类、聚类分析、数据泛化和归纳、神经网络和偏差分析等。发现驱动的数据挖掘所发现的知识可分为 5类:广义知识、关联知识、分类知识、预测性知识和偏差性知识。,13.5.2 数据挖掘过程,一般过程分为四阶段:确定目标、数据准备、数据挖掘、以及表达、评价和巩固挖掘结果。,13.5.3 数据挖掘的方法,一般60%时间用在数据准备上,而挖掘工作仅占总工作量的10%。 一整套好的数据挖掘方法包括以下几点: (1)sample:数据取样。 (2)Explore:数据特征探索、分析和预处理。 (3)Modify:问题明确化、数据调整和技术选择。 (4)Model:模型研究及知识发现。 (5)Assess:模型和知识的综合解释与评价。,13.6 决策支持系统与数据仓库,决策支持系统是一种能为中高层决策者提供重要决策支持信息的数据库系统,比MIS更高级。 数据仓库主要价值是为了有效地构建DSS,支持管理决策。 高级管理人员信息系统(EIS)用途包括:趋势分析和发现;关键比例指标度量和跟踪;向下探察分析;问题监控;竞争分析,数据仓库可为之提供有效支持。,13.6.1 传统DSS的开发,20世纪80年代初,国内外曾在DSS的研究过程中提出了数据库、模型库和方法库的概念和方法。 传统DSS失败原因: 第一,缺乏丰富的数据资源。 第二,网络技术不发达,数据共享不充分。 第三,缺乏有效的数据分析工具。 第四,数据库、方法库和知识库未能有机地结合起来。,13.6.2 基于DW的DSS解决方案,有效的DSS解决方案:DW+OLAP+DM。特点: (1)底层DB的大量事务级细节数据是整个DSS的数据源。 (2)数据仓库是对底层的细节数据进行集成、转换、综合,重新组织成面向全局的数据视图,为DSS提供数据存储和组织的基础。 (3)联机分析处理从数据仓库中集成的数据出发,构建面向分析的多维数据模型,再使用多维分析方法从多个不同的视角对多维数据进行分析比较,分析方法与数据结构分开,更加灵活。 (4)数据挖掘以数据仓库和多维数据库中大量的数据为基础,自动发现数据中潜在的模式,并以此做出预测,对实现DSS的目标具有重大价值。,13.7 SQL Server 2000数据仓库,提供了强大工具和功能支持完成创建、使用和维护数据仓库的任务,Analysis Services包含了OLAP和数据挖掘。 将数据仓库分为两种基本类型:企业数据仓库和数据集市。 13.7.1 Microsoft数据仓库框架 13.7.2 Analysis Services组件 13.7.3 SQL Server2000数据仓库组件,13.7.1 Microsoft数据仓库框架,13.7.1 Microsoft数据仓库框架,该框架提供: (1)易于与第三方供货商集成和易于由第三方供货商扩展的开放式体系结构。 (2)异类数据导入、导出、确认和带可选数据类型的清理服务。 (3)集成的元数据用于数据仓库的设计、数据析取/转换、服务器管理和最终用户分析工具。 (4)用于日程安排、存储管理、性能监测、报警/事件和通知的核心管理服务。,13.7.2 Analysis Services组件,Analysis Services组件集成了DW和DM的解决方案。 Analysis Services 是一套易于使用的综合的可伸缩组件,用于OLAP和数据挖掘的中层服务器,使用它可以构造多维数据集并向应用程序提供对多维数据集的访问。多维数据集作为单独的高性能多维数据结构(MOLAP)或作为两者的混合组合(HOLAP),可以存储在关系数据库(ROLAP)中。 Analysis Services 通过OLE DB提供程序将多维数据集中的数据表现给应用程序。Analysis Services 提供程序支持OLE DB的多维扩展和ActiveX多维数据对象(ADO MD)的API。,13.7.3 SQL Server2000数据仓库组件,13.8 小结一,数据库分析型处理不同于操作型处理,分析型数据不同于操作型数据。 在操作型处理的数据环境很难构造有效的分析型应用,因此需要建立DW来专门保存分析型数据。 DW是一个面向主题的、集成的、稳定的、随时间而变的数据集合,用以支持经营管理过程中的决策制订过程。有四个方面的特征:面向主题、集成、稳定和随时间变化。 DW总体组成结构包含7部分:数据源、数据抽取转换和装载工具、数据建模工具、数据仓储、DW的目标数据、DW管理工具、前端数据访问分析工具, DW设计与传统DB设计不同。DW开发的生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论