第1章数据仓库的概念与体系结构_第1页
第1章数据仓库的概念与体系结构_第2页
第1章数据仓库的概念与体系结构_第3页
第1章数据仓库的概念与体系结构_第4页
第1章数据仓库的概念与体系结构_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021-11-202021-11-201数据仓库与数据挖掘陈志泊 主编清华大学出版社十一五 普通高等教育“十一五”国家级规划教材2021-11-202021-11-202第第1章章 数据仓库的概数据仓库的概念与体系结构念与体系结构 信息化建设-历史数据-如何处理它们?删除?备份+删除?其它?数据仓库系统2021-11-202021-11-2031.1 数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的概念数据仓库的概念 数据仓库就是一个面向 主题的(Subject Oriented)+ 集成的(Integrate)+ 相对稳定的(Non-Volatile)+ 反映历史变化的(T

2、ime Variant) 数据集合,通常用于辅助决策支持(DDS)。 注:数据仓库不是一个产品、一种语言、一个项目、一个模型, 而是一个数据库环境。2021-11-202021-11-2041.1 数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的特点数据仓库的特点l面向主题面向主题l集成集成l相对稳定相对稳定l反映历史变化反映历史变化主题:指用户使用数据仓库进行决策时所关心的重点领域。例如:顾客、供应商、产品等。2021-11-202021-11-2051.1 数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的组成数据仓库的组成l数据仓库数据库数据仓库数据库l数据

3、抽取工具数据抽取工具l元数据:技术元数据与业务元数据元数据:技术元数据与业务元数据l访问工具访问工具l数据集市(数据集市(Data Marts)l数据仓库管理数据仓库管理l信息发布系统信息发布系统数据转换包括:删除无意义的数据、转换成统一的数据名称和定义、填补缺失数据等。元数据是描述数据仓库内数据的结构和建立方法的数据。它为访问数据仓库提供了一个信息目录。数据集市是为了特定的应用数据集市是为了特定的应用目的,从数据仓库中独立出目的,从数据仓库中独立出来的一部分数据。来的一部分数据。包括:安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理与更新等。信息发布系统是把信息发布系统是把数据

4、仓库中的数据数据仓库中的数据或其他相关的数据或其他相关的数据发送给不同的地点发送给不同的地点或用户。或用户。2021-11-202021-11-2061.2 数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的概念数据挖掘的概念l数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(Knowledge Discovery in Database, KDD) 。2021-11-202021-11-2071.2 数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的

5、方法数据挖掘的方法l直接数据挖掘直接数据挖掘l间接数据挖掘间接数据挖掘利用可用数据建立一个模型,利用该模型对剩余数据进行描述。例如:分类、估值、预测等。未选出某一变量并用模型描述,而是在所有变量中建立某种关系。例如:关联规则、聚类等。2021-11-202021-11-2081.2 数据挖掘的概念与方法数据挖掘的概念与方法l数据仓库与数据挖掘的关系数据仓库与数据挖掘的关系l若将数据仓库(Data Warehouse)比作矿井,那么数据挖掘(Data Mining)就是深入矿井采矿的工作 l数据挖掘是从数据仓库中找出有用信息的一种过程与技术 2021-11-202021-11-2091.3 数据

6、仓库的技术、方法与产品数据仓库的技术、方法与产品1.联机事务处理(On-Line Transaction Processing,OLTP)与联机分析处理(On-Line Analytical Processing, OLAP)的比较l OLAP技术技术2021-11-202021-11-20102. OLAP技术的有关概念 (1)多维数据集 由一组维度和度量值定义的多维结构。(2)维度 维度是OLAP技术的核心,即人们观察客观世界的角度,通过把一个实体的一些重要属性定义为维,使用户能对不同维属性上的数据进行比较研究。(3)度量值 是多维数据集中的一组数值。(4)多维分析 指对以维形式组织起来的

7、数据(多维数据集)采取切片、切块、钻取操作等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据。2021-11-202021-11-20112. OLAP技术的有关概念 2021-11-202021-11-20121.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品3. OLAP的分类 根据存储数据的方式OLAP分为: (1)ROLAP 将多维数据集的多维结构划分为两类表: 事实表和维表。星型模式和雪花模式。 (2)MOLAP 以多维数据组织方式为核心来存储数据,例如多维数组。 (3)HOLAP 4. OLAP工具 2021-11-202021-11-2013

8、3. OLAP的分类2021-11-202021-11-20141.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l数据仓库实施中的三个关键环节数据仓库实施中的三个关键环节l数据抽取l数据存储与管理 面对大量数据的存储与管理 并行处理 查询优化-位图索引机制 支持多维分析的查询模式l数据表现 数据仓库的展示界面2021-11-202021-11-20151.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l数据仓库实施方法论数据仓库实施方法论 数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可

9、能导致项目实施失败 2021-11-202021-11-20161.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l常用数据仓库产品比较常用数据仓库产品比较l常用OLAP工具介绍 SQL Server自带的OLAP相关产品:SSAS、SSIS、SSRS l各数据仓库厂商提供的解决方案 IBM、Oracle、NCR、Microsoft、SAS等OLAP功能功能集成到集成到SQL Server中。中。2021-11-202021-11-20171.4 数据仓库系统的体系结构数据仓库系统的体系结构l数据仓库系统的体系结构的分类数据仓库系统的体系结构的分类(1)两层架构(Generic Tw

10、o-Level Architecture)(2)独立型数据集市(Independent Data Mart)(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)2021-11-202021-11-20181.4 数据仓库系统的体系结构数据仓库系统的体系结构l两层数据仓库体系结构两层数据仓库体系结构 2021-11-202021-11-20191.4 数据仓库系统的体系结构数据仓库系统的体

11、系结构l基于独立数据集市的数据仓库体系结构基于独立数据集市的数据仓库体系结构 2021-11-202021-11-20201.4 数据仓库系统的体系结构数据仓库系统的体系结构l基于依赖型数据集市和操作型数据存储基于依赖型数据集市和操作型数据存储(ODS)(ODS)的数据的数据仓库体系结构仓库体系结构 2021-11-202021-11-20211.4 数据仓库系统的体系结构数据仓库系统的体系结构l逻辑型数据集市和实时数据仓库的体系结构逻辑型数据集市和实时数据仓库的体系结构 2021-11-202021-11-20221.5 数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的产生数

12、据仓库的产生 问题? 联机事务处理系统(业务系统)刚上线时,查询不到数据是因为数据太少了,而几十年后查询不到有关数据是因为数据太多了。 解决方法: 针对这一问题,人们设想专门为业务数据的统计分析建立一个数据中心,它的数据从联机事务处理系统中来、从异构的外部数据源来、或从脱机的历史业务数据中来,这个数据中心也是一个联机系统,它专门为分析统计和决策支持应用服务,通过它可获取决策支持和联机分析应用所需要的一切数据。这个数据中心就叫做数据仓库。2021-11-202021-11-20231.5 数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的产生数据仓库的产生l简单地说,数据仓库就是一

13、个作为决策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的问题就是从数据库中获取信息的问题。 2021-11-202021-11-20241.5 数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的发展数据仓库的发展l以报表为主l以分析为主 l以预测模型为主 l以营运导向为主 l以实时数据仓库、自动决策应用为主 2021-11-202021-11-20251.5 数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的未来数据仓库的未来l数据抽取方面 未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。l数据管理方面 未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论