数据仓库的概念与体系结构课件_第1页
数据仓库的概念与体系结构课件_第2页
数据仓库的概念与体系结构课件_第3页
数据仓库的概念与体系结构课件_第4页
数据仓库的概念与体系结构课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库的概念和体系结构、1、PPT学习通信、数据仓库创建、在线事务处理系统(业务系统)首次联机时,数据太少,无法查询数据,几十年后无法查看相关数据是因为数据太多。为了解决这个问题,我想建立一个数据中心,用于对从在线事务处理系统、异构外部数据源或离线历史业务数据派生的业务数据进行统计分析。该数据中心是用于统计分析和决策支持应用程序服务的在线系统,可以获得决策支持和在线分析应用程序所需的所有数据。这个数据中心称为数据仓库。简而言之,数据仓库是用作决策支持和联机分析应用程序系统数据源的结构化数据环境,数据仓库需要研究和解决的问题是从数据库获取信息的问题。2,什么是PPT学习交换,数据仓库?DW或D

2、WH缩写的数据仓库的定义很多,但很难定义与公司生产数据库分开维护的严格数据仓库。集成各种应用程序系统,为集成的历史数据分析提供坚实的平台,将用于信息处理的支持数据仓库与其他数据存储系统区别开来。”数据仓库是面向主题、集成、随时间变化和不容易丢失的数据集合。支持管理部门的决策过程。”“W. H. Inmon,3,PPT学习通信,数据仓库概念教科书的定义,数据仓库面向主题,集成,相对稳定相对稳定。6、PPT学习通信、数据仓库主要特征主题、数据仓库与关系数据库系统的一个显着区别是客户、供应商、产品等决策者的数据建模和分析,而不是组织的日常操作和事务处理。排除决策中无用的数据,提供特定主题的简明视图。

3、7,PPT学习通信,数据仓库的主要特征2数据整合,一个数据仓库是通过合并多个异构数据源而构建的。关系数据库、常规文件和联机事务记录使用数据清理和数据合并技术。确保命名规则、编码结构、属性测量单位等的一致性。数据移动到数据仓库时转换数据。8,PPT学习通信,数据仓库随时间变化的主要特征3,数据仓库从历史的角度提供信息数据仓库的时间跨度比生产数据库系统长得多。生产数据库系统:主要存储当前数据。数据仓库:将过去5-10年等信息包含在数据仓库的每个主要结构中隐式或显式的时间元素,但生产数据库的主要结构可能不包含时间元素。9,PPT学习通信,数据仓库的关键特征4个数据不易丢失,数据仓库中的数据物理分离并

4、存储,尽管这些数据是生产数据库中的数据。生产数据库的更新操作在数据仓库环境中不需要事务处理、恢复和并发控制等活动。初始重新传输和数据访问(读取操作),10,PPT学习通信,数据仓库与异构数据库集成比较,传统的异构数据库集成:(基于查询)包装器(wrappers)和mediators (mediators)然后,这些查询映射和发送到本地查询处理器数据仓库:(基于更新)预集成来自多个异构源的信息,并将这些信息存储在数据仓库中,以直接查询和分析、11、PPT学习交换、以查询为中心和以更新为中心的方法的比较,基于查询的方法涉及信息筛选和集成处理以及本地数据源的处理争用资源(对于频繁查询),尤其是与聚集

5、(聚集)操作相关的资源责任多维查询支持、12、PPT学习通信、数据仓库配置、数据库数据提取工具元数据访问工具数据集市数据仓库管理工具信息发布系统、13、PPT学习通信、数据仓库数据库、数据仓库系统的数据库是整个数据仓库系统的核心,是数据信息的存档位置,提供对数据的访问和检索支持。与传统数据库相比,其特点是庞大的数据支持和快速检索技术。14、PPT学习通信、数据提取工具和数据提取工具从各种存储环境中提取数据,并将其存储在所需的转换、清理和数据仓库中。数据提取工具的核心是访问各种数据存储方法。通常,数据转换使用合并数据名称删除对决策分析没有意义的数据,并定义计算统计数据和派生数据来填充缺失的数据。

6、集成的数据定义方法、15、PPT学习通信、元数据和元数据是描述数据仓库中数据结构和构建方法的数据。元数据(Metadata)是描述数据的数据。在关系数据库中,数据存储在表中,表结构的定义和结构的说明是元数据。在数据仓库中,元数据是定义数据仓库对象的数据。元数据是技术元数据业务元数据、16、PPT学习通信、技术元数据、技术元数据是系统开发和管理员使用的有关描述数据的技术详细信息的元数据。数据仓库结构的说明数据仓库模式、视图、维、层次结构、数据导出器定义、数据集市的位置和内容操作元数据包括数据血统、数据类别和从生产环境到数据仓库的映射系统性能数据索引监视。数据刷新、更新或复制事件的调度和计时;17

7、、PPT学习通信;数据仓库的配置;业务元数据(业务元数据)从业务的角度描述系统中的数据;用户和实际系统之间的语义层,因此不了解计算机技术的业务员工也可以“了解”系统中的数据。业务元数据包括用户的业务术语和用户表示的数据模型信息对象名称,以及有关该属性数据的源信息和数据访问的规则信息。构建数据仓库的数据模型,包括业务术语和定义、数据所有者信息、收费策略等、18、PPT学习交换、元数据的作用和元数据,元数据描述了有关此模型结构方面的更多信息。在数据仓库中,元数据的主要用途是用作目录,在决策支持系统分析员将数据仓库的内容定义用作数据仓库和生产数据库之间的数据转换时,映射标准将帮助业务人员和技术人员更

8、好地了解当前业务和系统数据,从而提高系统的管理效率。易于系统集成和重用;19、PPT学习通信、访问工具、访问工具访问工具为用户访问数据仓库提供了手段,如数据查询和报告、应用程序开发工具、数据挖掘工具和数据分析工具。20,也称为PPT学习通信、数据集市、数据集市、数据市场。数据集市是企业数据仓库的子集。数据集市是独立于数据仓库创建的一些数据,用于特定应用程序目的,也称为部门数据或主题数据。针对专业用户组的特殊需要提供分析、内容、性能和易用性。在构建数据仓库的过程中,通常从数据集市的一部分开始,使用几个数据集市构建整个数据仓库(从上到下)。21、PPT学习通信、数据仓库的配置、数据仓库管理数据仓库

9、管理包括安全和权限管理、数据更新跟踪、数据质量检查、元数据的管理和更新、数据仓库使用状态的检测和审核、数据复制和删除、数据分区和分发、数据备份和恢复,以及数据存储管理。信息公开系统信息公开系统是将数据仓库中的数据或其他相关数据传输到其他地方和用户。基于web的信息发布系统是当前广泛使用的多用户访问的最有效方法。22,PPT学习通信,数据仓库的体系结构,23,PPT学习通信,典型的数据仓库系统结构,系统构建方面,典型的数据仓库系统通常是数据源数据存储和管理(数据仓库服务器)OLAP服务器前端工具和应用程序,24,PPT学习通信,数据仓库体系结构,数据仓库也就是说,它是系统的数据源,通常包含企业机

10、构的各种内部和外部信息。内部信息,如生产数据库中存储的各种业务数据和办公自动化系统中包含的各种文档数据;外部数据,如各种法律法规、市场信息、竞争信息、其他外部统计数据和其他相关文档。26,PPT学习通信,数据的存储和管理,数据的存储和管理是整个数据仓库系统的核心。组织数据仓库的元数据(数据仓库中的数据字典、记录系统定义、数据转换规则、数据加载频率和业务规则等),同时基于现有业务系统提取、整理和有效合并数据,然后根据主题进行重组,以标识数据仓库的物理存储结构。管理数据仓库系统的管理,即管理相应的数据库系统,通常包括数据的安全性、存档、备份和恢复等维护任务。27、PPT学习通信、OLAP服务器和联

11、机分析处理(OLAP)为用户提供针对特定主题的联机数据访问、处理、分析、多个维和多种数据合成的直观分析和结果。OLAP使用户能够从多个角度快速、一致、交互地访问信息。28、PPT学习通信、前端工具和应用程序、前端工具主要包括各种数据分析工具、报告工具、查询工具、数据挖掘工具(如关联、分类、预测等),以及基于各种数据仓库或数据集市开发的应用程序。数据分析工具主要包括OLAP服务器报告工具、数据挖掘工具,用于数据仓库和OLAP服务器、29、PPT学习通信、OLTP和OLAP,以及联机事务处理联机事务处理(OLTP)联机分析处理OLTP是传统关系数据库的主要应用程序,主要是银行交易等基本和日常的事务

12、处理。OLAP是数据仓库系统的主要应用程序,支持复杂的分析任务,侧重于决策支持,并提供直观、易于理解的查询结果。30,PPT学习通信,背景,作为数据管理手段的数据库系统,主要用于事务处理。随着事务的进行,大量数据积累起来,传统的决策支持系统通常构建在此类事务处理环境中。数据库技术在事务处理、批处理、分析处理等方面尽可能能干、高效,在应用事务时取得了成功,但是随着数据的增长,对分析处理的支持越来越差。结果是将事务系统与分析处理系统分开,构建了两个独立的系统。31、PPT学习通信、OLTP和OLAP比较、32、PPT学习通信、OLTP和OLTP也称为面向事务的处理系统,其基本特征是可以立即将客户的

13、原始数据发送到计算中心进行处理,并在短时间内提供处理结果。这样做的最大好处是,可以随时随地处理输入的数据,并及时回答。也称为实时系统(Real time System)。衡量在线事务处理系统的重要性能指标之一是实时响应时间的特征OLTP,它具有复杂的结构,允许多个并发用户定期添加和修改数据,以反映随时变化的单位状态,但不保存历史记录。33,PPT学习通信,OLTP系统VS. OLAP系统比较(1),用户和系统面向客户(事务)VS .面向市场(分析)的数据内容的当前,详细数据vs .历史,聚合数据数据库设计实体接触模型(ER)和应用程序企业内数据vs .演变的统一数据访问模式事务操作vs .只读

14、查询(但是很多复杂的查询)操作单元简单的事务vs .复杂的查询访问数据卷数十亿到数百万到35,PPT学习通信,OLTP系统VS. OLAP系统比较(3),数千用户数以百计的数据库大小100M- GB到100g b 数据仓库最重要的特征是数据集成,以实现有效的信息数据呈现。OLAP服务不是设计为数据集成,但它是一种强大的数据显示方法。典型的OLAP服务通常派生自一个或多个专门设计的数据集市。必须将OLAP服务视为数据仓库解决方案的一部分。37、PPT学习通信、OLAP分类和OLAP根据存储数据的方式分为三类:ROLAP、MOLAP和HOLAP。ROLAP(关系OLAP)结构:使用关系或扩展关系D

15、BMS存储和管理数据仓库,OLAP中间件支持其馀部分。收到用户请求时,ROLAP服务器将多维查询转换为SQL查询,对数据仓库服务器以关系格式存储的数据执行SQL查询,然后将数据返回给最终用户。多维OLAP(MOLAP)结构:核心是数据存储采用矩阵(可能是多维方形矩阵)方法,数据检索高效的混合OLAP(HOLAP)结构:将ROLAP和mollap技术组合在MOLAP立方中存储高级聚集,将低级聚集存储在ROLAP中。38、PPT学习通信、数据仓库系统的体系结构、数据仓库系统的体系结构可以分为四种类型,具体取决于应用程序要求:(1)第二层体系结构(Generic Two-Level Architecture)。(2)独立数据集市。(3)依赖型数据集市和基于操作的数据存储库(dependent data ma

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论