数据仓库与数据中心知识培训.ppt_第1页
数据仓库与数据中心知识培训.ppt_第2页
数据仓库与数据中心知识培训.ppt_第3页
数据仓库与数据中心知识培训.ppt_第4页
数据仓库与数据中心知识培训.ppt_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库和数据中心内部知识培训,数据仓库和数据中心概述,OLTP和OLAP,多维数据分析模型,数据集成,应用介绍,数据仓库和数据中心概述,数据仓库的起因,数据库模式,数据仓库模式,数据和应用分离,为了实现高数据共享和支持日常业务处理(OLTP),为了支持运营和管理过程中的决策(DSS,OLAP,DM),什么是数据仓库?数据仓库是一个面向主题的、集成的、不可更新的、不断变化的数据集,用于支持运营和管理过程中的决策。瓦。H.Inmon,概述数据仓库和数据中心,概述数据仓库和数据中心,数据仓库的四个特征,数据仓库是一个面向主题的、集成的、不可更新的、不断变化的数据集,用于支持运营和管理过程中的决策。瓦。H.Inmon,概述数据仓库和数据中心,功能一是面向主题,主题是用户在使用数据仓库进行决策时关心的关键方面,每个主题基本上对应一个宏观分析领域。如:客户关系管理的高质量客户、潜在大客户的发现、企业资源规划合同、物资库存管理等,主题化意味着数据仓库中的信息按主题组织,按主题为决策过程提供信息。传统数据库中的数据是原始的基础数据,而具体分析领域的数据需要提取、处理和汇总。数据仓库中的主题有时会因用户主观需求的变化而变化。数据仓库和数据中心概述,功能2集成,数据仓库中的数据用于分析服务,分析需要各种不同的数据源进行比较和识别。因此,数据仓库中的数据必须从多个数据源获得,包括各种类型的数据库、文件系统、互联网数据等。通过数据集成形成数据仓库中的数据。统一消除不同数据源之间的不一致数据,综合合成和计算原始数据,数据仓库和数据中心概述,特征三是不可更新的,数据仓库中的数据是提取出来形成分析数据,没有原始数据,主要用于企业决策分析,执行的主要是“查询”操作,一般不执行“更新”操作。同时,稳定的数据环境也有利于数据分析和决策。需要更新的情况,在做出新的决策时需要提取和更新新的数据,通过删除和丢弃一些过时的数据,数据仓库和数据中心概述,特征四随时间变化,数据仓库中的信息不仅是关于企业当时或某个时间点的,而且系统记录了企业从过去某个时间点到当前各个阶段的信息,通过这些信息可以对企业的发展过程和未来趋势进行定量分析和预测。时间属性,数据仓库中的数据通常具有时间属性。数据更新基于时间段。什么是数据中心?数据中心是公司集成信息平台的重要组成部分。概述数据仓库和数据中心,将通用企业业务应用和数据资源有机结合,进行集中、集成、共享、分析场所、工具、流程等。狭义的应用级数据中心,具体包括基于数据仓库的数据仓库和决策分析应用、数据ETL、ODS数据库、数据仓库、商业智能应用和元数据管理、数据仓库和数据中心概述、数据中心定位、数据中心是企业综合信息平台的基础。它可以为应用系统集成和数据共享提供有效的解决方案,保证企业数据的一致性、及时性、完整性、安全性、有效性和准确性,提高企业信息系统的统一性,消除企业中常见的信息孤岛,解决信息系统沟通不畅的问题。、数据仓库和数据中心概述、数据中心逻辑架构(广义)、数据仓库和数据中心概述、数据中心功能单元、数据仓库和数据中心概述、OLTP和OLAP、多维数据分析模型、数据集成、应用程序介绍,也称为事务处理,是指对数据库的日常在线访问,通常是对一个或一组记录的查询和修改,主要服务于企业特定的应用程序。也称为在线事务处理(OLTP)。操作处理,OLTP :联机事务处理,功能,1,通常只查询或修改一个或一组记录,2,执行频率高,3,涉及处理响应时间,数据安全性和完整性指标,OLTP和OLAP,也称为信息处理,主要用于企业管理者的决策分析,为企业未来经营管理计划的制定提供辅助决策信息。也称为在线分析处理(OLAP)。分析处理,OLAP :在线分析处理,特点,1,需要对大量的事务性数据进行统计,归纳和分析,2,需要访问大量的历史数据,3,执行频率和响应时间要求不高,典型的OLAP决策支持系统(DSS - DecisionSupportSystem),OLTP和OLAP,OLTP和OLAP在应用上有所不同。联机事务处理是传统关系数据库的主要应用,主要处理基础事务和日常事务,如电力事务。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重于决策支持,并提供直观易懂的查询结果。OLTP和OLAP,OLTP环境不适合OLAP应用。在OLTP中直接构建OLAP应用程序是不合适的。为了提高分析和决策支持的效率和有效性,OLAP及其所需的综合数据必须与传统的联机事务处理和详细数据分开,根据决策支持系统的需要进行重组,并且必须建立单独的分析和处理环境。有六个原因:1。事务处理和分析处理具有不同的性能特征;2.数据集成;3.数据动态集成;4.历史数据;5.数据集成;6.数据访问;OLTP和OLAP。原因1。事务处理和分析处理具有不同的性能特征。OLTP处理时间短,访问的数据量小,但运行频率高,并发程度高。OLAP分析可能需要长时间连续运行,并有大量的访问数据,但这种分析很少进行,也不需要并发执行。OLTP和OLAP,原因2,数据集成问题,OLTP通常只需要与部门业务相关的当前详细数据,而很少考虑整个企业的集成应用程序,这导致企业内的大部分数据分散而不是集成。出现上述情况的原因,1、交易处理应用程序的分散,2、数据不一致的问题,3、缺少分析所需的外部和非结构化数据,OLAP需要综合数据,包括整个企业内部部门的相关数据,以及企业外部和竞争对手的相关数据。因此,用于分析和处理的数据可能来自各种不同的数据源,OLTP和OLAP。原因三是数据的动态集成问题。一旦所需的数据被集成,它将不再改变,这被称为静态集成。集成数据的周期性刷新称为动态集成。当采用静态集成策略时,如果数据源中的数据发生变化,这些变化将不会反映给决策者,从而导致决策使用过时的数据。因此,集成后的数据必须在一定时期内进行更新(即采用动态集成策略),但传统的OLTP环境不具备动态集成的能力。OLTP和OLAP,原因4,历史数据问题,OLTP通常只需要当前数据,并且只在数据库中存储短期数据(3-6个月),不同数据的存储周期也不同。OLAP更注重历史数据(5-10年),通过对大量历史数据的详细分析,可以把握企业的发展趋势。历史数据对交易处理的影响很小,但是对于决策分析来说,如果没有历史数据的支持,它就变成了“无源之水”和“无源之木”。OLTP和OLAP,原因5,数据的综合问题,OLTP需要当前详细的操作数据,OLAP需要大量的汇总分析数据而不是数据库中详细的操作数据,OLTP系统积累了大量的详细数据,但OLAP没有分析这些详细数据,原因是:1,详细数据量太大,影响了处理效率;2、不利于分析师关注有用信息,这种现象通常被称为数据库中“数据丰富而信息贫乏”的现象。因此,在分析之前,通常需要不同程度地综合详细数据。传统的交易处理系统不具备这种综合能力。此外,在数据库系统中,由于数据冗余,这种综合通常是有限的。OLTP和OLAP,原因6,数据访问问题,OLTP需要提供各种不同类型的数据访问操作,对于需要修改的数据,数据库必须实时“更新”,OLAP的数据访问操作主要是“读”操作,没有必要实时“更新”操作,只有定期“刷新”,OLTP和OLAP,OLAP和OLTP分离的好处,1,提高两个系统的性能,2。提高操作数据库的事务吞吐量。3.避免两个系统在数据结构、内容和使用上的差异带来的麻烦。建立数据仓库的目的不是取代传统的交易处理系统(数据库),而是满足由于市场商业运作行为的变化和精细化管理对决策支持系统的需求。数据仓库技术正在成为企业信息集成和决策应用的关键技术之一,OLTP和OLAP,数据仓库和数据中心概述,OLTP和OLAP,多维数据分析模型,数据集成,应用介绍,对象和度量的基本概念,对象是我们所关心和分析的,观察对象也称为度量,度量是一组值,通常是一个数字值,度量的选择取决于最终用户所请求的信息类型。一些常见的测量值包括销售电量、员工数量、线损率、发现的缺陷数量、多维数据分析模型和基本概念维度。维度是我们观察分析对象的角度。例如,我们可以从三个“维度”、多维数据分析模型和基本概念层来观察对象“发现缺陷”的时间维度缺陷类型缺陷级别。可以在不同的深度级别分析和观察分析对象,并且可以获得不同的分析结果。因此,“层”反映了分析对象的观察深度。一般来说,“层”与“维度”相关联。一个“维度”中可以存在多个“层”,可以采用多种不同的“层”细分方法,如日期维度1、日期、月份、季度、年份2、日期、周、多维数据分析模型、基本概念维度成员,维度的一个值称为维度的“维度成员”,如果维度是多级的,维度的“维度成员”可以是1、维度的组合对于数据项,维度成员是对数据项在某个维度中的位置的描述。,多维数据分析模型,多维数据集的基本概念,多维数据集可以表示为(维度1,维度2,维度n,变量)变量代表我们观察到的数据对象维度1,维度2,维度n分别代表我们观察到的各种角度,如(时间、单位、缺陷类别、缺陷级别、发现缺陷的数量)是与“发现缺陷”相关的四维数据集。其数据成员可以表示为:(2008,江苏,线路缺陷,一类缺陷,300)(2008年1月,南京,设备缺陷,二类缺陷,35),多维数据分析模型,多维数据分析模型,事实表:销售表(产品标识,商店标识,日期标识,销售金额)维度表1:产品表(产品标识,类别,主要类别)维度表2:商店表(商店标识,城市名称,省份名称,国家名称,州名)维度表3:时间表(时间标识,日期,月份,季度,年份), 多维数据分析模型、数据立方体、用于存储数据视图的多维数据模型称为数据立方体,数据立方体可以是物理存在的,也可以是逻辑定义,具有三个以上维度的数据立方体也称为数据超立方体。 超过三个维度的信息几乎不能同时显示。多维数据分析模型、多维数据分析、多维数据分析是指采取切片、切片、旋转、钻孔等各种分析动作。对数据进行多维形式的组织,以便对数据进行分析,使最终用户能够从多角度、多侧面观察数据,从而深刻理解数据所包含的信息和内涵。切片根据某个维度上的维度成员值选择统计数据进行分析,切片根据某个维度上的维度成员值的区间选择统计数据进行分析,旋转和调整维度排列顺序的动作称为旋转、向上钻取、向下钻取、向上钻取、向下钻取、多维数据分析模型、多维数据分析、和(汇总),从而形成新的统计查询结果并进行分析。数据钻取将多维下标的值降低到较低的概念级别,从而形成更详细的统计查询结果并对其进行分析。多维数据分析模型,使用切片添加功能、钻孔功能、维度旋转功能等。可以轻松完成传统方法难以完成的工作,多维数据分析,以“产品、城市、时间”三维数据为例,切片为三维数据,通过“切片”和“旋转”(选择一个特定的切割方向),分别从城市到产品等不同角度观察每年的销售情况,沿时间维度向下钻取,然后从年销售量观察每个季度的销售情况。从每个产品在每个时间段的销售情况、多维数据分析模型、数据仓库和数据中心概述、OLTP和OLAP、多维数据分析模型、数据集成、应用介绍、系统功能模块概述等方面,旋转观察角度,分析每个产品在不同城市的销售情况。系统功能模块可以按照系统管理员、开发人员、公司级管理人员等不同角色进行划分。面向用户、系统管理员和开发人员的功能模块面向公司级管理人员的功能模块面向开发人员的功能模块通过OLAP建模工具建立应用介绍、业务描述、多维数据分析模型,通过报表、查询、动态分析等环节实现指标数据的分析和展现。应用介绍,设计方案汇总系统,以查询、动态分析等手段实现指标数据的分析和显示。应用介绍,主要业务功能数据组织功能数据应用功能数据管理功能,应用介绍,数据组织功能数据仓库数据仓库定义数据仓库功能数据存储分类数据仓库,应用介绍,数据应用功能索引管理索引分类数据组织索引配置主题分析主题定义和索引配置即席查询,应用介绍,索引分类基本索引基本索引是数据仓库中最小的索引单位,是对实际业务的响应。衍生指标衍生指标是根据指标本身包含的信息,通过不同的衍生方法生成的具有特定业务含义的数据集。综合指数综合指数是基于一组基本指数、衍生指数或现有综合指数中包含的信息,通过组合不同的指数数据,并利用各维度之间的相关性,生成的一组具有分析意义的数据。应用程序介绍,从业务数据到操作数据区的数据组织,从操作数据区到数据仓库,从数据仓库到数据集市的数据组织,应用程序介绍,通过从业务数据到操作数据区的ETL过程,对业务系统的数据进行适当的编码和转换,进入操作数据区,形成建立基本索引所需的基本数据项。应用介绍,从操作数据区到数据仓库,根据管理分析的需要,确定基本指标、维度的度量和维度的层次结构等数据组织模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论