BI-数据仓库基础_第1页
BI-数据仓库基础_第2页
BI-数据仓库基础_第3页
BI-数据仓库基础_第4页
BI-数据仓库基础_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

RT

BusinessIntelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企

业领导提供科学决策信息的过程。

BOSS业务运营支撑系

BPM企业绩效管理

BPR业务流程重整

CRM客户关系管理

CUBE立方体

DM(Datamart)数据集市数据仓库的子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个

局部范围内的管理人员效劳,因此也称之为部门级数据仓库。

DM(DataMine)数据挖掘

DSS决策支持系统

EDM企业数据模型

3

ERP

EnterpriseResoursePlanning企业资源规划。它是一个以管理会计为核心的信息系统,

识别和规划企业资源,从而获取客户订单,完成加工和交付,最后得到客户付款。换言

之,ERP将企业内部所有资源整合在一起,对人十采购、生产、本钱、库存、分箱、运输、

财务、人力资源进行规划,从而到达最正确资源组合,取得最正确效益。

4

ETL

数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过

程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终

按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

KDD数据库中知识发现

5KPI

企业关键业绩指标(KPI:KeyProcessIndication)是通过对组织内部流程的输入端、输出

端的关键参数进行设置、取样、计算、分析,衡供流程绩效的一种目标式量化管理指标,

是把企业的战略目标分解为可操作的工作FI标的工具,是企业绩效管理的基础。

LDM逻辑数据模型

6MDD

多维数据库(MultiDimesionalDatabase,MDD)可以简单地理解为:将数据存放在一

个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,

人们可以通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,

它的优势在于可以提高数据处理速度,加快反应时间,提高查询效轧______________

Metadata(元数据),它是“关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规

则、数据的转换规则、数据加载频率等信息。

M0LAP自行建立了多维数据库,来存放联机分析系统数据

7ODS(四个特点)

(OprationalDataStore)操作型数据存储,是建立在数据准备区和数据仓库之间的一个部件。月来满足企业集

成的、综合的操作型处理需要,操作数据存储是个可选的部件。对于一些准实时的业务数据库当中的数据的暂时

存储,支持一些同时关连到历史数据与实时数据分析的数据暂时存储区域。

8什么是数据集市DM

数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局

部范围内的管理人员效劳.因此也称之为部门级数据仓库C

二数据仓库

DW

Datawarchousc,数据仓库是•个集合或过程,4要素面向主题,集成,时间相关(反映历史变化),(稳定)

不可修改的数据集合。

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用

不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。

特点传统操作型数据库数据仓库

面向主题菜市场1超市

按功能来分类按类型分类

每一个模块就如一个小摊位,萝卜,如都为利润的分为一个事实表

青菜都有事实表和维表的分类

集成的与特定的应用相关,数据库之间独有联系,ETL的过程已经是将多个数据

立的库联系统一,去除之间的不一致性。

相对稳定通常实时更新,数据根据需要及时供企业决策分析之用,数据操作主要是

发生变化数据查询,一旦某个数据进入数据仓库

以后,一般情况下将被长期保存,也就

是数据仓库中一般有大量的查询操作,

但修改和删除操作很少,通常定期的加

载、刷新。

反映历史变主要关心当前某一个时间段内的数包含历史信息,系统记录/企业从过去

化据某一时点

下列图是一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的访问I三个局部:

最为重要的一张图

这张图可以看出四个型中L面向对象,集成,

数据源:是指企业炭作型数据库中的各种生产运营数据即OLIP

数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两局部组

成。元数据是关于数据的数据•,其内容主要包括数据仓库的数据字典、数据的定义、数

据的抽取规则、数据的转换规则、数据加载频率等信息。各操作数据库中的数据按照元

数据库中定义的规则,经过抽取、清理、转换、集成,按照主题重新组织,依照相应的

存储结构进行存储

数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等儿局部组

成。例如OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题

结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快

速、检定和交互性的访问,并进行各种复杂的分析和预测工作。

按照存储方式来分,OLAP可以分成M0LAP以及ROLAP等方式,

MOLAP(Multi-DimensionOLAP)将OLAP分析所需的数据存放在多维数据库中。分析主题的数据可以形成一个或多

个多维立方体。

ROLAP(RelationalOLAP)将OLAP分析所需的数据存放在关系型数据库中。分析主题的数据以“事实表-维表〃的

星型模式组织。

三企业信息工厂

OLAP

Client

企业信息工厂(CorporateInformationFactory,简称EIF)是一种构建数据仓库的架构。

企业信息工厂主要包括五个集成转换层(I&T)、操作数据存储(0DS)、企业级数据仓

库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件芍机的结合在一起,

为企业提供信息效劳。

企业级数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。一般,也

称数据仓库,是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作

数据存储。

数据集市

的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非标准化的、定制的和

汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。

一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。

企业信息工厂中的数据流向一般是从源系统到数据准备区到操作数据存储到数据

仓库到数据集市

维Dimension

维,是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维C商店、时间和产品都是维c

各个商店的集合是一个维,时间的集合是一个维,商品的集合也是一个维。

代理关键字(维ID)

代理关键字一般是指维度表中使用J顺序(序列)分配的整数值作为主键,也称为“代理键”。

代理关键字用于维度表和事实表的连接。

使用代理关键字可以用来处理缓慢变化维,维度表数据的历史变化信息的保存是

数据仓库设计的实施中非常重要的一局部。Kimball的缓慢变化维处理策略的核心就是

使用代理关键字。

优点

1缓冲

2性能

3建不存在的维度记录

4缓慢变化维处理

缓慢变化维(能力的表达)

随着时间的流失发生缓慢的变化

处理缓慢变化维的方法通常有三种方式:

第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保存历史数据,无

法分析历史变化信号。第一•种方式通常简称为“TYPE1"。

第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属

性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原

维度记录保持关联不三种方式通常简称为“TYPE2〃。

第三种方式是添加属性列,这种处理的实现方式是对于需要分析历史信息的属性添

加一列,来记录该属性变化前的值,而本属性字段使用TYPE1来直接覆盖。这种方式

的优点是可以同时分析当前及前一次变化的属性值,缺点是只保存了最后一次变化信

息。第三种方式通常简称为“TYPE3"。

退化维度

事实表中的局部ID如订单号,但他没有对应的维度表,这编号称为退化维

微型维度

为了解决快变超大维度,解决的方法是,将分析频率比较面或者变化

频率匕较大的字段提取出来,建立一个单独的维度表。这个单独的维度表就是微型维度

表。

多维体系结构(MD)中的三个关键性概念,

一致性维度,总线架构(BusArchitecture)和一致性事实(ConformedFact)

一致性维度

解决数据仓库的集成问题

在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的

数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓

库。如果分步建立数据集市的过程出现了问题,数据集市就会变成孤立的集市,不能组

合成数据仓库,而一致性维度的提出正式为了解决这个问题。

一致性维度的范围是总线架构中的维

一致性维度建立的地点是多维体系结构的后台(BackRoom),即数据准备区。

在同一个集市内,一致性维度的意思是两个维度如果有关系

事实表

,主要有三种事实表,分别是事务粒度事实表

(TransactionGrainFactTable),周期快照粒度事实表(PeriodicSnapshotGrainFact

Table)和累积快照粒度事实表(AccumulatingSnapshotGrainFactTable);从用途

的不同来说,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。

粒度分类

事务事实表(Transactionfacttable)记录的事务层面的事实,保存的是最原子的数

据,也称“原子事实表"

周期快照事实表(Periodicsnapshotfacttab1e)以具有规律性的、可预见的时间间

隔来记录事实,时间间隔如每天、每月、每年等等

用途分类

聚集事实表(AggregatedFactTable)是原子事实表上的汇总数据,也称为汇总事

实表如只有月度维,求和,平均值笔

合并事实表

建立一个事实表,它的维度是两个或多个事实表的相同维度的集合

聚集事实表和合并事实表的主要差异是合并事实表一般是从多个事实表合并而来。

但是它们的差异不是绝对的,一个事实表既是聚集事实表乂是合并事实表是很有可能

的。因为•般合并事实表需要按相向的维度合并,所以很可能在做合并的同时需要进行

聚集,即粒度变粗。

非重点

预连接聚集表(pre-joinedaggregagletable)是通过对事实表和维度表的联合查询

而生成的一类汇总表。在预连接聚集表中,保存有维度表中的描述信息和事实表的事实

值。

切片事实表

切片事实表的结构与相对应的基础表相同,数据来源:相对应的基础表。切片事实

表由于缩小「表中数据的记录数,所以查询的效率得到了很大的提高

娱蚣事实表

)是指那些一张事实表中有太多维度的事实表事实表相关的维度在15个以下为正常,如果维度个数超过25个,

就出现

了维度过多的娱蚣事实表

一致性事实

一致性事实和一致性维度有些不同,一致性维度是由专人维护在后台(BackRoom),

发生修改时同步复制到每个数据集市,而事实表一般不会在多个数据集市间复制。需要

查询多个数据集市中的事实时,一般通过交叉探查(drillacross)来实现。

1.5数据集市

即席查询

即席查询的位置通常是在关系型的数据仓库中

ODS:操作数据存储(ODS)

是面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企

业综合的、集成的以及操作型的处理需求。

个人不建议ODS保存相当长周期的数据,同样

ODS中的数据也尽量不做转换,而是原封不动地与业务数据库保持一致。即ODS只是

业务数据库的一个备份或者映像,目的是为了使数据仓库的处理和决策支持要求与

OLTP系统相隔离,减少决策支持要求对OLTP系统的影响。

ODS的四个作用

1在业务系统和数据仓库之间形成•个隔离层

2分担转移一局《业务系统细节蟹的功能

3完成数据仓库中不能完成的一些功能

ODS是细节数据仓库是汇总

兀—数据,in

随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。

数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业

数据环境,如何以平安、高效的方式来对它们进行管理和访问就变得尤为重要。解决这

一问题的关键就是建立数据仓库元数据

ETL(重点)

ETL/BI=l/3,(BI的成败)

T/ETL=2/3

soT/Bi=2/9~~l/4

ETL是BI工程重要的一个环节。通常情况下,在BI工程中ETL会花掉整个工程的1/3的时间,ETL设计的好坏直接关

接到BI工程的成败。ETL三个局部中,花费时间最长的是'T"(Transform,清洗、转换)的局部,一般情况

下这局部工作量是整个ETL的2/3。就是整个工程的2/9差不多四分之一

ETL的实现有多种方法,常用的有三种。一种是借助ETL工具实现,一种是SQL方

式翅,〃外一种是ETL工具和SQL相结合

数据抽取(三种情况)

1在DW数据库效劳器和原业务系统之间建立直接的链接关系就可以写select语句直接访问

2不同的数据源解决方法:ODBC的方式建".数据库链接或方法三

3txtxml利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取

4增量更新的问题

数据清洗

1不完整的数据

2错误的数据

3重复的数据

数据转换

1不一致数据转换:抽取过来之后统一转换成一个编码

2数据粒度的转换:业务系统数据按照数据仓库粒度进行聚合。

3商务规则的计算:ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用

数据加载策略

1时间戳方式

2日志表方式

3全表比对方式upset

4全表删除插入方式

OLAP

On-LineTransactionProcessing联机事务处理系统(OLTP)

也称为面向交易的处理系统,其根本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在

很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地答复.也称为实时

系统(RealtimeSystem)«

OLAP(联机分析处理系统)多维数据分析工具的集合________

联机分析处理是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户

所理解的、并真实反映企业维持性的信息进行快速、••致、交互地存取,从而获得对数据的更深入

了解的一类软件技术。

OLTP与OLAP的不同点:

OLTP数据OLAP数据

原始数据导出数据

细节性数据综合性和提炼性数据

当前值数据历史数据

可更新不可更新,但周期性刷新

一次处理的数据量小一次处理的数据量大

面向应用,事务驱动面向分析,分析驱动

面向操作人员,支持H常操作面向决策人员,支持管理需要

钻取(Drill):它是改变维的层次,变换分析的粒度。钻取包含向下体取(Drill-down)

和向上钻取(DriU-up)/上卷(Roll-up)操作,rollup是在某一维上将低层次的细节数据概

括到高层次的汇总数据,或者减少维数;而drilldown则相反,它从汇总数据深入到细

节数据进行观察或增加新维。

OLAP的实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、H0LAP

表示基于关系数据库的OLAP实现

ROLAP(事实表维度表的设计)

将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维

至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,

形成了“星型模型”。对于层次复杂的维,为防止冗余数据占用过大的存储空间,可以使用多个表来描述,这种星

型模型的扩展称为“雪花模型"。

M0LAP

表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)。以多维数据组织方式为核心,也就是说,MOLAP

使用多维数组存储数据.多维数据在存储中将形成“立方块(Cube)”的结构,在VOLAP中对立方块的“旋转”、

“切块”、”切片"是产生多维数据报表的主要技术。

旋转行列转换•条记录中的多个事实字段转化为多条记录

切块

切片的字段结构和相应的基础表完全相同,差异在于存储的记录的范围。切片事实表中保存记录的是相应基础表

中记录的子集,记录数通常与某个维度记录数相同。

OLAP存储方式优缺点

多维存储方式(MOLAP)

MOLAP在效劳器上对数据立方体数组及其管理技术的实现,可以所有的信息查询都从MOLAP效劳器上获

得。

■优势

□性能好、响应速度快;

□支持高性能的决策支持计算;

□复杂的跨维计算;

□多用户的读写操作。

■缺点

□占用的存储空间较大

□难以到达TB级数据量;

□需要进行预计算,可能导致数据爆炸;

□无法支持维的动态变化;

□缺乏数据模型和数据访问的标准。

关系数据库存储方式(ROLAP)

ROLAP充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中的存储方式。

■优势

□没有大小限制;现有的关系数据库的技术可以沿用;

□可以通过SQL实现详细数据与概要数据的储存;

□现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、位图索引、SQ1的

OLAP扩展等大大提高了ROALP的速度;

□查询性能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论