版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库处理实时数据
近年来,我国大中型企业也逐步认识到利用数据仓库技术的重要性,并已开始建立
自己的数据仓库系统,如中国移动、中国电信、中国联通、上海证券交易所与中国石油等。
这些数据仓库系统已经开始在这些企.业运营过程中发挥出显著的作用。比如,从2001年起,
中国移动开始在全国范围内建设数据仓库系统,目前已建成数TTB级的分级式数据仓库,
有数万用户在使用,年访问量达数千万人次。仅一项“重入网分析”能够节约成本数亿元。
但是,随着市场经济步伐的加快与竞争的口趋猛烈,传统的数据仓库技术已不能很
好地满足企业进展与竞争的需要。传统数据仓库仅为企业高层决策者提供战略决策
(strategicdecision),服务于宏观决策与长远规划,妇市场细分、产品管理等。然而,企
业越来越希望数据仓库在支持战略决策的同时,也能够为市场一线人员提供实时的战术决策
(tacticaldecision)服务,如实时营销、个性化服务等。这种既服务于战略决策又服务于
战术决策的数据仓库称之为实时主动数据仓库(real-tineactivedatawarehouse,RTADW)o
根据Gartner的研究报告,RTADW已成为数据仓库进展的必定选择。然而,当前对RTA)W的
研究尚不成熟,许多关键技术急需进行深入研究,应用电仅是在部分企业尝试使用.
自2002年起,北京大学数据库研究室与中国移动集团公司在数据仓库的研究与建设
方面开始了深入而密切的合作,在数据仓库与数据挖掘技术的研究开发与应用推广方面展开
了大量卓有成效的工作,并于2006年5月在北京大学联合成立了“移动通信数据仓库联合
实验室”。以移动通信领域为背景,在北京大学一惠普中国实验室联合项目的支持下,目前
我们正在开展面向大规模每量实时主动数据仓库的研究工作,在理论研究与系统开发方面已
经取得了丰富的成果。
本文将重点介绍实时主动数据仓库的概念、特点、需要研究的问题与一些典型的应
用。
1实时主动数据仓库
1.1实时主动数据仓库的概念
Haistcn提出了实时主动数据仓库的概念:RTADW是一个关系型环境的数据仓库,支
持数据的实时更新、快速的响应时间、基于钻取的聚集数据查询能力与动态的交互能力,用
于支持不断变化的商业需求。与传统数据仓库系统相比,实时主动数据仓库系统有许多独枸
的特点(参见表1)。
表1实时主动数据仓库与一传统数据仓库的比较.
传统救据仓库实时主动数掘仓库
仅支持故略决策支持战略决策和战术决策
实时性要求不高要求结果实时返回
数据传输是单向的数据传输是双向的
返回很难测量的指标返回日常运营的指标
以天、周以及月为周期获取效只包含明细数据,可以以分钟
据,并做预先聚合计算为周期狭取明细数据
中等规模用户数多用户的并发访问
高度限制的报表,适用预处理灵活的即甯行泡、数据论据
的聚合表或数据隼市
高级用户,分析员和内部用户操作员、外部用户!1,厂,
在RTADN进展的过程中,(operationaldatastore,ODS)是一个重要的过渡阶段。
一些企业为支持战术决策,往往使用ODS技术。总体而言,ODS分3类:1)实时ODS,它通
过消息中间件实施数据的同步转换与刷新,但业务系统不能太多,转换数据量不能太大;2)
准实时ODS,它实现数据同步,以卜2h为周期,系统负担较小,具有较好的灵活性;3)传
统ODS,其代价最小,目前在传统数据仓库中常见。
1.2实时主动数据仓库的特点与挑战
1.2.1实时数据的连续集成
为支持实时的战术决策,源系统(或者称生产系统)产生的实时数据务必在最小化对
源系统入侵程度、并保证实时数据一致性与完整性的情况下,被实时高效地集成到数据仓库
中。挑战问题是:1)在保证源系统性能不降低的情况下,对实时数据在源系统的任何变化进
行实时的捕获;2)保证被连续分发数据间次序的一致性与自身的完整性;3)在保证数据质量
要求的前提下,完成实时、高效的数据加载。
1.2.2实时数据与历史数据的组织与管理
提供RTADW中的实时数据与历史数据的有效的组织与管理策略,使之高效地工作在
一种混合的工作负载环境(战略决策与战术决策)中。所要研究的挑战问题:1)对实时数据与
历史数据(指传统数据仓库中存储的数据)进行统一建模,从而对外提供统一的访问视图;2)
研究对实时数据查询所产生的“查询冲突”与“查询不一致性”问题,保证查询处理过程的
无堵塞性与查询结果的一致性;3)研究实时数据与历史数据的及时信息合并技术,对提交的
RTADW的任何查询提供“透明”的一体化服务;4)对负载的管理,使得RTA【川系统高效的运
行。
1.2.3主动的服务决策机制
研究RTADW.的主动决策服务机制,提供对实时事件进行主动分析与处理的能力。挑
战问题包含:1)研究实时事件的主动捕获机制,具备对外界请求的实时响应能力;2)研究分
析决策过程的自动执行机制,使RTADW系统拥有主动服务的能力。
1.3实时主动数据仓库的性能评价
1)数据的新颖性
实时数据务必被及时地加载到系统当中,从而支持战术查询分析。
2)时间的一致性
在连续数据集成的环境中,会出现数据时序的不•致性现象,需建立时序模型进行
时间一致性管理。
3)查询结果的一致性
由于数据的动态到达与杳询的持续性,会出现同一杳询请求受不一致时刻不一致杳
询状态的影响,出现查询结果的不一致性,需要查询过程的一致性管理。
4)主动决策的及时性
RTADW系统能够实时捕获各类决策规则限定的动作,并做出实时的反应。
5)可扩展性
用户数目与性能需求随着RTADW系统分析应用的部署增加而增加。
2实时主动数据仓库的研究问题
在介绍研究问题之前,首先介绍一个RTADW系统的参考结构,如图1所示:
图1实时主动数据仓库的参考结构
如图1所示,一个RTADW系统要紧包含5个构成部分:数据源、数据抽取、数据仓
库、主动决策部分与前端应用。
数据源除了包含传统的静态部分之外,还包含实时的数据源部分(如数据流等);数
据抽取部分包含传统的抽取与实时数据抽取两部分;数据仓库除了存储传统的静态数据
之外,还存储实时的数据部分,与它们之间的周期性的转换与数据的实时合并;主动决策部
分要紧基于触发器的基础上,利用主动分析规则完成主动的决策分析;前端的展现除了传统
展示方法外,还包含一些实时的监控部件(如dashboard等)。
2.1数据集成研究问题
RTADW要集成的数据包含实时数据与历史数据两部分。历史数据使用传统的批处理
方法进行集成,而实时数据部分则需要进行实时的连续集成。重点研究问题包含:
1)实时数据的主动变化捕捉
在传统数据仓库系统中,由源系统按预先约定的加载时间与数据格式,定期把需要
抽取的数据放到预先约定的接口中,然后•由ETL引擎把这部分数据加载到数据仓库。但是,
对RTADW而言,要求实时数据•旦由源系统产生就立即加载到数据仓库中,以便支持实时战
术分析的需要。因此,RTADW系统需要能够对新产生的实时数据变化(插入、更新等)进行实
时捕获,从而及时进行数据加载。
要重点研究快速数据的变化捕捉方法,实现对源系统中的数据变化进行有选择性的
定位与捕捉(即仅捕获实时部分的数据变化),满足零延迟的要求,最小化对源系统的入侵程
度(即对源系统性能的影响),降低源系统的负载,确保源系统性能不下降、不当机。
2)支持数据一致性与完整性的实时数据分发
数据分发是指数据从源系统到数据仓库的传播过程。在传统数据仓库中,数据分发
使用批量拷贝的方式,数据间的时间依靠性与事务依靠性在数据批量转移的过程中不受影响,
能够保持数据的一致性与完整性。但在RTADW中,捕捉到的每个数据变化都是以消息攸形式
进行分发,同•事务中包含多个数据变化,也就包含了多条消息,这些消息在网络中进行独
立传输。因而,如何保证消息在传输过程中的完整性,与如何保持多个消息之间的正确股序,
从而有效地保护数据的事务一致性与不一致事务间的依靠性。
要重点研究高效的数据分发机制,使每个捕捉到的数据变化放入消息队列后,由消
息队列完成数据的分发,保证消息传输的一致性与完整性,同时有效地保护数据的事务依靠
性与时间依靠性。
3)实时、高效的连续数据加载
在RTADN中,接收到的消息中是未经处理的数据,假如对这些数据进行复杂地清洗
与转换操作,将无法满足外部查询对数据实时性的要求;反之,所包含的脏数据会严重影响
数据的质量。如何在保证数据质量的前提下实现实时、高效的数据加载是一个需要深入研究
的问题。
要重点研究连续高效的数据加载技术实现实时、高效的连续数据加载。实现对数据
的清洗与转换过程所包含的内部子环节进行合理有效的组织,从而提高数据处理的速率与并
发度。同时根据用户对数据质量的不一致需求,对即时加载的数据进行区别对待,合理分配
系统资源,提高数据加载性能。
2.2数据的组织与管理
研究RTADW系统中实时数据与历史数据的数据特性,建立有效的数据存储、组织与
访问策略,为高效的战略决策与战术决策的执行提供数据平台支撑。
2.2.1RTAD甲中的数据建模
传统数据仓库中的数据通常在空闲时(如夜间)以批处理的方式进行更新。由于更新
时不对外提供数据查询服务,因而对更新的代价不做过高要求。但是,由于RTADW中的实时
数据是以7X24的工作方式对外提供服务,而且要求数据的实时更新与查询结果的实时反馈,
因此传统静态数据的组织与管理方式不适合于实时数据。
要重点研究实时数据与历史数据的有效建模,使得关于杳询工具而言,只有一个统
一的逻辑视图,避免查询工具与终端用户进行多表连接操作的问题。
2.2.2实时数据的查询一致性保护
在RTA【川环境中,数据仓库中数据是实时更新、不断变化的。在这种“动态”的数
据环境中使用OLAP分析与查询工具,会使查询所涉及的数据在读取过程中不断发生变化,
从而导致查询结果的不一致性。
需要重点研究在实时数据环境中的查询一致性问题,防止数据在查询过程中被修改,
从而保证查询的一致性。同时保证以后到达的查询得到的是更新以后的数据,保证了数据的
实时性。
2.2.3实时数据的查询冲突解决
在RTA【川环境下,由于数据的查询与更新同时进行,会导致在某个时刻,关于事实
表中的某些记录,查询操作与更新操作会发生读写冲突。当源系统的数据变化过于频繁,数
据仓库中的查询数量比较多时,这种冲突将更加突显,甚至可能使系统发生堵塞,无法对外
提供服务。
需要重点研究实时数据的查询冲突问题,利用不一致用户杳询对数据实时性的不一
致要求,有效分流不一致类型的查询负载,防止系统因查询冲突而发生堵塞,同时又能满足
不一致类型查询的需求。
2.2.4实时数据与历史数据的“无缝”集成
在RTADW环境下,为了最大程度地减小查询冲突给系统带来的负面影响,保证数据
仓库正常高效地运行,实时数据与历史数据通常分开存储。为了最小化对查询工具的影响,
不需要查询工具熟悉获取不一致类型数据的方法,而是一旦提出查询请求,就能够得到“无
缝集成”后的数据。
需要重点研究高效的集成技术,实现实时数据与历史数据的“无缝”集成。能够自
动分析查询语句,从而确定数据需求,并从RTADW的不--致部分提取所需的数据,合并后供
查询工具使用。能够自动分析所需数据中实时部分与历史部分的比例,从而更好地选择数据
的迁移策略,减少数据传输,改善服务性能。
2.3主动决策服务
研究RTADW.的主动决策机制,从而支持对实时事件的主动探查,并根据事件的特征
进行处理推断,从而触发相应的分析规则。
2.3.1RTADW中事件的主动探查
在RTADW系统中,为了支持实时主动的决策分析,从而满足系统实时响应的需求,
就需要系统具备对各类事件的主动探查机制,从而熊够实时发现各类特殊事件,并进行相应
的处理。
需要重点研究事件主动探杳机制,与RTA[川的应用需求相结合,提高事件的探查速
度,保证RTADW的实时性.研究事件的组织与存储方式,使得在探查到事件后,能够迅速将
事件与相应触发的分析规则相匹配,避免了简单查找所产生的巨大代价,进一步提高事件的
匹配效率。
2.3.2支持主动决策的分析规则技术
在RTA【川的应用中,常常有大量的事件同时发生,导致很多分析规则同时触发,同
时各个规则间通常有•定的联系,•些规则的发生会导致其他规则的触发。这就使规见的并
发操纵与匹配的效率成为影响RTADW性能的重要问题。目前,已有的方法并不能完全解决大
量事件并发时带来的效率问题,已有系统不能满足大量用户并发情况下的性能需求。
需要重点研究高效的分析规则组织方法,使分析规则之间的关系明确,规则的匹配
及规则触发因果关系的查找更加迅速,提高分析规则匹配的效率。研究有效的分析规见所产
生的操作组织方式,使得分析规则触发时能够迅速、主动地找到与之对应的具休操作,从而
能够迅速对不一致的源系统进行相应的操作。
3实时主动数据仓库的典型应用
下面列举一些典型的实时主动数据仓库应用。
3.1在移动通信领域的应用
实时监控移动呼叫数据,防止欺诈行为发生。据国际数据公司IDC统计,每年全球
电信领域因欺诈而造成的玦失占电信服务总收入的5%〜10%之多,对电信运营商的信誉与
正常业务运营产生了严重的冲击。传统数据仓库技术因其数据延迟过大,不能实时捕获欺诈
信息,因此不能很好地解决这一难题。利用RTADW技术,把当前的实时呼叫信息与数据仓库
中的历史行为信息结合,借助通信企业提供的企业间共享的欺诈人群信息,能够有效地判定
当前客户是否具有发生欺诈行为的可能性,从而进行实时地预防与监控,减少企业因欺诈而
造成的缺失。
3.2在电子商务领域的应用
根据用户提交信息,实时给客户灵活的定价与价扣。借助于网络技术而蓬勃进展起
来的电子商务应用已日趋普及。但是,FI前的电子商务通常不具有个性化服务的能力,只能
在既定规则下开展不具有针对性的服务,不利于提升客户服务的能力。RTADW技术能够很好
地解决这一难题。对客户提交的实时购物订单,能够根据客户的当前行为信息,借助于在数
据仓库中存储的该客户的历史消费信息来推断客户的价值,进行实时又个性化的定价与折扣,
从而提升客户满意度,增强企业的竞争力。
4有关研究
NCR给出了主动数据仓库的概念,但其本质上也是ODS与传统数据仓库的结合,其
他一些国际数据库研究机构(如IBM,Oracle,Sybase)也纷纷提出了自己的解决方案,共同
点是都使用了ODS方案来存储实时数据,用传统数据仓库存放历史数据,从而是ODS之上解
决对实时数据查询的问题。但是,使用ODS解决方案面临的最大问题就是所有的数据务必进
行实时的抽取,否则无法满足实时性的需求。但是,根据国际权威机构Garter的研究报告
指出,真实业务对实时数据的需求量仅占所有抽取数据量的25%左右。因此,对所有的数
据都使用这种代价高昂的实时抽取处理方式,必定带来具体的资源(时间、空间等)的浪费。
RTADW的实时数据连续集成要紧有如下方法:1)脚木方法。该方法使用灵活且比较
经济,很容易着手开发与进行修改,而且几乎任何操作系统与绝大部分DBMSS都能够使用脚
本。但是,该方法的实施耗费开发者的大量的时间与精力,而且不易于管理与操作与不能满
足服务水平协议。2)ETL方法。该方法是实现大规模数据初步加载的理想解决方案,提供了
高级的转换能力。但是该方法通常都是在“保护时间窗口”进行,在ETL任务执行期间,数
据源默认不可能发生变化,从而不能满足实时数据集成,3)EAI方法。该方法与ETL解决方
案并存,并增强了ETL的切能,能够支持在源系统与目标系统之间进行连续的数据分发,并
提供高级的工作流支持与基本的数据转换。但是该方法受到数据量的限制,不适合数据量较
大的环境。
当前,在实时数据与历史数据的组织与管理研究方面,要紧有下列一些学术观点:
1)无实时数据存储。该方法把从源系统产生连续加载到数据仓库,能够直接在数据仓库事实
表中插入或者更新数据,也能够把数据插入到实时分区当中的单独的事实表中。但是,该方
法的缺点是可扩展性不好,复杂查询与连续插入及更新混在一起进行会严重影响数据库的性
能。2)阶段存储表存储实时数据。该方法把数据连续地注入到阶段存储表,其结构与数据仓
库表的结构相同,其内容会与事实表周期性地进行交换,使用视图集成完成实时数据与历史
数据集成。但是,该方法的缺点是在处理数据交换时,务必暂时停止对外提供实时查询服务<1
3)实时数据缓存。该方法能够完全避免对数据仓库性能的影响,不用对现有的数据仓库做出
修改,能够是另一个专用口勺数据库服务器,也能够是一个大的数据库系统的单独的实例,把
所有那些需要实时数据的查询定向到实时数据缓存,或老者把某个查询所需要的实时数据临
时地无缝隙地整合到传统的数据仓库中。该方法的缺点是要安装与保护一个额外的单独的数
据库。
主动规则(acliverule)作为实现主动决策的手段已经被广泛同意。在处理一系列复
杂的任务与对数据的自动管理(包含完整性约束检验、转换、安全等)过程中,使用户的参与
度降低到最小。主动的信息管理具有基于“事件-条件-动作"(evenl-condition-aclion,
ECA)的规则处理特性,复杂的商业决策构造与处理不需要深入到应用程序与底层数据库。主
动数据仓库(ADW)中使用ECA规则或者者其他事件驱动机制,是为了在传统数据仓库环境中
自动执行日常决策任务。Thalhammer等人使用ECA规则来模仿分析人员的工作,故称之为
分析规则(analysisrules),,它结合了ADB、传统数据仓库与OLAP良好的决策标准,从而
满足决策过程的自动化。但是,它的数据集成过程是基于传统的批处理方式工作的,这与实
时的数据集成不符合,会在迟到的数据与基于不完整信息的决策制定中产生问题。
实时数据仓库的定义
数据仓库基础
首先,让我们熟悉一下基本的数据仓库定义。建立数据仓库是一个创建、保护与查询的过
程。RalphKimball将数据仓库定义为“满足查询与分析的事务处理数据的拷贝的特定结构”。
创建数据仓库的过程包含数据仓库的逻辑模型与物理数据库。保护的过程包含ETL过程,
马上数据从OLTP系统中抽取到数据仓库。兖询的过程是从数据仓库中收集信息。简单来说,
数据仓库是一个从数据中获取信息的结构。
其次,我们需要区分信息与数据之间的差别。数据仅仅是简单的事实描述,分散的数据不
存在有意义的信息。举例说明:A公司在2003年1月有1000件小商品位于北京地区的仓库
中。尽管有几个事实包含whal(小商品),where(北京地区的仓库)与when(2003年1月),数
据中仍然没有带来有意义的信息。另一方面,信息是数据的含义,信息来源于数据。维续A
公司的例子:在2003年2月,A公司在北京地区的仓库里有1500种小商品。当与前面的数
据组合起来,2003年1月有1000种小商品,我们能够从数据集成中得到信息。其中一条是
北京地区的仓库中的小商品的库存量从1月到2月增加了50%。这条信息让我们有一个疑
问,为什么一个月中库存增加了这么多?一月与二月之间业务上有什么问题吗?……这条
信息让我们采取相应的行动,比如开始操纵库存。信息来源于数据,信息是继续提出问题与
采取行动的开端。
实时vs.近似实时
实时vs.近似实时之间的区别可卜.列面一个词概括:反应时间。反应时间是指行为的完成
时间与该行为的数据在数据仓库中可利用时间之间的延迟。实时情况下,反应时间是能够忽
略不计的;在近似实时情况下,反应时间是一段时间,比如2小时。为了使系统变得更精确,
一些人使用了“实时”这个概念。
实时OLTP
OLTP中的实时性指的是能通过OLTP系统的即时响应速度计数据同步.比如A公司有
订单登记与订单处理的OLTP系统。关于有实时能力的OLTP系统,当销售记录在订单登记
系统中,同时订单处理系统就己经有了销售记录。数据仓库与OLTP是不一致特征的系统,
不管他们是否具有实时性,
实时数据仓库的定义
实时数据仓库是两种事物的组合:实时行为与数据仓库。实时行为是一种即时发生的行为。
行为能够是任何情况,如超市中小商品的销售行为。一旦行为完成,就有关于它的数据。数
据仓库捕获有关商业行为的数据,而实时数据仓库在商业行为发生时就捕获数据。当商业行
为完成时,有关数据就已经进入到数据仓库同时能立即使用。换句话说,实时数据仓库是这
样一个系统,只要行为发生、数据变得可用时,就能从中获得信息。
1、主动数据仓库
1.1、问题的提出
假如你的网站能够及时的给客户返回信息,同时客户每访问3次后就给10%的折扣,将能
增加多少的客户忠诚度?
假如供应商能够预测到假期每个商品会增加多少的销售量,并及时补充商品,将会增加多
少的销售额?
今大,成功的商业关系,小管是客户、合作伙伴或者者供应商,都越米越依靠集成了企业
所有数据的数据仓库,分析出有价值的信息,并把信息分发给每天做决策的人员。主动数据仓库
转变传统数据仓库解决方法的策略,使企.业在维系客户上变得更加主动与有效。
1.2.变革经济环境下的全新解决方案
新经济环境下,有着新的客户期望值、新的客户关系与新的商业机会,企业需要具有主动
的决策支持能力。今天,数据仓库的数据正在发生演变,数据仓库负担着客户关系管理、一对一
营销与及时制定决策等效用,继而成为具有操纵与影响市场能力的工具。
数据仓库的初始阶段,是面向查询批处理的决策支持应用。数据仓库的初始目的是收集、
清理与集成组织内的数据,这些数据用来产生报表与查询,以支持决策的制定。
随着数据仓库技术的成熟与应用普及,越来越多的企业利用数据仓库技术的特性,以支持
预测分析以驱动商业决策。数据仓库技术在更大范围内得到应用,从分析市场将要发生什么变化,
到分析市场正在发生什么变化,到基于事件触发、操纵市场朝着自己想要的方向去进展。
1.3、主动数据仓库的优势
利用呼叫中心,进行自动的、直接的客户营销:
在信用卡业务处理过程中,及时进行欺诈检测:
飞机满座率低时,能够在飞机起飞前,让更多的乘客坐上飞机;
基于当前的客户奉献度与价值度,给客户灵活的综合定价与折扣:
及时决定运行中卡车的最优线路,降低货物运送时延,并实现对不一致客户的不一致
服务承诺;
基于客户近期的信用卡交易情况、结合他们长期的购买行为,优化马上要送给客户的
交叉销售购物券;
传统数据仓库解决方案主动数据仓库解决方案
只能支持战略决策支持战略决策与战术决策
返回很难测量的指标返回日常运营指标
以天、周或者月为周期获取数据,并做预先聚只包含明细数据,可能以分钟为周期获取新数
合计算据
中等规模用户数多用户数并发访问(如1000用户以上)
只能得到高度限制的报表,使用预处理的聚合灵活的即席查询,数据挖掘
表或者数据集市
适用于高级用户,分析员,内部用户适用于操作雇员,呼叫中心,外部用户
表1:传统数据仓库与主动数据仓庠的能力比较
显然,主动数据仓库扩展了传统数据仓库的能力:
外部人员能够访问数据仓库,如合作伙伴、供应商与客户。
企业的所有成员都能修直接的访问数据仓库,包含普通的雇员、呼叫中心的客户代表
等等。
集成、多主题,交叉渠道的执行能够帮助企'也更快更有效的行动,拓展商业机会。
主动数据仓库支持战略与战术的市场决策。意味着企业的战略分析结果能够转化为具为、
全面的条件约束与操作事务F的行动。这样,发挥了日常战术决策的效用,提高了数据仓库信息
的效率。最终,关于企业来说,一致性的数据使职员与合作伙伴更好做出符合事实的、精确的与
有见地的决策。
建立主动数据仓库帮助你更接近你的客户、优化供应链、提高制造质量与精准地跟踪商品
流淌,计划与管理成功的商业活动,达成销售自动化,使得企业具备新竞争环境卜•的及时腐业分
析能力。
主动数据仓库需要一个可扩展的、高性能的数据仓库傩决方案,需要实时数据仓库的支持。
2、实时数据仓库与ODS
很多数据仓库设计者认为不可能把现有的24小时运行周期的ETL改为15分钟的周期。由
于即使将数据清理的步骤并行处理,最大的事实表与维表的增量加载也不一定能在这么短的时间
内完成。
2.1、ODS的引入
规划数据仓库时,能够在常规的、静态的数据仓库之外,建立一个实时的分区,这个特别
的分区在物理上与管理上独立于传统的数据仓库。事实上,实时分区通常并不是数据库概念上的
表分区,而是由一些独立的能够在其上进行更新与查询操作的表构成。。
存储实时分区的系统就是ODS(OperationalDataStere)。ODS与实时分区是两大数据仓
库流派的不一致名词定义而已,我们姑且将ODS懂得为存储与管理实时分区的系统。ODS处于
业务系统与数据仓库之间,具有实时的、常变的、当前的、临时的等特点。引入ODS,DW的
体系结构变为:源数据一ODSfDWfOLAP。增加ODS,还需要前端工具的支持,才能够进行
无缝查询。
实时分区务必满足如下的一些苛刻要求:
在静态数据仓库更新前.,承担所有的查询操作:
在粒度与内容上与静态数据仓库的事实表能够吻合链接;
支持大量并发的查询响应。
2.2、实事分区(ODS)的应用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 语用学视域下高中英语文化教学的深度剖析与优化路径探究
- 语境理论融入高中英语阅读教学:策略与实践
- 诗韵青山:大青山旅游文化中“李白”符号的多维呈现与价值探寻
- 诊断超声对人早孕绒毛DNA损伤作用的深度探究
- 2026潍柴重机技术中心(武汉)急招新能源领域专业人才招聘笔试备考试题及答案详解
- 2026首都医科大学附属北京安贞医院安徽医院临床、医技、护理、管理岗位招聘67人考试模拟试题及答案详解
- 2026中国农业科学院西部农业研究中心招聘合同制工作人员(2人)笔试模拟试题及答案详解
- 2026年6月广西来宾市妇幼保健院招聘7人笔试模拟试题及答案详解
- 健康素养与健康教育策略
- 2026云南红河州弥勒市紧密型县域医共体东风分院招聘2人考试参考题库及答案详解
- 2026年高考真题-数学(全国二卷) 含解析
- 《商务数据采集与处理》课件 第1节:采集基础
- 2026广东工贸职业技术学院招聘事业编制人员18人笔试备考试题及答案详解
- (2026版)《超龄劳动者基本权益保障暂行规定》解读课件
- 专项突破八 电学分类讨论类相关计算 学案(含答案)2026年中考物理复习考点过关(河北)
- 2026年湖北省路桥工程专业技术职务水平能力测试(工程规划与咨询副高级)练习试题及答案
- 2025年甘肃庆阳市地理生物会考真题试卷(+答案)
- 福建省厦门市2026届初中毕业年级二模考试物理试卷(含解析)
- 2025河南省中考题数学试题(原卷版)
- 清华大学2026年强基计划面试模拟试题及答案解析
- 福建投资集团招聘笔试真题
评论
0/150
提交评论