




已阅读5页,还剩52页未读, 继续免费阅读
(计算机科学与技术专业论文)数据仓库中实时抽取机制的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库中实时抽取机制的研究与实现通信软件工程中心 数据仓库中实时抽取机制的研究与实现 摘要 为了提高决策科学化水平,电信企业也纷纷构建了以数据仓库系 统为核心的经营分析系统,为企业的决策提供管理信息。然而,经营 分析系统不能实时地根据变化数据产生信息,进而支持企业日常管理 所需的结构化决策行为,无法将恰当的信息在恰当的时间传递给恰当 的人,因此,当信息越来越多时,决策者利用信息却变得越来越困难。 主动实时数据仓库技术可以支持这个问题的解决,变化数据捕获是其 中的关键技术。 本文利用数据库在线日志技术,给出了一个基于消息队列的变化 数据捕获框架,能够支持实时从生产系统捕获变化数据,按照预定格 式进行转换后经过消息中间件传送到目的端,由目的端应用代理对消 息进行接收和处理。并在此基础上设计了一个事件处理模型,该模 型根据变化的数据产生事件,并主动驱动后续的e t l 过程,实时地生 成管理信息,结合发布订阅机制,可以很好地解决信息实时生成、 主动推送问题,进而为自动化日常结构决策行为提供支持。整个框架 处理过程都是由事件驱动的,形成一个实时决策分析的闭环。整个过 程是一个动态的发现处理的过程,从商业系统中检测和收集事件,把 事件转化成有意义的业务信息,然后发现并分析业务条件和异常,自 动的对业务环境做出最合适的决策,最后根据决策来执行业务行为。 此框架基于对传统数据仓库架构的扩充,保留了传统数据仓库的 架构,以便于具体的实施,增加了对数据的实时性处理和基于事件驱 动的主动机制,来支持日常结构化的决策行为。 关键词主动实时数据仓库变化数据捕获事件机制 北京邮电大学硕士论文 数据仓库中实时抽取机制的研究与实现 通信软件工程中心 d e s i g na n di m p l e m e n t a t i o no fr e a l - t i m ed a t ae x t r a c t i o nm e c h a n i s m i nd a t aw a r e h o u s i n g a b s t r a c t i no r d e rt oi m p r o v et h el e v e lo fs c i e n t i f i cd e c i s i o n c h i n at e l e c o m e n t e r p r i s e sh a v es u c c e s s f u l l yb u i l tb u s i n e s sa n a l y s i ss y s t e m s ( b a s ) t o p r o v i d et h ed e c i s i o nm a k e r sw i t hm a n a g e m e n ti n f o r m a t i o nb a s e do nd a t a w a r e h o u s i n gt e c h n i q u e s h o w e v e r , b a s c a n t p r o v i d e r e a l t i m e i n f o r m a t i o nb a s e do nc h a n g e dd a t a f u r t h e r , i tc a nn o ts u p p o r ta u t o m a t i o n o ft h es t r u c t u r e dd e c i s i o n m a k i n gp r o c e s sw h i c hi s r o u t i n ef o rt h e e n t e r p r i s e a n di t c a nn o tp r o v i d et h er i g h tp e r s o nw i mt h er i g h t i n f o r m a t i o ni nt h e r i g h t t i m e a sar e s u l t ,w h e nm o r ea n dm o r e m a n a g e m e n ti n f o r m a t i o ng r o wu pi nb a s ,i ti sm o r ed i f f i c u l tf o rt h e d e c i s i o n - m a k e r st ou s et h e m a c t i v er e a l - t i m ed a t a w a r e h o u s i n g t e c h n i q u e sc a l lb eu t i l i z e dt os o l v et h ep r o b l e m c d ci st h ek e yo n eo f t h e m b ym e a n so f t h et e c h n i q u eo fd b m s l o g g i n g ,ac d cf r a m e w o r k i s p r o p o s e di nt h i sp a p e rb a s e do nm e s s a g eq u e u e ,w h i c hc a ns u p p o r t r e a l - t i m ec d ci nb u s i n e s ss y s t e m ,t r a n s m i tf o r m a t t e dd a t at ot a r g e t s y s t e mt h r o u g hm e s s a g eq u e u e ,a n dp r o c e s st h er e c e i v e dm e s s a g e sb y d a t aa p p l y - a g e n t i na d d i t i o n ,a ne v e n tm a n a g e m e n tm o d e li sd e s i g n e d f o l l o w i n gt h ef r a m e w o r k t h em o d e lc a r lp r o d u c ee v e n t st r i g g e r e db yt h e c h a n g e dd a t a ,w h i c hc a l la c t i v e l yd r i v ee t lp r o c e s st op r o d u c er e a l t i m e m a n a g e m e n ti n f o r m a t i o n i n t e g r a t e d w i t hp u b l i s ha n ds u b s c r i b e m e c h a n i s m ,t h em o d e lc a np r o p e r l ys u p p o r t r e a l t i m ei n f o r m a t i o n p r o d u c i n ga n dp u s h i n ga c t i v e l y f u r t h e r m o r e ,i tc a ns u p p o r ta u t o m a t i o n o fr o u t i n es t r u c t u r e dd e c i s i o nm a k i n gp r o c e s s t h ew h o l ep r o c e s si sa r e a l t i m em a k i n g d e c i s i o nc l o s e dl o o pb a s e do ne v e n t d r i v e n 1 1 1 el o o pi s ad y n a m i cp r o c e s sw h i c h c o n t i n u o u s l yo b s e r v e sa n dc o l l e c t se v e n t sf r o m ab u s i n e s se n v i r o n m e n t ,c o n v e r t st h ee v e n td a t ai n t om e a n i n g f u lb u s i n e s s i n f o r m a t i o n ,d i s c o v e r sa n da n a l y s e sb u s i n e s ss i t u a t i o n sa n de x c e p t i o n s 。 北京邮电大学硕士论文 羔堕塑塑翌望堂塑型竺堡窒兰窒里 堡堕茎丝三堡生:垒 a u t o m a t i c a l l ys e l e c t st h em o s ta p p r o p r i a t ea c t i o n sf o rar e s p o n s et ot h e b u s i n e s se n v i r o n m e n t ,a n de x e c u t e st h eb u s i n e s sa c t i o n sb a s e do nt h e d e c i s i o nt h a th a sb e e nm a d e t h i sf r a m e w o ki se x p a n d e db a s e do nt r a d i t i o n a ld a t aw a r c h o 叮s e i n g t e c h n i c h e i tn o to n l yr e s e r v e l st r a d i t i o n a ld a t aw a r e h o u s i n gf r a m e w o r k w h i c hi se a s yt op u ti n t oe f f e c ti nr e a l i t y , b u ta l s oa d d st h em e c h a n i s m o f p r o c e s s i n gd a t ai nr e a l t i m ea n da c t i v eb e h a v i o rb a s e do ne v e n t i tc a n s u p p o r ta u t o m a t i o no ft h es t r u c t u r e dd e c i s i o nm a k i n gp r o c e s sw h i c hi s r o u t i n ef o rt h ee n t e r p r i s e k e y w o r d s :c h a n g e dd a t ac a p t u r e ( c d c ) ,e v e n tm e c h a n i s m , a c t i v er e a l t i m ed a t aw a r e h o u s i n g 北京邮电大学硕士论文 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:盎之毛 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅 和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密 论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:卫匈! 三! 三翌 日期:2 竺q :;:! 竺 , 数据仓库中实时抽取机制的研究与实现通信软件工程中心 1 1 论文研究背景与意义 第一章绪论 目前各大电信企业都建立了自己的数据仓库,已经由原来的简单报表发展到 企业级数据仓库,为企业提供了面向主题、集成的、随时间积累的数据集合,无 论从报表展现、还是o l a p 分析方面都有了很大的提高,为企业的决策者提供了 一定依据。 随着电信企业用户的增加,3 g 的问世将造成很多业务类型相继出现,势必 造成海量数据,对于传统的数据仓库是一个挑战。而且一些业务数据分析需要能 客户很快的反馈,这样才具有意义。对于这些数据能够及时的抽取到数据仓库中, 进行分析做出相应的处理。电信企业对数据仓库系统要求越来越多,希望能够从 数据仓库系统中得到及时的响应、反馈,为决策支撑者提供依据。如下图所示 图1 - 1 数据仓库发展趋势图 图中一方面体现了数据仓库系统的发展趋势,从报表型分析型预 测型操作型主动型的转换,表明数据仓库不仅要简单的满足单一的报表 查询和对数据的分析,更要能够根据日常的管理信息能够做出常规性管理。另一 北京邮电大学硕士学位论文第1 页共5 3 页 数据仓库中实时抽取机制的研究与实现 通信软件工程中心 方面我们可以看到数据仓库的发展趋势下技术的延伸,从批处理即席查询一 分析持续的数据查询和更新一基于事件驱动,这样可以更好的支持日常 战术型决策,能够在当今企业信息量过大的情况下,在适当的时间下把适当的信 息提供给适当的人,这样才会增加商业数据的价值。 1 1 1 ,传统数据仓库局限性 传统的数据仓库一般通过接口文件的方式获取数据源,并经过e t l ( 抽取、 转换、装载) 等一系列的过程,将分散在企业各子系统的数据集中到数据仓库中, 数据更新的周期是天甚至是周,这无形中降低了数据仓库中数据的时效性。 对于那些实时性要求比较高的战术型决策,传统数据仓库支持的不够。这些 战术型决策是指针对战略决策而制定具体的可实施的步骤,一般是各部门针对战 略目标制定本部门的行动计划。显然,这些不仅对数据的实时性要求较高,而且 做决策往往需要访问历史数据,因此在操作型事务处理和决策支持分离的情况下 是难以实现的。 从技术角度来讲对于大批量数据l o a d 会造成数据仓库中表锁定,尽管多采 用晚上等空闲的时间来避免冲突,但对于一些要求实时性的需求是很难适应的。 此外,传统数据仓库是建立在关系型数据库基础上的,因此是一种“被动的”数 据仓库,即需要大量的人工参与,手动提交数据查询、操作等指令,并等待d b m s 返回结果。比如,在使用o l a p 技术进行分析时,往往是用户提出一个分析要求, 即一个假设。再通过查询检验这个假设的正确性。这种“被动性”不仅要耗费大 量的人工,更使得数据的实时性完全依赖于操作人员的查询时间,不利于实时性 决策的制定。 1 1 2 主动实时数据仓库的产生 随着信息技术的不断发展,海量数据不断涌现,且数据正以几何级增长,企 业迫切需要高效、精确、科学的分析方法。客户的需求也不断增加。要求能够更 好的支持企业的日常结构化的管理。传统数据仓库很难满足这一需求。 要满足这一需求,需要一种更实时,更有效分析的数据仓库一一主动实时数据仓 库为此问题,提供了解决方法。 所谓实时就是实时从o l t p ( o n l i n et r a n s a c t i o np r o c e s s i n g ) 系统中把数据装 入数据仓库,用户还可以实时获取客户信息,从而支持如查询当前客户信息,给 北京邮电大学硕士学位论文第2 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 客户灵活的定价和折扣等战术决策。 主动数据仓库( a c t i v ed a t aw j r e h o 憾e 1 【2 】是对传统数据仓库的扩展,它是整 合的、集中的数据仓库,它包含操作型和分析型两种数据,并通过实时数据更新, 主动事件驱动和规则驱动的机制,以达到对不同用户( 业务人员、分析人员、决 策人员、外部人员,以及e a i 中相关应用) 动态地进行不同决策支持( 战术型、 战略型决策) ;同时保证企业内部的业务和决策在一个闭环过程中运行。 1 2 论文研究目标 本文主要在传统数据仓库的基础上,结合当前数据仓库对于实时性和主动性 的需求,根据当前一些相关技术,设计了一个主动实时数据仓库的架构,既能够 支持传统的数据仓库,又能够实时的数据抽取和主动分析功能。并且对于变化数 据的捕获和交换模块,进行了设计与实现,同时设计了一种事件处理模型,能够 实现从数据捕获、传输、处理、产生报表、到反馈给用户一系列过程,提供自动 化的基础。并以此框架为基础对终端管理系统进行了相关业务的主动推送服务的 扩充。 1 3 论文研究成果 本文利用数据库在线日志技术,给出了一个基于消息队列的变化数据捕获 框架,能够支持实时从生产系统捕获变化数据,按照预定格式转换后,再经过消 息中间件传送到目的端,最后由目的端应用代理对消息进行接收和处理。同时针 对终端管理系统数据捕获模块进行了实现。 并在此基础上设计了一个事件处理模型,该模型根据变化的数据产生事件, 并主动驱动后续的e t l 过程,实时地生成管理信息,结合发布订阅机制,可以 很好地解决信息实时生成、主动推送问题,进而为实现日常结构化决策行为的自 动化提供支持。整个框架处理过程都是由事件驱动的,形成一个实时决策分析的 闭环。整个过程是一个动态发现处理过程,从商业系统中检测和收集事件,把事 件转化成有意义的业务信息,然后发现并分析业务条件和异常,自动的对业务环 境做出最合适的决策,最后根据决策来执行业务行为。 此框架基于对传统数据仓库架构的扩充,保留了传统数据仓库的架构,以便 于具体的实施,增加了对数据的实时性处理和基于事件驱动的主动机制,来支持 日常结构化的决策行为。 北京邮电大学硕士学位论文第3 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 1 4 论文结构 第二章总结了主动实时数据仓库的概念,并同传统的数据仓库和主动实时 数据仓库对了对比,介绍了变化数据捕获和事件模型的现状。 第三章基于传统数据仓库设计了一个主动实时数据仓库架构,能够实时的 处理数据,主动的为客户提供数据服务,支持企业日常管理的自动化。并对架构 中的数据获取和事件模型进行相关描述。 第四章根据在线日志捕获的方法,运用消息队列传送机制设计了变化捕获 模块,并对模块中各个功能进行设计,最后运用终端管理系统作为原型实现了变 化数据的捕获。 第五章本章对于事件处理模块进行了设计。首先设计了在主动实时数据仓 库中事件流的处理模型,并对事件进行定义,设计了事件处理模型和监测器。 第六章总结了工作成果,并展望下一步工作。 北京邮电大学硕士学位论文第4 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 第二章相关技术概述 2 1 传统数据仓库技术的应用局限 随着c s 技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大 量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,进而以决策 为目标把数据聚合在一种特殊的格式中。随着此过程的发展完善,这种支持决策 的、特殊的数据存储即被称为数据仓库( d a t aw a r e h o u s e ,d w ) 。 w h i n m o n 关于数据仓库定义如下: 数据仓库是一个面向主题的、集成的、非易失的,随时间积累的用来支持管 理人员决策的数据集合。 面向主题的: 不同公司的主题是不同的,主题是在一个较高层次上将数据进行综合、归类 并进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上对分析对 象的数据的完整、一致的描述,能统一地刻画各个分析对象所涉及的企业的各项 数据,以及数据之间的关系; 集成的: 由于各种原因,数据仓库的每个主题所对应的数据源在原有的分散数据库中 通常会有许多重复和不一致的地方,而且不同联机系统的数据都和不同的应用逻 辑绑定,所以数据在进入数据仓库之前必须统一和综合,这一步是数据仓库建设 中最关键、最复杂的一步; 非易失的: 数据仓库的数据反映的是一段相当长的时间内历史数据的内容,主要供企业 决策分析之用。与面向应用的事务数据库需要对数据作频繁的插入、更新操作不 同,数据仓库中的数据所涉及的操作主要是查询和新数据的导入,因此,几乎所 有的数据都不会丢失; 随时间积累的: 数据仓库系统必须不断捕捉o l t p 数据库中变化的数据,并在经过统一集成 后装载到数据仓库中。同时,数据仓库中的数据也有存储期限,会随时问变化不 断删去旧的数据,只是其数据时限远比操作型环境的要长,比如根据需要可保存 l o 年内的历史数据。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供 他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 北京邮电大学硕士学位论文 第5 页共5 3 页 数据仓库中实时抽取机制的研究与实现 通信软件工程中心 加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任 务。从产业界的角度看,数据仓库建设是一个工程,是一个过程。 整个数据仓库系统是一个包含四个层次的体系结构,具体由图2 一l 表示。 图2 - - 1 数据仓库体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类 文档数据。外部信息包括各类市场信息、竞争对手信息和各种手工收集的信息等 等。 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数 据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也 决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的 核心,则需要从数据仓库的技术特点具体需求着手分析。针对现有各业务系统的 数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的 覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以 便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m $ 之中; m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于 i b m s 之中,聚合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针 对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 传统的数据仓库一般通过接口文件的方式获取数据源,并经过e t l ( 抽取、 北京邮电大学硕士学位论文第6 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 转换、装载) 等一系列的过程,将分散在企业各子系统的数据集中到数据仓库中, 数据更新的周期是天甚至是周,这无形中降低了数据仓库中数据的时效性。 对于那些实时性要求比较高的战术型决策,传统数据仓库支持的不够。这些 战术型决策是指,针对战略决策而制定具体的可实施的步骤,一般是各部门针对 战略目标制定本部门的行动计划。显然,这些不仅对数据的实时性要求较高,而 且做决策往往需要访闯历史数据,因此在操作型事务处理和决策支持分离的情况 下是难以实现的。 从技术角度来讲对于大批量数据h 甜会造成数据仓库中表锁定,尽管多采 用晚上等空闲的时间来避免冲突,但对于一些要求实时性的需求是很难适应的。 此外,传统数据仓库是建立在关系型数据库基础上的,因此是一种“被动的” 数据仓库,即需要大量的人工参与,手动提交数据查询、操作等指令,并等待 d b m s 返回结果。比如,在使用o l a p 技术进行分析时,往往是用户提出一个 分析要求,即一个假设,再通过查询检验这个假设的正确性。这种“被动性”不 仅要耗费大量的人工,更使得数据的实时性完全依赖于操作人员的查询时间,不 利于实时性决策的制定。 2 2 主动实时数据仓库的出现 2 2 1 主动实时数据仓库的定义 主动和实时数据仓库是非常相似的,但是他们之间是有不同点,它们侧重的 方是不同的。实时数据仓库指的是数据仓库在更新数据的时候体现出来的技术方 面。实时数据仓库技术【2 】所涉及的范围包括数据库模式和数据库环境的物理变 化、企业内部的数据的移动、数据流处理的变化、尤其是警告、抽取和c u b e 以 及数据集市的产生,以及整个实时数据仓库的设计与实现的整体的方法论。主动 数据仓库是在另一个层面上讲的,是数据仓库的应用角度上说。换句话说,主动 数据仓库不需要定义一种方法,而是整个数据仓库在企业信息化中起到的作用。 真正的数据仓库能够作为企业信息化管理的“主动参与者”。主动数据仓库几乎 都要设计到实时数据仓库。 主动数据仓库埘( a c t i v ed a t aw a r e h o u s e ) 是对传统数据仓库的扩展,它是一个 整合的、集中的数据仓库,它包含操作型和分析型两种数据,并通过实时数据更 新,主动事件驱动和规则驱动的机制,以达到对不同用户( 业务人员、分析人员、 决策人员、外部人员,以及e a i 中相关应用) 动态的多决策支持( 战术型、战 略型决策) ;同时保证企业内部的业务和决策在一个闭环过程中运行。 北京邮电大学硕士学位论文第7 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 主动实时数据仓库需要考虑以下问题: 数据更新的实时性: 当发生如一个账号关闭、一次购买、或默认的借贷,几秒之内,相关的信息 就要被存储到数据库中。一般而言,数据的实时性越高,所触发的事件的实时性 就越高,从而所得到信息的价值就越高,如下图所示: u c 幽 o 女一 t l m e 图2 2 响应时间和数据价值图 因此,采用何种方式实时更新数据仓库中的数据是数据仓库成功的基础。 多重负载带来的性能要求: 一个战术决策不像战略决策那样有几个月或几年的生命周期,它的生命周期 仅仅几分钟。一个战术决策的关注面往往比一个战略决策的关注面窄得多,所以, 它需要较少的数据扫描、排序和分析但这并不意味着简单。因此,主动数据 仓库中存在多重负载问题,这些不同种类的负载在对外提供服务时对系统的要求 是不一样的,因此,一个主动数据仓库系统要合理安排多重负载的优先级问题, 以及由此带来的性能问题。 事件的实时监控与规则触发: 主动数据仓库中包含实时数据,在这些数据基础上,采用什么事件触发机制, 触发的活动事件什么时候、什么方式绑定规则库中的规则,是主动数据仓库系统 的核心。 数据可靠性与错误恢复: 做长期的战略决策时,如果数据仓库出现一段时间的不可用情况,对于业务 的影响可能经常察觉不到。但对于支持战术决策的环境就不同了。例如,如果要 北京邮电大学硕士学位论文第8 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 做一个最好的客户关怀的决策,外部客户的呼叫是不能有延迟的。主动数据仓库 的停工期会直接导致机会的丢失。因此,要最大限度的压缩停工期以提高商业价 值。而且,一旦发生错误,需要哪种恢复机制恢复。 主动数据仓库扩展了传统数据仓库的功能,使得数据仓库进入到战术决策制 订的领域。通过快速调控整合的数据、过程和程序,组织内所有的人,包括那些 直接同客户和供应商打交道的人,都可以很容易的得到丰富的信息以支持其决策 的制订。在实际应用中主动数据仓库和实时数据仓库往往是不可分的,实时的分 析和反馈需要主动的支持,因此本文结合两种技术设计了一个主动实时数据仓库 架构。 2 2 2 主动实时数据仓库与传统数据仓库的对比 从支持的决策类型方面考虑,由于主动实时数据仓库既包含操作型数据,又 包含分析型数据,既包含粗粒度的历史汇总数据,又包含细粒度的实时生产数据, 因此主动数据仓库既支持战略型决策又支持战术型决策;而传统数据仓库仅支持 战略型决策。 从数据更新周期方面考虑,传统数据仓库是以天或周为单位进行数据更新 的;而主动实时数据仓库是以分钟为单位进行数据更新的( 理想状态是实时更 新) 。 从数据更新方式方面考虑,传统数据仓库是以接口文件的形式通过诸如f t p 等文件传输方式进行源文件传输,再以e t l 的方式进行数据载入更新,此类更 新方式数据批量的数据更新;主动数据仓库需要实时的数据更新,可采用e a i 技术,在生产系统中事务完成后,即触发数据的载入和更新,更新时可采用批量 更新方式,也可以采用一种流水线式的增量数据更新,有效地保证了数据的实时 性。 从功能方面考虑,传统数据仓库可以支持简单报表查询、即席查询,以及简 单的“w h a t - i f ”分析等;主动数据仓库由于其细粒度数据,可以支持数据深层次 的分析,更灵活的即席查询和数据挖掘,事件驱动的决策制定、知识发布等。 从所面向的用户方面考虑,传统数据仓库面向分析、决策人员,内部人员; 而主动数据仓库还面向业务人员、呼叫中心客户代表、外部人员( 合作伙伴、供 应商、消费者) 、供应商及一些自动化程序和代理。 目前实时数据仓库r t d w ( r e a l t i m e d a t a w a r e h o u s e ) ,也就是所谓的“零延 迟数据仓库环境”的一部分,最早是m i e h a e mh a i s t e n ( 一名b i 专家) 提出的,他 对实时数据仓库的分类和架构有详细的描述。现在逐渐提出了实时数据仓库的概 北京邮电大学硕士学位论文第9 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 念,主要的思想就是:在数据仓库中,将保存的数据分为两类一种为静态数据, 一种为动态数据,静态数据满足用户的查询分析要求:而动态数据就是为了适应 实时性。数据源中发生的更新可以立刻传送到数据仓库的动态数据中,然后再经 过响应的转换,满足实时的要求。相对于传统的企业数据仓库而言,主动实时数 据仓库增加了主动数据获取和实时数据分析两大主要功能。主动数据获取功能保 证了系统能够即时捕获o l t p ( o n l i n et r a n s a c t i o np r o c e s s i n g ) 系统产生的操作 数据:而实时数据分析则能够保证对即时获得的数据做出快速分析,得到决策者 想要的结果。传统数据是由o d s ( o p e r a t i o n a ld a t as t o r e ) 、数据仓库、数据集市 和b i 工具组成。o l t p 系统中的操作型数据在数据仓库的非响应期批处理载入 到o d s 中。o d s 中的数据经过晚间的批处理通过分段传输和集中处理存入数 据仓库。b i 工具则利用数据仓库、联机分析处理o l a p 工具和数据挖掘等技术 将数据转化为知识。由此可见,传统数据仓库的一个重要步骤是操作型数据经由 o d s 由o l a p 转入到数据仓库中去。而主动实时数据仓库的架构则提倡可省略 o d s 这一中间步骤,即操作型数据在事件产生时由o l t p 系统中直接载入到数 据仓库,免去了批处理作业的麻烦,保证了数据仓库的实时更新。基于e a i 实时 数据仓库实现了滴流式的数据加载,是真正意义上的实时数据仓库。传统数据仓 库与主动实时数据仓库的对比分析传统的数据仓库不包含当前的数据。它通常是 每周或每天个别时间由操作系统加载,但在任何时间都是一个面对过去的窗口。 而主动实时数据仓库的设计正是为了改善这一情况而提出。这就造成了二者结构 及实现的差别。通过对传统数据仓库和实时数据仓库的比较和分析,就有助于我 们区别二种数据仓库的体系结构和设计实现过程。 下表是传统数据仓库和主动实时数据仓库对比 传统数据仓库主动实时数据仓库 战术性和战略性只能支持战略性支持战术性决策和战略 性决策 是否具有主动获取不具备主动获取数据的能力具备主动获取数据的能 数据的能力力 时间粒度时问粒度大可以精确到分钟为周期 使用者分析员和决策者还可以为操作员和客户 数据载入方式接口文件直接获取数据 分析数据方式基于批处理,用于脱机分析处提供最新的实时数据分 理 析 表2 - 1 传统数据仓库和主动数据仓库对比 目前很多组织都提出了主动实时数据仓库的架构。这类架构中集成了持续的 北京邮电大学硕士学位论文第1 0 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 数据集成的方法和主动数据仓库的概念,使得各个组件间能够更好的协作。 2 3 主动实时数据仓库的架构概述 主动实时数据仓库要求能够完成一个完整的商务智能的处理过程,从观察、 感知、预计、反应这样一个循环,并且能够自动实时的控制这样反馈循环。主动 实时数据仓库必须包括分析服务,要求数据能够从操作型环境下持续的装载数 据,能够被其他系统所进行直接调用,这样可以处理实时的数据。对于这种持续 数据分析需要提供实时数据缓冲区。如图所示在传统数据仓库三层架构,在一层 中通过利用e t l 组件把数据从不同的数据源抽取转换和装载到数据仓库中,然 后由数据仓库管理大量的详细的数据,并由此提供为o l a p 服务器提供复杂多维 的查询和报表工具提供数据,很明显这种技术是通过在数据仓库系统处于o f f l i n e 下,靠e t l 技术来批量装载数据的,这样不适合数据的实时处理。这里需要实 时e t l 来持续的处理数据,图中所描述的实时数据的缓冲区是为了管理实时更 行数据所设。分析服务要求对数据持续的进行分析,发现条件和异常,规则引擎 用来处理分析服务来识别这种条件和异常,并且做出合适的反应。 图2 - 3 主动实时数据仓库架构 北京邮电大学硕士学位论文第1 i 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 2 4 数据捕获技术现状 实时数据仓库是两种事物的组合:实时行为和数据仓库。实时行为是一种 即时发生的行为。数据仓库捕获有关商业行为的数据。实时数据仓库在商业行为 发生时就捕获数据。当商业行为完成时,相关数据就已经进入到数据仓库并且能 立即使用。换句话说,实时数据仓库是这样一个系统,只要行为发生、数据变得 可用时,就能从中获得信息。因此实时数据仓库增加以下几个方面的要求【4 】: 数据新鲜性( d a t af r e s h n e s s ) 为了提高决策支持系统对于一些近实时 需求的支持,一些数据必须要进行不断的更新。造成系统对于数据新鲜性需求的 增加; 连续的数据集成( c o n t i n u o u sd a t ai n t e g r a t i o n ) 连续数据集成能够从不 同的数据源( 近) 实时的抓取和l o a d 数据,基于事件的触发机制采取措施;高 度可用性和扩展性;基于分析引擎的高度的分析环境基于分析引擎的高可用 分析环境能够随时提供对于业务的分析,而不必受传统的批处理l o a d 过程中的 限制;有适应不同业务的事件模型。 对于变化数据的捕获( c h a n g e dd a t ac a p t u r e ) 是实现主动实时数据仓库的 基础,只有能够实时的捕获数据,才有可能对其进行分析处理。获取变化数据实 现的几种相关技术: 使用时间戳由于现代操作系统和关系型数据库的功能强大,能够相 当大程度上允许我们在亿分之一秒的范围内来确定数据记录的产生和更 新时间。源数据的时间戳可以c d c 的实现来提供一定方便。对于没有时 间戳的数据,很难进行捕获。 从操作系统上使用触发器机制这种机制需要操作系统中有一个关系 型d b m s ,能够保存那些我们感兴趣的插入、删除、或者更新型的数据。 但很明显这样增加系统的开销。例如当插入一条新的记录时,数据库要 启动触发器把数据插入它自己数据库中的表,还要把数据更新到我们用 于数据抓取的另外一张表中。采用这种方法不但增加了系统开销,而且 若在构建实时数据仓库之前,如果源系统本身没有添加使用触发器,这 样给我们实施带来麻烦。 数据库前后映像的比较为了处理过程简单,可以使用备份文件( 镜 像拷贝) 和对比工具来完成此功能。对比技术可能是以前批处理系统唯 一的选择。在最近的对比中检测那些变化的记录是一个很慢的处理过程。 北京邮电大学硕士学位论文第1 2 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 一旦数据被检测出,数据将被抽出放到数据文件中以做数据集成之用。 创建操作系统快照,在抓取过程中使用这些快照这种方式需要数据 的重装载和o d s 有效工作。如果数据仓库被使用,所有的历史数据需要 重建立。 读取d b m s 日志获取r e d o 日志能够很有效检测数据变化能够很有 效检测到数据变化。目前很多数据库b a c k u p r e c o v e r y - r 具都支持这种数 据的获得。 下面是几种实现实时获取数据的架构: 微处理e t l 传统的e t l 是基于接口文件才批处理的方式,抽取周期一般为每天、每 周、甚至是月。在这种情况下新的或者更新的事实记录,以及维度的变 化都不能及时的反映出来。微批处理e t l 和传统e t l 十分相似,除了 在增加了批处理的频率,从天增加到小时。这种e t l 采用不同与传统 e t l 进程运行,直接把数据发送到数据集市中。当到一天的时候,实时 数据缓冲区的数据被复制到静态数据集市中,然后被清空。 捕获一转换一流入( c r f ) c t f 是在异构数据系统中来移动数据的一种简单而有效的技术。直接的 数据库对数据库的交换是可以执行的。新的事实和维度的数据发生改变 后,可以在很低的延迟下从操作形的系统到数据仓库的阶段表中,可以 是秒级的。c t f 工具的转换功能可以理解为当今成熟e t l 工具的基本 功能。常见的c f t 数据仓库的解决方案会把数据从操作型的环境中移 出,然后经过轻量级的转化最后放入阶段分区中。这些轻量级的转换包 括数据格式的标准化,数据类型的转化,以及应用到特殊代码的转换。 当数据进入阶段表后,可以在进行更进一步的转化。接下来的转化需要 通过微批处理的e t l 和触发器触发。另一种转化的场景就是记录被直 接写入数据集市的实时数据缓冲区表中,接下来的转化包括数据验证、 维度清洁和匹配、维表记录的查询、最近正在变化的维记录的生成。 c t f 这种方法在满足实时报表过程中是十分有效的。 2 5 事件处理技术现状 事件模型的设计是实现实时决策系统的关键问题,要达到实时需要有事件和 数据进行驱动。描述从企业信息系统到实时决策系统中的事件,如何触发事件, 北京邮电大学硕士学位论文 第1 3 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 过滤事件以及事件的检测器都是在事件模型设计中要考虑的。根据事件进行决策 分析,目前基本都采用e c a 机制,所谓e c a 机制是“事件( e v e n t ) 一条件( c o n d i t i o n ) 一 动作( a c q i o n ) ”规则理论,一般用于主动数据仓库中。基本的策略为,当一个事件 发生后,采用事件监视器来捕获该事件,然后依据 e c a 规则进行条件判断,选择合适的执行动作。同时在企业业务执行过程中, 各个活动的进行总是伴随着事件的发生。特定的事件触发特定的活动,而活动的 结束又引发新的事件,因而用事件可以描述业务过程的动态特征。对象具有封装 性,通过消息传递来触发相应的行为,而行为的运行对用户来说是透明的。因此,可 以将e c a 规则封装在活动对象中,由活动对象本身根据预先定义在该对象上的 规则来进行消息传递,触发行为或者事件,从而可以较好的实现工作流运行时的透 明度和效率。对于实时决策系统中事件的分类一般有以下几种: ( 1 ) 时间事件:时间事件是最基本的也是最常见的事件类型,它描述系统 的时间行为,即系统时钟信号。它包括三种基本类型:绝对时间事件、相对时间 事件、周期性时间事件。 ( 2 ) 数据操作事件:数据操作事件描述对数据库中对象的各种操作。此事 件有几种对应于操作型( 数据的插入、删除、修改) 。 ( 3 ) 异常事件:异常事件用于描述数据仓库系统中某个事务操作所抛出的 异常,数据在传输过程中的异常,以及系统在推送服务时候的异常。 北京邮电大学硕士学位论文第1 4 页共5 3 页 数据仓库中实时抽取机制的研究与实现通信软件工程中心 第三章实时数据集成与分析框架总体设计 3 1 框架实现目标 在传统数据仓库的基础上,结合当前数据仓库对于实时性和主动性的需求, 根据当前一些相关技术,设计了一个主动实时数据仓库的架构,既能够支持传统 的数据仓库,又能够实时的数据抽取和主动的分析的功能。并且对于变化数据的 捕获和交换模块,进行了设计与实现,同时设计了一种事件模型,能够实现从数 据捕获、传输、处理、产生报表、到反馈给用户一系列过程,提供自动化的基础。 3 2 总体设计思想 3 2 1 在线日志获取数据 在数据库系统中,都存在数据库的在线同志的功能。在线日志记录了所有在 数据库系统中的变化,这样为使得在s q l 执行后恢复成为可能。当数据库系统 中数据发生变化写入到数据文件之前,必须要把这种变化写入到在线日志中。这 样为数据库备份和恢复提供依据。 目前多把这种技术运用数据库备份和复制中。数据库复制的原理主要是通过 日志文件的传送、分析和应用来实现的,在应用事务发生后主数据中心通过数据 复制引擎将日志传输到备份数据中心,备份数据中心的数据库对曰志中记载的事 务执行重演操作,实现对备份数据中心数据库数据的更新。基于在线r 志的分析 数据库复制解决方案,它可以复制数据库中大量的数据更新( 如在数千个表上的 每秒数干个操作) 到一个或多个目标数据库实例中。并且保证这些目标实例在实 时更新的过程中是可存取的。 对于交易产生的数据,数据复制引擎通过对生产系统数据库的在线同志进行 实时跟踪,当应用系统在数据库中进行任何操作时,这些信息都将在在线日志中 存储,数据复制引擎通过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年检验检测行业需求分析及创新策略研究报告
- 高中教务处校内竞赛组织计划
- 康复期护理常见问题及护理措施
- 2025年呼吸内科常见病理生理学试卷答案及解析
- 2.0信息工程推进地理组智能 GIS 计划
- 婚庆公司婚礼场地安全管理制度
- 2025年干细胞治疗技术行业前景分析及投资机遇研究报告
- 2025年少儿舞蹈培训行业投资趋势与盈利模式研究报告
- 医院细菌室实验数据分析职责
- 部编三年级语文下节假日里那些有特点的人习作范文
- 扬州树人学校2024-2025七年级上学期9月月考数学试卷及答案
- 熔炼过程自动化智能化控制
- 郑州市第四中学英语新初一分班试卷含答案
- 《百变扭扭棒》大班艺术课件
- 2024年高考数学精准备考策略
- FZT 73013-2017 针织泳装行业标准
- 银行安全生产案例
- chemSHERPA CI:AI的制作方法说明资料
- 软件开发功能验收表
- 电力各种材料重量表总
- 完整版公司开户章程模板
评论
0/150
提交评论