(农业机械化工程专业论文)基于元数据控制的etl系统应用研究.pdf_第1页
(农业机械化工程专业论文)基于元数据控制的etl系统应用研究.pdf_第2页
(农业机械化工程专业论文)基于元数据控制的etl系统应用研究.pdf_第3页
(农业机械化工程专业论文)基于元数据控制的etl系统应用研究.pdf_第4页
(农业机械化工程专业论文)基于元数据控制的etl系统应用研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南大学硕士学位论文 摘要 摘要 随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并没有产生应 有的信息,这就出现了“数据爆炸,知识贫乏”的局面,数据仓库技术应运而生。数据仓 库是一个面向主题的、集成的、不断更新的且随时间不断变化的数据集合,数据仓库是支持 企业决策分析的核心技术。数据仓库的目的是为了建立一种体系化的数据存储环境将分析 决策所需的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换为集成、 统一的信息。然而,这个过程并非易事,这里所谓的传统的操作环境,是指企业在不同时期、 在不同的背摄下开发出来的事务处理系统,这些业务系统的建立,也往往是面向不同的应用、 由不同的开发商来完成的,其数据的存储结构、存储平台和系统平台具有很大的异构性。如 何将这些异构的数据有效地集成到数据仓库中,是企业所面临的一个难题。企业需要一个全 面的解决方案来解决数据的一致性和集成化问题,使我们能够从所有传统平台和环境中采集 数据,并利用一个单一的解决方案对其进行高效的转换,这个解决方案就是e t l 。 e t l ( e x t r a c t 、t r a n s f o r m 、l o a d ) ,数据抽取转换装载系统一般把它简称为数据抽取系 统。e t l 包括三个方面:首先是抽取,将数据从各种原始的业务系统中提取出来,这是所有 工作的前提;其次是转换,按照预先设计好的规则对抽取的数据进行转换,使得本来异构的 数据格式能够统一起来;最后就是加载,将转换好的数据按计划增量或者全部导入到数据仓 库中。 可以说,e t l 在传统的业务系统和数据仓库之间架立起了一座桥梁,确保新的数据能够 源源不断地进入数据仓库。从整体的角度来看,e t l 的主要作用在于其屏蔽了复杂的业务逻 辑。从而为各种基于数据仓库的分析和应用提供了统一的数据接口。虽然e t l 的技术含量相 对来讲不算高,但其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中,e t l 部分往往是牵扯精力最多的。随着银行业务的不断增多,系统的数据量也迅速膨胀,年业务 数据量往往是以g 为单位,一些比较大的银行,年业务数据量甚至达到了几十g ,乃至上百g 。 如此海量的数据,对e t l 的运行效率提出了新的要求。 在传统的数据仓库建设中,往往强调数据仓库本身的建模和前端数据展示,而对e t l 的 设计和建模关心不足,使e t l 过程反复进行,甚至导致项目实施的失败。从国内外众多的实 践得到普遍的共识是e t l 设计与实施的工作量要占到整个数据仓库项目时间的6 0 一5 0 0e t l 在数据仓库建设的重要地位越来越得到人们的关注。 本文以某商业银行稽核系统为平台,在以下两个方面进行了深入研究:e t l 架构设计和 e t l 任务模型设计。e t l 架构设计属于e t l 过程的物理结构,类似于工厂中的设备;而e t l 任务模型设计属于e t l 过程的逻辑结构,类似于工厂生产的调度、指挥等等。可以况,这两 个方面构成了整个e t l 过程的核心,两者之问相互影响,相互渗透。下面对对本文在这两方 面的研究做一个简单的介绍: ( 1 )e t l 架构设计 在e t l 架构设计方面,针对咀往银行业务系统的弊端。本文提出了提出了统一e t l 平台 的思想:将银行的各个业务数据全部由统一的e t l 平台放入数据中心数据仓库,由一个数据 库管理系统进行有效管理。同时在系统架构中加入了o d s ( o p e r a t i o n a ld a t as t o r e ) 中间层, e t l 模块首先将需要的数据由数据仓库传输到o d s ,在o d s 中对数据进行整理,然后将整理 后的数据传输到稽核系统。 ( 2 )e t l 任务模型设计 e t l 任务模型设计方面,我们借鉴前人研究成果本文提出了基于元数据控制的e t l 系统, 对e t l 涉及操作进行分类建模,并为e t l :l 立_ 程提供统一的元数据模型。为了加强该工具的可用 性我们提供一个e t l 任务模型编辑器和一个任务模型执行器,同时我们采用x t d l ( x 壮一l i k e t a s k d e s c r i p t i o nl a n g u a g e ) 对e t l 任务进行详细描述,它具有很好的可读性。系统完成了 数据导入脚本的自动生产、任务的自动调度等工作。 关键词:数据仓库元数据e t l 稽核系统 i i a b s t r a c t w i t ht h er a p i d l yd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , t h ee n t e r p r i s ei n t e r i o rh a sh a dm o r e a n dm o r ed a t aw h i c hh a v en o th a di n f o r m a t i o nt h e ys h o u l dh a v e t h e r e f o r e ,t h ec o n l e ro f ”d a t a e x p l o d e ,k n o w l e d g ei sd e f i c i e n t ”i sa p p e a r e d ,a n dt h ed a t aw a r e h o u s et e c h n o l o g ya r i s e sa tt h i s m o m e n t t h ed a t a w a r e h o u s e ,w h i c h i st h ec o r e t e c h n o l o g yo fs u p p o r t i n ge n t e r p r i s e d e c i s i o n m a k i n ga n a l y s i s ,i st h ed a t aa c q u i s i t i o nt h a tf a c et h es u b j e c t , t h ei n t e g r a t i o n ,u n c e a s i n g l y r e n e w sa l s ob e t w e e nu n c e a s i n g l y c h a n g e s a sn e c e s s a r y t h e g o a l o fd a t aw a r e h o u s ei s e s t a b l i s h m e n to fd a t as t o r a g ee n v i r o n m e n t i ta l s oa n a l y z e st h em a s sd a t aa n dt r a n s f o r m si n t o i n t e g r a t e d ,u n i f i e di n f o r m a t i o n h o w e v e r , t h i sp r o c e s s i sn o te a s y , t h i ss o - c a l l e dt r a d i t i o n a l o p e r a t i n ge n v i r o n m e n t ,i sr e f e r st ot h ee n t e r p r i s ei nt h ed i f f e r e n tt i m e ,b u s i n e s sw h i c hd e v e l o p s u n d e rt h ed i f f e r e n tb a c k g r o u n d ,t h e s eo p e r a t i o n a ls y s t e me s t a b l i s h m e n t s ,a l s oo f t e nf a c e st h e d i f f e r e n ta p p f i c a t i o n ,i t sd a t am e m o r ys t r u c t u r ew h i c hc o m p l e t e sb yt h ed i f f e r e n td e v e l o p e r , s a v e s t h e p l a t f o r ma n dt h es y s t e mp l a t f o r m h a sb i gi s o m e r i s m h o we f f e c t i v e l y i n t e g r a t e st h e s e i s o m e r i s md a t ai nt h ed a t aw a r e h o u s e ,i sad i f f i c u l tp r o b l e mw h i c ht h ee n t e r p r i s ef a c e s t h e e n t e r p r i s en e e d sac o m p r e h e n s i v es o l u t i o nt os o l v et h ed a t au n i f o r m i t ya n dt h ei n t e g r a t e dp r o b l e m , a n dt h es o l u t i o ni se t l e t l ( e x t r a c t ,t r a n s f o r m ,l o a d ) ,t h ed a t ae x t r a c tt r a n s f o r m a t i o nl o a d i n gs y s t e m ,w h i c h g e n e r a l l yi sc a l l e da st h ed a t ae x t r a c ts y s t e m ,i n c l u d e st h r e ea s p e c t s :f i r s t l ye x a c t ,e x t r a c t st h e d a t af r o me a c hk i n do fp r i m i t i v eo p e r a t i o n a ls y s t e m s e c o n d l yt r a n s f o r m a t i o n ,t r a n s f o r m sd a t a a c c o r d i n gt or u l ew h i c hd e s i g n si na d v a n c ea n de n a b l e st h eo r i g i n a li s o m e r i s md a t af o r m a tt ob e u n i f i e d f i n a l l yl o a d ,i n d u c t st h ed a t at ot h ed a t aw a r e h o u s e i tc a nb es a i dt h a t ,e t ls e t su pab r i d g eb e t w e e nt h et r a d i t i o n a lo p e r a t i o n a ls y s t e ma n dt h e d a t aw a r e h o u s e ,a n dg u a r a n t e e st h er e c e n td a t at ob ea b l ec o n t i n u o u s l yi n p u tt ow a r e h o u s e t h e m a i nf u n c t i o n o fe t li s s h i e l d i n gc o m p l e xs e r v i c el o g i c ,t h u sp r o v i d i n gt h eu n i f i e dd a t a c o n n e c t i o nf u re a c hk i n db a s e do nt h ed a t aw a r e h o u s ea n a l y s i sa n dt h ea p p l i c a t i o n a l t h o u g ht h e e t lt e c h n i c a lc o n t e n ti sn o t h i g h ,b u t i ti n v o l v e sm a s s i v es e r v i c e sl o g i ca n di s o m e r i s m e n v i r o n m e n t ,t h e r e f o r ee t lo f t e ni n v o l v e st h em a x i m u me n e r g yi ng e n e r a ld a t aw a r e h o u s e p r o j e c t u n c e a s i n g l yi n c r e a s e so f t h ed a t as e tn e wr e q u e s t st ot h ee t lo p e r a t i n ge f f i c i e n c y d u r i n gi nt r a d i t i o n a ld a t aw a r e h o u s ec o n s t r u c t i o n ,i to f t e ne m p h a s i z e dt h em o d e la n df r o n t d a t ad e m o n s t r a t e do fi t s e l f , b u tg a v el e s sc a r et ot h ee t l d e s i g na n dm o d e l ,t h u sc a u s e st h ee t l p r o c e s sr e p e a t e d l yt oc a r r yo n ,e v e nc a u s e st h ew h o l ep r o j e c t sf a i l u r e i to b t a i n stm u t u a l r e c o g n i t i o nf r o mt h ed o m e s t i ca n df o r e i g nm u l t i t u d i n o u sp r a c t i c e st h a tt h et i m eo f e t ld e s i g na n d i m p l e m e n t a t i o no c c u p yw h o l ep r o j e c tt i m e s6 0 5 0 e t li so b t a i n e dm o r ea n dm o r ea t t e n t i o n s i nd a t aw a r e h o u s ec o n s t r u c t i o n b a s e do no n ea u d i ts y s t e mo fo n ec o m m e r c i a lb a n k ,t w op a r t sw h i c hc o n s i s to fe t l d e s i g n a n de t lt a s km o d e ld e s i g na r ed e e p l yr e s e a r c h e di nt h i st h e s i st h e s et w oa s p e c t sa r ec o r e i i j 西南大学硕士学位论文 a b s t r a c t t e c h n o l o g i e so fe t l ,i ft h ef r a m e w o r ki ss i m i l a rt ot h eh u m a nb o d yo s s e o u ss y s t e m ,t h e ne t l t a s km o d e li sc i r c u l a t o r ys y s t e mt h ed e s i g n so f t h et w os y s t e m sd i r e c t l yd e c i d es u c c e s so rf a i l u r e o f t h eo v e r a l ls y s t e md e v e l o p m e n t e t lf r a m e w o r kd e s i g n : o nf r a m e w o r kd e s i g na s p e c t ,c o n c e r n i n go ft h eo p e r a t i o n a ld e m e r i t so ff o r m e rb a n k ,t h e t h o u g h to f u n i f y i n ge t lp l a t f o r mi sp r o p o s e di nt h i st h e s i s p u t t i n ge a c hs e r v i c ed a t ai n t ot h ed a t a w a r e h o u s ew h i c hi nd a t a - c e n t r a lt h r o u g ht h eu n i f i e de t lp l a t f o r m ,t h ed a t aa r ee f f e c t i v e l y m a n a g e db yad a t a b a s em a n a g e m e n ts y s t e m m e a n w h i l ei n v o l v e dt h eo d si n t e r m e d i a t e - l e v e li n f r a m e w o r ks y s t e m t h ed a t aw h i c he t lm o d u l en e e df i r s t l yi st r a n s m i t t e dt oo d sf r o md a t a w a r e h o u s e ,t h e nm a n a g e d ,m a dl a s ti st r a n s m i t t e dt oa u d rs y s t e m e t lt a s km o d e ld e s i g n : o nt a s km o d e ld e s i g na s p e c t ,p r o f i t e df r o mt h ep r e d e c e s s o rr e s e a r c hr e s u l t s ,e t ls y s t e m b a s e do nm e t a d a t ac o n t r o li sp r o p o s e di nt h i st h e s i s t h eo p e r a t i o ni n v o l v e de t lo r ec l a s s i f i e d a n dm o d e l e d ,a n du n i f i e dm e t a d a t am o d e li sp r o v i d e dt oe t lp r o c e s s i no r d e rt os t r e n g t h e nt h e u s a b i l i t yo ft h i st o o l ,o n et a s km o d e le d i t o ra n do n et a s km o d e le x e c u t i o na r ep r o v i d e d , s i m u l t a n e o u s t ye t lt a s ki sd e t a i k dd e s c r i p t i o nb yx t d l ,t h e r e f o r ei th a sag o o dr e a d a b i l i t y t h e s y s t e mc o m p l e t e st h et a s k sa u t o m a t i cp r o d u c t i o no fd a t ae x t r a c ts c r i p t , a u t o m a t i cd i s p a t c ho ft a s k a n ds oo n k e yw o r d s :d a t aw a r e h o u s e m e t a d a t a ,e t l ,a u dts y s t e m v 独创性声明 学位论文题目:圣王丞麴握撞剑盥星! l 丕统座旦婴宜 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得西南大学或其他教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所傲的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者:晋焉 签字日期:渺;年夕月冶日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规定,有权保留并向国家 有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学 研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:酣不保密, 口保密期限至年月止) 。 学位论文作者签名:渭羁 签字日期:刎6年? 月7 孚日 学位论文作者毕业后去向: 锄签名:介竹 签g - 日期:上o 占年a - 月,8 日 工作单位:i b 复堡主堑照盘挞五毖盔哩金鱼 电话:f13 i ! q ! ! q q ! ! ! 通讯地址:i b 塞壹连遮匡生羞挝直太街2 曼数堡太廛垒座! ! q 窒 邮编: 1 0 0 0 8 6 1 1 数据仓库技术 第1 章文献综述 随着社会的发展和技术的进步,信息已成为人类社会中除了物质、能量之外的第三大资 源。社会的信息化使信息量急剧增长,大量的信息来不及组织和处理,面对急剧增长的信息, 对数据库系统的应用大多只停留在查询、检索、统计等几个方面,远远没有发挥数据库中数 据的作用和价值。随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取出制定市 场策略所需信息就显得越来越重要。这种需求既要求联机服务,又涉及大量用于决策的数据, 而传统的数据库系统己无法满足这种需求,主要体现在三个方面:( 1 ) 历史数据量大;( 2 ) 辅 助决策信息涉及许多部门的数据,而不同系统的数据难以集成;( 3 ) 处理数据查询的能力不足, 对大量数据的访问性能明显下降。为了满足决策者的需求,解决上述问题,2 0 世纪8 0 年代 中后期出现了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展打下了基础。1 9 9 2 年, w h i r t m o n 在其著作建立数据仓库一书中提出了“数据仓库( d a t a w a r e h o u s e ,d w ) “” 的概念,由此,数据仓库的研究和应用得到了广泛的关注,1 9 9 5 年数据仓库开始盛行起来。 当企业积累了大量的业务数据之后,要充分利用这些资源,根据它们做出决策,所依赖的基 础技术就是数据仓库。随着数据仓库的发展,联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g , o l a p ) 技术”1 逐渐与其相集成,数据仓库技术提供数据基础,o l a p 技术管理汇总数据,与决 策者进行交互,两者已经发展成为一个有机的整体。因此有些学者认为广义的数据仓库应 该包括o l a p 技术”1 。 在数据库技术现在和未来的发展过程中,数据仓库以及基于此技术的商业智能无疑将是 大势所趋。m m 的数据仓库产品d b 2 u d b 于1 9 9 8 年1 2 月推向中国市场,除了用于联机分析 处理的后台服务器d b 2 0 l a p s e r v e r 外,i b m 还提供了包括前端工具等一系列的相关产品,形 成一整套解决方案。同时,o r a c l e 采取了类似的方法。i n f o r m i x 也是如此,在其动态服务器 i d s ( 1 n f o r m i xd y n a m i cs e r v e r ) 中提供一系列相关选件,如高级决策支持选件( a d v a n c e d d e c i s i o ns u p p o r to p t i o n ) 、0 l a p 选件( m e t a c u b er o l a po p t i o n ) 、扩展并行选件( e x t e n d e d p a r a l l e lo p t i o n ) 等。而微软则是在其s q ls e r v e r7 0 中集成了代号为p l a t o 的o l a p 服务器。 与上述公司不同的是,s y b a s e 提供了专门的数据仓库平台s y b a s et q ,并将其与数据仓库相关 工具打包成w a r e h o u s es t u d i o 。目前,世界上最大的数据仓库系统当数n c r 公司建立的基于 t e r a d a t a 数据库、拥有1 0 1 t b 数据容量的w a l m a r t 数据仓库系统。 111 数据仓库的定义 数据仓库是实现商业智能的数据基础,是企业长期事务数据的准确汇总。自从数据仓库概 念出现以来,不同学者从不同的角度给出了多种数据仓库的定义。目前,大家公认w h i n m o n l 西南大学硕士学位论文 第1 章文献综述 在建立数据仓库一书中对数据仓库的定义最具权威性。w h 1 n m o n 将数据仓库定义为:“数 据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于管理决策制定过程。”也 就是说,数据仓库是一个处理过程,该过程从历史的角度组织和存储数据,并能集成地进行 数据分析。 简而言之,数据仓库就是一个大的数据库,存储了公司所有业务数据和综合数据,这些数 据可能来自许多不同的数据源中,这些数据源可能是文档、层次数据库、网络数据库、关系 型数据库、x m l 数据文件等。 1 1 2 数据仓库的基本特征 根据i n m o n 的定义,数据仓库可有如下四个基本特征。 ( 1 ) 面向主题的。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个 宏观的领域,基于主题组织的数据被划分为各自独立的领域,每一个领域都有自己的逻辑内 涵。互不交叉,如:产品,客户,销售,财政收入等。因此,在数据进入数据仓库之前,必 然要经过加工和集成,将面向应用的原始数据结构转变为面向主题的数据结构。 ( 2 ) 集成的。指数据仓库能将多个异构数据源,如关系数据库、一般文件、层次数据库 和网络数据库等集成在一起。在数据进入数据仓库之前,必须经过数据加工和集成,统一原 始数据中的矛盾之处,确保命名约定、编码、结构、属性度量、键码等的一致性。 ( 3 ) 非易失的。指数据存入数据仓库后基本上不再改变。事务处理系统每次访问只能提 取和处理一条记录,并且可以对事务数据进行更新。但在数据仓库中,数据通常是一起载入 的,面向数据仓库的应用系统对数据是只读的。数据仓库中的数据并不进行一般意义上的数 据更新。主要是因为数据仓库反映的是历史数据,而不是日常事务处理产生的数据,数据经 加工和集成进入数据仓库后是极少或根本不修改的:除非存储的数据是不正确的。一般地, 在数据仓库中发生的操作是建立数据仓库时的数据加载及以后的数据查询与数据刷新。因为 数据在加载之后不再修改,所以对数据仓库的设计可以通过使用索引、预计算等技术来优化 查询的性能。 ( 4 ) 时变的。指数据项与时间点有关。数据仓库是不同时间的数据的集合,它要求数据 仓库中的数据保存时限能满足进行决策分析的需要( 例如过去的5 至l o 年的数据) ,而且数 据仓库中的数据都要标明该数据的历史时期。由于数据仓库存储海量的历史数据,通常数据 仓库的数据量都在1 0 g b 级以上大型的数据仓库则拥有t b ( 1 0 0 0 g b ) 级的数据量。 113 数据仓库的结构 高度综台数据纽 轻度综合数据级 当前细节数据级 早期细节数据级 图卜1 数据仓库的构成 i m 。n 主要是从数据仓库中数据种类的角度描述了数据仓库的构成,结构如图i 一1 所示。 数据仓库是在关系型数据库基础上发展形成的,但它的组织结构形式不同于传统数据库系统, 从原有的事务型数据库中获得的基本数据和综合数据被分成一些不同的层次。数据仓库中的 数据分为:早期细节数据( o l d e rd e t a i ld a t a ) 、当前细节数据( c u r r e n td e t a i ld a t a ) 、轻度综合数据 ( 1 i g h t l ys u m m a r i z e dd a t a ) 、高度综合数据( i l i g h l ys u m m a r i z e dd a t a ) 。 当前细节数据是最近时期的业务数据,数据量大。随着时间的推移,当前细节数据由数据 仓库的时间控制机制转为早期细节数据,一般被转存于外部存储介质中,如磁带等。轻度综 合数据是从当前细节数据中提取出来的,设计这层数据结构时会遇到“综合处理数据的时间 段选取”,“综合数据包含哪些属性和内容”等问题。最高一级是高度综合数据级,这一级的 数据十分精炼,是一种准决策数据。 j i a w e i h a n 从企业应用角度出发,认为企业数据仓库的结构是如图1 1 所示的三层结构”, 这与l n m o n 定义的结构并不矛盾只是侧重点不同。该结构包括了o l a p 服务器、e t l 工具 和前端分析工具等,可以看作是广义的数据仓库结构。 在三层结构中,底层是数据仓库服务器,一般情况下是一个关系型d b m s , e t l ( e x t r a c t i o n - t r a n s f o r m a t i o n l o a d i n g ) 程序通过数据库接口如:o d b c 、j d b c 等与数据源连 接将外部数据和事务数据经过处理后导入数据仓库。中间层是o l a p 服务器,一般是r o l a p 、 m o l a p 或h o l a p ,主要用于实现多维数据建模和多维操作。最顶层是客户端,包括一些基 于数据仓库的查询分析工具、数据挖掘工具等。 西南大学硕士学位论文 第1 章文献综述 1 2e t l 与数据质量问题 数据仓库的架构大体可以分为三部分:后台是数据存储和计算引擎,前端是数据展现分 析的用户界面,还有一个重要的部分就是e t l 。e t l 是三个单词首字母的缩写( e x t r a c t t r a n s f o r ml o a d ) ,也就是抽取、转换、装载,我们日常称它为数据抽取。e t l 是构建数据仓库 的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据 仓库模型,将数据加载到数据仓库中去。e t l 包含了三个方面,首先是“抽取”:将数据从各 种原始的业务系统中读取出来,这是所有工作的前提。其次是“清洗和转换”:按照预先设计 好的规则将抽取出来的数据进行清洗和转换,使不合法的数据被清洗掉,使本来合法异构的 数据的格式能够统一起来。最后是“装载”:将转换好的数据按计划一次性全部或增量的导入 到数据仓库中去。 e t l 所完成的工作主要包括三方面:首先,在数据仓库和业务系统之间搭建起一座桥梁, 确保新的业务数据源源不断地进入数据仓库;其次,用户的分析和应用也能反映出最新的业 务动态,虽然e t l 在数据仓库架构的三部分中技术含量并不算高,但其涉及到大量的业务逻 辑和异构环境,因此在一般的数据仓库项目中e t l 部分往往也是牵扯精力晟多的:第三,如 果从整体角度来看,e t l 主要作用在于屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的 分析和应用提供了统一的数据接口这也是构建数据仓库最重要的意义所在。 e t l 是数据仓库建立的核心过程。它按照统一的规则集成和整合并提高数据的价值,是 负责完成数据从数据源向目标数据仓库转化的过程,是负责增量维护数据仓库的驱动力,是 保障数据仓库数据质量的关键,也是实施数据仓库的重要步骤。 数据仓库系统是在业务系统的基础上发展起来的,其内部存储的数据来自于事物处理的 业务系统和外部数据。由于业务系统的开发一般有一个较长的时间跨度,而且企业的业务系 统是在不同时期、不同背景、面对不同应用、不同开发商等客观前提下建立起来的,其数据 结构、存储平台、系统平台都存在很大的异构性,这就导致了企业内各源数据缺少统一的标 准。要提高这些不一致,就需要为这些分布广泛的、异构的数据制定统一的清洗和转换规则, 保证数据源中的数据能够以统一的格式、高质量、源源不断的进入数据仓库。 数据转换是e t l 中最令人头疼的问题,而转换规则的制定又是数据转换的关键。通常情 况下,我们遇到的转换要求包括:字段映射;映射的自动匹配;字段的拆分;多字段的混合 运算:跨异构数据库的关联;自定义函数:多数据类型支持;复杂条件过滤:支持脏读;数 据的批量装载;时间类型的转换;对各种码表的支持:环境变量是否可以动态修改;去重复 记录;抽取断点;记录间合并或计算:记录拆分;抽取的字段是否可以动态修改;行、列变 换:排序;统计;度量衡等常用的转换函数:代理主键的生成;调试功能;抽取远程数据; 4 西南大学硕士学位论文 第1 章文献综述 增量抽取的处理方式;制造样品数据;在转换过程中是否支持数据比较的功能:性能监控: 数据清洗及标准化:按行、列的分组聚合等。 1 2 1 数据源 数据源,指为数据仓库提供最底层数据的业务数据库系统及外部数据。数据仓库的数据 来源于多个数据源。由于企业在长期事务处理过程中随数据库管理系统本身发展,形成了企 业内从简单到复杂、从小型到大型的各种不同格式的数据库系统,其中有大型关系数据库、 对象数据库、桌面数据库、各种非格式化文件等,同时这些数据还可能分布在各种不同的数 据操作平台上,并通过网络分布在不同的物理位置:另外数据仓库的数据源可以是递归的, 即数据仓库的数据源可以是另外一个数据仓库( 或数据集市) 或o l a p 服务器。在这些数据源 中,所有用户感兴趣的数据都必须通过数据抽取进行统一与综合,把它们抽取到数据仓库中。 数据源是数据仓库体系中最基础与最底层的一个层次,它是数据仓库系统的一个重要的 环节,其主要的技术支持是现代的网络技术。 1 22 数据抽取 数据抽取( e x t r a c t ) 是从数据源获取符合需要的数据的过程。数据抽取过程会过滤掉数据 仓库中不需要的源数据字段,并进行格式和类型转换。数据抽取可以采用p u l l 和p u s h 两 种方式。p u s h 就是指有源系统按照双方定义的数据格式将符合要求的格式抽取出来,再通 过f t p 或其它文件传送方式拷贝到e t l 系统中。p u l l 则是有e t l 程序直接访问数据源,获 取数据的方式。 多种来源 很少有这样的一种数据仓库( 特别在企业级别上) ,不需要从多种来源中抽取数据。在多 数情况下,必须从多个系统中提取数据,利用多种平台上的多个数据存储来创建的。如某银 行的经营分析系统所涉及的业务系统几乎含盖其所有的系统,综合业务系统,信用卡系统, 信贷管理系统,国际结算系统等等。 抽取模式 在数据仓库创建过程中一般有两种抽取的模式: 1 增量式装载 增量式装载仅仅记录那些自上次装载以后发生的变化或者新增的数据。通常会根据源系 统中的时间或某种指示标识( 如记录的版本号等) 来识别那些已经被改变的记录( 如新增,修 改,删除) 。 2 全量更新 5 有时,在数据源中改变了记录,而未留下任何的识别标志,这时,若需要获取相关的事 实时,无法确定表中的一条记录是什么时间更新的,在这种情况下就需要提取整个表。 压缩解压 当打算长距离传送大量数据时,数据压缩是提取流程中的重要功能。利用压缩功能可以 节约i 3 到i 2 甚至更多的传输时间。 加密与解密 当打算| 圭距离传送大量数据时,数据的传输安全也是提取流程中的重要功能。在传输前, 对数据或数据文件进行适当的加密,是非常有必要的。 1 2 3 数据转换 数据转换( t r a n s f o r m ) 按照数据仓库的数据结构,对源系统每个记录进行转换,转换以后 就可写入数据仓库。数据的转换过程不仅仅是数据格式的改变,还意味着要准备运行数据, 转换其结构和内容,以便集成到数据仓库中去。 集成:集成是将业务数据从一个或几个源中取出,并逐字段地将数据映射到数据仓 库上新的数据结构,结合成一个新的实体。集成包括生成代理键,将各种键从一个系统映射 到另一个系统,并将代码映射到完全描述。还包括负责维护转换过程中的主键检查。 渐变维度维护:跟踪维表列在一段时间的变化,同时提供对数据最新版本的直接访 问。识别已经改变的值和创建代理键是一个棘手的问题。不同的维度策略,e t l 的处理过程是 不一样的。 参照完整性检查:指某个表中的数据与另外一个表的数据相匹配。参照完整性检查 可以在数据库层面上管理,但这样做会降低灵活性。 反规范化和规范化:将某个层次的独立表反规范化成为某个维度,这是一种标准的 数据仓库转换处理。另外,有些反规范化发生在事实表的处理中。例如,某个财务模型中有 一个数量类型的维度,“实际”,“预算”,“预测”等值,根据这些记录包含的细节级别,将该 列透视成带有三个销售额的列( 每列针对一种数值类型) 的单行时,可能更有意义。 数据类型转换:包括将某种数据类型转换到另外一种数据类型,如将d a t e 格式转换 成v a r c h a r 2 格式,从某个数据库将日期、数字、字符表示形式转换到另一个数据库中。 计算导出,分配:这些都是根据在需求处理过程中确定的业务法则而进行的各种 转换。包括字符串操作、日期时间的算术运算、条件语句以及基本的计算等功能。 6 西南大学硕士学位论文 第1 章文献综述 数据聚集:对数据按照不同分组进行汇总等统计计算。对于事实表中的度量字段, 他h 通常是通过数据源一个或多个字段运用聚集函数得来的,这些聚集函数在s q l 标准中, 包括:s u m ,c o u n t ,a v g ,m i n ,m s x 等。 空值:因为许多传统系统中无法表示空值,程序员就采取一些不可能发生的值对空 值进行填空,从源系统中提取数据时,这些空值的替代值看上去与合法值一样,会使分析人 员误解;所以必须识别这些空值的替代值,并制定出在数据库中处理空值的规则。 124 数据装载 加载( l o a d ) 经转换和汇总的数据到目标数据仓库中,可采用s q l 语句或批量加载。 数据加载策略包括加载周期和数据追加策略。装载过程中应该避免生成日志,利用批量 的加载功能( 比如,创建索引和聚集等) 。 1 2 5e t l 作业控制服务 e t l 作业的控制服务包括以下内容: 定义作业 。 定义一组作业的步骤,并且指明作业之间的各种关系,即是写入数据仓库的流程。指定 的表装载失败,将会影响到是否装载依赖该表的其他表。 作业调度 提供类似于基于时间和事件的调度,包括监控数据库标识,检查现有文件或比较创建日 期。 监控 系统提供有关装载步骤,开始时间和进行多长时间等信息,告诉用户e t l 过程系统执行了 那些步骤,提供了每个处理的平均时问报告等。 创建日志 指收集有关整个装载处理的信息,当作业执行出错时,日志信息会支持某个处理过程的 恢复和重启。 异常处理 在某些时候,装载处理可能会使用带有不正确数据类型的记录,或者没有参照完整性检 查。系统需要有一个地方来存放所有被拒绝的行。可接受的错误数以及合理的退出方式。 错误处理 在e t l 过程中必须规划好不可恢复的错误情况,提供灾难恢复、终止和重启的功能,减少 灾难带来的影响。 通知 这种功能的重要性与用户数量及其数据仓库的依赖程度紧密相关。 西南大学硕士学位论文 第1 章文献综述 1 2 6e t l 的逻辑架构 图卜2e t l 过程逻辑架构图 上图抽象地描述了一般e t l 过程的架构,从操作型的数据源,经过数据中转区,最后到达 数据仓库或数据集市的数据处理过程。 底层是整个e t l 过程中都涉及到的数据存储层。 数据源 左边是数据源的提供者,事务系统是业务信息的显见来源。源系统数据存储类型由源系 统规定。如一般的关系型数据库,平面文件或是e r p 系统等。理解源系统的本质对于创建d w 结 构、e t l 过程结构等非常关键。各种工具、连接和服务都部分依赖于数据的来源以及输出的数 据内容。 数据中转区( d s a ) 中部是数据中转区( d a t a s t a g i n g a r e a d s a ) ,是数据准备的工作台。数据中转区 的作用主要包括:1 ) 可快速接受数据采集系统传过来的大量数据,缩短数据采集时间,减少 数据采集对应用系统的冲击。2 ) 实现对多个数据源的统一数据采集,提高了采集数据的可靠 性、一致性。3 ) 暂时保存了要加载的数据,避免了数据转换系统对数据源的直接操作,减少 了对数据源的影响。4 ) 对数据进行转换清洗的操作。在这里是大部分数据转换的地方,也是 产生大部分数据仓库增值的地方。如代理键的转换,在整个企业中都是有用的,只要执行一 次就很有意义。 数据仓库( 或数据集市) ( d w ) 右边的是数据仓库包括维表与事实表的存储,数据仓库的数据结构是根据用户分析的主 题需要来组织的,将所有数据组合为对组织的单一而又有相关性的视图。 图卜2 展示了e t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论