




已阅读5页,还剩48页未读, 继续免费阅读
(产业经济学专业论文)支持ETL进化的元数据管理与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对外经济贸易人学耐31 - 论文 摘要 越来越多的企业逐渐视数据仓库为企业数据集成平台为企业提供单一真实数据 视图。作为数据仓库体系结构中最重要组成部分,抽取、转换、加载( e x t r a c t i o n 、 t r a n s f o r m a t i o n 、l o a d i n g ,e t l ) 集成异构数据源并改进数据质量,利用最有效的方 式将增值数据递交给数据仓库终端分析用户。e t l 进化源于系统进化观点,强调在持 续增量迭代过程中保持现有系统正常运行情况下,应满足环境的变化需求。性能瓶颈、 数据信息可用性和适应模式变化是e t l 系统进化不可避免关键问题。理解系统是经 过收集、分析和抽象获得系统信息的过程,是解决系统进化所遇问题的先决条件。问 题便由而此产生,如何获取e t l 系统信息才能有助于解决e t l 进化所面临的性能瓶 颈、数据信息可用性和适应模式变化问题。 元数据是赋予系统内容意义的描述信息,成为理解系统的关键。为了解决上述问 题,如何管理和应用元数据支持e t l 进化便成为本文研究的重点。本论文将与e t l 系统环境相关的元数据称之为e t l 元数据。本文首先在分析e t l 元数据基础上,提 出e t l 元数据管理架构作为e t l 系统的元数据管理和应用解决方案。接着采用u m l 建模语言、p o w d e rd e s i g n e r 建模工具和结构模型所阐述的建模思路设计e t l 元模型, 以捕获e t l 系统静态和动态方面的信息。论文最后在关系数据库管理系统s q l s e r v e r2 0 0 0 上,利用对象关系映射模式技术建立了基于e t l 元模型的元数据库, 为用户理解e t l 系统提供了所需的完整信息。通过s o l s e r v e r2 0 0 0 自带的查询工 具或是其它定制的应用程序,用户凭借性能瓶颈诊断、元数据浏览、数据谱系、数据 质量和影响性分析等元数据应用从元数据库获取信息,帮助其解决性能瓶颈诊断、适 应模式变化和数据信息可用性等问题,以此实现对e t l 进化的支持。 关键词:元数据e t l 进化元模型数据仓库 对外摊济射易人学顽t 论文 a b s t r a c t m o r ea n dm o r ee n t e r p r i s e sc o n s i d e rd a t aw a r e h o u s ea sd a t ai n t e g r a t i o n sp l a t f o r m , w h i c hp r o v i d e sas i n g l ev e r s i o no ft r u t ha b o u td a t at oa n a l y t i c a lu s e r st om a k ed e c i s i o n s t h ee x t r a c t i o n 、t r a n s f o r m a t i o na n dl o a d i n g ( e t l ) p r o c e s s ,a sa ni m p o r t a n tp a r to fd a t a w a r e h o u s ea r c h i t e c t u r e ,i n t e g r a t e sh e t e r o g e n e o u ss o u r c e sd a t a ,i m p r o v e sd a t aq u a n t i t y , a n d e f f i c i e n c yd e l i v e r sv a l u e dd a t a t oe n du s e r s d u et oe n v i r o n m e n tc o m p l e x i t y , t h e d e v e l o p m e n to fe t ls y s t e mi sn o tas t e pb u t a ni n c r e m e n t - i t e r a t i v eo fl a s t i n gp r o c e s s i n t h ei n c r e m e n t i t e r a t i v eo fl a s t i n gp r o c e s s ,e t le v o l u t i o nm u s tk e e pt h ee x i t i n ge t l s y s t e mr u n n i n g , b u ta l s oa d a p tt or e f l e c tc h a n g e s t h ep e r f o r m a n c e sb o t t l e n e c k ,d e s c r i p t i v e i n f o r m a t i o na v a i l a b i l i t ya b o u td a t aa n da d a p t a t i o nt oc h a n g e sa r eu n a v o i d a b l et oe t l e v o l u t i o n s y s t e mu n d e r s t a n d i n gi sa f t e rt h ec o l l e c t i o n ,t h ea n a l y s i sa n da b s t r a c t l yo b t m n s t h es y s t e mi n f o r m a t i o nt h ep r o c e s s ,i st h ep r e c o n d i t i o nt h a ts o l v e st h es y s t e me v o l u t i o nt o m e e tt h eq u e s t i o n t h eq u e s t i o na r i s e ,t h e n ,h o wg a i nt h ee t ls y s t e mi n f o r m a t i o nt ob e a b l et ob eh e l p f u lt os o l v e st h ep e r f o r m a n c eb o t t l e n e c k ,t h ed a t ai n f o r m a t i o nu s a b i l i t ya n d t h ea d a p t a t i o ns c h e m ac h a n g eq u e s t i o nw h i c ht h ee t le v o l u t i o nf a c e s t h em e t a d a t a e n t r u s t i n g w i t ht h es y s t e mc o n t e n ts i g n i f i c a n c et h ed e s c r i p t i o n i n f o r m a t i o n ,b e c o m e st h ek e yt os y s t e mu n d e r s t a n d i n g i no r d e rt os o l v et h ea b o v ep r o b l e m , h o wt om a n a g ea n da p p l ym e t a d a t at os u p p o r t st h ee t le v o l u t i o nt u r n st h ek e yp o i n tt h a t s t u d i e sf o rt h i sp a p e r b a s e do na n a l y s i so fe t lm e t a d a t a ,t h ep a p e rp r e s e n t e dm e t a d a t a m a n a g e m e n ta r c h i t e c t u r e a ss o l u t i o no fe t lm e t a d a t am a n a g e m e n ta n da p p l i c a t i o n e m p l o y e du m lm o d e l i n gl a n g u a g e ,p o w e rd e s i g n e rt o o la n ds t r u c t u r em o d e l ,e t l m e t a m o d e lw a sc o m p l e t e d t om a k ea c c e s s i o nt om e t a d a t ac o n v e n i e n c e ,t h em e t a d a t a r e p o s i t o r yh a sb e e nb u i l to ns q ls e r v e r 2 0 0 0 w i t ht h eo r i e n t r e l a t i o n s h i pm a p p i n g t e c h n o l o g y t h r o u g hi n q u i r yt o o lo fs q l s e r v e r2 0 0 0o ro t h e rc u s t o m - m a d et h ea p p l i c a t i o n p r o g r a m ,u s e ru s e st h es o l t od i r e c t l ya e c e s st h ee t lm e t a d a t ar e p o s i t o r y t h em e t a d a t a a c c e s s e df r o mr e p o s i t o r yc a nb eu s e df o rp e r f o r m a n c e sb o t t l e n e c kd i a g n o s i s ,m e t a d a t a b r o w s e ,d a t al i n a g e ,d a t aq u a l i t ya n di m p a c ta n a l y s i s 。t h e s ea p p l i a n c e sc a nh e l pe t l s o l v e t h ep r o b l e m s ,w h i c hm e ti nt h ep r o c e s so fe t le v o l u t i o n ,a n dc o n s e q u e n t l ys u p p o r tf o r e t le v o l u t i o n k e yw o r d s :m e t a d a t a ,e t le v o l u t i o n ,m e t a m o d e l ,d a t aw a r e h o u s e i l 对外经济贸易大学硬i 。论文 图表目录 图 图2 1 典型的数据仓库体系结构7 图2 2 数据仓库的数据流和元数据流8 图2 3 数据仓库e t l 元数据环境9 图2 4 元数据类型1 0 图3 1 元数据桥架构1 5 图3 2 基于c w m 点到点的元数据架构1 6 图3 _ 3 基于c w m 的中央辐射元数据架构1 6 图3 4 a s c e n t i a l 的m e t a s t a g e 架构1 7 图3 5 元数据管理架构示例1 8 图3 6 e t l 元数据管理架构2 0 图4 1 结构模型图2 4 图4 。2 m o f 元数据层 图4 3 用以说明元模型包的简单定单模型 图4 4 过程包依赖资源包 图4 5 资源包类关系图 图4 6 过程包类图 图4 7 过程元模型实例化示例 图5 1 影响性分析步骤图 表 表2 1 数据仓库元数据来源 表2 2 业务元数据示例 表2 3 技术元数据示例 表2 4 过程元数据示例 表3 1 美国企业平均拥有的b i 工具数量 表3 2 元数据源和类型 表5 1 e t l 元模型简单数据类型的映射一 表5 2 e t l 元模型类的映射 表5 3 部分e t l 元模型关系映射 表5 4 数据变化路径 :1 4 :1 6 :1 6 2 7 :1 8 2 9 3 5 9 加n n u 加孔n 砣 对外经济贸易大学硕f 论文 第一章绪论 数据仓库被作为企业数据集成平台为企业提供单一真实的数据视图,是企业实施 商务智能( b u s i n e s si n t e l l i g e n c e ,b i ) 的所采取重要技术之一。决策分析用户通过数 据终端方便、有效地访问数据仓库并获取数据,用以评价企业过去、现在的经营和财 务状况,预测市场未来发展趋势。利用数据仓库实现企业数据集成是企业实施商务智 能最为重要、也是必须首先实旌的步骤。依靠数据仓库技术成功实现数据集成之后, 商务智能将开始专注如何建立企业行之有效的分析决策环境,包括具有p e r f o r m a n c e d a s h b o a r d ( 仪表盘) 驱动分析的分析工具、指导决策分析用户进行分析的框架等。 未来的商务智能将在成功实现企业数据集成的基础上迈向标准化、分析工具、方法的 变革方向发展1 。而目前,数据仓库的建设能否成功仍然是企业顺利实施商业智能的 主要障碍。 1 1 问题定义 e t l ( e x t r a c t i o n 、t r a n s f o r m a t i o n 、l o a d i n g ,e t l ) 一数据抽取、转换、加载作 为数据仓库体系结构当中的一个重要组件,实现异构数据源的集成和脏数据的检测与 解决2 。数据仓库为了实现向企业的决策分析人员提供企业单一真实的数据视图而离 不开e t l 过程。作为数据仓库建设过程中最复杂、费时的环节,e t l 系统开发通常 会占整个数据仓库项目时间的6 0 8 0 ,被称之为b i 的心脏和灵魂3 。 在b i 中的特殊地位决定了e t l 系统自身是一个复杂系统。首先,e t l 需要集成 来自大量“烟囱式”系统的数据。大量的“烟囱式”系统( 有的文献将其称为“信息 孤岛”) 由于在硬件平台、操作系统、数据库平台和应用软件等方面存在多样性,因 而进行数据集成会面临较大的挑战。再者,数据仓库需求不确定、无边界。数据仓库 需求源自决策分析人员的分析需要,具有动态和主观性的特点。为了满足数据仓库新 需求,e t l 处于随时被调整的状态。最后,部门经理和决策分析人员为了满足日常业 务决策分析的需要,渴望获得更多、更全面和准确的数据,这就需要e t l 系统一方 面能够迅速完成大数据量的处理,再就是能够提供高质量的数据。 所以e t l 系统建设并非一蹴丽就,而是一个持续增量迭代过程。持续增量迭代 的过程要求保持当前e t l 系统正常运行,同时还要适应变化。存在且可用的e t l 系 统适应变化的过程即是e t l 进化。通常系统进化包含硬件进化,软件进化和过程进 化。在系统生命周期内,硬件组件被替换或更新发生频率相对较低。较之于硬件进化 来说,软件系统自身变化显得十分常见,原因主要来自与需求的变化。过程进化是因 其它系统的引入而引起系统自身发生改变。e t l 进化不涉及硬件进化部分的讨论,而 1w a y n e w e c k c r s o n 。 n e x t g e n e r a t i o n b u s i n e s s i n t e l l i g e n c e ”b e s t o f t h e b u s m e g i n t e l l i g e n c e ,j 2 0 0 6 2 王新荚、陈语林,“数据抽取、转换、装载综述”企业技术开发。2 0 0 4 年8 月 3 w a y n e w e e k e r s o na n d c o l i n w h i t e , e v a l u a t i n g e t la n d d a t a i n t e g r a t i o n p l a t f o r m s ”,t d w i ,2 0 0 5 对外经济贸易大学硕上论文 只与软件和过程进化相关。系统维护和反映变化需求是系统进化中不可避免的两个问 题4 。系统维护是在不考虑变化的情况下,进行系统局部修改,以保证现有系统正常 运行。而系统同其所在的环境之间相互联系,必定要求系统进化以反映变化。而具体 到e t l 进化时,需要密切关注以下三方面的问题。 1 、性能瓶颈。e t l 性能是影响数据仓库成功与否关键因素之一,也成为业界不 可否认的事实。令人较为尴尬的现实情况是大多数企业借助先进的软件产品或工具实 施的数据仓库,不久之后却被束之高阁。除了目前行业缺乏有效的方法论指导数据仓 库整个建设过程而外,数据仓库在运行过程中因大数据量引起的e t l 性能瓶颈便是 造成此种现象的主要原因。随着企业数据呈现出海量增长的趋势,大多数决策分析用 户较以前更加期望及时地从数据仓库获得大量数据。为了满足用户对大数据量的需 求,e t l 需要处理的数据量将大大增加。根据t d w i 对7 5 6 个欧美实施商务智能( 或 是数据仓库) 的企业进行调查发现:在未来1 8 个月,数据仓库数据装载量在1 - - 5 0 0 g b 的将增加1 2 ,5 0 0 g b 以上由3 变为1 0 ,而与之相反的是1 g b 以下的将从5 9 下降到4 0 5 。再者业务系统预留的处理时间窗不断缩短所带来的压力也要求e t l 系 统在单位时间内处理更大数据量。处理数据量的增加会导致e t l 在进行数据的抽取、 转换和加载时遇到大量的性能瓶颈问题。能否迅速地解决e t l 性能瓶颈将影响e t l 以及数据仓库作用正常发挥。 2 、数据信息可用性。数据信息帮助技术和决策分析用户理解数据。无论是数据 处理,还是利用数据进行分析,利用数据信息帮助用户理解数据以及在数据仓库海量 数据中进行信息定位是非常有必要的。数据信息不仅与数据的定义、含义、变化相关, 而且还应涉及数据质量方面。之所以要求了解数据质量状况是基于以下几方面的原 因。首先,数据仓库数据的直接使用者是部门经理或决策分析人员,质量较差的数据 容易造成用户制定错误的决策。其次,数据来自多个o l t p 系统,存在不一致、冗余 等问题。最后,数据的抽取、转换和加载需要解决脏数据问题。所以,作为向数据仓 库提供增值数据的e t l 系统,有必要提供可用的数据信息。 3 、适应模式变化。e t l 进化需要适应的变化包括多个方面,比如模式变化、软 件组件升级以及处理数据质量技术的改进。模式变化式具体表现为数据库字段、表、 关系添加,删除,修改以及物理位置的变化。数据仓库分析需求的主观和不确定性, 企业业务调整,业务规则的变化等因素都会引起模式变化。模式变化将直接促使e t l 进化,而如何有效地适应模式变化是e t l 需要解决的问题。 理解系统( s y s t e mu n d e r s t a n d i n g ) 是经过收集、分析和抽象而获取系统信息的过 程,是解决e t l 系统性能瓶颈、数据信息可用性和适应模式变化问题的先决条件。 c o m p u t i n gd e p a r t m e n t ,s y s k me v o l u t i o n 。s 口- , , , “v w c o m p ,l a i a c a k c o m p u t i n g f e u f c w a y n c w e c h e r s o n 、c i n d ih o w s o n , e n t e r p r i s eb i s n e s si n t e l l i g e n c es t r a t e g i e s a n dt e c h n o l o g y o r d e p l o y i n g b ! o n a n e n t e r p r i s e s c a l e ”,t h e b e s t o f b u s u w s s i n t e l l i g , e n c e , j a n2 0 0 6 2 对外经济贸易人学硕士论文 逆向工程是目前用于帮助软件工程人员理解系统应用最为广泛的技术尤其是系统采 用面向对象技术编程情况下。对于理解程序模块之间接口的信息十分有效6 。但是逆 向工程仅仅停留在程序模块层次,所获取信息对于理解e t l 系统的作用有限,并不 能满足e t l 进化需求。e t l 系统理解需要涉及程序模块、结构、资源和过程等方面 信息的收集、分析和获取。这些关于e t l 内容的大量描述信息,即是理论上所谓的 元数据。因此,如何有效管理和应用元数据,利用e t l 元数据支持e t l 进化是本论 文研究和解决的问题。 1 2 国内外研究现状 元数据是一个颞受争议的话题。元数据定义源于最初的“关于数据的数据”,之 后经过一系列的拓展和改进,已经成为系统环境知识的概括7 。元数据的应用范围非 常广,涉及网络资源搜索、图书管理、地理信息系统等方面。随着数据仓库的产生和 发展,研究元数据再次引起业界关注。元数据研究工作的开展主要还是围绕元数据存 储工具,历史可以追溯到上个世纪6 0 年代,历经数据字典阶段,基于数据仓储的c a s e 工具阶段之后,目前正处于数据仓库元数据存储和元数据驱动业务系统阶段8 。 目前国外有关数据仓库领域元数据的研究主要集中在两个方面:一方面是数据仓 库信息价值链上如何进行不同工具之间的元数据共享和交换,实现工具之间的集成。 不同组织分别提出自己的元数据标准,典型代表包括d u b l i nc o r em e t a d a t ai n i t i a t i v e 的都柏林核心元数据( d c ,d u b l i nc o r e ) 、元数据联盟m d c 的开放信息模型( o p e n i n f o r m a t i o nm o d e l ,o i m ) 和对象管理组织( o m g ) 的公共仓库元模型( c o m m o n w a r e h o u s em o d e l ,c w m ) 9 。在经历标准之间的系列的斗争与妥协,权衡、融合之后, o i m 被c w m 吸纳之后取而代之,成为数据仓库领域元数据标准。j o h np o o l 、d a n c h a n g 等在他们的著作中阐述了c - w m 标准的相关知识,并对在关系数据库s q l s e r v e r 2 0 0 0 开发一个基于c w m 的元数据库的关键步骤和技术点进行了详细的论述。 因企业b i 低成本和保持数据一致性的要求,b i 工具正在向标准化方向的发展,大多 数b i 工具厂商承诺提供满足c w m 标准的接口并已开始付诸实践。另一个方面是如 何借助元数据进行数据仓库建设、管理和维护。以元数据为驱动,提高e t l 的灵活 性。通过设计面向数据质量的过程模型捕获数据仓库质量和过程信息有助于理解数据 仓库,支持数据仓库的进化- o 。 在国内,元数据研究热随着数据仓库的引入高涨。国内关于该方面的参考文献较 多,而实际的应用案例也有。具有代表性的文献基本上都是关于元数据定义、分类、 s o f t w a r ee n g i n e e ri n s t i t u t e ,a p p m u c ht os y s t e m , e v o l u t i o n ,h 咖w 竹w s e i 锄u e x l u p u b l i e a t i o n s q d o e u m e n t s 9 7 他p o n 蜩7 f m l 4 ,9 7 们1 4 a b s 柏矗h t l i i l ,c m u s e i 一9 7 - t r - 0 1 4 7 李光焰“数据仓库中元数据分类及管理系统研究进展分析”,情报科学,2 0 0 5 年第0 7 期 o 张铭、李钦等。d a v i dm a c r o ,元数据仓储的杓建与管理 。机械工业出版杜,2 0 0 3 5 ,p 3 - 5 。 王强、刘东波、王建新,q ? 簿岛寮示赣薅龋盛研剪气计算机工程2 0 0 2 年第1 2 期 加p a n o s v s s s i l i 删l l 矗岛“d a t a w a r e h o u s e 丹煳m a n a g e m e n t i n f v r m a t i o n s y 甜e m s , j n 】y 2 0 0 4 对外经济贸易大学顾:t 论文 标准、元数据架构方面进行的探讨,并有小部分涉及c w m 元数据标准应用的研究, 分为数据仓库工具间的集成、基于c w m 模型e t l 元数据的管理和开发面向c w m 模型的e t l 工具。在实际项目方面,值得关注的两个案例一个是在2 0 0 6 年2 月,亚 信科技宣布成为国内首家成功利用c _ i i m 标准实施元数据管理的厂商;再者就是上海证 券交易所( s s e ) 宣布成功建成中国最大的金融数据仓库,并利用元数据进行仓库系 统的管理和维护“。因此国内对于数据仓库元数据的研究现状可以归纳为:理论方面 借鉴为主,在某些方面进行了适当的扩展,但具有突破性的成果未曾发现;在实际应 用方面,更多的是直接利用c w m 元数据标准进行元数据管理或工具之间集成。对于研 究如何将元数据用于系统理解以支持系统进化仍显欠缺。 1 3 研究的内容和意义 利用元数据支持e t l 进化重点需要解决元数据管理和应用问题。论文首先分析 e t l 以及e t l 元数据环境,阐述e t l 元数据定义、类型和作用。其次,构建e t l 元 数据管理架构是研究管理和应用e t l 元数据所需组件和组件之间的关系,形成一套 适应于e t l 环境的元数据管理解决方案。接着,深入e t l 元数据管理核心元数据组 织部分,采取适当的建模方法进行e t l 元数据模型的设计。最后,为了建立一个廉 价易用的e t l 元数据存放场所,在关系数据库上建立基于e t l 元模型的元数据库, 并分析如何利用元数据库中的元数据解决e t l 进化中的三个重要问题。 本文就支持e t l 进化的元数据管理和应用所进行的研究将具有以下三方面的意 义: 1 、利用元数据支持e t l 系统进化。通过建立廉价易用的元数据库对e t l 元数据 集中管理,为技术人员和业务人员理解e t l 系统提供较为完整的信息。技术人 员利用这些信息一方面进行e t l 性能瓶颈诊断,再者就是为了适应模式变化制 定适当计划并协助开发人员实施这些计划。丽作为数据仓库数据的使用者业务 人员( 主要决策分析用户) 而言,e t l 元数据库提供的元数据有助于他们理解 和使用数据。通过对e t l 元数据进行集中管理,并利用e t l 元数据解决系统 性能瓶颈、适应模式变化和数据信息可用性问题,进而支持e t l 进化。 2 、有利于延缓e t l 系统熵值升高1 2 ,延长数据仓库生命周期,提高数据仓库投 资回报率。e t l 系统迸化表明为了适应变化需求,新功能的不断加入会导致系 统熵值升高。系统环境变化的不可避免决定系统熵值的上升趋势不可改变,但 是可以依靠元数据延缓系统熵值上升速度。为适应每次交化而进行e t l 系统调 整之前,利用e t l 元数据库提供的元数据进行影响性分析可以帮助技术人员制 1 1 数据仓库之路。v c w w d v r w a y c o m ,国内目前研究数据仓库的专业网站 ”软件熵的概念( s 0 1 a r e e n t r o p y ) 由a n d r e w h u n t 与d a v i d t h o m a s 在( p r a g m a t i c p r o g r a r u n e r :f r o m j o u r n 掣m a n t o m a s t e r ) 一书中提出:指出一个软件系统从设计良好的状态开始,随着新的功能不新地加入,系统莲新地失 去了原有的结构,变得来越庞杂,最终变成了一个性能极不稳定、无法投入正常使用的软件系统 4 对外经济贸易大学坝1 :论文 定切实可行的计划,并尽可能地预见和降低因适应变化所形成的不利影响。这 样有利于e t l 系统尽量保持原有的结构,确保正常运行。系统熵值上升速度的 降低将会延长自身的生命周期,并延长数据仓库生命周期,进而提高数据仓库 的投资回报率。 3 、最后,作为系统进化研究领域的一个局部尝试,对具有动态持续性特点的元 数据管理和应用研究起到参考和借鉴的作用。对于e t l 系统或是数据仓库而 言,研究支持进化的元数据管理和应用将会持续进行。两个不可争辩的事实将 是这种趋势有力证明:一是多方面的原因造成严重数据质量问题不仅浪费了企 业大量的钱财,而且企业做出正确决策的能力也大打折扣:再者就是欧洲数据 仓库质量基金会已开始关注如何利用元数据改进数据仓库数据质量。解决数据 质量问题前提条件是利用元数据分析源数据已存在的质量问题,并识别潜在问 题。为此,研究利用元数据帮助数据质量的持续改进,实现对e t l 或数据仓库 进化的持续支持将进一步深入下去。 1 4 论文结构 论文共分六章,依次为; 第一章绪论。阐述论文所研究的问题、内容以及意义。 第二章数据仓库e t l 过程与e t l 元数据。本章是对e t l 元数据环境的分析、 包括e t l 元数据定义、分类、使用用户和作用。 第三章构建e t l 元数据管理架构。本章分析组成e t l 元数据管理架构的组件 和组件之间的关系,在分析典型的元数据管理架构基础上,构建e t l 元数据管 理架构最为e t l 元数据管理和应用的解决方案。 第四章设计e t l 元数据模型。利用结构模型描述的建模思路和m o f 的元素、 规则等设计元数据模型,具体分为资源元模型和过程元模型建模。 第五章建立e t l 元数据库与元数据应用。在关系数据库s q ls e e r 2 0 0 0 上利 用对象关系映射模式技术建立基于e t l 元模型的元数据库,并分析如何利用来 自元数据库中的元数据支持e t l 进化。 第六章结论与展望。 1 5 本章小结 性能瓶颈、模式变化适应性和数据信息可用性,将会影响到数据仓库e t l 的进 化。为此,本文提出对e t l 元数据加以管理和应用,以支持e t l 的进化。第2 章分 析数据仓库e t l 元数据,并对本论文中涉及的重要概念进行阐述和说明。 5 对外经济贸易大学硕t 论文 第二章数据仓库e t l 过程与e t l 元数据 在没有深入理解元数据基础上进行元数据管理将很难获得成功。为此,本章第一 节简要地概述数据仓库e t l 过程的作用和特征。在基础上,第二节重点分析e t l 元 数据,包括e t l 元数据的定义、来源、分类、用户和作用。 2 1 数据仓库e t l 过程 e t l 过程作为数据仓库信息价值链( i s c ) 中的一个关键部分,通过协调异构数 据源,以更加统一、规范和一致的方式组织数据,为决策分析用户提供企业数据的单 一真实视图,实现信息价值链上数据的第一次增值。 2 1 1 作用 面向主题、集成、非易失和历史的数据仓库作为企业的数据集成平台,关键要向 决策分析用户提供企业数据的单一真实视图。从企业的角度来看,大量“烟囱式”的 业务系统拥有大量具有冗余、不一致和格式多样性特点的数据,不仅难于集成,而且 需要花费企业投入大量的成本进行管理。企业数据不但没有很好地服务于企业的决策 分析,反而成为企业负债。通过抽取、转换和加载过程,实现异构数据源的集成和脏 数据的检测、处理,数据仓库便能够向数据终端访问用户提供正确、完整、一致、唯 一和及时的数据”: 正确性。数据仓库中的数据必须同业务系统中的数据相匹配。 完整性。数据仓库中的数据代表所有相关数据的完整结合。 一致性。数据仓库中的数据不应该自相矛盾。 唯一性。反映统一对象的数据项应该是一样的。 及时性。数据仓库中的数据应该按预定计划进行更新。 为此,e t l 过程应实现以下目标: 以最有效的方式将数据递交给用户终端访问工具。 通过清洗、转换,增加数据价值。 保护并记录e t l 过程元数据。 为了实现上述目标,e t l 需要执行以下四个步骤: 1 、 能够从不同的网络、操作平台、数据库和应用程序中抽取数据。 2 、 利用相关技术进行脏数据的检测和清洗,保证数据质量。 3 、通过转换,将清洗后的数据转变成符合目标格式的数据。 4 、跨网络、操作平台将数据加载到数据仓库或数据集市当中,并记录相关信息。 ”r a l p h k i m b a l l ,“i n d i c a t o r s o l q u a u 寸”,i n t e l l i g e n c e e n m r p r i s c ,a p t l 0 、2 0 0 0 , 6 对外经济贸易大学硕士论文 2 1 2 特征 e t l 过程位于数据仓库体系结构的操作数据源o l t p 和数据仓库d w 之间( 图 2 1 ) ,通过从o l t p 获取原始数据,经过数据清洗、转换之后,将数据装入数据仓库。 图2 1 典型的数据仓库体系结构 资料来源:本研究整理 除了具备基本的数据抽取,转换和加载步骤外,e t l 过程存在元数据和数据两种 关键流,本质上是流的统一( 图2 2 ) 。而为了保证抽取、转换和加载的顺利进行,整 个e t l 过程中还具有调度、监控、备份、恢复以及异常处理等管理功能。所以,e t l 过程特征可概括为四个方面: 1 、翻工过程实质是流的过程,是元数据流和数据流的统一。 2 、 通过数据清洗,影响数据仓库中数据的质量。 3 、勘啦过转换步骤实现数据格式的变换。转换包括直接转换,字段运算、聚 集运算、空值判断、字符传处理等。 4 、 能够向决策分析人员提供大量关于数据的信息。 7 对外经济贸易人学硕j 二论文 o l t pe x t r a c t i o n 、t r a n s f o r m a t i o n 、l o a d i n g p 刁 l e x t r a c t i o n i n t e g r a t l o ra g g r e g a t l o r s c h e m ae x t m c u o “ s c h t m ih k hs c i h e r “= t r a r _ l a u o n | n t t g m u o ni m 4 e m t n t a u e n f = = = 习 u 咝 刭湃扣p 。一 e 曰 f = = 刁 1 剐 bj u 广一 | 广 附 i 阳_ “n g l o g g l l g m o n l t n e b a d ( u p r k 口h _ l m e t ef l o wi ) d a t af l o w 图2 2 数据仓厍的数据流和元数据流 资料来源:参考文献2 l 、第2 页 2 2 数据仓库e t l 元数据分析 2 2 1e t l 元数据 元数据可被简单地表述成描述数据的数据( d a t aa b o u td a t a ) 。元数据涉及的范围 十分广泛,这可以在d a v i dm a c r o 关于元数据定义中得至口证实: 元数据是指来自企业内外的所有( 软件和其它介质中含有的) 物理数据和( 员工 和各种媒介中含有的) 知识,包括物理数据的格式、技术和业务过程、数据的规则和 约束以及企业所使用的数据结构1 4 。 元数据从企业的范围来讲实际上是知识,包括系统、业务和市场的知识。当具体 范围缩小到数据仓库e t l 过程时,e t l 元数据的含义为: e t l 元数据是赋予e t l 系统( 或过程) 内容意义的描述信息,包括所有物理数 据结构定义、过程与系统信息。 2 2 2e t l 元数据来源 数据仓库e t l 环境包含大量元数据,分散在源系统o l t p 、e t l 过程、数据仓库 d w 、数据集市和数据建模工具当中( 图2 3 ) 。来自o l t p 、d w 、d m 元数据存储在 数据库目录中;而数据建模工具和e t l 工具“都利用内部资料库存储元数据。 “参考文献6 、第2 页 ”实际的项目中,大部分元数据仍被记录在文档中 对外经济贸易大学硕l 论文 数据 1 建模工具 一 i 一淼。亩磊_ - - 一y 一。 图2 3 数据仓库f r l 元数据环境 资料来源:同上,第5 页 从图2 3 分析可知,e n 。元数据来源可分为六种,分别是业务系统c ) l t p 、数据 仓库d v , t 、数据集市d m 、数据建模工具、e t l 过程i 具和文档。表2 1 数据仓库元 数据来源是关于元数据来源的概要描述。 表2 1 数据仓库元数据来源 元数据源类型描述 源、目标表,列定义 数据映射转换规则 e t l 工具过程 步骤、任务调度信息 统计信息 数据质量信息 系统信息 业务系统o l 。t p数据库、模式 物理表,列定义 系统信息 数据仓库d w 维度表,事实表列定义 系统信息 数据集市d m分析主题信息 维度表事实表列定义 逻辑数据模型和物理数据模型 数据建模工具 实体、属性、表和列定义 值域 业务描述 文档 业务规则描述 分析主题信息 9 叫1 - 对外经济贸易大学硕士论文 i1 系统架构信息i 资料来源:本研究整理 2 2 3e t l 元数据类型 e t l 元数据包含三类:业务元数据、技术元数据和过程元数据( 图2 4 ) 。业务元 数据是为企业业务用户( 主要是决策分析人员) 提供支持的元数据,而技术元数据和 过程元数据主要是为技术人员和r r 员工提供支持的元数据。 l技术元数据 ? i i i i 一i i 、i i i i l i 、i i i i i l i i i i i i i i i i i i i i i l 、 、 i i l i i l i i i i i 、i 二i l 、l 业务元数据 图2 4 元数据类型 资料来源:参考文献2 6 、第2 4 6 页 1 、业务元数据 业务元数据是对数据的业务描述,向数据仓库决策分析人员提供了数据变化过程 的线路图。决策分析人员拥有所在领域丰富的业务知识,他们关注数据的业务含义、 数据的结构、数据之间的转换关系以及数据质量问题。例如当销售部门的经理需要分 析当年的销售情况,她从仓库获取当年的销售数据作销售分析;为了进一步加深数据 的了解,她获取了销售数据在e t l 过程时信息,发现有些月份的数据加载错误比率 较高,进而对之前的销售分析结果持谨慎态度。可见,业务元数据通过决策分析人员 提供数据的业务定义,加强了他们对数据的理解和信心( 表2 2 业务元数据示例) 。 表2 2 业务元数据示例 避游嚣蘩擐灏织 数据元素的数据结构( 主要业务人员可理解的) 实体的业务定义 系统的业务描述 业务逻辑映射 主题领域定义 资料来源:本研究整理 2 、技术元数据 技术元数据是物理数据结构的描述。当e t l 团队开发人员和技术人员进行e t l 维护和管理的时候,技术元数据提供了理解系统的必要信息。这些信息通常包括系统 1 0 对外经济贸易大学硕士论文 物理字段的格式、字段之间的映射关系、表、系统、作业的功能以及程序的版本信息 ( 表2 3 技术元数据示例) 。技术元数据对于维护和改进数据仓库e t l 来说是十分重要: 一方面它协助技术人员为数据仓库e t l 的维护和升级制定计划,另一方面也协作开 发人员实现这些计划。 表2 3 技术元数据示例 技术元数据示例 数据字典 字段物理结构 业务规则 转换定义 作业定义 e t l 单元组成、参数 资料来源:本研究整理 3 、过程元数据 过程元数据是e t l 运行过程相关的元数据,包括步骤、活动之间组成和执行关 系、运行结果、异常处理( 表2 4 过程元数据示例) 。e t l 在运行过程中,可以提供数据 加载统计信息和数据质量信息,以及调度信息等。技术人员可以通过对加载信息的分 析,分析造成性能瓶颈原因:而分析人员用过程元数据可以了解数据的质量状况:而 数据质量负责人通过对数据质量信息制定数据质量改进计划。 表2 4 过程元数据示例 。过程元数据示倒 加载统计信息 异常处理 步骤、活动组成、执行关系 数据质量信息 资料来源:本研究整理 2 2 4e t l 元数据使用用户 e t l 元数据的用户可分为三类:决策分析用户,技术用户和高级用户。 1 、决策分析用户 决策分析用户专著于业务知识而较少关心技术知识,他们利用数据终端访问工具 从数据仓库取得数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年记忆绵家居制品合作协议书
- 教师招聘之《小学教师招聘》强化训练附完整答案详解【必刷】
- 临时工用工劳动合同协议书
- 理财学习心得体会五篇-
- 输液港试题试题含答案
- 《中级微观经济学乙》课件
- 煤矿安全培训考核细则课件
- 《医务人员职业暴露》试题及答案
- 2025年《药品管理法》培训考核试题(附答案)
- 2025年4月自考03007急救护理学真题及答案
- 安全法律法规知识培训
- 小学生钢笔使用课件
- 《冲击地压》课件
- 《毛利分析》课件
- 工业园区弱电工程承包合同范本
- 安徽省蚌埠市重点中学2025届物理高二上期末学业质量监测模拟试题含解析
- 医院医保新员工岗前培训
- 静脉治疗护理技术操作标准解读
- 突发公共卫生事件校长为第一责任人制度
- 北师大版高中英语让学生自由飞翔
- (2024)新课标一年级语文上册 我上学了 第2课时 我爱我们的祖国 课件
评论
0/150
提交评论