(计算机软件与理论专业论文)基于cwm的数据仓库调度方案设计.pdf_第1页
(计算机软件与理论专业论文)基于cwm的数据仓库调度方案设计.pdf_第2页
(计算机软件与理论专业论文)基于cwm的数据仓库调度方案设计.pdf_第3页
(计算机软件与理论专业论文)基于cwm的数据仓库调度方案设计.pdf_第4页
(计算机软件与理论专业论文)基于cwm的数据仓库调度方案设计.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于cwm的数据仓库调度方案设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于c w m 的数据仓库调度方案设计 基于g w m 的数据仓库调度方案设计 摘要 数据仓库系统建设可以分为四个过程:数据采集,e t l l ,e t l 2 , 数据展现。这些过程内部、过程之间存在着复杂的关系。如何设计一 个较好的调度方法,使其在保证数据正确性的前提下尽可能的提高系 统效率,是数据仓库调度所要解决的问题。同时,数据仓库的调度方 法往往与具体的数据仓库产品和工具相关;这些产品和工具之间的元 数据格式,数据模型以及使用方法各不相同。因此,调度方法还需要 考虑不同环境下的移植性问题。 元数据及元数据管理的相关研究为解决数据仓库调度问题带来 了新的思路。o m g 组织提出的公共仓库元模型( c o m m o nw a r e h o u s e m e t a m o d e l ,c w m ) 提供了一个描述数据仓库领域数据源、数据目的、 转换、分析以及数据仓库管理元数据的通用框架,为异构产品和工具 之间进行元数据通信和共享提供了标准。近年来,工作流技术日益成 熟,为实现业务流程管理和流程自动化,提高系统效率提供了切实可 行的解决方案。 基于以上背景,作者深入研究了某电信企业统一经营信息服务系 统( u n i t e db u s i n e s si n f o r m a t i o ns y s t e m ,u b i s ) 数据仓库建设的过程, 分析了u b i s 的实际环境、调度现状和存在的问题,据此提出了一种 数据仓库调度的设计方案。该方案基于c w m 元模型,以调度元数据 库为核心,将数据仓库调度过程集中起来,由一个调度系统来统一管 理。为了提高系统的处理效率,作者将工作流技术引入到数据仓库调 度过程,用来协调调度活动的执行。之后,作者描述了调度实现的流 程,并讨论了方案实现中业务规则表示、并发控制、任务管理、任务 指派、依赖检查、转发控制等关键问题。该方案已在实际中得到初步 应用,取得了较好的效果,为解决数据仓库调度问题提供了参考。 关键词:元数据c w m 数据仓库调度工作流 北京邮电大学硕士研究生学位论文 基于c w m 的数据仓库调度方案设计 c w m b a s e d d e s i g n o fd a t aw a r e h o u s e s c h e d u l i n g s c h e m e a b s t r a c t t h ec o n s t r u c t i o no fd a t aw a r e h o u s ec o n t a i n sf o u r p r o c e s s e s ,s u c h a sd a t a c o l l e c t i o n ,e t l i ,e t l 2a n dd a t ap r e s e n t a t i o n t h e r ea r em a n yc o m p l i c a t e dr e l a t i o n s a m o n g t h e s ep r o c e s s e sa n di n s i d et h e m h o wt od e s i g nab e t t e rs c h e d u l i n gs c h e m e w h i c hn o to n l ye n s u r e sd a t ac o l t e c t n e s sb u ta l s ob o o s t su pt h ee f f i c i e n c yo fs y s t e mi s t h eq u e s t i o nb yd a t aw a r e h o u s es c h e d u l i n g m e a n w h i l e ,t h es c h e d u l i n gm e t h o d so f d a t aw a r e h o u s er e l a t et ot h es p e c i f i cd a t aw a r e h o u s ep r o d u c t sa n dt o o l sw h o s e m e t a d a t af o r m a t ,d a t am o d e la n du s i n gw a ya r ed i f f e r e n t s ot h es c h e d u l i n gm e t h o d s n e e dt ob ec o n c e r n e da b o u tt h et r a n s p l a n t q u e s t i o n i nt h ed i f f e r e n t s c h e d u l i n g c o n d i t i o n t h er e s e a r c ho fm e t a d a t aa n dm e t a d a t am a n a g e m e n tb r i n gt h en e ww a yo f t h i n k i n ga b o u t t h ed a t aw a r e h o u s es c h e d u l i n g t h ec w m p r o p o s e db yo m gp r o v i d e s ac o m m o nf r a m ew h i c hi su s e dt od e s c d b et h em e t a d a t ao fd a t as o u r 0 1 、,d a t a d e s t i n a t i o n ,t r a n s f o r m a t i o n , a n a l y s i sa n dm a n a g e m e n t i nt h ef i e l do fd a t aw a r e h o u s e , a n do f f e r st h es t a n d a r do fm e t a d a t ac o m m u n i c a t i o na n ds h a r ea m o n gt h e s ei s o m e r o u s p r o d u c t sa n dt o o l so f d a t aw a r e h o u s e r e c e n t l y , w o r k f l o wt e c h n i ci sb e c o m i n gm a t u r e i n c r e a s i n g l y a n do f f e r ss o m ep r a c t i c a lr e s o l v e n t sf o rr e a l i z i n gb u s i n e s sp r o c e s s m a n a g e m e n t a n d p r o c e s sa u t o m a t i o na n di m p r o v i n g t h es y s t e m e f f i c i e n c y b a s e do nt h ea b o v eb a c k g r o u n d ,t h ew r i t e rs t u d i e da b o u tt h ec o n s t r u c t i o no fd a t a w a r e h o u s eo fu n i t e db u s i n e s si n f o r m a t i o ns y s t e m ( u b i s ) d e e p l y ,a n a l y z i n gt h e p r a c t i c a le n v i r o n m e n t ,t h ep r e s e n ts c h e d u l i n gs i t u a t i o na n dt h ep r o b l e m so fu b i s , a n dp r o p o s e dad e s i g ns c h e m eo fd a t aw a r e h o u s es c h e d u l i n g t h es c h e m ew h i c hi s b a s e do nc w ma n dw h o s ec e n t e ri st h es c h e d u l i n gm e t a d a t ar e p o s i t o r yc o l l e c t sa l lo f t h ed a t aw a r e h o u s ep r o c e s s e sa n dm a n a g e st h e mu n i f o r m l y i no r d e rt oi m p r o v et h e e f f i c i e n c yo fs y s t e m ,t h ew r i t e ru s e dw o r k f l o w t e c h n i ct oc o r r e s p o n da l lk i n d so ft h e s c h e d u l i n ga c t i v i t i e s l a t e rt h ew r i t e rd e s c r i b e d t h es c h e d u l i n gf l o wa n dd i s c u s s e dt h e k e yq u e s t i o n so fs c h e m er e a l i z a t i o n ,s u c h a se x p r e s s i o no f o p e r a t i o nr u l e ,i n t e r c u r r e n t c o n t r o l ,t a s km a n a g e m e n t ,t a s ka s s i g n m e n t ,d e p e n d e n tc h e c k ,t r a n s m i tc o n t r 0 1 t h e 北京邮电大学硕士研究生学位论文 摹于c w m 的数据仓库调度方案设计 s c h e m eh a sb e e nu s e di nt h ep r a c t i c a lc o n d i t i o na n do b t a i n sag o o do u t c o m ea n d o f f e r sar e f e r e n c ef o rr e s o l v i n gt h ep r o b l e m so f d a t aw a r e h o u s es c h e d u l i n g k e yw o r d s - m e t a d a t ac w md a t aw a r e h o u s e s c h e d u l i n g w o r k f l o w 北京邮电大学硕士研究生学位论文 基于c w m 的数据仓库调度方案设计 图形目录 图2 - 1 元数据管理5 图3 - 1c w m 元模型1 3 图3 - 2 仓库过程元模型1 5 图3 - 3 转换执行元模型一1 7 图3 - 4 度量值元模型1 8 图3 - 5 变化元模型1 8 图4 - 1 工作流管理系统参考模型2 1 图4 2 工作流管理系统的特性2 2 图4 - 3 工作流参考模型图2 4 图4 - 4 m e t e o r 体系结构图2 6 图4 5m e n t o r 体系结构图2 8 图5 - 1 省分统一经营信息服务系统功能结构图3 2 图5 - 2u b i s 系统纵向管道过滤器体系结构图3 3 图5 3u b i s 系统调度过程图3 4 图5 - 4u b i s 调度机制3 6 图5 5 集成调度方式4 0 图5 = 6 工作流调度方式4 0 图5 7 调度系统体系结构图4 1 图5 - 8 调度执行引擎功能结构图4 2 图5 - 9 信息模型e r 图4 5 图5 1 0 调度实现流程图4 6 图5 - 11 任务状态转换图4 8 图5 1 2 系统应用框架5 0 图5 1 3 调度系统部署图5 1 表格目录 表5 i 调度过程表4 3 表5 - 2 任务活动表4 4 表5 - 3 调度任务表4 4 表5 4 业务规则表。4 4 表5 - 5 活动前依赖规则表4 5 表5 - 6 任务指派表4 5 北京邮电大学硕士研究生学位论文 幕于c w m 的数据仓库调度方案设计 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:里盈 本人承担一切相关责任。 日期:望三:坦 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 垂驾 强鸡 日期:垄互:生 日期:型! :兰:f 北京邮电大学硕士研究生学位论文 基于c w m 的数据仓库调度方案设计 1 1 课题背景 第一章绪论 随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并 没有产生应有的信息,为此出现了“数据爆炸,知识贫乏”的窘迫局面,如何管 理这些庞杂的数据并使之用于决策支持成为企业提高核心竞争力的关键。数据仓 库( d a t aw a r e h o u s e ) 技术就是在这样的要求下产生并发展起来的一个研究领域。 电信行业由于业务种类多,客户量大,长期以来不仅积累了大量重要的业务数据, 而且随着业务的扩展和客户量的猛增,这些数据每天都在以惊人的速度增长,为 了能将这些数据加工整理成有价值的信息,各大电信运营商纷纷开始进行电信经 营信息服务系统的建设。电信经营信息服务系统主要使用数据仓库技术并利用相 关数据分析技术对电信业务数据进行整合分析,发掘潜在信息,实现业务数据到 业务信息的转换,为企业经营决策提供可靠的依据。 一般情况下,电信经营信息服务系统建设分为四个过程:( 1 ) 从各专业系统 采集数据,并把采集来的数据存放到一个临时数据交换区;( 2 ) 经过第一次e t l 过程,把临时数据交换区中的数据装载到o d s ;( 3 ) 经过第二次e t l 过程,把 o d s 中的数据装载到d w ;( 4 ) 利用o l a p 工具将d w 中的数据整合分析,产 生对于企业决策有帮助的分析信息。这些过程内部、过程之间存在着复杂的关系。 如何设计一个较好的调度方法,使其在保证数据正确性的前提下尽可能的提高系 统效率,是数据仓库调度所要解决的问题。 作者在研究生期间,曾参与了某电信企业统一经营信息服务系统( u n i t e d b u s i n e s si n f o r m a t i o ns y s t e m ,u b i s ) 数据仓库建设,并对u b i s 的调度做了比较 深入的研究,作者发现u b i s 的调度还存在着一些问题,主要表现在以下几个方 面: 调度控制分散在各个过程,调度机制各异,甚至有些过程还处在手工调度阶 段,调度过程缺乏统一的管理; 调度方法往往与具体的数据仓库产品和工具相关,这些产品和工具之间的元 数据格式,数据模型以及使用方法各不相同,给调度方法的移植带来了困难; 调度机制没有从整体考虑,并发处理能力不强,导致整个系统调度效率不高, 北京邮电大学硕士研究生学位论文第1 页 基于c w m 的数据仓库调度方案设计 时间较长。 基于上述背景,作者展开了深入的讨论和研究,在分析了u b i s 的实际环境、 调度现状和存在的问题的基础上,提出了一种数据仓库调度的设计方案。 1 2 研究目标和工作内容 本文的研究目标是提出一种通用的数据仓库调度设计方案,实现数据仓库调 度过程的统一管理。结合这个目标,作者主要做了以下几方面的工作: 调研:包括目前流行的数据仓库调度工具元数据模型以及调度实现技术 的研究分析。 理论研究:主要是对元数据和元数据管理、c w m 规范以及工作流技术 相关理论的研究,重点研究了c w m 调度元模型和工作流引擎设计原理。 方案设计:结合u b i s 数据仓库建设过程的实际环境,分析了u b i s 的调 度现状和存在的问题,提出了一种基于元数据管理的数据仓库调度设计 方案。该方案将数据仓库调度过程集中起来,由一个调度系统来统一管 理;将工作流技术引入到数据仓库领域,参考工作流管理系统模型,设 计了调度系统的体系结构和功能模块;基于c w m 元模型,设计了调度 系统的信息模型。 方案实现:描述了数据仓库调度实现的流程;对业务规则表示、并发控 制、任务管理、任务指派、依赖检查、转发控制等关键提出了解决方案; 给出了调度系统的应用框架和部署图。 1 3 论文结构 本论文的结构按照如下内容进行组织: 第二章元数据和元数据管理 首先介绍了元数据的定义、作用和意义;然后讨论了数据仓库系统中 元数据管理的现状和关于元数据的标准化情况;最后介绍了建立元数据管 理系统的步骤和实施方法。 第三章公共仓库元模型( c w m ) 首先介绍了c w m 包含的规范、c w m 元模型:然后重点介绍了调度有 关的c w m 元模型:最后介绍了c w m 的用途。 第2 页北京邮电大学硕士研究生学位论文 基于c w m 的数据仓库调度方案设计 第四章工作流技术 首先介绍了工作流的定义;然后介绍了工作流管理系统的参考模型和 特性;接着介绍了工作流参考模型和工作流的优点;最后介绍了工作流管 理技术的研究现状和实现技术。 第五章基于c w m 的数据仓库调度方案设计 这一章是本论文的核心部分。首先介绍了u b i s 数据仓库建设过程的实 际环境,分析了u b i s 的调度现状和存在的问题;然后提出了一种基于元数 据管理的数据仓库调度设计方案。该方案将数据仓库调度过程集中起来, 由一个调度系统来统一管理。调度系统中引入了工作流技术,用来协调数 据仓库调度活动的执行。之后,作者给出了该调度系统的体系结构、功能 模块以及信息模型;最后描述了数据仓库调度实现的流程,讨论了方案实 现中的业务规则表示、并发控制、任务管理、任务指派、依赖检查、转发 控制等关键问题,并给出了调度系统的应用框架和部署图,分析了调度方 案的特点。 第六章是论文总结及下一步工作。 论文最后是参考文献列表及致谢。 北京邮电大学硕士研究生学位论文第3 页 基于c w m 的数据仓库调度方案设计 2 1 引言 第二章元数据和元数据管理 随着数据仓库技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数 据仓库是一种面向决策主题、由多数据源集成、拥有当前及历史总结数据、以读 为主的数据库系统,其目的是支持决策。数据仓库要根据决策的需要收集来自企 业内外的有关数据,并加以适当的组织处理,使其能有效地为决策过程提供信息。 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂 的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为 重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、 操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资 源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换 规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库 系统中的各个松散的组件联系起来,组成了一个有机的整体。 本章首先介绍了元数据的定义、作用和意义,然后讨论了数据仓库系统中元 数据管理的现状和关于元数据的标准化情况,最后介绍了建立元数据管理系统的 步骤和实施方法,为阐明如何设计实现基于元数据管理的数据仓库调度系统提供 理论基础。 2 _ 2 元数据的定义和作用 2 2 1 元数据的定义 数据仓库的管理是基于元数据( m e t a d a t a ) 的管理。元数据最本质、最抽象 的定义为:关于数据的数据【l 】。它是一种广泛存在的现象,在许多领域有其具体 的定义和应用。 元数据按功能和使用用户可以分为三类: ( 1 ) 业务元数据:用业务名称、定义、描述和别名来表示数据仓库中的各 种属性,直接供最终用户使用。 ( 2 ) 技术元数据:描述了源系统、数据转换、抽取过程、工作流、加载策 第4 页 北京邮电大学硕士研究生学位论文 基十c w m 的数据仓库调度方案设计 略以及目标数据库的定义等。技术元数据可供信息系统人员和一部分最终用户使 用,用来进行冲突分析、变化管理、数据库优化、任务调度和安全管理等。 ( 3 ) 操作元数据:描述了目标表中的信息,如粒度、创建目标表和索引的 信息、刷新时间、记录数、按时执行任务的设置以及有权访问数据的用户。操作 元数据用于数据仓库的维护和分布。 2 2 2 元数据的作用 与其说数据仓库是软件开发项目,还不如说是系统集成项目【2 1 ,因为它的主 要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载, o l a p 分析和数据挖掘等。如图2 1 所示,它的典型结构由操作环境层、数据 仓库层和业务层等组成。 图2 - 1 元数据管理 其中,第一层( 操作环境层) 是指整个企业内有关的业务系统和一些外部数 据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库 层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。图中下边 的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面: ( 1 ) 元数据是进行数据集成所必需的 数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据 上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数 据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系 及转换规则都要存储在元数据库中;另一方面,在数据仓库项目实施过程中,直 接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据 模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过, 当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛 网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据 北京邮电大学硕士研究生学位论文第5 页 基于c w m 的数据仓库调度方案设计 仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理, 那么最后的集成过程就会很困难,甚至不可能实现。 ( 2 ) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据 最终用户不可能像数据仓库系统管理员或开发人员那样熟悉数据库技术,因 此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含义。元 数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方 式“翻译”出来,从而帮助最终用户理解和使用数据。 ( 3 ) 元数据是保证数据质量的关键 数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据 的怀疑。这些怀疑往往是出于底层的数据对于用户来说是不“透明”的,使用者 很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的 来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据 具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元 数据模型的基础上引入质量维 3 1 ,从更高的角度上来解决这一问题。 ( 4 ) 元数据可以支持需求变化 随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何 构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问 题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远 远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有 效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。 2 3 数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数 据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递, 协调各模块和工具之间的工作【4 】。 由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能 ( b u s i n e s si n t e l l i g e n c e ,b i ) 系统的“灵魂”,正是由于元数据在整个数据仓库生 命周期中有着重要的地位,不同供应商的数据仓库解决方案都涉及到元数据管 理。但遗憾的是,每个解决方案都没有提出贯穿整个生命周期的、完整的元数据 管理模式;它们提供的仅仅是对特定的局部元数据的管理。当前市场上与元数据 管理有关的工具大致可以分成4 类: 第6 页北京邮电大学硕士研究生学位论文 摹于c w m 的数据仓库调度方案设计 ( 1 ) 数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中, 如a r d e n t 的d a t a s t a g e 、c a ( 原p l a t i n u m ) 的d e c i s i o nb a s e 和e t i 的e x t r a c t 等。 这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。 ( 2 ) 前端展现工具:包括o l a p 分析、报表和商业智能工具等,如 m i c r o s t r a t e g y 的d s sa g e n t 、c o g n o s 的p o w e r p l a y 、b u s i n e s so b j e c t s 的b o 以及 b r i o 等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图, 进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元 数据相对应的语义层。 ( 3 ) 建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更 高层的与特定业务相关的语义。如c a 的e r w i n 、s y s b a s e 的p o w e r d e s i g n e r 以及 r a t i o n a l 的r o s e 等。 ( 4 ) 元数据存储工具:元数据通常存储在专用的数据库中该数据库就如 同一个“黑盒子”,外部无法知道这些工其所用到和产生的元数据是如何存储的。 还有一类被称为元数据知识库( m e t a d a t ar e p o s i t o r y ) 的工具,它们独立于其它 工具,为元数据提供一个集中的存储空间。这些工具包括微软的r e p o s i t o r y ,c a 的r e p o s i t o r y 、a r d e n t 的m e t a s t a g e 和s y b a s e 的w c c 等。 2 4 元数据管理的标准化 没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统 一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随 着元数据联盟m d c ( m e t ad a t ac o a l i t i o n ) 的开放信息模型o i m ( o p e ni n f o r m a t i o n m o d e l ) 和o m g 组织的公共仓库元模型c w m ( c o m m o nw a r e h o u s em e t a m o d e l ) 标准的逐渐完善,以及m d c 和o m g 组织的合并,为数据仓库厂商提供了统一 的标准,从而为元数据管理铺平了道路。 从元数据的发展历史不难看出,元数据管理主要有两种方法: ( 】) 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的 元数据知识库。 ( 2 ) 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布 式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管 理。 下面分别介绍两个主要的元数据标准o i m 和c w m 以及两者的关系。 北京邮电大学硕士研究生学位论文第7 页 基于c w m 的数据仓库调度方案设计 m d c 的0 i m 存储模型 m d c 成立于1 9 9 5 年,是一个致力于建立与厂商无关的、不依赖于具体技术 的企业元数据管理标准的非赢利技术联盟,该联盟有1 5 0 多个会员,其中包括微 软和i b m 等著名软件厂商。1 9 9 9 年7 月m d c 接受了微软的建议,将o i m 作为 元数据标准。 o h m 的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共 享和重用。它涉及了信息系统( 从设计到发布) 的各个阶段,通过对元数据类型 的标准描述来达到工具和知识库之间的数据共享。o i m 所声明的元数据类型都 采用统一建模语言u m l ( u n i v e r s a lm o 如l i n gl a n g u a g e ) 进行描述,并被组织成 易于使用、易于扩展的多个主题范围( s u b j e c t a r e a s ) 。 o m g 组织的c w m 模型 o m g 是一个拥有5 0 0 多会员的国际标准化组织,著名的c o r b a 标准即出 自该组织。公共仓库元模型( c o m m o nw a r e h o u s em e t a m o d e l ) 的主要目的是在 异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据共享和 交换。 c w m 与o i m 之间的关系 c w m 实际上是专门为数据仓库元数据而制定的一套标准,而o i m 并不是 针对数据仓库元数据的。o h m 所关注的元数据的范围比c w m 要广,c w m 只限 定于数据仓库领域,而o i m 模型包括有:分析与设计模型、对象与组件、数据 库与数据仓库、商业工程、知识管理等五个领域。o i m 与c w m 在建模语言的 选择( 都选择u m l 当作自己的描述语言) 、数据库模型的支持、o l a p 分析模型 的支持、数据转换模型的支持方面都比较一致;但是o i m 并不是基于元对象设 施( m e t a o b j e c tf a c i l i t y ,m o f ) 的,这意味着用o i m 所描述的元数据需要通过 其它的接口才能访问,而c w m 所描述的元数据可以通过c o r b a i d l 来访问; 在数据交换方面,o i m 必须通过特定的转换形成x m l 文件来交换元数据,而 c w m 可以用x m i 来进行交换。尽管如此,由于o m g 与m d c 两个组织的合并, c w m 也会与o h m 相互兼容以保护厂商已有的投资。 需要说明的是,m d c 与o m g 组织已经合并,今后所有的工具都将遵循统 一的c w m 标准。关于c w m 标准的内容将在下一章中进行更详细的介绍。 第8 页北京邮电大学硕士研究生学位论文 2 5 元数据管理系统的设计与实现 2 5 1 设计原则 数据仓库环境下的元数据管理系统的建设是十分困难的。但是在实际项目的 实施过程中,这个环节又是非常重要的。当前情况下,o m g 组织的c w m 标准 将会成为数据仓库元数据领域事实上的标准,在元数据管理系统的建立过程中应 尽量参考这个标准,这样使系统的可扩展性增强。我们在建立元数据管理系统的 时候,绝对不能盲目追求大而全,要坚持目标驱动的原则,在实施的时候要采取 增量式、渐进式的建设原则。具体的建设步骤如下: ( 1 ) 如果是在建设数据仓库系统的初期,那么首先要确定系统的边界范围, 系统范围确定的原则是首先保障重点,不求大,只求精。 ( 2 ) 系统边界确定以后,把现有系统的元数据整理出来,加入语义层的对 应。然后存到一个数据库中,这个数据库可以采用专用的元数据知识库,也可以 采用一般的关系型数据库。 ( 3 ) 确定元数据管理的范围。比如,我们只想通过元数据来管理数据仓库 中数据的转换过程,以及有关数据的抽取路线,以使数据仓库开发和使用人员明 白仓库中数据的整个历史过程。 ( 4 ) 确定元数据管理的工具,采用一定的工具可以完成相应的工作。当前 相关工具有微软的r e p o s i t o r y ,它带有相应的编程接口,可以借助于它来完成元 模型出入库的功能。 2 5 2 元数据存储模式 元数据存在的状况是有差异的,系统层元数据应随数据库存在,且由建立在 分布式网络的数据库管理系统统一管理;数据集层次元数据可以随数据库存在也 可随数据集存在;数据特征层次的元数据只能随数据集存在。 简单地,元数据存贮有两种形式:其一是以数据集为基础,即每一个数据集 有一个对应的元数据文档,每一个元数据文件包含相应数据集的元数据内容。另 一种存在方式是以数据库为基础( 即元数据库) ,每一个数据库有一个元数据文 件,该文件为一表格数据,它由若干项组成,每一项表示元数据的一个要素,其 记录为每一个数据集的元数据内容。 两种存贮方式各有优缺点,对于第一种存储模式,其好处是调用数据时其相 北京邮电大学硕士研究生学位论文第9 页 基于c w m 的数据仓库调度方案设计 应的元数据也作为一个独立的文件被传输,相对数据库有较强的独立性,在对元 数据进行检索时可以利用数据库的功能实现,也可以将元数据文件调到其它数据 库系统中进行操作;其问题是:每一数据集都有一个元数据文档,那么在规模巨 大的数据库中则会有大量的元数据文件,管理上极为不便。在第二中存在模式中, 由于库中只有个元数据文件,管理极为方便,添加或删除数据集只把该文件中 相应的记录项添加或删除即可;但如果想获取某数据集的元数据时,实际得到的 只是关系表格数据的一个记录,则要求数据用户使用的系统中可以接受这种特定 形式的数据。因此推荐使用元数据库的方式。 元数据库是用于存储元数据的地方,元数据库最好选用主流的关系数据库管 理系统,支持c w m 标准。一个元数据库还包含那些用于操作和查询元数据的机 制;建立元数据库的主要好处是提供了统一的关键数据结构和业务规则,易于将 企业内部的多个数据集市有机的结合起来;特别是,现在一些客户倾向建立多个 数据集市,而不是一个庞大无比的数据仓库。可以考虑在建立数据仓库( 或数据 集市) 之前,先建立一个用于描述数据的、用于应用集成的元数据库,做好数据 仓库实施的初期支持工作,对后续开发和维护有很大的帮助。 在拥有不同厂商、不同功能和不同元数据库的环境下,要实现两种产品之间 的元数据同步是非常富有挑战性的工作。因为必须从一种产品中获得足够详细的 元数据,将其映射到另一种产品中,再指出两者意义或编码的差别;通常系统有 数百、数干个元数据,必须对每个元数据重复这过程。 在整个数据仓库环境中,元数据管理工具可以从各个数据仓库组件中收集元 数据,存储到元数据库中,然后向业务用户传递和展示正确的信息。采集、集成 和描述元数据可以扩展到十分广泛的范围,可以在设计和建模的过程中,可以在 数据转换、清洗和过滤的过程中,也可以在数据移植的过程中;可以从数据j 彰 数据存储软件,和前端展示工具中得到元数据。 元数据库为整个企业的宝贵信息提供了详细的记录,保存数据存储位置和商 业含义、生成和维护数据的主体、数据驱动的应用处理、与其它数据的关系以及 数据的转换过程等。元数据库保证了数据仓库数据的一致性和准确性,为企业进 行数据质量管理提供数据依据。 另外,元数据库还支持强大的查询和报表生成工具,用户使用报表工具可以 查询元数据库,从元数据库获得重要的决策支持信息。 第1 0 页 北京邮电大学硬士研究生学位论文 基于c w m 的数据仓库调度方案设计 2 5 3 元数据管理模式 元数据管理涉及到各个层次的元数据,管理的内容包括元数据的获取、元数 据的更新、使用和面向应用项目的元数据使用处理等多个方面。元数据的管理涉 及数据库、数据处理软件、数据使用系统、面向应用的数据分析等各个环节。 通常意义上的元数据管理是指元数据通过各种途径形成后,对其内容的添 加、删除、更新等涉及内容改变的操作和元数据内容检索、查询、放置、组织等 常规性元数据操作,从这种意义上元数据的管理可以通过两种方式实现,即系统 管理模式和用户管理模式。系统管理模式是面向数据库的,由数据库管理系统专 业人员完成,数据用户只有使用权,没有元数据的操作权,数据应用项目中新生 成的数据集的元数据也由应用系统传递给数据库管理员,然后由数据库管理员统 一管理。这种方式中,数据在处理过程中形成的动态元数据很难及时记录下来。 另一种管理方式是用户管理模式,它是面向应用项目的,即允许某些数据用户在 数据应用元数据的变动信息直接反馈给元数据库,这样则能保证元数据的动态更 新和新生成数据集元数据的及时捕获及写入元数据文件。但这种模式中数据用户 的权限要适当的控制,以避免数据库的破坏。通常对元数据的管理是采用两者结 合的模式。 总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原则, 建立符合自身目标的元数据管理系统。 北京邮电大学硕士研究生学位论文第l l 页 基于c w m 的数据仓库调度方案设计 3 1 引言 第三章公共仓库元模型( c w m ) 据统计企业中的数据量每五年就会增长一倍,而且大部分企业都面临着数据 冗余和数据不一致的问题,这就使得企业不能有效地管理、访问和使用数据进行 决策。数据仓库通过提供一种有效的途径将数据转换成有用的、可靠的信息以支 持企业决策过程并获得商业智能。元数据是数据仓库的核心和灵魂。元数据用以 建立、维护、管理、使用数据仓库。然而,很不幸的是各种数据管理和数据分析 工具都使用不同的元数据和元数据模型( 元模型) ,因此无法在一个企业中通过 单一的资料库来为所有的元数据统一部署元模型,c w m 就是为解决这一问题而 制定的规范。该规范提供了一个描述数据源、数据目标、转换、分析、处理、操 作等与建设和管理数据仓库相关信息的元数据基础框架,并为我们在多个厂商的 产品之间进行元数据的通信和共享提供了一个切实可行的标准。目前c w m 标准 已得至l j d i m e n s i o ne d i ,g e n e s i si o n a ,h e w l e t tp a c k a r d ,i b m ,o r a c l e ,u n i s y s , n c r ,h y p e r i o n 等厂商的支持。 本章系统介绍了c w m 规范的相关内容,并重点介绍了调度有关的c w m 元 模型,为阐明如何基于c w m 设计数据仓库调度系统元数据信息模型提供理论基 础。 3 2c w m 的内容【别 3 21c 棚包含的规范 c o m m o nw a r e h o u s em e t a m o d e l ( c w m ) “公共仓库元模型”,在2 0 0 0 年由o m g 提出,该规范提供了一个描述数据源、数据目的、转换、分析的元数 据框架,以及定义建立和管理数据仓库的过程和操作,提供使用信息的继承。 2 0 0 1 年3 月,o m g 颁布了c w m1 0 标准。c w m 模型既包括元数据存储, 也包括元数据交换,它是基于以下三个工业标准制定的: ( 1 ) u m l :它对c w m 模型进行建模。 ( 2 ) m o f ( 元对象设施) :它是o m g 元模型和元数据的存储标准,提供 第1 2 页北京邮电大学硕士研究生学位论文 基于c w m 的数据仓库调度方案设计 在异构环境下对元数据知识库的访问接口。 ( 3 ) x m i ( x m l 元数据交换) :它可以使元数据以x m l 文件流的方式进 行交换。 3 2 2c w m 元模型 c w m 提供一个框架以表示数据源的元数据、数据目标的元数据、转换和分 析的元数据以及过程和操作的元数据。这些元数据用于建立、管

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论