




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)基于元数据的数据仓库任务调度原型系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 摘要:数据仓库系统建设可以分为四个过程:数据采集,e t l l ,e t l 2 ,数据展现。 这些过程内部、过程之问存在着复杂的关系。如何设计一个较好的调度系统,使 其在保证数据正确性的前提下尽可能的提高系统效率,是数据仓库调度系统所要 解决的问题。 元数据及元数据管理的相关研究为解决数据仓库任务调度问题带来了新的思 路。o m g 组织提出的公共仓库元模型( c o m m o nw a r e h o u s em e t a m o d e l ,c w m ) 提供 了一个描述数据仓库领域数据源、数据目的、转换、分析以及数据仓库管理元数 据的通用框架,为异构产品和工具之间进行元数据通信和共享提供了标准。近年 来,工作流技术同益成熟,为实现业务流程管理和流程自动化,提高系统效率提 供了切实可行的解决方案。 基于以上背景,作者深入研究了铁路试点数据中心的建设过程,分析了铁路 试点数据中心的实际环境、任务调度现状和存在的问题,据此提出了一种基于元 数据的数据仓库任务调度系统的设计方案。该系统基于c w m 元模型,以调度元 数据库为核心,将数据仓库调度过程集中起来,由一个调度系统来统一管理。为 了提高系统的处理效率,作者将工作流技术引入到数据仓库任务调度过程,用来 协调调度活动的执行。之后,作者描述了任务调度实现的流程,并讨论了系统实 现中业务规则表示、并发控制、任务管理、任务指派、依赖检查、转发控制等关 键问题。 关键词:数据仓库;元数据;数据仓库调度;工作流;c w m 分类号:t p 3 1 1 1 3 北京交通大学硕士学位论文 a b s t r a c t a b s t r a c t :t h ec o n s t r u c t i o no fd a t aw a r e h o u s ec o n t a i n sf o u rp r o c e s s e s , i n c l u d i n gd a t ac o l l e c t i o n , e t l l ,e t l 2a n dd a t ap r e s e n t a t i o n t h e r ea r em a n y c o m p l i c a t e dr e l a t i o n sa m o n gt h e s ep r o c e s s e sa n di n s i d et h e m h o wt od e s i g n a b e t t e rs c h e d u l i n gs c h e m ew h i c hn o to n l ye n s u r e sd a t ac o r r e c t n e s sb u ta l s ob o o s t s u pt h ee f f i c i e n c yo fs y s t e mi st h eq u e s t i o nb yd a t aw a r e h o u s es c h e d u l i n gt os o l v e t h er e s e a r c ho fm e t a d a t aa n dm e t a d a t am a n a g e m e n tb r i n g su pan e ww a yf o r t h ed a t aw a r e h o u s es c h e d u l i n g t h ec w mp r o p o s e db yo m gp r o v i d e sac o m m o n f r a m e w o r kw h i c hi su s e dt od e s c r i b et h em e t a d a t ao fd a t as o u r c e ,d a t a d e s t i n a t i o n ,t r a n s f o r m a t i o n , a n a l y s i sa n dm a n a g e m e n ti n t h ef i e l do fd a t a w a r e h o u s e ,a n do f f e r st h es t a n d a r do f m e t a d a t ac o m m u n i c a t i o na n ds h a r ea m o n g t h e s ei s o m e r o u sp r o d u c t sa n dt o o l so fd a t aw a r e h o u s e r e c e n t l y , w o r k f l o w t e c h n i q u e i sb e c o m i n gm a t u r ei n c r e a s i n g l ya n do f f e r ss o m ep r a c t i c a ls o l u t i o n sf o r r e a l i z i n gb u s i n e s sp r o c e s sm a n a g e m e n ta n dp r o c e s sa u t o m a t i o na n di m p r o v i n gt h e s y s t e me f f i c i e n c y b a s e do nt h ea b o v eb a c k g r o u n d , w es t u d yt h ec o n s t r u c t i o ns c h e m eo f e x p e r i m e n t a l d a t ac e n t e ro fr a i l r o a d d e e p l y , b ya n a l y z i n gt h ep r a c t i c a l e n v i r o n m e n t ,t h ep r e s e n ts c h e d u l i n gs i t u a t i o na n dt h ep r o b l e m s ,w ep r o p o s e da s y s t e mo fd a t aw a r e h o u s es c h e d u l i n gb a s e do nm e t a d a t a t h es y s t e mw h i c hi s b a s e do nc w ma n dw h o s ec e n t e ri st h es c h e d u l i n gm e t a d a t ar e p o s i t o r yc o l l e c t sa l l o ft h ed a t aw a r e h o u s ep r o c e s s e sa n dm a n a g e st h e mu n i f o r m l y i no r d e rt oi m p r o v e t h ee f f i c i e n c yo fs y s t e m , w eu s ew o r k f l o wt e c h n i q u et oc o o r d i n a t ea l lk i n d s s c h e d u l i n ga c t i v i t i e s f u r t h e r m o r ew ed e s c r i b et h es c h e d u l i n gf l o wa n dd i s c u s st h e k e yi s s u e so fs c h e m er e a l i z a t i o n , s u c ha sr e p r e s e n t a t i o no fo p e r a t i o nr u l e , i n t e r c u r r e n tc o n t r o l ,t a s km a n a g e m e n t ,t a s ka s s i g n m e n t ,d e p e n d e n c yc h e c ka n d t r a n s m i tc o n t r 0 1 k e y w o r d s :d a t aw a r e h o u s e ;m e t a d a t a ;d a t aw a r e h o u s es c h e d u l i n g ; w o r k f l o w ;c w m c l a s s n 0 :t p 3 1 1 1 3 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 衅筱山争 签字同期:砂g 年6 月罗日 导师签名:埘 签字同期:砷姆舌月多日 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名: 辟颀哞签字同期: 矽口3 年6 月了r 6 3 致谢 光阴似箭,转眼间岁月匆匆而过。两年来在学识渊博的老师们的谆谆教诲下, 在实验室众多师兄、师姐帮助中,我学到了丰富的专业知识和不懈追求、努力探 索的科研精神,这些宝贵财富使我受益终生。 在此要特别感谢我的导师林友芳副教授,与林老师结识并有幸师从于他开启了 我生命中的重要转折。在整个研究生学习期间,林老师严谨的治学态度和科学的 工作方法潜移默化地影响着我,他勤奋、踏实的研究精神时时刻刻鞭策着我;林 老师悉心指导我们完成一系列的科研工作,在学习上和生活上都给予我莫大的关 心和帮助,在此真诚地对林老师表示深深的谢意! 在课题研究和相关项目进展期问,也得到黄厚宽教授的诸多指导和帮助,在此 对黄老师表示衷心的感谢。 在实验室工作及撰写论文期间,与同一课题研究组的杨再审、施洋同学开展了 多次卓有成效的讨论,在此向他们表达我的感激之情。 最后深深感谢艰辛中任劳任怨的父母,勤劳朴实的他们给了我无私的爱和无 尽的支持,也给了我永远的激励去回报他们的殷殷期盼! 绪论 1 1 前言 1 1 1 数据仓库的概念及特征 1 绪论 数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w h i n m o n 在其 著作( ( b u i l d i n g t h ed a t a w a r e h o u s e ) ) - - 书中给予如下描述:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、非易失的( n o n v o l a t i l e ) 、 且随时间变化( t i m ev a r i a n t ) 的数据集合,用于支持管理人员的决策。对于数据仓 库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分 析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异 构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放 在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下几个特点: ( 1 ) 面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是 指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型 信息系统相关。 ( 2 ) 集成的 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互 独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一 致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 ( 3 ) 相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓 库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有 大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 ( 4 ) 反映历史变化 操作型数据库主要关心当前某一个时问段内的数据,而数据仓库中的数据通 北京交通大学硕士学位论文 常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。 1 1 2 数据仓库系统的基本体系结构 与其说数据仓库是一个软件开发项目,还不如说它是一个系统集成项目。因 为它的主要工作是把数据仓库所需的数据集成和整合在一起,把所需的数据仓库 工具集成在一起,完成数据的抽取、转换和加载,o l a p 分析和数据挖掘等。如图 1 1 所示,它的典型结构由操作环境层、数据e t l 层、数据仓库层、计算展现引擎 层和业务应用层等组成。 业务应川层 计算展现引擎 层 数据仓库层 数据e t l 层 操作环境层 图1 1 数据仓库系统的基本体系结构 f i g u r e1 1t h eb a s i ca r c h i t e c t u r eo fd a t aw a r e h o u s e 绪论 操作环境层:是数据仓库系统的基础,是整个系统的数据源泉。通常包括 企业内部信息和企业外部信息。企业内部信息是指企业内分布广泛的、异 构的r d b m s 中包含的各种业务处理数据和各类文档数据。外部信息包括 跟企业有关的各类宏观经济政策、宏观经济形势、法律规范、市场信息和 竞争对手信息等等。 数据e t l 层:主要负责对企业内大量分布广泛的、异构的数据进行抽取, 对数据按照统- n 定的转换规则进行转换、集成,并按照一定的规则进行 数据清洗,最后把经过转换、清洗的高质量数据装载到数据仓库。 数据仓库层:主要是负责数据的组织和管理。数据仓库中的数据组织是否 合理、管理是否规范,对数据仓库的应用起了决定性的作用。 计算展现引擎层:主要为业务应用层的查询分析提供各种算法引擎和展现 引擎,对一些有规律的频繁应用可以先取出相关数据,按照一定的算法进 行计算,并把结果按照一定的展现方式进行存储,等下次查询分析的时候, 直接取结果就行。 业务应用层:主要包括各种查询分析界面,如o l a p 分析界面、数据挖掘 分析界面、语音查询界面、关联查询界面、综合查询界面等等。 1 1 3 本文研究目的和意义 一般情况下,数据仓库系统建设分为四个过程:( 1 ) 从各专业系统采集数据, 并把采集来的数据存放到一个临时数据交换区;( 2 ) 经过第一次e t l 过程,把临 时数据交换区中的数据装载到o d s ;( 3 ) 经过第二次e t l 过程,把o d s 中的数 据装载到d w ;( 4 ) 利用o l a p 工具将d w 中的数据整合分析,产生对于企业决 策有帮助的分析信息。这些过程内部、过程之间存在着复杂的关系。如何设计一 个较好的任务调度系统,使其在保证数据j 下确性的前提下尽可能的提高系统效率, 是数据仓库任务调度系统所要解决的问题。 作者在研究生期间,对铁路试点数据中心的任务调度做了比较深入的研究, 作者发现铁路试点数据中心的任务调度还存在着一些问题,主要表现在以下几个 方面: ( 1 ) 任务控制分散在各个过程,任务控制机制各异,任务流程缺乏统一的管 理; ( 2 ) 任务调度方法往往与具体的数据仓库产品和工具相关,这些产品和工具 之问的元数据格式,数据模型以及使用方法各不相同,给调度方法的移植带来了 困难; 北京交通大学硕士学位论文 ( 3 ) 任务调度机制没有从整体考虑,并发处理能力不强,导致整个系统调度 效率不高,时间较长。 基于上述背景,作者展开了深入的讨论和研究,在分析了铁路数据中心的实 际环境、调度现状和存在的问题的基础上,提出了一种基于元数据的数据仓库任 务调度系统的设计方案。 1 2 论文主要内容 1 2 1 研究目标和工作内容 本文的研究目标是提出一种通用的数据仓库任务调度系统设计方案,实现数 据仓库任务调度过程的统一管理。结合这个目标,作者主要做了以下几方面的工 作: 调研:包括目前流行的数据仓库调度工具元数据模型以及调度实现技术的研 究分析。 理论研究:主要是对元数据和元数据管理、c w m 规范以及工作流技术相关 理论的研究,重点研究了c w m 调度元模型和工作流引擎设计原理。 方案设计:结合铁路试点数据中心数据仓库建设的实际环境,分析了数据仓 库的任务管理现状和存在的问题,提出了一种基于元数据的数据仓库任务调度系 统的设计方案。该方案将数据仓库任务调度过程集中起来,由一个调度系统来统 一管理;将工作流技术引入到数据仓库领域,参考工作流管理系统模型,设计了 任务调度系统的体系结构和功能模块:讨论了任务调度的算法和策略;基于c w m 元模型,设计了调度系统的信息模型。 方案实现:描述了数据仓库任务调度实现的流程;对业务规则表示、并发控 制、任务管理、任务指派、依赖检查、转发控制等关键问题提出了解决方案;给 出了任务调度系统的应用框架和部署图。 1 2 2 论文安排 第一章,主要介绍了数据仓库的基本概念,分析了本文的研究背景以及目前 的研究现状,总结出现有数据仓库任务调度系统及相关理论的研究不足,提出了 论文研究目标。 第二章,首先介绍了元数据的定义、作用和意义;然后讨论了数据仓库系统中 元数据管理的现状和关于元数据的标准化情况:最后介绍了建立元数据管理系统 4 绪论 的步骤和实施方法。 第三章,首先介绍了工作流的定义,工作流模型;然后介绍了工作流管理系 统的参考模型和体系结构;最后介绍了工作流引擎和工作流的优点。 第四章,首先介绍了数据仓库任务调度的基本概念;接着以铁路试点数据中 心为例,分析了铁路试点数据中心的调度现状和存在的问题;提出任务调度系统 的设计原则;最后分析了几种常用的任务调度算法。 第五章,这是本论文的核心部分,在第四章的基础之上,提出了一种基于元 数据的数据仓库任务调度系统设计方案。该方案将数据仓库调度过程集中起来, 由一个调度系统来统一管理。调度系统中引入了工作流技术,用来协调数据仓库 调度活动的执行。之后,作者给出了该调度系统的体系结构、功能模块以及信息 模型;最后讨论了方案实现中的业务规则表示、并发控制、任务管理、任务指派、 依赖检查、转发控制等关键问题,并给出了调度系统的应用框架和部署图,分析 了任务调度系统的特点。 第六章,总结全文工作,并对下一步的研究工作进行展望。 元数据及其标准化模型 2 1 引言 2 元数据及其标准化模型 数据仓库是一种面向决策主题、由多数据源集成、拥有当前及历史总结数据、 以读为主的数据库系统,其目的是支持决策。数据仓库中的数据是按主题组织的, 具有不同的粒度级别,并且支持多种前端分析应用。因此,数据仓库中的处理过 程众多,包括建立数据仓库的数据抽取、转换、加载、数据集市生成、数据立方 生成过程,数据仓库管理的更新、归档过程,以及应用报表生成程序等。对于企 业级数据仓库系统,其中的处理程序成千上万,而这些处理程序之间的关系千丝 万缕,如何有效地调度和管理这些任务是数据仓库管理中非常重要的工作,也是 提高数据仓库性能和资源利用率的关键。解决这一问题的关键是对元数据进行科 学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的 描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库 中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是 基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了 一个有机的整体。 2 2 元数据的定义和作用 2 2 1 元数据的定义及其分类 按照传统的定义,元数据( m e t a d a t a ) 是关于数据的数据。在数据仓库系统中, 元数据是描述数据仓库内数据的结构和建立方法的数据,它可以帮助数据仓库管 理员和数据仓库的开发人员非常方便地找到他们所关心的数据,可将其按用途的 不同分为两类【2 】:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s s m e t a d a t a ) 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数 据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定 义,以及数据集市的位置和内容: 7 北京交通大学硕士学位论文 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、 预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、 数据提取、清理、转换规则和数据刷新规则、安全。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实 际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂 数据仓库 中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、 对象名和属性名,访问数据的原则和数据的来源,系统所提供的分析方法以及公 式和报表的信息。具体包括以下信息1 3 】: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型 的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数 据库技术和s q l 语句的业务人员对数据仓库中的数据也能做到心中有数。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数 据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这罩 的数据立方体表示某主题领域业务事实表和维表的多维组织形式。 业务概念模型和物理数据之1 8 j 的依赖:以上提到的业务元数据只是表示出了 数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、 字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。 2 2 2 元数据在数据仓库中的作用 元数据在数据仓库项目中担当着重要角色,是数据仓库项目能否成功开发、 实施的一个重要环节。元数据在数据仓库体系结构中起到了纽带的作用,具体体 现在以下几个方面【4 j : 元数据是进行数据集成所必需的 数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据 上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数 据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系 及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中, 直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数 据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不 过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘 蛛网的关键。 元数据及其标准化模型 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据 最终用户不可能像数据仓库系统管理员或丌发人员那样熟悉数据库技术,因 此迫切需要有一个“翻译,能够使他们清晰地理解数据仓库中数据的含意。元数 据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式 “翻译 出来,从而帮助最终用户理解和使用数据,使企业的决策层能更快的做 出决策。 元数据是保证数据质量的关键 数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据 的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者 很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的 来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据 具有信心,当然也可便捷地发现数据所存在的质量问题。 元数据可以支持需求变化 随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。成功 的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来, 使得系统不依赖特定的丌发人员,从而提高系统的可扩展性。 2 3 数据仓库元数据管理现状 目前各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但遗憾的 是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们 提供的仅仅是对特定的局部元数据的管理。如图2 1 所示,与元数据相关的数据仓 库工具大致可分为四类【5 】: 建模- i 具; e r 、n i n f o w e r d c s i l s n c r 前螭展现工具: b o hrio 。 c o g n o i d s s a s c n t 数据转换- t - 具, d a t a s t a g e d e c i d o nl i 丑l 瞻 图2 1 当前市场与元数据有关的主要工具 9 据存储i 囊, r e p o s i t o n f m e t n s t a g e w c c 北京交通大学硕士学位论文 f i g u r e2 1t h et o o l sw i t hr e l a t i o no f m e t a d a t am t h ec u r r e n tm a r k e t ( 1 ) 数据抽取工具( e t l 工具) :把业务系统中的数据抽取、转换、集成到 数据仓库中,如a r d e n t 的d a t a s t a g e 、c a ( 原p l a t i n u m ) 的d e c i s i o nb a s e 和e t i 的e x t r a c t 等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。 ( 2 )前端展现工具:包括o l a p 分析、报表和商业智能工具等,如 m i c r o s t r a t e g y 的d s sa g e n t 、c o g n o s 的p o w e r p l a y 、b u s i n e s so b j e c t s 的b o ,以及 b r i o 等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图, 进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元 数据相对应的语义层。 ( 3 ) 建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高 层的与特定业务相关的语义。如c a 的e r w i n 、s y s b a s e 的p o w e rd e s i g n e r 以及 r a t i o n a l 的r o s e 等。 ( 4 ) 元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同 一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还 有一类被称为元数据知识库( m e t a d a t ar e p o s i t o r y ) 的工具,它们独立于其它工具, 为元数据提供一个集中的存储空间。这些工具包括微软的r e p o s i t o r y ,c a 的 r e p o s i t o r y 、a r d e n t 的m e t a s t a g e 和s y b a s e 的w c c 等。 2 4 元数据的标准化 2 4 1 元数据管理的标准化 没有规矩不成方圆,元数据管理之所以困难,一个很重要的原因就是缺乏统一 的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着 o m g 组织的公共仓库元模型c w m ( c o m m o nw a r e h o u s em e t a m o d e l ) 标准的逐渐完 善,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。 o m g 是一个拥有5 0 0 多会员的国际标准化组织,著名的c o r b a 标准即出自 该组织。公共仓库元模型( c o m m o nw a r e h o u s em e t a m o d e l ) 的主要目的是在异构环境 下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据共享和交换。 2 4 2c w m 概述 c w m ( c o m m o nw a r e h o u s em e t a r n o d e l ,公共仓库元模型) 【6 1 是o m g 采纳的一 个使用共享元数据的集成数据仓库和业务分析工具的开放式行业标准,它完整地 1 0 元数据及其标准化模型 描述了数据仓库和业务分析领域的各个方面。 c w m 是基于以下三个工业标准: ( 1 ) u m i _ iy n i f i e dm o d e ll a n g u a g e 统一建模语言。 ( 2 ) m o 卜m e t ao b j e c tf a c i l i t y 元对象设施。 ( 3 ) x m 卜x m lm e t a d a t ai n t e r c h a n g e 基于x m l 的元数据交换机制。 u m l 是o m g 用于定义离散系统抽象模型的标准语言,用u m l 定义的模型 独立于任何平台和实现,c w m 用u m l 表示,u m l 是定义c w m 的表示法基础。 c w m 对u m l 的子集进行了扩展以包含数据仓库和业务分析领域的概念。c w m 利用u m l 强大的表达能力来定义复杂的元数据及其关系。 m o f 元对象设施,定义了一个描述元数据模型的抽象语法,是为元模型规范 定义公共抽象语言的一种o m g 标准。m o f 本身是一种元元模型,或者说是元模 型的模型。m o f 以u m l 的一个子集为基础,能够描述诸如u m l 和c w m 元模型 这样的元模型,甚至可以描述m o f 本身( 自描述) 。 x m i 规范定义如何用x m l 表示基于m o f 的元数据。当元数据存储在x m l 文档中时,x m l 标记提供了元数据元素的定义。由于x m i 为元数据提供了一种低 成本的、适合w e b 的交换机制,因此x m i 对于c w m 而言是一种重要的基础技术。 o m g 元数据知识库体系结构如图2 2 所示。 图2 2o m g 元数据知识库体系结构图 f i g u r e2 2a r c h i t e c t u r eo f o m gm e t a d a t ar e p o s i t o r y c w m 标准涵盖了技术元数据和业务元数据的定义,涉及数据仓库生命周期的 所有阶段。如果构建数据仓库用到的各种软件产品、工具、应用软件和数据库产 品能就c w m 元模型达成一致,就可以很容易地在各软件组织之间完成元数据的 北京交通大学硕士学位论文 交换。 2 4 3c 删结构 作为一种公共仓库元模型,c w m 必须能够描述各种数据源和数据仓库目标的 元数据,设计者将c w m 组织成了2 1 个单独的包,每个包都含有与在数据仓库和 业务智能领域中的特定部分相关的类、关联和约束。在2 1 个包中,有2 0 个包要 求在实现中依赖于其它一个或多个包存在,唯一一个不需要其它包支持的包是 c w m 中最基本的部分:核心包。其它所有的包最终都依赖于这个包。丌发者将这 些包分为五个层次。图2 3 展示了这2 1 个包以及它们所处的层次。 在c w m 中,每一个包代表c w m 的一个元模型,并且对应于数据仓库系统 中的一个重要的功能域,例如,分析层的转换包对应于数据仓库系统中的e t l 工 具所用到的元数据的模型。 管理层 分析层 资源层 基础层 对象模 型层 数据仓库处理包数据仓库操作包 转换包联机分析数据挖掘信息可业务命名 处理包视化包规则包 对象包关系型包 记录包 多维包x m l 包 业务信数据类表达式键和索软件部类型映 息包 型包包引包署包射包 核心包行为包关系包实例包 图2 3c w m 元模型结构示意图 f i g u r e2 3t h es k e t c ho fc w m m e t a m o d e l 2 5 元数据管理系统的设计 2 5 1 元数据管理系统设计原则 元数据管理,从本质上讲,是将分散在数据仓库各个环节的、独立的元数据 元数据及其标准化模型 统一存储在元数据存储库中,并将各个元数据有机的联系在一起。因此,元数据 管理的目标是实现数据信息的管理,通过其一致性的集成使杂乱无章的数据信息 成为一个统一的整体。 由此可见,元数据管理的范围涉及数据仓库的整个环节,元数据管理系统架 构是与企业数据仓库架构并行的体系,因而元数据管理本身是一个完整的数据信 息管理系统,元数据管理的内容涵盖了从需求分析、功能定义到设计、开发、应 用、维护的整个过程。数据仓库环境下的元数据管理系统的建设是十分困难的。 但是在实际项目的实施过程中,这个环节又是非常重要的。当前情况下,o m g 组 织的c w m 标准将会成为数据仓库元数据领域事实上的标准,在元数据管理系统 的建立过程中应尽量参考这个标准,这样使系统的可扩展性增强。我们在建立元 数据管理系统的时候,绝对不能盲目追求大而全,要坚持目标驱动的原则,在实 施的时候要采取增量式、渐进式的建设原则【7 一】。具体的建设步骤包括以下5 个步 骤: ( 1 ) 定义元数据的需求:元数据是描述数据的数据,根据其属性可分为业务 元数据和技术元数据。元数据需求包括应用需求( 技术及业务需求) 和系统管理 需求两个部分。 ( 2 ) 实现元数据管理:元数据管理包括了元数据定义、元数掘集成、元数据 存储以及元数据变更四个部分。 ( 3 ) 实现元数据应用:元数据应用可分为元数据查询、报表、分析等三类应 用,按其功能可分为管理支持型应用和指导型应用。 ( 4 ) 系统管理:元数据系统管理包括数据安全管理、数据审计管理、用户权 限控管及审计管理。其中数据安全管理包括数据访问安全和数据自身安全( 备份) 。 ( 5 ) 系统运行维护:元数据运行维护包括设计和建立元数据维护体系和流程、 建立同步触发机制等。 可以看出,数据仓库系统的构建涉及到众多环节,从数据源系统、e t l 系统 到o d s 系统、数据模型系统,再到依赖性数据集市、前端应用系统等。要将分布 在这些环节的各自独立的元数据统一存储在元数据存储库中,并将各个元数据有 机的联系在一起,使用户能够方便的访问和使用,其过程不亚于建设一个数据仓 库。 总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原则, 建立符合自身目标的元数据管理系统。 2 5 2 元数据存储模式 北京交通大学硕士学位论文 元数据的存储模式是否合理是决定整个数据仓库元数据管理解决方案成败的 关键,它直接影响数据流动实现的自动程度和对基于其上的应用体系中信息需求 的满足程度。 简单地,元数据存储有两种形式【2 1 】:其一是以数据集为基础,即每个数据 集有一个对应的元数据文档,每一个元数据文件包含相应数据集的元数据内容。 另一种存在方式是以数据库为基础( 即元数据库) ,每一个数据库有一个元数据文 件,该文件为一表格数据,它由若干项组成,每一项表示元数据的一个要素,其 记录为每一个数据集的元数据内容。 两种存储方式各有优缺点,对于第一种存储模式,其好处是调用数据时其相 应的元数据也作为一个独立的文件被传输,相对数据库有较强的独立性,在对元 数据进行检索时可以利用数据库的功能实现,也可以将元数据文件调到其它数据 库系统中进行操作;其问题是,每一数据集都有一个元数据文档,那么在规模巨 大的数据库中则会有大量的元数据文件,管理上极为不便。在第二种存储模式中, 由于库中只有一个元数据文件,管理极为方便,添加或删除数据集只把该文件中 相应的记录项添加或删除即可,但如果想获取某数据集的元数据时,实际得到的 只是关系表格数据的一个记录,则要求数据用户使用的系统中可以接受这种特定 形式的数据。因此推荐使用元数据库的方式。 元数据库是用于存储元数据的地方,元数据库最好选用主流的关系数据库管 理系统,支持c w m 标准。一个元数据库还包含那些用于操作和查询元数据的机 制;建立元数据库的主要好处是提供了统一的关键数据结构和业务规则,易于将 企业内部的多个数据集市有机的结合起来;特别是,现在一些客户倾向建立多个 数据集市,而不是一个庞大无比的数据仓库。 元数据库为整个企业的宝贵信息提供了详细的记录,保存数据存储位置和商 业含义、生成和维护数据的主体、数据驱动的应用处理、与其它数据的关系以及 数据的转换过程等。元数据库保证了数据仓库数据的一致性和准确性,为企业进 行数据质量管理提供数据依据。 另外,元数据库还支持强大的查询和报表生成工具,用户使用报表工具可以 查询元数据库,从元数据库获得重要的决策支持信息。 2 6 本章小结 本章详细介绍了元数据的定义、作用和意义,讨论了数据仓库系统中元数据 管理的现状和关于元数据的标准化情况,描述了建立元数据管理系统的步骤和实 施方法,为阐明如何设计实现基于元数据的数据仓库任务调度系统提供理论基础。 1 4 工作流技术分析 3 1 引言 3 工作流技术分析 数据仓库系统中的数据具有一定的层次性,图3 1 描述了数据仓库系统中数据 之间的层次关系及其处理流程【3 】。从图中可以看出,处理分几个层次:第一,数据 处理层:它完成将数据从数据源抽取到数据仓库系统的基础数据中,基础数据经 过整理形成事实表,在事实表之上,根据用户的要求生成各个主题数据表。第二, 应用处理层:应用程序基于主题数据表,形成各种报表或经过汇总和聚集运算形 成企业的指标数据库。最后是信息发布层:用户利用该层中的工具存取数据仓库 中的数据。从这个层次关系会发现各级处理具有明显的先后时序关系。按照工作 流的基本概念,数据仓库系统中的各种处理过程以及他们之间的相互依赖关系构 成了一个工作流。 工作流是近年来迅速发展的一项技术,在各个领域被广泛利用。工作流是针 对企业同常活动中具有的固定程序或常规活动而提出的一个概念,是描述一个企 业或组织业务处理活动过程的模型,通过将业务活动分解成定义良好的任务、角 色、规则和过程来完成业务过程的执行和监控,达到提高生产组织水平和工作效 率的目的【1 4 】。 图3 1 数据仓库中的数据处理逻辑图 f i g u r e3 1t h el o g i co fd a t ap r o c e s s i n gi nd a t aw a r e h o u s e 北京交通大学硕士学位论文 3 2 工作流 3 2 1 工作流基本概念 工作流是从英文单词w o r k f l o w 中直译过来的,最直白的意思就是r 常工作中 相对固定的流程的计算机化。 成立于1 9 9 3 年8 月的工作流管理联盟( w o r k f l o wm a n a g e m e n tc o a l i t i o n ,w f m c ) 是一个非赢利性的国际性的标准化组织。它在工作流管理系统的相关术语、体系 结构及应用编程接口等方面制定了一系列标准。w f l v i c 定义了工作流最基本的术 副13 1 ,w f m c 给出的工作流定义是:工作流是在计算机的支持下,业务过程全 部或部分地实现全自动化或半自动化。它根据一系列的过程规则,使文档、信息 或任务能够在不同的执行者之间进行传递和执行。它们之间的关系如图3 2 所示。 子 业务过程 ( 例:将要做什么) 娠义在襁卸 过程定义 人:i :活动自动活动 ( 不作为i :作流系统的 一部分米管理) 统( 控制自 由实现 过程实例( 实际 发生的事例) 在执行时由代土 ( 分配给1 :作流参 调片j 应用 与者的任务) 图3 2r t 作流基本术语关系图 f i g u r e3 2t h er e l a t i o no fw o r k f l o wb a s i ct e c h n i c a lt e r m s 1 6 工作流技术分析 3 2 2 工作流模型 工作流模型包含了描述一个能够由工作流执行服务软件系统执行的过程所需 要的所有信息。这些信息包括过程的开始和完成、构成过程的活动以及进行活动 间导航的规则、用户所需要完成的任务、可能被调用的应用、工作流引擎的引用 关系,以及所有与工作流相关的数据的定义】。w f l v i c 定义了一个元模型( 如图3 3 所示) ,它包含了以下几个基本实体【2 0 】: 图3 3 工作流过程定义元模型图 f i g u r e3 3t h em e t a m o d e lo fw o r k f l o wp r o c e s sd e f i n i t i o n ( 1 ) 工作流定义( 过程模型) :业务流程的形式化描述,用来支持系统的建模 和运行过程的自动化。过程可分解为一系列的子过程和活动,它一般包含诸如工 作流模型名称、版本号、过程启动和终止的条件、条件安全、监控和控制信息等 一系列基本属性。 ( 2 ) 活动:实现过程逻辑步骤的工作任务的描述,一般分为手工操作和自动 处理两类。活动是过程执行中可被工作机调度的最小工作单元,主要属性有活动 名称、活动类型( 原子级活动、子流程等) 、活动的6 订、后条件、调度约束参数( 如 最长处理时间、排队等待时间等) 等。 ( 3 ) 转换条件:主要负责为过程实例的推进提供导航依据,主要参数包括工 作流过程条件( 实例向前推进的条件) 、执行条件( 执行某个活动的条件) 和通知条件 北京交通大学硕士学位论文 ( 通知不同用户的条件) 。转换条件对应于企业经营过程中的业务规则和操作的顺 序。 ( 4 ) 工作流相关数据:工作流机根据工作流相关数据和转换条件进行推进, 工作流相关数据的属性包括数据名称、数据类型和数据值等。它是工作流机执行 任务推进的依据。 ( 5 ) 角色:角色属性主要包括角色的名称、组织实体、角色的能力等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国广电毕节市2025秋招技能类专业追问清单及参考回答
- 安徽地区中石化2025秋招笔试提升练习题含答案
- 国家能源南平市2025秋招计算机与自动化类面试追问及参考回答
- 国家能源巴音郭楞自治州2025秋招面试专业追问及参考电气工程岗位
- 新闻传播学测试题及答案
- 葫芦岛市中石化2025秋招笔试行测专练题库及答案
- 汕尾市中石化2025秋招笔试英语专练题库及答案
- 2025年遗传咨询考试题及答案
- 中国移动玉林市2025秋招行业解决方案岗位专业追问清单及参考回答
- 国家能源绵阳市2025秋招面试专业追问及参考电气工程岗位
- 房地产中介居间服务合同5篇
- 童话中的英雄勇敢的小矮人作文10篇范文
- 康复科的科室介绍
- 公安校园欺凌课件大纲
- 人教PEP版(2024)四年级上册英语全册教案(单元整体教学设计)
- 2025年江苏省南京市中考历史真题卷含答案解析
- 2025-2026学年浙教版小学劳动技术一年级上册教学计划及进度表
- 甲状腺疾病课件
- 数控滚齿机操作指导手册
- 医保智能审核培训课件
- 2025年大学试题(大学选修课)-TRIZ创新方法历年参考题库含答案解析(5套典型考题)
评论
0/150
提交评论