




已阅读5页,还剩75页未读, 继续免费阅读
(计算机科学与技术专业论文)基于xmi的元数据交换技术研究及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于x mi 的元数据交换技术研究及其应用摘要数据仓库是一门新兴技术,正日益受到业界重视并带来了巨大效益。元数据是数据仓库的核心部分,是各种数据仓库工具间相互理解各自操作的基础。但是由于各大开发商采用不同的数据仓库元数据标准和管理策略,使得数据仓库的数据集成与共享十分困难。针对元数据的管理和交换问题,o m g 提出了相应的技术规范。c w m 技术是0 m g 组织提出的数据仓库元模型的规范。x m i 技术是o m g 组织提出的一种元数据交换的标准。遵照规范,本文详细阐述了c w m 的体系结构和x m i 文档的生成规则等。同时,作为c w m 和诬i 的重要相关技术,本文也简要地介绍了元数据技术和数据仓库技术。在研究和理解c 1 w m 和x m i 技术的基础上,本文开展了元数据应用与交换的研究。首先结合数据仓库项目实例,将项目中的一个数据仓库主题的构建流程,遵循c w m 元模型标准来进行设计;这样得到的是一种遵循标准的数据仓库设计方法,因为遵循c w m 规范设计的数据仓库具有相同的元模型结构。然后,再根据x m i 文档生成规则,实现u m l 模型到讧i 的转换程序;通过该转换程序,能够将模型元数据转换成适合交换的x m l 格式。关键词:数据仓库,元数据,c 眦,x m it h er e s e a r c ha n da p p u c a t i o no fm e t a d a t ai n t e r c h a n g et e c h n o l o g yb a s e do nx m id a t aw a r e h o u s ei san o v e lt e c h n o l o g y i th a sb r o u g h tg r e a tb e n e f i t sa n di t si m p o r t a n c ei sb e i i l g r e c o g l l i z e dm o r ea n dm o r e m e t a d a t ap l a yak e yr o l ei nd a t aw a r e h o u s eb e c a u s ei ti st l l ef o u n d a t i o no fc o m p r e h e n d i n gt h eo p e r a t i o n sb e t w nd i f 琵r e n tt o o l s h a w e v e f ,v e n d e f sn o w a d a y sa d o p td i f :i e r e n tm e t a d a t as t a n d a r d sa n dm e t a d a t am a n a g e m e n ts t r a t e g i e s ,w h i c hr e s u l ti nm u c hd i f f i c u l t yo fi n t e g r a t i n ga n ds h a r i n gm e t a d a t ai nd a t aw a f e h o u s e 砧m i n ga ts u c hm e t a d a t ap r o b l e m s ,o m gp u t sf o 刑a r ds o m ec o r r c s p o n d i i l gt e c h n i c a ls p e c i f i c a t i o n s c w mi sad a t aw a r e h o u s em e t a m o d e lc r i t e r i o nf r o mo m g a n dx m ii sam e t a d a t ai n t e r c h a n g es t a i l d a f dp u tf o n a r db y0 m g c 0 n f o 瑚i n gt ot h e s es p e c i f i c a t i o n s ,i h et h e s i se x p o u n d st h ea r c h i t e c t u r eo fc w ma n dt h ex m ig e n e r a t i o np r i n c i p l e s m e a n w h i l e ,a st h ei m p o r t a l l tc o r r e l a t i o nt e c h n o l o 垂e s ,t h et h e s i sa l s oi n t m d u c e st h et e c h n o l o g yo fm e t a d a t aa n dd a t aw a r e h o u s e o nt h eb a s i so fs t u d y i n ga n dc o m p r e h e n d i n gc v ma n dx m it e c h n o l o g i e s ,t h et h e s i ss t a r t st h er e s e a r c ho fm e t a d a t aa p p l i c a t i o na n dm e t a d a t ai n t e r c h a n g e f i r s t l y ,b yc o m b i n i n gad a t aw a r c h o u s ep r o j e c ti n s t a n c e ,i tr e d e s i g n st h ep r o c e d l l r eo fi m p l e m e n t i n gaw a r e h o u s et h e m eb yk e e p i n gt ot h ec 1 v ms p e c i f i c a t i o n t l l i sa c q u i f e sam e t h o do fd e s i g n i n gt h es t 卸d a r dd a t aw a r c h o u s e ,b e c a u s ew a r e h o u s e sb a s e do nc w mh a v et h es a m ei n e t a m o d e l s e c o n d l y ,b yf o l l o w i l l gt h ex m ig e n e r a t i o np r i n c i p l e s ,t h et h e s i sr e a l i z e sap r o 铲a mt h a tc a nc o n v e nu m lm o d e l si n t ox m id o c u m e n t s 1 飞u sb ym n n i n gt h i sp r o g r a m ,i tc a nt r a n s f o r m m e t a m o d e ld a t ai n t oxm if b r m a tw h i c hi sas t a n d a r di n t e r c h a n g ef o r m a t k e yw o r d s ;d a t aw a r e h o u s e ,m e t a d a t a ,c w m ,x m i独创性( 或创新性) 声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人签名:攀绛本人承担一切相关责任。日期:2 区;主二三2关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:日期:日期:移引亟二呈基于x m i 的元数据交换技术研究及其应用1 1 研究背景第一章绪论近年来,数据仓库日益受到业界重视,许多数据仓库工具已经投入使用,带来巨大效益。数据仓库技术是为解决企业信息集成、支持数据挖掘、支持企业决策而发展起来的新一代信息管理技术。数据仓库技术从逻辑上、物理上分布的多个数据库系统中抽取数据、集成信息,并将集成后的信息存储在一个大规模的数据仓库中。然而,这些数据库系统不仅结构和功能各异,而且种类繁多。因此,数据仓库技术首先要解决多个异种数据库系统的集成问题。其次,随着数据仓库技术的发展,各种数据仓库产品和工具曰益增多,必须寻找一条能够将各种数据仓库产品和工具有机结合在一起的途径,使其在建设数据仓库系统的过程中能够相互配合、协同工作。最后,在数据仓库项目的建设过程中,会涉及到各种各样的元数据,既包括描述各种数据源的数据字典和数据仓库的信息模型,也包括各种商业元数据。元数据是数据仓库环境的核心和灵魂,是各种数据仓库工具之间相互理解各自操作的基础。元数据被用在数据仓库的建设、管理、维护和使用等诸多方面。如何管理和利用好数据仓库中的元数据、如何使数据仓库中的元数据能够在不同的工具之间顺利地进行交换是数据仓库项目成败的关键。随着数据仓库市场的发展,在使用元数据的同时,业界出现许多数据仓库管理和分析的工具,各种工具使用不同的元数据标准来表示和处理,不同系统之间的迁移、数据交换变得越来越困难。当前市场上与元数据有关的主要工具见下图:北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其应用建使1 具:e r w 址p m v e r d e s l f。r os e前蠕展理工具:b 0b n oc 。鲫sd s s a 学m数据转拽工具:d n a s t a 挚d e c i s l o nb a s ee n r a c t元数据存话工具:r o p o s n o i ym 出茂a 拳w e c图卜1 当前市场与元数据有关的主要工具如图1 1 所示,与元数据相关的数据仓库工具大致可分为四类:数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中,如血d e m 的d a t a s t a g e 、c a ( 原p l a t i 肌m ) 的d e c i s i o nb a s e 和e t i 的e x t r a c t 等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。前端展现工具:包括o l a p 分析、报表和商业智能工具等,如m i c r o s t i 钲e g y 的d s sa g e m 、c o g n o s 的p o w e r p l a y 、b u s i n e s so b j e c t s 的b o ,以及b r i o 等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。如c a 的e r 、v i n 、s y s b a s e 的p o w e r d e s i g n e r以、r 砒i o n a l 的r o s e 等。元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库( m e t a d a t ar e p o s “o r y ) 的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的r e p o s i t o r y ,c a 的r e p o s i t o 叭a r d e n t 的m e t a s t a g e 和s y b a s e的w c c 等。但遗憾的是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式,它们提供的仅仅是对特定的局部元数据的管理。因此,数据仓库系统的元数据的管理和元数据交换已经成为非常迫切的需求;良好的元数据管理和交换才能促进数据仓库的更有效利用和进一步的升级发展。北京邮电大学硕士研究生学位论文2基于x m i 的元数据交换技术研究及其应用随着银行业务的迅速发展,数据仓库技术在银行系统中已经被广泛的应用,并且发挥着至关重要的作用。银行系统的数据量每天以几十m 甚至上百m 的数量增加,而年数据量则达到了几g 甚至几十g 。在如此大的数据量的情况下,数据仓库的设计以及元数据的管理与交换就显得十分的重要。1 2 国内外研究现状现实中元数据已得到了广泛的应用,并发挥着重要的功能,但在不同的场合下,元数据有其自身的表示格式和语义。而元数据最大的价值,在于它能够在系统所需的各种工具间起复制与协调的作用。比如以数据仓库目前的技术现状而言,需要备类工具的协同,包括:数据库设计与建模工具、数据的抽取、确认、变换和清洗工具、查询分析工具以及性能管理工具等等。为了使这些工具有效地协同工作,它们就必须对跨越不同环境的元数据能够共享。随着很多大企业着手构建第二代甚至第三代决策支持数据库,元数据以及由元数据所保证的互操作性就显得更为重要了。即随着对信息交换处理的需求,要求将这些元数据建立一个标准统一起来。而对于元数据的标准,从内容上,大致可分为两类:一是元数据建模,是对将来元数据的组织进行规范定义,使得在元数据建模的标准制定之后产生的元数据都以一致的方式组织,从而保证元数据管理的一致性和简单性:二是元数据交互是对已有的元数据组织方式以及相互间交互格式加以规范定义,从而实现不同系统元数据的交互。目前,主要有以下组织定义了元数据相关的规范。1 对象管理组织o m go m g ( 对象管理组织) 是独立于各厂商的非盈利性组织,其宗旨是统不同的商业产品和标准之间的数据交换及互操作性,从而改善各厂商的软件产品之间不兼容的情况。为此,o m g 为分布式对象计算的分析、设计、部署以及定义在具体企业中间件平台上的应用对象和应用组件等各个方面制定了开放的标准。m d a 及相关规范是o m g 组织继c o r b a 规范之后,为解决分布、异构系统的集成问题而提出的下一代解决方案。其中,m o f 是o m g 组织提出的一种元元模型,能够支持各种工具元模型的建模。遵循m o f 元数据标准,o m g 提出了通用数据仓库的元模型标准c w m 。c w m 规范是模型驱动架构及开发方法在数据仓库领域的应用,它旨在推动数据仓库、智能商务和知识管理方面元数据的共享和交换。遵循c w m 构建的数据仓库便具有一个相同的元模型规范,因而支持c w m 的数据仓库构建工具便能够相互交换结果元数据。基于m o f 模型,o m g 还定义出遵循该模型的元数据交换格式,即i 规范。这样支持x m i 规范的应用工具之间就能够相互交换元数据。2 元数据联合会m d c北京邮电大学硕士研究生学位论文3基于x m i 的元数据交换技术研究及其应用m d c 成立于1 9 9 5 年,是一个致力于建立与厂商无关的、不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,该联盟有1 5 0 多个会员,其中包括微软和i b m 等著名软件厂商。1 9 9 9 年7 月m d c 接受了微软的建议,将o i m 作为元数据标准。o i m 的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。它涉及了信息系统( 从设计到发布) 的各个阶段,通过对元数据类型的标准描述来达到工具和知识库之间的数据共享。o i m 所声明的元数据类型都采用统一建模语言u m l ( u i l i v e r s a lm o d e l i n gl a n g u a g e ) 进行描述,并被组织成易于使用、易于扩展的多个主题范围( s u b j e c ta r e a s ) ,这些主题范围包括:分析与设计( a n a i y s i sa n dd e s i g n ) :主要用于软件分析、设计和建模。该主题范围又迸一步划分为:u m l 包( p a c k a g e ) 、u m l 扩展包、通用元素( g e n e r i c e l e m e m s ) 包、公共数据类型( c o m m o n d a t a t v d e s )包和实体关系建模( e i n i t yr e l a t i o n s “pm o d e l i n g ) 包等。对象与组件( o b j ta n dc o m p o n e n t ) :涉及面向对象开发技术的方方面面。该主题范围只包含组件描述建模( c o m p o n e n td e s c r i p t i o nm o d e l i n g ) 包。数据库与数据仓库( d a t a b a s ea n dw 8 r e h o u s i g ) :为数据库模式管理、复用和建立数据仓库提供元数据概念支持。该主题范围进一步划分为:关系数据库模式( r e l a t i o n a ld a 幻a s es c h e m a ) 包、o l a p 模式( o l a ps c h e m a ) 包、数据转换( d a 诅t r a i l s f o m a t i o s ) 包、面向记录的数据库模式( i k c o r d o r i e n t e dd a t a b a s es c h e m a ) 包、x m l 模式( x m ls c h e m a )包和报表定义( r e p o nd e f i n m o n s ) 包等。业务工程( b u s i n e s se n g i n e e r i n g ) :为企业运作提供一个蓝图。该主题范围进一步划分为:业务目标( b u s i n e s sg o a l ) 包、组织元素( o r g a i l i z a t i o n a le l e m e n t s ) 包、业务规则( b u s i n e s sr l l l e s ) 包、商业流程( b u s i n e s sp r o c e s s e s ) 包等。知识管理( k n o w l e d 筘m a 腿g e m e n t ) :涉及企业的信息结构。该主题范围进一步划分为:知识描述( k n o w l e d g ed e s c r i p t i o n s ) 包和语义定义( s e m a m i cd e 伍_ l i t i o n s ) 包。上述主题范围中的包都是采用u m l 定义的,可以说u m l 语言是整个0 i m标准的基础。虽然o i m 标准并不是专门针对数据仓库的,但数据仓库是它的主要应用领域之一。目前市场上基于该标准的元数据管理工具已经比较成熟,例如微软的r e p o s t 时和c a 的r e p o s i 仃y 均采用了o v i 标准。3 微软的元数据交换标准一m i c r o s o f ir c p o s i t o r y北京邮电大学硕士研究生学位论文4基于x m i 的元数据交换技术研究及其应用1 9 9 8 年微软公司在发布其数据库产品s 0 ls e e r7 0 时同时发布了自己的元数据管理软件m i c r o s o f tr e p o s i t o r y2 o 。这个软件不仅支持u m l ( u n m e dm o d e l i n gl a n g u a g e ) ,而且支持开发工具动态读写元数据。由于这些特点,从趋势看,在元数据处理方面,m i c r o s o rr e p o s i t o r y 很可能发展成为既支持o l t p环境又支持决策支持环境的事实上的标准。与m d i s 不同,m i c r o s o f ir e p o s i t o r y是基于关系数据库的系统,因此元数据更新是作为基本事务加以处理的。另外,开发人员借助s q ls e r v e r7 o 的复制功能,可以使元数据在不同的数据库间保持同步。为了推动元数据标准化的发展,m d c 和o m g 在元数据标准的制定上协同工作。1 9 9 9 年4 月,m d c 成为0 m g 的成员,而o m g 也同时成为m d c 的成员。m d c 中使用了o m g 的u m l ,而m d c o i m 中的数据仓库部分被用来作为o m g 的公共仓库元数据交互( c w m i :c o m m o nw a r e h o u s em e t a d a t ai n t e r c h a i l g e ) 的设计参考。另外,m d i s 与m i c r o s o f ir e p o s r y 的相互开放已有很肯定的承诺。首先是m d i s 一方宣布,将支持m i c r o s o f tr e p o s i t o r y 作为扩展m d i s 标准的主要途径;微软也已宣布将保持自己的信息模型对m d i s 的开放性。在这些组织的技术力量的合作努力下,元数据标准将逐步一致化。本人在银行非现场稽核项目中,主要负责统计报表与分析展现部分的设计与开发。在项目的开发过程中,要用到许多工具,如e r w i n 、b r i o 和o r a c l e等,其中每种工具都涉及到了数据仓库中的元数据。但是由于每种工具使用不同的元数据标准来表示和处理,导致了元数据的不兼容和不交换的特性。因此,在项目的设计过程中,为了实现不同工具之间的元数据交换以及数据库在不同平台之间的迁移,采用了o m g 组织提出的公共仓库元模型( c o m m o nw a r e h o u s em e t 锄o d e l ) 和i 的思想来设计数据库中的表结构以及数据的抽取、转换和装载过程,解决了银行非现场稽核系统中的元数据的管理和交换问题。本文是c w m和x m i 思想在银行系统中的应用,是对c w m 和x m i 思想的进一步推广,在国内外还比较少见。1 3 主要研究内容本文首先给出了元数据的定义,介绍了元数据的作用以及分类。然后,探讨了元数据的标准化问题,详细介绍了o m g 组织提出的公共仓库元模型( c o m m o nw a r e h o u s em e t a m o d e l ) 的内容以及订i 规范的内容。在c w m 规范和x m i 规范的基础上,提出了基于c w m 的银行非现场稽核系统建模的思想,给出了具体的建模过程。然后,在c w m 模型的基础上,导出与模型对应的“l文件,并把它作为各个数据仓库工具进行元数据交换的基础。北京邮电大学硕士研究生学位论文5基于x m i 的元数据交换技术研究及其戍用本课题主要针对o m g 组织提出的c w m 和x m i 展开研究,深刻剖析c w m中的元模型,理解) ( 1 i 中元数据转换规则等相关理论,并对通用数据仓库元模型和元数据交换等方面进行研究与应用。1 4 论文结构本论文共分七章,组织结构如下:第一章为绪论部分,主要介绍了课题的研究背景和本文的主要研究内容。第二章为元数据基础理论阐述部分,详细介绍了元数据的定义、作用和分类,为进步讨论元数据的标准化奠定了基础。 第三章为c w m 基础理论阐述部分,简单介绍了c w m 的理论基础,包括整个m o f 模型的内容、o m g 元模型体系结构、用于规范元数据操作的i d l 映射标准;详细讨论了c w m 元模型以及组成c w m 的各个包之间的关系。 第四章为i 基础理论阐述部分,简单介绍了i 的重要性及其作用;系统地分析了订i 的d t d 和i 的模式产生规则以及ld o c 啪e n t产生规则。 第五章为c w m 应用部分,以银行非现场稽核系统为例,应用c w m 规范对其进行建模; 第六章为x m i 应用部分,简单介绍了x m i 的处理过程,然后对第五章建立的元数据模型进行x m i 标准格式化。第七章为结束语部分,总结已经完成的工作,并指出下一步的研究工作。北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其应用2 1 元数据的定义第二章元数据基本理论按照传统的定义,元数据( m e t a d a t a ) 【1 乩4 ,5 ,6 ,7 ,剐是关于数据的数据。对于元数据( m e t a d a 诅) 可以理解为比一般意义的数据范畴更加广泛的数据,它不再仅仅表示数据的类型、名称、值等信息,它进一步提供了数据的上下文描述信息,比如数据的所属区域、取值范围、数据间的关系、业务规则甚至是数据的来源。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据,因此,元数据是描述数据仓库内数据的结构和建立方法的数据。2 2 元数据的作用数据仓库的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,o l a p 分析和数据挖掘等。它的典型结构由操作环境层、数据仓库层和业务层等组成,如图2 1 所示:卉业务竞数据图2 1 数据仓库系统的一般体系结构其中,第一层( 操作环境层) 是指整个企业内有关业务的o l t p 系统和一北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其应用些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面:【1 ( 1 ) 元数据是进行数据集成所必需的数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中:另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。( 2 ) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。( 3 ) 元数据是保证数据质量的关键数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心:当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的基础上引入质量维,从更高的角度上来解决这一问题。( 4 ) 元数据可以支持需求变化随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其应用2 。3 元数据的分类元数据按用途的不同分为两类:技术元数据【i 】( t e c h i l i c a lm e t a d a t a ) 和业务元数据( b u s i n c s sm e t a d a t a ) 。技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息:具体包括以下信息: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和s q l 语句的业务人员对数据仓库中的数据也能做到心中有数。多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。北京邮电大学硕士研究生学位论文基于x m l 的元数据交换技术研究及其应用3 1c w m 理论基础第三章c w m 基本理论公共仓库元模型( c o m m o nw 盯e h o u s em e t a m o d c l ) 1 】的主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2 0 0 1年3 月,o m g 颁布了c w m1 o 标准。c w m 模型既包括元数据存储,也包括元数据交换,它是基予以下三个工业标准制定的:( 1 ) m o f ( 元对象设施) :它是0 m g 元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口。( 2 ) u m l :它对c w m 模型进行建模。( 3 ) “i ( l 元数据交换) :它可以使元数据以l 文件流的方式进行交换。0 m g 元数据知识库体系结构如图3 1 所示:3 1 1 元对象设施m o f图3 1o m g 的元数据仓储体系结构元对象设施规范m o f 【8 ,1 5 ,2 0 】是被0 m g 组织采纳用于定义元数据、并将其表示为c o r b a 对象的规范。m o f 定义了一种抽象语言和一个框架,用于详述、构造和管理技术无关的元模型。首先,m o f 定义了一个通用的元模型,为m d a 提供标准建模、交换构造块,o m g 的所有建模规范( 包括m o f 本身) 都是依据此元模型定义的。这使得起源相同的各种规范能够很好地配合、协同工作。元模型实际上是一种用于描述各种元数据的抽象语言。m o f 为元数据的交换和互通提供公共基础。北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其应用其次,m o f 还定义了一个框架,将用元模型描述的元数据存储在仓库中。此框架用标准技术映射将m o f 元模型转变为元数据a p i ,为不同厂商和不同实现技术提供了一致的、可互操作的元数据仓库a p i ,以便能够在应用开发的整个生命周期中操纵元数据。如,m o fi d l 映射已经将m o f 元元模型和u m l 元模型转变为表示m o f 元模型和i h v i i ,模型的c o i 也aa p i 。目前,在m o f l 4 规范中,这些接口还是用c o i 也a i d l 定义的,但j c p ( j a v a c o m m l l i l i t v p r o c e s s )组织已经将其扩展到j a v a ,定义了从m o f 到j a v a 的映射j m i 。这里主要以m o f l 4规范为准介绍m o f 。m o f 规范包括:m o f 元元模型的形式化定义,即:一种用于描述m o f 元模型的抽象语言;从任意m o f 元模型到c o r b ai d l 的映射,用于生成管理各种元数据的i d l 接口;反射c 0 l u j ai d l 接口集,用于管理独立于元模型的元数据;c o r b ai d l 接口集,用于表示和管理m o f 元模型:v i i 格式,用于m o f 元模型交换。m o f 支持可以用对象建模技术描述的任何种类的元数据。元数据不仅可以描述系统的各个方面和系统中所包含的信息,而且还可以依据系统对元数据的不同需求在不同层次、不同约束程度上描述元数据。“模型”通常是指对现实世界中某些事物的描述。模型是一个相对的概念:同一事物,从不同的角度看,会有多个不同的模型。在m o f 环境中,模型一词的含义更为宽泛。模型可以是任何与下述方面有关的元数据的集合:元数据描述信息;元数据有通用的抽象语法规则,管理其结构和一致性;元数据在一个公共语义框架下有确定的含义。因为元数据本身也是一种信息,所以,元数据应该也能够被其他元数据描述。在m o f 术语中,描述元数据的元数据被称为元元数据,由元元数据组成的模型称为元模型。在m o f 中,有一种非常重要的元数据,即m o f 元模型。在模型的m o f表示法中,m o f 元模型定义了元数据的抽象语法。通常,系统中会存在各种各样的元数据,所以m o f 框架需要支持许多不同的m o f 元模型。通过定义一种用于定义元模型的抽象语法,m o f 集成了这些元模型。这种抽象语法被称为m o fm o d e l ,也就是元模型的模型( 元元模型) 。m o f 元数据框架通常分为四层,如3 2 所示:北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其应用元层m o f 术语示倒m 3元元模型m o f 模型元元数据u m l 元模型m 2元模型c w m 元模型等元数据u m l 模型m 1模型数据仓库模式等要建模的系统m 0数据数据仓库数据库等图3 _ 2 典型的0 m g 元模型体系结构对于m o f 元数据的术语,需要明确以下几点:为了便于理解,按照事物在元栈中的层次进行划分,例如:m o f m o d e l是四层栈中的m 3 层模型;前缀“元”是个相对概念,而不是绝对概念;与此类似,元层的编号也不是绝对的;虽然典型的基于m o f 的元数据栈是四层,但实际的层次可多可少。m o f 规范主要由以下三部分组成:m o fm o d c l 、m o fi d l 映射和m o f 接3 1 1 1m o fm o d e lm o fm o d e l 是m o f 内置的元元模型。u m l 元模型是定义u m l 模型的抽象语言,与此类似,m o fm o d e l 是定义m o f 元模型的抽象语言。虽然u m l和m o f 的设计目的不同:u m l 用于对象建模,m o f 用于元数据建模,但在通用建模概念上,m o fm o d e l 与i 订i ,元模型的核心有着紧密的联系。我们完全可以用u m l 符号来表示基于m o f 的元模型。m o fm o d e l 提供三种主要的建模构造块:类、关联和包。这些概念和u m l 中对应的概念类似,但进行了适当的简化。另外两个重要的建模构造块是:数据类型和约束。数据类型允许参数和属性使用非对象类型。在m o f 规范中,它们必须是能够用c o r b ai d l 描述的数据类型或接口类型。在m o f 元模型中,约束表示元素间的语义限制,为由元模型描述的元数据定义规则。虽然任何语言都可以用来表达约束,但推荐使用形式化的语言,如i m ,的对象约束语言( o c l ) 。用形式化的语言描述约束,不仅能消除二义性,而且有助于实现模型间的自动映射。北京邮电大学硕士研究生学位论文1 2基于x m i 的元数据交换技术研究及其庶用3 1 _ 1 2m o fi d lm o fi d l 映射是模板的标准集合,用于将m o f 元模型转换为相应的c o r b ai d l 接口集。如果映射的输入是某种元数据的元模型,那么得到结果就是代表这种元数据的c o r b a 对象的i d l 接口。通常,通过所得的i d l 接口访问存储在元数据仓库中的元数据。m o f 元模型中的元素( m 2 层实体) 和代表元数据( m l 一层实体) 的c o r b a对象之间的主要映射包括:元模型中的类映射为一个代表多个元数据对象的i d l 接口和一个元数据类代理的i d l 接口。这些接口支持元模型中定义的属性、操作和引用;在存在类代理的情况下,还为元对象提供一个工厂操作。元模型中的关联映射为一个元数据关联代理的接口,支持关联的查询和更新。元模型的包映射为一个元数据包代理的接口。包代理作为此包中所含的类代理和关联代理的容器。映射产生的i d l 定义应该非常明确,这样,不同厂商的m o f 实现就能从同个m o f 元模型生成标准、一致的仓库接口。同时,所得接口的语义规范使各元对象间能够顺利交互。除了由i d l 映射得到的代表元数据的元模型接口外,m o f 元数据对象还共享基于反射的公共接口集。这些接口允许一个普通的客户端程序既不需要依据元模型进行i d l 编译,也不需要使用c 0 r b a 的动态调用接口,就能访问和更新元数据。3 1 1 3m o f 接口m o f 接口是为代表m o f 元模型的c o r b a 对象而生成的i d l 接口集。虽然对使用图形化编辑器、编译器和生成器等工具访问m o fm o d c l 仓库的元数据建模者来讲,这些i d l 接口并没有太大的价值,但是,对于开发m o f 工具的厂商和使用反射接口访问元数据的编程者来说,这些i d l 接口却是非常有意义的。在m o f 规范中,m o fm o d e l 是用m o fm o d e l 作为它自己建模语言来定义的;也就是说,m o fm o d e l 是元数据栈的“顶点”。从概念上讲,m o fm o d e l 是m 3 一层的元数据,这些m 3 层的元数据应该是由一个与m o fm o d e l 同构的更高层( 相当于m 4 层) 元模型定义的。这个m 4 层元模型使用i d l 映射生成m o fm o d e l 的i d l 接口。与此类似,m o fm o d e li d l 的操作语义是由m o fm o d e l 规范中的映射和0 c l 约束定义。北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其鹰用3 1 2 统一建模语言u m l统一建模语言( u m l ) 【l 啦2 j 是一个通用的可视化建模语言,用于对软件进行描述、可视化处理、构造和建立软件系统制品的文档。它记录了对必须构造的系统的决定和理解,可用于对系统的理解、设计、浏览、配置、维护和信息控制。u m l 适用于各种软件开发方法、软件生命周期的各个阶段、各种应用领域以及各种开发工具,u m l 是一种总结了以往建模技术的经验并吸收当今优秀成果的标准建模方法。3 1 2 1u m l 的定义作为一种建模语言,u l 咀。定义包括u m l 语义和u m l 表示法两个部分:【1 6 】1 u m l 语义描述基于u m l 的精确元模型定义。元模型为u m l 的所有元素在语法和语义上提供了简单、致、通用的定义性说明,使开发者能在语义上取得一致,消除了因人而异的最佳表达方法所造成的影响。此外u m l 还支持对元模型的扩展定义。2 u m l 表示法定义u m l 符号的表示法,为开发者或开发工具使用这些图形符号和文本语法为系统建模提供了标准。这些图形符号和文字所表达的是应用级的模型,在语义上它是u m l 元模型的实例。3 1 2 2u m l 的组成标准建模语言u m l 的重要内容可以由下列五类图( 共9 种图形1 来定义:6 】第一类是用例图,从用户角度描述系统功能并指出各功能的操作者。第二类是静态图( s t a t i cd i a 鲥衄) ,包括类图、对象图和包图。其中类图描述系统中类的静态结构。不仅定义系统中的类,表示类之间的联系如关联、依赖、聚合等,也包括类的内部结构( 类的属性和操作) 。类图描述的是一种静态关系,在系统的整个生命周期都是有效的:对象图是类图的实例,几乎使用与类图完全相同的标识。他们的不同点在于对象图显示类的多个对象实例,而不是实际的类。一个对象图是类图的一个实例。由于对象存在生命周期,因此对象图只能在系统某一时间段存在;包由包或类组成,表示包与包之间的关系。包图用于描述系统的分层结构。第三类是行为图( b e h a v i o rd i a g r a m ) ,描述系统的动态模型和组成对象间的交互关系。其中状态图描述类的对象所有可能的状态以及事件发生时状态的转移条件。通常,状态图是对类图的补充。在实用上并不需要为所有的类画状态图,仅北京邮电大学硕士研究生学位论文基于x m i 的元数据交换技术研究及其应用为那些有多个状态其行为受外界环境的影响并且发生改变的类画状态图;活动图描述满足用例要求所要进行的活动以及活动间的约束关系,有利于识别并行活动。第四类是交互图( i m e r a c t i v ed i a g r a m ) ,描述对象问的交互关系。其中顺序图显示对象之间的动态合作关系,它强调对象之间消息发送的顺序,同时显示对象之间的交互;合作图描述对象间的协作关系,合作图跟顺序图相似,显示对象间的动态合作关系。除显示信息交换外,合作图还显示对象以及它们之间的关系。如果强调时间和顺序,则使用顺序图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人才日活动策划方案模板
- 东莞入企咨询方案
- 传媒艺考活动策划方案
- 水产养殖行业技术规范总结
- 软件著作权转让协议
- 2025结构工程师检测卷(历年真题)附答案详解
- 2025国家统一法律职业资格考试考试真题及答案
- 中考语文小说阅读赏练-梁晓声小说(含解析)
- 诚信与谎言话题作文(13篇)
- 2025计算机一级考前冲刺练习试题及完整答案详解(夺冠系列)
- 楷书毛笔课件
- 急危重症患者的抢救应急处理预案及流程
- 班主任基本功大赛评分标准
- 额窦手术课件
- 电梯井道圈梁加固工程施工方案
- 流感疫苗项目市场营销策略方案
- 财务代理记账报税合同模板
- HY_T 0330-2022 海滩养护与修复工程验收技术方法
- 十四条经络养生课件
- 清洁生产的实施途径
- 钢结构厂房监理实施细则
评论
0/150
提交评论