




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)元数据模型在数据统一平台中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 目前开发e t l 系统的过程中,存在着一些问题,其中最典型的就是元数据 管理混乱的问题。针对这个的问题,本文提出了一种基于公共仓库模型( c o m m o n w a r e h o u s em e t a m o d e l ,简称c w m ) 开发e t l 系统的思想。 本文首先分析了元数据在数据仓库系统中的作用,明确了元数据对e t l 过 程的控制作用。然后,研究了c w m 的内容,分析了数据统一平台的架构,在此 基础上,提出了基于c w m 对u d i p e t l 过程进行建模的设计思想,并且描述了具 体的设计过程。然后构建了u d i p e t l 的元数据管理架构并实现了架构中的元数 据获取、元数据库和元模型。 关键词:元数据,公共仓库元模型,元数据管理,数据统一平台 a b s t r a c t t h e r ea r es o m ep r o b l e m sa tt h ep r o c e s so fd e v e l o p i n ge t ls y s t e m o n eo ft h e m o s tt y p i c a lp r o b l e m si st h ec o n f u s i n gm a n a g e m e n to fm e t a d a t a a sf o rt h i s p r o b l e m ,a n e wi d e ai s p r o p o s e df o rd e v e l o p i n ge t ls y s t e m - - t h e e t l s d e v e l o p m e n tb a s e do nt h ec w m i nt h i sa r t i c l e ,f i r s t l yt h ef u n c t i o no fm e t a d a t ai sa n a l y z e di nt h ed ws y s t e m , a n dt h ec o m m a n d e r sr o l eo fm e t a d a t ai sc o n f i r m e di nt h ee t l s e c o n d l y , t h e c o n t e n t so fc w ma r er e s e a r c h e da n dt h ef r a m e w o r ko fu n i f i e dd a t ai n t e r c h a n g e p l a t f o r m i s a n a l y z e d t h e n ,o u ri d e ao fd e s i g n i n gt h eu d i p _ e t lp r o c e s si s p r o p o s e do nt h eb a s i so ft h ec w m f u r t h e rm o r e ,m e t a d a t am a n a g e m e n tf r a m e w o r k i s d e s i g n e d ,a n dm e t a d a t aa c q u i r e m e n t ,m e t a d a t a b a s e a n dm e t a m o d e la r e i m p l e m e n t e d z h c n gy i ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f c h e ns h e n g j i a n k e yw o r d s :m e t a d a t a ,c o m m o nw a r e h o u s em e t a m o d e l ,m e t a d a t am a n a g e m e n t , u n i f i e dd a t ai n t e r c h a n g ep l a t f o r m 声明 本人郑重声明:此处所提交的硕士学位论文元数据模型在数据统一平台中的应 用,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得 的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 学位论文作者签名:差里鳖 日期:盟! 生 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件:学校可以采用影印、缩印或其它复制手 陵复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:知哎导师签名: 日 期:竺! :型。 日期 华北电力大学硕士学位论文 1 1 课题研究背景 第一章引言 随着科技的发展,企业信息化进程的不断深入,企业应用范围的不断扩展,应 用子系统的不断增加,各种数据库产品的更新换代等,使企业在不同时期,不同背 景下开发出来的事务处理系统往往是面向不同应用的,由不同的开发商来完成,其 数据的存储结构,存储平台和系统平台具有很大的异构性。各个数据库之间没有有 效的信息交流和共享手段,形成了一个个信息孤岛。现代化企业管理,要求管理者, 尤其是企业领导,要及时了解和掌握企业运行的全面信息。企业的管理信息系统应 当也必须能够提供完整和全面的信息,而不是仅提供一些零碎的数据。这样如果企 业想要得到某个主题的数据,就只能从各个分散的数据库中寻找,造成重复劳动和 信息资源的浪费,直接影响企业整体效率的提高,无法满足国际竞争以及企业发展 战略对信息系统的要求所以企业需要构建专门支持决策的数据仓库,建立一种体 系化的数据存储环境,将分析决策所需的大量数据从传统的操作系统中分离出来, 使分散、不一致的操作数据转换为集成、统一的信息。然而,这个工程并非易事, 企业需要一个全面地解决方案来解决数据的一致性和集成化问题,并利用一个单一 的解决方案对其进行高效地转换,解决方案有很多种,例如对原有系统进行改造, 使其达到信息共享的目的,但是这样可能造成原有系统不能正常使用,共享效果不 佳,而且改造费用非常昂贵。应该使用更高效,简洁的方案一数据统一平台。 数据统一平台就是要实现不同地域不同数据库之间的信息交流,把异构数据库 中对于企业分析决策有用的数据提取出来,进行必要的转换,存储到一个中央数据 库中,建立数据仓库。这样可以在不改变原有应用子系统的情况下,实现各个应用 系统之间的信息共享,消除信息孤岛。既保证了原有系统的正常运行,减少系统改 造的消耗,又能实现系统之间的信息交流,充分满足企业管理人员和企业领导的应 用需求。 而在构建数据仓库的过程中,数据的抽取、转换、加载过程,需要相应的抽取、 转换、加载规则,数据统一平台的调度、日志等系统管理也要相应的规则,这些都 需要元数据的支持,所以元数据模型的设计至关重要,它描述了整个系统的技术细 节,能有效地提高系统的可适用度和可扩展性,便于信息交换。 华北电力大学硕士学位论文 1 2 国内外研究动态 1 2 1 元数据的发展 在2 0 世纪6 0 年代,使用b 一树和b + 树来管理文件系统的方式已经出现,在这 样的系统中,元数据描述了结点记录的格式,例如记录的字段名、类型等就是一种 元数据在2 0 世纪7 0 年代,数据库管理系统( d b m s ) 的出现,元数据的应用急速增 长。元数据用来定义数据库表的结构,例如关系数据库中的关系、实体、属性以及 键和域信息等。在2 0 世纪8 0 年代,随着使用d b m s 存储和访问简单数据类型的成 功应用,越来越多更复杂的数据类型出现了,这些类型来源于不同的应用领域,例 如c a d c a m 、c a s e 、g i s 、文档存取等。计算机系统管理的数据已经发展为资源的集 合。资源与现实世界更接近,其存储也更复杂,一般采用面向对象的数据模型。相 关的元数据则记录了类的定义和类之间的关系。类的定义包括了类的属性和方法, 类之问的关系包括了聚合、整体与部分、泛化等关系。2 0 世纪9 0 年代,元数据在 三个方面向前发展。一个方面是元数据应用在软件开发的代码重用技术中。一方面 数据仓库技术大量应用元数据。另一个发展方向是元数据应用在知识库中,知识库 可以说是一个元数据的管理者。2 l 世纪开始,元数据在标准方面取得了较大的发展。 其中公共仓库元模型( c o m m o nw a r e h o u s em e t a m o d e l ) 在2 0 0 0 年由o m g ( o b j e c t m a n a g e m e n tg r o u p ) 提出,该规范提供了一个描述数据源、数据目标、转换、分析、 处理、操作等用于建设和管理数据库相关信息的元数据基础框架,并为在多个厂商 的产品之间进行元数据共享和通信提供了一个可行的标准“1 。 1 2 2 元数据管理模型研究现状 随着企业越来越多的建立和使用数据仓库,数据仓库中的关键技术元数据 管理的重要性日益增大。为了成功的实施数据仓库,国内外的许多研究机构和大学 都在进行元数据管理模型的研究,已经提出的有基于通用网关接口的元数据管理模 型叫、基于z 3 9 5 0 协议的元数据管理模型嘲、基于知识库的元数据管理模型耵、基 于c 删的元数据管理模型嘲等。 1 2 2 1 基于c g i 通用网关接口的元数据管理模型 c g i ( c o m m o ng a t e w a yi n t e r f a c e ) ,是连接网页与w e b 服务器中的执行程序的 桥梁,把h t m l 接收的指令传递给服务器,再把服务器执行的结果返还给h t m l 页面。 用c g i 可以实现数据库查询。基于c g i 的层次结构,采用了c g i 通用网关的接口来 实现数据仓库中元数据的管理。其管理模型实现逻辑结构图如图1 i 所示。 2 华北电力大学硕士学位论文 1w 曲浏览器i t c p i p ih m w e b 服务器 l 。鲻p 。肿:委兰罴坩胁;帆, l 元数据数据库引擎 南卤击 图1 1 基于c g i 的元数据管理模型实现逻辑结构图 基于c g i 的元数据管理模型通常采用c 或p e r l 绽程语言,利用活动服务器页 面a s p 和i s a p i 或n s a p i 接口以及c o l d f u s i o n 开发环境。基于元数据的城市空间 数据互操作技术研究“中对于城市数字化空间元数据管理采用了这种模型。北京理 工大学的王建芬博士应用这种模型实现了气象部门数据仓库元数据管理系统”。但 采用基于c g i 的元数据管理模型实现的系统,不能跨平台,在与用户交互时存在缝 隙,使黑客有可乘之机,性能方面也有待提高。 1 2 2 2 基于z 3 9 5 0 协议的元数据管理模型 z 3 9 5 0 协议( a m e r i c a nn a t i o n a ls t a n d a r d i n f o r m a t i o nr e t r i e v a l a p p l i c a t i o ns e r v i c ed e f i n i t i o na n dp r o t o c o ls p e c i f i c a t i o nf o ro p e ns y s t e m i n t e r c o n n e c t i o n ) 最早在1 9 8 4 年提出,1 9 8 8 年通过了第一版,经过修改,相继于 1 9 9 2 年推出了第二版,1 9 9 5 年推出了第三版,下一代版本z i n g 正在制定中。z 3 9 5 0 是由美国国家信息标准化组织( n i s o ) 实现的用于在线数据库摘要信息检索的美国 国家标准,是基于i s o 的o s i 参考模型的应用层协议。它采用客户服务器模式面向 连接实现i n t e r n e t 远程查询和检索。 z 3 9 5 0 协议定义了i n t e r n e t 互连系统间实现数据库检索和记录获取过程中必 须遵循的规则。z 3 9 5 0 客户端负责与z 3 9 5 0 服务器端的搜索建立,发送查询,提 出数据返回要求和结束搜索会话等,而z 3 9 5 0 服务器端响应客户端请求,对客户 端系统内的数据库进行操作并返回结果。基于z 3 9 5 0 协议的元数据管理模型的实 现逻辑结构如图1 2 所示。 3 华北电力大学硕士学位论文 图1 2 基于z 3 9 5 0 协议的元数据管理模型的实现逻辑结构图 这种模型在发达国家的图书馆自动化系统中获得应用,如美国国会图书馆刀, 大学图书馆鲫,通过应用该模型实现虚拟联合,对4 5 0 多家单位的书目进行查询。 国内很多图书馆系统也应用了此模型隐伽。但是z 3 9 5 0 采用r p n 的检索表达式, a s n i 的传输方式,复杂的属性集支持,抽象的记录语法,所以比较复杂,而且它 直接通过t c p i p 协议传输,进行有状态、确认性的连接,不符合w e b 方式的发布。 1 2 2 3 基于知识库的元数据管理模型 基于知识库的元数据管理模型将符合开放式信息模型规范的信息模型存入知 识库中;需要元数据时,从知识库中读取:通过c o m 接口或x m l 与工具和应用程序 传递元数据;通过x m l 在不同平台,工具和应用程序间导入和导出元数据。基于知 识库的元数据管理模型的实现逻辑结构如1 3 所示。微软公司推出的与其s q l s e r v e r2 0 0 0 紧密集成的m e t a d a t as e r v i c e s 架构就是以这种模型为基础的。这 种管理模型无论对于简单的环境还是比较复杂的环境,都需要有一个元数据管理标 准或元数据交换格式标准。 4 华北电力大学硕士学位论文 圈1 3 基于知识库的元数据管理模型的实现逻辑结构图 1 2 2 4 基于c w m 的元数据管理模型 元数据管理的关键是统一标准问题。在没有统一标准的情况下,各公司的元数 据管理解决方案各不相同。近几年,随着元数据联盟m d c ( m e t ad a t ac o a l i t i o n ) 的开放信息模型o i m ( o p e l ii n f o r m a t i o nm o d e l ) 和o m g 组织的公共仓库模型c w m ( c o m m o nw a r e h o u s em o d e l ) 标准的逐渐完善,以及m d c 和o m g 组织的合并,为数 据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。 c w m 是用来对数据仓库中的元数据进行建模的规范,它为数据仓库的元数据定 义了对应的元模型,同时也是多层系统、异构系统问元数据实例交换的基础。它代 表了基于模型的在软件系统间交换元数据的一种新途径。文献”1 分别对基于c w m 的元数据管理系统中数据交换格式,元数据管理系统以及c w m 元数据模型进行了研 究。但是目前各数据库厂商提供的数据仓库产品对统一的元数据标准支持很弱。 对于元数据管理,尽管有以上的模型指导应用,但在应用中仍然存在困难,现 有的各个解决方案中都没有明确提出一个完整的管理模式,它们提供的仅仅是对特 定的局部元数据的管理。本文参照c w m 的元数据管理模型,提出了针对数据统一平 台的元数据管理模型。 华北电力大学硕士学位论文 1 3 课题主要研究内容 本课题首先对c w m ( 公共仓库元模型) 进行了系统的研究,分析了c w m 在i s c ( 信息供应链) 中的作用;然后对u d i p ( 数据统一平台) 进行了分析和研究,指出 u d i p 在i s c 中所处的位置,提出基于c 删的针对u d i p 的建模方法;制定了u d i p 的 元数据管理方案,并基于c w m 对u d i p 建模,设计了元数据库和元数据的获取模块。 本文共分为六个部分:第一章论述了课题的研究背景,综述了元数据和元数据 管理模型的研究动态;第二章给出元数据的定义,分析了元数据存在的意义和作用, 对标准化元数据模型c 删进行系统的研究,并分析了c w m 在i s c 中的作用;第三章 对u d i p ( 数据统一平台) 进行了分析和研究,提出基于c w m 的针对u d i p 的建模方 法;第四章在对元数据管理必要性和重要性分析的基础上,参照已有的元数据管理 模型,构建了u d i p 的元数据管理模型;第五章我们基于c w m 为u d i p 建模,并根据 模型完成了元数据库的设计,设计了元数据获取模块。第六章对本文的研究工作进 行了总结和展望。 6 华北电力大学硕士学位论文 第二章元数据及其标准化模型 2 1 数据仓库元数据 2 1 1 元数据的定义和分类 元数据是关于数据的“数据”。在汉英词典上对数据的定义:科学实验、检验、 统计等所获得的和用于科学研究、技术设计、查证、决策等的数值。然而,这些数 值要想成为有用的信息,就需要元数据这个桥梁”。在数据仓库系统中,除了基础 数据就是元数据,有的人甚至把元数据比喻为数据仓库系统的d n a ,它定义了其它 元素的功能和属性。有了元数据我们就可以更好的理解、管理和使用企业所拥有的 数据。在现实生活中我们也经常用到元数据,比如,去图书馆借书时,首先要根据 图书目录来查找自己想要的图书,然后再根据查询到的书号到相应的位置提取所需 的图书。在这个过程中,我们在两个地方用到了元数据,其一是图书目录,它是关 于图书的索弓i “数据”,是关于图书的元数据;其二是图书的书号,它同样也是关 于图书的元数据。元数据的分类方法有很多种,分别依照不同的分类标准。如可以 把元数据分为前仓元数据和后仓元数据,广义元数据和狭义元数据,技术元数据和 业务元数据等,目前公认的分类方法倾向于将元数据分为两种:技术元数据 ( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) ”。技术元数据 是关于数据仓库系统技术细节的元数据,它主要包括:数据的逻辑模型和物理模型; 数据仓库中的表名、字段名等属性;数据仓库与数据源之间的对应关系和相应的转 换规则;在线分析处理( o l a p ) 所用到的维和汇总数据;用户及安全管理等等。技 术元数据的使用对象是数据库管理员和开发数据仓库系统的工作人员“。业务元数 据是为了保证用户能够正确、方便地使用数据仓库系统,主要用来提供系统和最终 用户之间的语义层,包括:最终用户的业务术语所表达的数据模型、对象名和属性 名;访问数据的原则和数据的来源;面向主体的分析模型、方法、公式、报表信 息等等。业务元数据的使用对象是最终的用户“。 2 1 2 元数据与基础数据分离的意义 元数据和基础数据分离的过程贯穿从文件系统到数据仓库技术的发展历程。早 期的事物处理系统,数据的定义和维护都在程序内部实现,作为一个逻辑和目标完 整的程序包,不必实现系统之间、程序之间及系统程序之间的共享。并且,由于当 时的计算机在物理上完全分离,计算机之间数据传递非常困难,对系统之间的协同 工作要求并不多。 随着数据量的增大,程序和数据相互依赖的不灵活性表现得越来越严重,致使 7 华北电力大学硕士学位论文 程序的开发和维护的费用增高,于是出现了数据和程序的分离。数据单独存放在数 据文件中,在一定程度上实现了元数据和基础数据的分离,这时的元数据和程序结 合在一起,用来定义数据结构、完成数据存取操作和有效管理数据文件的功能的程 序代码。这种元数据和基础数据的分离在一定范围内解决了同一商业问题的多个程 序使用同一数据集问题。 通过元数据管理数据文件,虽然部分解决了操作灵活性的问题,但另外的问题 应运而生如:数据冗余、数据安全性差等,此外,尽管程序和基础数据实现分离, 但还和元数据结合在一起,数据结构或存取文件的任何变化都将引起程序代码的改 变。六十年代末出现的数据库管理系统( d b m s ) ,解决了传统文件组织所产生的问 题:数据冗余、并发操作,实现了元数据和程序的分离。 为了对单独存放的数据文件中的数据直接进行查询、管理,实现数据重用、共 享,发展了数据库的概念,各种数据库管理系统( d b m s ) 能够有效的存取和操作大 量数据。d b m s 中用元数据描述数据结构的信息,如实体关系模型、属性名、属性 的数据类型等信息。在d b m s 中,元数据单独存储在数据文件中,如f o x p r o 中扩 展名为“c d x ”的文件存放元数据信息,在这一阶段,元数据的结构相对简单,功 能比较单一。 随着数据库技术发展,尤其是关系数据库模型理论的成熟,各商家纷纷推出自 己的数据库管理系统。这些数据库管理系统在企业中得到广泛应用,由于各企业甚 至是同一企业的不同部门所采用的数据库平台存在很大差异,所定义的数据格式和 编码方式各异。在这种环境下,企业决策者要想得到企业全局的决策信息是十分困 难的。另一方面,为了进行有效的决策,决策信息不仅应该是全面的还应该是完整 的,即决策者不仅需要当前的数据,还需要过去的历史数据,才能完成各种复杂分 析,如趋势预测和数据挖掘,以及支持决策,这种需求导致o l t p 系统和o l a p 系 统及其支持环境的分离。 w i l l i a mi n i n o n 提出数据仓库的描述“:“一个数据仓库通常是一个面向主题 的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策 提供支持。”i n m o n 的定义概括了数据仓库的几个特点:面向主题的、集成的、稳定 的、历史数据的集合,同时这位数据仓库之父也指出:元数据将不再是信息处理系 统的小字辈:“m e t a d a t aw i “n ol o n g e rb et h ew e d n e s d a y sc h i l do fi n f o r m a t i o n p r o c e s s i n gs y s t e m s ”,必将在今后十五年信息技术的发展中越来越重要,元数据 真正成为基础数据的管理者,甚至被比作数据仓库的d n a 。 2 1 3 元数据的作用 元数据存在于企业的各种应用和软件工具中,在以下的领域中元数据管理和应 8 华北电力大学硕士学位论文 用非常重要。 ( 1 ) 元数据是实现商业流程重组的重要依据。为存档、分析、仿真企业操作环 境,以控制操作环境和生产流程,需要进行模型开发。对此模型,其复杂的内部关 系以及与外界的交互,都需要被存储,管理,并与其它模型和终端支持工具交互, 如e r p ( e n t e r p r i s er e s o u r c ep l a n n i n g ) 系统。 ( 2 ) 元数据在使用多种工具开发的应用中至关重要。在应用程序开发中,实现 开发工具一体化,离不开元数据。软件开发通常由多个彼此独立、又互相联系的步 骤组成,所使用的工具来自不同的厂商,统一这些工具非常困难。用知识库实现的 元数据模型能够解决这一问题。 ( 3 ) 元数据使多个开发者参与的数据建模与设计同步问题得以解决。这种情况 下需要解决全局存取、多版本同步并对历史记录存档。一个共同的元数据模型可以 解决基于网络的工具的一体化,并使用集中存储介质的团队的开发成为可能。这种 结构要求元数据具有可查询性,以实现数据字典、元数据报表。 ( 4 ) 元数据使应用程序包最大限度的满足企业的不同需求元数据是多数应用 程序留给用户选择程序组件的接口,如果需要用户还可以设定应用程序的运行环 境。一个公用的元数据模型可以很方便的完成应用程序包与第三方应用程序的信息 交互,以保证有控制的使用程序并对其进行修改,可选组件往往在软件的新版本中 使用。当然在使用之前要迸行效果分析,以确认变化的有效性。 ( 5 ) 元数据管理是解决数据仓库一体化、一致性、系统化及可用性等问题的有 效方法。一体化的元数据管理不仅要实现应用工具的一体化,而且要向用户解释和 说明元数据。技术和业务元数据的综合在同一个元数据模型中简化数据仓库的设 计、管理和使用。 以一个典型的数据仓库环境为例,如图2 1 所示,操作数据源由文件系统、关 系数据库系统等组成,所有柱形体的上部分代表数据存储,下部分代表元数据存储。 数据仓库中的数据从这些数据源中抽取,数据仓库之上还支撑多个数据集市。另外, 还有来自不同开发商的数据仓库建模工具、e t l ( e x t r a c t ,t r a n s f o r ma n dl o a d ) 工具、数据访问工具( 挖掘、o l a p 等分析工具) 等。所有这些组件都要创建和维护自 己的元数据,并存放在相关的目录、数据字典或工具专有的存储库中。从图2 1 中 可以看出,为了支持组件问的相互协作,元数据需要在不同的组件间流动。如果不 同工具的元数据表示模型都不同,会严重地阻碍元数据的交互和传播,数据访问工 具的终端用户也很难充分利用这些分散异构的元数据,这将影响到数据仓库的使 用,甚至会导致整个仓库项目的失败,在分布式环境下更是如此。所以,元数据的 规范管理对于数据仓库而言是至关重要的。 9 华北电力人学硕士学位论文 图2 1 一个典型的数据仓库环境 2 2 标准化元数据模型删 2 2 1 洲的概述 c w r ( c o m m o nw a r e h o u s em e t a m o d e l ,公共仓库元模型) 是o m g 采纳的一个使 甩共享元数据的集成数据仓库和业务分析工具的开放式行业标准,它完整地描述了 数据仓库和业务分析领域的各个方面。作为一个元模型,c 删提供构建元数据所需 的语法和语义,利用这些元数据可以描述个完整的数据仓库系统的所有的组成部 分“1 ”c w m 是基于以下三个工业标准8 : ( 1 ) u m l _ u n i t i e d 驵o d e l i n gl a n g u a g e 统一建模语言。 ( 2 ) m o f - - m e t ao b j e c tf a c i l i t y 元对象设施 ( 3 ) x m i x 札m e t a d a t ai n t e r c h a n g e 基于d i l 的元数据交换机制。 u m l 是o m g 用于定义离散系统抽象模型的标准语言,用u m l 定义的模型独立于 任何平台和实现,c w m 用u m l 表示,u 扎是定义c w m 的表示法基础。c w m 对u m l 的子 集进行了扩展以包含数据仓库和业务分析领域的概念。c 聊利用u 札强大的表达能 力来定义复杂的元数据及其关系。 m o f 元对象设施,定义了一个描述元数据模型的抽蒙语法,是为元模型规范定 义公共抽象语言的一种o m g 标准。m o f 本身是一种元一元模型。或者说是元模型的模 j 0 华北电力大学硕士学位论文 型。b l o f 以u m l 的一个子集为基础,能够描述诸如u m l 和c 删元模型这样的元模型, 甚至可以描述m o f 本身( 自描述) “”。 x m i 规范定义如何用x m l 表示基于m o f 的元数据。当元数据存储在x m l 文档中 时,x m l 标记提供了元数据元素的定义。由于x m i 为元数据提供了一种低成本的、 适合w e b 的交换机制“”。本文采用关系数据库存储元数据,详情请见4 3 2 节中的 元数据库。 2 2 2c _ 的结构 作为一种公共仓库元模型,c 删必须能够描述各种数据源和数据仓库目标的元 数据,c 删本身就是一个非常复杂的系统。在c 删首次发布时,o m g 采纳的c v o a 包 就包含2 0 0 多个类,而将来发布的版本中可能包含更多的类。c w m 的设计者明白, 在单个的包中提供如此庞大而复杂的元模型实际上就注定了它不会被人们使用。 要想将c 硼运用到实际的数据仓库系统中,必须提供易于实现的、小的、便于 理解的包同时,利用较小的包也能便于初学者的学习,不至于使学习c w m 成为一 项令人生畏的任务。为了达到上述目的,设计者将傈m 组织成了2 1 个单独的包。 每个包都含有与在数据仓库和业务智能领域中的特定部分相关的类、关联和约束。 在2 1 个包中,有2 0 个包要求在实现中依赖于其它一个或多个包存在,唯一一个不 需要其它包支持的包是c 硼中最基本的部分:核心包。其它所有的包最终都依赖于 这个包。 全面理解这2 1 个包的内容及其内在的联系看上去是一项令人生畏的任务。为 了便于理解它们,开发者将这些包分为五个层次。每层中的包在c w m 的整个体系结 构中扮演的角色相似“。图2 2 展示了这2 1 个包以及它们所处的层次。 管理层 分析层 资源层 基础层 对象模型层 数据仓库处理包数据仓库操作包 联机分折信息业务命名 转换包数据挖掘包 处理包可视化包规则包 对象包关系型包记录包多维包) 函儿包 业务 数据表达式键和软件类型 信息包类型包包索引包部署包映射包 核心包行为包关系包实例包 图2 2c w l l 元模型结构示意图 在c 删中,每一个包代表c w m 的一个元模型,并且对应于数据仓库系统中的一 1 1 华北电力大学硕士学位论文 个重要的功能域,例如,分析层的转换包对应于数据仓库系统中的e t l 工具所用到 的元数据的模型。下面我们依次对每一层做简要介绍。 2 2 2 。1 对象模型层 对象模型层( o b j e c tm o d e l ) 定义了基本元模型的概念、关系和约束。其它的c 硼 包都需要用到这些定义。这些概念为定义其它的c 删包创造了一个清晰、良好的环 境,使得它们能够专注于各自的目的,而将与系统基础结构和细节处理打交道的部 分减少到最小。对象模型层的包构成了其它c 删包所需要的基本元模型服务的全部 集合。对象模型层与u m l 关系密切,是u m l 的一个子集。对象模型层中包含了与c w m 关系密切的u m l 的部分,而不包括其它不需要的u m l 部分。 对象模型层由四个元模型构成:核心( c o r e ) 元模型,行为( b e h a v i o r a l ) 元模型, 关系( r e l a t i o n s h i p s ) 元模型和实例( i n s t a n c e ) 元模型。核心元模型定义u m l 语言 核心中最基本的、静态的模型元素。行为元模型对这些静态结构进行扩充,以便定 义象操作和过程这样的行为关系元模型定义模型元素之间的基本关系实例元模 型定义建模元素,以表示其它特定的建模元素的实际实例。 2 2 2 2 基础层 在基础层( f o u n d a t i o n ) 中,c w m 包含的是为驻留在更高层次的其它包提供c w m 特定服务的包。在这一方面,基础层的包与对象模型层的包不同,后者提供的服务 具有通用性,而不是专门为c w m 设计的。 基础层的元模型是对对象层模型的扩展,用以表示数据仓库系统中所有组件所 需要的公共服务。类型映射( t y p em a p p i n g ) 元模型定义的新的模型元素使我们能 够在不同类型的系统之间建立映射模型。键索引( k e ya n di n d e x e s ) 元模型同样以 对象层的基本模型元素为基础,定义了唯一键和外键的抽象概念,并对数据集合进 行限制。这些概念对于建立关系数据库结构至关重要。 业务信息包( b u s i n e s si n f o r m a t i o n ) 元模型定义的元素支持对基本业务信息的 建模。软件部署( s o f t w a r ed e p l o y m e n t ) 元模型可以方便对面向组件的应用软件以 及它们在分布式计算平台的各节点上的部署情况进行建模。表达式( e x p r e s s i o n ) 元 模型定义的元素用一种标准的、可互相交换的方式建立清晰的表达式结构( 如表达 式树) 。 2 2 2 3 资源层 资源层( r e s o u r c e ) 中包含的c w m 包主要描述了数据仓库中,作为数据源和数据 华北电力大学硕士学位论文 目的的数据资源的结构。该层含有的元模型包可以描述面向对象的数据库与应用、 关系数据库管理系统、传统的面向记录的数据源( 如文件、记录数据库管理系统) 以 及由联机分析处理工具建立的多维数据库和x m l 流等。 由于c 删己经包含了一个非常好的对象模型,因此,c w m 开发者认为不需要建 立其它的对象模型。在对象模型中,其核心包、行为包、关系包和实例包均可以直 接建立面向对象的数据资源描述。关系型( r e l a t i o n a l ) 、记录( r e c o r d ) 、多维 ( m u l t i m e n t i o n a l ) 以及x m l 元模型对对象层和基础层都进行了扩展,它们定义的模 型元素用来创建定义关系型数据库、面向记录的数据库、多维服务器以及基于x m l 文档的数据资源的元数据。 2 2 2 4 分析层 分析层( a n a l y s i sl a y e r ) 元模型是整个c w m 元模型的核心,而分析层中最重要 的一个元模型就是转换( t r a n s f o r m a t i o n ) 元模型了。这个元模型定义的模型元素用 来指定数据资源模型之间源和目标的映射及转换,同时也用来指定数据资源模型和 各种分析模型之间源和目标的映射及转换。 分析层还提供其它一些元模型来对面向分析的元数据进行建模,如数据挖掘 ( d a t am i n i n g ) 元模型,业务术语( b u s i n e s sn o m e n c l a t u r e ) 元模型以及信息可视 化( i n f o r m a t i o nv i s u a l i z a t i o n ) 元模型。 2 2 2 5 管理层 c w m 的管理层( m a n a g e m e n t ) 定义了两个重要的元模型:数据仓库处理 ( w a r e h o u s ep r o c e s s ) 元模型和数据仓库操作( w a r e h o u s eo p e r a t i o n ) 元模型。数据 仓库处理元模型主要用于对某些特定的数据仓库处理过程进行建模,例如e t l ( 数据 抽取、转换和加载) 过程。数据仓库操作元模型定义了特定的周期性的例程操作的 元数据,这些元数据对于e t l 工具、基于时间的调度工具十分有用。 2 3c w h 在l s c 中的作用 2 3 1 信息供应链的集成 典型的数据仓库和业务分析环境通常都是根据信息供应链( i n f o r m a t i o n s u p p l yc h a i n ,简称i s c ) 或信息经济( i n f o r m a t i o ne c o n o m y ) 来描述的。这些比 喻反映了在该环境中信息流动的实际情形:它从源头( 即原始数据的提供者) 流出, 通过一系列的精炼过程,最终产生对企业决策者具有很大战略价值的信息产品朝。 图2 3 展示了一个典型的i s c 。 华北电力大学硕士学位论文 数据l【分析1 市场卜 l - _ i 万l( 报告j 市场r【可视化l l 、 万万三一 f 数据挖掘1 市场p lj 图2 3 信息供应链 i s c 中的第一个加工步骤通常就是协调各种事物数据,使它们用一种更统一的 方式表达。这一步骤就是数据提取、转换和加载( d a t a e x t r a c t i o n ,t r a n s f o r m a t i o n , a n dl o a d i n g ,e t l ) ,包括从不同的事物系统中获得数据,将这些数据转换成某个 通用的格式,然后将这些被转换的数据存储在一个专用的数据库中。这个专用的数 据库,使得这些数据能够作为战略信息更好的为决策者服务,而不是仅仅作为一些 个别业务事件的详细记录。这个提供战略信息的专用数据库就是数据仓库。 数据仓库最显著的一个特点就是,它将被提炼的数据以有利于进一步分析的方 式组织起来,而这对于一个业务的持久发展是至关重要的。数据仓库在本质上往往 是有维的( d i m e n s i o n a l ) ;也就是说,它们根据业务的不同维以统一的方式来组织 数据,这些维可能包括:账户、产品、地区、销售单位、商店等。这些业务的维充 当了定义数据的查找关键字。一般数据仓库是按时间组织数据的。 先进的分析和报告工具可以直接脱离数据仓库工作或是隶属于部门的数据市 场。这些工具显著增加了那些从数据仓库中获得的信息的价值。尽管数据仓库已经 建立了对信息的有维观点,但分析和报告工具还是能够提供一些特有的功能,如对 按维组织的数据的处理、对特定操作的处理或可视化处理等。数据市场、先进的分 析工具( 包括基于软件的分析包、o l a p 服务器、数据挖掘包) 、报告工具和可视化 工具集中代表了i s c 中最后的精炼步骤。其中,战略性的、有维的业务信息被有效 地转换为业务知识、洞察和远见。 2 3 2i s c 中元数据集成的策略 i s c 中的每一个精炼步骤都是通过使用一个或多个与该步骤特定目标相关的软 件产品来实现的。为了有效地实现一个i s c ,这套工具必须能够完全参与到数据交 换的过程中。每个工具都必须对要处理的数据的本质有所了解,如它来自何处,它 的不同域意味着什么,需要对这个数据进行什么转换,转换的结果存储在哪里等等。 这时就需要元数据的支持,来帮助这些工具理解数据的含义和如何使用数据。为了 1 4 华北电力大学硕士学位论文 使一系列给定的软件产品能够有效地参与i s c ,并在数据层上进行互操作,就必须 对描述那个数据的元数据有一个共同的理解。也就是说,构成i s c 的每一个软件产 品和工具能够在数据层进行有效集成的前提是它在元数据层就必须有效地集成。然 而绝大多数的业务产品存储元数据所使用的格式千差万别。通过一个特定产品提供 的某些接口,可以访问它的元数据,但元数据易于访问并不代表它可以被完全理解。 元数据的格式和定义,以及访问它的接口,在产品之间很少是统一的,而且它们通 常都是更偏重于每个产品的有效操作,而不是与其他产品的集成。 2 3 2 1 点对点体系集成策略 点对点体系集成策略是通过在不同元数据的工具之间建立元数据桥来实现集成 的。元数据桥是一种能够将一个产品的元数据转换成另一个产品所要求的格式的软 件。这样的桥需要具备与其集成的每个产品的元数据的结构和接口的详细知识。图 2 4 显示了几个i s c 组件通过若干元数据桥相互连接的情况。每个带阴影的箭头表 示一种不同的元数据桥和与它关联的元数据流这里,每个桥只适用于它所连接的 这对被集成的工具,而且这些桥往往是双向的,即它能够理解双向的元数据映射。 而桥的构造,无论是由产品厂商、第三方顾问、或是由i s c 和数据仓库的执行者执 行,都是一项非常艰巨和昂贵的工程。桥必须具备所有者的元数据模型和接口的详 细知识。关于不同模型间如何相互映射的知识也要融入其中。此外,构成一个特定 的桥的处理逻辑不一定能够在其他桥中重用。所以使用这种方法会大大增加开发和 维护的 可操作的数据数据提取、转换、数据仓库 数据市场 报告 存储元数据m 和装载元数据自 元数据 元数据 元数据 aq 尊譬妄i 墨b b 司中叫击皿争cc 皋| _ dd , l j i m m m d p e a 雹露盈盈互盔墨互盔蟊窭盈c c e a 固雹圈囡函墨墨皿墨蟹圈正衄口鼍皿口卫雹固互墨墨墨吲蠢蟹囡墨地西j 代表a 和b 之间的元数据桥。代表b 和c 之阃的元数据桥,其他的一次类推 图2 4 通过点对点桥进行元数据集成 华北电力大学硕士学位论文 2 3 2 2 中央元数据存储库集成策略 通过使用元数据存储库可以部分满足对全局可用和广泛理解的元数据的需求。 元数据存储库是一个专用数据库。它负责存储与控制并使之能被环境中所有其他的 元数据组件访问。图2 5 显示了一个在图2 3 的i s c 中配置的元数据存储库。各种 构成i s c 的软件产品从中央存储库中提取全局元数据。这个存储库包含了定义i s c 的所有元数据的单一定义,这个定义是基于一个针对存储库产品本身的元数据模型 的。每个产品必须实现它自己的存储访问层( 即桥的另一种形式) ,该层了解与特 定存储库相关的元数据结构,并且知道如何将这些与存储库相关的结构映射到产品 相关的元数据结构。 存储元数据元数据 图2 5 通过一个中央存储库的元数据集成 尽管这个方法缓解了建立多个点对点桥的需求。但桥的问题并没有完全消除。 由于存储库建立在自己的元模型、接口和发送服务上,我们仍然需要为每一个参与 i s c 的软件产品开发一个不同的访问层,而且每一个访问层仍然是只针对于一个特 定的存储库产品的。虽然这个方案工作量没有点对点的集成体系结构那么多,也降 低了总成本。但是它并没有把工作量和总成本降到最低,也没有解决厂商垄断的问 题。存储库仍然是一个需要与配置在整个i s c 环境中的其他产品或工具进行集成的 工具。 1 6 华北电力大学硕士学位论文 2 3 2 3 基于c 删的元数据集成策略 基于c 删的元数据集成方法使i s c 的元模型外部化,并与特定的实现平台无关, 这样产品之间的元数据交换都基于这种公共的外部元模型,避免了各自的实现模型 之间的翻译问题,如图2 6 所示。从而消除了或大量减少了传统的基于元数据桥的 点对点元数据集成体系结构所要求的成本和复杂度,为基于中央存储库的中央辐射 式元数据体系结构也带来了同样的好处。 可操作的数据数据提取、转换、数据仓库 数据市场 报告 c w m 元数据交换( 基于 x m l 或标准a p i 调用) 图2 6 运过公共元模型集成的信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小肠疾病考试题及答案
- 小车拖车考试题及答案
- 文明礼仪你能做到几条
- 仪征保安员考试试题及答案
- 学考无纸化考试试题及答案
- 信托协会考试试题及答案
- 贝壳规则考试题及答案
- 2025年期货从业资格之期货基础知识通关考试题库带答案解析
- 2025年注册会计师之注册会计师会计过关检测试卷B卷附答案
- 2022年河北省张家口市高三第三次模拟考试英语试题(不含听力音频)
- 2025至2030中国氢化可的松口服片行业项目调研及市场前景预测评估报告
- 消防器材介绍课件
- 可研委托合同(合同范本)5篇
- 2025上半年高级软件水平考试《系统分析师(案例分析)》真题及解析
- 2025年国家公务员考录《申论》真题及参考答案(行政执法卷)
- 《电解质失衡课件讲解》课件
- 景区团建合同协议书
- 收费公路联网系统网络安全技术要求(试行)
- 临床胰岛素皮下注射(中华护理学会团体标准)
- 蜘蛛人作业培训
- 2025南航集团校园招聘笔试参考题库附带答案详解
评论
0/150
提交评论