(计算机应用技术专业论文)基于cwm元数据互操作性ps算法的研究.pdf_第1页
(计算机应用技术专业论文)基于cwm元数据互操作性ps算法的研究.pdf_第2页
(计算机应用技术专业论文)基于cwm元数据互操作性ps算法的研究.pdf_第3页
(计算机应用技术专业论文)基于cwm元数据互操作性ps算法的研究.pdf_第4页
(计算机应用技术专业论文)基于cwm元数据互操作性ps算法的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)基于cwm元数据互操作性ps算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

声明尸明 j i j l ll ii i ii lll l i ii ii ii 17 8 5 3 6 8 本人郑重声明:此处所提交的硕士学位论文基于c w m 元数据互操作性p s 算法 的研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和 取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:期:墅? ! ! 至! 垫 关于学位论文使用授权的说明 本人完全j ,解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件:学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播 学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:高面鲜 日 期:垫金:! 兰! 垫 导师签名:戳 日期:垄! 旦:f 2 :垫 一 备 华北电力大学硕士学位论文摘要 摘要 目前,各种软件工具及不同系统间交换或存取元数据是一个研究热点。本文在 c w m 元模型基础上,借鉴p s 技术的思想,将p s 应用到元数据互操作中,针对 w e b 数据仓库开放分布的特点,给出了一套完整的基于p s 的元数据互操作方案, 并改进了p s 中的主要算法:匹配算法和路由算法。在匹配算法中,设计了一种结 合树自动机和下推自动机行为的t p d a 自动机,实验表明,与x t r i e 、x p u s h 匹配 算法相比,提高了时间效率,降低了空间增长幅度;在路由算法中,借鉴组播集群 技术,将消息代理组织成具有组播集群结构的层次拓扑模型,设计了混合路由算法, 实验表明,与层次路由算法相比,节省了网络带宽,提高了系统的扩展性和性能。 关键词:元数据,元数据互操作,c w m ,p s a b s t r a c t n o w a d a y s ,t h ea b i l i t yo fe x c h a n g i n go ra c c e s s i n gm e t a d a t aa m o n gk i n d so f s o f t w a r et o o l sa n dd i f f e r e n ts y s t e m s ,h a ss t i l lb e e nar e s e a r c hh o t s p o t i nt h i sp a p e r , b a s e do nc w mm e t a m o d e l ,d r a w i n go nt h ei d e ao ft h ep s t e c h n o l o g y ,t h ep s m e c h a n i s mi sa p p l i e dt om e t a d a t ai n t e r o p e r a b i l i t yi nt h eo p e na n dd i s t r i b u t e dw e bd a t a w a r e h o u s e t op u tf o r w a r dac o m p l e t es e to fm e t a d a t ai n t e r o p e r a b i l i t yp r o g r a mb a s e do n p sm o d e l ,a n dt oi m p r o v et h em a i na l g o r i t h m so fp sm e c h a n i s m :m a t c h i n ga l g o r i t h m a n dr o u t i n ga l g o r i t h m i nm a t c h i n ga l g o r i t h m ,u s i n gt r e ep a t t e r n , c o m b i n i n gw i t ht h e b e h a v i o r so ft r e ea n dp u s h - d o w na u t o m a t at od e s i g na nt p d aa u t o m a t i cm a c h i n e , c o m p a r e dw i t hx t r i e ,x p u s hm a t c h i n ga l g o r i t h m ,e x p e r i m e n t ss h o wi ti m p r o v e st h et i m e e f f i c i e n c ya n dr e d u c e st h es p a c eg r o w t hr a t e ;i nr o u t i n ga l g o r i t h m ,d r a w i n go nt h e m u l t i c a s tc l u s t e r i n gt e c h n o l o g y ,t oo r g a n i z eb r o k e r s e r v e r sah i e r a r c h i c a l t o p o l o g y m o d e lw i t ham u l t i c a s td u s t e rs t r u c t u r e ,a n dd e s i g nm i x e d r o u t i n ga l g o r i t h m ,c o m p a r e d w i t ht h eh i e r a r c h i c a lr o u t i n ga l g o r i t h m ,e x p e r i m e n t ss h o wi ts a v e sn e t w o r kb a n d w i d t h a n di m p r o v e ss y s t e ms c a l a b i l i t ya n dp e r f o r m a n c e g a ol i x i a n ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f w a n gc u i r u k e y w o r d s :m e t a d a t a ,m e t a d a t ai n t e r o p e r a b i l i t y , c w m ,p s 华北电力大学硕士学位论文目录 目录 中文摘要 英文摘要 第一章引言。1 1 1 研究背景1 1 2 国内外研究状况1 1 3 主要研究工作2 1 4 本文结构3 第二章元数据4 2 1 元数据的定义及分类4 2 2 元数据的作用5 2 3 元数据源6 2 4 元数据的标准。7 2 5 元数据管理9 2 6 以、l ;与1 ( ) 第三章基于c w m 的元数据互操作1 1 3 1 元数据互操作1 1 3 1 1 基于元数据桥的元数据互操作框架1 1 3 1 2 基于元数据存储库的元数据互操作框架1 l 3 1 3 基于c w m 的元数据互操作框架1 2 3 1 4 几种方案的比较1 3 3 2 基于c w m 的元数据互操作方案1 4 3 2 1c w m 适配器1 4 3 2 2c w m 的互操作实现方式1 5 3 2 3c w m 的互操作实现1 6 3 3 小结1 7 第四章基于p s 元数据互操作方案的设计。1 9 4 1 发布订阅机制1 9 华北电力大学硕士学位论文目录 4 1 1 发布订阅的基本原理1 9 4 1 2 基于内容的发布订阅2 0 4 2 基于p s 的元数据互操作方案。2 1 4 2 1 基于发布订阅机制的元数据互操作框架2 1 4 2 2 互操作体系结构2 2 4 2 3 系统的工作流程2 4 4 3d 、 砉:! ! ; 第五章发布订阅中匹配算法的改进。2 6 5 1 发布订阅中的匹配算法2 6 5 1 1 基于x m l 的发布订阅的匹配算法2 6 5 1 2 匹配算法的设计目标2 7 5 2 基于t p d a 自动机的匹配算法2 7 5 2 1 基于t p d a 自动机的匹配算法的设计思路2 7 5 2 2x m l 的事件流模型2 8 5 2 3x 】p a t h 2 9 5 2 4 基于t p d a 自动机匹配算法的描述。2 9 5 3 实验3 1 5 3 1 实验环境设置3 2 5 3 2 实验结果分析3 2 5 4 小结。3 3 第六章发布订阅中路由算法的改进。3 4 6 1 路由协议3 4 6 1 1 事件代理的拓扑3 4 6 1 2 路由算法3 5 6 1 3 路由协议的设计目标。3 7 6 2 “组播集群”的事件代理拓扑3 8 6 3 混合式路由算法3 9 6 4 实验4 1 6 4 1 实验环境设置和评价指标4 l 6 4 2 实验结果分析4 2 6 5 ,j 、i 吉4 :; 第七章结论4 4 i l 华北电力大学硕士学位论文目录 7 1 论文主要工作4 4 7 2 展望4 4 参考文献4 6 致j 射4 9 攻读硕士学位期间发表的论文和参加的项目5 0 i i i , 华北电力大学硕士学位论文 1 1 研究背景 第一章引言 数据仓库是一门新兴技术,正日益受到业界重视并带来巨大效益【l 】。在数据仓库 环境中,元数据是数据仓库的核心,数据仓库中的各模块和工具都围绕着它进行工 作,是各种数据仓库工具间相互理解各自操作的基础。现状是不同工具不同系统的 元数据相互独立,又由于异构成员各自独特的元数据模型和存储方式【2 】,元数据互 操作性,即各种软件工具间交换或存取元数据的能力,一直是困难的问题。 为了实现不同软件产品和应用程序之间的无缝集成和有效的互操作,拥有元数 据的一个通用定义是在数据层实现集成和互操作的先决条件。 c w m 是一个完整地描述数据仓库和业务分析领域的元模型,是o m g 组织采纳 的一个使用共享元数据的开放式行业标准。c w m 的主要目的是使分布式、异构环 境中数据仓库和商业智能中的元数据交换,在数据仓库工具、数据仓库平台和数据 仓库元数据存储库中变得简单。在基于c w m 模型驱动环境中,通过使各种数据仓 库和业务分析领域的工具共享c w m 元模型以及理解元数据整体的管理策略,以实 现异构的软件组件之间的互操作性。 o m g 结合c o r b a ,规范化了它们的接口和行为,进而制定了d d s 规范,它提 供了以数据为中心的发布订阅消息机制,支持在实时环境下的数据发布服务,提供 了一个与平台无关的数据模型( 这个模型能够映射到各种具体的平台和编程语言) 。 而发布订阅中间件系统具有异步、松散耦合、多对多通信的特点,非常适合目前因 特网大型分布式应用、移动计算、网格计算以及普适计算等异构平台松散通信的需 求。由于发布订阅消息机制的这些优点,故将其应用到分布开放的w e b 数据仓库中, 以实现w e b 数据仓库中元数据的互操作。为了有效地实现一个基于内容的发布订阅 消息机制的元数据互操作系统,有以下两个必须解决的关键问题:( 1 ) 在代理服务器 上对大量订阅者的订阅进行有效地事件匹配;( 2 ) 在一个代理网络中有效地进行事件 路由和转发。w e b 数据仓库有着分布式网络环境,非常有必要对发布订阅机制中的 匹配算法和路由算法进行改进,使发布订阅机制更适合w e b 数据仓库特殊的环境需 求。 1 2 国内外研究状况 元数据的互操作是管理和共享元数据的基础,其最终目的是无缝连接数据仓库 环境中的各个工具,实现数据仓库装载、管理、维护和使用的一体化和( 半) 自动化。 华北电力大学硕士学位论文 元数据互操作需要使用双向的、工具指定的接口,在元数据库和或工具之间导入 导出元数据必须采用公共的交换表示格式。互操作的关键在于能否对需交换的元数 据建立一个公共的元数据模型。 解决数据仓库中工具及应用程序之间的无缝连接及互操作的方案包括:元数据 桥架构;公共仓库元模型架构;中间件模式。 本文在公共仓库元模型( c w m ) 的基础上采用发布订阅中间件来实现元数据的 互操作。发布订阅的关键技术包括:数据模型、注册模型、匹配算法、事件代理的 拓扑、路由算法、q o s 、安全、通知传播与交付模型等。本文主要研究其中的匹配 算法和路由算法。匹配算法负责高效地查找与给定的事件相匹配的所有订阅条件, 其依赖于系统所采用的事件模型和订阅机制;而路由算法则负责在分布的代理网络 之间选择适当的路径,将事件从发布者传送到订阅者。 对于事件匹配问题,一般主张将订阅组织成各种形式的决定树和索引结构。如 i b m 的g r y p h o n 3 】系统使用并行搜索树解决事件和订阅的诞配。该算法只能对相等 判定进行处理。s i e n a 4 j 利用订阅阀的覆盖关系以及合并订阅来减少和事件进行匹配 的订阅的数目,从而降低匹配复杂度。y a n 和g a r c i a - m o l i n a 5 】描述了使用计数和树 模型算法解决关键字和文档对象的匹配问题并取得了较好的效果。g o u g h 和s m i t h 6 】 提出了基于自动机理论的匹配。 关于路由算法,将事件代理组织成无环对等网络或层次性网络,采用单播、选 播、组播策略。路由算法可采用洪泛法,匹配优先法等。e l v i n 7 l 将事件代理组织成 无环对等网络,其最大的特点是淬火算法,该算法允许发布者接收有关订阅者的信 息,只发布订阅者订阅的事件,从而减少不必要的事件发布,节省网络带宽。 g r y p h o n i s 将事件代理组织成层次性网络,它的路由算法采用的是匹配优先法,为了 弥补系统性能的不足,研究了如何有效地利用组播以节省网络带宽。s i e n a 9 】实现了 无环形和层次形两种虚拟网络,提出了合并、覆盖以及声明优化路由的算法。 1 3 主要研究工作 本课题的研究内容主要包括: ( 1 ) 元数据基础理论研究 研究元数据的定义、分类、作用、元数据的来源,探讨元数据标准化问题,研 究o m g 组织提出的公共仓库元模型( c w m ) 的内容以及x m i 规范的内容。 ( 2 ) 元数据互操作管理方案 研究分析元数据互操作的几种解决方案,研究c w m 交换元数据的原理及实现, 利用基于内容的发布订阅中间件,来实现元数据间的高互操作性,设计一套比较完 2 华北电力大学硕士学位论文 善的元数据互操作框架。 ( 3 ) 改进匹配算法并进行实验验证比较 对发布订阅机制的匹配算法进行改进。探讨事件模型,订阅机制的数据结构, 为实现快速匹配,结合树自动机和下推自动机的行为设计一种自动机,来消除多个 x p a t h 查询中共享路径和谓词的重复计算问题。通过实验验证改进后的匹配算法, 与x t r i e 、x p u s h 在时间和空间效率上进行比较。 ( 4 ) 改进路由算法并进行实验验证比较 对发布订阅机制的路由算法进行改进。将事件代理组织成组播集群的层次性网 络,结合洪泛法和生成树转发路由算法设计混合式路由算法,来选择适当的路径, 将事件从发布者传送到订阅者。将改进后的路由算法与没有组播集群的层次路由算法 进行实验比较。 1 4 本文结构 本文共分为七章,各章内容如下: 第一章主要介绍当前数据仓库环境下元数据互操作的研究背景,国内外研究情 况,以及本文的研究工作。 第二章主要阐述元数据的相关知识,阐述元数据的定义、分类,分析元数据的 来源、元数据的标准化等问题。 第三章是基于c w m 的元数据互操作,分析比较元数据的互操作方案,并给出 基于c w m 元模型的元数据互操作的实现方法。 第四章是基于发布订阅的元数据互操作方案,分析研究发布订阅机制,在第三 章的基础上,设计基于c w m 元模型、采用基于内容的发布订阅中间件的元数据互 操作解决方案。 第五章对第四章基于内容发布订阅中间件的元数据互操作方案中的匹配算法进 行设计。分析研究已有的匹配算法,阐述本文匹配算法的设计思路,设计一种结合 树自动机和下推自动机行为的t p d a 自动机,给出了算法,并进行实验验证。 第六章是混合式路由算法,对第四章基于内容发布订阅中间件的元数据互操作 方案中的路由算法进行设计。分析事件代理的拓扑和已有的路由算法,给出代理的 组播集群的层次性网络,设计混合式路由算法,并进行实验验证。 第七章总结了本文的研究工作,并进行展望。 华北电力大学硕士学位论文 2 1 元数据的定义及分类 第二章元数据 元数据( m e t a d a t a ) 是关于数据的数据,描述了数据的结构、内容、链和索引等内 容【1 0 】。在传统的数据库中,元数据是对数据库中各个对象的描述,如数据字典就是 对数据库、表、列、视图和其他对象的定义。在数据仓库系统中,元数据被定义为 描述数据及其环境的数据,它描述了数据仓库中的许多对象表、列、查询、商 业规则及数据仓库内部的数据转移,可以帮助数据仓库管理员和数据仓库的开发人 员非常方便地找到他们所关心的数据。 元数据是描述数据仓库内数据的结构和建立方法的数据,可以从不同角度对元 数据进行分类: ( 1 ) 按数据类型分类:根据元数据在数据仓库系统中是关于基础数据的还是关于 数据处理过程的,分为基础数据的元数据和数据处理的元数据: ( 2 ) 按抽象层次分类:在数据仓库系统的设计、构建过程中,元数据可以分为概 念元数据、逻辑元数据和物理元数据; ( 3 ) 从系统用户的角度来分类:可以分为业务元数据和技术元数据; ( 4 ) 按元数据的来源分类:可分为工具元数据、资源元数据和外来元数据; ( 5 ) 根据应用目的分类:可分为数据抽取、构建多维视图、数据挖掘和数据展示 元数据; ( 6 ) 根据元数据生成使用时间段分类:可分为数据仓库设计阶段收集的元数据、 数据仓库建设阶段产生的元数据以及数据仓库运行阶段产生的元数据。 在上面的几种分类中,最常见到的分类方法【l l 】是技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) : 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据 仓库使用的数据。它主要包括以下信息: ( 1 ) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定 义,以及数据集市的位置和内容; ( 2 ) 业务系统、数据仓库和数据集市的体系结构和模式; ( 3 ) 汇总用的算法,包括度量和维定义算法、数据粒度、主题领域、聚集、汇总、 预定义的查询与报告; ( 4 ) f h 操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、 4 华北电力大学硕士学位论文 数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际 系统之间的语义层。业务元数据主要包括以下信息:使用者的业务术语所表达的数 据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法 以及公式和报表的信息。具体包括以下信息: ( 1 ) 企业概念模型:这是业务元数据所应提供的重要信息,它表示企业数据模型 的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据 库技术和s q l 语句的业务人员对数据仓库中的数据也能做到心中有数。 ( 2 ) 多维数据模型:这是企业概念模型的重要组成部分,表明在数据集市当中有 哪些维、维的类别、数据立方体以及数据集市中的聚合规则。 ( 3 ) 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了 数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、 字段、维、层次等之间的对应关系也应该在元数据存储库中有所体现。 2 2 元数据的作用 每个数据仓库的独立组件中都有自身元数据,如关系型数据库的数据字典、e t l 工具的转换关系库、多维工具的知识库等。除此之外,还有一些反映关系变化的元 数据并不存在数据仓库的组件中,而是存在数据仓库开发过程的各种文档中。只要 是针对数据仓库中数据及其处理过程的描述都可以理解为元数据。 一般而言,在整个数据仓库系统中元数据具有两方面的用途【1 2 】:首先,元数据 能提供基于用户的信息,如记录数据项的业务、描述信息的元数据能帮助用户使用 数据:其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元 数据能支持系统以最有效的方式访问数据。 具体说来,在数据仓库系统中,元数据主要起以下作用: ( 1 ) 元数据可以用于集成各类复杂繁多的信息 数据仓库很重要的一个特点是它的集成性,就是将不同时间、地点、系统中的 数据进行采集、整理并按照一定的模式存储在数据仓库中。这个过程所必需的时间、 地点信息,原始数据和数据仓库中数据的对应关系以及校验、转换、过滤的规则等, 都存放在元数据存储库中。 ( 2 ) 元数据可实现应用程序间的数据通信 当前信息系统存在的一个很严重的问题就是各个应用程序之间的数据交换非常 困难,一个系统很难利用另一个系统使用的数据。这就造成了严重的数据冗余和不 一致。如果这些系统是建立在元数据的基础上,而这些元数据又是按照统一的模型 5 华北电力大学硕士学位论文 定义的,那么系统之间的数据通信将成为可能,这将非常有利于数据的有效利用和 维护。 ( 3 ) 元数据是实现数据检索和数据挖掘所必需的 元数据另一个重要的作用是提供了数据访问的入口,就象图书馆中的目录一样。 每次用户或系统要查找数据仓库中的数据时,首先要根据某种标志在元数据中找到 该数据的存放位置,再进一步找到所希望的数据。 ( 4 ) 元数据定义的语义层可以帮助最终用户理解系统中存储的数据,实现业务模 型和数据模型之间的对应 在企业当前的信息系统中,使用者往往不能充分利用系统所提供的数据。一个 很重要的原因就是这些数据不能够以使用者容易理解的形式表现出来。不能期望用 户象系统开发者那样去理解数据库的结构。元数据实现了业务模型和数据模型之间 的映射,因而使数据能够以用户所希望的样子表现出来。这样的一个语义层极大地 优化了用户界面,非常有助于数据向信息、知识的转化。 2 3 元数据源 元数据存储在元数据存储库中,由关系表描述,共定义了以下几方面的元数据: ( 1 ) 关系描述表反映了数据仓库的内部结构信息。包括该关系的中文名称、时间、 数据层次及数据来源、数据输出形式等信息; ( 2 ) 计算公式表定义了关系内部数据之间的计算公式; ( 3 ) 应用程序接口模型为各种模型提供数据。这些元数据定义了各种信息在数据 仓库中的位置分布和处理方式,应用接口利用这些元数据为信息系统提供数据。 元数据来源于信息供应链( i n f o r m a t i o ns u p p l yc h a i n ,i s c ) 过程中所涉及到的所有 软件产品。下面介绍常见的元数据来源及其产生的元数据类型: ( 1 ) 应用系统 元数据经常来源于类似于客户关系管理系统、各种电子商务应用程序、企业资 源规划系统、促销活动管理系统等企业应用系统。尽管这些元数据差别很大,但还 是趋于某种程度的一致。这些元数据记录了逻辑数据模型、物理数据模型、数据字 典等信息。 ( 2 ) 文档 诸如企业章程、手册、白皮书等企业文档中都含有重要的元数据,这些文档提 供了业务策略、实体、属性和标准的定义、数据责任等方面的元数据。 ( 3 ) 员工 6 华北电力大学硕士学位论文 企业员工是最重要的元数据来源。虽然员工的经验等信息往往是很重要且唯一 的元数据来源,但是,这些元数据却最难提取。这些元数据包括:业务策略、业务 实体定义、业务属性定义、数据责任、数据谱系等。 ( 4 ) 企业外部 诸如报刊、工业通信、技术报告、统计数据、 n t e r n e t 网等。 ( 5 ) e t l 工具 e t l 工具的作用是从操作型系统中提取、清洗并转换数据,然后将数据载入到 决策支持系统的操作型数据存储、数据仓库或数据集市中。e t l 过程中产生了一些 元数据,它们对于技术用户和高级用户很有价值。这些元数据包括:数据转换规则、 程序任务间的相关性、决策支持系统负载平衡统计、决策支持系统加载统计、数据 谱系( d a t al i n e a g e ) 等。 ( 6 ) 报表工具 报表工具是指业务用户在决策支持系统中使用的工具,这些工具提供了对底层 数据仓库和数据集市的访问,避免了手工编写s q l 代码的麻烦。业务用户一般不熟 悉数据仓库方面的相关技术,很多报表工具通过提供图形界面,降低了用户使用决 策支持系统的复杂度。报表工具提供的元数据包括:用户访问模式、报表执行时间、 业务实体定义、业务属性定义、业务标准定义。 ( 7 ) 数据建模工具 数据建模工具主要用来进行物理数据库的系统设计并辅助进行逻辑数据和处理 的建模,企业通过在其数据建模工具中保存物理模型、逻辑模型、索引、业务表定 义、业务属性定义和属性域值等,可以获得业务数据需求和规则等信息,从而积累 起很大一笔元数据财富。数据建模工具产生的元数据包括:逻辑数据模型、物理数 据模型、技术实体定义、技术属性定义、域值等。 ( 8 ) 数据质量工具 数据质量工具通过分析异常数据值的源数据,从而极大地简化了常见的数据清 洗任务。这些异常数据值包括:不匹配其数据特征的数据( 例如数字字段中的字符 值) 、超出可接受范围的数据、与有效值不一致的数据、不遵从业务规则的数据或是 不一致的地址数据等。数据质量工具提供了如下元数据:数据质量统计、审核控制。 2 4 元数据的标准 1 9 9 8 年9 月,对象管理组织o m g ( o b j e c tm a n a g e m e n tg r o u p ) 发布了以其现有元 数据和存储体系结构技术标准( 即u m l ,m o f 和x m i ) 为基础的r f p 作为公共仓库 元数据交换规范。1 9 9 9 年初,一些o m g 成员组织( 主要是i b m ,u n i s y s 和o r a c l e ) 7 华北电力大学硕士学位论文 决定合作编写一个提案回应r f p ,来自这些成员组织的体系架构师在i b m 硅谷实验 室的d a n i e lt c h a n g e 博士的领导下开始着手开发这个基于元模型的解决方案。这个 项目最后的成果就是著名的元数据集成规范公共仓库元模型( c o m m o nw a r e h o u s e m e t a m o d e l ,c w m ) 规范。2 0 0 0 年6 月o m g 理事会批准c w m 版本2 作为o m g 采 纳的技术规范。2 0 0 0 年9 月,考虑到业界对c w m 建设的支持,m d c ( m e t a d a t a c o a l i t i o n ) 组织及其成员在近3 年与o m g 的技术竞争和合作后,宣布终止他们在 o i m ( o p e ni n f o r m a t i o nm o d e l ) 方面的工作,并最终加入o m g 的行列,集中继续开 发c w m 标准。从这一刻开始,业界最终拥有被厂商广泛支持的、单一的和开放的 元数据集成标准。 c w m 是一个完整的描述数据仓库和业务分析领域的元模型【1 3 】。作为一个元模 型,c w m 提供构建元数据所需的语法和语义,利用这些元数据可以描述一个完整 i s c 的所有组成部分。 c w m 实际上是由若干互不相同但又紧密相关的元模型构成的【1 4 l 。每个元模型 代表i s c 环境的某个子领域,c w m 的模型层次结构图如图2 1 所示。 管理层 分析层 资源层 基础层 对象模型层 数据仓库处理包数据仓库操作包 联机分析数据信息业务 转换包 处理包 挖掘包可视化包命名包 对象包关系型包记录包多维包瑚。包 业务 魏卜叫熟 软件类型 信息包 配置包映射包 核心包行为包关系包实例包 图2 - 1c w m 元模型层次结构图 从图2 1 可以清晰看出,c w m 为5 层结构,它的底层为对象模型层,本质上是 统一建模语言( u n i f i e dm o d e l i n gl a n g u a g e ,u m l ) 的一个子集,包含c w m 的基本元 模型。c w m 沿用面向对象的概念对该u m l 子集中的模型元素进行扩充,从而定义 出表示数据仓库和业务分析领域的新模型元素,这些新元素能够完整地定义出i s c 的一个实例。对象层的上一层是基础层,基础层的元模型对对象层元素进行扩展, 以表示i s c 所有组件所需的公共服务。例如:表达式元模型定义的元素用一种标准 的、可互相交换的方式建立清晰的表达式结构( 如表达式树) ,该层的关键点在于通 过在c w m 体系结构中非常抽象的层次上定义这些概念,从而保证这些概念只需定 义一次便可在具体的各种环境中重用。c w m 的资源层定义组成i s c 的各种数据资 8 华北电力大学硕士学位论文 源的不同类型,它们定义的模型元素用来创建定义关系数据库、面向记录的数据库、 多维服务器以及基于x m l 文档的数据资源的元数据。c w m 的分析层定义和表示了 业务分析的概念、数据仓库以及i s c 的真正核心和目标,这层指定了数据资源模型 ( 资源层元模型的实例) 之间源和目标的映射和转换,以及指定数据资源模型和各种 分析模型之间源和目标的映射和转换,同时分析层还提供了对面向分析的元数据建 模的元模型,这些元模型提供了建立支持i s c 分析阶段的元数据所需的语义结构。 在c w m 模型的顶层是管理层,这两个元模型用来定义从整体上描述i s c 过程的元 数据。 c w m 定义了一个描述数据源、数据目标、转换、分析、处理、操作等与建设和 管理数据仓库相关信息的元数据基础框架,以及建立和管理数据仓库的过程和操 作,提供使用信息的继承,为在多个厂商的产品之间进行元数据的通信,互操作和 共享提供了切实可行的标准。 c w m 是基于u m l ,m o f 和x m l ! ”】3 个标准来设计、操作、交互数据仓库的 元数据。 ( 1 ) u m l u n i f i e dm o d e l i n gl a n g u a g e ,o m g 建模标准,使用u m l 进行建模; ( 2 ) m o f m e t ao b j e c tf a c i l i t y ,o m g 建立元模型和模型库的标准,提供在异构 环境下的数据交换的接口; ( 3 ) x m hx m l m e t a d a t ai n t e r c h a n g e ,o m g 元数据交换标准,使元数据以x m l 文件流的方式进行交换。 这三个标准是o m g 元数据体系结构的核心,u m l 定义了表示模型和元模型的 语法和语义;m o f 为构造模型和元模型提供了可扩展的框架,并提供了存取元数据 的程序接口;利用x m i 则可以将元数据转换为标准的x m l 数据流或文件格式,以 便进行交换处理,大大增强了c w m 的通用性。 2 5 元数据管理 数据仓库元数据管理 1 6 , 1 7 1 的范畴主要包括元数据的分类、存储、维护、更新、 集成和互操作等,包括两个方面:一是存储和维护数据仓库构建和运行中产生的元 数据;二是实现数据仓库建模工具、数据获取工具、前端工具等之间的消息传递, 协调各模块和工具之间的工作。 对于元数据管理主要有两种思路:( 1 ) 建立一个元数据访问和整个元数据生命周 期管理的系统一一元数据存储库,它是元数据访问和聚集的平台。企业内的所有元 数据均存放在此元数据存储库中;( 2 ) 建立一种元数据交换的途径,不同系统的元数 据均可以通过这个途径来互访,从而把分布、异构的系统集成在一起实现元数据管 9 华北电力大学硕士学位论文 理的功能。 目前,存在三种典型的元数据管理体系结构【1 8 】:集中式体系结构、分散式体系 结构、分布式体系结构。 由于元数据来源广泛,元数据模型独特,存储格式互不兼容,使得不同工具不 同系统的元数据相互独立难以共享。元数据的互操作即各种软件工具间交换或 存取元数据的能力,是元数据管理中的一个重要问题。元数据的集成和互操作在本 质上属于一个问题,在互操作性的基础上讨论集成,在集成的基础上的讨论互操作。 2 6 小结 本章主要概述了元数据的基本概念可从不同角度对元数据进行分类,最常见 的分类是技术元数据和业务元数据。元数据的分类对于数据仓库元数据管理工作 如:存储、更新、维护、集成和互操作等有着极大的影响;元数据是数据仓库的核 心,它描述数据仓库中的数据,并支持系统对数据的管理和维护。由于元数据在数 据仓库中的重要作用,非常有必要研究元数据;元数据的来源非常广泛,在大规模 分布的网络环境下异构的独立的元数据普遍存在,使元数据互操作存在困难;c w m 是当前数据仓库中元数据的唯一标准,它是形式化的、与平台无关的模型,它提供 了足够表示各种工具所要处理的大部分领域概念的公共元模型来解决元数据互操 作问题;元数据的互操作是元数据管理中的一个重要问题。 1 0 华北电力大学硕士学位论文 3 1 元数据互操作 第三章基于c w m 的元数据互操作 大多数软件工具都带有各自的元数据存储库( 或数据字典) ,但存储格式互不兼 容,难以共享。数据仓库环境需要多种软件工具的集成,因而对元数据存储库、软 件工具间的互操作性要求十分迫切。元数据的互操作是元数据管理中的一个重要问 题【l9 1 。实现元数据互操作的方式有三种,分别是基于元数据桥,基于元数据存储库, 和基于c w m 元模型的元数据互操作框架。 3 1 1 基于元数据桥的元数据互操作框架 元数据桥是一种能将一个产品的元数据转换成另一个产品所需要的元数据格式 的一种软件。元数据分散在多个元数据源,必须转移到一些目标系统。为了转换这 些元数据,必须在要交换的系统之间建立相应的接口,并通过复杂的元数据桥来完 成元数据的交换。这样的桥必须理解每个产品的元数据结构。另外,元数据桥往往 是双向的,也就是说,能够理解两个方向上的元数据映射。例如,将数据从一个事 务系统移至一个数据仓库需要一个桥,这个桥将事务元数据映射到多维元数据。为 向数据仓库用户提供回滚到事务的能力,需要一个桥将多维元数据映射回事务元数 据。每一个映射并不一定是另一个映射的逆过程。此外,构成某个桥的处理逻辑不 一定可以在构建其他桥时重用。桥的构建无论是产品厂商、第三方公司或是i s c 和 数据仓库的实现,都是一项艰巨的过程。因此采用这种方式,开发和维护费用将非 常昂贵。 基于元数据桥的解决方案,除了传递元数据外,如果源和目标有异构的内部的 元数据模型和专有的元数据接口,那么桥还要负责在两者之间对元数据进行转换。 可以计算出元数据交换的代价:假设有以个软件工具,每对工具之间有一个元数据 桥连接,任何软件工具既是元数据的生产者又是消费者,即每个桥都是双向的。行个 软件工具z ( o i 刀) ,其元数据分别为m ( 0 f 以) ,其中任意两个工具之间建立桥 的代价为g ,其中基准交换代价为p 。则g = k p ( k u 为常量) ,其复杂度为d ( 1 ) 。 如果有以个工具,那么一共需要以( 以一1 ) 2 个双向的元数据桥来连接,其连接代价 为c = c o ,c o = p ,即为掣动,其复杂度为d f 刀z 1 。 o c d s , no i n 。 二 、, 3 1 2 基于元数据存储库的元数据互操作框架 元数据存储库是具有特定目的的数据库,用来存储、管理并操作环境中相关的 元数据。存储库包括存储库本身的元模型以及其他软件工具元数据定义。每个软件 华北电力大学硕士学位论文 产品只需要利用一个适配器与存储库相连,就可以在它专有的元模型和元数据存储 库所定义的通用元模型间进行转换。适配器是另一形式的元数据桥,对于某一指定 产品它只需创建一次,因为所有产品都使用通用元模型。如图3 1 ,中央辐射式元 数据体系结构,各工具从中央存储库中检索元数据,而不是通过与其他产品的点到 点连接获得元数据。每个软件产品必须实现它自己的存储库访问层,该层知道如何 将软件工具的元数据结构映射到存储库相关的元数据结构。该方法减少了 所建立的点到点的桥的数量,刀个软件工具只需要咒个双向的元数据桥,假设每个 工具的元数据m ( 0 f 刀) 与存储库的连接代价为q = m ,( 尸,为基准连接代价, 0 i 刀) ,则总的代价为c = m p ,即为n m p ,其复杂度为d ( 拧) ,复杂度明 o 灯 显降低。 图3 - 1 中央辐射式元数据体系结构 3 1 3 基于洲m 的元数据互操作框架 c w m 提供了一个标准的元模型和一个标准元数据接口的相关集合。使用c w m 能够建立独立于特定软件产品或工具的,具有高度表达能力并且语义完整的信息结 构模型。某种产品将自己的元数据( 使用内部格式表示) 导出为使用c w m 描述的元 数据,另一种产品将其导入,构造出与c w m 兼容的模型并映射到自己的内部格式, 这样就达到了元数据共享交互的目的【2 们。所有支持c w m 标准的软件产品,工具, 应用程序和存储库等都共享一个单一的,公共的独立于任何特定实现模型的元模 型。这意味着支持c w m 的产品能够很容易地集成到其他支持c w m 的产品和工具 构成的环境中,元数据不再受特定产品的专有元模型和接口的限制【2 1 1 。对于那些不 适合c w m 格式的元数据( 例如,和软件产品高度耦合的元数据) ,可以通过c w m 的扩展机制来处理它,也可以通过扩展核心的c w m 元模型来处理它,或者通过使 用其他相关工具的方法来处理。 公共仓库元模型架构是一种基于模型的元数据互操作架构,公共仓库元模型架 构可分为基于c w m 的点到点元数据架构和基于c w m 的中央辐射元数据架构。 1 2 华北电力大学硕士学位论文 基于c w m 点到点的元数据架构,如图3 2 ,要求每个工具提供一个导入和导出 接口的适配器。工具之间便可以首先调用对方的适配器,将对方元数据翻译成符合 c w m 元模型的元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论