(计算机应用技术专业论文)数据集成方案中的元数据管理系统研究.pdf_第1页
(计算机应用技术专业论文)数据集成方案中的元数据管理系统研究.pdf_第2页
(计算机应用技术专业论文)数据集成方案中的元数据管理系统研究.pdf_第3页
(计算机应用技术专业论文)数据集成方案中的元数据管理系统研究.pdf_第4页
(计算机应用技术专业论文)数据集成方案中的元数据管理系统研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在数据集成过程中,元数据为整个系统中的数据提供一张完整的数据地图。通过元数 据,我们可以了解到系统中的数据结构、数据来源、数据去向以及系统中的一些业务处理 规则等。 在现有的元数据管理工具中,往往仅仅关注数据集成过程中的一部分,如e t l 过程的 元数据或数据仓库中的元数据。然而,在数据集成越来越复杂,数据越来越多的今天,如 果仅仅对这些元数据进行管理是不能够满足当前对元数据管理的需求的。囚此,我们有必 要提出一种元数据管理框架。通过该框架,我们能够了解在整个数据集成过程中涉及到的 数据源、e t l 过程、数据目标的元数据,并且能够使这些元数据之间进行一定的交互。基 于这种需求,本文提出了一种覆盖整个数据集成过程的元数据管理框架。它是一个以联邦 式元数据库为基本思想,参考c w m 元数据标准并结合高校数据集成中的其享数据库平台 实际情况的元数据管理框架原型。 可扩展性是元数据管理工具开发的重要需求之一。随着时间的推移,业务系统中的业 务处理规j l ! l j 可能发生变化,对元数据查询的需求可能会增加。如何通过最简单的方式实现 工具对这种变化需求的满足是工具开发中的难点之一。本文提出了一种动态关键字标识的 方式来满足这种可扩展性。工具通过维护关键字和动态链接库的路径表来实现对元数据的 动态需求。动态链接库与关键字相对应用以实现关键字所描述的功能。 e t l 过程是数据集成中的重要步骤之一,是一个以元数据为驱动实现数据的集成的过 程。因此如何描述、存储和管理其中的元数据极为重要。本文将从逻辑上描述一个e t l 过 程,并给出一个简化的e t l 元数据存储模型。 在数据集成中,我们经常需要了解数据的来龙去脉,以增加数据可信度。我们以实例 说明了本框架中如何实现一个数据谱系的追踪。 关键字:元数据,元数据管理,e t l ,数据谱系,软件可扩展性 a b s t r a c t i nd a t ai n t e g r a t i o ns y s t e m ,m e t a d a t ai st h em o s ti m p o r t a n t ,w h i c hp r o v i d e sad a t am a pf o r t h ew h o l ed a t a b ym e t a d a t a , t h ed a t as t r u c t u r e s ,d a t as o u r c e sa n dd a t at a r g e t si nt h es y s t e mc a n b ek n o w n t h ee x i s t i n gm e t a d a t am a n a g e m e n tt o o l so f t e nf o c u so nt h ep a r to f d a t ai n t e g r a t i o np r o c e s s , s u c ha st h em e t a d a t ao f e t lt o o l sa n dd a t aw a r e h o u s et o o l s h o w e v e r ,w i t hm o r ea n dm o r ed a t m d a t ai n t e g r a t i o nb e c o m e sm o r ea n dm o r ec o m p l e x i fw eo n l yk n o wap a r to fm e t a d a t a , i ti s d i f f i c u l tt om e e tt h ec u r r e n td e m a n do f m e t a d a t am a n a g e m e n t s oi ti sn e c e s s a r yt ob r i n gf o r w a r d am e t a d a t am a n a g e m e n tf r a m e w o r k ,w h i c hc a nm a k eu sk n o wa l ld a t as t r u c t u r eo fd a t as o u r c e s , e t lp r o c e s s e sa n dd a t at a r g e t sa n dc a ne x c h a n g em e t a d a t ab e t w e e nm e t a d a t ad a t a b a s e s i nt h i s p a p e r ,am e t a d a t am a n a g e m e n tf r a m e w o r ki sp r o p o s e d i ti sam e t a d a t am a n a g e m e n tp r o t o t y p e , b a s e do nf e d e r a t i o nm e t a d a t ad a t a b a s ea n dc w m ( c o m m o nw a r e h o u s em e t a d a t a ) s t a n d a r da n d c o m b i n e dw i t ht h ef a c to f t h es h a r ed a t a b a s es y s t e mi nu n i v e r s i t yd a t ai n t e g r a t i o n t h ee x t e n s i b i l i t yo f m e t a d a t am a n a g e m e n tt o o l si sv e r yi m p o r t a n t w i t ht h ed e v e l o p m e n to f b u s i n e s so p e r a t i o ns y s t e m ,d a t ai n t e g r a t i o nr u l ew i l lb ec h a n g e dp o s s i b l y s ow em u s ta d j u s to u r t o o l st oa d a p tt h ec h a n g e i nt h em e t a d a t am a n a g e m e n tt o o l s ,i ti sm o s td i f f i c u l tt om i n i m i z et h e c h a n g ew h i l et or e a l i z et h ei n t e g r a t i o nr u l e t h i sp a p e rp r o v i d e sad y n a m i ck e y w o r dm e t h o dt o m e e tt h ee x t e n s i b i l i t yo f t o o l s t h et o o l i su s e dt om e e tt h ed y n a m i cd e m a n df o rm e t a d a t ab yt h e m a i n t e n a n c eo f ak e y w o r d sl i s ta n dt h ep a t ho f d y n a m i cl i n kl i b r a r y ( d l l ) t h ed l li sm a t c h e d f o rk e y w o r d st or e a l i z et h ec e r t a i nf u n c t i o n e t lp r o c e s si sa ni m p o r t a n ts t e pd u r i n gd a t ai n t e g r a t i o nw h i c he x e c u t e sd a t ai n t e g r a t i o n d r i v e nb ym e t a d a t a t h u s ,t h a th o wt od e s c r i b e ,s t o r ea n dm a n a g em e t a d a t ai sv e r yi m p o r t a n t i n t h i sp a p e r , a ne t lp r o c e s si sd e s c r i b e dl o g i c a l l ya n das i m p l i f i e ds t o r em o d e lo fe t li s p r e s e n t e d i no r d e rt oi n c r e a s ed a t ar e l i a b i l i t y , t h ec a u s ea n de f f e c tm u s tb ec o m p r e h e n d e di nd a t a i n t e g r a t i o n ,i ti se x p l a i n e di ne x a m p l et h a th o wt or e a l i z et h et r a c i n go fad a t ap e d i g r e ei nt h i s p a p e r k e y w o r d s :m e t a d a t a , m e t a d a t am a n a g e m e n t ,e t l ,d a t ap e d i g r e e ,s o f t w a r ee x t e n s i b i l i t y i i 东南大学学位论文 独创性声明及使用授权的说明 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了 谢意。 签名;童坐鑫日期:鲨兰:壅。 二、关于学位论文使用授权的说明 东南人学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和 纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布f 包 括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 签名:挺导师签名:i 毒童鱼堡l 日期:一 第一章引言 1 1 背景 第一章引言 随着企业信息化的深入,许多企业已经拥有了大量的业务系统。但是随着市场竞争的日 益激烈,企业内的数据不再是单纯作用于事务管理,而是被集成到数据仓库中,以便从中提 取出有用信息,帮助企业在各个层次上对业务管理和发展上做山战略性或战术性决策的支 持。在数据集成过程中,大量的数据被组织起来,形成一个巨大的数据信息供应链网络。为 了对这个网络实施有效的管理和维护,系统需要了解数据生产者的组织结构信息、管理和维 护方法,需要让数据使用者能够理解数据的意义、用法等等。这些信息就是元数据。 元数据最简单的定义是描述数据的数据( d a t aa b o u t d a t a ) 。具体来说,元数据是指描述 了所有来自企业内外的物理数据和知识( 包括员下头脑中和媒介中记录的) 的数据。如数据 的格式、业务过程、数据的规划和约束等等。元数据实际上就是知识( k n o w l e d g e ) ,包括 系统、业务和市场知识。 元数据一股分为两类:技术元数据利业务元数据。技术元数据( t e c h n i c a lm e t a d a t a ) 是 为企业技术用户和i t 开发人员提供支持的元数据。它对于维护和改进信息系统来说是至关 重要的,帮助后续人员快速掌握原有系统的结构、开发方法,为后续版本制定计划。而业务 元数据( b u s i n e s sm e t a d a t a ) 是为企业业务用户提供支持的元数据。通过业务元数据,业务 人员可以掌握系统中的数据信息的线路图,并且能够用业务术语来表示这种线路图。由于对 数据的来龙去脉掌握得比较清楚,从而增强最终数据用户对数据的信任度。 早期的元数据管理系统一般由业务操作系统开发商开发,如早期的数据字典。它们比较 关注对技术元数据的描述,而忽视对业务数据的描述。后来,元数据管理系统从单一的独立 体系结构发展到分布式结构、集中式结构以及联邦式结构,从一定程度上解决了数据集成中 的元数据管理问题,但是由于备元数据库之间结构各异,对元数据表示方法的不一致,从而 造成了元数据交换上的困难,也大大增加了工作量。因此,有必要提山一个框架来实现管理 数据集成过程中所涉及的所有元数据,以及解决不同元数据库之间的元数据交换和共享的问 题。 在元数据发展过程中,建立一种元数据标准是有效解决元数据互通的关键。c w m 是 o m g 采纳的一个使用共享元数据的集成数据仓库和业务分析工具的开放式行业标准。它完 整地描述了数据仓库和业务分析领域的元模型,并为每个子领域独立定义了不同的子模型。 通过对c w m 的子模型的组合,可以完成对某一领域的描述。然而c w m 没有涉及元数据管 理的策略和实现的体系框架,因为这依赖于元数据管理的具体需求和实现场景。 在当前高校信息化过程中,许多业务系统需要一些公共的数据,如学生信息、国家专业 分类标准等。这些数据在不同的系统中各自维护,显然会存在数据冗余、不一致性等问题。 因此在校园范围内实施共享数据库平台,集成各系统中的共享数据到共享数据库,并为需要 这些数据的系统提供准确的即时的数据。通过共享数据库平台,规范了全校的信息编码,整 合了各应用系统的数据,实现系统问的数据交流与共享;集中管理了学校的公共数据资源; 提供了各种数据分析以支持学校的管理决策形成。所有这些功能的实现,元数据都是十分重 要的一个环节。本文以共享数据库的数据集成力式为基础,并且参考了c w m 标准,提出了 一个覆盖数据集成过程的元数据管理框架。 在元数据管理领域中,元数据查询功能是技术用户和业务用户都最为关心的问题。在系 统开发初期,不可能预见到所有的元数据查询功能。而且随着时问和对业务需求的发展,元 数据布询需求可能会不断增长,因此有必要在查询功能上具有一定的灵活性和扩展性。 e t l 过程是一个以元数据为驱动的过程,元数据在e t l 中扮演一个指挥者的角色。e t l 过程元数据对数据的谱系跟踪有着极为重要的作用,因此有必要在e t l 工具的元数据建设 东南大学硕士学位论文 过程中注意这方面的要求。 1 2 相关研究 目前关于元数据管理工具的研究主要集中在数据仓库中和e t l 工具中的元数据管理。 在e t l 工具的元数据管理领域,许多e t l 厂商如a s c e n t i a l 的d a t a s t a g e p “,l n f o r m i x 的 p o w e r c e n t e r 3 3 1 等e t l 工具对其自身的元数据管理都有相对较为成熟技术,但是这种技术并 不能延伸到整个数据集成系统。一些数据库厂商如o r a c l e 、i b m 等为数据集成过程提供了一 整套元数据管理方案,但是这种方案有着种种限制,如e t l 过程的数据目标只能是该套件 中所提供的数据库,而这在数据集成中是难以忍受的。因此摆脱对其他下具的依赖,对数据 集成过程中的元数据进行第三方管理也是目前元数据管理工具的研究热点。如m e t a s t a g e t ”j 和m e t a c e n t e r 3 4 1 等元数据管理工具在这方面做出了有效的探索。 在分布式的元数据管理中,文献【7 】中讨论了采用代理来完成对分布式元数据的管理, 它们之间可以共同完成元数据的交换、查询等工作。文献 8 】提出了采用三层结构,并使用 r d f 来自描述元数据。通过发布厨阅模式来实现将元数据获取到本地元数据库,从而加速 查询速度。文献【9 】提出了一种动态选择数据源的元数据查询方法。根据对数据源的描述和 查询花费模型( c o s t m o d e l ) ,元数据包装器自动为查询请求选择最佳元数据源。 为了能够实现在不同的元数据库之间完成元数据的交换,元数据标准化工作也是当前的 研究重点。在两大组织m d c 和o m g 的努力下,曾经出现了两个元数据标准一o i m 和 c w m t 3 “。目前m d c 已经和o m g 合并,将全力推动c w m 的发展。c w m 利用u m l 、m o f 和x m i 等技术对数据仓库中的技术元数据和业务元数据进行建模、访问和交换。 1 3 本文的组织结构 本论文将按如下方式进行组织:第二章首先介绍在元数据管理系统框架中所用到的一些 相关技术;第三章提出了在数据集成环境中的元数据管理系统的体系框架结构:第四章介绍 在元数据管理系统中的一些关键技术;第五章对全文进行了总结。 2 第二章相关技术 2 1 元数据标准 第二章相关技术 元数据标准从内容上大致可以分为两类:一是元数据建模,通过建立元数据建模标准, 使建模工具所产生的元数据能够按照一定的规范来定义,从而保证元数据的一致性和简单 性;二是元数据交互,对已经存在的元数据,定义一个规范的交互格式,从而实现不同元数 据系统之间的交互。 2 1 1 元数据标准的重要性 在元数据标准被采纳之前,元数据的交互十分困难,任意两个元数据工具之问都需要建 立专门的元数据交互规范来完成元数据交互,如图2 - 1 所示。 匿一犀 : 匡一匿 图2 - 1 无元数据标准时的元数据交互 如果存在元数据标准,那么各个元数据工具都能够按照标准来实现元数据的建模和导出 规范的元数据进行报文的交互,那么工作量将明显减少,并且有效提高元数据的质量,如图 2 - 2 所示。 图2 - 2 采用元数据标准后的元数据交互 2 1 2 元数据标准的目标 采用一个统一的元数据标准对于解决当前业务中存在的很多i t 难题而言至关重要。标 准元数据模型首先需要实现以下两个重要目标: 工具间元数据共享 工具间互操作 2 1 2 1 工具间元数据共享 如果可以将企业中的所有元数据无缝地集成到一个架构完整元数据仓储中,那么这将是 一个完美的元数据集成t 具。然而,这种理想的工具是不存在的。在当今的元数据集成体系 结构中并不能实现产品间的无缝集成,能够真正做到元数据集成的也只能是某个公司的系列 一3 一 东南大学硕士学位论文 产品之间的集成。大多数公司在选择工具的时候,他们将选择独立的晟合适他们的工具,而 不是将完整的工具套件用于起决策支持项目。尽管根据这一原则来构建决策支持系统是合理 的,但它也引出了一些技术难题。因为最佳的工具之间通常没有相互集成,彼此之间互相传 送数据即使可能,也不会很容易。即使这些工具间有集成的可能,通常也需要针对特定资源 并手动地编辑,才能使他们共享数据。为了构建工具间的接口,一些互补的工具生产商们组 成联盟以期赢得整体战略目标。无可否认,这些联盟有存在的价值,但是他们通常没有提供 丁具间元数据的完全共享,这是因为工具生产上很难为其自身软件的每个版本和联盟开发商 软件的每个版本提供接口的同步更新。 一旦元数据模型标准建立并被广泛接受,如图2 一l 和图2 - 2 中所示,这些t 具间共享数 据所需的接口数量将大大减少。接口数量的减少将减少工具间的依赖性,增强工具的开发维 护效率,如果这些接口能够成为标准特性,那么工具之间的元数据共享将不再成为难点了。 诸如客户关系管理和决策支持之类的复杂软件虑片j 通常涉及到多种类型的数据,根据不 同组织的不同数据需求,这些数据从范围广泛的来源获取并进行转换。在元数据标准建立并 被广泛采纳之前,企业仍然需要一个集成策略把各种元数据源数据组织到一起。工具间的数 据共享问题是阻碍一些机构成功实施d s s 的一个主要因素。 2 1 2 2 工具间互操作 标准元模型允许将生产商工具加入到模型中,以支持双向元数据。当前,实现双向元数 据是一项非常具有挑战性的任务。双向元数据( b i d i r e c t i o n a lm e t a d a t a ) 是指在标准元模型 仓储中可以改变并反馈给第三方工具的元数据。例如,如果用户浏览仓储并改变某一d s s 数据集市中的属性名称,该变动将反馈到数据建模工具,以便针对这个特定的数据及时更新 物理数据模型。当元数据是双向时,就能够在集中式的数据仓储中管理所有t 具,从而真正 实现工具之间的互操作。如图2 3 所示。 集中式 元数据维护 图2 - 3 工具问互操作 4 酬 第二章相关技术 2 1 3 良好元模型标准的构成 近几年,随着元数据联盟m d c ( m e t ad a t ac o a l i t i o n ) 的开放信息模型o i m ( o p e n i n f o r m a t i o nm o d e l ) 和o m g ( o b j e e tm a n a g e m e n tg r o u p ) 组织的公共仓库模型c w m ( c o m m o n w a r e h o u s em o d e l ) 标准的逐渐完善,以及m d c 和o m g 组织的合并,为数据仓库厂商提供 了统一的标注,从而为元数据管理铺平了道路。 虽然在i t 业界内部对这些构成一个良好元数据标准的具体内容尚未达成一致,但是几 乎所有的人都赞同标准应该独立于任何具体的技术、平台或生产商的实现。同时,元模型标 准要获得成功( 即得到广泛的应用和实施) ,就必须有大多数的主要软件生产商参与写作开 发。具体如下所示: 1 、技术独立 完善的元模型标准不应该给予任何特定的技术限定,或者必须在某种特定平台 上才能实现。例如,只要对元模型作一些针对具体环境的小调整,标准就应该可以 在大型机、u n i x 或者w i n d o w sn t 等环境下实现。 2 、生产商中立 由于元模型的目的就是为了在不同生产商之间建立一个共同的标准,因此元模 型标准必须有所有主要的软件生产商协作开发。而且最重要的是,在设计标准时不 应该偏向任何特定的生产商。 3 、范围现实 在标准制定的初期,不应该试图将所有的元数据都包含到标准内。为了小部分 的问题而付诸了大量的时间和精力,这是得不偿失的并且使标准不能得到真正的 落实。好的标准虑设法获取企业所需的元数据中的9 5 ,剩下的5 完全可以留待 咀后时机成熟时再完成。 4 ,广泛实簏 对于任何标准来说,最重要的都是应该被j “泛实施。市场因素比前面提到的任 何其他因素都更为重要,因为它将最终决定哪个标准称为现实标准( 例如,微软的 w i n d o w s 和i b m 的o s 2 ) 。仅仅停留在纸面上的标准没有任何价值。 2 1 4 元数据标准c w m 模型 c w m 模型既包括元数据存储,也包括元数据交换,它是基于u m l 、m o f 和x m i 三 个工业标准制定的。u m l ( u n i f i e dm o d e l i n gl a n g u a g e ,统一建模语言) 对c w m 模型进行 建模,m o f ( m e t a o b j e c t f r a m e w o r k ,元对象框架) 是o m g 元模型和元数据的存储标准, 提供在议购环境下对元数据知识库的访问接v i ,x v i i ( x m lm e t a d a t ai n t e r c h a n g e ,x m l 元 数据交换) 可以使元数据以x m l 文件的方式进行交换,即提供利用x m l 交换元数据的机 制。 u m l 是一种描述明确、可视化、构造化和文档化系统制品的语言。它提供了组成构造 块和结构良好规则的面向对象的建模语言。u m l 还可以为一个系统的不同方面进行建模, 如结构建模、用例建模、行为建模。在元数据建模中,我们只需要一个静态结构建模。静态 结构的核心元素是类( c l a s s ) ,对象( o b j e c t ) 、属性( a t t r i b u t e ) 和操作( o p e r a t i o n ) 。这和 编程语言c + + 中的面向对象十分类似,但是在u m l 中,这些都以图形化的方式显示,因此 有利于开发人员在设计过程中提高效率,增加可靠性。 m o f 是一个用米指定、构造、管理、交换和继承软件系统中的元数据的模型驱动的、 分布式对象框架。此框架的作用是支持各种类型的元数据,并可以在需要时添加新类别的元 数据。元数据本身是一种数据,它也可以被其它数据描述,这就是元模型,同理,描述元模 型的数据称为元元模型,也叫m o f 模型。理论上,还可以进一步抽象,但由于m o f 模型 东南大学硕士学位论文 是自描述的,所以,传统元数据最高层就是m o f 模型。冈此m o f 采用四层元数据体系结 构,即所谓的o m g 元数据体系结构,如表2 一l 所示。 元层次m o f 术语 示例面向对象概念举例 m 3 元一元模型m o f 模型抽象类的定义 m 2 元模型、元元模型u m l 元模型、c w m 元模型抽象表的定义 m 1 模型u m l 模型职员表的定义 m 0 对象、数据数据库数据职员表中的一条记录 表2 1o m g 元数据体系结构 c w m 元模型的构造就遵循m o f 规范,并利用m o f 映射成i d l 接口或x m l 文档,从 而通过c o r b a 接口或x m l 进行元数据交换,这人夫增加了c w m 的通用性和扩展性。 如图2 4 所示,c w m 元模型是对数据仓库和业务分析领域的一个完整的元模型表示。 其中,又包含了许多不同但密切相关的元模型,每个元模型表示了整个数据环境下的一个子 领域。在实际使用过程中,如果我们要使用其中某一个c w m 包,那么我们只需要了解该包 和与它相关的包即可,其他的包可以忽略。因此,采用这种方式可以较好地解决元数据管理 系统中的可扩展性问题。 管理层 分析层 资源层 基础层 对象模型层 2 2x m l 技术 数据仓库处理包 数据仓库操作包 o l a p数据 信息业务命名 转换包 处理报 挖掘包可视化包规则包 对象包 关系型包 记录包 多维包x m l 包 业务 数据 表达式包 键和软件类型 信息包 类型包索引包配置包映射包 核心包行为包关系包实例包 图2 4 c w m 元模型 x m l ( e x t e n s i o nm a r kl a n g u a g e ) 同大家熟悉的h t m l 一样,是s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ) 的一个子集。但是x m l 与h t m l 不一样的在于:h t m l 适合 作为数据表示语言,而x m l 作为基于树型结构的数据表示语言来没计的。并且,和h t m l 相比,x m l 文档更具有形式化、简洁( 即机器可处理) 、清晰( 即人类可理解) 的特点。 x m l 剔除了s g m l 的非本质特征而保持了自描述性这个重要特征。这使x m l 去定义统一 的电子交换数据标准成为可能。由于x m l 的跨平台等开放特性,w 3 c ( w o r l dw i d ew e b c o n s o r t i u m ,负责维护和发展h t m l 以及其他w e b 相关的标准组织) 已经推荐其成为开放 技术标准。 x m l 以一种基于文本的机制来表示带有结构信息的数据,以便准确地创建和解释数据。 x m l 使用类似h t m l 的基于标签的方法处理联机内容的显示。如图2 5 所示: 6 第二章相关技术 元数据研究与应用 张晓林 a u t h o i 2 0 0 2 北京图书馆出版社 7 - 5 0 1 3 一1 9 0 0 - 6 图2 5 x m l 简单示例 然而,在x m l 文件中,标签主要用来限定文档的层级,至于它的意义,是由使用者或 是程序来决定。而对比之下的h t m l 中,只要看到 ,不管这个标签是在文件的 哪里出现,标签之间的文字,就会使用“标题1 ”的格式来显示,而在如上图所示的x m l 中, 这二组的标签,由于其位置不同,其所代表的含义也不同。第一组 代表的是 也就是书的名称。而第二组则代表的是该节的作者的名 字。也就是说在x m l 文件中, 这个标签,并没有被完全指定其意义,它出现的地 方不同,意义就不同。由于x m l 这种表示数据的灵活性,如果不同系统之间的导入导出数 据按照上述形式来存放,那么各系统之间的数据交换将不再是梦想,这也是x m l 称为“元 语言”( m e t a - l a n g u a g e ) ,也就是说是用来定义“语言的语言”的原因。 与x m l 体戚相关的一个重要概念还有d t d 。它是x m l 文档的良构性和有效性的保证。 d t d 的意图在于定义x m l 文档的合法构建模块它通过一系列合法元素来决定了x m l 文 档的内部结构。d t d 能够在你自己的x m l 文档内部声明,也可以作为外部来参照。通过 d t d ,每个x m l 文什都能保存使用d t d 格式化的数据描述:独立于使用者,并使用共同 d t d 达到数据交换之目的。 图2 :5 巾所示x m l 文件的d t d 可扩展性 在任何体系结构中,可扩展性是一个软件具有强大生命力的重要特征。如果元数据 管理体系结构在被构造后不能随着时间的推移进行扩展的话,那么这种元数据管理系统 将很快过时,从而被淘汰。 健壮性 与任何其它系统一样,元数据管理系统必须提供足够的功能和较高的性能来满足其 所服务的机构的要求。体系结构必须能够同时支持业务用户和技术用户的元数据需求。 元数据管理系统所需的一些功能包括: 处理时间触发或活动触发事件的能力: 导入导出能力; 东南大学硕士学位论文 数据谱系的支持; 安全性设置和授权机制: 归档和备份机制; 生成业务和技术报表的能力; 可定制性 在数据集成系统中,数据集成的来源可能会发生变化,包括数据源的增加、减少和 更新等,从而其相应的元数据也将随之发生变化。如果元数据管理系统能够实现可定制 性即根据不同的数据源,只需要经过一定的配置即可适麻该数据源元数据管理的需求, 那么在数据集成项目中实现元数据管理将人人提高效率。 在实际情况中,许多元数据解决方案对于体系结构的要求过丁- 严格,以至于不能满 足任何公司的个性化要求。就元数据解决方案而言,是不存在“放之四海而皆准”这种 情况的。为做到切实有效,需要对这些预打包的解决方案进行相当程度的定制,经过裁 减使之能用于各个具体的业务环境。 开放性 元数据集成和访问处理过程所使用的技术必须是开放灵活的。例如,用于存储元数 据的数据库通常是关系型的,但是元数据体系结构应该具有足够的灵活性,允许公司从 一个关系数据库转到另一个关系数据库而不需要在体系结构上进行大规模改动。 另外,开放的元数据管理体系结构使得公司能够在外部共享元数据。最重要的是, 所有用户都可以访问它。例如,如果一个公司决定让所有的元数据报表支持w e b 方式, 那么在访问这些报表时就麻该能使用任何标准的w e b 浏览器。 3 3 现有典型的元数据管理系统框架 目前,在网络计算环境下的元数据管理系统领域存在三种典型的框架结构:分布式、集 中式、联邦式。 3 3 1 独立分布式结构 独立分布式结构是一种最简单的元数据交换场景。在早期,由于各系统的开发基本相互 独立,彼此之间没有太多的联系,从而导致了大量分布、自治、异构的元数据库共存。因此 它们的元数据管理也采用典型的独立分布管理模式,即系统各自维护自身元数据。后来随着 时间的推移,不同系统之间的元数据共享要求被提上日程。但是由于不同系统的元数据表示 方式、表示格式可能各不相同,因此需要在不同系统之间建立一个元数据共享通道,提供共 享接口。但是随着加入元数据共享平台的系统数目的增加,各系统之间的接r _ | 越来越多,这 种维护工作也大大增加,因此这种结构在目前情况下已经不太被采用了。 图3 2 独立分布式结构 3 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论