




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库元数据集成与转换工具的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要元数据是数据仓库的灵魂。它不仅提供了数据仓库中的数据结构,也提供了数据仓库的构建和使用规则。为了使数据仓库中各个软件能够无缝地合作,必须在元数据层进行有效的集成。所以,本文着重研究了元数据集成与转换的策略和技术实现,从而完成元数据的汇集与共享。本文首先探讨了元数据集成的架构和元数据的存储模式,然后在此基础上设计了一个基于联邦式的元数据集成与转换工具,最后在技术上对该工具加以实现。本文的研究成果如下:( 1 ) 探讨了数据仓库中元数据的意义、范畴和管理原则。( 2 ) 在设计部分,通过讨论元数据集成策略和存储模式,设计了一个基于联邦式的元数据集成与转换工具的架构,并提出了一种元数据汇集方案,用于解决局部元数据仓储向全局元数据仓储集成问题。( 3 ) 在实现部分,首先探讨了元数据转换工具的作用和技术实现,然后提出了一种基于关系型数据库存储的模型集成的方法和策略并加以实现,最后提出一种用来同步局部元数据仓储和全局元数据仓储的元数据双向迁移方案。本文提出的元数据集成和转换工具,在策略和技术上实现了联邦式的元数据管理架构,在元数据的汇集、共享和有效管理方面的做出了有意义的探索。关键词:数据仓库;元数据;联邦式架构;集成:转换分类号:t p 3 1 1 1 3a bs t r a c tm e t a d a t ai st h es o u lo fd a t aw a t c h o u s e i tp r o v i d e sd a t aw a r e h o u s en o to n l yd a t as t r u c t u r e ,b u ta l s ot h eb u i l d i n ga n du s i n gr u l e s i no r d e rt om a k ee v e r yt o o li nd a t aw a r e h o u s ec o o p e r a t es e a m l e s s l y , i tm u s tb ee f f e c t i v e l yi n t e g r a t e di nm e t a d a t al a y e r t h e r e f o r e ,t h i sp a p e rf o c u s e so nt h es t r a t e g ya n dt e c h n o l o g yo fm e t a d a t ai n t e g r a t i o na n dt r a n s f o r m a t i o n ,t h u sc o m p l e t i n gt h em e t a d a t ap o o l i n ga n ds h a r i n g i nt h i sp a p e r , t h er e s e a r c hr e s u l t sa r ea sf o l l o w s :( 1 ) d i s c u s st h es i g n i f i c a n c e ,s c o p e ,a n dm a n a g e m e n tp r i n c i p l e so fm e t a d a t ai nd a t aw a r e h o u s e ( 2 ) i nt h ed e s i g np a r t ,b yd i s c u s s i n gm e t a d a t ai n t e g r a t i o ns t r a t e g ya n ds t o r a g em o d e ,w ed e s i g naf r a m e w o r kf o rf e d e r a lm e t a d a t ai n t e g r a t i o na n dt r a n s f o r m a t i o nt o o la n dp r o p o s eam e t h o df o rm e t a d a t ap o o l i n g ,u s i n gw h i c hw ec a nm a k eas o l u t i o nt oi n t e g r a t i o no fm e t a d a t af r o ml o c a lm e t a d a t aw a r e h o u s et oc e n t r em e t a d a t aw a r e h o u s e ( 3 )i nt h er e a l i z a t i o np a r t ,w ed i s c u s st h er o l ea n dt e c h n o l o g yo fm e t a d a t at r a n s f o r m a t i o nt o o l ,t h e nw ep r e s e n tam e t h o da n ds t r a t e g yf o rm o d e li n t e g r a t i o nb a s i n go nr e l a t i o n a ld a t a b a s ea n dm a k ei tt or e a l i t y , f i n a l l yat w o w a ym i g r a t i o nm e t h o di sd e s i g n e dt os y n c h r o n i z et h el o c a lm e t a d a t aw a r e h o u s ea n dc e n t r em e t a d a t aw a r e h o u s e t h em e t a d a t ai n t e g r a t i o na n dt r a n s f o r m a t i o nt o o lw h i c hi sp r e s e n t e di nt h i sp a p e r ,m a k et h es t r u c t u r eo ff e d e r a lm e t a d a t am a n a g e m e n tt or e a l i t yi ns t r a t e g ya n dt e c h n o l o g y a n di tw o u l db eam e a n i n g f u le x p l o r a t i o ni nt h ef i e l do fm e t a d a t ac o l l e c t i o n ,s h a r i n g ,a n dm a n a g e m e n t k e y w o r d s :d a t aw a r e h o u s e ;m e t a d a t a ;d a t aw a r e h o u s es c h e d u l i n g ;w o r k f l o w ;c w mc l a s s n 0 :t p 3 1 1 1 3学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。( 保密的学位论文在解密后适用本授权说明)学位论文作者签名:舀恽l签字日期:力谚年乡月力同导师签名:签字同期:2 i 譬年衫月2 侣独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者躲参坪签字吼2 略年月加致谢光阴似箭,转眼间岁月匆匆而过。两年来在学识渊博的老师们的谆谆教诲下,在实验室众多师兄、师姐帮助中,我学到了丰富的专业知识和不懈追求、努力探索的科研精神,这些宝贵财富使我受益终生。在此要特别感谢我的导师林友芳副教授,与林老师结识并有幸师从于他开启了我生命中的重要转折。在整个研究生学习期间,林老师严谨的治学态度和科学的工作方法潜移默化地影响着我,他勤奋、踏实的研究精神时时刻刻鞭策着我;林老师悉心指导我们完成一系列的科研工作,在学习上和生活上都给予我莫大的关心和帮助,在此真诚地对林老师表示深深的谢意!在课题研究和相关项目进展期间,也得到黄厚宽教授的诸多指导和帮助,在此对黄老师表示衷心的感谢。在实验室工作及撰写论文期间,与同一课题研究组的杨在申、牛筱峰同学丌展了多次卓有成效的讨论,在此向他们表达我的感激之情。最后深深感谢艰辛中任劳任怨的父母,勤劳朴实的他们给了我无私的爱和无尽的支持,也给了我永远的激励去回报他们的殷殷期盼!1 1 课题背景和意义1 绪论随着全球化进程的逐步深化,企业内部与外部的联系日渐紧密,甚至融为一体,这种变化也深刻影响着企业的组织结构。企业必须使自身的业务精简化、自动化,以求内部与外部业务系统应用的无缝连接。然而多年“自发 式的信息化建设,企业信息内部缺乏“自觉”的信息系统总战略规划,致使局部需求得到满足的同时,无法实现对整体业务运作和流程管理的全面控制。企业迫切需要具有一种能够轻松访问特定商业实体信息的能力,通过建立底层结构,来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部系统之间无缝地共享和交换数据的需要【引。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域中,已经有了成熟的框架可以利用。但在实施数据共享的过程当中,由于数据源的异构性、分布性、自治性引起的数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对数据进行有效的集成管理是构建数据集成系统的核心问题。元数据是描述数据的数据,或者说是与数据有关的信息,是数字信息组织和处理的基本工具,是理解数据含义和如何使用数据的关键。所以,每一个软件产品和工具能够在数据层进行有效集成的前提是,它在元数据层就必须被有效集成。所以对数据仓库元数据集成和转换工具的研究是非常有意义的。1 2 数据仓库简介为了更加明确数据仓库中元数据的来源和作用,我们首先要对数据仓库的架构以及数据在数据仓库中的流动和使用有比较直观的了解。( 1 ) 数据仓库的特点数据仓库是一个面向主题的、集成的、相对稳定的、随时间变化的用来支持管理人员决策的数据集合f 3 l 。面向主题不同于操作型系统围绕业务组织数据且各操作型系统彼此分离的特点,数据仓库的数据是按照主题进行组织的。所谓主题,就是用户使用数据仓库进行决策时重点关注的方面,如顾客、产品等,一个主题,通常与多个操作型系统相关。集成的不同数据源中的数据存在编码、命名习惯、物理属性、度量单位等方面的不同,所以业务数据在进入数据仓库之前必须进行集成,即采用某种方法使其统一,从而保证数据仓库内的信息是企业全局一致的。相对稳定的操作型数据库的数据一般需实时更新,而数据仓库中的数据通常是以定时、批量的方式载入和访问的,且其应用主要限于查询,很少涉及修改和删除,所以相对稳定。随时间变化的数据仓库中的记录都包含某种形式的时间标志,用以说明数据在哪一时间是准确的,并且数据仓库中的数据通常是历史信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。( 2 ) 数据仓库体系结构数据仓库不是静态数据的积累,只有将信息加以整理归纳和重组并及时提供给相应的管理决策人员,供他们做出改善其业务经营的决策,数据仓库才能发挥作用。所以说,从产业界的角度看,数据仓库的建设是一个工程,更是一个过程。整个数据仓库系统是一个包含五个层次的体系结构,具体如图1 1 所示。数据源层数据源是数据仓库系统中所有数据的源泉,也是整个数据仓库系统的基础。数据源有很多种类,不仅包括操作型数据库,也有可能是一些文档格式的数据,通常包括企业内部核心系统中的信息和其它系统中信息。数据采集层数据源层的数据进入数据存储与管理层之前,必须经由数据采集层。一方面,数据源层的数据来自于企业内部各部门子系统和其它业务系统,其业务处理周期和处理方式存在较大差异;而且由于缺乏统一标准,这些信息在命名规则、数据类型等许多方面都不一致。另一方面,数据仓库中应该存放面向主题的数据,而数据源中的数据都是细节的,不满足要求。通过数据采集层,可以解决这两个问题。数据采集层的主要工作是抽取、传输、转换和加载,又称为e t l ( e x t r a c t 、t r a n s f o r m a t i o n 、l o a d i n 蓟。通过这个过程,可以保证数据源中的数据正确、及时、符合要求地进入下一层。2厂、吲企业核心系统曰苴他系统圃e t l日务器囝。卧f数据集市分u 殛、l 。i皿蟛l 。服务器数据汇总区 j一国;甄分、数据整台区习w 乩f 1 户数据存储l 、一服务器腽鲁器、一“一闯业-建辑,、曼贫析人员斑蔷员柿i 田。,5 纛,“皇毒,名牵跚衄黜嘲;匆雹雹圃碎| 红衄衄嬲墨墨蕊蕊盔盈囫豳盟宓卿i 牵盔雹皿哮 审墨幽盈固囫固圈蹬豳盘唪数据源层l 数据采集层;数据存皓与管理层t 碉服务层 门户管理与最终用户层漱统信息:e t i 趟涅:d 憔息:应用月虽务层信息:f 驴管里信息:戆差璧塑珊蜊萎蠹型耀謦型黼结构m 关眦射旨标姓认证檄鍪篓塑e r 麟:信息数据字典瓣筛趟丽黼业务数据结构麴避捌嫠壁一一瓣每苗于弑鞘绪淘数据涪洗规则数据库目录一。8元数据管理图l - 1 数据仓库的一般体系结构f i g u r e1 1g e n e r a la r c h i t e c t u r eo fd a t aw a r e h o u s e数据存储与管理层数据的存储与管理是数据仓库的核心。一般来说,数据源中的数据通过抽取、传输、转换和加载,经由操作型数据存储( o d s ,o p e r a t i o n a ld a t as t o r e ) ,进入数据仓库,从而将分散在数据源中的数据按主题的方式组织集成到数据仓库中。数据仓库中存放了集成后的企业全局信息,这些数据是详细的、事务级的企业数据。而数据集市也称为小数据仓库,被设计用来提供快速的用户访问。其中数据可以来自数据仓库,也可以直接取自企业的操作型系统。数据集市是部门级数据的集合,通常被设计用来满足特定的、性质相同的业务用户群( 例如市场、财务、人力资源等) 的需求,而数据集市中的数据通常是概括性的,适用于具体的报表需求。 :应用服务层存储与管理层的数据通过应用服务层,向外界用户提供服务,从而实现访问方式的多样化和信息存取的透明化。所以,这一层中包含了多种服务器,主要有o l a f 服务器、w e b 服务器、应用服务器等。其中o l a f 服务器用于以支持决策分析前数据须按多维模型的方式予以组织的需求,这样就可以进行多角度、多层次的分析,从而发现变化趋势,实现决策支持。门户管理与最终用户层按照用户使用数据仓库的方式和特点,可以将数据仓库的用户划分为业务人员、业务分析人员、决策人员和知识工作者等。该层为数据仓库终端用户提供统一的门户、安全认证和用户权限管理,并为用户的报表管理、文档查询提供个性化的定制。可以看到,数据仓库各层次协调工作,完成了两个重要的任务。一方面,它们共同保证了数据正确地从数据源端流向用户端。另一方面,各层分别产生的元数据,记录了数据仓库中关于数据的各种行为,通过修改这些元数据,还可以反作用于数据仓库,调整其行为。每个层次都提供了不同种类的元数据。数据源层提供了关于数据源所在系统的元数据,数据采集层提供了源于e t l 过程的元数据,数据存储与管理层提供了关于数据仓库信息的元数据,应用服务层提供了关于应用服务信息的元数据,而门户管理与最终用户层则提供了关于门户管理信息的元数据。1 3 元数据简介在数据仓库的不同层次会产生不同种类的元数据,管理好这些元数据对数据仓库的构建和使用有非常重要的意义。1 3 1元数据的概念按照传统的定义,元数据( m e t a d a t a ) 是关于数据的数据。在数据仓库系统中,元数据是描述数据仓库的数据结构和建立方法的数据,它可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据。1 3 2元数据的分类按用途的不同可以将元数据分为两类,即技术元数据( t e c h n i c a lm e t a d a t a ) 和4业务元数据( b u s i n e s sm e t a d a t a ) 【6 1 。( 1 ) 技术元数据技术元数据是存储关于数据仓库系统技术细节的数据。使用技术元数据可以帮助开发和管理数据仓库,它主要包括以下信息。操作环境到数据仓库环境的映射,包括数据源中的数据以其内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全。汇总用的算法,包括度量和维定义算法,主题领域、数据粒度、聚集、汇总、预定义的查询与报告。关于数据仓库结构的描述,除了包括仓库模式、视图、维、层次结构和导出数据的定义外,还包括数据集市的位置和内容。关于业务系统、数据仓库和数据集市的体系结构和模式的信息。( 2 ) 业务元数据业务元数据提供了介于使用者和实际系统之间的语义层,它通过从业务角度描述数据仓库中的数据,使不懂计算机技术的业务人员也能够清晰地了解数据仓库中的数据。业务元数据主要包括数据的访问原则和来源,使用者的业务术语所表达的数据模型、对象名和属性名,公式和报表的信息以及系统所提供的分析方法。具体包括以下信息。企业概念模型企业概念模型表示企业数据模型的高层信息、整个企业的业务概念和相互关系,是业务元数据所应提供的重要信息。即使是不懂数据库技术和s q l 语句的业务人员,只要以这个企业模型为基础,就能对数据仓库中的数据做到心中有数。多维数据模型多维数据模型是企业概念模型的重要组成部分,通过多维数据模型,业务分析人员可以知道在数据集市中存在哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。业务概念模型和物理数据之间的依赖业务元数据除了包含表示数据业务视图的数据,还应该包括这些业务视图与实际的数据库或数据仓库、多维数据库中的表、字段、维、层次等之问的对应关系。1 3 3元数据在数据仓库体系结构中的作用数据仓库的元数据作用于数据仓库系统的设计、建立、使用和维护等各个环5节之中,元数据在数据仓库项目中担当着重要角色,是数据仓库项目能否成功开发、实施的一个重要环节。元数据在数据仓库体系结构中的作用主要体现在以下几个方面。( 1 ) 元数据在数据集成中的必要性数据仓库平台涉及许多工具,如果这些工具统一采用公共的元数据模型,那么对它们进行集成将会非常方便。另一方面,数据的集成也依赖于源数据和目标数据的结构信息、源数据到目标数据的转换规则等元数据。( 2 ) 元数据提高系统灵活性企业的需求随着信息技术的发展和企业职能的变化也在不断改变,元数据记录了整个系统中的数据流动信息。这样便于新增应用的设计和规划,使系统不依赖特定的开发人员,从而提高系统的可扩展性。( 3 ) 元数据便于用户对数据仓库的理解元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译 出来,从而帮助最终用户理解和使用数据,使企业的决策层能更快地做出决策。( 4 ) 元数据是保证数据质量的关键数据抽取的转换规则是多而复杂的,通过元数据可以有效地管理转换规则,使全量数据抽取和增量数据抽取保持转换规则的一致性,并能动态跟踪转换规则变更的踪迹以及元数据库和数据仓库之间的映射历史,保障数据仓库能源源不断地装载高质量的数据。1 4 论文研究内容和意义元数据管理的范围涉及数据仓库的整个环节,元数据管理系统架构是与企业数据仓库架构并行的体系,因此,元数据管理本身是一个完整的数据信息管理系统,而元数据管理的内容也涵盖了从需求分析、功能定义到设计、开发、应用、维护的整个过程。目前市场上已经存在一些元数据管理工具,这些元数据管理工具虽然声称可以把所有的元数据来源无缝集成到一个架构完整的仓储中,但是这种理想情况根本不存在。当今的元数据集成产品提供的仅仅是对特定的局部元数据的管理,将这些产品简单地捆绑在一起,不能实现产品间的密切配合,更不能实现元数据层的无缝集成。所以,元数据管理领域迫切地需要一种全局性的管理架构和管理策略。针对这一需求,前人做出了许多努力。元数据相关组织已经提出三种元数据管理架构,但是实际上并没有可以直接应用的方案,后来,虽然一些组织和个人6对架构进行了补充和改进,但大多过分依赖元数据标准,缺乏对企业实际情况的考虑。所以本文将针对这一情况,设计一个全局的集成架构以及元数据转换、汇集、同步策略,意在解决元数据无缝集成的问题。本文结合企业级数据仓库的架构和数据模型特征设计协调整个数据仓库运作的元数据管理系统,探讨元数据集成与转换工具的设计和实现,主要包括以下内容。( 1 ) 明确数据仓库中的元数据的范畴、作用和管理原则,分析当前元数据集成架构和管理策略。( 2 ) 讨论元数据存储格式和建模方式,从数据仓库解决方案的一般架构出发对其业务数据模型和元数据模型的层次进行深入解析,比对两种建模方式在元数据管理应用中的实际功效。( 3 ) 设计应用于数据仓库系统的元数据集成和转换工具的实现方案,实现元数据仓储的抽取、集成和管理的流程。研究数据仓库中元数据的管理主要有两个层面的意义。首先,对于数据仓库系统本身,利用元数据管理更好地反映其运行过程中的数据源分析、集成影响分析、版本控制以及质量管理统计等信息,并由此指导对数据仓库的使用。从更高层次上考虑,通过对数据仓库中不同格式元数据的统一建模,可以管理研究企业级的数据交互,这对建立企业内部甚至企业之间的数据集成、数据交互标准进行了探索。1 5 论文的组织结构第一章,介绍了数据仓库领域元数据的概念、分类、作用,以及研究元数据集成和转换的重要意义。第二章,分析了目前元数据集成策略,探讨了元数据存储模式,为提出元数据集成与转换工具奠定理论基础。第三章,基于联邦式元数据管理架构,设计元数据集成与转换工具的实现策略,并提出了元数据汇集方案。第四章,实现元数据集成与转换工具的关键技术,包括元数据转换工具的实现,元模型集成中的冲突和差异解决,以及元数据同步的策略分析。第五章,总结全文工作,并提出进一步研究的设想。72 元数据集成策略及存储模型分析在本章中,我们将重点讨论元数据管理工具的架构以及存储模型问题,从而明确地了解元数据集成和转换在元数据工具中所处的地位以及相关的知识,为下一步元数据集成和转换的设计与实现奠定理论基础。2 1元数据管理系统的任务与设计原则2 1 1元数据管理系统的任务及特征数据仓库元数据管理的范畴主要包括元数据的分类、存储、维护、更新、集成和交换等,包括两个方面:一是存储和维护数据仓库构建和运行中产生的元数据;二是实现数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模块和工具之间的工作,以降低开发和管理的工作成本,提高信息获取效率。一个良好的元数据管理系统应该具备集成性、可扩展性、健壮性、可定制性和开放性等基本特征。( 1 ) 集成性集成性,即必须能够集成各种类型和来源的元数据,并把得到的结果转换成有意义的、可访问的业务元数据和技术元数据。( 2 ) 可扩展性可扩展性,即构造元数据仓储之后,它能够进行扩展并随时间变化而改进,否则这种仓储体系很快就会过时。( 3 ) 健壮性健壮性,即必须有足够的功能和较高的性能来满足其所服务机构的要求,必须能够同时支持业务用户和技术用户的元数据报表和视图,并提供访问这些元数据的权限。( 4 ) 可定制性可定制性,即如果企业使用元数据工具实现仓储体系结构,就需要定制工具来满足元数据项目当前和今后的特定要求。( 5 ) 开放性开放性,即实现元数据集成和访问的技术必须是开放灵活的,以避免仓储建成后又需对体系结构进行大规模改动。2 1 2元数据管理系统的设计原则在数据仓库环境上构建元数据管理系统是非常困难的,但在数据仓库项目的实施过程中,这个环节又是非常重要的。在建立元数据管理系统的过程中,不能在开始的时候就追求大而全的元数据管理系统,要坚持以目标驱动的原则,在实施阶段要采取逐步增加的建设原则【2 3 l 。总体步骤如下。( 1 ) 如果是在建设数据仓库的初期,那么首先要确定元数据管理系统的管理范围。系统范围确定的原则是面向数据仓库项目的具体需求优先保障重点的部分,不求大,只求精。( 2 ) 系统管理范围确定以后,把现有系统的元数据整理出来,加入语义层的对应,然后将这些元数据保存到一个专门的元数据知识库中,通常建立在关系型数据库基础之上。( 3 ) 确定元数据管理的内容。构建元数据管理系统可能只是想通过元数据来管理数据仓库中数据的流动过程以及有关数据的转换方式,以保证数据仓库开发和使用人员理解数据仓库中数据转换的整个历史过程;也可能是为了通过元数据跟踪数据仓库的服务质量统计信息,以方便管理员衡量其作为决策支持系统的性能和效率。( 4 ) 确定元数据管理的应用架构,采用合理的应用架构可以显著提高元数据管理工作的完成效率;广义的架构包括元数据存储体系的设计以及遵循元数据管理标准的应用层面解决方案。总之,建立元数据管理系统一定要峰持关注标准,又不被标准所束缚的原则,实现符合自身目标需求的元数据管理解决方案。一般建议采用现有的已经商业化的元数据管理产品来实现元数据管理,以节约宝贵的开发时间,缩短数据仓库项目建设的周期。2 2 集成策略分析元数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的元数据共享。但是,在实施数据共享的过程当中,由于元数据源的异构性、分布性、自治性引起的数据内容、数据格式和数据质量千差万别,严重阻碍了元数据在数据仓库中各软件系统中的流动与共享。因此,如何对元数据进行有效的集成管理是亟待解决的问题。9元数据的存储模式是否合理是决定整个数据仓库元数据管理解决方案成败的关键,它直接影响数据流动实现的自动程度和对基于其上的应用体系中信息需求的满足程度。在企业数据集成领域中,已经有了成熟的框架可以利用,它们在对数据仓库管理和使用等方面都有各自的优势和缺陷。基于共享和管理元数据的角度,在实施数据仓库项目时,应该根据具体情况选择合适的元数据集成方案。从技术实现策略讲,当前主要存在三种典型的元数据集成架构,即集中式架构、分布式架构以及联邦式架构。2 2 1集中式架构在这种方式下,企业内部所有元数据都存放在一个企业级的中央元数据仓储中,而本地的工具并不存放元数据【1 1 ,所有工具都直接访问中央元数据仓储进行元数据交互,如图2 1 所示。图2 1 集中式兀数据管理架构f i g u r e2 1c e n t r a l i z e dm e t a d a t am a n a g e m e n ts t r u c t u r e集中式的元数据集成方式,使得元数据能够被一致地存储、管理、集成和全局访问,避免了元数据的重复,有助于管理整个企业中数据仓库或数据集市的关键数据,也有助于所有的参与者都能共享通用的数据结构、商业规则定义和企业各系统间的数据定义,而无须提供元数据交换机制。但是,这种管理方式并不现实。一方面,目前业界缺乏统一的数据仓库元数据标准,没有任何一个元数据仓储能在技术上支持所有厂家的工具产生的元数据。另外,使用统一的元数据模型,将所有的元数据集中存储在中心元数据库,并不l o利于数据仓库的维护,造价昂贵且实施困难,并且不同的数据仓库工具只能直接访问中心元数据库,丧失了通过局部存储管理本地元数据的灵活性。2 2 2分布式架构分布式架构的特征是所有工具和关系数据库都有相应元数据存储库的支持。各种工具单独实现元数据管理,在数据仓库中建立起多个互不相干的局部元数据存储库,这些元数据存储库之间在一般情况下不直接进行通信,如图2 2 所示。,一、一、( 、岁( 1 王羔f )( 1 j 具7 )图2 2 分布式兀数据管理架构f i g u r e2 2d i s t r i b u t e dm e t a d a t am a n a g e m e n ts t r u c t u r e分布式元数据管理架构的好处是实现简单,性能良好,且费用低廉。事实上目前所见到的很多数据仓库项目都采用了分布式的元数据管理模式,因为这是一种最自然的元数据管理方式。在分布式的元数据管理架构中,元数据存储库之间在必要时也可以交互,但这需要额外开发元数据存储库之间的双向数据交换工具。整个元数据管理系统中的元数据也可看成是同业务数据流相对应的元数据流,不同工具间的元数据交互则是通过元数据桥来完成,如图2 3 所示。元数据桥是一种可以将一个产品的元数据转换为另一个产品所需元数据格式的一种软件,它必须了解所要集成的每个产品的元数据结构和接口的详细知识。因此,桥的构建无论是由产品厂商、第三方工具或是数据仓库方案的实现者实施,都是一项艰巨、耗资巨大的过程,这样将使构建元数据管理系统的复杂性和成本严重增加,从而让分布式架构失去其最基本的优势。一交换工具一、1f _具一上、(、o d s 元数据数据提取、转换d d s 元数据o l a p 元数据应用层元数据和转载元数据i _ 一_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ l _ 图2 3 通过桥接交互的元数据集成f i g u r e2 3m e t a d a t ai n t e g r a t i o nt h r o u g hi n t e r a c t i v eb r i d g e总之,在构建简易的同时,分布式元数据管理架构的缺点也极其明显,当前虽被普遍接受,但由于缺乏统一管理、元数据可能存在重复和不一致、元数据查询和使用困难等种种不足限制了它的通用性及进一步的推广。2 2 3联邦式架构联邦式元数据管理模式结合了前两种方法的优点,并且克服了它们的诸多弊端。整个联邦式元数据管理架构如图2 4 所示。联邦式管理架构集合了集中式架构统一管理并提供一体化访问平台的优点和分布式架构易于实现、构建便利的特征,可以对一个复杂的数据仓库项目实现元数据的分期集成管理,符合目前数据仓库的应用现状和元数据管理的技术水平。在联邦式架构中,各工具仍可以使用其原有的元数据存储库,称之为局部元数据仓储。在局部元数据仓储中,又可把其中的元数据分为两类:第一类是仅仅为本工具服务的元数据,称之为私有元数据;第二类是除了为本工具服务以外,还需要在整个数据仓库范围内共享的元数据,称之为共享元数据。除了局部元数据存储库以外,在联邦式架构中,还将在数据仓库建立一个中央的共享元数据存储库,即全局元数据仓储。该仓储中的元数据内容来自各局部元数据仓储中的共享元数据,但拥有自己的数据模型( 即一致的数据仓库元模型)和独立的对外服务接口。1 2= ( 白白全局元辇据仓储夕堕卜岬i 匝圄圄1 集成接u |,奉1 、厂、。j 上、一、乡穆圣乡图2 4 联邦式元数据管理架构医蔚,奉一、 f i g u r e2 4f e d e r a lm e t a d a t am a n a g e m e n ts t r u c t u r e元数据从局部存储库到中央存储库的迁移过程被称为“元数据同步 ,或者“元数据加载”。在联邦式架构中,需要定义全局元数据存储库与各局部元数据存储库的同步接口外,还应该提供对所有共享元数据的访问接口,以方便各类用户访问。联邦式的元数据管理架构基于取长补短的原则对集中式和分布式两种架构进行了综合折衷,本文即选择此管理模式作为元数据集成方案的基础,这也是目前应用最广、最有效的元数据集成管理方案。2 3 元数据存储模型探讨基于前文所述的元数据管理工具的集成策略,本节我们将介绍元数据管理工具的另一层面的内容,即元数据存储模型,它包括存储格式和建模方式两个方面。2 3 1元数据存储格式存储格式的选择需要参考数据仓库构建的需求和具体情况,目i j 比较通用的主要有x m l 文档和传统关系模型两种元数据存储形式。圄去x m l 是当前比较流行并适合异构数据交换的存储格式。通过对x m l 相对于传统关系型数据格式的优缺点分析,就可以得出结论。( 1 ) x m l 的优势可扩展标记语言( x m l ,e x t e n s i b l em a r k u pl a n g u a g e ) 起初是w 曲上表示结构化信息的一种标准文本格式,同其他数据格式相比,x m l 的一大优点就是它非常类似对象数据结构,由于目前的程序设计和开发大多是面向对象的,所以用x m l来表达数据可以让数据的处理和传播变得非常方便。x m l 具有以下特点:可扩展性,x m l 让使用者创造并使用自己的标记而不只提供有限的词汇表,企业甚至可以用x m l 为数据存储和信息供应链等应用定义自己的标记语言以创建在其所属领域内进行信息共享与交换的基础。灵活性x m l 提供了结构化的数据表示方式,使得用户界面分离于结构化数据即实现了数据和现实的分离。自描述性x m l 文档通常包含一个文档类型声明,使计算机可以准确对其进行解析处理。除上述特性外,x m l 还具有简明性的特点。总之,x m l 以一种基于文本的机制来表示带有结构信息的数据,以便准确地创建和解释数据;它没有复杂的语法和包罗万象的数据定义,不依赖任何编程语言或专有的a p i ,非常适合中央元数据仓储的访问接口通用化需求。典型的x m l 格式的元数据描述如图2 5 所示。选用x m l 文档存储中央共享元数据的另外一个重要原因就是当前已经出现了成熟的x m l 解析器,如d o m 、s a x 和j d o m ,我们不需要编写很多程序就可以获得x m l 的结构。( 2 ) x m l 的不足然而,x m l 也有很多不足之处,其中之一就是过多占用存储空间,因为x m l文档中的诸多标签本身就会造成冗余。并且每一数据集都有一个元数据文档,那么在规模巨大的数据库中则会有大量的元数据文件,管理上极为不便。另外不把x m l 作为推荐存储格式的一点重要原因就是x m l 文档数据发生变动后难于向其来源的元数据存储库进行反馈,无法实现元数据在存储体系中的双向迁移。基于上述原因,我们在共享元数据仓储设计中仍以关系型数据库为基础。1 4 n a m e 仓储名称 s t r i n g 数据源元数据 h o s t 仓储物理地址 s t r i n g 2 0 2 11 2 7 5 1 9 6 n o t e 备注信息 s t r i n g 存储数据仓库数据源相关元数据图2 5x m l 格式的元数据描述示例f i g u r e2 5d e s c r i p t i o ne x a m p l eo fx m lf o r m a t m e t a d a t a2 3 2传统关系模型与通用对象模型传统关系模型与通用对象模型都是基于关系型数据库进行存储的,但是两者却存在很大的差异。( 1 ) 传统关系模型在传统关系模型中,有些实体用于保存其他实体之间的关系。这些实体构成了数据库物理设计的基础。传统关系模型是非常明确和详细的,但是只能存储特定的被建模信息。对元数据的增加或修改同样需要对模型进行修改。( 2 ) 通用对象模型在对象模型中,真正的模型实际上非常微小而且很通用。对象模型包含固定数量的实体,在其结构中存储实体信息和关系。信息的实际布局被存储在元模型中,形成了模型中的模型。这为存储任意信息提供了很大的灵活性,因为这并不需要改变模型本身。对比来说,传统关系模型比较复杂,扩展能力差,但是易于理解,使用模型的程序相对简单,开发的时间主要用于理解所需的信息;而通用对象模型很简单,扩展能力强,但是不易理解且使用模型的程序比较复杂,开发的时间花费则主要集中在理解所需的信息和定义这些信息的规则上面。两种模型的复杂度和对基于其上的程序复杂度影响如图2 6 所示。低模型复杂度高图2 6 模型复杂度与程序复杂度f i g u r e2 6m o d e lc o m p l e x i t ya n dp r o g r a mc o m p l e x i t y总体看来,传统模型这种模型非常适于元数据仓储的第一次迭代,但是当环境扩展时,最终将不得不转向对象模型。计的数据仓库元数据管理系统的构建中,在具体选择时,须权衡考虑。在本文设我们更多的需要考虑仓储数据的持续增长和整个决策支持方案的通用性需求,为此采用基于通用对象模型的元数据建模。1 6高程序复杂度低3 元数据集成与转换工具的架构设计前面我们讨论了元数据集成策略和元数据存储模型,本章将基于联邦式元数据集成策略和关系型数据存储,设计一种合理的元数据集成与转换工具的体系结构,并对体系结构中的各部分进行详细的阐述。3 1 信息供应链本文所设计的元数据集成与转换工具,是基于数据仓库的,该工具用来提取数据仓库中各部分产生的元数据,并应用某种策略对其进行综合管理。通过这些元数据,相关人员可以清楚地了解数据仓库中的数据结构、业务规则等,从而对决策支持产生巨大的战略价值。换句话说,元数据集成与转换管理工具的起点就是数据仓库的构建过程和业务使用过程。而数据仓库中信息流动的和处理过程常常用信息供应链( i s c ,i n f o r m a t i o ns u p p l yc h a i n ) 来描述。一个典型的数据仓库信息供应链i s c 如图3 1 所示。图3 1 信息供应链f i g u r e3 1i n f o r m a t i o ns u p p l yc h a i n从该图中我们可以看到,从数据源开始,信息经过多次处理,最终用于辅助决策支持。在整个流动过程中,顺序产生了四种数据,即源系统中的业务数据、o d s 数据、d d s 数据,以及o l a p 数据,这几种数据的在粒度、抽象级别以及面向的应用等方面均存在不同。业务数据业务数据直接来源于日常的业务系统,一般存放在企业内部不同的地理位置、数据库和应用之中,是后续所有数据的基础和来源。o d s 数据1 7因为数据仓库与业务系统之间的差异很大,所以直接从业务系统提取历史数据存入数据仓库将是一件十分困难的事情,为了降低这个抽取、加载过程的复杂度,在业务系统和数据仓库之间加入了操作数据存储( o d s ,o p e r a t i o n a ld a t as t o r e )这一层。o d s 在数据结构、逻辑关系上接近于业务系统,但又具有数据仓库的譬如面向主题性、集成性等特点,所以可以作为业务系统与数据仓库之间的缓冲。o d s 中的数据定期由业务数据补充,如果o d s 中的数据超过了某个设定时间,将被从o d s 中删除,并作为历史信息存入数据仓库。d d s 数据决策数据存储( d d s ,d e c i s i o nd a t as t o r e ) 从广义上讲,覆盖了数据仓库和数据集市。d d s 中存放了从o d s 中抽取转换来的、面向主题的、集成的历史数据,从而成为决策支持环境中单一的企业级数据存储,为后续数据层次即联机分析处理提供了基础数据。其中,数据仓库中的d d s 数据是面向应企业整体的,包括很多种主题,而数据集市中的d d s 数据则是部门级的,一般只面向某个特定的主题。o l a p 数据所谓联机分析处理( o l a p ,o n l i n e a n a l y t i c a lp r o c e s s i n g ) ,就是在数据仓库中经过选定主题、抽取数据、轻度汇总数据等一系列工作,将生成好的事实表数据从数据仓库中加载到o l a p 服务器上,形成数据立方体( c u b e ) 来供f j 端工具进行访问。这也是数据仓库最为典型的应用。为保证i s c 的顺畅流动,并使参与此过程的软件产品都能够有效工作并基于数据层进行交互操作,就必须对描述各软件产品的元数据有一致理解。这是因为元数据定义了它们的内部处理逻辑和存储结构,通过元数据可以制定处理数据的策略。综上所述,构成i s c 的每一个仓储产品和工具能够在数据层上进行有效集成的前提是,它们能在元数据层面进行有效的集成。3 2 元数据集成与转换工具的体系结构设计结合当前数据仓库发展的需要和集成存在的问题,本文以联邦式管理模式为基础提出元数据集成和转换工具的架构,主要分为元数据源、局部元数据仓储、全局元数据仓储、适配器、元数据抽取、元数据转换、元数据汇集等部分,如图3 2 所示。1 8图3 2 兀数据集成和转换架构f i g u r e3 2a r c h i t e c t u r eo fm e t a d a t ai n t e g r a t i o na n dt r a n s f o r m a t i o n在上述架构中,所有元数据均来源于组成i s c 信息供应链的软件产品。对于存储业务数据、o d s 数据、d d s 数据、o l a p 数据的仓储软件产品,可以经过元数据抽取操作从中获得诸如存储结构等信息的元数据,存入各自的局部元数据仓储中;对于诸如e t l 工具、报表工具等软件产品,产品内部往往会配备记录该工具使用规则等方面信息的局部元数据仓储,除此之外,还需对这些信息进行格式的一致性转换以提供元数据共享的途径。局部元数据仓储中是以关系型数据库的形式存放元数据的,其中的元数据可以分为两类,一类是仅为软件产品自身服务的私有元数据,另一类是需要在企业全局范围内共享的元数据,称之为共享元数据。对于前者,只需要存放在局部元数据仓储中,而对于后者,就需要进一步将其送入关系型的全局元数据仓储中保存和共享。适配器是某些工具生产厂家为了其产品能够与其他厂家的产品工具顺利交互,1 9而在产品内部设计的一个遵循元数据标准的软件层,工具的局部元数据仓储中的共享数据经由该层将转变为x m l 文档以方便交互。由于全局元数据仓储也是基于关系型数据库的,所以这些x m l 文档必须转换成关系型数据模型的形式,这就涉及到异构数据的转换。在本文所设计的管理方案中,此工作由元数据转换工具实现。来源于各个局部元数据仓储的共享元数据,最终都要汇集到全局元数据仓储中,如何组织这些元数据才能达到最好的效果即为元数据汇集方案所讨论的内容。下面几节将分别详细介绍架构中的各个组成部分。3 3 元数据源由前文可知,元数据来源于信息供应链的过程中所涉及到的所有软件产品。本节将介绍常见的元数据来源( 如图3 3 所示) 及其产生的元数据类型。图3 3 数据仓库中常见的元数据来源f i g u r e3 3c o m m o ns o u r c eo f m e t a d a t ai nd a t aw a r e h o u s e企业应用系统元数据经常来源于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东课件防复制价格
- 2025年低水碳比甲烷转化催化剂合作协议书
- 2025年医疗健康大数据项目申请报告
- 2025年观光型酒店项目立项申请报告
- 2025年职业教育项目申请报告
- 展鹏安全知识培训课件
- 大数据安全法律知识培训课件
- 疫情防控餐饮应急预案方案(3篇)
- 2025年宠物长途运输及全套疫苗接种管理服务协议
- 2025年跨区域矿业项目合作开发与生态修复合同
- 2025年事业单位医疗e类综合能力试题及答案
- 江苏省低空空域协同管理办法(试行)
- 直肠癌个案护理
- 油库培训大纲及课件
- 高血压病与消化系统疾病的综合防治
- 仓储物流设备安装及管理策略分析报告
- (零诊)成都市2023级(2026届)高三高中毕业班摸底测试语文试卷(含答案)
- 2025年长沙市中考数学真题试卷及答案
- 分装安全操作规程
- 临时用电全管理制度
- 2025年高校教师资格证考试《高等教育政策和法规》真题卷(附详细解析)
评论
0/150
提交评论