(计算机软件与理论专业论文)基于元语言的异构数据集成研究.pdf_第1页
(计算机软件与理论专业论文)基于元语言的异构数据集成研究.pdf_第2页
(计算机软件与理论专业论文)基于元语言的异构数据集成研究.pdf_第3页
(计算机软件与理论专业论文)基于元语言的异构数据集成研究.pdf_第4页
(计算机软件与理论专业论文)基于元语言的异构数据集成研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)基于元语言的异构数据集成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:邀日期:讼! ! ! 生互 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:亳匣壅导师签名:论文作者签名:咆2 型壅导师签名: , i ,l 。 户 f - i 山东大学硕士学位论文 目录 摘要i a b s t r a c t 。ii 第1 章引言1 1 1 研究背景1 1 2 国内外研究现状2 1 3 论文的主要工作4 1 4 论文的组织结构4 第2 章相关技术概述6 2 1 异构数据集成6 2 1 1 异构数据集成的主要问题6 2 1 2 实现异构数据集成的技术方法7 2 2 元语言与x m l 技术。9 2 3w e bs e r vjc e 技术。9 2 3 1w e bs e r vic e 体系结构10 第3 章基于元语言的异构数据集成方法的分析与描述1 2 3 1 系统设计目标1 2 3 2 系统分析1 3 3 3 数据映射机制分析1 5 3 4 系统结构15 3 。4 1 应用层1 6 3 4 2 中间层。16 3 ,4 3 数据层18 3 5 系统运行流程18 3 6 系统特点2 0 3 7 本章小结2 1 第4 章关键技术与算法设计。2 2 4 1 异构数据源注册:2 2 4 1 1 异构数据源的注册过程2 2 4 1 1 数据源的信息存储摸式2 3 4 1 2 关系数据源的映射模型2 4 4 1 3 生成全局虚拟数据模式。2 7 4 1 4 生成全局模式映射的规则2 8 山东大学硕士学位论文 4 1 5 模式集成及冲突解决3 1 4 2 查询处理器3 2 4 2 1 全局查询分解的标准3 2 4 2 2 查询分解的步骤3 2 4 2 3 查询分解算法3 3 4 3 结果集成模块3 4 4 4 包装器3 4 4 4 1 查询转换器3 5 4 4 2 结果转换器3 6 4 4 3 包装器服务的发布及调用3 7 4 5 本章小结3 7 第5 章系统实现及实例分析3 8 5 1 实例应用背景3 8 5 2 实例设计。4 0 5 3 运行环境4 0 5 4 异构数据集成的主要实现过程4 1 5 4 1 数据源注册4 1 5 4 2 信息查询4 2 5 4 3 实验结果4 3 5 5 本章小结4 5 第6 章总结4 6 6 1 总结4 6 6 2 展望4 7 参考文献4 8 致谢5 1 攻读学位期间参与的主要项目5 2 , 1 山东大学硕士学位论文 c o n t e n t s a b s t r a c tinc hin e s e i a b s t r a c tine n g iis h c h a p t e r1 in t r o d u c tio n ,1 1 1r e s e a r c hb a c k g r o u n d 1 1 2r eia t e dw o r k 2 1 3r e s e a r c ho b j e c tiv e 4 1 4c o n t e n t so r g a niz a tio n 4 c h a p t e r2r ela t e dt e c h nic ai 6 2 1h e t e r o g e n e o u sd a t ain t e g r a ti o n 6 2 1 1in t e g r a tio no fh e t e r o g e n e o u sd a t a b 2 1 2t h em e t h o d so fh e t e r o g e n e o u sd a t ai n t e g r a t i o n 7 2 2m e t a ia n g u a g ea n dx m l 9 2 3w e bs e r vic e 9 2 3 1w e bs e r vic ea r c hi t e c t u r e 1o c h a p t e r3a n a i y s i sa n dd e s c r i p t i o no fh d ib a s e dm e t a i a n g u a g e 1 2 3 1r e s e a r c ho b j e c tiv e 12 3 2r e s e a r c ha n aiv sis 13 3 3a n aiy siso fm a p pin gm e c h a nis m 1 5 3 4s y s t e ms t r u c t u r e 1 5 3 4 1a p piic a ti o nia y e r 16 3 4 2m id dieia y e r 16 3 4 3d a t ala y e r 。18 3 5h d is y s t e mo p e r a tio n 。:18 3 6s y s t e mf e a t u r e s 2 0 3 7s u m m a r y 。2 1 c h a p t e r4t e c h n o io g ya n da ig o ri t h m 2 2 4 1d a t as o u r c e sr e gis t e r e d 2 2 4 1 1 r e g is t r a tio np r o c e s s 2 2 4 1 1d a t as t o r a g e 2 3 4 1 2m a p pin gm o d ei 2 4 4 1 3gio b a lv ir t u ald a t am o d ei 2 7 4 1 4s c h e m am a p pin gr uie s 2 8 4 1 5c o n fl ic tr e s o lu tio n 3 1 - p 鸭 山东大学硕士学位论文 4 2q u e r yp r o c e s s o r 3 2 4 2 1q u e r yd e c o m p o si tio n 3 2 4 2 2d e c o m p o si tio np r o c e s s 3 2 4 2 3d e c o m p o si tio na ig o ri t h m 3 3 4 3r e s ui t s in t e g r a tio n 3 4 4 4w r a p p e r 3 4 4 4 1q u e r yc o n v e r t e r ,3 5 4 4 2r e s ui t sc o n v e r t e r 3 6 4 4 3r eie a s ea n dc ai is e r vic e 3 7 4 5s u m m a r y 。3 7 c h a p t e r5im ple m e n t a tio na n da n aiy sis 3 8 5 1a p pi ic a tio nb a c k g r o u n d 3 8 5 2d e sig n 。4 0 5 3o p e r a tin ge n vir o n m e n t 4 0 5 4m ainc o u r s e 4 1 5 4 1d a t as o u r c er e gis t r a tio n 4 1 5 4 2in f o r m a tio nq u e r y 4 2 5 4 3r e s ui t s 4 3 5 5s u m m a r y 4 5 c h a p t e r6c o n ciu si o n ,4 6 6 1 s u m m a r y 。4 6 6 2f u t u r ew o r k 4 4 7 r e f e r e n c e s 。,4 8 a c k n o w i e d g e m e n t 5 1 m ainp r o j e c t s 5 2 i l a 辛 h 、 j | 坞 h 陋 山东大学硕士学位论文 摘要 随着全球信息化脚步的不断加快,数据集成的需求由来已久。如何利用灵活 的、有效的方法,将原本分离的数据源中的异构数据无缝、透明的集成起来,成 为数据集成领域内讨论的热点。 在上述背景条件下,本文以实现异构环境中数据集成为目标,提出了基于元 语言的异构数据集成方法,并基于x m l 语言,设计和实现了一个通用的异构数 据集成系统。舳作为一种数据格式描述的元语言标准,不断被应用到各种不 同领域的数据集成中,相比传统的数据集成技术,它更能满足系统灵活性和通用 性方面的要求。本文主要围绕以下问题展开研究: 1 ) 本文首先对现有的主要数据集成方法、x m l 技术、w e bs e r v i c e s 技术等 异构数据集成理论和技术进行了研究,并在此基础上,提出了基于元语言描述的 异构数据集成方法。 2 ) 基于元语言数据集成方法的思想,提出了一个完整的基于元语言的集成 模型。该模型有别于以往的集成模型,提供了一种更为灵活、更具扩展能力的集 成形式,作为对现有集成理论的扩展。详细给出了该模型的核心体系结构、工作 流程和各模块的功能等重点问题的解决方案,并分析了该模型的特点。 3 ) 采用元语言描述的方法,将各局部数据源中的数据转化为元语言数据模 式进行集成,构建局部数据源,从而屏蔽底层数据源语法的异构性,整个过程简 洁易懂,并且易于实现。 4 ) 最后给出基于元语言的异构数据集成系统在c a r s i ( 中国教育网认证与资 源共享基础设施) 系统中的实际应用。选择x m l 作为为元语言的具体实例,从实 践角度证明了系统框架的可行性,同时指出系统的不足和有待提高的方面。 关键词:数据集成;元语言;x m l ;异构数据。 山东大学硕士学位论文 a b s t r a c t t u r nt h ef o o t s t e pa l o n gw i t hw o r l di n f o r m a t i o nc o n t i n u o u s l ya n dq u i c k l y , t h e r e q u i r e m e n t so fi n t e g r a t i n gm u l t i p l ed a t as o u r c e se x i s tf o ral o n gt i m e i no r d e rt o p r o v i d ead a t ap l a t f o r mt h a tc a nc o v e rt h ed i f f e r e n c ea m o n gh e t e r o g e n e o u sd a t a s o u r c e s ,m a n yr e s e a r c h e r sh a v eb e e nd e d i c a t e dt ow o r k i n go u tad y n a m i ca n d e f f e c t i v ei n t e g r a t i o nw a y u n d e rt h eb a c k g r o u n do fa b o v e m e n t i o n e df a c t s ,t h i sp a p e rb r i n g su pa l l e x e c u t i v e p l a nb a s e d o nm e t a - l a n g u a g e ,a n di n t r o d u c e st h ep l a n sd e s i g na n d r e a l i z a t i o n w i t ht h er i s i n go fx m l t e c h n o l o g y , b u i l d i n gt h ei n t e g r a t i o np l a t f o r mo n x m l f i l e sh a sb e c o m ear e s e a r c hf o c u si n t h i sc o m m u n i t y x m li sc o n t i n u a l l y a p p l i e dt ov a r i o u sd o m a i n t oi n t e g r a t ed a t as o u r c e s n o w a d a y s i t sa d v a n t a g e sm a k ei t t h eb e s tc a n d i d a t ef o rr e p r e s e n t i n gd a t am o d e l t h er e s e a r c h e sm a i n l yc e n t e ro nt h e f o l l o w i n gq u e s t i o n s : 1 f i r s t l y ,t h i sp a p e r f o c u s e so nt h e o r i e sa n dt e c h n o l o g i e so fe x i s t i n g h e t e r o g e n e o u sd a t ai n t e g r a t i o nm e t h o d ,t h ex m lt e c h n o l o g ya n dt h ew e bs e r v i c e s t e c h n o l o g y t h e n ,ak i n do fh e t e r o g e n e o u sd a t ai n t e g r a t i o na r c h i t e c t u r eb a s e do n m e t a - l a n g u a g eb yu s i n gm e t a d a t a - i n t e g r a t i o n - m o d e la p p r o a c hi sd e s i g n e d 2 b r i n gf o r w a r da nm e t a l a n g u a g eb a s e dd a t ai n t e g r a t i o nm o d e l t h en e w m o d e lc a n b es e e na sas u p p l e m e n ta n de x t e n s i o no ft h eo r i g i n a lp r i n c i p l e s t h e d e t a i l e dr e a l i z a t i o ni sc i t e d k e r n e ls t r u c t u r e w o r k i n gp r o c e s sa n dm o d u l e s f u n c t i o n s o ft h em o d e la r ei n t r o d u c e d 3 t h ep a p e ru s e dm e t a l a n g u a g et oe x p r e s st h ed a t as o u r c ea n db u i l tt h el o c a l d a t a m e t a - l a n g u a g et e c h n i q u ec a ns o l v et h ep r o b l e m so fs y n t a xh e t e r o g e n e i t y 4 f i n a l l y , a l la p p l i c a t i o no fh e t e r o g e n e o u sd a t ai n t e g r a t i o ns y s t e mb a s e do n x m li nc a r s ii sa v a i l a b l e t h ef e a s i b i l i t yo ff r a m e w o r ki sc e r t i f i e di np r a c t i c e ,a n d t h e nt h ed e f e c t sa n df u r t h e ri m p r o v e m e n to ft h es y s t e ma r ep o i n t e do u t k e yw o r d s :m e t a l a n g u a g e :x m l ;d a t a in t e g r a tio r : h e t e r o g e n e o u sd a t a 1 i 舔 套 毋 l l 山东大学硕士学位论文 - 、_1 1 研究背景 “ 第1 章引言 随着互联网的不断发展,网络正日益成为一个巨大的信息仓库。在此背景下, 高校信息化建设己逐渐从独立的应用系统建设和简单的平台建设进入丰富的资 源建设和复杂的信息系统集成阶段。在信息化建设过程的初始阶段,各个部门往 往根据各自的信息要求和特定的应用选择了各自独立的软硬件环境。这些应用系 统的数据运行在多种多样的硬件平台上,使用不同的操作系统和通讯协议,其数 据的存储类型除了源自多个厂商的多种类型的关系数据库,还包括x m l 文档、文 件存储等半结构化和非结构化的数据。就算是都采用关系数据库,也可能使用不 同的数据库管理系统。这种情况导致了整个应用环境中产生了很多孤立的数据源 和服务提供者。在这种情况下,复杂异构的数据资源、与实际脱节的各种孤立的 应用系统让数据资源的管理越发繁琐,校园信息化建设规模的日益扩大也对资源 管理提出了更高的要求。为了改善这种局面,加强对资源的规划、设计、组织和 管理,需要通过进行异构数据的集成来消除信息孤立的现象,并为数据使用者提 供异构数据源的集成视图以及统一的查询接口。这就是教育信息化的新目标 数字化校园建设。 中国教育网认证与资源共享基础设施( c e r n e ta u t h e n t i c a t i o na n d r e s o u r c es h a r i n gi n f r a s t r u c t u r e ,c a r s i ) 项目的目标是将教育网内多个独立 的、封闭的用户管理系统和只供本校用户内部访问的应用系统连接成教育网范围 内的联盟系统,是为教育网内各个高校之间的资源共享提供服务的一项基础设 施。该项目希望通过一体化的设计和规划,构筑一个“统一的信息资源平台”, 做到“网络融合”、“资源整合”和“统一身份”,逐步将学校的各个方面,包括 网络、设备、教室等环境资源,图书、讲义、录像、课件等教学资源,教、学、 管理、服务、办公等业务流程数字化,逐步形成一个数字空间,从而使现实的校 园在时间和空间上获得延伸,在现实校园基础上形成一个虚拟校园,提升传统校 园的效率,扩展传统校园的功能。 这种集成系统的设计和实现的目标,就是将那些独立的应用系统中的各种数 山东大学硕士学位论文 据资源进行有效的集成,为用户和应用程序提供统一的数据查询和操作的接口, 并实现集成系统内部异构数据源的统一注册、管理和权限控制。本文将重点研究 这一问题。 本文着重讨论基于元语言的异构数据集成方法:为了在各个孤立的应用系统 之间进行数据的共享和操作,并为这些异构的数据源提供统一的数据查询和操作 的接口,以满足信息集成的需要,提出一种基于元语言的异构数据集成方法,使 用元语言建立公共模型,使用统一的元语言对各异构数据源中的数据进行描述建 模,以实现数据的集成查询和操作。这种方法屏蔽了各个孤立的应用系统中的模 式异构,可以快速灵活的添加新的异构数据源或修改现有数据源的相关信息,并 可以方便的设计并提供统一的查询接口界面。最后为了验证方法的有效性,以基 于c a r s i 的c s l c p 平台中山东大学数据集成平台的实现为例展开研究,选择x m l 作为有效的元语言,使用x m l 进行数据源和数据项描述,实现了异构数据的集成。 1 2 国内外研究现状 数据集成技术的研究自上世纪七十年代中期开始,至今已有三十多年,其基 本思路是把不同来源、不同格式、不同特点及性质的数据源在逻辑或物理上进行 有效的集中,从而提供全面的数据共享。从最开始的多数据库系统理论发展到现 在的异构数据集成理论,国内外研究者提出了不少解决方案,尤其是在企业数据 集成领域,数据集成的深度和广度随之不断的扩大,已经产生了很多成熟的框架 和解决方法,主要有:联邦数据库、数据仓库和中间件。 1 ) 联邦数据库系统( r o b s ) ,联邦数据库系统由半自治数据库系统构成,相 互之间分享数据,联盟内各个数据源相互之间提供访问接口,联盟数据库系统可 以是集中数据库系统、分布式数据库或其他系统。这种方法的主要思路是使用一 个唯一的大集成系统来集成所有相关的数据源,可以简单的使用一对一连接的方 式实现对所有数据库的集成。如图1 1 ,某个数据库d b l 能够以另一个数据库 d b 2 能够支持的操作语言对d b 2 进行查询和其他允许的操作。这种方法的问题 是,如果系统中存在x 个数据库,那么最复杂的情况下,每个数据库都要和实 现其他x 1 个数据库的接口连接,也就是说需要设计x ( x 1 ) 个各自独立的接口 程序来实现全部的查询功能。该方法的缺点显而易见,在复杂的情况下开发时间 2 、 山东大学硕士学位论文 时间会很长,对设备的性能要求很高,系统地实现和维护代价也比较高。 图1 1 联邦数据库 2 ) 数据仓库技术,数据仓库技术于2 0 世纪9 0 年代初被提出,其目的是为 企业提供整体的数据资源集合,以满足管理和决策的需要。数据仓库方法的研究 重点是如何从联机应用系统的实时数据、脱机保存的历史数据和外部系统数据中 取得数据,并提供统一的查询接口以提取并合成相关的集成数据信息,为企业决 策和数据分析提供支持服务。如图1 2 ,在这种方法中,数据被归类为广义的、 功能上独立的、没有重叠的主题,而数据仓库是多个数据库中全部或部分数据的 复制,并对多个数据源的数据进行集成的分析和转换,将需要的数据按照一定方 法存入数据仓库,用户或应用程序通过数据仓库提供的统一的接口对数据进行查 询,以便进行决策和分析。这种方法在一定程度上解决了应用之间的数据共享和 互通的问题,但它主要是为了针对企业某个应用领域提出的一种数据集成方法。 数据仓库的模型框架如图1 - 2 所示: 图l _ 2 数据仓库 3 ) 中间件模式,中间件模式通过统一的全局数据模型来访问异构的数据库 等异构资源。中间件位于应用程序和异构数据源之间,也就是应用层和数据层之 间,协调各个异构的数据源并提供公共模式和查询接口。该方法的优点是不影响 山东大学硕士学位论文 各数据源的原本应用,由中间件系统集中负责为异构数据源提供高层次的检索服 务。 中间件模式是目前比较流行的数据集成方法,它通过在中间层提供一个统一 的数据逻辑视图来隐藏底层的数据细节,使用户可以把集成数据源看作是一个统 一的整体。这种模型下的关键问题是如何构造合理的逻辑视图使异构的数据源能 够映射到中间层来。本文所设计实现的数据集成平台也是基于中间件模式实现 的,对所有异构数据源提供一个统一的元语言描述模型,并使用查询引擎实现异 构数据的集成。 本文的工作是基于c a r s i 的下一代互联网校园学习生活交流平台应用示范 项目的数据集成开发平台研究的一部分,设计实现了以元语言描述模型为基础的 数据集成平台,并构造数据源的描述信息以及用于集成的查询语句,其中包括: 1 ) 设计了一种元语言描述模型,以此作为数据模型来实现异构数据源的集 成,并以此为基础来解决中间层的映射模式问题,设计了集成系统的基础框架。 2 ) 基于该异构数据集成方法,提出了一个完整的基于元语言描述的集成系 统,该系统有别于以往的集成设计思路,能够提供一种更为灵活、更具扩展能力 的集成形式,文中对系统的每个环节给出了具体的实现方法; 3 ) 本文针对用户视图定义了一套查询描述语言,该语言的定义可以方便用 户视图的组织和操作,并为扩展查询语言打好了基础。 4 ) 为验证方法的有效性,在c s l c p 系统的山东大学数据集成平台中行了测 试,基于x m l 实现了一个异构数据集成系统。 1 4 论文的组织结构 第一章引言,介绍论文的课题背景、研究意义、研究现状、及本文的主要 工作和组织结构。 第二章相关技术,介绍了目前数据集成的主要解决方法及技术,提出了使 用元语言描述的方法进行公共模型建模的集成方法。 4 h 山东大学硕士学位论文 第三章元语言的异构数据集成,分析并研究了利用元语言作为公共元数据 模型描述语言进行异构数据集成过程中的模式转换与集成问题,使用元语言描述 解决模式映射问题,设计了用关系数据源中的数据模式构建公共数据描述模型的 方法,说明了集成模型建立和数据集成查询的工作过程,对系统特点进行了分析 和总结,并分析了异构模式集成中的冲突解决方法。 第四章集成系统相关技术与算法,介绍了集成系统基于元语言描述的结构 框架,对各个模块的功能进行了设计,提出了实现方法。设计了使用元语言描述 方法进行关系数据库模式转换的方法、建立公共模型的方法和查询分解算法。 第五章异构数据集成系统应用,基于c a r s i 系统,在c s l c p 平台的山东 大学用户信息集成系统中,使用x m l 语言作为元语言的一个应用实例,实现了 一个数据集成查询系统实例,在集成系统中集成了三个应用系统的异构的数据 源,能够进行全局查询并得到正确的查询结果。 第六章总结与展望:总结本文工作,指出下一步的工作内容。 山东大学硕士学位论文 2 1 异构数据集成 第2 章相关技术概述 2 1 1 异构数据集成的主要问题 异构数据库集成系统是相关的多个异构数据源的集合,可以实现异构数据源 的共享和透明访问,每个数据源在加入集成系统之前本身就已经存在,拥有自己 的数据库管理系统( d b m s ) 。异构数据源的各个组成部分具有自治性,因此在 实现数据共享的同时,仍然能够保证每个数据源自己的应用特性、完整性控制和 安全性控制。将各个异构数据源进行统一集成并实现全局查询接口的方法可分成 数据集成和业务集成两种类型。其中数据集成主要解决应用平台及系统之间的异 构数据源的整合。异构数据集成所涉及的问题主要有以下几个: ( 1 ) 异构性 数据源的异构性是数据集成过程中所面临最先要解决的。异构性主要是指数 据的异构和系统的异构。数据异构指数据模式异构,比如关系模式、对象模式、 x m l 等。系统异构是指应用系统的运行平台框架和操作系统的异构。不过即使 是相同模式的数据源也可能有差异,比如同为关系数据库的m y s q l 和s q l s e r v e r 的数据类型就存在一定的差异。 ( 2 ) 完整性 为了保证异构数据集成的正确性和有效性,需要保证各个数据源的内部和各 个异构数据源之间的约束完整性和数据完整性。约束完整性用来保证数据之间的 所有关联关系,唯一的表示了数据之间的逻辑特征。数据完整性指数据的正确性、 相容性和一致性。保证了完整性才能保证正确而有效地进行数据集成。 ( 3 ) 透明性 数据集成的程度是由透明性决定的,透明性决定了用户或应用系统能否更方 一 便的使用集成系统的具体应用功能。所谓透明性主要是指平台、系统和数据源的 透明性。其中,平台透明性要求面向用户或应用系统隐藏集成系统中各个应用数 t 据的硬件、操作系统和通讯协议之间的差异,从集成系统之外看来,所有的内部 6 山东大学硕士学位论文 数据源都运行于相同的软硬件平台。系统透明性要求面向用户或应用系统隐藏 集成系统中各个应用数据在数据库管理系统、模型和操作语言之间的差异,从集 成系统之外看来,所有的内部数据源使用相同的数据模型和相同的数据库管理系 统,并提供统一的数据操作语言。数据源透明性要求面向用户或应用系统隐藏集 成系统中所有异构数据源的具体描述信息,集成系统负责解决查询分解和定位数 据的存储信息等问题,从集成系统之外看来,集成系统只存在一个数据源。 ( 4 ) 权限控制 当用户或应用系统需要查询访问集成系统内部的某些异构数据源中的数据 时,集成系统需要制定不同的规则按照具体的任务描述来确定数据访问的范围和 权限,以保证各个内部数据源针对不同需求和数据所规定的数据共享内容、共享 范围和操作权限。 ( 5 ) 自治性和扩展性 数据集成不能影响参加集成的各个内部数据源原有应用的正常操作。集成系 统必须有足够的扩展性和灵活性,包括良好的移植性及部署的灵活性,能够具有 足够的伸缩性,以满足数据源数目、共享数据范围、数据值和数据属性的改变。 2 1 2 实现异构数据集成的技术方法 ( 1 ) 数据仓库 这种方法简单说来就是在数据仓库中保存所有异构数据源中共享数据的一 个拷贝,并抽取所有的数据副本形成全局视图。用户可以在访问数据仓库时获取 所有异构数据源中的共享数据,数据仓库完全可以看作是一个普通的数据库。优 点是管理方便,能够对集成数据进行单点控制。但是这种方法也存在很多缺点, 比如数据仓库必须按照各个异构数据源的具体应用周期,进行频繁的更新,无法 保证数据的实时性,不能跟踪动态变化的数据。 ( 2 ) 联邦数据库系统 联邦数据库系统是早期最常见的数据集成解决方案。联邦数据库由参与集成 的所有数据库系统构成,其管理方式是半自治的。所有的数据源都共享本地的部 分数据模式,提供相应的接口规范,并据此按照具体的应用需求进行数据源的连 接。按照集成度的标准,联邦数据库可分为两类:松散耦合联邦数据库系统和 7 山东大学硕士学位论文 紧密耦合联邦数据库系统。松散耦合的联邦数据库系统,不存在所谓的全局模式, 由用户自己根据具体的应用需求解决相应的异构问题。这种方法保证了各个数据 源的自治性,具有较好的动态性能。缺点是数据集成度较低。适宜数据量大的情 况。紧密耦合的联邦数据库存在全局模式,在全局数据模式上设计全局模式到相 应的异构数据源的模式映射方法。这种方法集成度高,但是很难扩展。适合数据 量小的情况。 ( 3 ) 中间件集成方法 使用全局数据模式,能够支持结构化的异构数据源和半结构化或非结构化的 数据源上的集成应用需求。如图2 1 ,中间件数据集成系统的主要模块是中间件 及包装器。这种方法为每个数据源分别设计一个包装器,查询结果通过中间件的 处理,再经过包装器进行针对具体数据源的数据交互。包装器是对特定的异构数 据源的信息和操作的封装,可以将数据源中的私有数据模型转换成全局数据模式 的公共数据模型,提供相应的查询接口。用户或应用系统基于公共数据模型提出 全局查询请求,通过中间件将全局查询请求进行分解,转换成针对各个异构数据 一 源的子查询请求,并将子查询请求发送给异构数据源对应的包装器,由包装器负 责控制具体数据源的查询过程,在数据源中完成相应的子查询并将结果传递给中 间件。中间件集成方法常用在数据源较多、自治性高、数据变化频繁的情况。 查询| r 矗 中间件j 图2 - 1 中间件集成 山东大学硕士学位论文 对上述方法的比较见表2 1 : 方法名称方法的优点方法的缺点 数据仓库管理方便,效率高,单点不能保证实时性 控制 紧密耦合的联邦数据集成度较高难扩展,仅适合小数据 库量且数据基本不变的 环境 松散耦合的联邦数据扩展方便不存在全局模式,低集 库 成度 中间件扩展方便、较好的实时效率低,依赖网络性能 性,数据量大 2 2 元语言与x m l 技术 表2 1 现有集成方法比较 可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ,x m l ) 是对应于i n t e r n e t 应用的置标语言。1 9 9 8 年,w 3 c ( w o r l d 、i d ew e bc o n s o r t i u m ) 组织为i n t e r n e t 上跨平台的广泛应用制定了通用语言规范,也就是标准通用标记语言( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ,s g m l ) ,其中的一个子集就是x m l ,它允许各种 应用服务在网络应用中通过h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 接收和处理 s g m l 。作为元标记语言( m e t a - m a r k u pl a n g u a g e ) ,x m l 能够定制标记方式来应 对不同应用和需求,非常适合数据的网络发布和交互。x m l 使用标准文本模式, 能够以开放统一的标准表示数据的定义、结构和数据之间的关系。x m l 也是一 种混合型语言,用户和程序能够利用x m l 直接进行信息交互。x m l 的规范很 多,主要包括显示模式定义( x s l ) 、文档格式化标准( s c h e m a ) 、文档查询标准 ( x q u e r y ) 等。 2 3w e bs e r v i c e 技术 从技术上来说,类似于c o r b a 、e j b 等技术,w e bs e r v i c e 可以看作是一种 9 l l i 东大学硕士学位论文 分布式技术,是一系列分布式思想的技术协议和规范的集合。另外,w 曲s e r v i c e 还是自描述、白包含和模块化的应用,发布方便,定位简单,可看作是调用模块 化的网络服务的实体。w e bs e r v i c e 的优点如下: ( 1 ) 通过使用标准的x m l 语言进行信息的传递,w e bs e r v i c e 具有语言和 平台的独立性。 ( 2 ) 大多数情况下,w e bs e r v i c e 技术都使用h t t p 协议进行信息的传递,这 一特性所带来的优势就在于使用h t t p 协议传递信息时可以直接穿越防火墙而不 会被阻挡。 ( 3 ) w 曲s e r v i c e 的另一个优点是使用该技术架构的系统在具有松散耦合的 特性地同时,还能使得系统更具内聚性。 w 曲s e r v i c e 技术是网格计算和分布式系统设计领域的主要技术,其思想是 提出网格服务的概念,作为所有应用功能的形式,能够提供统一的标准开放接口, 这些都非常适合进行数据集成系统设计和实现。 w 曲s e r v i c e 也存在以下几个缺点: ( 1 ) 较低的运行效率:由于w 曲s e r v i c e 之间是通过x m l 来进行信息的传 递,相对于直接进行二进制码的传递,效率明显降低了。 一 ( 2 ) 较低的成熟度:作为新技术,尽管已经制定了一些比较稳定的核心规 范,但如何进行异构系统间的数据传输、如何保证传输的安全性,相关的解决方 法并不成熟,相关的规范和标准也有部分局限性,在利用该技术进行数据集成系 统的设计时,必须根据具体的应用需求环境进行均衡和改进。 2 3 1w e bs e r v i c e 体系结构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论