




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)基于网格环境的异构数据集成的研究和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着信息化建设的深入,数据已成为应用的核心,数据不仅在数量上日益庞 大,相互间的联系也日益广泛。越来越多的用户希望能够透明的访问和处理来自 这些海量信息源中的有用数据,实现系统和信息之间的互操作。然而,这些数据 可能分布在不同的自治域中,有着不同的数据格式、存储方法、访问控制策略。 为了屏蔽这种异构性,就需要对这些数据进行有效的集成和整合。网格作为一种 新兴技术,提供了对资源更高层次的共享服务,通过将网格服务引入异构数据集 成领域,能够更加有效的实现资源和服务共享,提高数据集成的效率。 为了实现基于网格环境的异构数据的有效集成,本文给出了异构数据集成平 台的设计,该平台基于增量集成框架,采用模式集成的方式,通过构建基于v i l 的公共数据模型,实现了数据的半智能化集成。平台中的集成功能由网格服务提 供,能够分布式的执行集成任务。 模式集成是异构数据集成中的关键技术。模式集成主要思想是将多个在本地 数据源模式上抽象的局部模式逻辑上统一成为一个一致的全局模式,屏蔽语法上 和语义上的冲突。本文通过x m ls c h e m a 对本地数据源和全局输出进行建模, 给出了一种基于领域字典的模式匹配的方法,自动实现了基数为1 :1 的简单匹配, 对于复杂匹配则使用人工辅助的方式。 为了实现基于网格环境的异构数据集成,资源访问服务器的核心采用网格数 据访问集成中间件一o g s a d a i ,通过o g s a d a j 的部署以及扩展,使得平台 能够分布处理数据集成任务。在此基础上,本文针对集成应用,给出了一种基于 副本存储的元数据管理模型,有效的提高了资源和服务的查找效率。同时,在 m d s 的基础上构建了星形的注册架构,实现了服务资源的多级注册以及有效查 询。 基于上述理论和研究成果,本文对原有的数据集成流程进行试验改进,通过 对比分析,给出了改进后的集成流程的性能分析与评价。 关键词:异构数据,模式集成,公共数据模型,模式匹配,字典 a b s t l a c t a l o n gw i mt l l ed e v c l o p m e n to fi 响咖a t i o n i z a t i o n ,d a t ai s t 1 1 ec o r eo fa j l 印p l i c a t i o n s a n di tb e c o m e sl a g e ri i ls c a l e 舳dc 1 0 s e ri ni m e r a c t i o n m o r ea 1 1 dm o r c p e o p j ew a n tt oa c c e s sa i l d m a 玎i p u l a t em eu s e f h ld a _ t a 锄o n gm u l t i p l em a s s i v e i i l 士o m a t l o ns o u r c e sa n d 耐1 i e v em e i n t e r o p e r a b i l i 够b e 卅e e ns y s t e m sa i l di n f 0 册a t i o n b u tt 1 1 e s ed a t as o u r c e sm a yl o c a t ea tm u l t i p l ea u t o n o m o u sd o m 撕n si nh e t e r o g e n e o u s e n v i r 0 i u i l e m sw i md i f f e r e n td a t af o n n a t s ,s t o r a g em o d e sa r l da c c e s sc o n t r o lp o l i c i e s f o rs h i e l d i n gn l o s eh e t e r o g e n e o u sf a c t o r s ,i ti sn e e dt oi n t e 酗a t et h i sd a t a g r i d ,a sa 1 1 e wn s m gt e c h i l o l o g y ,i sa b l et op r o v i d eu s e r s 、航ma m g h e r 1 e v e lo fr e s o u r c es k i r i n g s e n ,i c e s t h r o u 曲t 1 1 ei n 仃0 d u c t i o no fg r i ds e r v i c e st 0t l l eh e t e g e n e o u sd a t af i e l d ,i t c a na c h i e v em o r ee 恐c t i v es h 撕n go f r e s o u r c e sa 1 1 ds e i c e s i no r d e rt 0s 1 1 i e l d 廿1 ev a r i o u sc o n 搦c t sb 咖e e n h e t f 粕g e n e o u sd a t a a 1 1 da c m e v e e 髋c t i v ei n t e g r a t i o no f h e t e r o g e n e o u sd a t h j sp 印e rd e s i g l l e das e to fi n t e g r a t i o n p l a f f o r mf o rh e t e r o g e n e o u sd a t a ;t h ep la t :f o mi sb a s e do nm ei 1 1 c r e m e n t a li n t e 灯缸i o n m o d e l ,u s i n gt t l em e t h o do fs c h e m ai n t e g r a t i o n t h r o u g hc o n s t m c t i o no fx m l - b a s e d c o m m o nda _ t am o d e l ,i ta c m e v e ss 锄j i n t e l l i g e n ti n t e 铲a t i o nf o r h e t e r o g e n e o u sd a t a i n t e g r a t i n g 血n c t i o ni l l t 量l e p l a t f 0 加i sc a 而e do u tb y 鲥ds e n ,i c e s ,i n c l u d i n g p r 0 v i d i n gau n i f o mr e g i s t e r i n gi m e r f a c ef o rn l eu s e r s s c h e m ai m e 伊a t i o ni st 量l e k e yt e c h n o l o g yi nh e t e r o g e n e o u sd a :t ai n t e g r a t i o n s c h e m ai n t e g r a t i o n sm a i ni d e ai st o u i l i 黟m l l l t i p 】el o c a ls c h e m a sa b s n a c t e d 劬m l o c 甜d a t as o u r c e st oa i la c c o r d a n t9 1 0 b a js c h e m a ,觚d ,出e l d i n g 毋锄m a t i c a l a 1 1 d s e m 锄t i cc o n n i c t s t h i sp a p e ra d o p t e dx m ls c h e m aa st t l e m o d e l i n g1 a 1 1 9 u a g eo n l o c 甜d a t as o u r c e sa 1 1 d 9 1 0 b a lo u t p u t ,a 1 1 dp r e s e m e dal 【i 1 1 do fs c h e m am a t c k n g m e t h o db a s e do nd o m a i nd i c t i o n a 巧w h i c ha c c o m p l i s h e dt l l e s i n l p 】e1 :1m a t c h i n g a u t o m a t i c a l l ya n ds u p p l e m e n t e d 研t ha r t i f i c i a lm e a n sf o rt 1 ec o m p l i c a t e dm a t c l l i n g t 0a c h i e v et h ei n t e 融t i o no f h e t e r o g e n e o u sd a t ab a s e do ng r i de n v i m l l l n e n t ,m e c o r eo 士r e s o u r c ea c c e s ss e e ra d o p t st h eo g s a - d a is e r v i c e sc o m p o n e n t t h r o u g l l t h ed 印l o y m e n ta n de x p a i l s i o no fo g s a d a l ,i tm a k e s t h ep l a t f o m lp r o c e s s i n gt 1 1 e t a s k sm o r ee f f e c t i v e l y a tt h es 锄et i m e ,t h j sp a p e r p r e s e n t e dam e 谢a 诅m a n a g e m e n t m o d e lb a s e do nr e p l i c a t i o n u s i n gi tc a ni m p r o v et h em e t a d a t aq u e 珂i n ge 伍c i e n c y t h e p 】a b 册i m p l 锄e n t st h es u p p o 九o fd y n 锄i ca c c e s sf o rs e r v i c er e s o u r c e sb a s e d 0 nm d sa n di t sr e g i s t r a t i o ns y s t e m b a s e do nt h et h e o d ra n dr e s e a u r c ha b o v e ,t h i sp a p e ri m p r o v e st l l eo r i g i n a ld a t a 1 m e g r a t l o np r o c e s s e s ih r o u 曲c o m p a r a t i v ea n a l y s i s ,t h i sp a p e rg a v et h ea n a l y s i sa i l d e v a l u a t i o no fp e r f b r m a n c eo ft h ei m p r o v e di m e 黟a t i o np r o c e s s k q 啊o r d s :h e t e r o g e n e o u sd a t 如s c h 锄ai n t e g r a t i o n ,c o 舢m o n 纰m o d e l ,s c h e m a m a t c l l i n g ,d i c t i o n a r y 学位论文独创性声明 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) : 学位论文使用授权说明 2 0 0 8 年6 月1 6 日 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河 海大学研究生院办理。 论文作者( 签名) :2 0 0 8 年6 月1 6 日 河海大学硕士学位论文 基于网格环境的异构数据集成的研究和实现 1 1 选题背景 第一章绪论 随着计算机技术的迅猛发展和信息化的推进,信息技术提高了社会各界包括 政府,企业,学校的工作效率,给人们的生活带来了诸多便利。但由于在信息化 建设初期缺乏有效的规划和协作,应用数据往往会因天然的业务分隔或行政划分 驻留在不同的应用程序、数据库中,造成系统间存在大量冗余数据【j l 。 针对目前这种情况,迫切的需要一种技术对数据进行有效的管理和整合,使 更多的人充分使用已有数据资源,减少资料收集、数据采集等重复劳动的代价。 在这种背景下,异构数据集成技术应运而生。 数据集成是把不同来源、格式、特点性质的异构数据在逻辑上或物理上的集 中,使得用户能够以透明的方式访问这些数据,为用户提供数据共享和互操作【2 】。 模式集成是较早采用的数据集成方法。其基本思想是,通过对系统中数据源的数 据视图的集成实现局部模式到全局模式的转换,全局模式描述了数据源的数据结 构,语义及操作1 3 】,使用户能够按照全局模式透明的访问各数据源的数据。 随着数据资源的不断加入,日益庞大的数据量导致集成系统负担的加重以及 集成效率的降低。网格1 4 j 作为一种建立在互联网之上的新一代基础设施,通过对 服务资源的整合和管理,提供了一种分布式执行的机制。随着科学计算中数据的 爆炸式增长,网格由以科学计算为主,逐步跨入了分布式海量数据处理领域。在 本文中,将网格服务引入数据集成中,应用网格中资源管理以及任务分布式处理 的能力,能够提高集成的效率,降低集成任务对系统硬件要求。 通过在网格平台中部署用于数据访问和集成的网格服务实现网格环境下的 异构数据集成。数据集成涉及多个数据源和数据服务,这些资源和服务通过一种 统一的机制在网格平台中进行注册,由元数据管理模块统一管理。 1 2 国内外研究现状 基于网格环境的异构数据集成系统结合网格中的资源,传输以及共享特性, 为用户提供了分布式数据的集中视图,实现了数据传输交互的透明化,高效化和 可靠化。 国外对于基于网格数据集成系统的相关研究工作起步较早,水平较高,成果 较多。其中最著名的有美国的a v a l ( ie i i i 5 j ( a v a l c ie n t e 印r i s ei n f o m l a t i o n i n t e g r a t i o n ) 系统和o r a c l e1 0 9 【6 】等。国内对于数据网格的相关研究仍处于起步阶 段,但已有一些成功的范例,科学数据网格【7 】 ( s d g ,s c i e n t i 五cd a t ag r j d ) 就 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 是其中的典型应用。 1 2 1a y a l 【ie a v 撕e i i 系统是由美国的s y b a s e 公司开发研制的。该系统将物理上分布的 数据源整合起来,并通过单一数据层标准化了对集成数据视图的访问,为企业级 的数据继承提供了一个灵活的、流程化的、可扩展并且高效的解决方案。 a :v 出将分布的异构数据源看作一个单独的数据、池【5 1 ,通过提供一种网格中 的对象统一命名方法来标识资源。同时,为了管理这些资源,a v a l ( i 提出了网格 域的( 嘶dd o m a i n ) 的概念。域是a l v a l ( i 的基本管理单位,每个域中可以部署 多个网格服务,数据网格访问服务( d g a s ,d a 协g r i d a c c e s ss e n ,e r ) 以及域控 制器( g d c ,g r i dd o m a i nc o 曲旧1 1 e r ) 【5 1 。域和域之间通过一套认证授权机制实 现域间的资源共享。删将数据管理分为数据提供,数据访问,数据集成三个 部分。数据提供部分通过联邦方式管理分布数据源,每一个联邦中的数据源向指 定目录进行注册,系统根据每一个目录项自动生成一个用于访问该数据源的w e b s e n ,i c e 。 a v a k i 使用统一的访问控制机制对数据库访问进行授权。数据访问部分使用 包括j d b c ,o d b c ,s o a p 或标准的i o 文件等方法实现分布数据源的访问;数 据集成部分通过提供标准的基于x m l 的合成层完成数据集合的集成,提供用户 和程序所需要的数据格式,通过使用x s l 转换 a v a be i i 的优点如下p j : 1 ) 标准化并简化数据访问一使得多个分布式数据源看起来像一个数据源; 2 ) 建立数据的集成视图并创建了可重用的数据集成资源库; 3 ) 从数据源实时发布数据,而并非数据集市或复制; 4 ) 高效发布最新数据同时保护生产数据库; 5 ) 利用分布式网格架构来系统地创建数据抽取层来为数以百计或千计的数 据源和应用服务,并可以很方便地进行扩展。 1 2 2o m c l e1 0 9 o r a c l e1 0 9 是美国o r a c l e 公司推出的第一个真正的网格数据库。o r a c l e1 0 9 作为网格资源的使用方,服务和数据的提供方,对数据库利用存储和服务器的方 式进行了虚拟化,自动地将集群化的存储器和服务器供应给网格中的不同数据 库,同时提供了实现数据池以及应用程序虚拟的相关技术。 在数据资源管理方面,o r a c l e1 0 9 采用了自动存储管理方式,简化了存储管 理,通过是存储管理的细节抽象化,o r a c l e1 0 9 利用先进的数据供应机制改善了 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 数据访问的性能,且不需要d b a 的额外工作。o r a c l el o g 将一个磁盘组作为单 个逻辑单元进行管理【引,o m c l e1 0 9 自动为数据库分配存储资源以及创建或删除 与该数据库对象相关的文件。资源管理器主要负责向用户,应用程序或服务提供 资源,它允许将数据库管理员权限分配给网格用户,从而确保每个网格用户对资 源的充分享用。 为了解决分布数据库的访问,o r a c l el o g 提供了分布式s q l 和网关机制。分 布式s q l 允许网格用户有效地访问和集成存储在多个o r a c l e 和非o r a c l e 数据库 中的数据”【6 j 。网关利用分布式s q l 向网格提供透明的远程数据访问,在不同的 数据库之间进行数据集成和事务管理。此外,o r a c l e1 0 9 还提供了外表格和b f i l e 功制6 】,使得o r a c l e 在对网格中分布数据库进行访问时,数据能够保存在本地文 件系统中。 1 2 3 科学数据网格 科学数据网格( s d g ,s c i e n t i f i cd a t ag 瑚) 是在中国科学院科学数据库海量 数据资源的基础上,利用先进的数据网格技术、连接分布在全国的四十多个研究 所而建设的一个面向大规模分布式异构数据资源的共享平台和应用环境1 7 j ,。该 项目采用自行研发的网格中间件,解决了大规模、分布式、异构科学数据的统一 访问问题,提高了共享的效率和数据的利用率。 s d g 中间件的核心服务模块包括信息服务子系统、数据访问服务子系统、 存储服务子系统、安全体系子系统【7 】四个子系统。信息服务子系统是为网格中的 数据资源提供统一的信息服务,实现资源描述和资源发现等功能。数据访问服务 子系统是为大规模、分布、自治、异构的数据资源提供统一的访问接口。存储服 务子系统提供具有数据传输、存储管理以及配额分配功能的存储服务,利用高速 网络环境提供网络服务,从而更有效利用数据中心的海量存储资源,解决各建库 单位数据存储、备份和开展网络服务的困难【7 】。安全体系子系统提供科学数据网 格中的统一安全体系和相应服务,包括访问数据资源所需的单点登录、认证、访 问控制和记账服务,实现对数据资源有控制、有保障、有效率的共享。 1 2 4 研究现状分析 上文给出的基于网格环境的异构数据集成系统通过数据源的虚拟视图和多 级映射机制,结合网格对任务的分布式处理能力,实现对物理上分布的数据源的 有效整合,提高了数据集成的效率。 其中,a v a k ie i i 使用了虚拟视图技术,使得分散的数据看起来是存储在一 个单一的s q l 关系型表中。o r a c l e l o g 则是通过o r a c l e 透明网关和o r a c l e 物化 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 视图等功能的支持,实现异构数据的透明访问和有效集成。科学数据网格通过创 建虚拟数据库,将数据源中的数据映射至虚拟数据库中,将对多个异构数据库的 查询转化为对虚拟数据库的查询。 这些集成技术普遍存在以下不足; 1 ) 模式集成中的转换工作繁杂,人工参与度高; 2 ) 对结构化数据的支持较好,但缺乏对半结构化数据集成的支持。 本文针对这些不足,在下文中提出了相应的解决方案。 1 3 本文的研究目的和内容 本文主要研究目标是探讨一种将异构数据的集成技术与网格技术相结合的 框架,在网格环境实现对异构数据的集成,通过网格中的服务体系和技术,提高 异构数据集成的效率。为了实现该目的,本文首先对异构数据的模式集成技术进 行了研究和探讨,在此基础上,给出了基于网格环境的异构数据的集成实现。 本文的主要工作: 1 ) 设计异构数据集成平台的框架; 2 ) 通过建立统一模式以及模式间的匹配方法实现异构数据的模式集成; 3 ) 引入网格技术,针对异构数据集成的特点,实现网格环境下元数据管理 以及数据资源和服务的注册等功能; 4 ) 对数据集成平台中的集成方法进行实验改进。 本文的课题来源于河海大学校园网格建设项目以及南通警务数据集成平台 建设项目。 1 4 本文的组织结构 全文共分七个章节。 第一章,绪论。该章介绍了选题背景、国内外相关的研究现状以及论文的研 究目的和内容。 第二章,异构数据集成平台中的相关技术。该章介绍了异构数据平台中使用 的网格服务体系、用于构建网格环境的中间件以及集成平台中公共语言。 第三章,数据集成平台的设计。该章在前文的基础上,提出了异构数据集成 平台的框架及设计。 第四章,异构数据的模式集成。该章提出了模式集成的定义,以及模式集成 中统一模式的设计、模式匹配的解决方案以及最后映射的生成。 第五章,网格环境下数据集成的实现。该章介绍了0 g s a d a i 的使用和扩 展、元数据管理和服务资源的注册功能的实现。 河海大学硕士学位论文 基于网格环境的异构数据集成的研究和实现 第六章,数据集成流程。本章在平台实现的基础上,给出了实验改进后的数 据集成流程,并通过实例,与原有集成方法进行分析对比。 第七章,总结与展望。该章总结了本文的研究工作,展望进一步的工作。 河海大学硕士学位论文 基于网格环境的异构数据集成的研究和实现 第二章异构数据集成平台中的相关技术 为了将异构数据集成技术与网格技术相结合,实现基于网格环境的异构分布 数据源的集成,本章介绍了基于网格环境的数据集成平台所采用的服务体系、用 于构建网格环境的中间件以及数据集成中所采用的公共语言。 2 1 数据集成平台的服务体系 为了实现基于网格环境的数据集成,平台采用了开放式网格服务体系 ( o g s a ,o p e ng r i ds e r 、,i c e sa r c h i t e c t u i e ) 【s 】o 开放网格服务体系是g 1 0 b u s 团体 和i b m 在2 0 0 4 年2 月的全球网格论坛1 9 j ( g g f ,g l o b m 硎df o n 】1 1 1 ) 提出的用 于建立面向服务的下一代网格系统的事实标准和结构体系。o g s a 是基于w 曲 服务以及x m l 和h t t p 等标准协议,面向服务的分布式服务体系架构,该架构 对于网格服务中的各个方面进行了定义,包括网格服务的特征,网格服务生命周 期的管理等,并在此基础上定义了标准的接口规范。 o g s a 架构由四个主要的层构成,分别为物理逻辑资源层,w 曲服务层,网 格服务层,网格应用程序层,其架构图如错误l 未找到引用源。i l o j 所示。 固圈国图国固 图2 - 1o g s a 架构图 物理逻辑资源层【1 0 】位于o g s a 中的最底层,该层不仅包含了服务器,存储 器和网络等物理资源,同时也包含了通过虚拟化和聚合物理层资源提供额外功能 的逻辑层。 w 曲服务层【1 0 】位于物理逻辑资源层的上层,通过o g s a 的建模,物理逻辑 层的所有的资源都被映射成为w e b 服务层的服务。这一层有一个重要的组件, 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 w s l 疆规范,该规范在w e b 服务的技术之上,定义了网格服务,并引入w 曲服 务资源( w s r e s o u r c e ) 对w - e b 服务上下文中的状态信息进行模型化管理。 网格服务层【1 0 】是o g s a 架构中的第三层,包括了基于前两层基础设施的网 格服务。 网格应用层【l o 】是o g s a 架构中的最高层,它包括了所有使用一个或多个基 于网格架构的服务应用程序。 o g s a 的目的就是要将网格的一些功能融合到w 曲s e n ,i c e 这个框架中。在 o g s a 中所有的事务都表示成一个网格服务,计算资源、存储资源、网络、程序、 数据等都是服务,所有的服务都联系对应的接口,并通过使用w 曲标准描述语 言w s d l 【1 1 】( w | e bs e i c ed e s c r i p t i o nl a i l g u a g e ) 将服务标准化,透明化,使之 能够进行交互运转,所以,o g s a 被称为是以服务为中心的“服务结构”【1 2 】,通过 标准的接口和协议支持创建、终止、管理和开发透明的服务,o g s a 有效地扩展 了w 曲s e i c e 架构的功能。 该面向服务模型具有如下优点【1 3 】: 1 ) 网格环境中的所有组件都是虚拟化的,通过提供一个所有网格服务实现 基础的相对统一的核心接口,可以使得分级的、更高级别的服务的构建能够跨多 个抽象层以一种统一的方式进行处理。 2 ) 虚拟化还促使从多个逻辑资源实例到同一物理资源的映射,在对服务进 行分组合分配时不必考虑具体的实现,可以以底层资源支撑作为基础,在虚拟组 织中进行资源管理。 3 ) 通过网格服务的虚拟化,可以将通用的服务语义行为无缝地映射到本地 平台设施上。 2 2 集成平台中的网格中间件 数据集成平台中采用g l o b u s 网格中间件构建网格环境,采用o g s a d a i 中 间件作为数据访问和集成的服务组件。 2 2 1g l o b u s 网格中间件 g l o b u s 工具包【1 4 j ( g t ,g 1 0 b u st o o l k i t ) 来源于g l o b u s 项目,g l o b u s 项目是 国际上最有影响力的与网格计算相关的项目之一,是由来自世界各地关注网格技 术的研究人员和开发人员共同努力的成果。由全球网格论坛下属g l o b u s 项目组 成员联合开发的g l o b u st 0 0 l k i t 标准工具包,已被公认为当前建立网格系统和开 发网格软件事实的参考标准。 g l o b u s 的协议建立在互联网协议之上,以互联网协议中的通信、路由、名 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 字解析等功能为基础。g l o b u s 的协议分为五层:构造层、连接层、资源层、汇 集层和应用层【15 1 。每层都有自己的服务、a p i 和s d k ,上层协议调用下层协议 的服务。g l o b u s 协议层如图2 2 【1 5 1 所示。 l 应用层 上 l 汇集层 1 l 资源层 1r l 连接层 图2 - 2g l o b u s 协议层 构造层1 1 5 j ( f a b r i c ) :它的功能是向上提供网格中可供共享的资源,它们是 物理或逻辑实体。常用的资源包括处理能力、存储系统、目录、网格资源、分布 式文件系统、分布式计算机池、计算机集群等。t 0 0 l b t 中相应组件负责侦测可 用的软硬件资源的特性、当前负荷、状态等信息,并将其打包供上层协议调用。 连接层【1 5 】( c o n n e c t i v i 哆) :它是网格中网络事务处理通信与授权控制的核心 协议。构造层提交的各种资源间的数据交换都在这一层的控制下实现。各资源间 的授权验证、安全控制也在这里实现。在t 0 0 l 心t 中,相应组件采用基于公钥的 网格安全基础协议。在此协议中提供一次登录、委托授权、局域安全方案整合、 基于用户的信任关系等功能。资源间的数据交换通过传输、路由及名字解析实 现。 资源层【1 5 1 ( r e s o u r c e ) :这一层的作用是对单个资源实施控制,与可用资源进 行安全握手、对资源做初始化、监测资源运行状况、统计与付费有关的资源使用 数据。在t o o l b t 中有一系列组件用来实现资源注册、资源分配和资源监视。 t o o l b t 还在这一层定义了客户端的c 、j a v a 的a p i 和s d k 。 汇集层【1 5 1 ( c 0 1 1 e c t i v e ) :这层的作用是将资源层提交的受控资源汇集在一起, 供虚拟组织的应用程序共享、调用。为了对来自应用的共享进行管理和控制,汇 集层提供目录服务、资源分配、日程安排、资源代理、资源监测诊断、网格启 动、负荷控制、账户管理等多种功能。 应用层i j 纠( a p p l i c a t i o n s ) :这层是网格用户的应用程序。应用程序通过各层 刍 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 的a p i 调用相应的服务,再通过服务调用网格上的资源来完成任务。应用程序 的开发涉及大量库函数。为便于网格应用程序的开发,需要构建支持网格计算的 库函数。 g l o b l l s t o o l k i t4 0 主要版本发布于2 0 0 5 年4 月2 9 日,g l o b u st 0 0 l k i t4 0 包 括了一系列的服务和相关的程序库,其中大部分的服务是在w s i 叮基础上实现 的。g t 4 中包含的服务和组件可以划分为五类,如图2 3 【1 5 】所示,组件分别基于 w s 和非w s 两种,基于w s 的遵循w s r f 标准,非w s 不遵循w s r f ,且大部 分起源于g t 以前的版本。 蹬匿鋈盏塾! 篓篓:i 篓:| : c 。m g tc 。m p 。n t :p u b i i c m t e 砬o bf 2 。n 备。t w ni n c r 。m 1 a lr o - 。蜥:叭o t b 一。u p f 二- _ = - c o ! 而b u t ;o l 、,1 o c hp r o v o w :p u 矗b ci n t e r f i n c o n t i yc h a n a ed a r w n ;r 柳m o n t 扛lr o l o 硝6 。 j 。+ : d e p r o c a t o dc 。m p e m 二n ms u p p o r t o d :w h d r o p p o di na 如t u f 。i o 拈。 图2 3g l o b u st o o l k i t4 的组件 2 2 2o g s a d a i o g s a d a i 【1 6 】( o p e ng r i ds e r v i c e sa r c h i t e c t 唣一d a t a a c c e s sa n di m e g r a t i o n ) 是一种网格中间件,其设计目标是提供一种简便的方法,在网格环境中实现数据 的访问和集成。o g s a d 触是一个带有许多扩展点的工具包,它为开发者提供便 利的数据服务,以便适应各自特定的应用,o g s a d a i 中间件隐藏了数据库驱动 程序技术、数据格式转换技术与来自用户的发送机制等细节【l 川。通过o g s a - d a i 的数据存取和集成使得现有数据资源,如关系数据库和x m l 数据库能够通过扩 展活动较容易地集成到网格环境中。 河海大学硕士学位论文 基于网格环境的异构数据集成的研究和实现 在o g s a d a i 主要包含了以下服务【1 。7 】 1 ) 网格数据服务( g d s ,g r i dd a t as e r v i c e ) ,是一种可以访问数据源( 一个 关系数据库或x m l 数据库,甚至是一种原始文件形式的数据存储) 的服务。 2 ) 工场( f a c t o r y ) ,该服务主要负责建立g d s 实例来访问特定的数据源。 3 ) 服务组注册器( s g r ,s e r v i c eg r o u pr e g i s n y ) ,该服务用于寻找用户关 注的g d s 或由工场,并根据需要建立的g d s 。 在o g s a d a i 任务的执行过程中,直接与用户进行交互的有三个各部分:执 行文档( p e r f o md o c u m e n t ) 、响应文档( r e s p o n s ed o c u m e n t ) 以及活动( a c t i v 时) 。 执行文档:一种x m l 格式的文档,用于定义在g d s 上执行的活动以及活动 的顺序。 响应文档:同样也是一种x m l 格式的文档,响应文档中包含了用户任务的 最终结果输出。 活动:是实现程序功能的核心模块,活动制定了一个需要执行的动作,该动 作可以是对数据源的查询,对数据格式的转换或是对于结果的传输等等。 2 3 集成平台中的公共语言 在集成平台,采用煳l 语言对数据模式以及映射规则进行统一描述。l 是e x t e n s i b l em a r k u pl a n g u a g e 的缩写,其前身是s g m l ( t h es t a i l d a r dg e n e r a l i z e d m 破u pl a n g u a g e ) 【】8 】。扩展标记语言l 是一种简单的数据存储语言,使用 一系列简单的标记描述数据,而这些标记可以用方便的方式建立。 x m l 的简单性使其易于在任何应用程序中读写数据,这使x m l 很快成为 数据交换的唯一公共语言,虽然不同的应用软件也支持其它的数据交换格式,但 不久之后他们都将支持x m l ,那就意味着程序可以更容易的与w i n d o w s 、m a co s , l i n u ) 【以及其他平台下产生的信息结合,然后可以很容易加载x m l 数据到程序 中进行解析。 x m l 的主流解析器包括d o m ,s a x ,j d o m ,d o m 4 j 。 1 ) d o m 【1 9 】 d o m 是用与平台和语言无关的方式表示x m l 文档的官方w 3 c 标准。 d o m 是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员 在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后 才能做任何工作。d o m 以及广义的基于树的处理具有几个优点。首先,由于树 在内存中是持久的,因此可以修改它以便应用程序能对数据和结构做出更改。它 还可以在任何时候在树中上下导航。 2 ) s a x 【2 0 】 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 这种处理的优点非常类似于流媒体的优点,分析能够立即开始,而不是等待 所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需 要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程 序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。 3 ) j d o m f 2 1 】 j d o m 的目的是成为j a v a 特定文档模型,它简化与x m l 的交互并且比 使用d o m 实现更快。由于是第一个j a v a 特定模型,j d o m 直得到大力推 广和促进。正在考虑通过j a v a 规范请求j s r 1 0 2 将它最终用作j a v a 标准扩展。 4 ) d o m 4 j 田j d o m 4 j 合并了许多超出基本x m l 文档表示的功能,包括集成的x p a t h 支 持、x m ls c h e m a 支持以及用于大文档或流化文档的基于事件的处理。它还提供 了构建文档表示的选项,它通过d o m 4 j a p i 和标准d o m 接口具有并行访问 功能。 d o m 采用建立树形结构的方式访问x m l 文档,而s a x 采用的是事件驱 动模型【2 3 1 。d o m 解析器把x m l 文档转化为一个包含其内容的树,并可以对 树进行遍历,所以对性能和内存的要求比较高。s a x 解析器采用了基于事件的 模型【2 3 】,它在解析x 池文档的时候可以触发一系列的事件,当发现给定的t a g 的时候,它可以激活一个回调方法。s a x 对内存的要求通常会比较低。但用s a x 解析器的时候编码工作会比较困难,而且很难同时访问同一个文档中的多处不同 数据。j d o m 较之d o m ,主要区别在于因为j d o m 仅使用具体类而不使用接口。 这在某些方面简化了a p i 。d o m 4 j 解析性能是最好的,目前许多开源项目中大 量采用d o m 4 j ,例如,著名的h i b e m a t e l 2 4 j 项目也用d o m 4 j 来读取x m l 配 置文件。 2 4 本章小结 本章介绍了基于网格环境的数据集成平台采用的相关技术。在本文中,通过 g i o b u s 网格中间件实现网格环境的构建,o g s a d a i 实现网格环境下异构数据 源的统一访问和互操作,通过x m l 对异构数据源进行统一描述和建模。 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 第三章数据集成平台的设计 在异构数据的集成平台的设计过程,需要解决的问题包括实现异构数据源的 统一访问的方法以及集成策略的制定,本章给出了上述问题的解决方案,并在此 基础上,提出了数据集成平台的设计架构。 3 1 异构数据集成需要解决的问题 为了实现异构数据的有效集成,需要解决的问题主要有两个,一是如何实现 对分布的异构的数据源的统一访问和操作,二是采用何种数据源集成策略。 3 1 1 异构数据源的统一访问 异构数据源是多个相关的但同时又具备自身特有的应用特性、完整性控制和 安全性控制【2 5 1 的数据源集合。异构数据源系统的异构性主要体现在以下几方面 f 2 6 】: 1 ) 计算机体系的异构2 q 各个异构数据源可以分别存在于大型机、小型机、工作站、p c 或嵌入式系 统中。 2 ) 基础操作系统的异构【2 6 】 异构数据源所在系统的基础平台可以是w i n d o w sn t ,l i n u ) 【,s o l a r i s 等操作 系统。 3 ) 数据源管理存储系统的异构【2 6 】 异构数据源可能是关系数据库,也可能是文件系统等。在这种情况下,为了 实现基于网格环境的异构数据集成,构建一种能够有效屏蔽异构性统一的访问接 口就显得尤为迫切和重要。 采用o g s a d a i 作为网格数据访问集成中间件,能够有效的屏蔽数据源的 异构性所带来的对于访问模式和访问结果统计的差异,为集成奠定了基础。本文 将在第五章节中具体介绍o g s a d a i 以及如何通过o g s a 。d a i 实现异构数据源 的统一访问,在此不再赘述。 3 1 2 异构数据源集成策略 当前异构数据的集成主要采用以下三种策略: 1 ) 虚拟数据库集成【2 7 】 该策略主要采用数据联邦模式,将异构的分布的数据源纳入一个虚拟的联邦 河海大学硕士学位论文基于网格环境的异构数据集成的研究和实现 数据库系统渊( f d b s ,f e d e r a l 丽d a t a b a u s es y s t e m ) ,对用户实现数据的异构透明 性,资源的命名透明性以及任务的并行透明性; 2 ) 定制集成1 2 7 j 该策略主要针对于固定的特殊应用,由应用程序查找指定的数据源,完成分 布数据的查询,数据传输和数据转换以及最终结果的存储和展现等。 3 ) 增量集成i 2 7 j 该策略结合了虚拟数据库集成以及定制集成两种策略的优点,应用程序不需 要考虑集成的每一个细节,主要通过元数据服务以及高级的数据存取和集成组件 完成异构数据库的集成。 使用增量集成策略实现异构数据源的集成,对于系统来说,具有更灵活的扩 展性,基于该策略的网格数据源集成系统可以方便的接纳各种异构的数据资源而 不需要重新调整接口f 2 9 】;对于用户来说,功能上更加多样,用户可以灵活多变 的组织多数据库源联合查询等相关任务。 本文在此基础上提出了基于增量集成的异构数据集成框架,如图3 1 所示。 框架分为四层,从上至下分别为应用层,公共协议层,数据服务层,数据资源层。 应用层 公共协议层 公其数据模型元数据服务 数据服务层 数据资源层 图3 1 异构数据集成框架 1 ) 应用层 应用层主要面向用户,提供了相关的应用程序接口和实例。 2 ) 公共协议层 公共协议层主要包含了公共数据模型和元数据服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年如何刷小升初真题及答案
- 供应链金融在中小企业融资中的应用与挑战2025年案例分析报告
- 信贷公司的网络营销方案
- 全国川教版信息技术八年级下册第一单元第2节《制作创意挂件》信息技术说课稿
- 课题2 金属的化学性质说课稿-2025-2026学年初中化学九年级全一册人教版(五四学制)
- 第20课 第一次工业革命教学设计-2025-2026学年初中历史世界历史 第一册统编版(五四学制)
- 常熟活动策划方案费用标准
- 18《富饶的西沙群岛》教学设计2024-2025学年统编版语文三年级上册
- 2025年消防考试数学真题及答案
- 日语水平考试试题及答案
- 山东省烟台市2024-2025学年高一下学期期末学业水平诊断生物试卷(含答案)
- 研究我国养老院老年人精神养老的现状、问题及改进策略
- 眼保健操原理和穴位按摩要领
- 妊娠与产后甲状腺疾病诊断指南
- 《3-6岁儿童学习与发展指南》健康领域知识测评题库(含答案)
- DB44∕T 2569-2024 碧道工程规划设计导则
- 福建土楼文化课件下载
- 医院廉洁行医培训
- 中式面点培训课件
- 医院后勤教育培训课件
- 2025年山西省中考物理试卷真题(含答案解析)
评论
0/150
提交评论