(计算机应用技术专业论文)基于p2p网络的xml数据集成的实现和优化策略研究.pdf_第1页
(计算机应用技术专业论文)基于p2p网络的xml数据集成的实现和优化策略研究.pdf_第2页
(计算机应用技术专业论文)基于p2p网络的xml数据集成的实现和优化策略研究.pdf_第3页
(计算机应用技术专业论文)基于p2p网络的xml数据集成的实现和优化策略研究.pdf_第4页
(计算机应用技术专业论文)基于p2p网络的xml数据集成的实现和优化策略研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于p2p网络的xml数据集成的实现和优化策略研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文摘要 基于p 2 p 网络的x m l 数据集成的实现和优化策略研究 摘要 随着互联网技术的发展,一方面,对等网络的提出彻底颠覆了传统的客户机服务器 模式,为网络上新的应用提供了一个更新颖的拓扑结构;另一方面,“网格”概念的提 出为互联网上的服务提供了新的途径,它的目的是试图实现互联网上所有资源的全面贯 通,彻底消除资源孤岛。在此基础之上,又提出了“数据网格”的概念,它呈现给用户 一个整合的虚拟数据资源仓库,将互联网上的各种异构数据规范为统一的接口,满足用 户在整个互联网上查找相关数据的需求。 互联网是由许多主机彼此相连接形成的,网络上的数据是极为巨大的。用户的查找 是面向如此巨大的数据,而且其中的某些数据是有相互关系的,如何对其进行组织、协 调,使用户获得需要的数据,是一个十分关键的问题。需要有一种动态的数据集成机制 来完成这个任务。它的作用是将网络上许许多多的数据通过一定的机制来处理,整合成 一个统一格式的数据来供用户使用,为用户提供友好的服务。 本文讨论了一个基于p 2 p 网络的数据网格系统e f c s - - g r i d 。文中概要介绍了 e f c s - - g r i d 系统的三层体系结构,包括门户应用层、网络执行层和数据资源层,以及 各组成模块的主要功能。着重分析了在以c h o r d 为基础的对等网络中数据集成的特点和 需求,设计了两种基本的数据集成模式,包括联合操作和连接操作,以此为基础设计并 实现了数据集成管理模块。在此基础上,针对数据集成的需求,根据对等网络的特点进 一步研究并设计了三种数据集成优化策略,通过实际的测试表明达到了对数据集成进行 优化的目的。最后对全文进行总结,讨论了本文的主要贡献,同时提出了下一步的工作 重点。 通过实际验证,本文所提出的基于p 2 p 的x m l 数据集成及其优化策略是可行的, 达到了预期的目标。 关键词:p 2 pc h o r dg r i d 数据集成x m l 数据服务 i i 东北大学硕士学位论文 a b s t r a e t r e s e a r c ho nx m ld a t ai n t e g r a t i o na n d o p t i m i z a t i o nb a s e d o np 2 pn e t w o r k a b s t r a c t w i t l lt h er a p i dd e v e l o p m e n to ft h ei n t e m e tt e c h n o l o g y , t h ea p p e a r a n c eo fp 2 p ( p e e r - t o - p e e r ) i sc h a l l e n g i n gt r a d i t i o n a lc sp a r e m ,a n dg i v e su sab r a n dn e wt o p o l o g yo f n e t w o r k ;o nt h eo t h e rh a n d ,t h ea p p e a r a n c eo f g r i d g i v e su san e wa p p r o a c ht oi m p l e m e n t m o r es e r v i c e so ni n t e m e t i t sg o a li st or e m o v e “r e s o n r c ei s l a n d ”,a n du n i t e sa l lr e s o u r c e so n i n t e m e t f u r t h e r m o r et h ec o n c e p to f d a t ag r i d c a ns h o wa l ld a t ar e s o u r c e st ou s e rw i t ha s t a n d a r di n t e r f a c e ,a n dm e e tu s e r sd e m a n do ns e a r c hd a t ao ni n t e r n e t i n f o r m a t i o no ni n t e r n e ti sv e r ye n o r m o u s ,h o wt of i n du s e f u li n f o r m a t i o nt ou s e ri sak e y p r o b l e m ad y n a m i cm e c h a n i s mi sn e e d e dt oi m p l e m e n tt h i st a s k t h ef u n c t i o ni su n i t ea l ld a t a i n t oas t a n d a r dd a t at ou s e r p r o v i d e sb e t t e ri n t e r f a c et ou s e r i nt h i sp a p e r , w ep r o p o s eas e r v i c e 鲥ds y s t e mb a s e do np 2 pn e t w o r k ,c a l l e de n t e r p r i s e f l e x i b l ec o m p o s i t i o ns e r v i c e ( e f c s c a i d ) ,i nt h i sp a p e r , t h es y s t e ma r c h i t e c t u r ei s p r o p o s e d ,a n dam o d e lf u rx v l ld a t ai n t e g r a t i o nm a n a g e m e n ti sp r o p o s e dt oa s s i g nt a s ka n d i m p r o v et h ee f f i c i e n c yo fd a t ai n t e g r a t i o nb a s e dp 2 pn e t w o r k t w ox m l d a t ai n t e g r a t i o n p a r e m si sp r o p o s e d , a n da ne v a l u a t i o na l g o r i t h mf o ro p t i m i z i n gd a t am t e g r a f i o ni sp r o p o s e d t h em o d e lc a nr e a l i z et h et a s ka s s i g n i n ga n dd a d ai n t e g r a t i o no p t i m i z i n ge x c e l l e n t l yi np 2 p e n v i r o n m e n t b yt h eu s eo f t h i sx m l d a t ai n t e g r a t i o nm o d e lp r e s e n t e di nt h i sp a p e r ,w eh a v ev a l i d a t e d t h ef e a s i b i l i f i e so f o p t i m i z a t i o np o l i c i e s k e yw o r d s :c h o r d ,p 2 p , x m l , d a t ai n t e g r a t i o n , g r i d ,d a t as e r v i c e i l l 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加 以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为 获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示诚挚的谢意。 学位论文作者签名: 阀童超 签字日期:2 矿口f 乙 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即 学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交 流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:导师签名: 签字日期:签字日期: 东北大学硕士学位论文第一章绪论 第一章绪论 1 1 引言 随着i n t e r n e t 的推广和普及,网上的信息站点和信息服务层出不穷,成为了地球上 容量最大范围最广的信息库。同时,网络用户也以极快的速度迅速增长。据c n n i c 第 十六次中国互联网络发展状况调查报告显示,截止到2 0 0 5 年6 月3 0 日,我国网站总数 为6 7 7 5 0 0 个,半年内增加8 6 0 0 个,增长率为1 3 ,和上年同期相比增长8 1 。中国 上网用户总数突破1 亿大关,达1 0 3 亿人,同半年前的调查相比,我国上网用户总人数 半年增加了9 0 0 万人,增长率为9 6 ,和上年同期相比增长1 8 4 t ”。种种数据表明, i n t e m e t 的信息站点和网络用户都在飞快的增加着,i n t e m e t 已经渐渐成为人们日常生活 中不可或缺的一部分,成为了人们获取信息的主要途径,它正在改变人们工作、生活、 学习、娱乐的方式。 人们使用网上资源不外乎有两种方式:直接访问网站或通过搜索引擎查找资源。目 前,访问网站时我们需要告诉计算机去访问哪一个网站,这就像要在打开电灯开关时必 须指定一个发电厂一样;另一种是使用搜索引擎查询,但输入一个查询关键字往往会得到 数万个结果需要依靠手工从中挑选有用的结果。现在的整个互联网就像一座堆满了 书籍、无人整理的图书馆,而用户只能通过手工检索乱七八糟的书目,以求找到自己需 要的信息。这种查找信息的方式像“地毯式轰炸”,一点儿都不像“精确打击”,与插上插 头就能用电那种便利无法相比,烦琐而且费时的缺点越来越暴露出来。 网格计算是近几年来出现的新兴技术【2 1 。网格技术可以更好地管理网上的资源,将 之虚拟成为一个空前强大的一体化信息系统,在动态变化的网络环境中,共享资源和协 同解决问题,从而让用户从中享受可灵活控制的、智能的、协作式的信息服务,并获得 前所未有的便利性和超强能力,可以最大限度地综合利用分布资源( 数据,计算能力, 存储能力等) ,即消除异构资源孤岛,真正实现资源共享【3 1 。使用网格资源就像是在家里 使用电力资源一样,无需选择使用哪里的电力,只需插上插头就可以使用,消除了用户 自己手工选择发电厂的过程。网格是从电力系统中借鉴过来的一个概念,是希望计算力 和计算资源能够像电力一样,“打开电源开关就可以使用”,不用去关心是谁、如何提供 的这些服务。网格的目标是抽象并量化计算资源,随时随地能够通过网络“定额”完成 “定量”的计算相关的工作。 同时,p 2 p 网络的发展使得以前的c s 、b s 模式受到了挑战。在传统的访问中, 用户得到数据,查找信息需要访问相应的服务器网站,同样的信息在网络上可能有很多, 用户需要自己输入网站的网址来访问。在p 2 p 网络结构中,用户需要的信息可以在整个 p 2 p 网络上自动搜索到,省却了用户手动查找的麻烦,同时具有性能高,信息丰富,扩 展能力强等优势。目前比较成熟的p 2 p 应用是n a p s t e r ,这是一种用于音乐文件交换的 一1 一 东北大学硕士学位论文第一章绪论 对等网络应用软件,用户可以通过n a p s t e r 快速的搜索大量的音乐文件,在文件传输时, 并不一定要通过某个服务器,这种体系结构减少了中央服务器的负载,同时也充分利用 了网络资源,提高了网络传输的速率。 本文所研究的系统有机的将网格同p 2 p 网络结合起来,将整个网络上的资源包 括数据,计算能力,存储能力以服务的形式完全共享,利用p 2 p 网络结构的优势, 使得用户对于数据查找更为便利,高效,自动,完整。本文主要致力于网格中的数据查 找和集成,提出了集成方案和优化策略。 1 2 网格简介 网格是从电力网格中借鉴过来的一个概念,希望计算力和计算资源能够象电力一 样,“打开电源开关就可以使用”,不用关心是谁、如何提供的这些服务。网格的目标是 抽象并量化计算资源,随时随地能够通过网络“定额”完成“定量”的计算相关的工作。 1 2 1 网格的涵义 随着经济全球化的日益发展,企业对将多种、异构、分布式的数据资源、信息资源 通过由一定互联方式组成的,具有开放式的、多平台的、相互协作的、能及时灵活的反 应、响应客户需求变化等特征的平台系统的需求丑益增长。而网格的出现正好满足了这 一需求。网格就是一个集成的计算和资源环境,或者说是一个计算资源池。中国科学院 计算所所长李国杰院士认为,网格实际上是继传统互联网、w e b 之后的第三个大浪潮, 可以称之为第三代互联网应用。简单地讲,传统互联网实现了计算机硬件的连通,w e b 实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,包括计算资源、存 储资源、通信资源、信息资源、数据资源等等。 网格能充分吸纳各种计算资源,并将他们转化为一种随处可得的、可靠的、标准的 同时还是经济的计算能力。除了各种类型的计算机,这里的计算资源还包括网络通信能 力,数据资料,仪器设备,甚至是人等各种相关资源。网格是借鉴电力网的概念提出来 的,网格的最终目的是用户在使用网格的计算能力时,就如同现在使用电力一样方便。 我们在使用电力时,不需要知道是从哪个发电站输送过来的,也不需要知道是通过什么 形式来发电的,不管是水力发电,火力发电还是核力发电。网格的最终目的也是给最终 使用者提供与地理位置无关,与具体计算设施无关的通用的计算能力【4 】。 网格的基本特征如下: ( 1 ) 协调非集中控制资源网格整合各种资源,协调各种使用者,这些资源和使 用者在不同控制域中,比如,个人电脑和中心计算机;相同或不同公司的不同管理单元; 网格还解决在这种分布式环境中出现的安全,策略,使用费用,成员权限等问题。否则, 只能算本地管理系统而非网格。 ( 2 ) 使用标准,开放,通用的协议和界面网格建立在多功能的协议和界面之上, 这些协议和界面解决认证,授权,资源发现和资源存取等基本问题。否则,只算一个具 一2 一 东北大学硕士学位论文第一辛绪论 体应用系统而非网格。 ( 3 ) 得到非平凡的服务质量网格允许它的资源被协调使用,以得到多种服务质 量,满足不同使用者需求,如系统响应时间,流通量,有效性,安全性,及资源重定位, 使得联合系统的功效比其各部分的功效总和要大得多。 网格是为了解决目前互联网存在的问题而提出的一种全新技术,它可以将地理上分 布的、系统上异构的多种资源通过高速网络连接起来,协同解决大型应用问题,实现互 联网上所有资源的全面贯通,最终把整个互联网整合成台超级虚拟计算机。 建设网格的意义主要在于它不受资源服务能力和地理位置的限制。现实世界的许多 科学问题无法用单个计算机有效地解决,随着通信技术的发展和资源服务能力的提高, 可以采用分布式的思想,逐渐将越来越大范围内的更多资源组织在一起共同解决问题。 并且可以有效降低维护费用,使用费用,对于一些超级设备或者特殊的海量数据,一般 的用户可能没有足够的资金来购买,或者没有能力来拥有全部数据,但是又有使用需求 的用户可以通过网格来使用他人的这些服务,只需很少的费用就可以得到相应的功能。 根据网格的应用不同,普遍认为可以把网格分为三类: ( 1 ) 计算网格:计算网格着重于专门留出用于计算能力的资源。在这类网格中,大 多数机器都是高性能的服务器。 ( 2 ) 拾遗网格:拾遗网格最常用于大量桌面系统。机器上可用的c p u 周期和其它资 源被收集起来,通常授予桌面系统主人控制其资源何时可以加入网格的权利。 ( 3 ) 数据网格:数据网格负责容纳和提供对跨多个组织的数据的访问。用户只要有 权访问数据,就不必关心数据位于哪里。例如,可能有两所大学都正在从事生命科学研 究,各自拥有独一无二的数据。数据网格允许这两所大学共享其数据、管理数据并管理 诸如谁有权访问什么数据之类的安全性问题。 1 2 2 数据网格的发展现状 数据网格是强调数据存储、管理、传输、处理的网槲5 1 。并行计算技术往往是由一 些计算密集型应用推动着的,特别是一些带有重大挑战的性质的应用,他们大大促进了 对高性能并行体系结构、编程环境、大规模可视化领域的研究。但是相比之下,数据密 集型计算( d a t ai n t e n s i v ec o m p u t i n g ) 的应用好像要比计算密集型应用多得多。它对应 的数据网格更侧重于数据的存贮、传输和处理。 在数据网格研究领域,美国和欧洲处于领先地位。英国政府已投资l 亿英镑,用来 研制 u k n a t i o n a lg r i d ”( 英国国家网格) 。美国政府用于网格技术基础研究的经费则已达 5 亿美元。美国军方正规划实施一个宏大的网格计划,叫做“全球信息网格”( g l o b a l i n f o r m a t i o ng r i d ) ,预计在2 0 2 0 年完成。作为这个计划的一部分,美国海军陆战队已启 动了一个耗资1 6 0 亿美元、历时8 年的项目。此外,其他的网格项目有美国的g l o b u s 、 l e g i o n 、c o n d o r 、i p g 等,欧洲的c e r nd a t a g r i d 、u n i c o r e 、m o l 等,澳大利亚的 n i m r o d g 、e c o g r i d 等,日本的n i n f 、b r i c k s 等。各著名的i t 公司相继公布了与网格目 3 东北大学硕士学位论丈第一章绪论 体应用系统而非网格。 ( 3 ) 得到非平凡的服务质量网格允许它的资源被协调使用,以得到多种服务质 量,满足不同使用者需求,如系统响应时间,流通量,有效性,安全性,及资源重定位, 使得联合系统的功效比其各部分的功效总和要大得多。 网格是为了解决目前互联网存在的问题而提出的一种全新技术,它可以将地理上分 布的、系统上异构的多种资源通过高速网络连接起来,协同解决大型应用问题,实现互 联网上所有资源的全面贯通,最终把整个互联网整合成一台超级虚拟计算机。 建设网格的意义主要在于它不受资源服务能力和地理位置的限制。现实世界的许多 科学问题无法用单个计算机有效地解决,随着通信技术的发展和资源服务能力的提高, 可以采用分布式的思想,逐渐将越来越大范围内的更多资源组织在一起共同解决问题。 并且可以有效降低维护费用,使用费用,对于一些超级设备或者特殊的海量数据,一般 的用户可能没有足够的资金来购买,或者没有能力来拥有全部数据,但是又有使用需求 的用户可以通过网格来使用他人的这些服务,只需很少的费用就可以得到相应的功能。 根据网格的应用不同,普遍认为可以把网格分为三类: ( 1 ) 计算网格:计算网格着重于专门留出用于计算能力的资源。在这类网格中,大 多数机器都是高性能的服务器。 ( 2 ) 拾遗网格:拾遗网格最常用于大量桌面系统。机器上可用的c p u 周期和其它资 源被收集起来,通常授予桌面系统主人控制其资源何时可以加入网格的权利。 ( 3 ) 数据网格:数据网格负责容纳和提供对跨多个组织的数据的访问。用户只要有 权访问数据,就不必关心数据位于哪里。例如,可能有两所大学都正在从事生命科学研 究,各自拥有独一无二的数据。数据网格允许这两所大学共享其数据、管理数据并管理 诸如谁有权访问什么数据之类的安全性问题。 1 2 2 数据网格的发展现状 数据网格是强调数据存储、管理、传输、处理的网格1 5 j 。并行计算技术往往是由一 些计算密集型应用推动着的,特别是一些带有重大挑战的性质的应用,他们大大促进了 对高性能并行体系结构、编程环境、大规模可视化领域的研究。但是相比之下,数据密 集型计算( d a t ai n t e n s i v ec o m p u t i n g ) 的应用好像要比计算密集型应用多得多。它对应 的数据网格更侧重于数据的存贮、传输和处理。 在数据网格研究领域,美国和欧洲处于领先地位。英国政府已投资1 亿英镑,用来 研制“u k n a t i o n a lg r i d ”( 英国国家网格) 。美国政府用于网格技术基础研究的经费则已达 5 亿美元。美国军方正规划实施一个宏大的网格计划,叫做“全球信息网格”( g l o b a l i n f o m m | i o ng r i d ) ,预计在2 0 2 0 年完成。作为这个计划的一部分,美国海军陆战队己启 动了一个耗资1 6 0 亿美元、历时8 年的项目。此外,其他的网格项目有美国的o l o b n s 、 l e g i o n 、c o n d o r 、i p g 等,欧洲的c e r nd a t a g r i d 、u n i c o r e 、m o l 等,澳大利亚的 n i m r o d g 、e c o g r i d 等,日本的n i n f , b r i c k s 等。各著名的1 t 公司相继公布了与网格目 n i m r o d g 、e e o c n i d 等,日本的n i n f , b r i c k s 等。各著名的l t 公司相继公布了与网格日 3 东北大学硕士学位论文第一章绪论 标一致的研究开发计划。惠普、i b m 、微软、s u n 等公司取得共识,支持x m l 、s o a p 、 u d d i 等互联网标准。通过将因特网上的资源和信息汇聚在一起,组合成企业和消费者 所需要的服务,以便有利于开发新一代的网络应用。其中最著名的是以“欧洲数据网格” ( d a t a g r i d ) 项目、美国的国际虚拟数据网格实验室i v d g l 和p p d g 项目,而最著 名的数据网格系统工具是g l o b u s 中的数据网格支撑模块和s d s c 的s r b 系统。g l o b u s 系统最初是面向计算网格的,后来由于数据网格应用的需求迫切,g l o b u s 系统在原有的 基础上增加了数据网格的功能,对数据的高速传输、数据复制、数据复制的选择、元数 据管理等进行了研究和实现,成为数据网格应用的开发平台。 美国圣地亚哥超级计算中心s d s c 的s r b 存储资源代理系统是用途较广的数据网 格软件之一。s r b 为用户提供了一个访问文件系统、档案系统、数据库系统等多种异构 存储系统的统一接口,屏蔽了存储系统异构的特性。它支持广域网络环境下多种数据源 的访问,提供了复制、复制数据的访问、文件的汇集、分布文件的逻辑集合等功能。目 前,s r b 系统已经被几十多个单位使用,包括英国的国家网格、美国的联邦数据库等。 它们正在和g l o b u s 系统相结合,以满足网格技术和用户的需求。 “数据网格”( d a t a g r i d ) 新一代超级互联网项目于2 0 0 0 年5 月首次提交欧盟, 2 0 0 0 年1 0 月欧盟各国达成协议,2 0 0 1 年1 月正式开始实旌,项目计划在3 年内投资9 8 0 万欧元,开发出分析、处理、传输能力远远超出现有w w w 网标准的新一代互联网。 英国粒子物理学及空间学研究理事会作为主要执行者参与了该项目的研发。该项目基于 网络技术、使用“开放源”法则,开发一种适用于分析和传输超大量数据的、全新的分布 式计算环境,创造出一个前所未有的、世界范围的数据和计算网络,它被视为下一代互 联网的先驱。它所计算和分析的数据量在数百t e r a b y t e s 至p e t a b y t e s 量级。d a t a g r i d 将为下一代科学探索提供有力的保证。d a t a g r i d 需要完成以下一些工作:负载调度和 管理、数据管理、网络监控、构造层的管理和海量存贮管理。 我国对网格技术的研究起步较晚,相关工作开始于1 9 9 8 年。因为网格技术是一项 相对来说很新的研究方向,所以我们在网格研究的关键技术方面与国外差距不大,基本 处于相同的起跑线上。但是目前国家对于网格研究的支持并没有国外那么大,所以目前 有能力进行网格研究的研究单位并不多。目前我国的网格技术研究主要集中于中科院计 算所、国防科大、江南计算所、清华大学等几家在高性能计算方面有较强实力的研究单 位。 我国目前已有的网格项目有中国科学院牵头的“国家高性能计算环境( h p c e ) ”项 目、科技部的“国家网格”( c n g r i d ) 、教育部的“中国教育科研网格计划”( c h i n a c r r i d ) 、 国家基金委的“e s c i e n c e 网格研究计划”、上海交通信息网格以及中国空间信息网格等 等。中科院计算所的“织女星网格”( v e g ag r i d ) 网格研究工作也取得了很大的进展。 “科学数据网格”项目是由8 6 3 支持的“高性能计算机与核心软件”重大专项的应 用网格项目( 2 0 0 2 - - 2 0 0 5 ) 。“科学数据网格”的建设以中国科学院科学数据库为主要基 础。中国科学院科学数据库是从1 9 8 3 年开始建设的一个大型综合性数据库群,是目前 4 一 东北大学硕士学位论文第一章绪论 国内信息量最大、学科专业最广、服务层次最高、综合性最强的科技信息服务系统。“十 五”期间,在中国科学院信息化建设专项的支持下,科学数据库的发展进入一个新的阶 段。目前已有4 5 个建库单位( 中科院的研究所) ,专业数据库5 0 3 个,总数据量1 6 6 t b 。 “科学数据网格”项目的研究目标是在科学数据库数据资源的基础上,通过网格计 算的相关技术,特别是数据网格技术,促进科学数据库中大量分布式异构数据资源的共 享,并在此基础上开发对科学研究有直接实用意义的应用系统“虚拟天文台”。 主要研究内容包括:构造科学数据网格的系统平台、开发科学数据网格所必需的中 间件软件、开发科学数据网格的示范应用系统一一虚拟天文台、开发高能物理学科的应 用系统一一宇宙线数据预处理系统、开发中医药领域的应用系统一一中医药虚拟研究 院,并在这些研究工作成果的基础上,提出一种科学研究领域的网格应用框架,争取成 为领域内的网格应用标准。 “科学数据网格”中间件软件由以下三个部分组成:网格信息服务系统、科学数据 网格数据访问系统、科学数据网格安全体系。在科学数据网格中间件的基础上,还开发 了一些实用的工具,如:通用数据管理工具、数据目录管理工具、数据量统计工具、通 用元数据管理工具、访问控制工具包及图像数据处理工具等。 虚拟天文台的基本原理就是利用可视化工具和天文望远镜观测得到的数据把所观 测天体再现出来,形成一个数字虚拟天空,使天文学家能够以前所未有的方式高效、方 便地获得所需要的数据,并且能够利用先进的计算工具对大量数据进行深度的分析和处 理。虚拟天文台的建设将利用网格技术和科学数据网格中间件所提供盼服务,实现国内 天文数据的无缝透明融合,并与国际资源进行互联共享。同时,配合国家重大科学工程 l a m o s t 项目和天文创新工程的需求,逐步建成连接国内外天文研究资源的“网关”, 为我国的天文学科发展提供重要的基础科研环境。 中科院计算所的网格研究工作统称为“织女星网格”( v e g ag r i d ) ,这个网格项目将 来的目标是具备以下几种能力:大规模的数据处理能力、高性能计算能力,以及具备资 源共享和提高资源利用率这方面的能力。目前研究的内容包括以下方面: ( 1 ) 在网格硬件层面,计算所的主要工作是研究下一代曙光高性能计算机,它们将 是面向网格的超级服务器; ( 2 ) 在网格系统软件层面,计算所正在研究开发一个名为g c p 的网格计算协议栈 ( g r i dc o m p u t i n gp r o t o c o ls t a c k ) 以及有效支持g c p 的织女星网格操作系统( v e g a g o s ) : ( 3 ) 在网格应用层面,计算所主要开展了信息网格和知识网格的研究工作,科学计 算类的应用网格研究则由合作伙伴完成。 1 ,3p 2 p 网络的发展 在上世纪末,本世纪初互联网上占据主流的模式是浏览器朋民务器模式( b s ) 。在这 种模式中,系统分成两大部分一服务器和浏览器,其基本工作方式是浏览器发出请求, 一5 一 东北大学硕士学位论文第一章绪论 服务器接受请求后,进行分析处理,然后将处理结果返回给浏览器。 p 2 p ( p e e r - t o - p e e r ) 即点对点网络,p 2 p 网络的节点间自组织地形成对等的逻辑网 络,一定程度上消除了客户机和服务器二者之间的差别。在近几年中,像n a p s t e r 和 g n u t e l l a 这样的文件共享( 主要是m p 3 文件) 软件在互联网上迅速传播,用户数量急剧 增长1 6 j 。在这样的系统中,数据被保存在用户的计算机中,而不像以往的c s 或者b s 模式那样把数据存放在集中的服务器上。在对等网络中,数据在对等结点之间直接传递。 n a p s t e r 和g n u t e l l a 等对等网络应用系统地成功推出,使得对等网络引起了人们的广泛 关注,虽然大多数人关心的是由此引发的版权问题。由于对等网络具有非集中控制、自 组织、自适应和良好的可扩展性等优点,使得越来越多的企事业单位关注对等网络技术 本身,包括微软、i n t e l 、s u n 和h p 等在内的大公司也纷纷加入p 2 p 的研究行列中,并 由i n t e l 发起,成立了包括上述公司的p 2 p 工作组,以推动p 2 p 进一步发展,财富( f o r t u n e ) 杂志更将p 2 p 列为影响i n t e m e t 未来的四项科技之一。s u n 公司主导的j x t a 工程也是 对等网络领域内的一个重要组成部分。b e r k e l e y 、m i t 等国外著名科研机构也成立了各 自的研究小组进行相关研究,并取得了许多初步成果。比较知名的对等网络系统有 c h o r d 7 1 ,c a n t 8 1 ,p a s t r y ,n a p s t e r 和g n u t e l l a 等。 对等网络又可以细分为两种类型:“纯粹”的对等网络和“混合”的对等网络。所 谓“纯粹”的对等网络是指在对等网络中,任意一个参与者的加入和退出都不会导致网 络整体服务的损失。所谓“混合”的对等网络是指对等网络中需要个中心实体来保证 网络服务的提供。和传统c l i e n t - s e r v e r 网络相比,对等网络有如下吸引人之处: ( 1 ) 整体性能高 对等网络中,没有服务器、客户机之分,可以充分利用各参与者提供的共享资源, 实现网络整体性能的最大化。 ( 2 ) 可扩展性好 在对等网络中,系统自动适应参与者的加入和退出。随着参与者的增加,网络规模 越来越大,网络中可共享的资源越来越丰富。 ( 3 ) 容错性好 当网络中参与者较多时,资源冗余成为必然,从而保证了资源的可得性和抗毁性; 冗余还可以避免“单点失效”问题。对等网络中参与者具有分散性等特性,这进一步提 高了系统资源的可靠性。 ( 4 ) 信息内容更丰富 各个网络参与者都可能是信息提供者,随着网络规模扩大,信息必将越来越丰富。 当网络增长的时候,共享信息的数量和范围都将随之增长。在一个开放网络环境下,p 2 p 网络能够很快积累相当丰富的信息 r 5 ) 负载均衡 对等网络环境下可以根据策略灵活分布信息。负载均衡模块可以监控各种信息的流 量和请求率,然后重新分布这些信息以减轻单个节点的负载。通过这种负载平衡策略可 一6 一 东北大学硕士学位论文第一章绪论 以提供分布式c a c h e 可以实现的功能,但是更简单而且代价d d g 。 1 4 数据网格系统中的数据集成问题 数据集成的根本任务是提供用户对多种异构异地数据源的透明,一致和实时访问。 透明性是指对用户屏蔽底层数据源的差异,让用户感觉数据来自一个大的统一的数据 源;一致性是指消除数据源之间存在的结构异构和语义异构,例如数据源之间使用不同 的数据库如d b 2 、m y s q l 、o m e l e ,或者是不同的数据源对同一属性或者数据表使用 不同的名称和取值限制;实时性是指用户随时可以访问到最新的数据。 关于数据集成问题由来已久。以前没有计算机的时候,公司记帐本就是记录各个交 易收支,将各种收支情况以统一的格式保存,以便以后检查,这就是数据集成的基本形 式之一。在信息时代,无论是国家、公司或是个人都有许多信息需要汇总,需要将大量 的信息数据以规范的格式保存下来,可能是数据库的数据,也可能是许多规范格式的文 件,这也是信息的集成。在现在的互联网时代,随着计算机应用领域越来越广泛,数据 分布也日益分散,集中式的数据存放已经逐步让位于分布式数据存放。但是,分散的数 据之间又往往存在着千丝万缕的联系,数据并非是存放在一个个毫无联系的数据孤岛 上。用户在具体应用时,往往又需要将分散的数据按某种需要进行搜索集中,以便了解 整体情况。这对数据的集成提出了两个新的要求,就是搜索和集成,这些功能不应该由 用户手动选择,而是应该由系统根据用户的需求自动在i n t e m e t 上搜索,匹配适合的资 源,集成结果返回给用户的。 但是i n t e r n e t 上的数据和格式是千差万别的。产生数据差异的主要原因是数据的结 构和语义上的冲突。源数据可以是关系型数据库,也可以是对象型数据库,更可以是 w e b 页面型和文本型的。因而,要解决数据集成问题,一个重要的问题就是如何消除 这种差异性,随着数据的大量产生,数据之间的结构和语义冲突问题更加严重,如何有 效解决各种冲突问题是数据集成面临的一大挑战;另一个是采取何种格式来表示经过集 成整合后的数据,保证格式的统一性、规范性、易读性。数据网格可以将不同格式内容 的数据包装为具有统一接口,返回统一格式结果的数据服务,供用户进行使用,目前可 以较好的解决上述问题。 1 5 数据集成的研究现状 数据集成( d a t ai n t e g r a t i o n ) 是一个将异构的、存在冲突,分散的源数据抽取出来,进 行相应的结构和数据转换后加载到目标系统中的过程。数据集成实际上是一个消除源数 据和目标数据的差异和冲突,按目标系统要求而进行的一致化的过程。如名称的一致化, 数据模式一致化和语义的一致化等。集成后的数据将向用户提供统一的标准的表现形 式,有利于用户对数据进行诸如数据仓库,数据挖掘等应用。数据集成可分为以下过程: ( 1 ) 集成分析 东北大学硕士学位论文第一章绪论 这一过程是实际集成之前的准备阶段。需要确定集成的策略,选择需要集成的数据, 确定数据集成的中间模式等;需要考虑具体的集成方法,如采用虚拟集成还是物理集成。 同时,对数据源进行分析,确定数据源的特点,充分利用数据源的功能。数据集成的中 间模式也是一个需要重点考虑的问题。采用不同的数据模型作为中间模式对集成过程的 难易程度影响很大,需要根据集成数据的特点选择合适的中间模式。 ( 2 ) 数据分析 需要集成的数据千差万别,数据之间在结构、语义和表示上存在差异和冲突。数据 集成系统需要消除这些差异和冲突,以满足目标系统的需要。数据分析过程通过不同的 数据比较其在结构、语义上的相似之处和冲突之处,产生相应的元数据;这一过程可确 定对冲突的解决方法,如定义转换规则或转换函数。数据分析阶段致力于发现数据之间 的冲突和错误,并找到解决问题的方法。数据分析可采用数据剖析和数据挖掘的办法。 数据剖析通过分析各个属性的数据实例,以发现诸如数据类型,单位。取值范围等语义 信息。数据挖掘则是在大量数据集合中发现属性之间的联系,约束关系等。 ( 3 ) 解决冲突 这一步主要解决数据分析阶段确定的各种冲突。冲突的解决取决于系统采用的集成 数据模型和冲突探测与解决机制。有些冲突能够很好地解决,但有些冲突如果完全由系 统来解决非常困难,其中包含大量人为因素,必须要人工干预。对结构冲突,可以将源 数据转换为中间模式来加以解决,用中间模式来消除结构冲突和进行结构统一。其中包 括源模式到中间模式的转换以及中间模式到目标模式的转换两个方面。对语义冲突,通 过对冲突的数据实施相应的冲突解决规则或函数加以解决。 ( 4 ) 数据迁移 数据在解决了各种形式的冲突后,数据将按照源和目标系统之间的对应关系,从数 据源迁移到目标系统中去。现有的数据集成系统,为了消除数据源在数据模式上的差异, 将不同来源的数据转换为标准的、能够被集成系统理解的中间模式。这样,数据集成工 作将在中间模式和目标模式之问进行。若数据源发生变化,则只需要重新将其转换到中 间模式即可,中间模式到目标模式之间的转换过程不需要更改。对于中间模式,不同的 数据集成系统采用不同的方式进行定义。常见的如关系表,对象等。用关系表作为中间 模式比较简单,但语义不好表达,特别是对异构的关系和非关系型数据进行语义表达时 不方便。对象能够弥补关系表的不足,但系统实现起来太复杂。利用x m l 用来表示中 间模式,可解决关系表的问题,同时由于儿的诸多优点,系统实现起来比较简单。 目前比较知名的数据集成项目是o g s a - d a i ( o p e n g r i ds e r v i c e s a r c h i t e c t l a r e d a t a a c c e s sa n di n t e g r a t i o n ) 。o g s a d a i 致力于建造通过网格访问和集成来自不同的孤立数 据源的中间件,符合基于o g s a 的网格标准。o g s a - d a i 是中间件,它被设计得使在网 格环境中对数据的访问和集成变得更为容易。它的开发工作主要是在苏格兰的e p c c 以 及英格兰的i b mh u r s l e yp a r k 完成的。 推动o g s a - d a i 发展的原因是一些“大科学”项目对中间件层的需要,这些中间 8 一 东北大学硕士学位论文第一章绪论 件提供了访问大型的、基础的静态数据库的支持。o g s a - d a i 被构建成为一个带有许多 扩展点的工具包,以便让开发者去扩展能力来适应他们自己的特定需要。数据库管理系 统就是一个实例,这里有我们经常使用的各种关系数据库( 通过j d b c 来实现) 和x m l 数据库( 通过x m l d b 实现) 。当然,。应用开发者也可以写他们自己的数据库来支持可 能产生的需要。 1 6 本文解决的主要问题及组织结构 随着时代的发展,现在的科学计算需要大量的数据,研究人员需要访问分析这些数 据( 经常使用一些复杂的并且昂贵的计算技术) ,但这些研究人员通常是在地理上是分 布的,同样,他们的研究所以依赖的计算与存储资源也是分布的。这给计算科学带来了 空前的挑战,数据网格技术成为计算机科学技术研究的重要领域。数据网格技术为用户 提供了广域范围内的数据共享和计算能力的集成。网格使得地理上广泛分布的科研工作 者或用户都能够访问和分析网格中大量应用数据资源,例如全球气候模拟、高能物理、 生物计算、数字地球、大规模的信息和决策支持系统等应用,其数据量将达到几十 t e r a b y t e 至p e t a b y t e 的级别,这样就能够满足研究人员对高性能、大容量分布存储和分 布处理能力的需求。 本文以东北大学申请的国家高技术研究发展计划( 8 6 3 计划) 课题“面向c i m s 领 域的支持企业业务柔性集成的服务网格技术的研究”为背景,深入研究和探讨数据网格 中的数据集成问题与p 2 p 网络中的集成优化策略。本文在系统实现上从实际角度出发, 并且研究了数据网格的相关技术,将非常有研究价值的数据网格服务技术应用与本系统 之中,同时将目前相对新颖的p 2 p 网络作为基本的网络拓扑结构,将数据网格同p 2 p 网络有机的结合起来,提出了用于企业数据应用的数据服务网格系统e f c s g r i d ( e n t e r p r i s e sf l e x i b l ec o m p o s i t i o ns e r v i c e s ) 。本人主要负责研究与实现系统中的数据集成 部分。 具体包括两个方面:针对目前研究的项目,根据实际环境设计实现一种可行的数据 集成模式;同实际应用中的需求相结合,提出一套集成优化策略,协调网络中的各个数 据服务,使任务能在更快的时间内完成,返回标准的结果。 本文主要章节安排如下: 第一章,介绍了本文的研究背景和研究意义,对数据网格中的数据集成问题的现状 作以简要介绍和初步分析,最后介绍了本文主要内容的组织结构。 第二章,首先简要介绍了数据网格,接着全面介绍了面向c i m s 领域服务网格系统 企业柔性集成服务( e n t e r p r i s ef l e x i b l ec o m p o s i t i o ns e r v i c e ,e f c s - - g r i d ) 系统一 一的总体体系结构,对其特性进行分析,介绍本文的研究重点。 第三章,介绍了实现e f c s - - g r i d 系统的相关技术,包括实现系统过程中所应用的 新技术、新规范以及新工具。 第四章,通过分析在e f c s - - g r i d 系统中数据集成的设计与实现,整个系统在数据 一9 一 东北大学硕士学位论文第一章绪论 集成过程中的流程,数据集成的方式,以及实际设计中是怎样实现的。 第五章,介绍了本系统中的集成优化策略,并同之前的一些策略进行了横向比较, 显示出了本系统采用的集成优化策略的优越性。 第六章,结束语,总结全文,指出本文的主要贡献,并提出完善系统所需的进一步 工作以及今后的研究方向。 1 0 东北大学硕士学位论文第二章e f c s g r i d 系统简介 第二章e f c s - - g r i d 系统简介 随着经济的全球化,越来越多的企业和公司成为跨国公司,或者拥有跨地区、跨国 业务。这些公司的业务越来越依赖于网络环境的支持,需要一个开放式的、多平台的、 相互协作的、能及时灵活地响应客户需

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论