(计算机软件与理论专业论文)数据网格副本管理的研究及其在rs中的应用.pdf_第1页
(计算机软件与理论专业论文)数据网格副本管理的研究及其在rs中的应用.pdf_第2页
(计算机软件与理论专业论文)数据网格副本管理的研究及其在rs中的应用.pdf_第3页
(计算机软件与理论专业论文)数据网格副本管理的研究及其在rs中的应用.pdf_第4页
(计算机软件与理论专业论文)数据网格副本管理的研究及其在rs中的应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

倒! 十学位论殳 数揣州格副小管理的研究及其停r s 一】的应用 摘要 数据网格是网格技术在数据管理方面的应用利实现,目的是共享数据资源, 建屯透明访问分布式、异构的数据资源的体系结构,以消除“信息孤岛”。本文 利用数据网格技术,设计并实现了集成r s ( r e m o t es e n s i n g ,遥感) 数据系统的 副本管理服务,即在分布式、异构的网络环境f 有效地管理和共享遥感数据及其 副本的网格服务。 本文主要做了下面几项工作: 1 设计了三层命名空间对r s 数据文件进行命名,并对三类映射关系进行了设 计。这样可以将r s 数据文件的物理特性与逻辑视图分开,用户只需要知道面向 用户的名字即可进行访问。物理特性与逻辑视图分开也使得物理层和逻辑层彼此 独立,减少耦合的影响。 2 设计了r s 数据网格副本管理的机制和总体结构,将分布的多个r s 数据系统 抽象成一个单一无缝的r s 数据系统,并提供一张副本目录和一个应用元数据系 统,方便用户查询和访问r s 数据资源。没计了r s 数据及副本更新和删除的实时 一致性策略:动态变化的r s 数据资源与日录系统、应用元数据系统之间的实时 致性策略,保证了用户始终能够得到正确的r s 数据及其属性信息。 3 设计并实现了d c r s ( d a t a f i l ec o p ya n dr e g i s t r a t i o ns e r v i c e 数据文件 复制与注册服务) 网格服务,支持副本管理的各种功能。d c r s 实现了动态r s 数 据网格实时一致性控制。d c r s 管理应用元数据系统,将分类的r s 数据属性存放 在应用元数据系统不同层次的节点上,减少了冗余和查找步跳,有利于负载平衡。 d c r s 实现了错误恢复功能,可以恢复意外事故造成的r s 数据网格不一致性错误。 本文的实现采用g l o b u st o o l k i t3 2 ,并测试了原型系统的运行情况。测试结 果表明本文提出的方案是便捷而有效的。 关键字:网格,数据网格,遥感,副本,副本管理 本文的工作得到了广东省科技计划工业攻关项目“g i s 网格服务中间件及其应用”的支 持 墅兰垡鲨兰 墼塑婴堡型查笪堡塑竺塑墨苎鱼墨! ! 塑坐里 a b s t r a c t 木 d a t ag r i di st h ea p p l i c a t i o na n dr e a l i z a t i o no ft h eg r i dt e c h n o l o g yi nd a t am a n a g e m e n t i t s p u r p o s ei s t os h a r ed a t ar e s o u r c e sa n dc o n s t r u c tt h en e ws y s t e ma r c h i t e c t u r eo fd i s t r i b u t e da n d i s o m e r o u sd a t ar e s o u r c e s s oa st od i s p e l ”i s o l a t e di n f o r m a t i o ni s l a n d ”t h i sp a p e ru t i l i z e sd a t a g r i dt e c h n o l o g y , h a sd e s i g n e da n dr e a l i z e dt h er e p l i c am a n a g e m e n ts e r v i c eo fi n t e g r a t e dr s ( r e m o t es e n s i n gd a t a ) s y s t e m s t h er e p l i c am a n a g e m e n ts e r v i c ei sa b l et om a n a g ea n ds h a r er s d a t aa n di t sr e p l i c ae f f e c t i v e l yu n d e rt h ed i s t r i b u t e da n di s o m e r o u sn e t w o r ke n v i r o n m e n t t h em a i nw o r ko ft h i sp a p e ri sa sf o l l o w s : 1 t h r e en a m es p a c e sa r ed e s i g n e df o rr sd a t af i l e s a n dt h em a p p i n gr e l a t i o n sa m o n gt h et h r e e n a m es p a c e sa r ed e s i g n e d t h e r e f o r ep h y s i c a lc h a r a c t e r i s t i co far sf i l ec a nb es e p a r a t e df r o m l o g i cv i e w u s e ro n l yn e e d st ok n o wt h eu s e r - o r i e n t e dn a m eo fad a t af i l ef o rv i s i t i n gi t i tm a k e s t h ep h y s i c sl a y e ra n dl o g i c l a y e rs e p a r a t ea n dr e d u c et h ei n f l u e n c eo fc o u p l i n gt o ot h a tt h e p h y s i c a lc h a r a c t e r i s t i ci ss e p a r a t e df r o ml o g i cv i e w 2 ar sd a t ag r i dr e p l i c am a n a g e m e n tm e c h a n i s ma n do v e r a l lf l a m ea r ed e s i g n e d i tm a k e s d i s t r i b u t e dr sd a t as y s t e m sa b s t r a c tt ob e c o m eas i n g l es e a m l e s sr sd a t as y s t e m ,a n do f f e ra r e p l i c ac a t a l o ga n da na p p l i c a t i o nm e t a d a t as y s t e mt oh e l pu s e ri n q u i r ea b o u ta n dv i s i tr sd a t a f e s o n r c e s t h er e a l - t i m ec o n s i s t e n c yt a c t i cb e t w e e nr sd a t aa n di t sr e p l i c aa n dt h a ta m o n gr s d a t ar e s o u r c e so fd y n a m i cc h a n g ea n dc a t a l o gs y s t e ma n da p p l i c a t i o nm e t a d a t as y s t e ma r e d e s i g n e d r e a l t i m ec o n s i s t e n c yt a c t i c sd e s i g nc a nm a k eu s e rg e tc o r r e c tr sd a t aa n da t t r i b u t e i n f o r m a t i o na l it h et i m e 3 ad c r s ( d a t a f i l ec o p ya n dr e g i s t r a t i o ns e r v i c e ) g r i ds e r v i c ei sp r o p o s e da n di m p l e m e n t e d i t s u p p o r t sv a r i o u sk i n d so ff u n c t i o n so fm a n a g e m e n t i tr e a l i z e st h er e a l t i m ec o n s i s t e n tc o n t r o lo f d y n a m i cr sd a t ag r i d d c r sm a n a g e sa p p l i c a t i o nm e t a d a t as y s t e ma n dl e a v ec l a s s i f i e dd a t a a t t r i b u t e si nn o d e so fd i f f e r e n tl e v e l si na p p l i c a t i o nm e t a d a t as y s t e ms oa st or e d u c em d u n d a n c i e s a n ds k i pt i m e st oi n q u i r ea b o u ta n db ef a v o r a b l et ol o a db a l a n c e i tr e a l i z et h ee r r o rc o r r e c t i o n f u n c t i o n ,c a nr e s u m er sd a t ag r i di n c o n s i s t e n c ym i s t a k et h a tt h ec o n t i n g e n c yc a u s e t h ep r o t o t y p es y s t e mi sb u i l to nt o po ft h eg l o b u st o o l k i t3 2 ,t h ee f f e c t sa n dp e r f o r m a n c e s o ft h es y s t e ma r et e s t e da n di tt u r n so u tt h a tt h em e c h a n i s mi sc o s t e f f e c t i v e k e yw o r d s :g r i d ,d a t ag r i d ,r e m o t es e n s i n g ,r e p l i c a ,r e p l i c am a n a g e m e n t 4 t h ew o r ko ft h i sp a p e ri s s u p p o r t e db y t h ep r o j e c t “g 1 sg r i ds e r v i c em i d d l e w a r ew i t h a p p l i c a t i o n s ”o ft h es c i e n c ea n dt e c h n o l o g yp l a no fg u a n g d o n gp r o v i n c e pr c h i n a 倒! 十学位论殳 数揣州格副小管理的研究及其停r s 一】的应用 摘要 数据网格是网格技术在数据管理方面的应用利实现,目的是共享数据资源, 建屯透明访问分布式、异构的数据资源的体系结构,以消除“信息孤岛”。本文 利用数据网格技术,设计并实现了集成r s ( r e m o t es e n s i n g ,遥感) 数据系统的 副本管理服务,即在分布式、异构的网络环境f 有效地管理和共享遥感数据及其 副本的网格服务。 本文主要做了下面几项工作: 1 设计了三层命名空间对r s 数据文件进行命名,并对三类映射关系进行了设 计。这样可以将r s 数据文件的物理特性与逻辑视图分开,用户只需要知道面向 用户的名字即可进行访问。物理特性与逻辑视图分开也使得物理层和逻辑层彼此 独立,减少耦合的影响。 2 设计了r s 数据网格副本管理的机制和总体结构,将分布的多个r s 数据系统 抽象成一个单一无缝的r s 数据系统,并提供一张副本目录和一个应用元数据系 统,方便用户查询和访问r s 数据资源。没计了r s 数据及副本更新和删除的实时 一致性策略:动态变化的r s 数据资源与日录系统、应用元数据系统之间的实时 致性策略,保证了用户始终能够得到正确的r s 数据及其属性信息。 3 设计并实现了d c r s ( d a t a f i l ec o p ya n dr e g i s t r a t i o ns e r v i c e 数据文件 复制与注册服务) 网格服务,支持副本管理的各种功能。d c r s 实现了动态r s 数 据网格实时一致性控制。d c r s 管理应用元数据系统,将分类的r s 数据属性存放 在应用元数据系统不同层次的节点上,减少了冗余和查找步跳,有利于负载平衡。 d c r s 实现了错误恢复功能,可以恢复意外事故造成的r s 数据网格不一致性错误。 本文的实现采用g l o b u st o o l k i t3 2 ,并测试了原型系统的运行情况。测试结 果表明本文提出的方案是便捷而有效的。 关键字:网格,数据网格,遥感,副本,副本管理 本文的工作得到了广东省科技计划工业攻关项目“g i s 网格服务中间件及其应用”的支 持 堕! :堂垡堡墨 墼塑璺笪型查竺竺堕! 巫塞垦苎垒旦翌型! 皇旦 第1 章概述 1 。1引言 1 1 1 遥感r s ( r e m o t es e n s i n g ) 所谓遥感,通常指的是通过某种传感器装置,在不与研究对象直接接触的情 况下,获得其特征信息,并对这些信息进行提取、加工、表达和应用的一门科学 技术。 遥感是二十1 世纪六十年代发展起来的对地观测综合性技术。其概念出现于 t 9 6 2 年,但其迅速发展与广泛应用则是在1 9 7 2 年美国第一颗地球资源技术卫 星( l a n d s a t 1 ) 发射并获取大量卫星图像之后。遥感数据是用遥感器探测来自地 表的电磁波,通过采样及量化后获得的数字化数据。在遥感数据中,除图像信息 以外,还附带有各种属性信息【2 j 。 遥感技术的出现,扩展了人类认识自然和自身生存环境的能力。较之于传统 的数据采集技术,比如野外测量和观测,遥感技术有着自身独有的优点和特点f 2 l : 1 能够提供大范围的瞬间静态图像,用于监测动态变化的现象。 2 能够进行大面积重复观测,即使是人类难以到达的偏远地区。 3 大大“加宽”了人眼所能观察的光谱范围。遥感使用的电磁波波段从x 光到 微波,远远超出了可见光范围。而雷达遥感由于使用微波,可以不受制于昼夜和 天气变化,进行全天候的观测。 4 空间详细程度高。航空相片的空间分辨率可以高达厘米级甚至毫米级。 遥感技术的发展,使人们可以利用这项技术更好的为我们的生产、生活和制 定重大决策服务。据统计有将近三十个行业、领域都可以应用遥感技术来提供大 量有用信息和辅助做出决策,如陆地水资源调查、土地资源调查、植被资源凋查、 地质调查、城市遥感调查、海洋资源调查、测绘、考古调查、环境监测和规划管 理等”i 。 由于遥感具有动态监测、近实时、范围大、分辨率高等优点,所以遥感技术 应用于自然环境的监测、灾害的预报、各种资源的调查以及其他很多领域有着传 统方式无法比拟的优点。遥感提供的大量动态、高分辨率的图像能够提供大量有 用信息,使决策机构能够及时掌握情况的变化发展,为决策提供重要依据。 硼 学位论殳 数据网格剐术管理的研究及其托r s 1 1 的应用 1 1 2 遥感系统现存的问题 随着科学技术的进步,遥感技术的发展也越来越迅速。人们利用太空飞行器、 p 星,各种航空平台( 琶机、b 艇、气球等) 以及各种地面观测设备获取了越来 越多的海量遥感数据。遥感数据的存贮星一股很大,而且他们分布在很多异构的 系统上。这样如何集成、管理和共享这些海量的、分布式的、异构的遥感资源, 以消除“信息孤岛”就成了一个十分重要的问题。f 面我们就详细讨论一下如今 共享r s 遥感图像数据所面临的主要问题: 1 r s 资源的封闭性 互联网的发展,使各个单一的计算机之间可以传输信息,但是这种信息传输 只限于底层的t c p i p 协议。各种存储系统之间仍使用不兼容的数据访问方法,这 样就将r s 数据资源分成了孤立的部分提供给用户使用。用户在交互数据时必须 采用多种方式才能与分布、异构的r s 遥感数据资源交互。不能用一种统一透明 的方式来访问和管理网络中存在的大量数据,如更新各个系统数据和副本等等, 造成了许多的信息孤岛。 r s 系统面向的是大规模、原始的数据,各个r s 系统之间缺乏有效的方式 共享和管理它们之问大规模的数据和副本。这主要是因为在t c d i p 层上面,还缺 乏一个共享数据的网格环境,采用网格的副本管理技术统一管理各个分布式的 r s 资源可以解决这个问题。 2 无法对r s 数据进行统一的管理,存在数据和副本的不一致问题 目前的r s 数据资源系统大多是基于w e b 的,各个r s 数据资源系统相互之 间难以联系,各个r s 数据资源系统动态变化的时候,彼此很难互相通信和协作。 这样的情况可能导致遥感图片的主本和副本之间的升i 一致性。 比如,在广域网的某个节点上面存放有1 个遥感图片的主本,广域蜘内一些 节点复制了这张遥感图片,也就是拥有了这张遥感图片的副本,当遥感图片主本 所在的节点更新了遥感图片的时候,其他拥有副本的节点并不知道已经发生这种 更新,这使得副本已经成为了历史数据产生了主本和副本不一致的情况。遥感 图片需要观察和实时更新,所以主本和副本的一致性非常重要。要是有不一致的 情况发生,客户很可能会得到已经过期的错误数据。 3 无法集成大规模计算资源和第三方服务 目前的r s 系统大多是基于w e b 的,还无法利用网格的优势集成各种商性能 计算机、人容萤存储设备,各种遥感仪器、各种第三方的网格服务等等。 而r s 系统处理的足大规模原始的遥感数据,对他们进行分析和计算需要用 到高性能的计算资源和许多第三方的决策服务等等。所以现有的r s 系统还不能 够集成大规模的计算资源和密集型的数据资源,享受网格给r s 系统带来的全面 硕七学位论史 数据嗍格副木管理的研究及其在r s 。p 的应崩 整合。利用网格共享资源的特性,可以将各种异构资源整合起来,r s 系统可以 用统一的方式使用它所需要的一剀资源。 4 智能选择最优副本的问题 f 1 前的r s 系统大多没有提供如何选择多个副本中最符合客户要求的副本的 服务,要解决这个问题,我们必须通过比较c p u 情况,嘲络带宽、图片价格等属 性来选择最优的遥感图像的副本。这样做可以使用户得到最好的副本,是一个很 有应用前景的问题。设计一个合适的副本管理服务合理的管理这些图片的属性, 即r s 遥感数据的元数据,可以方便用户通过元数据找到自己最满意的副本。 1 2 网格和数据网格简介 1 2 1 网格服务 网格的思想可以用电网类比,网格的最终目的是希望用户在使用网格的计算 能力时,就如同现在使用电力一样方便。我们在使用电力时,无需知道电力是从 哪个地方哪个发电站输送过来的,也无需知道电力是以何种方式产生的,不论是 水力、火力抑或是核力。我们只使用统一形式的“电能”。而网格的目的也足希 望最终提供给使用者的是与地理位置、硬软件平台、存储系统等设施无关的通用 的计算能力以及其他的各种共享资源。网格的根本特征是实现资源共享,以消除 信息孤岛。 对于网格的严格定义,网格最早的著作,l a nf o s t e r 等人r1 9 9 8 年编辑的 网格一新型计算基础设施蓝图( t h eg r i d :b l u e p r i n tf o ran e wc o m p u t i n g i n f r a s t r u c t u r e ) 4 1 ,为计算网格给出如下定义: 计算网格就是一种硬件或软件的基础设施,这种基础设施提供可靠的、致 的、普遍的、廉价的对高端计算能力的访问。 2 0 0 2 年,i f o s t e r 撰写的什么是网格? 三点检验标准( w h a ti st h eg r i d ? a t h r e ep o i n tc h e c k l i s t ) ) ) 口j ,提出判断个系统是否一个网格的3 点原则: 1 不以中央控制方式协调资源。 2 采用标准的、开发的、通用的协议与接口。 3 提供能满足复杂应用需求的服务质量。 并在文中指出了当时世界上各大分布式项目中哪些是网格哪些坷i 是网格。 网格技术的发展,经历了从最开始的五层沙漏结构到现在的o g s a i6 1 、o g s i l 7 的转变。o g s a 是“开放式网格服务体系结构”的英文缩写,它主要描述核心的 网格技术是怎样与w e b 服务机制结合在一起的,o g s i 是“开放式网格服务基础 设施”的英文缩写。o g s i 规范只注重技术细节,不说明原因、动机和需求。 硕十学位论文 数据网格副奉管理的研究及其在r s 中的应用 o g s i 定义了一种破称为网格殿务的实体的创建、管理和信息交换的机制。 网格服务简单来说就是种遵循一系列特殊约定的w e b 服务,这些约定实际卜 是一些定义了客户程序如t 与网格服务进行交自的接口和行为。o g s i 文档的重 点集中在提供定义刚格服务的 j 二为和w s d l 接口的全部规7 r 骄r l 技术细节。 在o g s i 巾洋细规范了客户程序如何发现、创建网格服务和如何与网格服务交互 的约定。具体分以下3 点一: 1 说明了如何命名和引用刚格服务实例。 2 指明r 所有网格服务必须实现的基本、公共的接厂i 和相应行为。 3 其它与工厂和服务组相关的可选择实现的接口和行为。 相比较于w e b 服务,网格服务有如f 优点:网格服务对外遵守网格服务舰 范的接口。通过接口提供服务发现、动态服务创建、服务生命周期管理,消息订 阅、通知发送等功能。并且网格服务拥有服务数据,服务数据是关丁网格服务实 例的描述信息【8 】 1 2 2 数据网格概述 数据是网格上的种非常重要的资源。随着网络的高速发展,我们越来越需 要有专fj 的管理机制来管理这些分布在不同节点和异车f ! 平台上的存储资源。很多 科学研究和应用都需要大规模的数据,比如天文学和物理的研究、气象预报数据、 地球科学的研究,医学和生物学等等。它们的共同特点是: 1 、 一方面,待处理的数据总量大、数据源广域分布、爿存储系统的类型多。 2 、另一方面,其研究工作是通过若干个地域分布的科研团体和科研人员协作进 7 - n 9 1 。 数据网格是按照网格所处理的对象的不同来划分的,数据网格所处理的对象 是数据。数据网格研究如何用网格技术管理和处理数据。数据网格的目的是建立 种透明访问分布、异构的数据资源的网格环境。 网格技术的目的是共享网络中各种0 i 同的资源,如计算资源、存储资源、各 种仪器设备等,透明的实现资源的管理和协同工作。数据网格是为了解决网络环 境下分布式、异构的各种数据系统的共享和协作,使我们可以使用统一的方式访 问数据,并且将分布、异构的数据资源集成到网格环境中,为数据提供需要的各 种网格资源,比如高性能计算资源、各种决策服务等等。因此,在计算网格的基 础上人们提出了数据网格“。数据网格研究的内容主要集中在广域、异构、分布 环境下如何对数据进行管理;如何从地理分布的各种异构数据资源中获取数据; 并通过地域分布的协作和处理,从数据源中获取有用信息。从这个角度。数据网 格可以理解为是应用程序、用户等同底层存储系统之间的中问件,它对应用程序 提供一致的管理和使用存储系统的界面,对用户屏蔽广域操作的复杂性和广域网 络上存储系统的异构性【9 1 。 坝十学位论文 数据两格副本管理的研究及其仵r s 中的应用 1 3 项目背景 g 1 s 网格服务项目由中山大学计算机科学系软件工程实验室提出动议并负 责实施,旨在研究与开发一种基于别格服务的地理信息系统应用集成解决方案, 实现企、l k 、政府部l 、j 、社区、甚至个人等组织之间的g i s 信息共享,消除g i s 领 域普遍存在的信息孤岛现象”。 本人参与了该项目“g i s 数据网格”小组的研究工作。该小组_ 辛要研究如何 利用网格服务和数据网格技术集成和共亨与g i s 应用密切相关的多类资源,如 r s 、g p s 等资源,这些资源可扩展基于g i s 的创新型应用。这些资源大多是各 种异构、分布的数据资源和计算资源。 1 4r s 数据网格副本管理的概念及作用 副本管理是数据网格理论的重要内容,它主要研究如何管理和维护分布式、 异构数据资源,以消除信息孤岛,实现数据集成和共享。 在一个存储资源系统中,可能有大量的相同的数据文件,其中有一个是最初 始的文件,其余都是这个文件的备份。我们称初始的文件为主本,而称它的其余 备份为副本。 一个大容量的数据集合需要存储在多个物理节点上,这就需要一个管理机构 来管理这些逻辑上是一个整体物理上分散存储的数据。副本管理系统就是记录 一个数据集合的不同部分存储在什么位置的网格管理机构f 8 】。副本管理提供的功 能主要有注册一个数据文件、衍生数据文件的副本、更新数据文件、删除数据文 件或者其副本、为用户选择合适的副本等。并且为这些物理上分散的数据提供 个副本目录和一个元数据系统,方便客户查淘和选择所需的副本。 目前的r s 遥感数据系统大多是基于w e b 的,这样难以共享和集成这些分散 的、异构的r s 系统。为了解决目前r s 应用系统存在的信息孤岛问题,我们可 以利用数据网格技术,设计一个r s 数据网格副本管理系统来共享和集成这些分 布的、异构的r s 数据系统。合理的设计副本管理系统可以有效地管理和共享 r s 数据系统,将这些物理上分散的、异构的系统抽象成一个逻辑上无缝的单一 数据系统,方便客户查询和访问。 1 5 解决方案思路 网格技术的目的是为了共享资源和消除信息孤岛。网格提供一种全面共享分 布式、异构环境中各种资源的基础设施。网格把用通信手段连接起来的资源无缝 集成为一个有机的整体给用户提供一种透明的方法访问网格资源。网格的这种 硕十学位论文 数据网格副本管埋的研究及其在r sl l 的应用 特点正好适合我们解决如今r s 应用领域所面临的问题。 数据网格是一种研究如何共享大容量、异构数据资源的网格技术。所以,为 了解决我们面临的r s 系统之间缺乏交互,不能共享数据的问题,一种合理而可 行的方法是将数据网格技术应用于r s 遥感数据系统。 为了共享和集成r s 遥感数据资源,我们可以使用网格技术的一些数据管理 工具,如文件传输工具g r i d f t p 、可靠文件传输服务r f t 、复制定位服务r l s 等 等。利用这些模块,在分布式、异构的存储资源之上设计个虚拟的中间层,屏 蔽底层物理特性的差异,为使用者提供一个数据资源的统1 视图。用户通过这个 中间层透明的访问位于不同节点上的r s 数据资源,而无须了解具体节点的情况。 系统管理员可以通过这个中间层来管理分布式系统中的数据资源。 具体来说,本文的工作即为研究如何有效的利用网格技术来设计并实现这个 虚拟中间层,在一些底层的数据管理工具之上,设计一个副本管理的网格服务, 管理分布式系统中的r s 遥感数据以及它们的副本。对于这样一个服务,我们需 要设计一个分层的命名空间来对分布、异构的r s 遥感数据资源进行命名,以方 便不同层次的使用者查询和访问r s 遥感数据;需要一个元数据的信息系统来存 储和管理r s 遥感数据及其副本的属性信息;需要提供一种定位查询的方法,通 过各类命名空间查找获取实际的物理文件。 通过副本管理服务,我们可以完成的工作主要有:对于新获取的遥感数据, 管理服务完成相应的插入( d a t a i n s e r t ) 、更新( d a t a u p d a t e ) 功能;对于过期的 数据,管理服务进行删除( d a t a d e l e t e ) ,同时可按虚拟组织中预定义的策略,实 现数据的异地副本备份( d a t a r e p l i c a t e ) 。 在进行这些操作的同时,管理服务还要满足两点要求: 1 进行更新和删除遥感图片和它的副本时要满足数据的实时一致性原则,即系 统内的遥感数据和它们的副本要保持一致。所以我们必须对数据采取某种更新和 删除的一致性策略,本文更新一致性所采取的缺省策略是全部一致性更新即有 一物理文件更新时,自动更新所有的副本:删除主本时缺省的一致性策略是全部 删除它所有的副本。用户在必要时可以采取一些策略保留想要的历史数据。 2 遥感数据必须与它们的属性信息保持一致。即当遥感图片有更新、删除或某 些属性变化时,管理服务要自动保持属性与遥感数据之间的致性,对相应的属 性进行更新、删除和变更。 壁主竺垡堡兰 1 6 选题意义 数据网挤副本管理的研究及其在r s 中的应片j 1 6 1 管理共享各类r s 资源 本文设计的r s 数据网格副本管理服务,利用数据网格技术屏蔽底层分布式、 异构的r s 遥感数据资源的差异为上层的管理员和r s 应用提供一个统一透明 的接口来管理和访问这些r s 遥感资源。使管理员或者用户在操作这些分布式、 异构的r s 数据资源时,就像操作一个单一海量遥感数据系统。 对j 二这些分布式、异构的r s 数据系统,本文设计的原犁系统提供了丰本和 副本的删除、遥感数据的更新、遥感图片数据的插入和副本的衍生等统一的接口。 此外,对于副本管理的研究,还可以折射到管理高性能计算机、昂贵的传感设备 等各种网格异构资源上面。 1 6 2 管理遥感图片和其副本的实时一致性 本文的r s 遥感数据网格副本管理服务使用了主本和副本一致性的策略。缺 省情况下更新遥感图片时,需要更新所有的副本,删除主本时需要删除主本和所 有的副本。 这样使得主本在更新或者删除时,副本和主本保持一致,保证了r s 遥感数 据的i e 确性,能够给用户提供共享的正确数据,保证了遥感数据在分布式的各个 节点中动态变化时主本和副本之间保持实时的一致性。 1 6 3 有利于推广到现实应用中去 基于r s 数据网格的副本管理服务,可以共享和集成r s 海量遥感图像,方 便查询、传输和调用具有多副本的遥感图像。r s 遥感数据副本管理可以应用到 企业应用中,并且这种设计思想也町以应用到其他需要资源共享,消除信息孤岛 的领域。既可以将r s 资源应用到企业中,屏蔽底层的物理差异,给企业提供有 用的r s 遥感信息,帮助企业提高生产力和管理决策能力。又可以将r s 遥感数 据剐本管理的思想折射到如生物医学图片、气象预报数据、物理数据等数据密集 掣领域,利用数据网格副本管理的技术集成和共享这类海量数据和它们的原数据 信。息。 竺! 堂竺堡兰 塑塑堕堂型查竺堡竺竺塑墨墨壅墨兰! 墅! 兰旦 第2 章设计的基础知识 本章简要介绍了设计与实现副本管理服务所需的相关技术知识,即数据网格 的特点、数据网格中元数据的作用、数据网格的相关研究工作和g l o b u s 工具包 3 2 中的数据管理模块的有关技术资料。更详细的资料请参考本文相关参考文献 和g l o b u s 组纵相关网站w w w g l o b u s o r g 2 1 数据网格的特点 从体系结构上来讲,数据网格有以下特征【9 l : 1 异构性 数据网格可以包含多种异构的数据资源。其构成的数据源有多种类型,不同 类型的数据源在体系结构、数据访问方式、应用程序接口等多个层次上可能有不 司的结构。 2 可扩展性 数据网格的规模可以变化,从只包含少量数据资源的局域系统,发展到包括 成千卜万数据资源的跨洲际的广域大数据网格。由此呵能带来的一个问题就是随 着数据网格资源的增加、地域分布的更广泛而引起的性能下降及网络传输延迟, 数据网格必须能适应这种变化。 3 自适应性 在广域系统中,有很多数据和存储资源,这些资源发生故障的概率很高,因 此数据网格必须能对用户和应用程序屏蔽这些故障,并动态地适应这些情况;此 外,数据网格资源因地域分布和系统复杂使其整体结构经常发生变化,数据网格 应能适应这种不可预测的结构。 4 多级管理域 由于构成数据网格的资源和存储系统通常属于不同的机构或组织,并使用不 同的安全机制,因此需要各个机构共同参与,以解决多级管理域的问题。 2 2 数据网格元数据的概念和作用 2 2 1 元数据的概念和分类 元数据一般是指描述数据的数据0 1 ,它一般包括数据资源的标识、类型、 结构、内容等静态的信息和网络负载、计算资源分布情况、物理存储系统情况等 竺主堂垡堡兰 塑塑堕堕苎! ! 尘笪望竺堑塑墨茎生! ! :业! 皇旦 动态信息。 元数据可根据其所描述的内容分为以卜几类:” 应用元数据 应用元数据( a p p l i c a t i o nm e t a d a t a ) 描述文件的内容或对处理该文件的 应_ i _ j 程序有用的信息。 副本管理元数据 副本管理元数据( r e p l i c am a n a g e m e n tm e t a d a l a ) 用于数据对象的副本 管理,包括文件到存储系统位置的映射信息等。 系统元数据 系统元数据( s y s t e mm e t a d a t a ) 描述数据网格自身的结构,包括网络 互连、存储系统的细节,例如容量、使用策略等。 2 2 2 元数据的管理p j 每一类元数据在使用范围、更新机制、与其他网格组件的逻辑关系等方面部 有其自身的特性。元数据访问服务需要提供一致的使用方法、单一的使用界面等 来发布和访问这些不同类型的元数据。 应用程序通过元数据服务来获取所需文件元数据服务维护一个元数据仓库 或目录,当应用程序提交所需要数据的某些特性后,元数据服务将这些特性与某 逻辑文件相关联。该逻辑文件应有一个全局唯一的名称,但在物理上可能包括一 个或多个文件。一旦元数据服务将逻辑文件与某个应用所需的属性相关联,复制 文件管理器将使用复制管理元数据来定位该逻辑文件的物理位置以供访问。 在大规模数据网格环境中,元数据的管理较为复杂。 1 首先,不同的系统可能采用不同的方法来存储和表述元数据,因此元数据管 理既要能管理这种异构性,又要保证在分布式环境中元数据访问的效率。在 目前的数据网格已有的实现中,通常对不同的应用采用了不同的,i 数据格 式,例如:在高能物理应用中,采用了一种专有的索引结构;另一些应用则 采用x m l 来表示应用元数据等。 2 其次,元数据管理要适应数据网格的可扩展性,它要能支持大规模组织中的 各种信息源。 3 另外,元数据服务要保证一定的健壮性。 通常情况下,元数据服务被设计成一种分层结构的分布式服务。该结构的优 点包括:提供了可扩展性、避免了单一故障点等。这种分布式结构的效率问题, 可以通过充分利用元数据服务自身的分层属性来弥补。 型! :兰篁笙兰 墼堡里堡型查笪竺塑婴塞墨苎垄垦! ! ! 塑些里 2 3 数据网格相关工作的研究 很多大规模、数据密集型的应朋需要数据网格的支持,数据网格也是国内外 很多研究机构和公司的研究热点,下面是国内国外的一些相关研究工作: 2 3 1 国外数据网格相关研究 在数据网格研究领域,美国和欧洲处于领先地位,他们的研究范围和规模都 比较人,并且已经推m 了一些试验系统。其中最著名的足欧洲数据网格( d a t a g r i d ) 、地球系统网格( e s g ) 和物理网络网格( g r i p h y n ) 等”4 ”。而最著名的 数据网格系统工具是g 1 0 b u s 中的数据网格支撑模块和s d s c 的s r b 系统“。 1 欧洲e u r od a t ag r i d 项目 1 7 】 欧洲数据网格项目的最终目标是开发适应下- 4 4 科学研究要求的科研环境。 该项目的研究人员认为下一代科研工作的特点包括:需要很高的计算性能,需要 处理和共享大规模的数据( t 甚至p 字节容景) ,跨广域的分布式科学团体l 办作 等。这些要求目前已经在许多科学领域的研究工作中表现出来了,包括物理学、 生物学、地球科学等。这些研究工作中,所用资源的分布特点、研究团体的分布 属性、数据库的大容量、有限的可用带宽等都使得资源共享变得更为复杂。图2 一l 说明了欧洲数据网格的数据管理机制。 图2 1 欧洲数据网格的数据管理结构图 d a t a g r i d a 2 0 0 1 年1 月1 日正式启动,己t 2 0 0 4 年2 月1 9 日结束,一共历时三 年,耗资9 6 2 万欧元。d a t a g r i d 项目完成者包括c e r n 、c n r s 、e s a 、i n f n 、n i k h e f 和i b m 等2 l 家机构,其已成为其他许多网格项目的基础,女h l c g 、g r a c e 、 c r o s s g r i d 、g r i d i t 、d u t c h g r i d 、u ke s c i e n c e 、o p e n l a b 等。 堕兰堡笙兰 塑型塑塑型查笪堡塑堕壅垦苎鱼! ! 生竺! 些生 2 g r i dp h y s i c sn e t w o r kp r 谢e c t 物理网络网格【1 5 g r i dp h y s i c sn e t w o r k ( g r i p h y n ) 是建立一个数据网格以胁作处理各种物理 实验的所获数据。主要是为处理从c m s 干1 a t l a s 实验获得的数据。这些实验 主要来自于l h c ( l a r g eh a r d r o nc o l l i d e r ) 、l i g o ( l a s e ri n t e r f e r o m e t e rg r a v i t a t i o n a l o b s e r v a t o r y ) g q s d s s ( s l o a nd i g i t a ls k ys u r v e y ) 。 该项目的最终目标是建立一个大规模、广域的p v d g ( p e t a s c a l e v i r t u a l d a t a g r i d s ) 以适应跨全球域、集合了成千上百科研人员参加的数据密集型应用研究 的需要,技术特点包括: 虚拟数据技术。采用一种新的方法以分类、标示、确认和归档软件组件实 现虚拟的数据处理。 数据和计算资源的策略驱动请求和调度策略。包括采用基于策略的资源发 现技术。在广域范围的虚拟组织上实现事务管理和任务执行,满足用户对 性能、可靠性和代价的要求。 目前,该项目已开发了与应用无关的“虚拟数据工具包”,它是一组虚拟数 据服务和工具包,以供用户构建数据网格。该工作包的结构如图2 2 所示。 应用 工具包 服务 基础设施 使用工具包,以实现应用级需求 提供客户端访问,与其它系统 结合以提高应用级性能 封装、发现、发布、管理 l 许算机、网络、存储器、和其它资源 劁2 - 2g d p h y n 的虚拟数据工作包结构i 剖 3 e a r t hs y s t e mg r i d 地球系统网格9 1 埽o e a r t hs y s t e m 数据网格是由四个d o e 实验室( a n l 、l a n l 、l b n l 、l l n l ) j 及n s f 和两个大学( u n i v e r s i t yo f w i s c o n s i n 、u n i v e r s i t yo fs o u t h e r nc a l i f o m i s ) 鎏 整 型! 兰生笙兰 墼坐堕壁i ! 尘笪墨堕塑壅墨些堡! ! :生坚些旦 合作建寺,目的是为了支持对远程分布式大规模气候模犁数据库的高速访问。图 2 - 3 列出了这个项目的参与者。该数据网格建立在现有的技术( d p s s 、g l o b u s 等) 之上,以开发一个新的“智能化”的巾间件,实现分布式数据管理、高性能数据 传输、计算组什的远程执行等。 图2 3e s g 参与者地理分布图 e r a t hs y s t e m 数据网格的原始数据主要分布在磁盘缓冲和磁带系统中。为了 跟踪数据的物理位置,系统采用了元数据目录和个分布的缓冲管理系统。应用 程序需要数据时,向本地的代理( 称查询监视器) 发送数据请求。 查询监视器首先访问本地的元数据目录,如果所需数据不在本地,它将广播 该数据请求到所有的其他元数据目录。由所需数据的元数据目录将响应该奋询监 视器。查询监视器通过查询g l o b u s 网络服务获得当前网络信息,并确定从那个 物理位置获取所需数据。如果数据不在磁盘缓冲区中,系统首先将数据从磁带传 送到磁盘缓冲区中。图2 4 为该数据网格的数据管理服务结构图。 数据网格副乍管理的研究及其在r s - ir 的应用 应 用应用程序 图2 4e a r t hs y s t e mg r i d 的数据管理服务 e r a t hs y s t e m 采用d p s s 来实现数据传输功能:采用s r b 的全局命名方法 来标识数据资源;采用g s i 的安全和访问控制机制来保证系统的安全;采用 g a s s 的数据迁移机制来实现高效的数据迁移。 4 存储资源代理【9 1 1 1 6 】 存储资源代理s r b ( s t o r a g er e s o u r c eb r o k e r ) 是由美国s a nd i e g o 超级计 算机中心提出并开发的一种数据网格管理技术,是一个基于c s 结构的中间件, 用于提供对不同类型存储设备的一致访问界面。 它给用户提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论