




已阅读5页,还剩70页未读, 继续免费阅读
(计算机系统结构专业论文)数据网格环境中数据复制技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕士学位论文 摘要 摘要 在数据网格中,通过数据复制为地理上广域分布的用户提供多个数 据副本,能够减少访问延迟,增强数据局部性,提高数据可靠性,和分 布式应用的可扩展性及性能。数据复制技术作为提高数据网格系统性能 的重要技术,已成为数据网格领域中的一个热门课题。 由于数据网格的特殊性,数据网格系统对于数据复制技术的要求不 同于其它应用领域的复制技术。论文首先分析了数据网格环境中复制技 术的特点、复制系统的实现要求、复制技术的研究内容等。在研究了著 名的g l o b u st o o l k i t 网格计算工具包软件的体系结构、软件组成、和功能 服务之后,介绍和分析本文基于g l o b u st o o l k i t 提供的底层网格组件设计 和实现的基于数据复制的两个应用:分布式音乐服务器系统g m u s i c 以及 多协议分块文件传输网格服务m p s f t 。g m u s i c 系统能够智能地选择速 度最快的音乐文件副本,m p s f t 服务可以建立多个t c p 连接从多个文件 副本同时分块传输,它们都展示了数据复制技术的应用前景。随后,本 文基于开放网格服务体系结构o g s a ,提出一个灵活通用的副本管理框 架:通过该副本管理框架集成副本管理的各项功能,为用户提供统一的 接口;同时该管理框架能够灵活配置,以满足不同数据网格应用的需求。 论文的最后介绍几种任务调度和副本优化算法,包括作者提出的基于混 沌时间序列预测的副本优化算法和基于文件访问历史的副本选择策略, 在网格模拟器o p t o r s i m 上对算法进行仿真和性能分析,实验结果表明基 于拍卖和预测模型的副本优化算法能有效提高数据网格系统的性能。 关键i 石- - - :数据网格,数据复制,副本,g l o b u s ,o g s a ,o p t o r s i m 中国科学技术大学硕士学位论文 a b s t r a c t a b s t r a c t i nd a t ag r i d ,i ti sd e s i r a b l et oc r e a t er e m o t er e p l i c a so ff i l e sf o rw i d ea r e a d i s t r i b u t e du s e r s d a t ar e p l i c a t i o nc a r lb eu s e dt or e d u c ea c c e s sl a t e n c y , i m p r o v ed a t al o c a l i t y , a n d o ri n c r e a s er o b u s t n e s s ,s c a l a b i l i t ya n dp e r f o r m a n c e f o rd i s t r i b u t e da p p l i c a t i o n s c o m p a r e dw i t ho t h e ra r e a s ,d a t ag r i dh a su n i q u er e q u i r e n m e n t sf o rd a t a r e p l i c a t i o nt e c h n o l o g i e s t h i s t h e s i sf i r s t a n a l y s e s t h e c h a r a c t e r i s t i c s , i m p l e m e n t a t i o ni s s u e sa n dr e s e a r c hc o n t e n to fd a t ar e p l i c a t i o ni nd a t ag r i d e n v i r o n m e n t a f t e rs t u d y i n go nt h ea r c h i t e c t u r e ,s o f t w a r ec o m p o s t i t i o n ,a n d f u n c t i o n a ls e r v i c e so ft h ef a m o u s 酊dc o m p u t i n gm i d d l e w a r en a m e dg l o b u s t o o l k i t ,w ep r e s e n tt w og r i da p p l i c a t i o n sb a s e do nu n d e r l y i n gs e r v i c e c o m p o n e n t sp r o v i d e db yg l o b u st o o l k i t :d i s t r i b u t e dm u s i cs e r v e rs y s t e m n a m e dg m u s i ca n dm u l t i p r o t o c o ls t r i p p e df i l et r a n s f e rg r i ds e r v i c en a m e d m p s f t g m u s i cc a ns e l e c tt h ef a s t e s t m u s i cf i l er e p l i c ai n t e l l i g e n t l y , w h i l e m p s f tc a nt r a n s f e rf i l ei ns t r i p p e dm o d ef r o mm a n y r e p l i c a ss i m u l t a n e o u l y , t h e yb o t hs h o wt h ea p p l i c a t i o nf u t u r eo fd a t ar e p l i c a t i o nt e c h n o l o g i e s t h e n , b a s e do nt h eo g s aa r c h i t e c t u r e ,t h et h e s i sb r i n g sf o r w a r dag e n e r a la n d f l e x i b l er e p l i c am a n a g e m e n tf r a m e w o r k :i ti n t e g r a t e sa l lf u n c t i o n so fr e p l i c a m a n a g e m e n ta n dp r o v i d e sau n i v e r s a li n t e r f a c et ot h eu s e r s ;w h i l ea tt h es a m e t i m e ,i tc a nb ec o n f i g u r e df l e x i b l yt oa c c o m m o d a t et h en e e d so fd i f f e r e n td a t a g r i da p p l i c a t i o n s f i n a l l y , t h et h e s i si n t r o d u c e ss e r v e r a ljo bs c h e d u l i n ga n d r e p l i c ao p t i m i z a t i o na l g o r i t h m s ,i n c l u d i n gt h er e p l i c ao p t i m i z a t i o na l g o r i t h m b a s e do nc h a o t i ct i m es e r i e sp r e d i c t i o na n dt h er e p l i c as e l e c t i o ns t r a t e g y b a s e do nf i l ea c c e s sh i s t o r y , t h o r o u g hs i m u l a t i o no n o p t o r s i m ,t h ee x p e r i m e n t r e s u l t ss h o wt h a tr e p l i c ao p t i m i z a t i o na l g o r i t h m sb a s e do na u c t i o na n d p r e d i c t i o nm o d e l sc a ne f f e c t i v e l yi m p r o v et h ep e r f o r m a n c eo fd a t ag r i d k e y w o r d s :d a t ag r i d ,d a t ar e p l i c a t i o n ,r e p l i c a ,g l o b u s ,o g s a ,o p t o r s i m 第1 i 页 中国科学技术大学硕士学位论文图表目录 篡i 曼曼曼皇曼皇璺皇曼曼曼皇曼皇曼曼鼍曼曼量曼曼皇曼曼曼曼曼曼曼曼曼曼皇曼曼曼曼曼曼苎鼍詈鼍舅舅曼曼曼曼曼詈曼曼暑皇曼! 曼皇曼曼曼曼曼曼皇鼍曼曼曼曼曼曼曼曼寰 图i - i 图3 - 1 图3 - 2 图 图 表 图 3 - 3 图4 - 2 图4 - 3 图5 - i 图5 - 2 图5 - 3 图5 - 4 图5 - 5 图5 - 6 图5 - 7 图6 - i 图6 - 2 图6 - 3 图6 - 4 图6 - 5 图表目录 数据网格的基本软件框架4 网格计算的五层沙漏体系结构1 1 g l o b u st o o l k i t2 的软件组成1 2 o g s a 体系结构1 6 标准网格服务接口_ 1 8 g l o b u st o o l k i t3 的软件组成2 l g m u si c 系统的物理结构2 5 g m u si c 系统的软件架构2 6 音乐文件的层次分类2 7 事件记录器的结构3 0 文件发布的状态3 0 m p s f t 服务的架构一3 3 g r i d f t p 的分块传输性能3 9 不同分块策略的性能比较4 0 数据网格副本管理框架4 2 副本一致性框架4 5 面向服务的网格p o r t a l 4 7 副本管理服务和网格服务组件的交互4 8 副本管理网格服务的类结构4 9 集成网格棚i 务的p o r t l e t 的例子5 0 副本管理系统的工作流程5 1 数据网格模型的结构5 3 网格的拓扑结构6 3 平均任务执行时间( m s ) 6 4 网络利用率6 4 存储单元利用率( ) 6 5 第v i i 页 图表图表图 中国科学技术大学硕士学位论文 第一章 绪论 第一章绪论 本章主要介绍论文的研究背景,包括网格的概念、数据网格的发展、数据网格中 数据复制技术的研究意义等。本章的最后给出论文的研究内容和组织结构。 1 1 网格的概念 网格( g r i d ) 1 5 作为上世纪9 0 年代出现的新概念,开辟了一个新的研究领域。由 于网格技术还在不断的发展和变化中,目前对于网格概念存在着分歧和争议。 网格计算( g r i dc o m p u t i n g ) 的思想来源于电力网( e l e c t r i cp o w e rg r i d ) ,网格的最终 目的是希望提供给用户与地理位置无关、与具体的设施无关的通用的计算能力,就如 同现在使用电力一样方便 1 。 全球网格计算研究的领军人物i a nf o s t e r 曾在1 9 9 9 年这样描述网格:“网格是构 筑在互联网上的一组新兴技术,它将高速互联网、高性能计算机、大型数据库、传感 器、远程设备等融为一体,为科技人员和普通老百姓提供更多的资源、功能和交互性。 互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格功能则更多更强,让 人们透明地使用计算、存储等其他资源” 2 。由此可见,传统的互联网实现了计算 机硬件的连通,w e b 实现了网页的连通,w e b 服务实现了程序和程序之间的共享, 而网格试图实现互联网上所有资源的全面连通。 2 0 0 1 年,i a nf o s t e r 把网格进一步描述为“在动态变化的多个虚拟组织间共享资 源和协同解决问题” 3 】。从该定义中我们分析出网格技术的关键点在于:( 1 ) 资源共 享。这里的资源是广义的,包括计算机、存储设备、高速网络、传感器、高性能科学 仪器以及其他资源;而且,共享是有条件的,必须符合一定的约束,如信任关系、策 略、费用、等等。( 2 ) 协同工作。网格不仅能够为使用者提供资源,而且能够支持在 资源共享的基础上进行的协同工作。为了满足这个要求,传统的c s 模式是不够的, 而更多是一种p 2 p 的模式。( 3 ) n j 格所面对的是一种特殊的用户群体,即动态的、多 单位参与的虚拟组织。现代科研与商业应用中许多应用要求我们在一些临时组织起来 的机构间进行资源共享和协同工作。这种共享关系并不单指文件交换,而更在于对计 算资源、数据资源、网络资源、存储资源以及其它资源的直接访问。这种共享关系必 须是高度控制的:必须仔细明确地定义资源提供者与资源消费者,共享什么资源,允 第 l 页 中国科学技术大学硕士学位论文 第一章绪论 许谁在什么条件下可以共享该资源。这种共享关系大量地存在于现代工业、科学以及 工程领域中许多协同工作及资源代理策略中。虚拟组织就是由这种新型共享关心所定 义的个人或机构的集合。虚拟组织所共享的资源可以是同构的,也可以是异构的,可 以分布在一个组织内部,也可以分布在多个组织中。网格计算的提出就是为了实现对 等的资源共享和解决动态的、分布式的虚拟组织所遇到的问题。 2 0 0 2 年,i a nf o s t e r 限定网格必须同时满足三个条件 4 】:其一,在非集中控制的 环境中协同使用资源;其二,使用标准的、开放的和通用的协议和接口;其三,提供 非平凡的服务。这三个条件非常严格,像p 2 p 、c o n d o r 等都被排除在网格之外。 随着网格与w e b 服务技术的融合,特别是开放网格服务体系结构o g s a 的提出, i a nf o s t e r 对网格的定义又作了扩充 5 :“网格是可扩展的网格服务集合,这些服务以 不同的方式结合在一起以满足虚拟组织的需要,这些虚拟组织本身被定义成它们操作 和共享的服务的一部分”。 至此,i a nf o s t e r 已经把他头脑中的网格概念描绘清楚了。但并不是所有人都同 意他的狭义的“网格观”,例如,有许多人赞同广义的网格概念,它称作巨大全球网 格( g r e a tg l o b a lg r i d ,g g g ) ,它不仅包括计算网格、数据网格、信息网格、知识网格、 商业网格,还包括一些已有的网络计算模式,例如p 2 p 计算、寄生计算等。不管是 狭义还是广义的网格,其目的不外乎是要利用互联网把分散在不同地理位置的计算机 组织成一台巨大的“虚拟的超级计算机”,实现计算资源、存储资源、数据资源、信 息资源、软件资源、存储资源、通信资源、知识资源、专家资源等的全面共享。 1 2 数据网格的发展 1 2 1 数据网格概念的提出 网格的最初设计目标主要是满足更大规模的计算需求,即将分布在不同地点的各 种高性能计算机、数据库、大型存储系统等,通过高速网络连接并集成起来,形成对 用户相对透明的虚拟的高性能计算环境,即计算网格( c o m p u t a t i o n a lg r i d ) 系统,以此 来共同解决大型应用的计算问题。 在现代科学研究和应用领域中,大量的数据是重要的资源,例如全球气候模拟、 高能物理、生物计算、战场仿真、核模拟、数字地球等应用,其数据量将达到p b 至 t b 的级别。地理上广泛分布的该领域的科研工作者或用户都希望能够访问和分析这 第2 页 中国科学技术大学硕士学位论文 第一章绪论 些庞大的数据,但其分析方法往往是计算复杂、计算量大,许多数据分析处理要求千 亿次或万亿次规模的计算能力。而现有的数据管理体系结构、方法和技术已经不能满 足人们对高性能、大容量分布存储和分布处理能力的要求。因此,在计算网格的基础 上人们提出了数据网格( d a t ag r i d ) 6 的构想,以解决上述应用所面临的问题。 计算网格强调对计算资源的共享。而相对于计算网格,数据网格主要应用于大规 模的数据密集型计算,它更侧重于数据资源的存储、传输、共享和综合利用。 1 2 2 数据网格的研究现状 虽然对于网格的研究是从计算网格开始的,但目前人们己经充分认识到了数据网 格的重要性,并对数据网格开始了大量的研究工作,目前的研究可以分为两个大类: 科学与工程应用项目和网格中间件系统。 著名的科学与工程应用项目有欧洲数据网格【8 、针对物理学科的g r i p h y n ( g r i d p h y s i c sn e t w o r k ) 9 、和粒子物理领域的p p d g ( p a r t i c l ep h y s i c sd a t ag r i d ) 1 0 。 欧洲数据网格由欧洲粒子物理研究中。i 二, ( c e r n ) 、法国国家科学研究中。c - , ( c n r s ) 等六家欧洲著名的研究组织为主来进行。该项目的目的是提供下一代的科学研究环 境,这些科学研究在需要高性能计算资源的同时,更强调对分布在不同物理位置的超 大规模数据的分析与共享。由于所使用的资源的地理位置的分散性,使用这些共享资 源的科研组织也处于不同的地理位置,数据库大小的差异以及可用的网络带宽等种种 原因也使共享更为复杂。为了解决这个问题,该项目计划:建立一个研究网络进行技 术研究,这些技术对于实现一个全新的、世界规模的数据网格非常关键;通过大规模 地实施端对端的,包括真正用户的应用实验来测试这种新技术;构建、管理一个大规 模的、用于数据密集共享与处理的计算机机群。该数据网格建成之后,将允许在欧洲 范围内进行各种类型数据的信息交流与参考,这种大范围跨组织间的合作可以方便许 多学科,如物理、生物、天文、地球科学、化学等各领域的研究。 g r i p h y n 是一个由实验物理学家与计算机研究人员共同建立的数据网格,其目标 是达到p b 规模的数据存储和处理能力。g r i p h y n 的核心技术平台是p v d g ( p e t a s c a l e v i r t u a ld a t ag r i d ) ,它能向全球的科学家提供一个面向数据处理的计算平台。g r i v h y n 先期主要开展四个应用子项目的研究,包括:c m s 和a t l a s ,这两个项目是在c e r n 的大型强子对撞机上进行的,其目的是探索物质的起源及寻找超微小物质;还有 l i g o ,用于发现脉冲星的引力波等;以及s d s s ,将天空数字化后进行系统的的研究。 p p d g 项目通过美国能源部和各大学的物理学家、计算机科学家之间的协作来达 第3 页 中国科学技术大学硕士学位论文 第一章绪论 到对大型的粒子物理实验产生的p b 规模的数据进行分布式访问和管理的目的。该项 目建立在现有的网格中间件之上并与g r i p h y n 以及欧洲数据网格密切合作,共同致 力于实现p b 规模虚拟数据网格的长远目标。 网格中间件系统通过提供一系列工具、协议软件、用户编程接口和相应的环境, 能够屏蔽网格资源的分布、异构特性,支持数据网格应用的开发。其中的典型代表有 g l o b u s 7 、和s r b ( s t o r a g er e s o u r c eb r o k e r ) j11 。 g l o b u s 是全球最著名的网格计算研究项目。g l o b u s 项目由美国衄。皿e 国家实 验室进行研发,对信息安全、资源管理、信息服务、数据管理以及应用开发环境等网 格计算的关键理论和技术进行了广泛的研究,开发出能在多种平台上运行的网格计算 工具包软件g l o b u st o o l k i t 。该工具包能够用来帮助规划和组建大型的网格实验和应 用平台,开发适合大型网格系统运行的应用程序。目前,一些著名的数据网格研究项 目,如欧洲数据网格、g r i p h y n 、p p d g 等项目都采用了g l o b u st o o l k i t 作为网格基础 设施。g l o b u st o o l k i t 的多数功能组件已成为相关领域的标准。 美国s a nd i e g o 超级计算机中心开发的s r b 存储资源代理系统是用途较广的数据 网格软件之一。s r b 为用户提供了一个访问文件系统、档案系统、数据库系统等多 种异构存储系统的统一接口,屏蔽了存储系统的异构特性。它支持广域网环境下多种 数据源的访问,提供了数据复制、副本的访问、文件的汇集、分布文件的逻辑集合等 功能。目前,s r b 正在和g l o b u s 相结合,以满足网格技术和用户的需求。 1 2 3 数据网格的基本软件框架 图1 - 1 数据网格的基本软件框架 数据网格通过提供一组服务来支持资源和信息发现,通过存储资源代理使计算可 第4 页 中国科学技术大学硕士学位论文 第一章绪论 以在异构的存储资源上进行,它的基本软件框架如图1 1 所示 1 2 。数据网格的核心 是元数据目录,它负责维护异构环境中各种系统实体的信息。目录服务提供元数据目 录的统一逻辑视图,而元数据目录可以采用分布式的实现方式。数据网格的软件框架 由一组服务构成,所有的服务和应用程序都可使用元数据目录中存储的信息,并通过 目录服务的a p i 访问元数据。应用程序也可以通过目录服务的a p i 访问元数据。各 服务之间可以相互调用。以下简要介绍数据网格中的各种服务。 1 ,目录服务。该服务实现了元数据目录并提供a p i 。通过a p i 可以插入、更新、 删除、查询目录中的数据。它为元数据目录提供统一的逻辑视图,实际的元数据目录 可以是异构和分布式的。它还能有效实现系统元数据与应用元数据的无缝集成。 2 ,注册与发布。该服务支持新实体的注册和利用元数据目录进行元数据及相关 数据的发布。可以利用注册服务来记录已注册实体间的相互约束和相互联系,这些信 息可以用于完整性约束,并为信息发现提供支持。另外,可以利用发布服务来控制对 元数据及其它数据的访问级别。 3 ,信息发现。为支持异构环境中各种系统实体的信息发现提供必要的工具。 4 ,存储资源代理。存储资源代理将存储、检索数据集等高层用户的请求映射为 异构分布式存储环境中的底层存储操作,并能够有效管理数据副本。存储资源代理利 用存储在元数据目录中的信息来实现这一功能。存储资源代理为不同的数据存储系统 提供i o 接口,如数据库系统、档案存储系统、文件系统等。 5 ,身份认证与访问控制。维护用于用户身份认证、服务间相互认证、资源访问 控制等所需的元数据。访问控制信息作为元数据存储,并用于对资源访问的控制,以 及对系统实体的相关信息和应用相关数据的加密。 6 ,调度。提供与外部调度系统的接口,如n q e ( n e t w o r kq u e u i n gs y s t e m ) 等。利 用这些系统进行内部决策,如进行用户资源请求与可用资源的匹配,决定将一个特定 的数据集存储在哪个特定的位置等。另外还可利用这些系统进行动态信息收集。 7 ,方法执行。该服务提供与执行环境的接口,如u n i x 、c o r b a 、g l o b u s 等, 使得某些简单或复杂的方法得以执行。 第5 页 中国科学技术大学硕士学位论文 第一章绪论 1 3 数据网格中数据复制技术的研究意义 1 3 1 数据复制技术的引入 在数据网格中,用户团体经常很大,并且地理上分散,且其需要访问的数据一般 都在p b 数量级大小并且经常是分布存储的。在这种情况下,让所有的用户访问数据 的单一实例在性能上是不可行的。解决以上问题的一个有效办法是将经常需要访问的 数据集复制,作为该数据集的副本放置在距离终端用户较近的位置。数据复制技术的 引入给数据网格带来了如下好处: 1 ,减少数据访问延迟。数据被复制到多个存储节点之后,用户可以选取最近的 副本进行访问,从而减少访问延迟。 2 ,降低网络带宽的消耗,避免拥塞。数据被复制到本地或者较近的节点之后, 用户便不需要每次都远程访问和传输数据文件,节省了网络带宽。 3 ,对服务器端的负载起到均衡作用。在用户广泛分布,数据资源规模庞大且广 泛分布,数据资源访问频繁的网格环境下,如果数据文件只有一个副本,很容易造成 性能瓶颈,出现负载过重的情况。数据复制技术经过复制使数据分散,对数据文件的 请求只有一部分仍然需要到服务器获取,有效的减缓了服务器的负载。 4 ,提高可靠性。如果数据文件只有一个副本,容易出现单点失败情况,使数据 服务的可靠性降低。采用副本技术可以避免这种情况,在数据已经被复制到本地或者 较近的节点的情况下,如果服务器发生失败,也不会影响本地程序的运行,从而提高 了数据服务的可靠性。 1 3 2 数据复制技术的特点 复制技术已被广泛应用于分布式数据库、分布式对象等领域。作为这些领域的关 键技术,复制技术可以提高系统的容错能力、实现负载平衡、改善访问性能等。与传 统分布式领域中的复制相比,数据网格环境中的复制技术需要面对以下问题: 1 ,数据类型的多样性。在数据网格系统中,数据可以存储为普通文件,x m l 文 件以及各种不同的数据库等。 2 ,副本数量大。数据网格环境下,副本的数量可能达到几百,甚至更多,因此 需要对副本提供有效管理。 第6 页 中国科学技术大学硕士学位论文 第一章绪论 3 ,副本创建策略。由于网格环境的动态性,以及数据网格系统巨大的数据量, 只有适合具体应用的动态副本创建策略才能满足要求。 4 ,网络开销。数据库、分布对象系统选择副本时很少考虑网络开销,而在数据 网格系统中,副本选择要充分考虑网络开销。 5 ,维护副本一致性的算法。数据库、分布对象系统中的副本同步仅仅考虑包括 几个读、写操作这样的小事务,而数据网格系统中的数据量很大,且操作粒度很大, 一个操作可能修改整个文件的内容。另一方面,数据网格中的数据经常分布和复制于 广域网上,这意味着传统的保持副本一致性的算法并不适于数据网格中副本的一致性 管理。 一 1 3 3 数据复制系统的需求 根据上面的分析以及网格系统的特点,数据网格环境中的数据复制系统应该满足 以下要求: 动态性:复制系统能够根据需要动态创建和删除副本; , 安全性:复制系统在创建副本时,必须注意安全问题; 有效性:复制系统创建副本时必须考虑资源和时间的开销; 适应性:复制系统必须考虑各种网络速度、异构存储环境、各种处理速度以及失 败等情况: 灵活性:副本能够根据需要加入和离开系统; 可扩展性:复制系统能够创建和管理大量副本。 1 3 4 数据复制技术的研究内容 数据复制是数据网格的关键技术之一,涉及到的问题包括: 1 ,基于数据复制技术的网格应用。数据复制技术需要依靠典型的应用来推动其 研究的进展。 2 ,数据复制系统的体系结构。需要定义复制系统在整个网格系统中的作用;明 确复制系统与网格系统其他模块的关系;以及划分复制系统本身的功能。 3 ,副本的优化。包括从可用的多个副本当中选择最佳的副本,以使得存取指定 的数据项时间最短;确定副本创建的数据对象、时机和地点;以及副本删除的条件。 4 ,副本目录的管理。包括副本目录包含的内容;副本目录的实现方式( 集中式或 第7 页 中国科学技术大学硕士学位论文 第一章 绪论 者分布式) ;副本目录对副本的登记、更新、删除、和查询的功能设计等。 5 ,副本的同步。即如何维护副本间的一致性以及支持事务处理。 6 ,数据复制系统的性能评估。 1 3 5 数据复制技术的研究现状和趋势 数据网格中的数据复制技术的研究借鉴了分布式数据库、分布式对象等领域的有 关成果。但当前数据网格的数据复制系统研究关注的较多的是提高数据网格的性能, 较少考虑如何提高数据网格系统的可用性和容错性。在考虑复制的粒度时,考虑得较 多的则是以文件为最小复制粒度,并且假定在大部分的情况下文件在生成后是只读 的,从而大大简化了副本同步问题。 从目前的数据网格项目研究情况来看,数据复制系统关注得较多的是副本目录管 理和副本选择。副本目录管理的趋势从集中式的组织形式转向分布式的组织形式。副 本选择的当前主要研究内容是建立一个成本模型,该模型考虑了服务器和网络的负载 情况,需要对站点之间数据传输时间进行估计。数据复制系统的一个新的发展趋势是 动态复制,即按照用户存取数据的行为模式动态创建和删除副本。 1 4 论文的研究内容 中国科学技术大学网格研究小组从2 0 0 0 年开始逐步开展网格计算方面的研究工 作,目前承担有国家自然科学基金项目“基于计算市场模型的安全网格资源管理研究” f 6 0 2 7 3 0 4 1 ) 和国家8 6 3 计划高性能计算机及其核心软件专项“合肥网格节点的建设及 若干典型网格应用的研制”( 2 0 0 2 a a l 0 4 5 6 0 ) 。本文的研究工作也是基于这两个项目 的支持。 本文主要针对数据网格环境中数据复制技术的应用、副本管理框架、和副本优化 算法进行研究。由于数据网格的特殊性,数据网格系统对于数据复制技术的要求不同 于其它应用领域的复制技术。本章己经分析了数据网格环境中复制技术的特点、复制 系统的实现要求、复制技术的研究内容等。在后续章节中,将首先研究著名的g l o b u s t o o l k i t 网格计算工具包软件的体系结构、软件组成、和功能服务。随后,介绍和分 析本文基于g l o b u st o o l k i t 提供的底层功能组件设计和实现的基于数据复制技术的两 个网格应用:分布式音乐服务器系统g m u s i c 以及多协议分块文件传输网格服务 m p s f t 。g m u s i c 系统能够智能地选择速度最快的音乐文件副本,m p s f t 服务可以建 第8 页 中国科学技术大学硕士学位论文 第一章绪论 立多个t c p 连接从多个文件副本同时分块传输,它们都展示了数据复制技术的应用 前景。在这两个具体应用之后,本文基于开放网格服务体系结构o g s a 1 6 ,提出一 个灵活通用的副本管理框架:通过该副本管理框架集成副本管理的各项功能,为用户 提供统一的接口:同时该管理框架能够灵活配置,以满足不同数据网格应用的需求。 论文的最后介绍几种任务调度和副本优化算法,包括本文提出的基于混沌时间序列预 测的副本优化算法和基于文件访问历史的副本选择策略,在网格模拟器 o p t o r s i m 4 0 4 1 l - 对算法进行仿真和性能分析,实验结果表明基于拍卖和预测模型的 副本优化算法能有效提高数据网格系统的性能。 1 5 论文的组织结构 本文的组织结构如下: 第一章绪论 第二章g l o b u st o o l k i t 网格计算工具包软件 第三章基于数据复制的分布式音乐服务器系统g m u , i c 第四章多协议分块文件传输网格服务m p s f t 第五章基于o g s a 体系结构的数据网格副本管理框架 第六章任务调度和副本优化算法的仿真分析 第七章全文总结 1 6 本章小结 本章介绍了网格和数据网格技术的基本概念,数据网格的研究现状,数据网格中 数据复制技术的研究意义,以及论文的研究内容和组织结构。数据网格是当前网格领 域的研究热点,它使地理上广泛分布的团体能够共享数据资源,以完成对大规模海量 数据集的复杂分析和处理任务。数据复制技术已在分布式数据库、分布式对象等领域 得到广泛应用。由于不同的研究前提、研究目标和对网络环境的假定,现有的一些复 制技术不能很好地综合应用在数据网格环境中。因此需要根据应用特点和用户需求, 综合设计、实现符合数据网格特性的数据复制技术。 第9 页 中国科学技术大学硕士学位论文 第二章 g l o b u st o o l k i t 网格计算工具包软件 第二章g l o b u st o o l k i t 网格计算工具包软件 g l o b u st o o l k i t 是g l o b u s 项目最重要的实践成果,第一版在1 9 9 9 年推出,目前 使用较多的是2 0 0 3 年推出的基于o g s a 体系结构 1 6 、并融合了w 曲服务技术的3 0 版 1 9 】。2 0 0 5 年,基于新标准w s r f 1 3 的g l o b u st o o l k i t4 0 1 4 面世。中国科技大学 网格研究小组曾先后使用g l o b u st o o l k i t2 ( g t 2 ) 1 5 $ 1 g l o b u st o o l k i t3 ( g t 3 ) 构建网格 实验平台。本章分别介绍g t 2 和g t 3 的体系结构软件组成及提供的服务。 2 1g l o b u st o o l k i t 的发展概况 自从1 9 9 9 年起,g l o b u st o o l k i t2 ( g t 2 ) 就成为了网格中间件的事实标准。它着重 于可用性和互操作性能力:通过提供授权认证、资源管理、信息服务、数据管理等共 同问题的解决方案,加快了网格应用的构建;通过定义和实现一系列的协议、服务和 a p i ,真正地实现了可互操作的网格系统。 g t 2 已经取得了令人瞩目的成绩。在现有的网格开发、应用项目中,很多都是基 于g t 2 的。然而,g t 2 的五层沙漏体系结构 3 】以协议为中心,强调服务和a p i ,侧 重于定性的描述,不能适应现有的技术。近年来,结合网格与w e b 服务技术,以服 务为中心的开放网格服务体系结构( o g s a ) 作为一个得到了大量业界支持且不断发展 的标准,已经取代了沙漏结构成为网格新的体系结构标准。o g s a 将网格中的大量的 异构的资源均看作服务,并使用w e b 服务描述语言( w s d l ) 1 7 将服务标准化、透明 化,使之能以一致的方式进行交互及运转,解决了网格中最重要的开放性的问题。其 基本组件开放网格服务基础结构( o g s i ) 1 8 基于w e b 服务技术,完成了将网格软件基 础结构标准化的工作,定义了在网格环境中各种服务间使用的接口和协议的标准,为 o g s a 软件组件提供最大的互操作性。g l o b u st o o l k i t3 ( g t 3 ) 基于o g s a 体系结构, 是o g s i 规范的一种参考实现。 2 2g l o b u st o o l k i t2 的五层沙漏体系结构 五层沙漏体系结构 3 是一种影响十分广泛的结构,它不提供严格的规范,而是 对该结构中各部分组件的通用要求进行定义,而且将这些组件形成一定的层次关系, 第1 0 页 中国科学技术大学硕士学位论文 第二章 g l o b u st o o l k i t 网格计算工具包软件 每一层的组件具有相同的特征,上层组件可以在任何一个底层组件的基础之上建造。 五层沙漏结构根据各组成部分与共享资源的距离,将对共享资源进行操作、管理和使 用的功能分散在五个不同层次,越向下就越接近物理的共享资源,因此该层与特定资 源相关的成分就比较多;越向上就越感觉不到共享资源的细节特征,也就是说上层是 更加抽象共享资源的表示,因此就不需要关心与底层资源相关的具体实现问题。 图2 1 网格计算的五层沙漏体系结构 图2 1 的左半部分显示了五层沙漏体系结构。最底层是构造层,构造层面对的是 一个个具体的物理( 也可以是逻辑的) 资源,它通过对这些局部资源的管理,向上层提 供对这些资源的管理和控制接口。构造层的上面是连接层,主要是为下层的物理资源 提供安全的数据通信能力,这是资源之间进行互操作的前提,连接层使得孤立的单个 资源之间建立了联系。连接层的上面是资源层,它反映的是抽象的局部资源的特征, 而资源层上面的汇聚层的功能是如何将下面以单个资源形式表现出来的资源集中起 来,协调解决多个资源之间的问题。最上面的应用层和资源的距离最远,它关心的是 有什么样的资源可以由下面提供给虚拟组织,解决不同虚拟组织的具体问题。 图2 1 的右半部分显示了沙漏形状的五层结构,其内在含义就是因为各部分协议 的数量是不同的,对于其最为核心的部分,要能够实现上层各种协议向核心协议的映 射,同时实现核心协议向下层其它各种协议的映射。 在g t 2 的五层结构实现中,首先开发一套通用协议来描述消息的格式和消息交 换的规则,以协议为中心,在每一层定义a p i ,然后在协议和a p i 的基础上开发一系 列支持网格计算的服务。 第l l页 中国科学技术大学硕士学位论文第二章 g l o b u st o o l k i t 网格计算工具包软件 2 3g l o b u st o o i k - t2 的软件组成和服务 g t 2 的软件组成可以分为四个大模块:安全架构、信息服务、资源管理以及数据 管理。表2 1 列出了g t 2 提供的主要服务,下面详细介绍各个服务的功能。 表2 - 1g l o b u st o o l k it2 的软件组成 模块 服务 安全架构 网格安全基础设施( g r i ds e c u r i t yi n f r a s t r u c t u r e ,g s i ) 信息服务 元计算目录服务似e t a c o m p u t i n gd i r e c t o r ys e r v i c e ,m d s ) 资源管理 资源分配管理( g l o b u sr e s o u r c ea l l o c a t i o nm a n a g e r ,g r a m ) 全局二级存储访问( g l o b a la c c e s st os e c o n d a r ys t o r a g e ,g a s s ) 数据管理g r i d i 丌p 副本目录( r e p l i c ac a t a l o g ) 2 3 1 网格安全基础设施g s i g l o b u s 通过网格安全基础设施g s i 2 0 提供网格系统中的安全认证和安全通信能 力。g s i 的主要目标是:支持在网格系统中实体之间的通信安全,防止伪造实体和数 据泄密;支持跨虚拟组织的、包含多个管理域的分布式安全技术,这样就不能采用集 中管理的安全技术;支持用户单点登录,包括跨多个资源和地点的信任委托和信任转 移等。通过综合考虑,g s i 主要集中在网络的传输层和应用层,并强调与现有分布式 安全技术的融合。g s i 基于公钥加密体系,采用x 5 0 9 认证和s s l 通信协议,并对它 们进行了一定的扩展,使得g s i 可以支持双向认证和用户单点登录。g s i 的实现符合 g s s a p i ,g s s - a p i 是由i e t f 提出的用于安全系统的标准a p i 。g s i 为网格计算环 境提供了一系列的安全协议、服务、a p i 、s d k 和命令行程序,如认证证书、双向认 证、保密通信、私钥保护、信任委托和用户单点登录等。通过使用这些安全技术,可 有效地保证网格计算环境的安全性和方便性。 2 3 2 元计算目录服务m d s 网格环境相关信息是网格计算环境中的一个关键资源。m d s 2 1 3 持虚拟组织的 创建,使得虚拟组织中的用户可以相互合作并共享资源。一个虚拟组织可以收集并从 一个统一的视角来表示各种网格资源。提供一个信息服务的基础设施来协调跨虚拟组 第1 2 页 中国科学技术大学硕士学位论文第二章 g l o b u st o o l k i t 网格计算工具包软件 织的系统信息是很有必要的,因为这可以帮助网格应用程序根据这些系统信息进行自 我调整和配置。m d s 正是这样的一个信息服务基础设施。通过查询s 可以发现要 使用的计算机、存储设备和网格等的当前情况和特性。m d s 使用l d a p 协议作为查 询各种系统组件信息的统一手段,并可以创建一个统一的、跨虚拟组织的资源信息名 字空间。m _ d s 通过创建特定的l d a ps c h e m a 来表示数据。与m d s 相关的主要有 g r i s ( g r i dr e s o u r c ei n f o r m a t i o ns e r v i c e ) 矛l lg i i s ( g r i di n d e xi n f o r m a t i o ns e r v i c e ) 服务。 g r i s 提供了一个统一的方式对网格中各种资源的状况、配置、性能进行查询。g r i s 是一个分布的信息服务,通过在网格计算系统中对g r i s 进行部署,可满足相关的查 询申请。g i i s 提供了一种把各种g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养护安全培训总结课件
- 先进制造技术课件 1.1 说课
- 化工企业班长安全培训课件
- 养成睡觉好习惯课件
- 别开生面口才课件
- 员工入股协议书7篇
- 兴城安全培训课件
- 化工VR安全培训内容课件
- 网络营销宣传方案(3篇)
- 奶茶店营销活动方案(3篇)
- 首台套申报培训课件
- 中药药剂员职业考核试卷及答案
- 2025年脚手架租赁合同3篇
- 2025国家统计局济宁调查队城镇公益性岗位招聘3人备考题库及答案解析
- 快手运营课程培训课件
- 庭院绿化施工方案
- 《大学语文》课件 第16讲 智在纵横 苏秦始将连横
- 医院工作纪律培训课件
- 营房装修施工方案(3篇)
- 开远美景家乡课件
- 2025至2030中国仿制药行业市场深度分析及前景趋势与投资报告
评论
0/150
提交评论