(计算机应用技术专业论文)校园数据网格关键技术研究与设计.pdf_第1页
(计算机应用技术专业论文)校园数据网格关键技术研究与设计.pdf_第2页
(计算机应用技术专业论文)校园数据网格关键技术研究与设计.pdf_第3页
(计算机应用技术专业论文)校园数据网格关键技术研究与设计.pdf_第4页
(计算机应用技术专业论文)校园数据网格关键技术研究与设计.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)校园数据网格关键技术研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据网格是一种网格计算系统,主要用来处理数据有约束的共享和管理 大量的分布式数据。数据网格技术是研究的热点,主要集中在元数据管理和复制 管理两个方面。校园网络环境中存在大量的信息孤岛,许多资源和信息不能得到 有效的利用和共享 本文通过对数据网格中元数据管理和复制管理技术的分析研究,设计了校园 数据网格系统来解决校园网络环境中的问题。主要从以下几个方面进行了研究: l 元数据管理的分析研究:本文分析了当前元数据管理模型的特点,并在 此基础上提出了一种局部自治的、分布式的、三层结构的元数据管理模 型。 2 副本的创建策略分析研究:本文分析了现有的副本创建策略,并提出了 适用于校园数据网格系统的缓存加最佳用户副本创建策略。在局部自治 域之间采用缓存副本创建策略,在局部自治域内采用最佳用户策略。 3 副本的定位与选择机制分析研究:本文分析了副本定位与选择的各种机 制,选取了适用于校园数据网格系统的机制。副本的定位采用副本目录 来实现,副本目录中记录逻辑文件到物理文件的映射信息,来完成副本 定位。副本的选择采用简单、高效的i b l 算法来实现。 4 副本的l 致性管理分析研究:本文分析了现有的副本一致性策略,提出 了适用于本文提出的元信息管理模型的副本一致性策略。 在研究数据网格关键技术的基础上,结合本文的研究成果设计了校园数据网 格系统,并给出了系统初步的原型实现 关键字:网格,数据网格,元数据,复制管理,校园数据网格 a b s t r a c t ad a t ag r i di sag r i dc o m p u t i n gs y s t e mt h a td e a l sw i t hd a t a - - t h ec o n t r o l l e d s h a r i n ga n dm a n a g e m e n to fl a r g ea m o u n t so fd i s t r i b u t e dd a t a t e c h n o l o g yo fd a t a g r i di sar e s e a r c hh o t m e t a d a t aa n dr e p l i c am a n a g e m e n ta r cc r u c i a la s p e c t t h e r ea l e g r e a td e a l so fi n f o r m a t i o ni s o l a t e di s l a n d , m a n yi i 。s o u i c e sa n di n f o r m a t i o nc a n tg e t v a l i du t i l i z a t i o na n ds h a r ei nt h ec a m p u sn e t w o r ke n v i r o n m e n t t oi n v e s t i g a t eo i lt e c h n o l o g yo f m e t a d a t aa n dr e p l i c am a n a g e m e n ti nd a t ag r i d , d e s i g n sc a m p u sd a t ag r i dt o r e s o l v et h ep r o b l e mw i t h i ne n v i r o n m e n to ft h e c a m p u sn e t w o r k t h i sp a p e r c a r r i e so l lar e s e a r c hf r o ms e v e r a lf o l l o w i n g s : 1 m e t a d a t am a n a g e m e n t :t oa n a l y z ef e a t u r e so f5 0 m er e l a t e dm o d e lo f o n c a m p u s m e t a d a t am a n a g e m e n t o nt h eb a s i so fr e s e a r c hak i n do fl o c a la u t o n o m y , d i s t r i b u t e da n dt h r e el a y e r sm o d e lo f m e t a d a t am a n a g e m e n ti ss u g g e s t e d r e p f i e ac r e a t i o ns t r a t e g y :t oa n a l y z es o m er e l a t e dw o r k so nt h er e p l i c a c r e a t i o ns l l a t e g y c a c h i n gp l u sb e s tc l i e n tr e p l i c ac r e a t i o ns t r a t e g yf o r c a m p u sd a t ag r i de n v i r o n m e n ti ss u g g e s t e d b e t w e e no fl o c a la u t o n o m y a d o p t sc a c h i n gs t r a t e g y i n s i d eo f l o c a la u t o n o m ya d o p t sb e s tc l i e n ts t r a t e g y r e p l i c al o c a t i o na n ds e l e c t i o nm e c h a n i s m :t oa n a l y z es o m c ! r e l a t e dw o r k s o nt h er e p l i c al o c a t i o na n ds e l e c t i o nm e c h a n i s m m e c h a n i s mf o rc a m p u s d a t ag r i de n v i r o n m e n ti ss e l e c t e d r e p f i c ac a t a l o gi su s e dt oi m p l e m e n t r e p l i c al o c a t i o n r e p l i c ac a t a l o gs t o r a g em a p p i n go fl o g i c a lf i l et op h y s i c a l f i l et h a t i m p l e m e n t st h el o c a t i o n r e p l i c as e l e c t i o na d o p t ss i m p l ea n d e t t i e i e n ti b la l g o r i t h m r e p l i c ac o n s i s t e n c ym a n a g e m e n t :t oa n a l y z es o m e r e l a t e d r e p l i c a c o n s i s t e n c ym a n a g e m e n ts t r a t e g y r e p l i c ac o n s i s t e n c ym a n a g e m e n ts t r a t e g y f o rm e t a d a t am o d e lo f t h i sp a p e ri ss u g g e s t e d b a s i so fi n v e s t i g a t i n go nk e yt e c h n o l o g yo fd a t ag r i d ,t h i sp a p e rd e s i g n s d a t ag r i ds y s t e mw i t hp r o d u c t i o no fr e s e a r c ha n dr e a l i z e sp r i m a r ys y s t e m a b s t r a c t k e yw o r d s :g r i d , d a t ag r i d ,m e t a d a t a , r e p l i c am a n a g e m e n t ,c a m p u sd a t ag r i d i 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:至刽指导教师签名:;窒:塑 一年月髟日如7 年歹月4 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者签名:皇钏 h 7 年月 第一章绪论 1 1 研究背景 1 1 1 网格概念 第一章绪论 网格是一种新兴的技术,正处在不断发展和变化当中。网格概念最早于9 0 年代中期提出,用于表述在高端科学和工程上分布式计算的一种基础构造形式。 网格【1 j 是国家级高性能计算和信息服务的战略性基础设施,它的目标是将地理上 分布、异构的各种高性能计算机、数据服务器、大型检索存储系统和可视化、虚 拟现实系统等,通过高速互联网络连接并集成起来,共同完成一些缺乏有效研究 办法的重大应用研究问题。 、 网格2 】【3 1 是继传统互联网、w e b 之后的第三个大浪潮,可以称之为第三代互 联网。传统互联网实现了计算机系统的连通,w e b 实现了网页的连通,而网格试 图实现互联网上所有资源的全面连通i a nf o s t e r 和c k e s s e l m a n ,g l o b u s 网格项 目的领导人,“网格是构筑在互联网上的一组新兴技术,它将高速互联网、计算 机、大型数据库、传感器、远程设备等融为一体,为科技人员和老百姓提供更多 的资源、功能和服务传统的互联网技术主要为人们提供电子邮件、网页浏览等 通讯功能,而网格的功能则更多更强,它能让人们共享计算、存储和其他资源” 网格计算是基于网格的问题求解。它需要解决的问题是如何在动态的、异构 的虚拟组织间实现资源共享以及协同的解决某一问题。 网格的本质可以用一个简单的指标来鉴别,根据这个指标 4 1 ,网格实际上是 这样一个系统: 协调非集中控制资源一网格整合各种资源,协调各种使用者,这些资源 和使用者在不同控制域中;网格还解决在这种分布式环境中出现的安全 策略、使用费用等问题。 第一章绪论 使用标准、开放、通用的协议和界面一网格建立在多功能的协议和界面 之上,这些协议和界面解决认证、授权、资源发现和资源存取等基本问 题。 得到最佳的服务质量一网格允许它的资源被协同使用,以得到多种服务 质量,满足不同使用者需求,如系统响应时间、流通量、有效性、安全 性以及资源重定位,使得联合系统的功效比其各部分的功效总和要大得 多。 1 1 2 网格特点 网格特点1 5 l : 1 分布与共享 网格的分布性首先是指网格的资源是分布的组成网格计算能力不同的计算 机,各种类型的数据库乃至电子图书馆,以及其它的各种设备与资源,是分布在 地理位置互不相同的多个地方,而不是集中在一起的。 网格资源虽然是分布的,但是他们却是可以共享的即网格上的任何资源都 可以提供给网格上的任何使用者。共享是网格的目的,没有共享便没有网格,解 决分布资源的共享问题,是网格的核心内容。这里的共享含义是非常广泛的,不 仅指一个地方的计算机可以用来完成其它任务,还可以指中间结果,数据库,专 业模型库,以及人力资源库各方面的内容 分布是网格硬件在物理上的特征,而共享是在网格软件支持下实现的逻辑上 的特征,这两者对于网格来说都是十分重要的 2 自相似性 自相似性在许多自然和社会现象中大量存在,一些复杂的系统都具有这种特 征,网格就是如此。网格的局部和整体之间存在着一定的相似性,局部往往在许 多地方具有全局的某些特征,而全局的特征在局部也有一定的体现。 3 动态性与多样性 网格资源是动态变化的,这一特点要求网格管理必须充分考虑并解决好这一 问题,对于网格资源的动态减少或者资源出现故障的情况,要求网格能够及时采 取措施,实现任务的自动迁移,做到对高层用户的透明或者尽可能减少用户的损 2 第一章绪论 失。 , 网格资源的动态增加是网格的扩展性问题,也就是说在网格设计实现时,必 须考虑到新的资源能否很自然的加入到网格中来,并且可以和原来的资源融合在 一起,共同发挥作用。 网格资源是异构和多样的。在网格环境中可以有不同体系结构的计算机系统 和类别不同的资源,因此网格系统必须能够解决这些不同结构,不同类别资源之 间的通信和互操作问题。 4 自治性与管理的多重性 网格资源首先是属于某个组织或个人的,网格资源的拥有者对该资源具有最 高级别的管理权限,网格应该允许资源拥有者对他的资源有自主的管理能力,这 就是自治性。 网格资源也必须接受网格的统一管理,否则不同的资源就无法建立相互之间 的联系,无法实现共享和互操作,无法作为一个整体为更多的用户服务。这就是 网格管理的多重性。 1 1 3 网格的体系结构 要实现网格的目的就需要建立相应的体系结构。网格是一个在互联网上建立 的大系统,是一个动态,异构,分布的系统,要把互联网上分布的各种资源有机 的集成起来,不是一种简单的连通。网格体系结构是建立网格的客观需要。网格 体系结构是关于如何建造网格的技术和规范的定义,包括划分和定义网格基本组 成部分,定义各部分的功能、描述不同部分之间的关系以及把这些不同部分集成 在一起的方法。网格体系结构是网格的骨架和灵魂。 1 五层协议结构 网格协议建立在互联网协议之上,以互联网协议中的通信、路由、名字解析 等功能为基础分为构造层、连接层、资源层、汇聚层和应用层共五层【6 l 。如图 1 1 所示。每层都可以有自己的服务、a p i 和s d k ,或者服务、a p i 和s d k 中的部 “,k , 分。在这种层次结构中,上层协议的实现调用下层提供的功能网格内的全局应 用都通过协议提供的结构调用网格管理软件的功能。 第一章绪论 = j 巫口 i 鹾 ,i 一 l竺堡星 二二函夏 , 应用 传输 互连 i 连接 图1 1 五层协议结构 构造层的基本功能就是控制局部资源,向上提供访问这些资源的接口。如计 算资源、存储资源。一个“资源”可以是一个逻辑实体,如分布式文件系统、集 群系统。 连接层定义网格特定的核心通信协议和安全认证协议。通信协议定义了构造 层资源之间的数据交换方式。安全认证协议是建立在通信服务基础上的,它提供 核实用户和资源的身份认证机制其中通信协议包括传输协议( 如t c p i p ) 、路 由协议和命名协议( 如d n s ) 安全认证协议是基于现有网络安全标准的扩展, 如: 用户只登录一次就可以访问构造层定义的多个网格资源。 用户能够赋予一个程序代表用户运行的能力,以便程序能够访问系统授 权给用户的资源。 每个站点或资源提供者可以利用任何不同的本地安全解决方案,包括 k e r b e r o s 和u n i x 本地安全解决方案 为了让用户能够一起使用来自多个提供者提供的资源,安全系统不能要 求每个资源提供者在构建安全环境方面互相合作或交流。 资源层是建立在连接层的通信与认证协议基础之上的,为对个人资源的安全 共享操作的谈判、启动、监视、控制、记账( a c c o u n t i n g ) 和支付定义协议、a p i 和s d k 资源层通过调用构造层的功能去访问和控制本地资源来实现这些协议 资源层协议主要有信息协议和管理协议两类。其中信息协议用于获取关于资源的 结构和状态信息,例如它的当前负载、使用政策等。管理协议用于谈判访问共享 资源,指定资源需要进行的操作,如进程创建或数据访问。 汇聚层的作用是将资源层提交的受控资源汇集在一起,供应用程序共享使 4 第一章绪论 用。汇聚层提供联合资源调度和预约、信息服务、数据复制服务、资源发现服务、 团体授权服务、协作服务和分布记账服务等。 网格是通过调用服务来构造应用的。在每一层有定义好的协议,例如资源访 问、资源管理、数据访问、资源发现等。在每一层都定义了a p i ,实现与适当的 服务进行协议信息交换以进行期望的动作。 2 o g s a ( o p e ng r i ds e r v i c e sa r c h i t e c t u r e ) o g s a 是在五层协议结构的基础上,结合w e bs e r v i c e 技术提出来的。o g s a 是一种以服务为中心的“服务结构”,服务是协议的发展,在o g s a 中一切都抽 象为服务,包括计算资源、存储资源、网络、程序、数据库、仪器设备等川 考虑到网格环境的具体特点,o g s a 在原来w e bs c r v i c e 服务概念的基础上, 提出了“网格服务( g r i d s e r v i c e ) ”的概念,用于解决服务发现、动态服务创建、 服务生命周期管理等与临时服务有关的问题。 以网格服务为中心的模型具有如下特剧8 】: 由于网格环境中所有的组件都是虚拟化的( v i r t u a l i z c d ) ,因此,通过提 供一组相对统一的核心接口,所有的网格服务都基于这些接口实现,就 可以很容易地构造出具有层次结构的、更高级别的服务,这些服务可以 跨越不同的抽象层次,以种统一的方式来看待。 虚拟化也使得将多个逻辑资源实例映射到相同的物理资源上成为可能, 在对服务进行组合时不必考虑具体的实现,可以以底层资源组成为基 础,在虚拟组织( v m u a lo r g a n i z a t i o n ) 中进行资源管理。通过网格服务 的虚拟化,可以将通用的服务语义和行为,无缝地映射到本地平台的基 础设施上 3 w s r f ( w s r e s o u r c ef r a m e w o r k ) 开放网格服务基础设施o g s i1 o 网( o p 锄g r i ds e r v i c ei n f i a s t m c t u r ov e r s i o n 1 0 ) 发布于2 0 0 3 年,它定义了一组关于利用诸如w e b 服务描述语言w s d l 和x m l 模式等w e b 服务机制的约定与扩展,以启用有状态( s t a t e f u l ) 服务它引入了有状 态w e b 服务的观念并定义了一些方法,可以用于创建、命名和管理服务实例的生。 命周期;用于声明和检查服务状态数据:用于服务状态更改的同步通知;用于表 示和管理服务实例的集合;以及用于服务调用故障的共同处理。o g s i 是构建开 5 第一章绪论 放网格服务体系结构o g s a ( o p e ng r i ds e r v i c e s a r c h i t e c t u r e ) 的基础设施,它的 核心即为网格服务规范。 作为o g s i 的重构和发展,w 曲服务资源框架w s r f t l o l ( w e bs e r v i c er e s o u r c e f r a m e w o r k ) 于2 0 0 4 年被提议,目的是利用新的w 曲服务标准。随着w 曲服务体系 结构的不断演变和发展以及w s d l 2 o 与诸如w s - a d d r e s s i n g 这样的新兴w 曲服 务标准的公布出现,人们开始考虑o g s i 将如何利用这些扩展的w e b 服务特别 是w s a d d r e s s i n g , 以及如何将o g s i 的功能和w e b 服务体系结构整合在一起,并开 始意识到将o g s i 的功能进行重新划分是比较合适的,因此o g s i 被重新划分为两 大部分:w 曲服务资源框架( w s r f ) 和w e b 服务通知规范( w s - n o t i f i c a t i o n ) 。其 中w s r f 为一套被提议的w e b 服务规范,它根据特定的消息交换和相关的x m l 模 式来定义给定的w 曲服务资源,并定义了有状态资源的w 曲服务访问模式和阐明 如何将“状态”和w 曲服务结合的一簇w 曲服务约定。而w e b 服务通知规范则为 w e b 服务提供基于消息发布和预定能力。 w s r f 更好地利用了现有的x m i _ 膜式,同时也利用了新的w e b 服务标准,如 w e b 资源寻址等。因此w e b 服务资源框架( w s r f ) 更容易在w e b 服务工具中实 现,也更容易在许多已定义的w e b 服务接口中使用。w s r f 更为合理地将w e b 服务 和有状态资源联系在一起,它将服务和有状态资源明确地区分开来 1 1 4 网格面临的机遇和挑战 网格将是w e b 之后的信息基础设施。但迄今为止网格技术还未成熟钱德沛 对此指出,今天的网格远没有具有社会基础设施的形态,网格自身还面临九大难 题。 计算模型是网格存在的首要问题。在今天的计算机体系结构下发展起来的计 算模型能不能适应明天的网格,应用问题到动态生长的网格环境的映射,使用什 么样的编程语言? 这些有待探讨。 第二个难题是存储模型。计算数据在网格中如何分布组织,如何在网格中高 效地寻址和访问数据,如何对网格存储空间实施有效管理? 这些话题也相当复 杂。 6 第一章绪论 第三个难题是信息模型。在高度异构的环境下的信息如何表示及编码,在大 地域分布的异构环境中如何无阻碍地交换信息,如何有效地标示信息的位置,从 而实现信息的高效获取? 信息模型问题不容忽视。 第四个难题是资源管理。适应资源的动态变化,并在动态变化的条件下实现 对资源的有效调度,保证应用的服务质量。这绝不是一蹴而就的事。 第五个难题在于服务。如果没有好的解决手段,应用开发者将很难理解网格 服务的语义,也难以将服务与其应用目标相匹配。而动态地部署服务、定位服务 以及使用服务,也将无法实现。 第六个难题是安全。网格将彼此毫不相关的资源提供者和资源使用者联系起 来,既要确保他们之间的信赖关系,保证关键性应用在网格环境中的安全,又要 在促进共享的同时保护用户的机密和商业利益这需要一种成熟的网格计算安全 模型和体系结构。 第七个难题是普适计算网格世界可能由数以十亿计的固定的、移动的、通 用的、嵌入的计算装置所构成的普适计算应用环境组成,在这样的应用环境下, 软件使用形态会发生什么变化? 网格的主要工作形态是c s 、p 2 p ,还是混合的? 这些依然困惑着业界。 标准的问题更不能忽视。网格的各个方面都需要标准支撑比如说,不同电 压、频率、甚至插座造成不同国家电器设备不通用,这必须依赖制订标准来保证 应用层的互联、互通、互操作另外,建立面向领域应用的规范以及协调和现有 标准的关系,也是网格发展中的当务之急。 最后一个难题在于运营。作为一个庞大的计算资源,网格也许应该像电信基 础设施那样由大运营商来运营。但建立经济模型和盈利机制,建立网格的运营服 务业,并完善网格计费、管理、调控的一系列策略和机制,依然有待产业的积极 参与 1 1 5 数据网格 由于技术的发展,现代大型科学工程研究、信息服务和数字媒体应用中的数 据呈爆炸式增长,数据已经成为一个重要的资源。现有的数据管理体系结构、方 7 第一章绪论 法和技术已经不能满足高性能、大容量分布存储和分布处理能力的要求,如何存 储、分发、组织和管理、高性能处理、分析和挖掘海量分布数据成为许多应用的 首要问题。 数据网格是一种面向大型分布式数据存储和处理的网格,它将全球范围内分 布的、异构的存储和数据资源通过高性能网络连接起来,并提供相关机制使用户 能够透明的访问和处理大型分布式数据集。数据网格研究聚集于大型分布式数据 的存储和管理,传输,数据访问的优化,数据可靠性与可获取性,以及计算资源 的调度等。数据网格的主要目标就是给分布式的数据密集型的应用程序提供服务 以及基础设施,因此数据网格必须提供一组安全的高性能的协议用来保证大型数 据集的传输,以及确保数据能够根据用户的需要在全网范围内进行复制、分发 1 1 6 数据网格的关键技术 以下几个技术就是实现数据网格的关键 1 1 1 : 1 元数据管理 在数据网格中,需要建立灵活的、可扩展的信息服务体系结构这种体系结 构应当保证资源信息提供者的广泛分布性和信息服务的分布特性,避免由于单个 信息服务实体的失败导致其它资源信息服务不能正常提供服务 元数据可以分为系统元数据( s y s t e mm e t a d a t a ) 、复制元数据( r e p l i c a m e t a d a t a ) 和应用元数据( a p p l i c a t i o nm e t a d a t a ) 系统元数据记录数据网格自身 的结构信息,诸如网络互联情况、存储系统的容量、计算机空闲情况、使用策略 等。复制元数据记录与数据副本有关的信息,如文件与具体存储系统之间的映射 信息。应用元数据是与具体应用相关的文件逻辑结构或语义信息,如数据的内容 和结构、获取数据的必要条件等。为了实现命名、定位和访问的透明性,网格需 要有效地管理数量繁多的名字和属性,以及它们之间的关系,需要一种统一的全 局命名方式,需要管理数据集的定位信息,需要有效管理数据资源存储形式等相 关信息。同时,也需要管理系统资源的安全、授权、访问控制等信息。 网格中的所有元数据构成元数据目录:它采用统一的结构来描述元数据。无 论使用何种结构,元数据目录应当满足两点:其一,它应该是一种层次和分布式 8 第一章绪论 目录结构系统,如l d a p ;其二,它应当不破坏现有系统的元数据描述方法,并 能与它们很好地交互、融合。 2 复制管理 数据网格的数据经常需要复制,复制本质上是对数据的缓存。虽然网络速度 提高很快,但要达到高性能地频繁访问和处理大量远程数据仍然很困难复制技 术为用户应用提供一个能够快速访问和处理远程数据的局部缓冲数据拷贝,避免 大量数据远程传输到应用端。复制管理应具有以下一些功能: 创建一个完整的或部分的数据集拷贝 提供选择数据复制策略、复制方式和复制地点的能力 在复制目录中注册新的数据拷贝 允许用户和应用查询复制目录,以便找到某个文件或数据集已存在的 数据拷贝 根据用户和应用的执行要求,以及存储、网络的性能预测,有方法和 能力选择最佳的数据副本进行访问和处理。 数据复制之间的数据一致性和更新一直是分布式数据管理的难点,它 与应用数据访问、产生、操作特性紧密相关 3 数据的统一访问 在异构系统和异构数据的分布式环境下,如何有效地实现数据访问是数据网 格的关键技术如果为每一种系统和数据提供相应的方法的,这是数据网格用户 所不能接受的。数据网格必须解决数据访问的问题,向用户提供有效方便的统一 的访问模式因此,数据网格必须抽象各种数据存储系统,形成一个统一抽象模 型,为不同的数据存储系统提供统一的数据访问接口。通过数据的统一访问接口 可以将用户的请求映射为底层存储系统的访问操作 4 数据传输 数据网格计算涉及大量数据的移动、传输和复制,这就需要一种高效的数据 传输机制的支持,这种传输机制要保证在广域网络的环境上可靠地传输数据。高 速数据传输机制应支持以下几种功能: 高速数据传输:要支持广泛接受的协议和广域网络上的数据传输,可 以采用并行数据传输机制等。 9 第一章绪论 分块数据传输:数据网格支持各种数据存储形式,一些数据集的数据 本身是广泛分布的,因此,需要支持多个数据块的并发数据传输,汇 总后形成一个完整的数据集。 部分数据的传输:用户和应用经常需要数据集中的一部分数据,而不 是整个数据集,例如一个文件中的一段数据,因此支持这种数据的传 输方式是必要的 第三方数据传输:许多应用需要用到多个资源,必须提供一种机制, 允许一个地点的用户和应用能够启动、监视和控制其它两个地点存储 系统的数据传输,为应用使用多个地点的资源提供保障。 可靠、可重启、断点续传:在广域网络环境下,数据传输故障和服务 器故障经常发生,导致传输中断因此,数据传输的错误恢复机制至 关重要。 1 2 研究现状 近年来数据网格技术迅速发展,许多研究项目不断的推出,也随之出现了一 些可喜的成果。为数据网格的进一步发展指明了道路和方向 在数据网格研究领域,美国和欧洲处于领先地位,他们的研究范围和规模都 比较大,并且已经推出了一些试验系统,其中最著名的是欧洲数据网格项目、美 国的国际虚拟数据网格实验室i v d g l 和p p d g 项目,而最著名的数据网格系统 工具是g l o b u s 中的数据网格支撑模块和s d s c 的s r b 系统 1 欧洲数据网格 欧洲数据网格( e d g ) 是著名的数据网格研究项目它是由欧洲原子能研究 机构c e r n 发起的,2 0 0 0 年1 2 月2 9 日正式立项,由欧盟提供9 8 0 万欧元资金, 项目完成期限为3 年欧洲原子能研究机构c e r n 【1 2 1 成立于1 9 5 4 年,是世界最 大的粒子物理研究中心。c e r n 是欧洲第一个联合研究机构,由2 0 个成员国提 供资金,其卓越成绩已经成为国际合作的典范。c e r n 同时也是w w w ( w b r l d 晰d ew e b ) 的发源地1 1 3 e d g 主要针对c e r n 的高能物理应用,解决海量数据 的分解存贮和处理问题,同时将之扩展到其他应用,如地球观察应用和生物应用, 1 0 第一章绪论 并寻找将其推广的可能。 , 2 g l o b u s g l o b u s 壕统主要由美国a r g o n n e 国家实验室和南加州大学联合研制。它借 鉴了因特网和u n i x 的开发路线,不构造一个完整的系统,而只是构造一套底层 的开发工具,采用模块化设计方式,可升级或替换,是一个中间件系统。g l o b u s 对资源的管理、安全、信息服务和数据管理等网格计算的关键技术和方法进行研 究,提供了一整套s d k 和a p i ,用户可以任意选择其中的工具模块进行高层次 的应用开发。目前,美国n a s a i p g 、欧洲数据网格、美国国家技术网格n t g 、 g r i p h y n 、p p d g 、a s c ig r i d 、日本的d a t af a r m 等项目都采用了g l o b u s 系统。 g l o b u s 系统最初是面向计算网格的,后来由于数据网格应用的需求迫切, g l o b u s 系统在原有的基础上增加了数据网格的功能,对数据的高速传输、数据 复制、数据复制的选择、元数据管理等进行了研究和实现,成为数据网格应用的 开发平台。 3 s r b ( s t o r a g er e s o u r c eb r o k e r ) 美国圣地亚哥超级计算中心s d s c 的s r b t l 5 1 存储资源代理系统是用途较广 的数据网格软件之一它支持分布的、跨组织的、异构的数据存储系统。s r b 使用d g m s ( d a t a g r i d m a n a g e m e n t s y s t e m ) 提供层次式的、逻辑上的命名空间 来管理用户数据 s r b 为用户提供了一个访问文件系统、档案系统、数据库系统等多种异构存 储系统的统一接口,屏蔽了存储系统异构的特性。它支持广域网络环境下多种数 据源的访问,提供了复制、复制数据的访问、文件的汇集、分布文件的逻辑集合 等功能目前,s r b 系统已经被几十个单位使用,包括英国的国家网格、美国 的联邦数据库等。它们正在和g l o b u s 系统相结合,以满足网格技术和用户的需 求 4 美国的国际虚拟数据网格实验室i v d g l i v d g l l l 6 j 是一个全球的数据网格,它主要应用于物理和天文学的试验。它 的计算资源、存储资源和网络资源分布于美国、欧洲、_ ,亚洲和南美洲提供了对 网格技术独一无二的,在全球范围内的测试和验证 5 粒子物理数据网格p p d g 第一章绪论 粒子物理数据网格协作p p d g ! r 刀,开始与1 9 9 9 年,由于合作成员们意识到 数据网格服务要支持全球范围的、分布式的、当前和未来高能量核物理实验的计 算模型。获取和传送粒子和核物理的实验数据迫切的需要基于网格的能实现数据 密集处理的工具。p p d g 用来完成此功能。 1 。3 研究意义 数据网格技术是研究热点,许多的研究领域还在探索之中,如何有效地集成 网络上分布的多个数据集等资源,形成单一虚拟的数据访问、管理和处理环境, 为用户屏蔽底层异构的物理资源,建立分布海量数据的一体化数据访问、存储、 传输、管理与服务架构是数据网格所要解决的问题。 而在校园网络环境中存在大量的信息孤岛,许多的资源和信息不能得到有效 的利用和共享。大量的主机存储资源没有得到有效利用,各主机不能方便的共享 自己的资源。不同的数据库系统和文件系统的数据不能方便的访问和共享,浪费 了大量的资源。 本文在研究分析了数据网格中的元数据管理和复制管理技术的基础上提出 校园数据网格系统来解决此问题。 1 4 研究内容 本文分析研究了数据网格中的元数据管理和复制管理技术,并在此基础上设 计了校园数据网格系统,给出了相应的、初步的原型实现。 本文在分析以前的元数据管理模型的基础上提出了一种分布式的、局部自治 的、三层结构的元数据管理模型。此模型最大的特点在于快速的元信息访问和容 错性即使在中央元信息索引服务器失效的情况下,也可以通过局部元信息索引 服务器来实现跨域的元信息访问 本文分析了现有的副本创建策略,并提出了适用于校园数据网格系统的缓存 加最佳用户副本创建策略在局部自治域之间的采用缓存副本创建策略,在局部 自治域内采用最佳用户策略。 本文分析了副本定位与选择的各种机制,选取了适用于校园数据网格系统的 1 2 第一章绪论 机制。副本的定位采用副本目录来实现,副本目录中记录逻辑文件到物理文件的 映射信息,来完成副本定位。副本选择采用简单、高效的i b l 算法来实现。 本文分析了现有的副本一致性策略,提出了适用于分布式的、局部自治的、 三层结构的元信息管理模型的副本一致性策略。策略在副本中设立主副本和次副 本,副本可能涉及多个自治域,在每个自治域内有且只能有一个主副本,更新在 主副本进行,这样的多个主副本的设计可以提高副本的更新效率。 研究数据网格上述技术的基础上,设计了校园数据网格系统。设计时使用了 本文的研究成果,并给出了系统的初步原型实现 1 5 论文结构 本文分为五章: 第一章绪论:主要阐述了网格的研究背景,现状及意义,介绍了本文的研究 内容和组织结构。 第二章元数据管理模型研究:介绍了元数据的基本概念和元数据管理的作 用,分析了元数据管理技术,并提出了分布式的、局部自治的、三层结构的元数 据管理模型 第三章复制管理技术研究:阐述了复制技术的意义和相关的概念。分析研究 了副本的创建策略,并提出了适用于校园网格系统的副本创建策略。分析研究了 副本的选择与定位机制,并在此基础上选择了相应的副本定位机制和选择机制。 分析研究了副本的一致性策略,并提出了一种适用于本文第二章中的元数据管理 模型的副本一致性策略。 第四章校园数据网格系统设计及实现:给出了校园数据网格系统的设计目 标、总体设计以及实现 第五章结束语:总结本文工作,并指出下一步的工作方向。 第二章元数据管理研究 2 1 元数据概述 2 i 1 产生背景 第二章元数据管理研究 互联网技术的不断发展,网络信息资源数量和种类不断激增。网络信息资源 的组织与管理问题日益突出。在网络中存在大量的信息孤岛,数据资源得不到有 效的使用。面对海量的信息资源如何对其组织、管理与利用是必须解决的问题。 目前网络资源的管理、检索有两种类型【1 8 1 ,一种是搜索引擎( s e a r c he n g i n e ) , 它是“一类自动搜索、组织网络的信息资源,并提供检索服务的信息服务系统” 数据制定简单、方便,特别是它更新快,能帮助人们及时找到最新信息,但不够 精确,常常给出太多的结果,查全查准率低。另一种是机读目录( m a r c ) ,它 是“用计算机识别与阅读的目录”,由图书馆界及其他专业人员使用图书馆界的 著录标准著录而形成的。m a r c 结构严密,保证了一定的查准率,但这是一种复杂 的昂贵的需要有专业馆员才能完成的方法在这种形式下为了解决上述两种方法 的缺陷所造成的,不能有效管理与检索网络信息资源的矛盾,出现了一种新的方 式元数据。它为解决网上信息的整理、检索、控制和管理等问题提供了一种 新的方法 2 1 2 元数据定义 元数据【1 9 j 是描述数据的数据,是关于数据的结构化数据。它用于描述数据 的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等信息, 是数据与数据用户之间的桥梁。 元数据可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具, 为分布的、由多种资源组成的信息体系提供整合的工具与纽带。元数据也是数据, 其本身也可以作为被描述的对象,这时描述它的数据就是元数据。在信息系统中 一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、 1 4 第二二章元数据管理研究 或者一个虚拟的u r l 地址。元数据可以出现在:数据内部、独立于数据、伴随着 数据、与数据包裹在一起。 2 。2 3 元数据的分类 元数据按不同的标准,可以有不同的划分。从元数据在组织信息资源的功能 上区分,元数据被定义有以下几种类型: 描述型元数据:用来描述、发现和鉴别数字化信息对象,如m a r c 、都 柏林核心( d c ) ,它主要描述信息资源的主题、内容特征。 结构型元数据:描述数字化信息资源的内部结构相对知识描述型元数 据而言,结构型元数据更侧重于数字化信息资源的内在的特征,如目 录、章节、段落的特征 存取控制型元数据:用来描述数字化信息资源能够被利用的基本条件和 期限,以及指示这些资源的知识产权特征和使用权限。 评价型元数据:描述和管理数据在信息评价体系中的位置 1 9 9 8 年美国g e t 晡息研究所对元数据的专项研究成果,按功能将元数据划 分为管理型元数据、描述型元数据、保存型元数据、技术型元数据和使用型元数 据5 种类型【2 1 】: 管理型元数据:以管理资源对象为目的的属性元素,通常称为管理型元 数据,包括资源对象的显示、注解、使用、长期管理等方面的内容,例 如:所有权权限的管理、产生或制作时间和方式、文件类型、其它技术 方面的信息、使用或获取方面的权限管理等等 描述型元数据:用于描述一个文献资源的内容及其与其它资源的关系的 元数据。总体说来,可以认为元数据都是描述性的,但其中直接描述资 源对象固有属性的一些元素,常称为描述性元数据。例如资源的名称、 主题、类型等 保存型元数据:以保存资源对象为信息系统的开发目的,特别注重资源 对象长期保存有关的属性 技术型元数据:与系统功能相关的元数据或元数据行为模式。 第二章元数据管理研究 使用型元数据:与用户级别与类型相关的有关信息资源的元数据。 2 1 4 元数据管理的作用 数据网格中资源的提供者是分布的,资源的类型是多样的,它的表示和存储 形式也不相同。有的以文件的形式存储,有的存储在数据库或数据仓库中,有的 存储于多个分布式存储系统中。如何有效地组织和使用分布式环境中的异构数据 是数据网格中的关键技术。所以,在数据网格中要建立一个可扩展的、灵活的信 息服务体系结构 实现命名的透明性,数据网格需要有效管理大量的名字和属性之间的关 系,需要统一的全局命名。 实现位置的透明性,数据网格需要有效管理数据的定位信息和数据资源 的信息 实现访问的透明性,数据网格需要有效的管理系统资源的安全、访问控 制等信息。 而这些信息正是元数据描述的元数据可以用来描述以上资源的名字、属性 以及定位信息和安全访问控制信息。元数据可以为数据网格系统提供全局资源的 信息服务、数据的定位、属性的查找、数据的注册、系统资源信息的查询和维护、 数据的访问控制及用户管理,而且可以给用户和系统提供统一的访问接口和协 议 元数据管理包括元数据的命名和访问以及为用户提供统一的访问接口。数据 网格的所有元数据构成元数据目录,在元数据目录中应尽量采用统一的结构来描 述元数据元数据目录应该采取具有良好可扩展性的分布式、层次式结构,来满 足应用的发展 2 2 元数据管理分析 2 2 1s r b 的元数据管理 s r b 2 2 1 是一个连接网络上异构数据资源、访问副本数据集的客户一服务器中 1 6 第二章元数据管理研究 问件。如图2 1 所示,s r b 包括三部分:元数据目录服务( m c a t ) ,s r b 服务 器和s r b 客户端,它们通过网络互相连接。 m c a t l 2 3 1 是一个元数据目录系统,是数据密集型计算环境的一部分。它是 s r b 的主要组成部分。m c a t 存储s r b 中的数据集、用户和资源管理的元数据。 m c a t 负责处理信息查询、元数据的创建和更新。用户可以通过s r b 提供的a p i 可以向s r b 服务器发送请求和接收来自于s r b 服务器的响应。s r b 服务器负责 去执行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论