已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)基于网格技术的数据传输处理系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文首先介绍了网格计算的相关理论,明确了以开放网格服务架构作为网格的体 系结构;然后详细介绍了网格的数据传输系统,重点讨论了g l o b u s 工具包中的数据 传输模型的体系结构、g r i d f t p 数据传输协议和组件以及可靠的文件传输客户端。数 据传输的算法对于系统性能起着至关重要的作用,因此第四章讨论了对于传统的并行 算法的改进,提出了新的算法模型,描述了改进的算法,并给出了测试的结果。第五 章介绍了对于一般网格数据传输和处理系统的需求分析、总体框架设计、模块设计。 主要介绍了系统编程语言的选择、系统的运行环境、g l o b u st o o l k i t 工具包以及与网 格数据传输和处理密切相关的数据接口模块的实现。 关键词:网格计算网格数据传输并行数据传输 数据处理 a b s t r a c t a tf i r s t ,t h et h e s i si n t r o d u c e st h e o r ya b o u tg r i dc o m p u t a t i o na n dr e g a r d so p e ng r i d s e r v i c ea r c h i t e c t u r e 雒s y s t e ms t r u c to fg d ds y s t e m t h e nt h et h e s i si n t r o d u c e sg r i dd a t a t r a n s f e rs y s t e m ,v i e w i n gs y s t e ms t r u e to fd a t at r a n s f e rm o d e lo ng l o b u st o o l k i t ,g r i d f t p d a t at r a n s f e rp r o t o c o lm o d u l ea n dr e l i a b l ef i l et r a n s f e rc l i e n ta se m p h a s e s a r i t h m e t i co f d a t at r a i l s f e ri si m p o r t a n tt os y s t e mp e r f o r m a n c es ot h eb e t t e r m e n to ft r a d i t i o n a lp a r a l l e l a r i t h m e t i ci sd i s c u s s e di nt h ef o u r t hc h a p t e r i nt h i sc h a p t e r t h em o d e lo fn e wa r i t h m e t i ci s b r o u g h tf o r w a r d b e t t e ra r i t h m e t i ci sd e s c r i b e da n dt h er e s u l to ft e s ti se d u c e d i nt h ef i f t h c h a p t e rt h e r ei sr e q u i r e m e n t sa n a l y s i so fg e n e r a lg r i d b a s e dd a t at r a n s f e ra n dp r o c e s s s y s t e m ,c o l l e c t i v i t yf r a m ed e s i g n a n dm o d u l ed e s i g n i nt h i s c h a p t e rt h e r ei st h e p r o g r a m m i n gl a n g u a g ec h d i c eo ft h i ss y s t e m ,s y s t e mr u n n i n ge n v i r o n m e n t ,g l o b u s1 o o l k i t a n dt h ei m p l e m e n to f d a t ai n t e r f a c em o d u l ec o n c e r n i n gg r i dd a t at r a n s f e ra n dp r o c e s s k e y w o r d s :g r i dc o m p u t e rg r i dd a t at r a n s f e rp a r a l l e ld a t at r a n s f e rd a t ap r o c e s s 长春理工大学硕士学位论文原创性声明 本人郑重声明所呈交的硕士学位论文基于网格技术的数据传输 处理系统是本人在指导教师的指导下,独立进行研究工作所取得的 成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法 律结果由本人承担。 作者签名:丞立选3 竺2 年三月_ l f t 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士! 博士学 位论文版权使用规定”,同意长春理工大学保留并向国家有关部门或 机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人 授权长春理工大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学 位论文。 作者签名:丞挺垒一 指导导师签名: 泓 型! 年三月日 盈丑年卫月旦日 第一章绪论 1 1网格技术的国内外研究进展 1 1 1 网格国外研究进展 2 0 0 1 年8 月,美国国家科学基金委宣布了一个重大科研项目,研制称为“分布式 万亿级设施”的网格系统,简称t e r a g r i d 。t e r a g r i d 将是世界上第一个从设计开始 就面向网格的广域超级计算平台,将创立2 l 世纪信息技术的新标准,成为一种巨大 的国家资源。美国军方也正在规划一个宏大的“全球信息网格”,预计2 0 2 0 年完 成,而作为计划的一部分,美国海军已经先期启动一个1 6 0 亿美元的八年项目。欧盟 国家也在2 0 0 1 年启动了网格研究的一系列大项目。与美国同行一致的是,欧洲科学 家和政府认为网格是2 1 世纪信息技术重要的基础设施。欧洲人认为他们比美国更具 有优势,因为他们在传统的智能处理方面有多年的积累。英国政府己投入1 1 8 亿英 镑,今年,英国国家网格的主干网的速率将达到2 0 g 。 微软的n e t 计划可以看成网格应用的一种,它首先提出的“冰雹”计划也j 下是 致力于提供这样的服务;比如它可以在网上代理用户身份。事实上微软所做的事情只 是网格技术的一小部分而已。正如其对手s k i n 公司指出的那样:“微软的冰雹计划 只是沧海一粟”。s u n 也早已在开发一系列支持网格计算的软件,已经有9 1 个国家 的用户下载使用。i b m 公司则在2 0 0 1 年8 月启动投入4 0 多亿美元的“网格计算创新 计划”,全面支持网格计算。1 。i b m 认为网格是下一代因特网发展的趋势,具有战略 重要性。世界上一些大公司,如辉瑞、爱立信、日立、宝马等都已经在开始构造和试 用内部网格。 1 1 2 网格国内研究进展 从1 9 9 5 年开始,中国科学院计算所已经开始研究网格。特别是在网格的系统层 面,正在开发一个“网格计算协议”嘲,它将应用与网格资源连接起来,同时,也在 开发网格的系统平台,包括一个“网格浏览器”,一个资源路由器,一个网格服务器 软件。 中科院计算所的网格研究工作统称为“织女星网格”。在网格硬件层面,计算所 的主要工作是研究下一代曙光高性能计算机,它们将是面向网格的超级服务器;在网 格系统软件层面,计算所正在研究开发一个名为的网格计算协议堆栈,简称g c p ,以 及有效支持g c p 的织女星网格操作系统;在网格应用层面,计算所主要开展了信息 网格和知识网格的研究工作,科学计算类的应用网格研究则由合作伙伴完成。 1 1 3 网格发展的展望 未来网格将应该是构筑在互联网上的一组新兴技术“1 ,它将高速互联网、高性能 计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通老百姓提供 更多的资源、功能和交互性。互联网主要为人们提供电子邮件、网页浏览等通信功 能,而网格功能则更多、更强,能让人们透明地使用计算、存储等其他资源。互联网 实现了计算机硬件的连通,w e b 实现了网页的连通,而网格将实现互联网上所有资源 如计算资源、存储资源、通信资源、软件资源、信息资源、知识资源、应用业务资源 等的全面连通。网格要解决的信息共享不是一般的文件交换与信息浏览,而是要把所 有个人与单位连接成一个虚拟的社会组织,实现在动态变化环境中可以灵活控制的协 作式信息资源共享。网格与w e b 最大的区别是一体化。1 ,即用户看到的不是数不清的 门类繁多的网站,而是单一的入口和单一的系统映射。还有一些研究智能信息处理, 消除信息孤岛和知识孤岛,实现信息资源和知识资源智的共享。简单地讲,网格是把 整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信 息资源、知识资源、专家资源的全面共享。也可以构造地区性的网格,如高科技园区 网格、企事业内部网格、局域网网格,甚至家庭网格和个人网格。 网格的根本特征并不一定是它的规模”1 ,而是资源共享,消除了资源孤岛。由于 网格是一种新技术,它也就具有新技术的两个特征。第一,不同的群体用不同的名词 来称谓它。第二,网格的精确含义和内容还没有固定,而是在不断变化。 网格主要由高性能计算机、海量存储器及其它专用设备构成的网格节点,负责资 源调度、管理的系统软件,解决异构平台互操作的中间件,连接网格节点的宽带主干 网及可共享的应用和信息等部分组成。 网格研究的目标是将跨地域的多台高性能计算机、大型数据库、贵重科研设备、 通信设备、可视化设备和各种传感器等整合成一个巨大的超级计算机系统,形成强大 无比的广域虚拟计算环境”1 ,支持科学计算和研究。由于网格技术集中在动态的、跨 部门的资源共享上,因此网格技术是对现有的分布式计算技术的补充而不是替代。例 如,企业分布式计算系统能够使用网格技术实现跨机构界限的资源共享,能够为计算 和存储资源建立动态的市场,克服静态配置的局限性。 1 2 研究背景和意义 虽然国内外都在积极进行网格技术的各方面的研究,网格的发展势必也会对人们 的生产生活和科学研究产生深远的影响,然而,作为网格的重要应用领域的高性能科 学计算所产生的数据是相当惊人的0 1 ,可能达到千吉级别。这么多的数据不能保存在 一个计算机中心,需要存放在广域网上的多个站点,并且需要满足各地研究人员对数 据的共享需求。来自全世界8 0 多个国家1 5 0 0 多所大学及研究机构的6 5 0 0 多名科学 家,进行各种各样的实验,它们需要共享这些数据,对其进行分析、处理。因此,一 个公司、组织、研究团体都需要具备收集、管理、分析数据的能力,为工作人员提供 方便的、统一的传输和访问各种数据的方法。基于网格的数据传输和处理系统就为解 决上述问题提供了一个有效途径。 基于网格的数据传输和处理是计算网格的重要组成部分9 “”1 ,可以有效地解决在 网格计算环境中需要在地理上分散的各种动态资源如何动态地加入或离开不同的虚拟 2 组织,如何高速、安全地进行远程数据传输和处理,以及如何使网格应用程序方便地 使用各种资源的问题。 1 3 论文研究的主要内容 1 研究网格数据传输和处理相关理论,作重探讨了任何以网格技术为基础,在网 格平台下优化数据传输的方法。实现跨自治域的资源共享与资源协作,有效地满足 面向互联网的复杂应用对大规模计算能力和海量数据处理的需求。 2 研究了对于提高网格数据传输性能至关重要的并行数据传输的算法,并提出 了对于传统算法的改进,对算法的性能进行了测试。并通过在局域网下实现了以此算 法为基础的数据传输处理系统。新算法具有能够动态地适应各数据传输服务器传输性 能随时问的变化,并对其进行了测试,实践证明此算法可有效提高。 3 根据网格系统的特点分析了网格数据传输和处理的需求,并给出了系统的设 计框架和模块划分。在技术可行性阶段,我们发现网格的共享模式在理论上能够提供 给数据传输处理系统一个更佳的技术支持,所以以网格为技术基础的数据传输处理系 统被推入了技术攻关阶段。 4 讨论了系统中数据库接e l 的调用。网格数据传输系统的核心是将分布的数据 库资源抽象成能够被企业应用访问的网格资源。引入网格动态分配、松耦合的特性, 提供对分布的数据资源快速、可靠、透明的访问,使用户对远程计算机数据的访问如 同在本地一样。 5 研究了网格数据处理技术,实现了对元数据目录的简单管理和基于x m l 的数 据库访问的集成。以及利用网格技术提高内存数据库性能方法。 1 4 论文的组织结构 本文第一章介绍了基于网格的数据传输系统的研究背景和研究意义; 第二章主要讨论了网格计算的相关理论,包括网格体系结构、网格操作系统、网 格安全认证技术和网格使用模式设计: 第三章介绍了数据处理技术,主要介绍了g l o b u s 工具包中的数据传输模型的体 系结构、g r i d f t p 数据传输协议、g r i d f t p 组件和可靠文件传输客户端,讨论了数据 处理技术,包括了数据描述、数据复制、数据访问和集成; 第四章讨论了并行传输中的算法和改进,主要介绍了传统的算法、优化模型的建 立、改进算法的描述以及算法的性能测试; 第五章介绍了网格传输处理系统的设计,讨论了网格传输处理系统的需求分析, 总体框架、模块设计及网格传输处理系统在电力系统的应用实例,着重介绍了数据接 口模块的具体实现。 第六章为总结和展望。对全部工作进行总结,提出改进建议和对未来工作的展 望。 第二章网格技术相关理论 2 1 网格技术基础 2 1 1 网格技术概念 网格就是一个集成的计算与资源环境,或者说就是一个计算资源池1 。网格能够 充分吸纳各种计算资源,并将它们转化成一种随处可得的、可靠的、标准的同时还是 经济的计算能力。除了各种类型的计算机,这里的计算资源还包括网络通信能力、数 据资料、仪器设备甚至是人等各种相关资源。 这里给出的网格和网格计算的概念是相对抽象的,而且是广义的定义。狭义网格 的定义中的网格资源主要是指分布的计算机资源,而网格计算就是指将分布的计算机 组织起来协同解决复杂的科学与工程计算问题。狭义的网格一般被称为计算网格,即 主要用于解决科学与工程计算问题的网格。 2 1 2 网格的目的 网格是借助电力网的概念提出来的“,网格的最终目的是希望用户在使用网格计 算能力时,就如同现在使用电力一样方便。我们在使用电力时,不需要知道它是从哪 个电站输送出来的,也不需要知道该电力是通过什么样的发电机产生的。网格也希望 给最终的使用者提供的是与地理位嚣无关、与具体的计算设施无关的通用的计算能 力。 网格如同电力网一样,有覆盖范围广、组织资源多样的特点。网格也需要大量的 结点来维护网格的正常运转。网格的结构复杂,需要解决的问题也更多,但是它也会 给我们带来更大的便利和帮助。 2 2 网格体系结构 网格体系结构是网格的骨架和灵魂“,是网格最核心的技术,只有建立合理的网 格体系结构,才能够设计和建造好网格系统,才能够更有效地实现基于网格的数据传 输。因此,网格系统的体系结构是我们必须首先解决的问题。 网格体系结构就是关于如何建造网格的技术。它给出了网格的基本组成与功能, 描述了网格各组成部分的关系以及它们集成的方法或方式,刻画了支持网格有效运转 的机制。目前提出的体系结构有:五层沙漏模型、计算池模型、神经网络模型、节点 模型、开放网格服务体系结构等。 1 五层沙漏结构 五层沙漏结构是f o s t e r 等在早些时候提出的“。在五层沙漏结构中,一个最重要 的思想就是以“协议”为中心,也十分强调服务的重要性“。 根据该结构中各组成部分与共享资源的距离“”,将对共享资源进行操作,管理和 使用的功能分散在五个不同的层次:构造层、连接层、资源层以及应用层。其结构如 表2 - 1 所示。 4 表2 - 1 沙漏结构的五层结构 工具及应用 应用层 目录代理诊断与监控汇聚层 资源与服务的安全访问资源层 资源与服务的安全访问连接层 各种资源,比如计算机、 网络、传感器等 构造层 2 开放网格服务体系结构 开放网格服务体系是在以i b m 为代表的工业界的影响下“7 儿,在考虑到w e b 技 术的发展与影响后,f o s t e r 等结合w e bs e r v i c e 提出的开放体系结构“”,是继五层沙漏 结构之后最重要、也是目前最新的一种风格体系结构,被称为是下一代的网络体系结 构。 五层沙漏结构是以协议为中心的“协议结构”,而开放体系结构是以服务为中心 的“服务结构”。从层次结构上,开放体系结构架构从下到上可分四层:资源层、 w e b 服务层、基于开放体系结构架构的服务层、网格应用程序层。开放体系结构的架 构如表2 2 所示。 表2 - 2 开放体系架构 网格应用程序层 基于开放体系架构的网格服务层 w e b 服务层 资源层 ( 1 ) 资源层:资源的概念是网格计算的中心部分,构成网格能力的资源包括物理资 源和逻辑资源。物理资源包括服务器、存储器和网络;逻辑资源位于物理资源之上, 它们通过虚拟化和聚合物理层的资源来提供额外的功能。 陀) w e b 服务层:开放体系架构第二层w e b 服务层,有一条重要的原则;所有网 格资源都被建模为服务。并且规范定义了网格服务并建立在标准w e b 服务技术之上, 它利用x i v i l 与w e b 服务描述语言,为所有网格资源指定标准的接口、行为与交互。 进一步扩展了w e b 服务的定义,提供了动态的、有状态的和可管理的w e b 服务的能 力,这些是在对网格资源进行建模时都是必需的。 ( 3 ) 基于开放体系架构的网格服务层:为上层提供了基础设施基于架构的网 格服务。目前正在致力于在诸如程序执行、数据服务和核心服务等领域中定义基于网 格架构的服务。随着这些新架构的服务开始出现,开放网格体系结构将变成更加有用 的面向服务的架构。 ( 4 ) 网格应用程序层:随着时间的推移,一组丰富的基于网格架构的服务不断被开 发出来,使用一个或多个基于网格架构的服务的新网格应用程序不断出现。比较有代 表性的开发工具有c o gk i t s 、m p i c h g 2 、c o n d o r - g 、m y p r o x y 等,这些应用程序构 成了开放体系架构的第四层。 开放体系结构全面支持g l o b u s 和w e b s e r v i c e ,因此提倡采用开放体系结构。 2 3 网格操作系统 网格体系结构是网格系统的功能描述和资源管理的规则,而网格操作系统则是网 格系统资源的管理者。网格操作系统与传统操作系统管理的资源有点不同,它所管理 的是广域分布、动态、异构的资源,现有操作系统显然无法满足这一需求啪3 。 网格支撑平台g l o b u s 是一个构成网格基础设施的平台,它的作用相当于网格操 作系统。作为网格操作系统,g l o b u s 网格平台实现了以下主要功能和服务: 1 通信服务:g l o b u s 结合w e bs e r v i c e 技术,通过w e bs e r v i c e 中的协议标准 s o a p 、w s d l 、u d d i 等,为不同的应用目的提供不同服务,包括可靠的点对点和不 可靠的组播通信,支持各种通信协议,提供通信链路延迟、带宽和可靠性等指标。 2 信息服务:m d s 是g l o b u s 网格计算环境中的信息服务中心。它基于轻量级 目录访问协议,其处理的信息包括网格计算环境中的各种资源( 包括数据资源、计算 资源等) ,服务和其它主体,完成对网格计算环境中信息的发现、注册、查询、修改 等工作。 3 资源管理和调度:g l o b u s 通过g r a m 负责对资源规划语言信息的解析和处 理,实现远程应用的资源请求处理、远程任务调度处理、远程任务管理等工作。 4 安全认证:g s i 是保证网格计算环境安全性的核心部分。g s i 负责在广域网下 的安全认证和加密通信,提供单点登录功能、远地身份鉴别功能、数据传输加密功能 等。 5 数据管理:g l o b u s 的数据管理主要包括远程数据传输、远程文件i o 等。主 要的组成部分有:全局二级存储服务、g r i d f t p 和g l o b u s 复制管理等。通过g a s s 可 化在g l o b u s 环境中应用程序对远程i o 的操作,使得使用u n i x 和标准c 语言i o 库 的应用程序基本不用改变就可在g l o b u s 环境中执行。g r i d f t p 支持第3 方传输、断点 续传、并行传输,是网格计算环境中的数据传输工具。g l o b u s 复制管理通过把部分相 关数据智能地放置在离科学应用程序最近的位置,使得科学应用程序可快速地对数据 进行访问。 6 编程工具:g l o b u s 平台提供丰富的用户接口、编程环境和一些函数库,在平 台之上可以使用常用的语占( 如j a v a ,c + + ,c 捍,m p i ,p v m 等) 进行网格应用开发。 2 4 网格安全认证技术 网格的安全认证是网格的难点,也是系统成败的关键。在资源全面共享和站点协 6 同工作的网格系统中,网格必须为站点管理者提供访问控制等安全管理机制,以确保 信息的保密性、完整性和确定性。一个理想的网格安全体系结构应该可以逻辑划分为 以下五层“,( 如表2 - 3 所示) 表2 - 3 网格安全体系结构 网格安全应用层 网格安全协议层 安全抽象层 系统和网络安全技术层 结点和网络传输层 为了保证在网格中各个管理系统和层面上都有安全保障,通常需解决如下的关键 问题:用户单点登录、用户与资源属性、资源的动态性、环境的异构性、任务的多样 性等安全认证问题。 2 5 数据传输系统概述 上一节介绍了网格计算的相关理论,从中可以看出,网格计算系统的各项功能的 实现都离不开基于网格的数据传输。数据传输是网格体系结构的服务层,负责为上层 提供各种数据的传输服务;网格操作系统中数据传输也是重要的部分:安全性好的数 据传输系统也能为网格计算系统的安全提供必要的支持。因此,在现有的网络环境 下,如何设计一个好的数据传输系统已经成为高性能网格计算系统开发的关键。 一直以来,我们所熟悉的数据传输模型大多都是c s 模式,有较好的跨平台性, 但是在传输性能上并不理想,而且使用模式也比较单一,使得一些情况下数据的传输 和部署很不方便。主要存在以下主要问题: 1 资源定位困难:用户不得不借助第三方工具进行资源定位; 2 数据描述不充分:导致资源定位困难,同时难以避免不必要的数据冗余; 3 服务器负荷不均衡:服务器之间相互独立,大量缺乏服务器位置信息的用户 可能访问少数服务器,导致这些服务器负荷沉重,而其它的服务器则利用不足; 4 数据传输速率不能满足需求:数据传输受到用户数、网络稳定性等因素的影 响。 这些问题的根源在于单个f t p 服务器的独立性。独立的一台f t p 服务器能力总 是有限的,然而多台f t p 服务器之间又没有必要的联系,这必然导致用户与f t p 服 务器、服务器与服务器之间的定位和性能问题。 从使用者的角度看一个好的数据传输模型要具备以下几点特征2 1 : 1 较好的传输性能。包括传输速度,安全性和可靠性等方面的因素。 2 支持异构的系统。即操作系统的异构性,通常情况下指w i n d o w s 和类u n i x 7 系统的互访。 3 使用方便。支持多种使用模式,如本地的上传、下载,第三方控制的数据传 输,更进一步,支持“提交作业”式的传输,即用户可以将传输请求提交给一个代 理,随即退出系统,由代理负责完成第三方传输。 为此,g l o b u s 项目组自己开发了新的数据传输协议一g r i d f t p 口3 “3 ,提出了 g r i d f t p 系统的概念。它的基本理念是将原本独立的f t p 联结起来成为一个整体,形 成所谓g r i d f t p 系统。从用户角度看,他面对的是一个超级f t p 服务器,可以随时高 性能地检索和获取所需数据;从系统内部看,系统由大量f t p 服务器组成,这些服务 器由g r i d f r p 系统统一协调组织。g r i d f t p 系统使数据传输的性能得到了明显的提 高,并且在g r i d f t p 的上层和w e bs e r v i c e 相结合,提出了可靠文件传输协议服务的 概念,简称r f t ,进一步提高了数据传输的可靠性”。 2 6 网格工具包中的数据传输模型 2 6 1 模型体系结构 g l o b u s 中为进一步提高数据传输的可靠性。1 ,在g r i df t p 的上层引入了r f t 服 务和后台数据库的支持,模型的结构如图2 1 所示。 图2 1g l o b u s 中的数据传输模型 c l i e n t 是用户控制传输的客户端,g l o b u s 中分别为g r i d f t p 和r f t 服务提供了各 自的客户端。 r f t 服务是一个网格服务,它负责接收客户端的传输请求,将请求存入数据库, 控制g r i d f t p 服务器进行数据传输,保存传输状态信息,向用户返回传输状态。 数据库用来存储客户端发来的传输请求和文件传输的状态,当发生网络故障或其 它原因导致传输失败后,在r f t 处理新的传输请求或重启r f t 服务之后可以根据数 据库中存储的信息进行恢复,提高传输的可靠性。 8 2 6 2 几种传输协议的比较 1 f r p ( f i l et r a n s f e rp r o t o c 0 1 ) 协议。专门用于数据传输的协议, 它遵循 r f c 9 5 9 ,目标是促进文件共享( 包括计算机程序和数据) ;鼓励直接或通过程序使 用远程计算机;可靠有效地传输数据。r f c 9 5 9 定义的文件传输协议被r f c 2 2 2 8 、 r f c 2 6 4 0 、r f c 2 7 7 3 等更毅。其中,r f c 2 2 2 8 是f t p 的安全扩展;r f c 2 6 4 0 对f t p 进行了国际化;r f c 2 7 7 3 是用k e a 和s k i p j a c k 对文件传输加密。s f t p ( s e c u r e f t p ) 使用加密方式传输认证信息和数据,如果对网络安全性要求更高,则可以使 s f t p 代替f r p ,但它的传输效率比普通的f t p 要低得多,通常用于传输小型敏感数 据。 2 h t t p ( h y p e r t e x tt r a n s f e rp r o t o c 0 1 ) 协议是万维网w w w ( w o r l dw i d e w e b ) 的基础,在r f c 2 6 1 6 中定义。它是一个简单的协议,客户进程建立一条同服务 器进程的t c p 连接,然后发出请求并读取服务器进程的响应,服务器进程关闭连接表 示本次响应结束。 3 b b f t p 是一个传输大型文件的f t p 软件,同时它也是基于f t p 协议的一种新 的数据传输协议。它能在高性能终端个人电脑之间可靠地传输和存储数据,尤其用来 优化传输大型文件( 超过2 g b ) 。因为b b f t p 实现了r f c l 3 2 3 ( t c p 高性能扩展) 中定义的“大窗口”,使之更适合传输大文件,而不适合用来传输小文件。 以上协议或软件部分重要特征的对比如表2 - 4 所示。 表2 4 协议或软件部分重要特征的对比 第三方断点 t c p 流窗口加密部分传输 传输续传 g s i 加 g r i d f t p 多流自动协商支持支持支持 密 用户名 b b f t p 多流大窗口没有实现 支持没有实现 和密码 需编程支 f t p单流 固定s f r p支持 支持 持 需编程支 h t t p单流固定h r i p s 不支持支持 持 2 ,6 ,3 网格数据传输协议 g r i d f t p 是由g l o b u s 工作组开发的一种安全可靠的高性能网格文件传输协议。它 基于标准的f t p 协议,并针对高带宽广域网环境迸行了优化,用来解决网格环境下 的统一数据传输。 9 为了满足网格的需要,g r i d f t p 在f t p 的基础上增加了一些新的特征。表2 - 4 中 的对比说明了g 矗d f t p 协议适应网格环境多样性的特点: 1 网格大都运行在广域网环境中,这就需要更高的带宽。使用多个t c p 流( 即 并行传输) 可以更充分地利用并提高传输带宽。而g r i d f t p 中修改了r e t r 指令以使 它可以指定t c p 流的数目,同时引入了e b l o c k ( e x t e n d e db l o c k ) 模式( 包括8 位 标志符、6 4 位长度、6 4 位偏移量和数据) ,以支持并行传输、部分传输和带状传 输。 2 窗口大小是t c p i p 中获取最大带宽的关键参数,针对不同的网格环境、文件 大小和文件集类型应该设置不同的值。使用最优的t c p 缓冲区窗口大小可以有效地提 高数据传输性能。g r i d f t p 增加的新指令s b u f 和a b u f ,就是分别用来手工指定和 使用某种算法自动调整t c p 缓冲区窗口大小。 3 安全认证是网格计算的重点和难点。g l o b u s 中g s i ( g r i ds e c u r i t y i n f r a s t r u c t u r e ) 使用p k i 、x 2 5 和s s l 作为整个安全系统的基础,分为授权、双重认 证、私有通信、安全私钥、代理和单一系统登录部分,建立了非集中管理的、包括多 个不同组织的安全系统。而g r i d f t p 支持g s i 和k e r b e r o s 认证,以满足用户控制不同 层次上的数据完整性及保密性设定的要求。 4 大规模的分布系统拥有大量的数据集,在存储服务器间进行第三方控制的传 输是很有必要的。用户可以启动和监控两台服务器间的数据传输,为使用多点资源提 供了保障,而且无需进行数据中转。g r i d f t p 在原有f t p 标准第三方传输的功能上添 加了g s s a p i ( g e n e r i cs e c u r i t ys e r v i c ea p i ) 安全机制。如图2 2 所示,第三方监控可 以收集数据传输过程中发送端的控制信息,并检测数据接收端的传输状态。数据经过 复制后存在多个副本,如果发送端出了故障而导致传输不成功,可以在第三方监控下 保留传输状态和控制信息,以便在连接重新建立以后进行续传,或者重定向到其他副 本重新进行数据传输。 控制信息赢 l 第三方 爿莩箬嚣 发送端 网格数据传 输服务器 取代 数据传输 传输状态 图2 2 数据传输的第二方监控 1 0 困 l 输实例l 接收端 网格数据传 输服务器 另外,在数据传输过程中,可以根据网格信息服务提供的节点运行状态制定相应 的策略,使网格可以根据服务器的负载轻重自动调整服务器的连接,选择从负担较轻 的服务器上下载文件,以达到负载的合理分配。 许多时候网格计算只需要文件中的部分数据或者一个数据子集,f t p 和h t t p 协 议只支持从某一偏移量开始到整个文件末的传输,而g r i d f t p 使用e r e t 、e s t o 等 命令可支持部分文件传输。同时网格的特殊性也使得连接状况较难预测,因此传输中 断后的恢复必不可少,而g r i d f t p 保留了f t p 协议中的断点续传功能。 g r i d f t p 除了具有以上在普通数据传输机制上的性能和功能改进外,还有如下特 性: 带状传输使用多个t c p 流来传输分布在多个服务器上的数据,因为在网格中数据 往往会分布在多存储点上,这样就可以大大增加客户端传输带宽,提高速率。 c r r i d f t p 使用扩展的r 翻限指令,并有分区和分块两种策略来进行带状传输,s p a s 、 s p o r 命令可分别用来设置被动和主动模式。 2 6 4 网格数据传输组件 c , - r i d f t p 的a p i 以两大类的形式提供给用户:g l o b u st i p 和_ c o n t r o l g l o b u s _ f t p _ c l i e n t 。g l o b u s _ f t p _ e o n t r o l 实现了与控制信道相关的a p i ,包括g r i d f t p 的 连接管理、认证、创建和控制数据信道,从数据信道读写数据。而g l o b u s 肋_ c l i e n t 库,则实现了g r i d f t p 客户端的a p i ,在g l o b u s 邱库的基础上,实现了客户_ c o n t r o l 端的一些高级特性,包括文件的g e t 与p u t 操作、并行传输中并行t c p 流数目的设 置、部分文件传输、第三方文件传输操作,以及t c p b u f f e r 大小的设置等。 2 6 5 可靠文件传输协议客户端 g r i d f t p 已经成为网格数据传输事实上的标准,不足之处有以下两点:一是没有 提供w e b 服务的访问接口:二是g r i d f t p 客户端和服务器之间必须持续相连,保持一 个类似s o c k e t 套接字的控制通道的通畅,才能进行数据传输。”。 可靠文件传输r f t 是继g r i d f t p 后开发的组件,它对g r i d f t p 上述两点不足散了 改进,具备了更高的可靠性。r f t 在使用g r i d f t p 协议进行数据传输时,可以存储服 务实例的软状态,以此来取代使用第三方监控传输的方法,如图2 2 数据传输的第三 方监控所示。服务实例的软状态是指服务实例在创建时被赋予初始生命周期,以此来 确定一个服务什么时候可以或应该被终止。 第三章数据处理技术 由第二章讨论的网格的相关理论可知,网格系统的各个方面都是以数据的传输和 处理为基础。而且对于异地分布、海量数据的网格系统来说,其对数据的传输和处理 的性能会直接影响网格系统性能。因此本章主要讨论与数据传输和处理相关的网格数 据管理技术。主要包括,数据描述、数据复制和数据的访问和集成技术。 3 1 数据描述 网格应用系统必须具备访问和管理数据的能力,一方面要求能够传输大量静态和 实时的数据,另一方面要求能够提供数据的内容和位置信息,以便透明的访问数据。 在计算机上进行检索查询、数据处理、辅助管理决策和科技工程计算时,经常要通过 数据库的注释或说明,了解所用数据的意义、性质、存储格式及检索查询方法等内 容,这就是在使用“元数据”曙8 1 。 根据网格数据管理的结构,主要的元数据信息有:系统元数据,用来记录节点自 身的结构信息,如c p u 信息、内存使用情况、硬盘使用情况等;应用元数据,是与 具体应用相关的文件信息记录,可以包括文件名、文件编号、文件大小、文件所有 者、文件创建时间等信息。复制元数据用来记录与数据副本有关的信息”,如文件与 具体存储系统之间的映射信息。这些元数据的结构必须有很好的适应性,需要支持尽 可能多的数据类型。 网格数据管理中采用数据访问与集成接口实现了对异构数据源的透明访问,包括 数据源元数据访问,以及对逻辑业务操作数据读写访问3 。为实现对数据源的元数据 管理,数据源的连接类型( o d b c 、o l e d b 、j d b c 、n a t i v e ) 、连接字符串,以及数 据结构信息都以元数据的形式存储于数据库中方便用户访问。其中,数据源可以是数 据库系统、文件系统、大规模存储系统、或者磁盘缓存等。从网格管理的角度看,不 是所有数据源都长久存在的,数据源可以随着网格系统的变化动态生成和动态取消, 并且可以快速地自动安装、配置、删除、移动数据源。 3 ,2 数据复制 3 2 1 数据复制概述 复制管理主要针对大型远程数据文件的访问。复制管理主要管理数据集合拷贝的 完整复制或部分复制。“。复制管理服务的功能包括:创建全部或部分文件集合的新拷 贝;在复制目录中注册这些新的拷贝;允许用户和应用程序查询复制目录来得到所有 存在的部分或全部文件集合的拷贝。 1 2 应用层 二蔓堕垂堕互 汇聚层 资源层 医巫圃匝塑圃匝亟圃 连接层 二! 亟三至堕 构造层 图3 1 复制管理服务在网格体系结构的位置 复制管理服务在网格体系结构中的汇聚层,复制管理独立于具体存储系统的存储 技术和数据传输协议m 1 。复制管理服务的组件主要包括:复制管理、元数据管理、复 制选择和复制与分布式目录管理。 图3 1 说明网格体系在每一层的组成列表,最底层的构造层是建立网格的基本组 成,包括存储系统、网络和计算系统。构造层有两个与复制目录服务相关的组件:元 数据目录保存与文件相关的描述性信息,复制目录保存由复制管理组件注册的复制信 息。连接层是不同的关于通信和认证的标准协议。在资源层上是管理单个资源的服 务。在体系的汇聚层是管理多种资源的高级服务,包括本文的中心复制管理服务。在 汇聚层的其他服务提供资源发现或性能评估的信息服务。 3 2 2 复制管理的组件 复制管理服务主要包括的组件有:元数据目录、副本定位索引和本地副本目录。 元数据目录主要保存与文件相关的描述性信息。”,而副本目录保存用户向复制管理服 务注册的副本信息。副本管理体系结构中的数据模型是基于文件的,即数据是按照文 件来组织的。元数据目录的内容主要是指单个的文件或者是多个文件经过压缩后的单 个文件,也包含大量的集合,即一组文件。一个副本文件或目录可以作为是一个集合 的子集,被存储在一个特定的物理存储系统中,集合中的子集会有重叠。副本目录实 际上就是一个关于全局文件目录系统的元信息组织结构。文件是按照逻辑集合、副本 目录、逻辑文件这样的层次关系来组织目录信息的。对于一个需要共享的数据文件, 将会在副本目录中定位到一个集合下属的逻辑文件,它的每一个物理备份都会被映射 到相应的目录中。 图3 2 数据复制服务组件 如数据复制服务组件图3 2 中显示,客户端详细地描述所需数据的属性,并将属 性的描述传输到元数据目录。元数据目录根据程序提供的属性描述,查询包含这些目 录的索引,得到一系列包含描述特性的数据逻辑文件列表,用户可以从不同的刻面即 数据划分中查询所需要的信息。“。复制目录表返回这个逻辑文件列表,把逻辑文件名 传给复件管理服务,由复件管理服务返回需要的所有逻辑文件拷贝的物理位置。位置 项主要包含访问副本的u r l 表示,此外还包括t n 本所在物理存储系统的信息( 如主 机名、端口号和协议等) 。当新建一个副本的时候,客户端需要向副本目录注册副本 位置和逻辑文件名等信息;当副本被删除的时候,也应删除相应的注册信息。注册成 功后,用户根据查询返回的u r l 链接地址访问查询的副本。 3 2 3 元数据目录表 用户需要对集合进行操作,进行副本复制的内容常常是包含一定数量的数据的集 合。与这个集合对应的元数据信息需要对副本目录信息进行调整,用于映射逻辑文 件集合到特定的物理实体,使得用户可以方便的通过u r l 访问特定集合中的特定的 文件。元数据目录表基本结构如下: l f n逻辑文件名,逻辑文件项包含数据信息的全局唯一的逻辑i d 。 p f n 物理文件名副本物理存储位置 i n i tt i m e文件存在的初始时间 r e f 打文件被引用计数 s i z e文件大小 m o d e打开的模式 w r i t e o v e r 是否写完 1 4 b u s y 是否忙碌 使用副本定位服务对元数据目录表进行查询的步骤: 1 确定这个副本定位服务是否在运行g l o b u s r l s a d m i n pd s :s r v ; 2 初始化物理文件名到逻辑文件名的映射 蕾o b u s r l s e l ic r e a t el o g i c a l n a m et a r g e t n a m e ! d s :m y r l s u n i e d u 3 添加同样的逻辑名给第二个副本 g l o b u s r l s e l ia d dl o g i c a l n a m et a r g e t n a m e 2r l s :m y r l s u n i e d u 4 根据逻辑名查询副本情况,将会返回副本的信息 g l o b u s d s e l iq u e r yi r el f nl o g i c a l n a m ed s :s r v 5 做一个添加元数据目录信息的操作,对象必须是物理或逻辑文件名,对象类 型是l m 或者p f n ,属性类型可以是这几种:d a t e ,f l o a t ,i n t ,o rs t r i n g g l o b u s d s c l i a t t r i b u t ea d d 6 更改元数据目录的信息 a t t r i b u t em o d i f y 副本管理的a p i 形式还有:g l o b u s _ r e p l i c a _ c a t a l o g 模块提供给数据目录的是物理 文件,逻辑文件,集合及其属性的访问接口。g l o b u s _ r e p l i c a _ m a n a g c m e n t 模块管理远程存储系统中文件的放置及它们在复制目录中的位置。以上的客户端 对元数据目录表的操作可以用c a p i 或j a v a a p l 来实现,以下是c a p i : 西o b u sd sc l i e n t h 头文件 g l o b u s | l 蔫涟m o d u l e a c t i v a t e ( g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 杭州联合银行秋招真题及答案
- 国家农业信贷担保联盟校招笔试题及答案
- 国机集团招聘面试题及答案
- 公务员考试思维导向试题及答案
- 工业机器人运维招聘面试题及答案
- 2025广西壮族自治区环境信息中心招聘编外聘用人员(第二批次)2人参考题库及参考答案详解1套
- 2026年江苏工程职业技术学院单招职业倾向性考试必刷测试卷新版
- 2026年陕西能源职业技术学院单招职业倾向性测试题库完美版
- 2026年天津城市职业学院单招职业技能测试必刷测试卷含答案
- 2026年福建林业职业技术学院单招职业适应性考试题库含答案
- 气瓶基础知识及安全附件
- 2024水利水电工程模袋砂围堰技术规范
- 灿华环保科技12万吨废塑料资源循环利用生产基地项目环评报告
- 拉线塔施工方案
- 大型活动安保服务投标方案
- 《好脏的哈利》绘本故事
- GB/T 20490-2023钢管无损检测无缝和焊接钢管分层缺欠的自动超声检测
- 常见疑似预防接种异常反应诊治原则课件
- 动火证施工现场动火证申请书
- 八年级数学上册整式的乘法多项式乘以多项式
- YS/T 781.4-2012铝及铝合金管、棒、型材行业清洁生产水平评价技术要求第4部分:氟碳漆喷涂产品
评论
0/150
提交评论