




已阅读5页,还剩143页未读, 继续免费阅读
(计算机应用技术专业论文)大规模分布式存储技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电子科技大学博士学位论文 摘要 随着i n t e m e t 和网络应用的普及和飞速发展,分布式存储技术取得了长足 的进步,同时也面临巨大的挑战:日益增加的用户数量,数据分布的地域空间 更加广阔,数据存储量爆炸性增长,越来越高的数据可靠性要求以及访问数据 的设各种类日益增多等。如何构建大规模、高效率、易于扩展、高可靠的存储 系统,是分布式存储技术迫切需要解决的问题。 本文从如何提供大规模、高可用、高效率分布式存储服务的角度出发,在 对分布式存储领域的最新研究成果进行了系统、全面的学习和总结的基础上, 对分布式协作存储、i n t e r n e t 范围内的大规模分布式存储两个方面进行了深入细 致地研究,取得了若干创新和成果。 本文的主要创新点包括: 1 、提出了一种分布式协作存储机制一c o 、s t o r e 。c o s t o r e 将各节点的空闲 磁盘空间组织成一个统一的存储池,通过节点之间的相互协作实现数据的容错 和共享。c o s t o r e 以p 2 p 完全图拓扑结构组织节点,采用多目录树名字空间、 分片冗余以及并行传输等机制为用户提供高效、可靠的存储服务。 2 、提出了一种基于p 2 p 的海量存储机制g s t o r e 。g s t o r e 采用具有高扩展 性的p 2 p 体系结构,将大量分散的节点组织成一个逻辑网络,以此构建面向 i n t e r n e t 的大规模分布式存储系统。g s t o r e 采用动态p 2 p 路由机制、优化的数 据分布策略、自适应的副本管理以及并行传输机制为用户提供高效、可靠的存 储服务。 3 、提出了一种p 2 p 动态路由机n i j - - d y n r o u t e 。d y n r o u t e 针对常用p 2 p 路 由算法依赖显式的静态i p 地址的问题,解耦全局节点号与i p 地址,引入分布 式地址映射服务,保证动态地址环境中的正确路由和对象定位。地址映射服务 及时检测节点i p 地址的变化,完成节点全局标识号n i d 到节点当前1 p 地址的 映射,并为地址映射( n i d ,i p 引入安全认证机制,防御i p 欺骗。 电子科技大学博士论文 4 、提出了种分布式数据存储模型。该模型从分布式数据存储的基本需求 抽象出描述数据存储策略的性能指标,通过分析和计算各种数据存储方式的性 能,为分布式数据存储建立了评价和决策机制,并用多面体视图描述了各种数 据分布策略。该模型指导数据如何在节点之间分布,并以较合理的代价满足应 用需求。 5 、提出了一种自适应副本管理机制一a d p r e p l i c a 。a d p r e p l i c a 描述了数据 可用性、数据一致性维护开销二者和文件副本数的关系,以此建立自适应的副 本约束机制。该机制综合考虑用户对可用性、访问效率的需求以及数据一致性 的维护开销,对副本的数目进行动态管理,它既能提高数据可用性、降低访问 延迟、避免h o ts p o t s 的产生,又能减少维护数据一致性的带宽消耗,为用户提 供了较好的存储服务。 关键词:分布式存储,p 2 p ,动态路由,数据存储模型,自适应副本管理 电子科技大学博士学位论文 a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n t e m e ta n dn e t w o r ka p p l i c a t i o n ,t h e d i s t r i b u t e ds t o r a g et e c h n o l o g yh a sm a d eg r e a tp r o g r e s s h o w e v e r , i ti sc o n f r o n t e d w i t hg r e a tc h a l l e n g e ss u c ha st h ei n c r e m e n t a ln u m b e ro f u s e r ,t h eb r o a d e ra r e a so f d a t ad i s t r i b u t i o n ,t h es h a r pi n c r e a s ei nt h ea m o u n to fd a t as t o r a g e ,t h em o r ec r i t i c a l r e q u i r e m e n to fa v a i l a b i l i t y , a n dt h er a p i de x p a n s i o ni nt h et y p e so ft h ee q u i p m e n t s , a n ds oo n h o wt oc o n s t r u c tad i s t r i b u t e ds t o r a g es y s t e mw i t hl a r g e - s c a l e ,e f f i c i e n c y , e x t e n s i b i l i t y , a n dr e l i a b i l i t yi sas u b j e c tt h a tn e e d s t ob er e s o l v e du r g e n t l y t h i sd i s s e r t a t i o ne x p l o r e st h et e c h n o l o g yo fd i s t r i b u t e dd a t as t o r a g et op r o v i d e h i g h a v a i l a b i l i t ya n dh i g h p e r f o r m a n c ed i s t r i b u t e ds t o r a g es e r v i c e b a s e do nt h e s y s t e m a t i c s u m m a r i z a t i o no ft h er e l e v a n tw o r ko nd i s t r i b u t e dd a t as t o r a g e ,t h i s d i s s e r t a t i o n ,n o to n l yc a r r yar e s e a r c ho nt h ed i s t r i b u t e dc o o p e r a t i v es t o r a g ea n dt h e i n t e m e to r i e n t e dl a r g e s c a l ed i s t r i b u t e ds t o r a g e ,b u ta l s om a k e ss e v e r a li n n o v a t i o n s a n da c h i e v e m e n t s w h i c hw i l ib ei l l u s t r a t e di nd e t a i la sf o l l o w s t h eb r e a k t h r o u g ho ft h i sd i s s e r t a t i o nc o u l db ee m b o d i e di nt h e f o l l o w i n g s e v e r a lr e s p e c t s : 1 、t h i sd i s s e r t a t i o n p r e s e n t s ad i s t r i b u t e d c o o p e r a t i v es t o r a g e m e c h a n i s m : c o s t o r e c o - s t o r ec o n s o l i d a t e sd i s ks p a c eo fi n d i v i d u a ln o d ei n t oas i n g l es t o r a g e s p o o la n di m p l e m e n t sf i l e s h a r i n ga n d f a u l t - t o l e r a n c et h r o u g ht h ec o o p e r a t i o no ft h e n o d e s ,i nw h i c han o d ep r o v i d e sa sw e l la ss h a r e ss e r v i c e c o s t o r ep r o v i d e su s e r s w i t hh i g h - p o w e r e d ,r e l i a b l es t o r a g es e r v i c eb yn a m es p a c eo f m u l t i p l ed i r e c t o r y t r e e , a n dm e c h a n i s mo fr e d u n d a n tf r a g m e n ta n d p a r a l l e lf i l et r a n s f e r 2 、t h i sd i s s e r t a t i o n p r e s e n t s ap 2 pb a s e dm a s s i v e s t o r a g e m e c h a n i s m : g s t o r e g s t o r ec o n s o l i d a t e sl a r g en u m b e r so f n o d e sd i s t r i b u t e do nt h ei n t e m e ti n t oa s i n g l el o g i cn e t w o r ka n dc o n s t r u c t sa l li n t e m e to r i e n t e dd i s t r i b u t e dm a s s i v es t o r a g e s y s t e mu s i n gh i g h l ys c a l a b l ep 2 pa r c h i t e c t u r e g s t o r ep r o v i d e su s e r sw i t he f f i c i e n t , d e p e n d a b l es t o r a g e s e r v i c e t h r o u g hd y n a m i c r o u t e m e c h a n i s m ,o p t i m a l d a t a d i s t r i b u t i o n p o l i c y , a d a p t i v er e p l i c am a n a g e m e n t ,a n dp a r a l l e l f i l et r a n s f e r ,j i i 电子科技大学博士论文 m e c l l 8 x l _ l s m 3 、t h i sd i s s e r t a t i o n p r e s e n t s ap 2 p d y n a m i c r o u t em e c h a n i s m : d y n r o u t ed y n a m i ci pa d d r e s s c a u s e sp r o b l e mf o rt h et a p e s t r yo v e r l a yn e t w o r k , w h i c hr e l i e so ns t a t i ci pa d d r e s s a i m i n ga tt h i si s s u e ,d y n r o u t ed e c o u p l e st h e g l o b a lu n i q u ei d e n t i f i e r o fan o d ew i t hi t si pa d d r e s s ,a n di n t r o d u c e sd i s t r i b u t e d a d d r e s sm a p p i n gs e r v i c et oi m p l e m e n tc o r r e c tr o u t ei nd y n a m i ca d d r e s se n v i r o n m e n t , s ot h a t p e e r s a d d r e s sc h a n g ec a r lb ed e t e c t e di nt i m ea n dt h en o d ei dc a nb e m a p p e d i n t oi t sc u r r e n ti pa d d r e s s d y n r o u t ea l s ou t i l i z e sas e c u r i t ya u t h e n t i c a t i o n m e c h a n i s mt op r e v e n tt h ea d d r e s sm a p p i n g f r o mi ps p o o f i n g 4 、t h i sd i s s e r t a t i o np r e s e n t sad i s t r i b u t e dd a t as t o r a g em o d e l t h em o d e l d e f i n e ss e v e r a l p e r f o r m a n c ep a r a m e t e r s t od e s c r i b ed a t ad i s t r i b u t i o n p o l i c y a c c o r d i n g t ot h eb a s i c r e q u i r e m e n t o fd i s t r i b u t e d s t o r a g e ,a n d e s t a b l i s h e s a l l e s t i m a t i o na n dd e c i s i o nm e c h a n i s mb ya n a l y z i n gt h ep e r f o r m a n c eo fv a r i o u sd a t a d i s t r i b u t i o np o l i c i e s i nt h i sm o d e l ,t h ed a t ad i s t r i b u t i o np o l i c y i sd e s c r i b e di na p o l y h e d r o nv i e w t h em o d e lc a ns u g g e s ta no p t i m a l d a t ad i s t r i b u t i o n p o l i c yt o a c q u i r es a t i s f a c t o r ys t o r a g es e r v i c e a tt h el e s sc o s t s 5 、t h i sd i s s e r t a t i o np r e s e n t sa na d a p t i v er e p l i c am a n a g e m e n tm e c h a n i s m : a d p r e p l i c a a d p r e p l i c a c o n s t r u c t sa n a d a p t i v e r e s t r i c t i o nm e c h a n i s mr e g a r d i n g a v a i l a b i l i t ya n dc o n s i s t e n c ym a i n t e n a n c eo v e r l o a da sf u n c t i o n so f af i l e s r e p l i c a n u m b e r a d p r e p l i c ad y n a m i c a l l ym a n a g e sr e p l i c aa n d m a i n t a i n sar a t i o n a ln u m b e r o fr e p l i c a ,w h i c hn o to n l ys a t i s f i e sf i l ea v a i l a b i l i t y , i m p r o v e sa c c e s se f f i c i e n c ya n d b a l a n c e so v e r l o a d ,b u ta l s or e d u c e sb a n d w i d t hr e q u i r e m e n t ,k e e p st h es y s t e ms t a b l e a n dp r o v i d e ss a t i s f a c t o r ys t o r a g es e r v i c e k e y w o r d s :d i s t r i b u t e ds t o r a g e ,p 2 p , d y n a m i c r o u t e ,d a t a s t o r a g e m o d e l , a d a p t i v er e p l i c am a n a g e m e n t i v - 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确地说明并表示致谢。 签名:佩耆衿 日期:渺阵6 月p 目 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 日期: 电子科技大学博士学位论文 第一章绪论 1 1 分布式存储技术现况 数据存储技术起源于7 0 年代的终端,主机计算模式,当时数据集中存放在 主机上,因此数据存储的核心是主机上高效率的文件系统。 随着8 0 年代以后客户机服务器计算模式的普及,网络上的文件服务器和 数据库服务器通常成为核心数据聚集的地方。同时,在网络上分布的客户机也 会存放一些数据。这种情况导致了数据的分散性,推动了数据存储技术向分布 式数据存储发展。 随着i n t e m e t 的出现和普及,分布式数据存储技术发生了革命性的变化。 这种变化主要表现在以下方面: 1 、数据分布的地域空间更加广阔。i n t e r n e t 是连接着全世界的网络,它的 出现使在世界任何地方的用户可能访问世界另一个角落的数据,这导致了数据 存储的地域空间空前扩大。同样,一个企业也可能使用i n t e r n e t 技术来构建企 业内部的分布于全球的i n t r a n e t ,这导致企业必须能够处理分布于全球范围内的 数据。 2 、数据存储量巨大。i n t e m e t 和宽带网应用的出现和普及,使数据存储量 急剧扩大,这要求存储系统不仅应该具有巨大的存储容量,更为重要的是存储 系统应该具备灵活的可扩充能力,这样才能保证存储系统不会滞后于存储容量 发展的要求。 3 、数据可靠性要求越来越高。随着网络系统的普及和应用,数据在企业全 部资产中所占的比例越来越大,在企业的网络系统中,最宝贵的不是各种硬件 设备,而是企业在长期发展过程中所积累下来的业务数据。数据的高可用性要 求存储的高可靠性。“9 1 l 事件”给企业用户造成无法弥补的损失,同时也告诉 我们将数据备份到本地的局限性,将数据备份到本地或同城异地无法克服地震、 区域停电、恐怖事件对数据可靠性的危害,在更广阔的区域内发展分布式的远 程数据容错和恢复技术极其重要。 第一章绪论 4 、支持的应用更广泛。随着技术的飞速发展,继p c 时代、网络时代之后, 人类社会逐步进入“普及计算”( p e r v a s i v ec o m p u t i n g ) 时代。在“普及计算” 时代,连入i n t e r n e t 的节点数量会更大,接入设备的种类会更多,公众使用各 种各样的计算设备( 如:p d a 、手机、可穿戴电脑等) 接入i n t e r n e t ,访问数据, 如何有效地管理种类繁多的计算设备产生的海量数据,并快捷、高效地存取、 查找和使用这些数据,在扩展性、访问性能、移动性等方面满足用户需求,是 对存储技术研究人员提出的一项新挑战。 1 1 1 分布式存储技术简介 随着信息技术的飞速发展,计算机系统需要处理的数据大量增加。同时, 这些数掘还需要有效地保存在存储系统中,为数据分析和处理提供保障和便利。 随着网络技术的不断发展和创新,分布式存储技术本身也在飞速地发展。 本节简要介绍几种常见的分布式存储技术。 l 、集群存储技术 随着数据存储量的激增,服务器的负荷越来越大,繁重的数据存储任务严 重地降低了服务器的性能。通常,为了提高网络服务的性能,将服务和存储分 离,人们发展了集群存储技术。集群文件系统通过连接大量的普通计算机作为 存储节点来提供高性能、可扩展的分布式网络存储服务。 2 、分布式共享存储技术 随着网络技术的发展,人们的信息交流越来越频繁和迫切,本地文件系统 无法满足人们数据共享的需求,于是以文件共享为目的的分布式存储技术应运 而生,通过该技术,人们可以方便地交换数据和协同工作。 3 、面向i n t e m e t 的海量存储技术 i n l e r n e t 的发展使数据的异地存储成为可能,这也为存储系统带来了更大的 分布性。在i n t e m e t w a n 中,数据分布的物理距离非常广阔,数据存储的平台 种类繁多,为了实现i n t e r n e t 范围内数据的访问和共享,人们正努力发展面向 i n t e r n e t 的海量存储技术,以有效管理分布在广阔范围内和不同平台上的数据。 电子科技大学博士学位论文 1 1 2 分布式存储技术发展趋势和研究热点 i n t e r n e t 和网络技术的飞速发展极大地推动了分布式存储技术的进步,同时 也给分布式存储技术不断提出新的需求。先进的分布式存储系统必须具备如下 几个特征:高性能、易扩展、高可靠和使用方便。目前,还不存在完全具备这 些特征的分布式存储系统。 目前,分布式存储技术的发展趋势和主要的研究热点如下: l 、高性能 对分布式存储系统的每一个用户,系统都应该能够提供始终如一的高性能 存储服务。不考虑硬件和网络设施的因素,系统应该尽可能地克服或缓解网络 环境的动态性和不可预知性( 例如:网络拥塞、网络断开、节点退出等) 对服 务性能造成的影响。另外,为了提高数据的访问效率,减少文件传输的网络延 迟,系统必须设计合理高效的文件c a c h e 机制、负载平衡算法以及并行传输机制 以减小网络延迟,让用户没有远程感觉,为用户提供高性能的存储服务。 2 、高可靠性 作为分布式存储系统的突出优点之一,高可靠性是大多数系统设计时重点 考虑的问题【2 。 分布式环境通常都有高可靠性的需求,用户将文件保存到分布式存储系统 的基本要求是数据可靠。保证数据的高可靠性是分布式存储的基本目标,系统 应该采用有效的容错机制,使得一些常见故障( 如:节点离线或失效、网络断 开等) 对用户透明,用户访问文件时,文件不会因为网络故障或部分节点不在 线而不可得,使用户在动态变化的网络环境下获得高可靠的文件服务。 分布式存储系统的每个组件的设计都必须考虑可靠性,总的指导原则是避 免集中式的部件、表和算法 3 1 。 3 、高可扩展性 分布式存储系统要能适应节点规模和数据规模的增长。对于规模需要不断 增长的系统,扩展能力非常重要。 分布式存储系统的体系结构必须具有高可扩展性,系统的存储容量可以随 着用户存储需求的增长而增长,以支持海量存储。 第一章绪论 分布式存储系统的可扩展性表现在存储规模、用户数以及系统的总体服务 能力。存储容量的扩展不能孤立于系统总体服务能力的扩展,更不能以牺牲服 务性能为代价。 分布式存储系统的扩展能力目标是:系统的存储容量和系统的总吞吐率能 够随着系统规模的增大而同步增大,而文件访问性能始终较高。分布式存储系 统必须采用易扩展的拓扑结构和数据组织方式来适应节点和存储数据规模的动 态增长。 4 、透明性 如果一个分布式存储系统让用户和应用程序感觉和本地存储空间一样,我 们就说它具有透明性。分布式存储系统通过内部实现机制和用户接口为用户提 供透明的存储服务 2 】。 分布式存储系统的透明性可分为以下几种: 位髯透明性。在分布式存储系统中,文件是通过名字来标识的,在具有位 置透明性的系统中,用户看到的是全局名字空间,用户访问文件不需要知道文 件的物理存放位置,在创建文件时,系统自动选择合适的存放位置。 故障透明性。分布式存储系统由多个节点构成,当部分服务器出现故障、 离线或网络不可达时,系统必须为用户提供持续的存储服务,让用户无法感知 内部服务器故障。 迁移透明性。文件和目录的物理存储位置改变不需要改变名字,迁移透明 性在管理存储空间方面具有很大的灵活性。最理想的迁移透明性是在数据迁移 过程中,数据仍然是可访问的。 复制透明性。为了达到高可靠性和提高访问效率,系统通常在不同节点上 保存同一文件的多个拷贝,用户不必知道某个文件有几个副本,副本的产生、 分布和访问都是自动的【4 。 并发透明性。在分布式存储系统中,多个用户并发访问同一个文件的情况 是不可避免的,具有并发透明性的系统能够保证并发的文件访问之间不会冲突。 在大多数场合,并发透明性需要解决的就是共享文件的读写一致性问题。 在设计和实现分布式存储系统时,完全实现以上透明性将付出巨大代价, 考虑到系统的性能、需求和实现的复杂度往往只实现部分透明性。 5 、自治性 分布式存储系统包含着大量的节点和存储对象,系统的管理和存储空间的 电子科技大学博士学位论文 维护将是个巨大挑战,很难想象指定专人管理这个地理分布的系统,因此 分布式存储系统必须是一个自治系统,具有自维护、自恢复的功能。 1 2 本论文的相关研究工作 在分布式存储领域许多研究人员已经开展了大量的研究工作,提出了许多 的技术和方法。本节将介绍与本文相关的其它研究工作。 1 2 1 网络存储 l 、附网存储( n e t w o r ka t t a c h e ds t o r a g e n a s ) n a s 是一种特殊的集成了操作系统和存储设备的专用数据存储服务器,内 嵌裁减后的操作系统和文件系统,可提供跨平台文件共享服务,以数据为中心, 将存储设备和服务器分离,集中管理数据,从而有效释放带宽,提高系统整体 性能【5 】。n a s 已成为网络存储的主要选择之一。 n a s 通过局域网与应用系统相连,应用系统按照标准的文件系统访问协议 c i f s ( c o m m o ni n t e r n e tf i l es y s t e m ) 或n f s ( n e t w o r kf i l es y s t e m ) 方便地访 问n a sj 务器。客户通过f i l ei o 方式发送文件存取请求到n a s ,n a s 通过操作 系统:t 备f i l ei o 转换成b l o c ki 0 ,发送到内部磁盘。n a s 是极具发展前途的一种 存储技术,具有安装简单、易于管理、文件共享、高扩展性等优点。 n a s 的主要目标是:方便、快捷地扩展文件服务器的存储容量和服务能力。 根据实际应用存储的需要,系统管理员可以动态地在应用系统中增、删n a s 服 务器,而且操作、维护非常简单。对于局域网应用系统而言,n a s 是非常合适 的支持海量文件存储的技术。 2 、存储区域网络( s t o r a g e a t e a n e t w o r k s a n ) 对开放系统的数据访问需求是存储网络技术开发的主要推动力。将光纤通 道f c ( f i b e rc h a n n e l ) 作为网络存储的连接技术激发存储界提出了s a n 的概念。 由于f c 能将存储设备连接成网络,因此,最初由f c 连接的存储设备网络称之为 存储区域网s a n ( s t o r a g e a r e a n e t w o r k ) 6 】。 s a n 可以定义为:以数掘存储为中心,采用可伸缩的网络拓扑结构,通过 第一章绪论 具有高速传输速率的光纤通道的直接连接方式,提供s a n 部任意节点之间的 多路可选择的数据交换,并将数据存储管理集中在相对独立的存储区域网内, 实现最大限度的数据共享和数据优化管理,以及系统的无缝扩展。串型s c s i 协 议f c p ( f i b e rc h a n n e lp r o t o c 0 1 ) 是s a n 中使用最多的协议。 由于光纤网具有带宽高( g b s ) 、低延迟、低误码率等特点,使得存储服 务器与应用系统之间的连接距离大大增加( 例如1 0 公里) 。应用系统可以通过 s c s i 协议访问数公里之外的存储服务器。 s a n 适应了数据的高可用性、高扩展性、高性能、远距离延伸和数据共享 的需求,为多个主机系统共享存储子系统和数据奠定了基础,实现了服务器和 存储的彻底分离,减少了应用服务器的负担。 s a n 具有多种拓扑结构:点到点s a n 、环状s a n 、交换式s a n 。s a n 具有 如下优点: 1 ) 开放的、具有行业标准的f c 使s a n 极具灵活性。s a n 不但允许更多的连 接,而且大大增加了存储设备和服务器之间的距离,实现关键数据的远 程备份; 2 ) s a n 提供了在网络环境中更高层的控制,用于满足基于事务处理系统在 性能和可用性方面的要求; 3 ) 数据块高速传输,不但提供存储设备和服务器之间的数据传输,而且实 现存储设备之间的数据直接传送; 4 ) s a n 提供优异的可伸缩性,可以在服务器不停机的情况下,方便地增加 存储设备。 5 ) s a n 有助于数据的集中管理,大大减少管理开销。 s a n 的高速、高可靠性以及良好的扩展能力,使s a n 成为高端存储解决方 案的代名词。s a n 可以使用于非线形编辑、服务器集群、远程灾难恢复、互联 网数据服务等多个领域。 基于光纤通道的s a n 的缺点在于需要依赖专用的、造价昂贵的光纤通道, 从而限制了s a n 的应用范围。 虽然都是为了扩展系统的存储能力,但是n a s 和s a n 与分布式存储系统所 做工作的层次是不同的。n a s 主要侧重于系统的透明访问与零配置管理,集成 现有技术,提供“文件级”服务。s a n 所做的工作处于“数据块”级,它利用 现有网络和现有数据传输协议s c s i 来实现数据的网络存储。分布式存储系统所 电子科技大学博士学位论文 做的工作是“文件”级的,它利用现有的网络和文件服务器搭建海量文件存储 系统,s a n 年n n a s 可以作为分布式存储系统的一个节点。 3 、i p 存储 f cs a n 采用光纤技术,因而性能优异,但在应用中需要f c 交换机连接服 务器和存储设备,由于f c 交换机和f c 适配器价格不菲,使得f cs a n 成为价格 昂贵的代名词,于是,降低它的组建费用成为产生新的s a n i ps a n 的动力。 i ps a n 技术主要包含i s c s l 、f c i p 和i f c p 等 5 】。 随着1 0 0 0 m b p s 以太网技术的发展,光纤逐步走向桌面应用,将以太网技术 与s c s i 结合,便推出了i s c s i 技术。其主要思想是采用i p 包传送s c s i 命令,从而 使得采用i s c s i 协议接口的存储设备可以直接挂接在i n t e r n e t 上,构成i ps a n 。 它既有s a n 结构的优越性能,又充分利用了现有以太网设施。 i s c s i 协议定义的是s c s i n t c p i p 的映射,即将主机的s c s i 命令封装成 t c p i p 数据包,在i p 网络上传输,到达目的节点后,再恢复成封装前的s c s i 命 令,从而实现s c s i 命令在i p 网络上的直接、透明传输。i s c s i 可用于改造本地 s a n ,构建基于i p 而非f c 的s a n 。 应用系统可以通过普通i n t e r n e t 年i i 远处的存储服务器相连,使用s c s i 协议访 问存储服务器。这样一来,s a n 的实用性得到了大大的提高,大量的应用系统 可以通过i s c s i 来扩展系统的存储能力。 f c i p ,是f i b r ec h a n n e lo v e r1 p 的标准协议,在同一个s a n 范围内,t c p i p 数据包封装f i b e rc h a n n e l 命令和数据,从而在i p 网络上传输f i b e rc h a n n e l 命令和 数据。 i f c p ,在多个s a n 之间利用t c p i p 网络构建f c i p 隧道( t u n n e l ) ,传输f i b e r c h a n n e l 的命令和数据。i f c p 使用t c p i p 协议完成拥塞控制、错误检测和纠错功 能。i f c p 的封装格式和f c i p 相同。通过i f c p ,人们可以将多个s a n 连结起来形 成更大规模的s a n ,提供更强大的存储服务能力。 1 2 2 集群文件系统 随着计算机技术的发展,具有高性能计算能力不再是昂贵的巨型计算机的 专长了。微型计算机计算能力和网络技术的飞速发展,使得人们可以利用廉价 第一章绪论 的微型计算机建立起集群系统( c l u s t e rs y s t e m ) 【7 8 9 】,从而达到和巨型计 算机相媲美的处理能力。 c l u s t e r 的思想来自于1 9 9 4 年n a s ah p c c 地球和空间科学的b e o w u l f 1 0 1 1 11 1 项目。该项目的主要研究目的是能否在不花费过多经费的前提下使用微 型计算机来实现高性能计算。1 9 9 6 年1 0 月,第一个b e o w u l f 系统取得了成功, 它的性能价格比优势使b e o w u l f 在科学研究和工业界获得了广泛地应用。 集群是一组相互独立的、通过高速网络互联的计算机,它们构成一个组, 并以单一系统模式加以管理。一个客户与集群相互作用时,集群像是一个独立 的服务器。与传统高性能计算机技术相比,集群技术可以利用低廉的服务器作 为节点,实现高性能计算。 集群计算技术一直是计算机界研究的一个热点问题。集群系统不但能够充 分利用现有的计算资源,而且能够通过较低的软、硬件代价实现较高性能的计 算机系统。随着微处理器技术和高性能网络技术的飞速发展,集群计算逐渐成 为一种具有很好成本效益的并行分布式计算模式。目前,最具代表性的集群系 统是美国u c b e r k e r l y 大学的n o w 项卧1 2 1 3 1 1 4 、n a s a 的b e o w u l f 项目 1 5 和著名的p v m 1 6 1 7 1 1 1 8 1 1 9 】。 所谓集群文件系统( c l u s t e rf i l es y s t e m ,c f s ) 2 0 2 1 1 1 2 2 是指架构在一 个可扩充服务器集群上的文件系统。用户不需要考虑文件是存储在集群中什么 位置,仅仅需要使用统一的界面就可以访问文件资源。当负载增加时,只需在 服务器集群中增加新的服务器就可以提高文件系统的性能。c f s 通常保留了传 统文件系统的语义,增加了集群文件系统必须的机制,可以向用户提供高可靠 性、高性能、可扩充的文件服务。 集群文件系统有几个共同的特点:l 、与传统分布式文件系统相比,系统设 计支持更大的应用规模( 几十台文件服务器、文件服务器之间可以跨越几个路 由器) ;2 、加强了文件服务器之间的协作;3 、增加了提高文件可靠性的手段。 最早的集群文件系统是由d i g i t a le q u i p m e n tc o r p o r a t i o n 研制的 v a x c l u s t e r s 。v a x c l u s t e r s 拥有很好的体系结构,在文献 2 3 和 2 4 】中有详尽的 描述。 v a x c l u s t e r s 文件系统是在本地文件系统的基础上增加了分布式锁管理 ( d i s t r i b u t e dl o c km a n a g e r ) 而构建形成的。锁管理协议是集群文件系统中决 电子科技大学博士学位论文 定系统整体特色和语义的关键。在v a x c l u s t e r s 中,资源被命名和组织成为树 型结构,每个资源都有一个锁。v a x c l u s t e r s 中每个资源锁可以有六种不同的 模式:独占模式( e x c l u s i v e ) 、保护读模式( p r o t e c t e d r e a d ) 、保护写模式( p r o t e c t e d w r i t e ) 、并发读模式( c o n c u r r e n tr e a d ) 、并发写模式( c o n c u r r e n tw r i t e ) 和非 锁定模式( u n l o c k e d ) 。v a x c l u s t e r s 使用b i t m a p 来定义这六种模式。当个集 群成员申请一个新锁的时候,拥有和新锁相冲突的所有拥有者将被通知放弃相 应的锁,同时执行一个c a l lb a c k 操作。 v a x c l u s t e r s 中的成员具有相当大的自治性。通过获得各种类型的锁,一 个成员可以使用本地读和本地写来访问文件,从而提高系统性能。 s p r i t e 2 5 1 1 2 6 是一个设计非常独特的分布式操作系统。s p r i t e 支持u n i x 系 统a p i 、进程迁移和文件系统。s p r i t e 通常运行在一个拥有大量成员的集群系统 中。s p r i t e 的文件系统是系统的核心部分,它充分使用了v m ( v i r t u a lm a c h i n e ) 的c a c h e 功能,提供u n i x 的语义,支持进程迁移、远程设备访问。在s p r i t e 中,只有当一个文件没有r e a d w r i t e 或w r i t e v v i t e 共享的时候,系统才会使 用缓存。当在服务器上打开一个文件的时候,如果打开文件时仅仅拥有一个非 排它性锁,那么系统将不使用缓存。s p r i t e 对普通文件服务的c l i e n t s e r v e r 接口 类似于n f s 和a f s ,但是s p r i t e 增强了分布式共享机制来适应于集群系统。 z e b r a 2 6 是s p r i t e 项目的撮后一个版本,它提供了文件系统基于磁盘阵列 的条列化功能。z e b r a 并不对单个文件进行条列化,而是将用户对文件的修改 记录到日志中,然后对用户日志进行条列化。在z e b r a 中使用了系统唯的文 件管理器来定位数据的存放服务器和管理缓存一致性。 x f sf 2 7 是从z e b r a 发展而来的,它设计的使用环境是s a n ( s t o r a g e a r e a n e t w o r k ) 。在x f s 中,客户和服务器之间的界限是非常模糊的。同时,在x f s 中消除了中央服务器的存在,又被称为“无服务器文件系统”( s e r v e r l e s sf i l e s y s t e m ) ,x f s 的原则是完全的分布式,即“任何东西在任何地方( a n y t h i n g a n y w h e r e ) ”。x f s 最显著的特点是使用了协作c a c h e 机制,一个数据的最新拷 贝可以存在于一个客户的缓存中,如果需要的话其它客户可以在这个客户的缓 存中将数据取回。这种机制不需要使用一个中央服务器来管理文件缓存的一致 性,因此也就消除了中央服务器的存在。 第一章绪论 x f s 系统中没有中心服务器,消除了性能瓶颈,因此,系统的可扩展性和 可靠性得到了增强。同时,为了提高文件的可用性,x f s 引入了软件r a i d 的 设计思想。软件r a i d 机制通过软件手段,将一个文件拆分成多块,弓i 入冗余, 并进行分散存储,提高了文件的可用性。 f a r s i t e 2 8 在x f s 的基础之上进行改进,引入了文件复制和安全机制,支 持互相不信任的客户之间的协作,形成一个无服务器文件系统。 l i n u x 集群技术已经发展成为成熟的低成本、高性能并行计算环境。p v f s ( p a r a l l e lv i r t u a lf i l es y s t e m ) 2 9 是基于l i n u x 集群的高性能文件系统,它的 设计目标是提供文件并发访问的高带宽、提供多种a p i 接口、基于u n i x i o a p i 的应用程序可以不加修改直接访问、高可靠性和可扩充性。p v f s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业银行金融科技人才培养策略报告:2025年金融科技人才领导力培养方案设计
- 2025年医院电子病历系统在医疗数据共享中的应用优化报告
- 乡村旅游基础设施提升与旅游市场细分与精准营销策略报告
- 2025年医药企业研发外包(CRO)在临床试验数据分析中的质量控制挑战报告
- 2025年医药企业CRO模式下的临床试验安全性评价与风险控制报告001
- 农村金融服务体系金融科技与农村金融风险管理优化研究报告
- 循环生态种养殖项项目可行性研究报告写作模板-备案审批
- 爆破安全规程试题及答案
- 保密法考试题及答案
- 2025年乳制品行业奶源质量追溯系统与品牌形象塑造报告001
- 艾梅乙反歧视培训课件
- 浙江省杭州市2024-2025学年高二下学期6月期末教学质量检测英语试题(含答案)
- 2025年河南省中考地理试题(含答案)
- 2025安全生产月一把手讲安全公开课三十二(91P)
- DB64-266-2018 建筑工程资料管理规程
- 人教鄂教版六年级下册科学期末专题训练:实验题、综合题(含答案)
- 2025届湖北省武汉市武昌区南湖中学英语七年级第二学期期末达标检测试题含答案
- 2025年度安全生产月培训课件
- 2025课件:红色基因作风建设七一党课
- 2025春季学期国开电大本科《人文英语4》一平台机考真题及答案(第七套)
- 2025年河北省万唯中考定心卷生物(一)
评论
0/150
提交评论