




已阅读5页,还剩55页未读, 继续免费阅读
(计算机系统结构专业论文)分布式数据存储与备份的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着企业计算机应用规模的扩大,数据量呈几何级的增长,以及分布式网络 的兴起,企业将越来越多的业务分布于不同的机器、不同的操作平台上,电信、 金融、社保等领域服务都是建立在海量数据存储的基础上,而且这些数据必须万 无一失。因而全方位、多层次的“数据容灾备份系统”应当成为市场主流。 目前主要采用主机内置或外置的磁带机对数据进行冷备份,这种方式在数据 量不大,操作系统种类单一,服务器数量有限的情况下,不失为一种既经济又简 明的备份手段。但是这种单机的人工冷备份方式越来越不适应当今分布式网络, 存在种种弊端。特别是来自非计算机系统因素的隐患,如火灾、地震、以及9 1 1 恐怖事件等人为灾难,对这些灾难后的系统重建和业务数据运作不能进行处理。 针对这一现状,本文根据现在的分布式网络特性,提出了分布式数据备份的 一种设计方法。该方法自动识别网络中加入备份的主机,得到网络的拓扑结构; 然后根据该结构,按照一定数学模型,将需要备份的数据进行分片,将分片的数 据备份到各个备份主机上,从而实现数据的分布式备份。考虑数据分布式备份的 效率以及性能,建立成功的数学模型是非常需要的,它是衡量整个系统的关键。 本文首先介绍数据备份的现状以及发展方向,并根据分布式网络,提出了建 立模型的分析方法,并进一步分析、讨论数学模型。然后,根据该模型引出适合 于该模型的数据传输协议( 组播文件传输协议) ,该协议采用组播的方式来实现 数据的高速可靠传输;同时针对该协议安全性较差的缺点,专门为它设计了素数 加密算法,以提高它的安全性。最后,给出该协议在使用了加密算法后,在安全 性方面的性能,以及整个系统需要完善和改进的工作。 关键词:海量数据、分布式数据备份、组播文件传输协议 a b s t r a c t w i t ht h ea p p l i c a t i o no fc o m p u t e ri ne n t e r p r i s e , d a t ao f t h e s ea p p l i c a t i o n i n c r e a s eg r e a t l y a n dw i t ht h er i s i n go fd i s t r i b u t e dn e t w o r k ,t h es e r v i c e so f e n t e r p r i s e a r ed i s t r i b u t e do nd i f f e r e n tc o m p u t e ra n d d i f f e r e n to s m a n y f a m o u se n t e r p r i s e ss e r v i c e sa r eb a s e do nl o t sd a t as t o r e ,a n dt h e s ed a t ac a n n o tb el o s t s op e r f e c t 。d a t ab a c k u ps y s t e m ”s h o u l d b ew e l c o m e n o wt h e t a p ei sa l w a y s u s e df o rd a t a b a c k u p ,b y t h i sm e a n s , t h ea m o u n t o fd a t ai sl i m i t e d ,a n dt h eo s i sf i x e d w h e nt h e r ea r en o tm a n ys e r v e r s ,i t s h o u l db eae c o n o m i ca n de f f e c t i v ew a y b u tw i t h t h e e n l a r g i n g o fe n t e r p r i s e 。s c o m p u t e ra m o u n t ,i n c r e a s i n g o fd a t a , a n dd i s t r i b u t e dn e t w o r k , t h ee n t e r p r i s e h a st od i s t r i b u t et h e i rs e r v i c eo nd i f f e r e n tc o m p u t e ra n dd i f f e r e n to s s ot h e c l l r r e n td a t as t o r eb yo n ec o m p u t e ri su n s u i t a b l ef o rd i s t r i b u t e dn e t w o r k ,a n d h a sm a n yd i s a d v a n t a g e s e s p e c i a l l yf o rt h er u i no fn o n ec o m p u t e rr e a s o n , a f t e rt h e s er u i nt h e s y s t e m r e c o v e ra n ds e r v i c eb a s eo nt h e s ed a t ai s i m p o s s i b l e a c c o r d i n gt ot h ed i s t r i b u t e dn e t w o r k , w ed e s i g naw a y o fd i s t r i b u t e d d a t ab a c k u p i tc a nr e c o g n i z et h eb a c k u ph o s t si nt h ed i s t r i b u t e dn e t w o r k a u t o m a t i c a l l y , a n da n a l y z et h ed i s t r i b u t e dn e t w o r k t h e na c c o r d i n gt o t h e a n a l y z e d r e s u l t i tr e f e r sam a t h e m a t i cm o d e la n dd i v i d et h ed a t ai n t o f r a g m e n t s , t h e n s t o r et h e s e f r a g m e n t s o nt h e s e h o s t s b y t h em e a n s , i t i m p l e m e n t s t h ed i s t r i b u t ed a t a b a c k u p t oi m p r o v e t h e e f f i c i e n c y a n d p e r f o r m a n c e ,s u c c e s s f u lm o d e l i sv e r y i m p o r t a n t i t i st h e k e y o ft h e s y s t e m t h ed i s s e r t a t i o ni n t r o d u c e st h es i t u a t i o no fd a t a b a c k u p 。a c c o r d i n g t ot h e d i s t r i b u t e dn e t w o r k , w ep r o p o s et h e a n a l y z i n gw a yo fm a t h e m a t i cm o d e l , t h e na n a l y z ea n dd i s c u s st h em o d e l a f t e ri t , w ee x p l a i nt h em u l f i c a s tf i l e t r a n s f e rp r o t o c o l ( m f t p ) ,w h i c hi ss u i t a b l ef o rt h em o d e l ,a n dt h em f t pc a n t r a n s f e rd a t aq u i c k l ya n dr e l i a b l eb ym u l t i c a s t m e a n w h i l ea c c o r d i n gt oi t s w e a k n e s si ns e c u r i t y , w ed e s i n gt h ep r i m e e n c r y p t i o n a r i t h m e t i ca p p l i e dt o m u l t i c a s tt oi m p r o v ei t ss e c u r i t y a tl a s t , w ep r o v i d et h ep e r f o r m a n c eo ft h e a r i t h m e t i c , a n dt h ew o r k st ob ec o m p l e m e n t e da r eg i v e n k e yw o r d :l a r g ed a t a , d i s t r i b u t e dd a t ab a c k u p , m u l t i c a s tf i l et r a n s f e r p r o t o c o l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说 明并表示谢意。 签名:弛建一 日期:2 0 0 4 年3 月日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 墅主。堑 导师签名 日期:2 0 0 4 电子科技大学硕十学位论文分布式数据存储与备份的研究与謇塑 1 1 背景 第一章引言 数据存储备份技术和存储管理源于7 0 年代的终端主机计算模式,当时由于 数据集中在主机上,因此,易管理的海量存储设备一磁带库是当时必备的设备。 8 0 年代以后,由于p c 的发展,尤其是九十年代应用最广的客户机i n 务器模式 的普及,此时网络上文件服务器和数据库服务器往往是要害数据集中的地方,而 客户机上也积累了一定量的数据,数据的分布造成数据存储管理的复杂化。 从国际上看,以美国为首的发达国家都非常重视数据存储备份技术,而且将 其充分利用,服务器与磁带机的连接已经达到6 0 以上。而在国内,只有不到1 5 的服务器连有备份设备,这就意味着8 5 以上的服务器中的数据面临着随时有可 能遭到全部破坏的危险。因此,有必要持续不断地宣传数据存储备份的重要性, 直到人们把数据存储备份视为头等重要的大事,并不断引进最先进的数据存储备 份设备来确保网络数据的绝对安全为止。对于一个企业来说,网络数据的安全性 是极为重要的,一旦重要的数据被破坏或丢失,就会对企业日常生产造成重大的 影响,甚至是难以弥补的损失。唯一可以将损失降至最小的行之有效的办法莫过 于数据的存储备份。 近几年来,国内网络系统的规划和设计不断推陈出新,在众多网络方案中, 通常对数据的存储和备份管理的重要性重视不够,至少在方案中提及不多,甚至 忽略。当网络建成运行后,缺乏可靠的数据保护措施,等到出现事故后才来弥补。 总之,不论是规划设计还是运行维护阶段,都缺乏对整个系统数据存储管理和备 份应采取的专业而系统的考虑,往往陷于盲目之中。 可以说,网络设计方案中如果没有相应的数据存储备份解决方案,就不算是 完整的网络系统方案。计算机系统不是永远可靠的。双机热备份、磁盘阵列、磁 盘镜像、数据库软件的自动复制等功能均不能称为完整的数据存储备份系统,它 们解决的只是系统可用性的问题,而计算机网络系统的可靠性问题需要完整的数 据存储管理系统来解决。因此,对原来网络增加数据存储备份管理系统和在新建 网络方案中列入数据存储备份管理系统就显得相当重要了。 人们对数据存储备份一词并不陌生,然而对备份的真正内涵并不完全了解。 在般人脑海里,往往把备份和拷贝等同起来,把备份单纯看作是更换磁带、为 磁带编号等一个完全程式化的、单调的操作过程。其实不然,因为除了拷贝外, 还包括更重要的内容即管理。备份管理包括备份的可计划性,磁带机的自动化操 作、历史记录的保存以及臼志记录等。事实上,备份管理是一个全面的概念,它 皇王型茎盔兰堡主堂笪堡茎坌塑壅塑塑壹堡兰鱼垡塑旦茎兰塞望一 不仅包含制度的制定和磁带的管理,而且还能决定引进备份技术,如备份技术的 选择、备份设备的选择、介质的选择乃至软件技术的挑选等。 有不少人往往也把双机热备份、磁盘阵列备份以及磁盘镜象备份等硬件备份 的内容和数据存储备份相提并论。事实上,所有的硬件备份都不能代替数据存储 备份,硬件备份只是拿个系统、一个设备等作牺牲来换取另一台系统或设备在 短暂时间内的安全。若发生人为的错误、自然灾害、电源故障、病毒侵袭等,引 起的后果就不堪设想,如造成所有系统瘫痪,所有设备无法运行,由此引起的数 据丢失也就无法恢复了。事实证明,只有数据存储备份才能为人们提供万无一失 的数据安全保护。 综上所述,用户特别是网络用户理想的数据存储备份就是用一种容量大、具 有先进自动管理功能、价格又相对便宜的设备对整个系统,特别是对整个网络系 统的数据进行备份,才是人们所希望的数据存储备份。 而目前f 热火朝天的n a s ( n e t w o r ka t t a c h e ds t o r a g e ,网络附加存储) 和 s a n ( s t o r a g e a r e an e t w o r k ,存储域网络) 技术已经成为当今“数据容灾备份” 的主流,关键在于如何在此基础上开发完善全方位、多层次的“数据容灾备份” 系统,在分布式的网络环境下,通过专业的数据存储管理软件,结合相应的硬件 和存储设备,来对整个网络的数据备份进行集中管理,从而实现自动化的备份、 文件归档、数据分级存储以及灾难恢复等功能。 1 2 论文组织结构 第一章是论文背景的介绍。 第二章介绍了相关存储的基本理论知识,讲述d a s 、n a s 和s a n 存储模式, 介绍数据存储技术发展的现状。以及对数据存储技术的展望。 第三章着重讨论和分析建立分布式数据备份的模型。 第四章介绍了适合于该备份模型的组播文件传送协议。 第五章详细描述了组播文件传送协议的实现,以及对其在安全性上的一些改 进。 第六章总结了整个系统的不足之处,提出了进步完善的工作。 皇兰型堇查堂堡主堂垡堡苎 坌塑苎墼塑童堡兰墨坌塑堡堕皇兰里一 2 1 存储技术 第二章存储的基本知识 2 1 1 数据存储纵横谈 数据存储已经成为目前的一个热点技术,也是继互联网热之后的又一次技术 浪潮,它将网络带入以数据为中心的时代。本文将目前流行的数据存储相关技术 进行了归纳小结,并对数据存储的发展趋势和未来的数据存储技术作了一些主观 预测。 服务器数据存储经过了三个发展阶段:直接外挂存储( d a s ) 、存储域网络 ( s a n ) 、网络附加存储( n a s ) 。d a s 是在以c p u 为中心的计算为王时代的产物, 适应于最初计算机工业的发展,而对于s a n 和n a s ,其技术上最大的区别在于是 采用专门的协议还是现有的i p 技术,以及数据共享等问题的分别考虑,s a n 的优 势在于最初解决网络带宽问题的考虑,而n a s 更侧重于通用性和数据共享的考 虑。 从最初的服务器,到目前的围绕数据存储的解决方案,我们可以大体上看出 计算机服务器体系结构网络化的趋势,即目前的内部总线架梅将逐渐走向消亡, 形成交换式网络化发展方向的趋势,在最初,数据存储、计算处理和i o 是合为 一体的,而目前数据存储部分已经独立出来,未来将是i 0 和计算处理的进一步 分离,形成数据存储、计算处理、i 0 吞吐三足鼎立的局面,这就是真正的服务 器网络化体系结构,正应了s u n 公司提出的“网络就是计算机”的论断。 2 t 2 数据存储技术发展的现状 ( 1 ) s a n 的互操作性问题 存储的互操作性分为两个方面:一是存储设备支持不同的服务器系统。这个 问题已经得到了很好的解决,存储供应商的存储设备都能够做到支持主流操作系 统,或者是其中的某些版本。目前,多服务器平台的s a n 解决方案是一个发展趋 势。 互操作性的另一个方面是如何支持多厂商的存储系统,这就是o p e ns a n 解 决方案的核心问题。o p e ns a n 的目标是支持任何应用程序、操作系统、文件系 统、服务器平台、存储系统、磁带库以及客户所要求的互连设备,解决棘手的设 备兼容问题,使网络设备发挥最大的效率。在这个方面,采用开放式的标准是大 皇王型堇查堂堡主堂垡堡塞 坌壹壅墼塑查缝兰鱼盟笪婴窒皇塞里 一 势所趋。 ( 2 ) 数据存储标准之争的问题 s a n 采用的是专门的协议,而n a s 使用的是i p 协议,而目前,为了维持对现 有的s a n 的兼容性,出现了几大存储技术流派,整个存储技术市场形成了百花齐 放的局面:i n t e r n e t 工程任务组( i e t f ) 提出的基于t c p 的s c s i ( i s c s i ) 方案、 i e t f 与a n s i ( 美国国家标准机构) 共同提出的基于i p 的光纤方案、a n s i 提出 的光纤骨干网方案。各种方案互不相让。无论如何,一个存储网方案的出台,其 标准的主体定义必须完整细致,不然将难以推广运用。 ( 3 ) 基于纯i p 的存储方案登台亮相 基于i p 的存储方案,事实上是i s c s i 和基于i p 的光纤方案的扩展。采用i p 方式的好处就是可以利用公用的数据网络,减少租用线的费用。t c p i p 的许多 开销和不稳定性都采用了一些新的方式来克服,如采用“巨型”帧,q o s ,v p n 和加密方式。i p 方式的解决方案到底能不能在企业一级的解决方案中得到应用, 还得看今后市场的反映情况,目前的形势是一片大好。 2 1 3 数据存储技术展望 光纤通道目前是建立s a n 架构的唯一选择,但是随着新技术和市场的双重作 用,将来可能会用g l o g 以太网和或i n f i n i b a n d 架构( 简称i b a ) 来实现s a n 。 尽管光纤通道是一种占主导地位的s a n 互联技术,但仍然存在一些问题。设 备层的互操作性已经不再是主要的问题了,但交换机之间的互操作性却是一个潜 在的问题。另一个主要的问题在于s a n 的管理。当前,大多数s a n 管理解决方案 都需要一个独立的以太网连接,这样才能传递管理指令。这种管理被称为“带外 管理”。那些支持诸如“i p 光纤通道”或“带内管理”的解决方案最近才开始出 现。i p 光纤通道在光纤通道s a n 和i p 网络之间通过新的网络接口进行连接。该 网络接口将光纤通道框架封装进i p 包,并将光纤通道框架域映射到i p 地址。这 样,s a n 可以扩展到i p 网络,而且光纤通道架构和服务器、存储设备及软件不 必进行任何转换。i p 光纤通道可以把光纤通道s a n 集成到i p 广域网中,保护用 户现有的光纤通道s a n 软硬件投资。 2 2 直接外挂存储( d a s ) 采用直接外挂存储( d i r e c ta t t a c h e ds t o r a g e ) 方案的服务器结构如同p c 机 架构,外部数据存储设备都采用了直接挂接在内部总线上的方式,数据存储是整 个服务器结构的一部分,这种方案主要在早期的计算机和服务器上使用,由于当 时对数据存储的需求并不大,单个服务器需要的存储能力远达不到目前对数据存 皇王型垫查兰堡主鲎生丝塞 坌塑茎墼塑壹堡皇墨丝堕堑窒量苎型l 一 储的需求程度,因此,服务器仅仅需要外接较低容量的存储设备,就可以满足数 据存储的需求,在这个时期,往往都是数据和操作系统都未分离。随着对视频处 理、数据库应用的需求增加,数据存储需求越来越大,d a s 很快就不能满足数据 存储和管理的需求,于是就诞生了专门的数据存储解决方案。 目前市场上的存储产品主要有磁盘阵列、磁带机与磁带库、光盘库等,其中 磁带设备以其技术成熟、价格低廉、产品线齐全、使用方便等优点占据了存储市 场的莺要地位。 2 2 1 磁盘阵列 磁盘阵列又叫r a i d ( r e d u n d a n ta r r a yo fi n e x p e n s i v ed i s k s 廉价磁盘 冗余阵列) ,是指将多个类型、容量、接口,甚至品牌一致的专用硬磁盘或普通 硬磁盘连成一个阵列,使其能以某种快速、准确和安全的方式来读写磁盘数据, 从而达到提高数据读取速度和安全性的一种手段。因此,磁盘阵列读写方式的基 本要求是,在尽可能提高磁盘数据读写速度的前提下,必须确保在一张或多张磁 盘失效时,阵列能够有效地防止数据丢失。磁盘阵列的最大特点是数据存取速度 特别快,其主要功能是可提高网络数据的可用性及存储容量,并将数据有选择性 地分布在多个磁盘上,从而提高系统的数据吞吐率。另外,磁盘阵列还能够免除 单块硬盘故障所带来的灾难后果,通过把多个较小容量的硬盘连在智能控制器 上,可增加存储容量。磁盘阵列是一种高效、快速、易用的网络存储备份设备。 22 ,2 磁带库 广义的磁带库产品包括自动加载磁带机和磁带库。自动加载磁带机和磁带库 实际上是将磁带和磁带机有机结合组成的。自动加载磁带机是一个位于单机中的 磁带驱动器和自动磁带更换装置,它可以从装有多盘磁带的磁带匣中拾取磁带并 放入驱动器中,或执行相反的过程。它可以备份1 0 0 g b - - 2 0 0 g b 或者更多的数据。 自动加载磁带机能够支持例行备份过程,自动为每日的备份工作装载新的磁带。 一个拥有工作组服务器的小公司或分理处可以使用自动加载磁带机来自动完成 备份工作。 另外,随着制造技术和生产工艺的不断改进,磁带机的性能还将得到很大的 提高。包括:磁带将被做得越来越小;存储能力越来越大;磁带机的自动化程度 也将越来越高而且,随着自动化程度越来越高,磁带机的优势越来越明显, 从而在未来的存储市场中将长期扮演主流的角色。 皇兰型垄查堂堡主堂垡堡奎 坌塑茎塑塑壹堡墨鱼堡塑塑塑皇壅塑 一 2 2 3 光盘塔、光盘库和光盘网终镜像服务器 目前最好的多媒体海量信息存储载体或重要文献资料备份媒体,非光盘莫 属。然而,一张光盘的存储容量毕竟有限,对于海量信息存储的网络系统来讲是 远远不够的。要想获得海量信息的网络存取,就必须将保存有大量不同信息的几 十张甚至几百张光盘组合起来使用。光盘塔由几台或十几台c d r o m 驱动器并联 构成,可通过软件来控制某台光驱的读写操作。光盘塔可以同时支持几十个到几 百个用户访问信息。 光盘库实际上是一种可存放几十张或几百张光盘并带有机械臂和一个光盘 驱动器的光盘柜。光盘库也叫自动换盘机,它利用机械手从机柜中选出一张光盘 送到驱动器进行读写。它的库容量极大,机柜中可放几十片甚至上百片光盘片, 这种有巨大联机容量的设备非常适用于图书馆一类的信息检索中心,尤其是交互 式光盘系统、数字化图书馆系统、实时资料档案中心系统、卡拉o k 自动点播系 统等。光盘库的特点是:安装简单、使用方便,并支持几乎所有的常见网络操作 系统及各种常用通讯协议。由于光盘库普遍使用的是标准e i d e 光驱( 或标准5 片式换片机) ,所以维护更换与管理非常容易,同时还降低了成本和价格。又因 光盘库普遍内置有高性能处理器、高速缓存器、快速闪存、动态存取内存、网络 控制器等智能部件,使得其信息处理能力更强。 光盘网络镜像服务器是继第一代的光盘库和第二代的光盘塔之后,最新开发 出的一种可在网络上实现光盘信息共享的网络存储设备。光盘网络镜像服务器不 仅具有大型光盘库的超大存储容量,而且还具有与硬盘相同的访问速度,其单位 存储成本( 分摊到每张光盘上的设各成本) 大大低于光盘库和光盘塔,因此光盘 网络镜像服务器已开始取代光盘库和光盘塔,逐渐成为光盘网络共享设备中的主 流产品。 在网络海量存储备份系统中,磁盘阵列、磁带库、光盘库等存储设备因其信 息存储特点的不同,应用环境也有较大区别。磁盘阵列主要用于网络系统中的海 量数据的即时存取;磁带库更多的是用于网络系统中的海量数据的定期备份:光 盘库则主要用于网络系统中的海量数据的访问。 2 3 网络附加存储( n a s ) 网络附加存储设备( n e t w o r ka t t a c h e ds t o r a g e ,n a s ) 是一种专业的网络 文件存储及文件备份设备。n a s 是基于l a n 的,按照t c p i p 协议进行通信,面 向消息传递,以文件的i o 方式进行数据传输。在l a n 环境下,n a s 已经完全可 以实现异构平台之间的数据级共享,比如n t 、u n i x 等平台的共享。但是,在 6 皇至型垄盔兰堡主堂篁堡壅 坌鱼茎墼塑查堡兰鱼鱼塑盟量墨塑一 1 0 1 0 0 1 的带宽条件下,只有其中的3 0 左右可以用做存储,所以n a s 无法发挥 其应有的性能,这就需要等待g t 比特级以太网络的大规模普及应用。 一个n a s 包括处理器,文件服务管理模块和多个的硬盘驱动器用于数据的存 储。n a s 可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地 在n a s 上存取任意格式的文件,包括s m b 格式( w i n d o w s ) n f s 格式( u n i x ,l i n u x ) 和c i f s 格式等等。n a s 系统可以根据服务器或者客户端计算机发出的指令完成 对内在文件的管理。另外的特性包括:独立于操作系统,不同类的文件共享,交 叉协议用户认证,浏览器赛面的操作管理,和增加和移除服务器不会中断网络 服务,n a s 是在r a i d 的基础上增加了存储操作系统,因此,n a s 的数据能由异类 平台共享。 2 4 存储域网络( s a n ) 存储域网络( s t o r a g ea r e an e t w o r k ) 的支撑技术是f i b r ec h a n n e l ( f c ) 技 术,这是a n s i 为网络和通道i 0 接口建立的一个标准集成。支持h i p p i ,i p i , s c s l ,i p ,a t m 等多种高级协议,它的最大特性是将网络和设备的通讯协议与传 输物理介质隔离开这样多种协议可在同一个物理连接上同时传送,高性能存储 体和宽带网络使用单i o 接口使得系统的成本和复杂程度大大降低。如通过交换 机扩充至交换仲裁复用结构则可将用户扩至很多。 s a n 是一个专有的、集中管理的信息基础结构,它支持服务器和存储之间任 意的点到点的连接,s a n 集中体现了功能分拆的思想,提高了系统的灵活性和数 据的安全性。s a n 以数据存储为中心,采用可伸缩的网络拓扑结构,通过具有较 高传输速率的光通道连接方式,提供s a n 内部任意节点之间的多路可选择的数据 交换,并且将数据存储管理集中在相对独立的存储区域网内。在多种光通道传输 协议逐渐走向标准化并且跨平台群集文件系统投入使用后,s a n 最终将实现在多 种操作系统下,最大限度的数据共享和数据优化管理,以及系统的无缝扩充。s a n 是独立出一个数据存储网络,网络内部的数据传输率很快,但操作系统仍停留在 服务器端,用户不是在直接访问s a n 的网络,因此这就造成s a n 在异构环境下不 能实现文件共享。 s a n 的特点是将数据的存储移到了后端,采用了一个专门的系统来完成,并 进行了r a i d 数据保护。 2 5d a s 、n a s 和s a n 存储模式比较 d a s ( d i r e c ta t t a c h e ds t o r a g e 一直接连接存储) 是指将存储设备通过s c s i 接口或光纤通道直接连接到一台计算机上。当服务器在地理上比较分散,很难通 电子科技大学硕士学位论文 分布式数据存储与备份的研究与实现 过远程连接进行互连时,直接连接存储是比较好的解决方案,甚至可能是唯一的 解决方案。利用直接连接存储的另一个原因也可能是企业决定继续保留已有的传 输速率并不很高的网络系统。 n a s 将存储设备通过标准的网络拓扑锚构,连接到一群计算机上。n a s 是部 件级的存储方法,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量 的需求。n a s 没有解决与文件服务器相关的一个关键性问题,即备份过程中的带 宽消耗。与将备份数据流从l a n 中转移出去的存储区域网( s a n ) 不同,n a s 仍 使用网络进行备份和恢复。n a s 的一个缺点是它将存储事务由并行s c s i 连接转 移到了网络上。这就是说l a n 除了必须处理正常的最终用户传输流外,还必须处 理包括备份操作的存储磁盘请求。 s a n ( 存储区域网络) 通过光纤通道连接到一群计算机上。在该网络中提供了 多主机连接,但并非通过标准的网络拓扑。s a n 则专注于企业级存储的特有问题。 s a n 主要用于存储量大的工作环境,如i s p 、银行等,但现在由于需求量不大、 成本高、标准尚未确定等问题影响了s a n 的市场,不过,随着这些用户业务量的 增大,s a n 也有着广泛的应用前景。 n a s 结构和s a n 最大的区别就在于n a s 有文件操作和管理系统,而s a n 却没 有这样的系统功能,其功能仅仅停留在文件管理的下一层,即数据管理。从这些 意义上看,s a n 和n a s 的功能互为补充,同时s a n 的服务器访问数据的时候不会 占l a n 的资源,但是n a s 结构的服务器都需要和文件服务器进行交互,以取得自 己请求的数据。 s a n 和n a s 并不是相互冲突的,是可以共存于一个系统网络中的,但n a s 通 过一个公共的接口实现空间的管理和资源共享,s a n 仅仅是为服务器存储数据提 供一个专门的快速后方通道,在空间的利用上,s a n 和n a s 也有截然不同之处, s a n 是只能独享的数据存储池,n a s 是共享与独享兼顾的数据存储池。 电子科技大学硕士学位论文 分布式数据存储与备份的研究与实现 第三章分布式数据存储与备份模型的设计与分析 31 模型设计 3 11 模型提出 通过上一章的论述可知采用网络存储已经成为存储技术发展的必然趋势。但 是n a s 只是提出了它是采用t c p i p 协议实现数据的存储,但是对于备份方式的 存储,该如何处理,按照什么模型来存储却没有详细规定。本章将针对备份存储 的情况,对文件按什么模型存储到网络中去,进行讨论分析,并对各种模型的性 能加以比较;根据分析讨论的结果,并按照模型进行备份存储,从而得到较高的 性能。 在网络环境中,通常都有一台服务器,它对外服务( 可能是一台服务器,也 可能会是集群,此处用一台服务器来表示) ,如图3 一l 中左边虚线框内所示。当 数据需要备份时,可以将它们存储到网络中的其他主机上面;也就是将数据分布 到网络中的其他主机上,如双机热备份就是实时地将全部数据从服务器复制到从 机上;将该方法引申,可以将数据备份到更多的主机上,从而可以增加备份系统 的可靠性;如图3 1 中右边虚线框内的主机都加入到数据备份中( 为了叙述方 便,将加入到数据备份的主机成为“备份主机”) 。 幽3 1 当服务器备份数据时,可以按照双机热备份的方式,将所有数据都存储到各 个备份主机上。但是这样虽然增加了可靠性,同时也造成了存储空间的浪费;而 且由于每个备份主机都有整个数据的完整拷贝,也非常不利于数据的保密。例如, 对于一个文件,如果在每个备份主机上都有它的一份完整拷贝,那么每台备份主 机都要为其分配空间,并且由于该拷贝是完整的,那么每个备份主机都可以获取 该文件,即使对其加密,也增大了将其解密的可能性。 9 电f 科技大学硕士学位论文 分布式数据存储与备份的研究与实现 为此,可以将文件数据分割为文件片,然后将每个文件片按一定的策略存储 到多台备份主机上,这样既可以减少完全备份的冗余度,同时也降低了被获取的 可能行。但是,策略就成为了备份的核心,它是衡量整个备份系统的关键。 3 1 2 模型相关名称 为了便于叙述,做如下的定义: 备份主机:是指加入到数据备份的主机,就是图3 1 中右边虚线框中的h o s t 。 文件片的分割:将一个文件( 记为f ) ,分割为m 个文件片,每个文件片分 别记为趴,d 2 ,d 。( 其中【jd f = f ;d i n 巧= 乃,i _ i ,j ( _ i n ) 。 i = i 备份主机存储的文件片:假设总共有n 台主机来备份文件,其中某一台主机 h ( i 啊n ) 备份部分文件片,假设备份i t i j 个文件片( i t i i m ) ,分别记为d i ” d 1 2 ,d i m l ;它们都属于 d l ,d 2 ,d 。 这个集合,而集合 d j 1 ,d j 2 , d 1 。1 ) 则是集合 d l ,d 2 ,d 。拍子集。 备份可靠性:在某些远程备份主机出现故障的情况下,仍然可以通过剩余的 远程备份主机恢复备份文件的概率,简记为r ( r e l i a b i l i t y ) 。 备份分解度:文件被分割成多少个数据块,简记为p ( p a r t s ) 。 备份依赖性:可以恢复文件所需的最少主机的平均数主机总数,简记为d ( d e p e n d e n c y ) a 备份冗余度:每个数据块所拥有备份的平均数,简记为b ( b a c k u p ) 。 很显然,备份可靠性值( r ) 越高,说明文件越容易被恢复;备份分解度( p ) 越大,说明文件分的越细,因此想获取整个文件就越难,也就是说保密性越好; 备份依赖性( d ) 越小,说明它相对于整个远程备份主机总数来说,只需要很少 的远程备份主机数就可以完成文件的恢复;备份冗余度( b ) 越大,说明文件片 有足够的拷贝,因而文件越容易被恢复。 3 _ 2 模型分析 为了便于分析,得到好的模型,采用从简单到复杂的方法分别进行讨论。 3 2 1 一一映射模型 先讨论简单情况。将文件分为i t 个文件片,分别记为d l ,d 2 ,d 。,每 个文件片只被备份到一台备份主机上,而且每台备份主机只能够备份一个文件 片,那么要m 台备份主机主机,很显然,这是一一映射关系( 如图3 - 2 所示) 。 0 皇兰型垫奎兰堡主堂垡笙奎 坌塑垄塑塑查堡量墨堕塑堕壅兰塞塑一 图3 2 如果将每个备份主机当作一个点,那么用图的概念来解释该模型,就是有1 1 1 个孤立的节点( 记为h l ,h 2 ,h 。) ,每个节点强备份数据块d ( 1 :i - m ) 。 假设某台备份主机h i 出现故障的概率为p i ,那么要恢复整个文件f ,必需在 所有的节点都有效的情况下才能够恢复。所以备份可靠性r 为: r = p ( h 1 + h 2 + + h m ) , 由于这m 台主机之间相互独立,所以有: r = p ( h 1 ) + p ( h 2 ) 4 + p ( h 。) , 因此代入p i 可以得至依赖可靠性r : r = 丌( 1 一p f ) , f = 1 而整个文件被分解为m 个文件片,所以备份分解度p 为: p = m , 如果要恢复整个文件,必需在f n 台备份主机都可以使用的情况下才能完成, 所以备份依赖性d 为: d = i n m = 1 , 由于每个文件片都只有一个备份,所以备份冗余度b 为: b = 1 , 由上面的分析可知,它的可靠性不高,依赖性太大,冗余度太小。其原因就 是由于这种简单的一一映射关系模型。下面将模型做进步深化,即用一种较为 复杂的映射方法来处理。 3 2 2 一对多映射模型 仍将文件分为m 个文件片,分别记为d l ,d 2 ,d 。,但是某个文件片d l 不再是只备份到一台备份主机上,而是备份到n j 台主机,但是每台备份主机仍 然只备份某个文件片,这是一对多的映射关系,如图3 3 所示。 电子科技大学硕士学位论文分布式数据存储与备份的研究与实现 图3 3 在图3 3 中,备份文件片d i 的第j 台备份主机已为剧,其中h 的右下标i 表示是d i 文件片,而右上标j 表示是备份文件片d i 的第j 台备份主机。例如备 份主机q ”,表示该主机备份的文件片为d l ,并且它是备份文件片d l 的第n 。 台主机。 假设备份主机h 出现故障的概率为e 一,如果要恢复文件片d i ,那么在备份 文件片d t 的主机中,至少有一台是可以用的。假设文件片d i 可恢复的概率为p ;, 由于主机之间相互独立,则有: p f = 1 一p ( 可+ 玎h + 可) , 将各个备份主机的概率掣代入公式,可得: p f = l 一兀p ;1 然而想要恢复整个文件f ,那么m 个文件片( d 1 ,0 2 ,d m ) 都必需能够 被恢复,因此备份可靠性r 为: r = 兀p , 而整个文件f 被分解为i t l 个文件片,所以备份分解度p 为: p = m , 要恢复数据,需要m 台备份主机( 每台备份主机备份互不相同的一个文件 片) ,所以备份依赖性d 为: d = m 。, 由于文件片d i 拥有n 1 个备份,所以整个备份冗余度b 为 电f 科技大学硕士学位论文 分布式数据存储与备份的研究与实现 b = ( n i ) m , r = l 和映射模型相比,在同样的分解度下,依赖性减小,而冗余度增大,但 是需要的备份主机相应的过多。究其根本原因就是每台主机只备份了一块数据, 没有得到充分的利用( 也就是数据块和主机之间的一对多映射关系) 。为了得到 更好的模型,将现有模型做更迸一步深入,讨论更为复杂复杂的情况。 3 2 3 多对多映射模型 将文件分为m 个文件片,分别记为d 1 ,d 2 ,d 。,其中的文件片d i 可 以被备份到n i 台备份主机上;但是每台备份主机不再只备份一个文件片,而是 可以备份多个文件片,假设共有r x 台备份主机,分别记为h 1 ,h 2 ,h 。来备 份该文件,而备份主机h 就可以备份l i 个文件片,记为d :,d ;,d ? , 它们属于集合 d i ,d 2 ,d 。 ;显然,它是一种多对多的映射关系,如图3 4 所示。 文俏手 ( d 1 ,d 2 , h i ( d i ,d i ,d ,1 ) h 2 ( d i ,d ;,d 尸) h i ( d :,d :,d 1 ) h m ( d :,d :,d p ) 图3 4 为了方便计算多对多映射模型,提出如下定义。 恢复包:可以恢复文件的备份主机集合:也就是说,当这些备份主机可用时, 文件就一定可以恢复( 显然,全部主机的集合就是一个恢复包) 。 恢复闭包操作:如果在恢复包中删除某台备份主机,剩下的备份主机集合仍 然是恢复包;那么,就称该删除操作为恢复闭包操作。 恢复闭包:不能够再进行恢复闭包操作的恢复包,称之为恢复闭包。 不可恢复包:不可恢复文件的远程主机集合;就是说,当这些主机出现故障, 而其它的主机都可以用的情况下,文件一定不可能恢复。 不可恢复闭包操作:如果在不可恢复包中删除某台主机,剩下的主机集合仍 然是不可恢复包;那么,就称这一删除操作为不可恢复闭包操作。 电子科技大学硕士学位论文 分布式数据存储与备份的研究与实现 不可恢复闭包:不能够再进行不可恢复闭包操作的不可恢复包,称之为不可 恢复闭包。 对于多对多映射模型的恢复闭包算法,请见3 4 1 恢复闭包算法小节;至于 不可恢复闭包的算法,请见3 4 2 不可恢复闭包算法小节。 假设通过计算,可能得到多个恢复闭包,比如有k 个恢复闭包,分别记为 c 1 c 2 ,c k ,将这k 个恢复闭包所组成的集合记为c ( d o s e ) ;同样可能得 到多个不可恢复闭包,比如有z 个不可恢复闭包,分别记为u 1 ,u 2 ,u :, 将这z 个不可恢复闭包所组成的集合记为u ( u n c l o s e ) ;不管是集合c 中的元素, 还是集合u 中的元素,它们都是由n 台备份主杌中的一部分组成,因此它们都 是整个备份主机集合 h i ,h 2 ,h 。) 的子集。 假设不可恢复闭包u 中的某一元素u i 包含的备份主机个数为y ;,将这些备 份主机集合记为 日:,h ;,hj7 ) ; 同样假设可恢复闭包c 中的某一元素c i 包含的主机数为x l ,将这些备份主 机集合记为 日:,日;,日夕) : 它们都是主机集合 h l ,h 2 ,h 。) 的子集。 根据不可恢复闭包的定义可知,文件不可恢复的情况,即是不可恢复闭包集 合u 中每个元素所包含的主机集合都不能够使用,因此不可恢复的概率为: 一 :一 r = p ( uu ,) ,z 为不可恢复闭包集合u 中的元素个数; ,= l 所以备份可靠性r 为: r = 1 一页, 文件被分解为m 个文件片,所以备份分解度p 为: p = 1 1 1 , 若要恢复整个文件,必需至少包含恢复闭包集合c 的某一元素c ;中的的主 机,而c i 的主机数为x j ;所以,可以恢复文件所需的最少备份主机的平均数为: k ( 石,) k ,k 为恢复闭包集合c 中的元素个数; j = 1 而备份主机总数为n ,所以备份依赖性d 为: d = ( ( x ,) k ) n , j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 我爱美丽的春天作文(13篇)
- 中暑烫伤后急救与护理
- 麻醉病人排便护理查房
- 2025至2030中国工业废水处理厂行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国室外电阻温度计行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国奢侈包行业发展趋势分析与未来投资战略咨询研究报告
- 一次意外的探险经历作文(5篇)
- 读书节活动的一天话题作文7篇范文
- 2025至2030中国垃圾箱租赁行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国圆柱体包装盒行业深度研究及发展前景投资评估分析
- 宁波市高一数学试卷-含答案
- 水站运维服务投标方案(技术标)
- 医院培训课件:《自由体位在产程中的应用》
- 欧洲件专用形式发票模板
- 蛛网膜下腔出血护理查房蛛网膜下腔出血教学查房课件
- 开油锅红袖章制度
- 钢板仓气力输送粉煤灰系统安全操作规范
- 苏绣文化课件
- 暑期安全家长会PPT模板
- 2022年佛山南海区图书馆招聘考试真题及答案
- 社会组织行政执法程序解读及典型案例分析教材
评论
0/150
提交评论