(计算机软件与理论专业论文)基于存储区域网络的数据可靠性技术研究.pdf_第1页
(计算机软件与理论专业论文)基于存储区域网络的数据可靠性技术研究.pdf_第2页
(计算机软件与理论专业论文)基于存储区域网络的数据可靠性技术研究.pdf_第3页
(计算机软件与理论专业论文)基于存储区域网络的数据可靠性技术研究.pdf_第4页
(计算机软件与理论专业论文)基于存储区域网络的数据可靠性技术研究.pdf_第5页
已阅读5页,还剩127页未读 继续免费阅读

(计算机软件与理论专业论文)基于存储区域网络的数据可靠性技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 全球经济正经历着一场深刻的大变革,这场变革的关键就在于信息的应用。 信息一成为最具有活力、最重要的生产要素之一。信息量的激增同时也增加了信 息资源管理的难度,给信息的存储和处理带来了巨大的挑战,。存储管理技术的 研究得刨了普遍的关注,并逐渐成为研究热点。存储硬件技术的发展,使海量数 据存储成为可能,也为存储管理技术的发展提供了机遇。借助于存储区域网络 ( s t o r a g ea r e an e t w o r k ,s a n ) ,人均可管理数据量大大超过直接相连存储系统 ( d i r e c t a t t a c hs t o r a g e ,d a s ) 。存储区域网络的出现,改变了存储系统的管理方式, 数据山分散存储到集中存储。在存储能力大幅度提高的同时,数据管理的工作量 和复杂眨也不断增加,而原有存储管理技术制约着人均可管理数据量的进步提 高。多项调查表明,存储管理技术是限制存储容量进一步发展的瓶颈。存储管理 一方面要提高存储资源的利用效率,另一方面要提高人的管理效率,需要将管理 员从繁杂的重复劳动中解放出来,提高存储管理软件的智能程度,使其成为存储 管理工作的主体。存储系统的自动化管理的研究目标就是提高存储管理系统的智 能程度,减少人为干预,降低存储管理工作的难度和强度。 另一方面,数据激增带给企业巨大财富的同时,数据的价值已经远远超过了 计算机系统本身的价值,意外的停机或数据损坏会给企业带来巨大的损失。数据 灾难造成的经济损失远远大于计算机系统本身故障造成的损失。从9 l l 事件之类 的恐怖袭击,到停电、硬盘故障等意外事件都会导致数据丢失。为了避免数据损 失,已经实现了各种不同的高可靠性技术,包括冗余磁盘阵y l j ( r e d u n d e n t a r r a yo f i n e x p c n s i v ed i s k s r a i d ) ,复制技术等。用户在选择存储系统时,可靠性也正r 益成为一个重要的指标。但是目前的数据高可靠性研究还存在以下几个问题:( 1 ) 缺乏数师:町靠住的准确定义。目前研究存储系统可靠性主要着跟于存储系统中的 磁盘阵列或存储予系统的可靠性,而不是其上保存数据的可靠性。海量数据存储 管理中,同一1 磁盈阵列上的数据可能具有不同的可靠性要求,其次,使用不同的 备份周期和参数,不同的数据也确实具有不同的可靠性。( 2 ) 缺乏统一的可靠性 度量标准,尤其是衡量组合容灾方案的方法。各个厂商为用户提供了多种多样的 备份技术t 并提供了这些方案的设置和使用方法,但是如何评价组合方案的效果 仍存在巨大的宅白。不同方案涉及到的技术和参数各不相同,也和用户的需求表 示方存在有巨大的差异,急需适用于用户和业界的统一的可靠性度量标准。( 3 ) 缺乏智能化的管理系统。备份和恢复是数据管理员最繁重的: 作,而且单调乏味, 迓合计算机术进行管理。定义好恢复规则后,在监测到故障发生后,自治系统自 动恢复数据可以加快数据恢复速度。 两北工业犬学工学博= l :学位论文 本文对肇于存储区域网络的数据可靠性的管理问题进行了研究,提出了数据 可靠性的定义,包括数据可靠性的分析框架及分析方法,海量数据的备份和恢复 算法:在此基础上实现了高可靠性存储系统的自动设计与自治管理。其目的是通 过解决存储服务中数据可靠性相关的几个关键技术问题,创建一个集成的存储可 靠性自治管理系统,试图为存储管理系统的设计建立理论基础,为基于存储网络 的大规模存储自治管理系统的应用提供支持。本文反映了作者自2 0 0 1 年以来的 研究上作,主要研究内容和创新点如下: 1 在分析现有的软硬件可靠性评价模型的基础上,提出了利用数据价值和 停川损失术度量数据可靠性的思想,给出了数据可靠性的定义。以此为基础,提 出j 州一f 二分析数据可靠性的抽象模型。该模型对数据可用性、完整性、灾难恢复 等1 i 的特征部赋以不同的权重,并通过用户损失来描述,统一了用户和设计人 员的标准,建立了统一的分析模型。 2 根据数据在时间和空间上的分布特性,提出了计算副本剩余价值的方法。 刷用该方法,设计了故障发生后使数据损失最小的恢复策略。并提出了海量存储 系统中,使系统整体损失最小的备份和恢复算法。 3 对岛可靠性技术性能进行了研究。首先,设计并实现了一个测量复制技 术性能的l :具,陔工具可以对用不同方式实现的复制的性能进行测量和比较。其 次,在n s 2 的艇础上实现了存储区域网络模拟器,可以用束模拟和计算s a n 内 数据传输性能。 4 以数据可靠性模型和高可靠性技术分析为基础,提出了数据可靠性自动 设计系统,垓系统能根据用户的可靠性和成本要求给出合适的存储、备份方案。 5 以数掘可靠性模型和副本价值计算方法为基础,设计并实现了基于备份 管理的i q 。钷性管理自治系统,通过预定的策略将存储系统的可靠性管理自动化, 箍化j 傅理任务,降低了管理成本。另外,自治系统可以通过对系统的监测,对 复制参数进行调节,更好地达到预定目标。 本文的部分研究是与国外某大型i t 企业( 世界5 0 0 强) 合作完成的,其成 果已成功应用于国际合作项目中,该项目已经得n - f g b 方的认可,并形成了商业 化的j “品推向市场,在欧洲及日本取得了良好的经济效益,得到了用户的好评。 关键词:数据可靠性,存储管理,自治管理灾难恢复 摘要 a b s t r a c t ar e v o l u t i o ni sc h a n g i n gt h ee c o n o m i co ft h ee a r t h t h ek e yf a c t o ro fr e v o l u t i o n i sk n o w l e d g e i n f o r m a t i o ni so n eo ft h em o s ti m p o r t a n tf a c t o r so fp r o d u c e r s g o o d s r a p i di n c r e a s i n gi n f o r m a t i o na m o u n tb r i n gh u g ec h a l l e n g et oi n f o r m a t i o nh a n d l e ra n d s t o r a g e f h er e s e a r c ho ns t o r a g em a n a g e m e n tg a i n sal o to fa t t e n t i o na n db e c o m e sa h o t s p o ti ns t o r a g er e s e a r c hf i e l d t h ed e v e l o p m e n to fs t o r a g eh a r d w a r eb r i n g sg r e a t o p p o r t u n i t yt os t o r a g em a n a g e m e n tt c c l l i l o l o g y p e o p l ec a nm a n a g em o r ed a t ab y s t o r a g ea r e an e t w o r kt h a nb e f o r e s a nc e n t r a l i z et h em a n a g e m e n to fm u l t i p l ed e v i c e s t oo n ec o n s o l e ,b u ti tw i l ln e v e re x c e e dt h el i m i to fo n e sa b i l i t y s e v e r a ls u r v e y s i n d i c a t et h a tt h es t o r a g em a n a g e m e n ti st h eb o t t l e n e c ko f s t o r a g es y s t e md e v e l o p m e n t t h es t o r a g em a n a g e m e n ts h o u l dn o to n l yp r o m o t et h ev a l u eo fs t o r a g ed e v i c e ,b u t a l s op r o m o t et h ev a l u eo fs t o r a g em a n a g e r t h es t o r a g em a n a g es o f t w a r es h o u l dd o m o s tr e g u l a ra n dr e p u t a b l yw o r kt od e c r e a s et h ed i f f i c u l t yo f s t o r a g em a n a g e m e n t w i t ht h ep o p u l a r i t yo fd a t ai n t e n s i v ea p p l i c a t i o n s ,t h ev a l u eo fd a t ai sg r e a t e r t h a nt i l ev a l u eo fc o m p u t e rs y s t e mi t s e l f u n e x p e c t e dh a l td o w no rd a t al o s tw i l lb r i n g h u g ed a m a g et oe n t e r p r i s e t e r r o r i s ma t t a c k 嬲9 1 1 p o w e rf a i l u r ea n dh a r d d i s k f a i l u r ew i l lc a u s ed a t al o s t t oa v o i dd a t al o s t 。m a n yt e c h n o l o g i e sw e r ed e v e l o p e d s u c ha st a p eb a c k u p r e m o t em i r r o ra n ds n a p s h o t d e p e n d a b i l i t yi s c o m i n gt oa i m p o r t a n t f a c t o rw h e nu s e rc h o o s e s t o r a g es y s t e m b u tt h er e s e a r c ho fs t o r a g e d c p c n d a b i l i t yr e m a i n sf o l l o w i n gp r o b l e m s :( 1 ) t h ed e p e n d a b i l i t yr e q u e s to fd i f f e r e n t d a t ai nu n ed i s ka r r a yi sd i f f e r e n t ,b u tp e o p l ea l w a y sc o n c e r nt h ed e p e n d a b i l i t yo fd i s k a r r a y 。w h i c hs h o u l db ed e p e n d a b i l i t yo fd a t ao ni t t h o u g hd i f f e r e n tb a c k u pm e t h o d , w cc a np r o v i d ed i f f e r e n td e p e n d a b i l i t yo fd a t a , b u tw ed i d n t c o m p u t e t h e d e p e n d a b i l i t yo fd a t ab e f o r e ( 2 ) o v e rt h el a s td e c a d e ,t h es e to fd a t ap r o t e c t i o n t e c h n i q u e sh a si n c r e a s e ds i g n i f i c a n t l y i na d d i t i o nt ot r a d i t i o n a lt a p e b a s e db a c k u p , o n l i n et e c h n i q u e su s i n gh i g h d e n s i t yd i s k sa n di n c r e m e n t a ls n a p s h o t sa r e b e c o m i n g a t t r a c t i v c e a c ht e c h n i q u ep r o v i d e ss o m ep o r t i o no ft h ep r o t e c t i o nt h a ti sn e e d e d ; c o m b i n e d ,t h e yc a nc o v e ram u c hb r o a d e rr a n g e n ek e yq u e s t i o n ,t h e n ,i sh o wt o d e t e r m i n et h ea p p r o p r i a t ec o m b i n a t i o no fd i f f e r e n tt e c h n i q u e st o p r o v i d et h ed a t a p r o t e c t k md e s i r e db yt h eu s e l1 r i l ec o m p l e xt e c h n o l o g i e sa n dt h ep a r a m e t e rm a k ei t d i f l i z r c n tt od e f i n eap r o p e rs o l u t i o ns u i tt h eu s e r sr e q u e s t i tn e e d sas t a n d a r dc a nb e u s et od c l i n eu s e rr e q u e s ta n dc o m p a r ed i f f e r e u t s o l u t i o n ( 3 ) b a c k u pi sn o tt h e 1 1 1 两北工业大学工学博上学位论文 p u r p o s eo fd a t ap r o t e c t t h ep u r p o s es h o u l db eh o wt od e c r e a s et h el o s to fd a t aa f t e r d i s a s t e r 哺cd i f f e r e n tb a c k u ps o l u t i o nt a k ee f f e c ta f t e rd i s a s t e r , b u tt h en o r m a l l y b a c k u po p e r a t ei sb o r e d a u t o m a t i cs t o r a g em a n a g ec a nd 0t h en o r m a l l yo p e r a t i o n s a n dr e c o v e r yq u i c k l yf r o md i s a s t e rt h a nh u m a n b e i n g r h er e s e a r c h e so ft h i s d i s s e r t a t i o ni n c l u d et h ef r a m e w o r ko fd a t ad e p e n d a b i l i t y a n da n a l y s i sm e t h o d ,b a c k u pa n dr e c o v e ra l g o r i t h mo f m a g n a n i m i t yd a t a ,a n a l y z eo f h i g hd e p e n d a b i l i t yt e c h n o l o g y , a n dt h ea u t o m a t i cd e p e n d a b i l i t ym a n a g e m e n t t h e p u r p o s ei s t ob u i l dap r o t o t y p eo fi n t e g r a t e da u t o m a t i cd e p e n d a b i l i t ym a n a g e m e n t s y s t e mt h r o u g hs o l v i n gt h e s ek e yt e c h n o l o g i e s ,w h i c hw i l lp r o v i d es u p p o r t i n gf o r a p p l i c a t i o no fm a s ss t o r a g es y s t e m sb a s e do ns a n 7 l h i sd i s s e r t a t i o nc o n t a i n st h er e s e a r c hw o r k ss i n c e2 0 0 1 ,i n c l u d i n gt h e f o l l o w i n g c o n t e n t s : 1 ,i h o u i g ha n a l y z e dt h ed e p e n d a b i l i t ym o d e lo fc o m p u t e rs y s t e m ,a c c o r d i n gt o t h ec h a r a c t c r so fd a t a ,p r o v i d eam o d e lt oa n a l y z ed e p e n d a b i l i t yo fd a t a t h em o d e l c o m b i n e sa v a i l a b i l i t y , i n t e g r a l i t ya n dd i s a s t e rr e c o v e r yi n t oo n ef r a m c w o r k 2a c c o r d i n gt ot h ed i s t r i b u t i o no fd a t ao ns p a c ea n dt i m e ,p r o v i d eac o m p u t e m e t h o df o rd a t ad e p e n d a b i l i t y a n dp r o v i d ear e c o v e ra l g o r i t h mt o g e tm i n1 0 4 a f t e r ,。 d i s a s t e ro fm u l t i d a t a 3 d e s i g na n di m p l e m e n tat o o lc a nm e a s u r ep e r f o r m a n c eo fd i f f e r e n tr e p l i c a t e t e c h n o l o g y i m p l e m e n tai p - s a ns i m u l a t i o nb a s e do rn s 2 4 d e s i g na n di m p l e m e n tat o o lw h i c hc a l ld e s i g nh i g hd e p e n d a b i l i t ys t o r a g e s y s t e m d e s i g na n di m p l e m e n taa u t o m a t i ch i g l ld e p e n d a b i l i t ys t o r a g em a n a g e m e n t s y s t e m i tc a ns i m p l i f yt h et a s ko fs t o r a g em a n a g e m e n tt od e c r e a s et h ec o s to f m a n a g e m e n t , r h ep a r to ft h i sd i s s e r t a t i o ni sc o o p e r a t e dw i t ha no v e r s e ai tc o r p o r a t i o n ( t h e t o p 5 0 0i nt h ew o r l d ) ,m o r e o v e lt h ec o m m e r c i a ls t o r a g es e r v i c em a n a g e m e n ts y s t e m b a s e do nt h i sd i s s e r t a t i o nh a sb e e np u ti n t om a r k e ta n d g e t sw i d e l ya c c e p t e d k c y w o r d :d a t ad e p e n d a b i l i t y , s t o r a g em a n a g e m e n t ,d i s a s t e rr e c o v e r y , s a n l v 西北t 业大学丁学博:j :学位论文 图表目录 罔2 一l 可靠性定义的框架1 9 图2 - 2 存储对象相关关系示意图2 6 图2 3 数据可靠性模型构成3 1 图2 4s n a p s h o t 和增量备份3 4 图2 5 副本集合对于特定威胁的划分3 6 图2 - 6 高可靠性系统设计方法3 9 图3 1 商哥r 靠性系统示例图5 l 图3 - 2 数据副本在时间和空间上的分布5 2 图3 3 副本价值随更新量下降曲线5 6 蚓3 - 4 多副本价值变化曲线5 8 图3 5 刁;l i q n 期备份损失变化示意图5 9 网3 - 6 混合周期备份损失变化示意图6 0 图3 7 复杂操作确认难常所需时间6 7 陶4 i 舔份系统网络拓扑图7 2 图4 2 卅步和异步模式下的写数据时序回7 3 图4 3 性能测试系统构成图7 4 罔4 - 41 i 同模式下写性能的比较7 7 网4 - 5 通过网络的备份方式7 7 图4 - 6 通过主机的备份与通过s a n 的备份方式7 8 图4 7 存储区域网络拓扑示意图7 9 图4 - 8 磁盘阵列的磁盘构成8 0 图4 - 9s a n s 使用示意图8 l 图4 1 0i s c s i 协议写数据过程8 2 图4 1 1 存储节点构成图8 3 幽4 1 2 单双路径对比试验结果8 5 图5 1 复制子系统构成图8 8 图5 2 软件系统模块构成9 0 目录 图5 3v o l u m e 关联方式9 2 图5 - 4 关联v o l u m e 状态转换图9 3 图5 50 l u 心l e 系统示例9 5 图5 - 6 使用a t o m i cb r e a k 机能的数据库系统9 6 图5 7c o n c e n t r a t o r 和d i s t r i b u t o r 示意图9 6 图6 1 可靠性方案的自动设计。1 0 0 图6 2 高可靠性自动设计工具实现方式。1 0 2 图6 3 可靠性的自动管理1 0 4 图6 4 实时监视画面1 0 6 图6 5 复制状态表示图。1 0 8 表2 1 数据的多维属性。2 5 表2 2 数据的特征描述3 2 表2 3 副本的特征描述3 4 表2 4 存储设备的特征描述3 5 表2 4 设备间连接的特征描述3 5 表2 - 5 副本分斫i 示意表3 6 表2 - 6 故障的特征描述3 7 表3 一l 导致计算机系统故障原因分类6 4 表3 ,2 造成数掘损坏的b u g 类型6 5 表3 3 造成数掘损坏的b u g 原因6 5 表4 - 1 不同大小数据复制性能数据7 6 表4 2 不同复制方式性能对比7 8 表4 3 试验环境8 4 表5 一l 复制子系统设计层次划分9 0 表5 2v o l u m e 的种类及含义9 l 表6 - 1 数据量变化监视项目 西北工业大学 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属于西北工业大学。学校有权保留并 向国冢有关部门或机构送交论文的复印件和电子版。本人允许论文被查 阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作 者单位为西北工业大学。 保密论文待解密后适用本声明。 学位论文作者签名:熬亟 2 0 e 年3 月j 占日 指导教师签名: 2 。年孑月曰 西北工业大学 学位论文原创性声明 秉承学校严谨的学风和优良的科学道德,本人郑重声明:所呈交的 学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所 知,除文中已经注明引用的内容和致谢的地方外,本论文不包含任何其 他个人或集体已经公开发表或撰写过的研究成果,不包含本人或他人已 申请学位或其它用途使用过的成果。对本文的研究做出重要贡献的个人 和集体,均已在文中以明确方式标明。 本人学位论文与资料若有不实,愿意承担一切相关的法律责任。 学位论文作者签名: 籁蜴 如年3 月“日 第一章绪论 第1 章绪论 引言 本章在1 i 节阐明了本文的研究目的和意义;在1 2 节介绍了相关的研究工 作现状,包括计算机系统可靠性的度量、高可靠性存储技术及自治的存储管理技 术三个方面;在1 3 节简要介绍了本文的主要工作和组织结构。 l :1 研究的目的和意义 全球经济矛经历着一场深刻的大变革,这场变革的关键就在于信息的应用。 信息正成为最具有活力、最重要的生产要素之一。在社会的各个角落,信息无处 不在,无时不在。随着计算机系统的发展,现代社会产生和需要处理的数据量激 增。据j u p i t e rr e s e a r c h 的报告显示,企业所产生的内容量每6 8 个月便以双倍 或更快的速率急增。信息量的激增加大了人们管理信息资源的难度,同时也给数 据的存储和处理提出了更高的要求。存储系统关注的标准包括容量、性能、可靠 性及可管理性。随着硬件技术的发展,存储系统的容量和性能提高很快,但是可 靠性和可管理性改善幅度并不大。因而目前的存储系统在可靠性和可管理性上面 临严峻的挑战。 加州大学b e r k e l e y 分校的p a t t e r s o n 在2 0 0 2 年的文件及存储系统会议( f i l e a n d s t o r a g et e c h n o l o g y , f a s t ) 上指出,自计算机问世以来,人们花费了1 5 年的 时l h j 来提高性能,现在人们更加关注为什么计算机会出现故障,以及为什么需要 那么多的人力来管t 堡 2 1 。在计算机发展早期,计算机系统的可靠性和可管理性 并没有得到人们足够的重视。随着硬件成本的降低及计算机应用范围的扩大,系 统可管理性及可靠性成为研究的热点。而随着数据量及其价值的激增,如何增强 数据的口j 靠性和可管理性也成为人们关注的焦点之一。如何度量和提高存储系统 巾数始的可靠性,以及如何高效地管理海量数据,成为了存储领域中急需解决的 重要课题。 弭北t 业人学工学博士学位论文 首先,随着信息价值的只益提高,存储系统中数据的价值已经远远超过了计 算机系统中软硬件的价值。意外的停机及数据损坏会给企业带来巨大的经济损 失。巾j 予商务网站( 如a m a z o n c o m 和e b a y c o m ) ,计划外停机一小时会损失2 0 万 美元,而金融机构计划外停机一小时的损失更是高达2 5 0 万到6 5 0 万美元。根据 2 0 0 1 年的一项在线调查【1 】,4 6 的公司认为他们停机每小时损失达到5 力美元, 2 8 的公司认为每小时损失在5 万到2 5 万之间,1 8 的公司认为损失在2 5 万到 1 0 0 j 之问,还有8 的公司认为损失在1 0 0 万以上。数据丢失则会导致更大的 损失,掘g a r t e r 的研究,8 0 的企业在发生信息损失事件后的5 年内倒闭。如何 设汁存f 啦系统和存储方案,以确保数据在遇到灾难时不受损失或少受损失,就成 为存储管理技术发展的一个热点问题。虽然目前已经提出并实现了多种高可靠性 技术,但足如何评价这些技术对数据的保护程度仍然缺乏有效的方法。 翻d f 主要用鲁棒性( r o b u s t n e s s ) 来评价计算机系统的可靠程度。鲁棒性是测 量系统对潜在的错误输入及受环境影响导致故障的概率。采用的方法包括实验 法、模型估计及故障插入等。利用这些方法已经对计算机硬件和部分软件进行了 可靠f 测罱1 5 i 6 1 。存储系统的可靠性也有了一定的研究 1 2 1 。在2 0 0 2 年s u n 公r l j 提出了仪仅使用鲁棒性不能表示系统韵可靠性,而应该使用3 r ,即故障率 ( r a t e ) 、系统鲁棒性( r o b u s t n e s s ) 和可恢复性( r e c o v e r y ) 来表示系统特性【2 4 】。但是 这些研究不能直接应用于数据可靠性的分析,主要原因如下: 1 数据恢复方式和度量不同于计算机系统中的软硬件。对于计算机硬件来 既,替换损坏的硬件即可使系统状态恢复正常,因此仅仅考察恢复系统所需要时 0 j j i ! 1 1 i i 。计算机软件故障的修复也采用类似的手段,使用p a t c h 替换出现问题的 软件病重新运行即可。而对于存储系统来讲,仅仅通过系统的恢复所需时日j 尚不 足以判断数锯的损失程度。数据的恢复并不都是完全恢复,可能会伴随一定的数 捌驰损失。 2 产生故障的原因不同。对数据来说,不是数据本身的设计或非法使用等 原冈导致数据故障,而是数据相关的软硬件环境故障导致了数据损失。对于数据 第一章绪论 末税,首先需要将软硬件故障根据对数据的影响进行分类,合成数据的故障负荷。 另外,同样的故障发生在不同的时阃也会导致不同的数据损失,因而数据可靠性 需要考虑随时自j 变化的特点。 3 人们常常把数据可靠性等同于存储设备的可靠性,这种观点没有区分不 同数掘的可靠性要求。也不符合数据存储的实际情况。海量存储系统中,同一磁 盘阵列上存放的数据具有不同的价值,因此需要采用不同的技术对其进行保护。 另一方面,同样的技术采用不同的参数也会造成数据的保护程度不同。使用存储 设备可靠性末评价数据保护程度的方法增加了数据存储的成本并且无法对海量 数掘进行区分管理。 为了更好地保护数据,人们已经设计并实现了多种高可靠性存储技术。例如 使用冗余磁盘预防磁盘故障的各种等级的冗余磁盘阵列技术( r e d u n d a n ta 埔o f i n d e p e n d e n td i s k s ,r a i d ) :利用磁带、磁盘进行复制及远程复制和快照技术 ( s n a p s h o t ) 等。这些技术在使用时需要设定备份间隔,冗余程度等参数,不同参 数会得到不同的保护效果。另外,不同厂商都开发了不同的设备和技术,这些设 备和技术并没有统一的评价标准。这些都给高可靠性存储系统的设计和管理带来 丫巨大的挑战。 激增的数据给企业带来利润的同时,也需要企业在数据的管理和维护上投入 大量的财力承1 人力。在分布式存储环境下,人均可管理的存储容量很小。存储网 络技术的m 现使管理人员可以管理更多的数据。但是如何高效地管理这些数据成 为一大难题。随着硬件的发展,存储系统中硬件所占成本逐渐降低,存储系统的 管理成本越来越高。如何降低存储系统的管理成本、提高管理效率成为一个重要 的课题。自动存储管理系统是解决这一问题的途径之一。h p 、i b m 和国内外各 大研究机构都对存储系统的自治管理展开了研究【5 8 】【5 9 】【6 1 】 6 2 】【6 6 【6 7 】,但是大 家普遍认为存储系统自治管理还不成熟,甚至有人提出了不可能完全实现自治管 理的意见1 6 0 6 3 。 两北工业人学工学博士学位论文 但是,我们认为完全的自治管理虽然难于实现,但是存储系统中可靠性的自 治管理仍然是可行的,而且自治管理系统比管理员更胜任这个工作。原因如下: 1 在设计好并实施的存储系统中,影响数据可靠性的因素是有限的,通过 对这些因素的髓测,可以做到像管理员一样调节数据的可靠性。另外。调节数据 可靠性的方法有限,主要通过副本的创建方式和时问来调节。通过建立准确的可 靠性计算模型,可以得出当前的数据可靠性,定期和用户的要求进行比较并进行 调整。 2 存储系统管理中数据可靠性的维护是重要的工作,而管理员主要采取的 措施足数据的定期备份和恢复。备份工作单调繁琐,适合利用计算机来处理。而 恢复r 作在指定恢复策略后,计算机自治系统能更快地通过判断选择合适的副本 进f i 恢复,加快数据的恢复过程。因此,使用自治系统来管理数据的可靠性能得 到比毯;理员更好的效果。 琏于以上背景,本文围绕存储系统中数据可靠性的问题进行了深入的研究。 研究的f l 的足通过解决存储服务中与数据可靠性相关的几个关键技术问题,建立 可眶复、灵活通用的数据可靠性度量和评价标准,并以此为基础。迸一步创建了 一个集成的管理存储系统中数据可靠性的自治管理系统,试图为存储管理系统的 设汁建立理论基础,并为基于存储网络的大规模存储系统的应用提供支持。 1 2 相关研究情况综述 1 2 1 系统可靠性的度量 物理系统和生物系统会随着时问的推移而老化、功能退化及失效。失效的具 体时问是不确定的,可靠性理论研究的即是这种不确定的系统。可靠性研究的目 标足保证目标系统在一定时间内正常工作。系统的可靠性可定义为系统在规定条 第一章绪论 件和规定时1 日j 内完成规定功能的能力。可靠性研究的首要任务就是如何规定和度 量系统的可靠性。 研究可靠性度量的目的是创建一个用户和厂商都能接受的标准,用来评估系 统的特性。n r 靠性度量的研究方法主要是通过实验来评估目标系统,包括故障注 入和鲁棒性测试【5 】 6 】。以往的研究包括如何利用鲁棒性来评估计算机系统的可 靠性 8 1 1 9 i 。也有研究评估软件可靠性的标准【8 】,并利用该标准,对w i n d o w s n i 4 2 0 0 0 x p 的可靠性进行了评估【9 】,及对不同u n i x 平台上运行的软件进行的 可靠性评估b 0 f 1 1 】。 1 ) b c n c h i1 3 1 是一个欧洲的为期3 年的可靠性研究项目,它的主要目标就是评 价基于c o r s ( c o m m c r c i a lo i f - t h e s h e i f c o m p o n e n t ) 计算机系统的可靠性,找出其 薄弱环节,找出调节计算机部件增强可靠性的方法,及找到比较不同方案优劣的 方法。他们研究的范围包括通用操作系统、实时系统、嵌入式系统和联机事务处 理系统( o n l i n e t r a n s a c t i o n p r o c e s s i n g ,o l t p ) 应用 1 4 1 。陔项目的成果可以用 来分析整个系统,也可以用来分析包含c o t s 部分软件的可靠性。 对于需要连续运行的系统,主要通过系统的鲁棒性来定义可靠性。s u n 公 司于2 0 0 2 年提出了3 r 评价标准 2 4 1 ,3 r 分别表示故障率( r a t e ) 、系统鲁棒性 ( r o b u s t n e s s ) 和可恢复性( r e c o v e r y ) 。该标准可以单独使用,也可以作为其它评价 的补充。评价的对象可以是整个系统,也可以是系统中的子系统。对于需要连续 运行的系统,可恢复性反映了系统在出现故障时的不同反应,因此该参数具有重 要意义。随后,该模型的作者又撰文专门强调了系统可恢复性的度量方法和意义 1 2 5 i 。 作为一个评价标准,可靠性的度量也必须具有可重复、测量结果一致的特点。 计算机性能f 勺评价是通过执行一系列指定任务所需时间来完成的。可靠性评价必 须l 】确系统使用的环境,包括系统构成、应用负荷和故障负荷等。然而,计算机 系统是山软件,硬件、人组成的混合系统,所涉及的故障不像单纯的电子产品那 两北工业大学工学博士学位论文 样筋单。在计算机系统中,首先有来自不同厂商的硬件、软件产品,其次随着中 日j 件、构件技术的发展,计算机系统的可靠性评估更加复杂化。可靠性度量的难 点上要在于故障率( f a u l t l o a d ) 难以确定,而目前已经进行了硬件故障率的分类 统计i1 6 i ,操作者故障的测量 1 7 1 1 1 8 1 及基于软件的故障率的表示【1 9 】。 作为信息化发展的必然结果,信息的价值已经远远超过系统软硬件的价值。 如何保证数据的可靠性对国家、社会、企业来说,是一个重大的问题。当9 1 1 事 件发生后,人们认识到一些灾难事件( 如地震、火灾、硬件故障和软件故障等) 会造成数据丢失,进而使组织遭受毁灭性的打击。据美国劳工局统计:在曾遭受 重大数据丢失的公司中,9 3 的公司在5 年内破产。根据g a n t e r g r o u p 的报告, 在蜩经历过大型灾难或长时间系统停运的公司中,有2 5 的公司再也未恢复运行, 而在其余的公司中,有1 3 的公司在两年内破产。 对企业来讲数据故障比软件和硬件故障可能更为致命。在文献 1 2 1 中测试 r 软件r a i d 的可靠性。h p 公司意识到存储系统的重要性,在这方面也做了研 究,提j 度量存储系统可靠性的模型,认为必须给出存储系统可靠性的定义和 测髓方法,j 1 能确保是否满足用户的可靠性要求。该模型中使用恢复a ( r p o ) 和 恢复时i 日j 似r 0 ) 来表示存储系统的可靠性【2 1 】。 但是上述这些研究并不能直接应用于数据可靠性的度量。与软硬件故障的恢 复相比,数据故障的恢复往往是不完全恢复,因此需要分析数据的恢复程度。另 外,引起数据故障的原因不是数据本身,而是计算机系统的软硬件没施及环境, 所以对故障负载的度量和统计方式也不相同。 硬件可靠性的发展促进了电子产业质量的发展。软件可靠性的发展促进了软 件丁= 程l 岖论的发展,并在软件的开发过程中也起着重要的作用。我们相信通过数 据町靠性的度量定义和测量方式的完善,将能够更加准确地对数据进行区分保 护,在避免造成重大的经济损失的同时降低用户的存储成本。 第一章绪论 i 2 2 高可靠性存储技术 现代计算机是依据冯- 诺依曼的体系建立的,其指令和需要处理的数据都存 放在存储器中。从最丌始,存储系统就是计算机系统必不可少的组成部分,并随 着计算机系统的发展而不断发展。2 0 世纪5 0 年代,i b m 生产了第一个磁盘驱动 器。随后多家厂商致力于存储的容量和性能的提高,7 0 至8 0 年代温彻斯特磁盘 技术的发展1 3 8 1 ,使得磁盘驱动器的容量和性能飞速提高,但仍无法满足某些应 用对性能和可靠性的要求。9 0 年代r a i d 技术的发展【3 9 】,克服了单个磁盘在性 能和可用性方面的局限性。但是,r a i d 技术仅仅能避免单个磁盘故障,仅仅依 靠r a l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论