(计算机系统结构专业论文)机群文件系统性能与正确性研究.pdf_第1页
(计算机系统结构专业论文)机群文件系统性能与正确性研究.pdf_第2页
(计算机系统结构专业论文)机群文件系统性能与正确性研究.pdf_第3页
(计算机系统结构专业论文)机群文件系统性能与正确性研究.pdf_第4页
(计算机系统结构专业论文)机群文件系统性能与正确性研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机系统结构专业论文)机群文件系统性能与正确性研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

丝垩 一一 摘要 计算机存储系统,特别是相对慢速的外存储系统一直是影响计算机整体性能的 “瓶颈”。目前,机群系统已经逐渐成为超级计算机与超级服务器的主流结构,但外 存储系统仍然是它进一步提高性能与可靠性的主要障碍。近年来,随着网络技术的飞 速发展,基于机群节点间高速互连网络的机群文件系统已成为解决机群外存储系统问 题的有效策略之一。【然而在机群系统中,不同类型应用在文件存取性能及语义需求等 方面存在较大的差异,如何为具有不同需求的应用提供足够的文件i ,o 性能,并保证 其文件存取操作的正确执行已成为机群文件系统设计的关键问题。卜7 一 本文结合曙光机群文件系统d c f s 的设计与实现,对如何有效提高机群文件系统 性能、保证应用的正确执行方面进行了较有成效的研究,主要内容包括:以c 0 s m o s 文件系统为原型系统,研究了机群文件系统中通信子系统对整体性能的影响;研究了 机群文件系统结构优化对元数据操作的性能影响;以支持瑚p i - i o 并行计算为目标, 研究了在支持客户端缓存情况下,如何实现文件系统客户端缓存一致性语义的协议。 l 具体研究成果如下: ( 1 ) 首次提出并发带宽利用率的概念,以量化的方式来评价系统整体效率与服 务器外存储子系统及节点间通信机制间的关系,有助于人们更加合理地设计与部署机 群文件系统。 ( 2 ) 提出了改善并发带宽利用率的一些策略,在基于曙光3 0 0 0 的机群文件系统 原型中,着重研究了通信子系统对并发带宽利用率的影响。在原型系统中应用了基于 m 蜘n e t 高速交换网络的精简通信协议b c l 一3 ,性能测试的结果表明,相对于使用 e t i l e m e t 网络与t c p ,p 协议的系统,机群文件系统客户节点文件i ,o 带宽得到了显著 提高,系统并发带宽利用率从4 0 以下提高到了9 0 左右。 ( 3 ) 提出了f p l s 及f p l s + 路径解析优化协议,通过调整元数据分布结构以及 改进客户节点核心路径解析操作算法,来提高信息服务类应用中大量元数据存取操作 性能。 模拟实验结果表明,在最佳情况下,新型路径解析协议可将路径查找时间减少到 普通路径解析协议所用时间的2 0 2 。 ( 4 ) 提出了一种可直接操纵文件系统客户端缓存的扩展文件锁协议。 这种协议可以使机群文件系统在支持客户端缓存的情况下,能满足并行计算应用 接口m p i i o 对底层文件系统的并发共享文件i ,o 的语义需求。与一些现有系统中的 袱觌锵舭总撇贿觯聪僦氘才厂一 关键词墼壁丕篓机群j 兰! 瞵统妞登适信系统 并发共享文件 ,_ _ 。,_ _ _ _ _ _ ”一1 。“一,- _ - - 一一 垒! 壁! 兰! 一 一 r e s e a r c ho ni m p r o v i n gp e r f o r m a n c ea n d c o r r e c t n e s so fn e t w o r kf i i e s y s t e m h e j i n ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db yp r o f e s s o rx uz h i w e l c o m p u t e rs t o r a g es y s t e m ,e s p e c i a l l yt h es l o w e s tp e n p h e r a ls t o r a g es y s t e mh a s b e e n t h eb o n l e n e c kw h i c hh e a v 订yi n f i u e n c e dt h ep e r f o m a n c eo fc o m p u t e rs y s t e m c u r r e n t ly t h e c l u s t e rs y s t e mh a sb e c o m et h em a i n s t r e a ma r c h i t e c t u r eo fs u p e r c o m p u t e r sa n ds u p e r s e r v e r s , b u tp e r i p h e r a is t o r a g es y s t e ms t 川p l a y e da 1 1i m p o n a n tr o l es t u n t i n gt h ei m p m v e m e n to f t h ep e r f o 肌a n c ea n ds t a b i 】i t y o fm o d e mc o m p u t e rs y s t e m s w i t ht h e h i 曲s p e e d d e v e l o p m e n to fn e t w o r kt e c h n o l o g yi n r c c e n t y e a r s ,t h ec l u s t e rf i l e s y s t e mb a s e do nt h e h i 2 h s p e e di n t e r c o n n e c tn e t w o r l ( h a sb e e no n eo fm o s te 硒c i e n ta p p r o a c h e st or e s 0 1 v et h e s o c a l l e di ob o t t l e n e c k h o 、v e v e rj nc 】u s t e rs ”f e m ,a p p l j c a t i o n se x p r e s s 出f f e r e n tj e q u j f e m e n t sj ns e m a n t i c s a n dp e r f b m a n c e ,h o wt op r o v i d ee n o u 曲f i l e1 ,op e r f o m a n c ea n dp r o v et h ec o r r e c t n e s so f f i l ei ,oo p e r a t i o t l sf o ra p p l i c a t i o n sw i t hd i 仃c f e n tt e q u i r e m e n th a v eb e e nt h ek e yi s s u e so f n e t w o r k f i l e s y s t e md e s i g n w i mt h ed e s i g na n di m p l e m e n t a t i o no fd a w n i n g c l u s t c r 丘l e s y s t e m ,t h i st h e s i sd e e p l y e x p l o r e dt h eb a s i cp r i n c i p l et oi m p r 0 v en e t w o r kf i l e s y s t e mp e 哟n n a n c e ,a n dp m v et h e c o r r e c tr e s u l to fa p p l i c a t i o n s t h ec o n t e n to fr e s e a r c hi n c l u d e st h ef b l j o w i n g s :r e s e a r c ho n t h ei n f l u e n c eo ft h ec o 胁u n i c a t i o ns u b s y s t e mt oi n t e g r a js y s t e mp e r f b r r n a n c ea n db u i i d i n g c o s m o sn e t w o r kf i l e s y s t e mp r o t o t y p e ,a d j u s t i n gt h en e t w o r k 疗i e s y s t e ma r c h i t e c t u r ea n d i m p r o v i n gt h ej n t e n s i v ef i l em e t a d a t ao p e r a t i o n s p e 怕n n 柚c eo fi n f o r n l a t i o ns e r v i c e s w o r k l o a d ,e x t c n d i n 2f i l ei o c ki n t e i f a c et op r o v et h ec o n l e c te x e c u t i o no fl v l p i i op a r a l l e l c o m p u t i n ga p p l i c a t i o n s t h ed e t a i l e dr e s e a r c hr e s u l t sa r et l ef o l l o w i n g s : 1 t h i st h e s i sf i r s t l yp r o p o s e dt h ec o n c e p to fc o n c u r r e n tb a n d w i d t hu t i l i z a t i o n u s i n gi t , p e o p l ec a na c c u r a t e l ye v a l u a t em ef e l a t i o n s h i pb e t w e e ns y s t e me f f i c i e n c ya n dt h en e t w o r k c o m m u n i c a t i o ns y s t e m ,i ,os u b s y s t e mi ns e “e r s i tc a nh e l pp e o p l ed e s i g na n dd e p l o y n e t w o r k f i l e s y s t e mm o r e t e a s o n a b l e 2 g i v es o m ea p p r o a c h e st oi m p r o v et h ec o n c u r r e n tb a n d w i d t hu t i l i z a t i o n w ea p p l i e d b c l 一3a n dm y r i n e ti nap r o t o t y p eb a s e do nd a w n i n g3 0 0 0s u p e r s e r v e r ,a n ds t u d i e da n d m e a s u r e dt h ei n f l u e n c eo fc o m m u n i c a l i o ns u b s v s t e mf o rc o n c u r r e n tb a n d w i d t hu t i l i z a t i o n t h ep e r f 0 加a n c er e s u j t ss h o wf a j r l yh i 曲e rb a n d w i d t ha r e a c q u i r c df o rt h ef i l e s y s t e m c j j c n t sc o m p 撕n gt op r o t o f y p es y s t e 】1 】b a s e do n 】0 0 m b p se t h e m e ta n dt c p p ,a n d h e c o n c u r r e n tb a n d w j d t hu t i l i z a t i d ni si n c r e a s e df 而mj e s st h a n4 0 t oa b o u t9 0 3 t h i st h e s i sp r e s e n t e dt h ef p l sa n df p l s + p a t h n 狮el o o k u pp r o t o c o 】t oa c c e l e r a t e t h em e t a d a t aa c c e s sb ya d j u s t i n gm e t a d a t al a y o u ts t r u c t u r ea 1 1 d i m p m v i n g t h ep a t h n a m e l o o k u pa 】g o r j t h mi n c 】j e n tn o d ek e m e l f m mt h er e s u l t so fs i m u l a t i o n ,t h en e wd a t h n a m e i o o k u pp r o t o c o lc a ns h o n e nt h et i m eo fp a t h n a m er e s o l u t i o nt om e2 0 2p e r c e n to ft h et i m e n o r m a lp a t h n 啪er e s o l u t i o nn e e d # l 褂文引系统性能优化i i :确性研究 4 a tl a s l ,t h i st h e s i sg a v ea ne x t e n d e df ij el o c kp m t o c o 】b o u n d e dw i t ht h ef j l e s y s t e m c l i e n tc a c h ei tc a nm a k ei t p o s s j b l et oc o n - e c i l yl m p i e m e n tm p i i op a r a l l e lc o m p u t i n g i n t e r f a c e ,a n dp r o d u c e 九g h tr e s u l t si nt h ec a s eo fc o n c u r t e n ta c c e s st os h a r e df i l ef t o m m u l t i p l ep r o c e s s e so c c u n - e dw h e nk e e pt h ec l i e n tc a c h ee n a b l e d c o m p 撕n gt h ea p p r o a c h e s i ns i m l l a r s y s t e m s ,t h i sp r o t o c o lw o n i ni t ss i m p l i c i t ya n dm b u s t n e s s k e y w o r d s :c o m p u t e rc l u s t er c l u s t e r f i l e s y s t e m , c l u s t e rc o m m u n i c a t i o n s y s t e m c o n c u r r e n ts h a r e df i l ei o 独创性声明 本人声明我所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志 对本文所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名: 餮弓形日期:乡2 关于论文使用授权的说明 中国科学院计算技术研究所有权保留送交论文的复印件,允许论 文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、缩 印或其它复制手段保存该论文。 作者签名:翟锄 导师签名: 日期:乡门 笙二兰! ! 互一 第一章引言 在过去的二十年中,半导体技术以及网络技术的高速发展可以用f 新月异来形 容,但外存储设备的发展却远不能令人满意。j 下是两者间的差异导致了现代计算机系 统体系结构中的所谓“i ,o 瓶颈”,即c p u 、内存与网络部件或存储设备之间出现的 巨大性能差距,它严重制约了现代计算机的整体性能。早在1 9 9 6 年,p a t t e r s o n 与 h e n n e s s y 【2 8 】就指出“i n p u u t p u th a sb e e n t h eo 咖a no fc o m p u t e ra r c h i t e c t u r e ,i o s r e v e n g e i sa th a n d ”。 长时间以来,人们一直在试图解决或者缓解i ,o 瓶颈问题,这些努力包括了对存 储设备本身性能的优化( 提高存储设备的数据传输率与容量) 、对主机外围接口新技 术( 如外围总线等) 以及新型存储体系结构的研究等。 机群文件系统是目前机群系统解决i ,o 问题的一种重要方式,其主要策略是采用 高效的数据分布策略以及高速网络系统。本文主要针对大规模科学计算与信息服务平 台的需要,对提高网络文件系统性能与保证应用正确执行的关键技术进行了研究,从 通信子系统、元数据存取以及协议构造等方面对机群文件系统设计进行了深入探讨。 本章首先总结了目前外存储系统面临的挑战,然后分析了在外存储设备以及与之相关 的外围接口总线、网络技术和网络存储技术方面的进展,最后给出了本文的后续章节 安排。 1 1外存储系统面临的挑战 外存储系统面临的两大挑战是如何容纳日益膨胀的数据量以及确保重要数据的 安全性与可用性。 1 1 1 日益增长的数据量 信息社会的发展使得越来越多的信息被数据化,尤其是伴随着h l t e m e t 的发展, 数据呈爆炸式增长。据国际著名市场调查公司d c 预测,从1 9 9 9 年开始到2 0 0 2 年, 与h i t e m e t 相关的存储系统将会增长1 4 倍【1 1 2 】。作为网络的驱动因素,信息数据正 在成为网络的核心,数据的安全、高效存储和管理作为网络发展的基础,日益受到人 们的重视。未来几年内,存储技术将成为令人瞩目的一个市场。基于i n t e m e t 的应用, 如电子商务、电子邮件和客户关系管理( c r m ) 等将成为存储服务的主要市场【1 1 2 】, 这些应用都需要对海量数据进行快速访问。它们不但需要存储系统容量能持续扩大, 而且对数据的有效管理提出了更高的要求。 传统的数据密集型科学计算应用也依然继续受到i ,o 瓶颈的严重限制。从中国科 学院计算技术研究所承担的雷达地形数据处理项目【1 1 2 】中,我们可以看到典型图像 数据应用对存储系统容量与带宽的需求。在此项目中,平均每天要产生o 5t e r a 比特 的新数据,持续的传输带宽需求为3 4 m b ,s 。在这种典型的数据密集科学计算应用中, 高性能存储i ,o 的性能已经成为决定应用是否可以j 下常运行的关键因素。 堡壁兰丛墨丝丝! ! 垡些! 坐堕堡竺塑一 1 1 2 数据安全面临的威胁 2 0 世纪8 0 年代以来,由于客户机服务器计算模式的出现,数据存储系统开始 分布化的趋势。网络文件与数据库服务器成为重要数据的集中地,而客户机也存放一 定量的数据,数据的分布造成数据存储管理的复杂化。在i n t e r n e t 时代,人们期望网 络数据总是处于随时可用的状态,这迫使i n t e m e t 服务提供商与企业尽力保证数据处 干2 4 7 3 6 5 的可用状态,但恶性病毒与入侵者、突发性灾难与人为失误等因素往 往使得这种美好期望成为泡影,而备份与数据冗余技术可以在一定程度上减少上述因 素给关键数据造成的威胁。 在美国,服务器与备份设备的连接已经达到6 0 以上。而在国内,只有不到1 5 的服务器连有备份设备,这就意味着8 5 以上的服务器中的数据面临着随时有可能 遭到全部破坏的危险【1 1 4 】。对于一个企业来说,网络数据的安全性是极为重要的, 一旦重要的数据被破坏或丢失,就会对企业日常生产造成重大的影响,甚至是难以弥 补的损失。据美国劳工部的统计数据,9 3 的有严重数据丢失的公司在5 年之内破产。 美国威斯康星大学的统计结果也显示,4 3 的美国公司在遭遇数据灾难后倒闭;而2 9 的公司在两年之内破产。这些统计数字表明,提供可靠的数据存储保证是至关重要的, 而有效的保证手段是采取数据备份与数据冗余技术【1 1 4 】。 1 2 外存储系统技术进展 虽然面临严峻的挑战,但随着半导体技术与网络技术的高速发展,人们在外存 储系统的研究也在不断进展,各种新技术层出不穷。本节将详细报道目前外存储系统 相关技术的最新发展,如磁盘与磁盘阵列技术、外围接口总线技术与网络技术等方面 的进展。 1 2 1 磁盘技术 磁盘是构成外存储系统的主要设备,各大厂商正在努力提高磁盘设备自身的性 能来改善外存储i ,o 性能与可靠性,目前主流磁盘( 硬盘) 的容量在4 0 g b 左右,典 型的转速为3 6 0 0 转,分钟、4 5 0 0 转,分钟、5 4 0 0 转,分钟、7 2 0 0 转,分钟以及1 0 0 0 0 转, 分钟。磁盘数据访问时间包括寻道时间、旋转延迟、介质存取时间和总线传输时间等 几个部分,一般对磁盘性能的优化从以下几方面入手【1 1 5 】:减少寻道时间、提高磁 盘驱动器马达主轴的转速以及优化磁盘控制器内部的调度算法( 包括缓存和请求调度 等) 。 寻道时间是指磁头驱动机构移动到相应磁道所需要的时间,它受限于驱动机构 的质量以及电机产生的热量。这些热量会降低设备可靠性、破坏存取机制,并有可能 带来存取错误。通过减少驱动器移动臂的质量和使用小直径盘片缩短移动距离,可以 在一定程度上减小寻道时间。目前磁盘的平均寻道时问( 读操作时) 为l o m s 左右 【儿8 】,而高端产品的平均寻道时间已经降低到了5 m s 左右【1 1 7 j 。 所有对磁盘上数据的读写操作都必须等到磁头到达数据所在磁道上目标块正上 方后才能进行,这就是旋转延迟产生的原因。在二十世纪8 0 年代,典型的磁盘转速 为3 6 0 0 转,分钟,即旋转一圈的时间为1 6 7 m s ,平均时延为8 3 m s 【1 1 9 】;到九十年代 中后期,平均时延已经下降了一半左右,约为4 8 5 5 m s ;目前由于磁盘转速已经提 高了7 ,2 0 0 转,分钟到l o ,0 0 0 转,分钟的范围内,此数值已经降低到了3 0 m s 左右。 磁盘数据传输速率是磁盘的线性记录密度和转速的乘积。目前应用u l t 甩d m a 6 6 2 笙二童立! 立一 与u l t m d m a i o o 技术的a t a e i d e 磁盘的传输速率可以达到6 6 m b ,s 或 l o o m b s 1 2 2 】,而s c s i 接口磁盘数据传输率也在继续增长,目前s c s i1 6 0 标准下的 数据传输率可以达到1 6 0 m b ,s 【7 9 】。 另外,随着半导体技术的发展与成本的下降,人们试图给磁盘设备增添更多的 智能,如卡内基梅隆大学的a c t i v ed i s k 【5 】和a n s i 的t l o 委员会提出的0 b d 【8 6 】都 尝试将更多的控制权赋予磁盘控制器,让它来更加合理地分布数据,另外还期望这种 技术获得更好的可扩展能力【儿6 1 。为了有效发挥智能控制器的作用,目前一般磁盘 上的内置缓存容量已经在2 m b 以上,4 m b 甚至8 m b 的驱动器也已经出现,如昆腾 公司的a t l a sl o k 系列硬盘。 1 2 2 磁盘阵列技术 1 9 8 8 年加州大学b e r k e l e y 分校的d a v i da p a t t e r s o n 等人首次提出了廉价磁盘冗 余阵列( r e d u n d a l l ta r r a y so fi n e x p c n s i v ed i s k s ,r a d 【1 6 】【1 7 】) 等级划分的概念( 也 有人认为应该是独立磁盘冗余阵列,r e d u n d 柚ta m y s o fi n d e p e n d e n td i s k s ) 。他们根 据容错级别与数据分布方式的不同,提出了五种不同的r a d ,即r a d l r a d 5 共5 级,并把传统的无冗余结构的磁盘阵列结构定义为r a d o 级。r a d 由于采取 数据分块技术,即在多块磁盘上交叉存放数据,使得多个磁盘可以并行工作,从而改 善比i 响应时间。另外,采用冗余技术,极大地提高了磁盘阵列的可靠性和可用性。 在过去一些年里,又产生了一些新的磁盘分级,如r a d l o 、r a d 6 与e ! n o 叻 等。图1 1 给出了几种典型的r a d 结构。 目目目目目目日团目园 ( 1 ) f t do :数据分块,无校验 ( 2 ) r d1 :镜像 日曰曰园囫囫曰曰日囫 ( 3 ) r i d2 :位交叉,海明码纠惜 ( t ) r d3 :位交叉,奇偶棱验 目目目目目圉目国国国 ( 5 ) r i d4 :块交叉,固定校验盘( 6 ) r i d5 :块交叉,校验信息分散存放 国圉国圉国圉目目目圉 l 、。l 、l 一l l 。,jl ,l 。一k 。一l l 一 ( 7 ) r a i d1 0 :分块与镜像结台 ( 8 ) r d6 :纠双错阵列 图1 1 阵列分级示意图( 摘自【1 1 9 】) r a d o 数据分块存放在所有磁盘上,无容错能力。因为不包含任何冗余信息的 阵列,所以其性能( 带宽与吞吐率) 在所有r a d 级别中d d 性能最佳,但可靠性只 能达到普通单块磁盘的1 n ( n 为系统中包含的磁盘个数) 。 r a d l 也称作镜像阵列。在镜像阵列中,磁盘分成一组镜像对,每个磁盘上的 数据在与之保持镜像关系的磁盘上保持着完全一样的备份。r a dl 具有很高的可靠 性,它可容忍多至n ,2 个磁盘的失效。r a dl 中的每个驱动器都有自己独立的数据 通道,支持并发性读写,主要的缺点是代价昂贵,系统需要牺牲半的l ,o 带宽和容 ! ! 壁皇丛墨丝堂堂垡些:! 生塑丝塑! 壅 量来获得较高的可靠性。 r a i d2 把磁盘分为数据盘和校验盘。用户数据按位或按字节分散存放于数据盘 上,校验盘上存放相应的海明纠错码,这使冗余度从镜像盘的i o o 降至大约2 5 _ 4 0 ,但系统能容忍的失效盘数也减少了。由于纠错码的限制,r a d2 中每一次数 据的读写操作,所有的磁盘都要参与工作,这使得i ,o 请求的并发性降低,吞吐量受 到限制。 r a d3 采用相对简单的校验码来保证数据的完整性,校验盘数减至l ,冗余度 为l ,n ,数据以位交叉方式存放。当单盘失效时,可从剩余的磁盘和校验盘上读出相 应单元的数据再异或而得,如d ,= 哦o d o d ,o o 尸。若要能容忍更多的磁盘 失效,可采用多校验盘或采用更复杂的检纠码如r e e d s o l o m o n 码或m d s 码。r a d 3 有很高的数据传输率,特别适用于图像处理、科学计算( s p m d 计算模式) 等应用环 境,r a d3 利用阶段锁定循环来同步转轴的旋转。r a d3 同r a d2 一样,每次写 数据操作要重新计算校验,每次只能处理单个i ,o 操作,不适合于实时应用场合,但 对大块i ,o 请求有良好的吞吐量和高的i ,o 带宽。 r a d4 采用块交叉方式独立传送,即在扇区一级进行数据交叉,使用一个专用 冗余盘存放检验信息。r a d4 具有与r a d3 相类似的优点,但存取速度不高。 r a d5 把校验盘分散存于阵列中,解决了r a d4 中校验盘是磁盘系统的瓶颈 这一问题。r a d5 的校验盘均匀地分布在阵列中,很好地保证了阵列的负载平衡。 r a d5 结构同样支持多盘的并发读写,但是r a m5 对控制器的要求很高,控制器 除了要具备快速传输能力外,还要有很强的计算能力。 r a d6 是一种采用分块交叉技术及双磁盘驱动器容错的磁盘阵列。由于它有两 个磁盘驱动器用于存放检、纠错冗余代码,即使在双盘出错的情况下,仍能保证数据 的完整性和有效性。因此,r a d6 有很高的数据有效性和可靠性,特别适用于可靠 性要求很高的领域。r a d6 中数据和校验信息分块交叉存储在r a d 所有的磁盘上。 多个磁盘可同时读写,传输率较高。但每次写入数据时要对三个磁盘驱动器( 一 个数据盘和两个校验盘驱动器) 访问两次,因此写性能比r a d5 差。 r a d1 0 实际上是r a ) 0 + r a d l 。它同时采用分块和镜像技术,通过分块镜 像集实现。采用分块技术,多个磁盘可并行读写,磁盘i ,o 性能很高;采用镜像存储 使得其可靠性优于其它所有级别的磁盘阵列。由于集中了r a d0 和r a d1 的优点, r a d l o 的性能是所有r a d 类型中最好的,但由于每次写入数据时要写两个互为镜 像的盘,因此写操作开销比较高。 另外还有一些其他的r a d 分级方式,如r a d3 0 ,它实际上是r a do + r a i d 3 的一种阵列结构,集中了r a d o 级和r a d3 级的优点;r a d5 0 则是r a i do + r a d 5 的种阵列结构,集中了r a do 级和r a d5 级的优点;旧o d ( j u s tab u n c ho f d i s k s 就是串磁盘) ,每个磁盘的功能完全独立于其他磁盘,在许多d r y ( d oi ty o u r s e l f ) 的系统中都将其通过主机软件构成一个“软”阵列结构。 现在研究人员对r a d 的研究还在继续,其中比较有代表性的成果是h p 实验室 提出的a u t o r a d 【3 9 】。h pa u t 0 r 锄技术综合不同r a d 优点,采用多级r a d 阵 列。 a u t o r a 【3 9 】将最近经常使用的数据放在按r a dl o 存储的快速高性能磁盘 上;将不太常用的数据放在r a d5 存储的经济高效的磁盘内。其本质思想在于使用 更加快速的r a ml o 存储作为相对较大且较便宜的r a d5 区域数据的缓存。另外在 a u t o r a d 中,r a d5 空f 1 可采用日志结构的缓冲式奇偶校验技术,通过它避免了r a d 5 执行数据写操作产生的“读一修改一写”多个m d 请求的缺陷。 4 一 星二:茎! ! 童 一 a u t o r a i d 系统安装、配置和扩展都非常简单。动态数据转移是h pa u t o r a i d 的一大特点,它是系统内部的一套控制机构,能够连续监视磁盘阵列的性能,并决定 是将数据保持在缓存中、还是将数据按r a i d l 存储以及是否应将数据写入r a d5 阵列。高性能的r a dl o 用来接收新数据,不常用的数据按r a d 5 存储。这些控制 机构能够适应各种不同的情况,以保持系统的高性能。 1 2 3 外部设备接口技术 在大型机时代,为了协调慢速i o 设备( 包括打印机、磁带机与磁盘) ,出现了 所谓通道处理机的概念。自从m m 推出世界上首台p cx t 以来,以总线结构构造外 围设备接口( i s a 、e i s a 、m c a 、p c i 、s b u s 等) 似乎成为了现代计算机体系结构中 的标准。挂接在这些系统总线之上,为外部存储设备设计的接口主要有两大类:s c s i 与a 1 r a 。 1 2 3 1s c s s c s i ( s m a l lc o m p u t e rs y s t e mi n t e r f a c e ) 【7 9 】的前身是美国s h u g a na s s o c i a t e s 公 司开发的小型硬盘和软盘驱动器接口s a s i ( s h u g a n a s s o c i a t e s s y s t e m i n t c r f a c e ) 。s a s i 标准具有总线仲裁与设备选择等功能。各个设备之间是双向对等( p e e r - t o p e e r ) 关系, 而非主从关系,s a s i 是s c s i 的雏形。 1 9 8 6 年,a n s i 的t l o 技术委员会在s a s i 的基础上进行了功能扩充和协议标准 化,审议制定了s c s i 标准a n s ix 3 1 3 1 一1 9 8 6 ,并将其确定为通用接口标准,称为 s c s i l ,它的数据传输率为3 m b ,s ( 异步版本可以达到5 m b s ) ,总线宽度为8 位, 主要面向磁盘与磁带机等存储设备。 1 9 9 4 年s c s i 一2 标准a n s ix 3 1 3 l 1 9 9 4 正式发行,它比s c s i - l 在兼容性、速度、 总线宽度等方面有了很大进步。s c s i 2 包含有多种不同版本,如快速s c s i ( 同步数 传率可到l o m b ,s ,是s c s i 1 的一倍) 、宽s c s i ( 总线宽度扩展为1 6 位与3 2 位) 等。 除此之外,s c s i 一2 在真正意义上为设备增加了“智能”,即可以通过编程来扩展设备 的使用方式,这些手段包括引入了命令队列( 一个逻辑单元可以最多执行所有s c s i 启动设备发出2 5 6 条命令) 、异步事件通知( a e n ) 以及扩展偶然通信条件等。同时 其面向的设备类型也得到了更大的扩展,包括c d r o m 、扫描仪、光存储设备、介 质可变设备及通信设备。 目前s c s i 一3 协议集已经发展为一个庞大的协议家族,下图是从t l o 委员会的官 方网站获得,它给出了目前s c s i 一3 体系结构的完整描述: 机群茎丛墨竺丝韭垡些:! 生堕竺型! 壅 一一一 一一 s c s la 亿h n e c t u 悖r o a d 瑚n p 图1 2s c s 卜3 体系结构示意图( 来自参考文献 7 9 】) 从图1 2 中可以看出,s c s i 3 协议支持的设备类型包括了块设备( 包括磁盘驱动 器) 、精简块设备、流设备( 磁带机) 、可更改媒体、多媒体设备( 如d v d ) 、控制器 设备( r a d 设备) 以及可封装服务,此外还提供了对基于对象的存储( o s d ) 与不 同协议族的s c s l 桥接器之间命令集支持。 从s c s i 一3 的体系结构模型来看,它同时支持串行接口( e e1 3 9 4 ) 与并行接口 ( s p i 2 一s p i 5 ) ,光纤通道协议、m m 的s s a ( s e a ls t o r a g c a r c h i t e c t u r e ) 、s c s i o v e r s t ( s c h e d u l e dt r 锄s f e r ) 、s c s ir d m a ( 1 n f i n i b a n d ) 与i s c s i 等协议。 总的来看,s c s i 外设接口是一种配置灵活、可扩展、支持多任务操作的通用接 口总线技术,可期望在将来相当长的一段时间内还将继续得到发展。 1 2 3 2a n v l d e a 1 e 协议则从开始起就与s c s i 协议定位完全不同,在初始时它仅仅支持磁 盘驱动器设备,目前可支持的设备类型有所增加,但仍然不如s c s i 。 现在广泛使用的技术标准是u t r a 朋ad m a1 0 0 ( 简称u d m a1 0 0 ) 、u l t r aa t a d m a 6 6 ( 简称u d m a 6 6 ) 。最早的u i 仃aa 1 r a d m a 标准是u d m a3 3 ,它在3 3 3 m b ,s 速率下工作,支持3 3 3 m b ,s 的传输率。虽然u l t r aa 1 r a 兼容d e ,a 1 r a ,但较老的x 8 6 主板芯片组可能不支持真正的3 3 3 m b ,s 速率,因此更为常用的u i 仃aa 1 限标准是御隗 6 6 ,支持6 6 6 m b ,s 的数据传输速率,最新的标准是u l t ma 1 r a1 0 0 ,目前包括m m 、 m a ) 【t o r 等厂商都计划或已经推出相应的产品,但本质上a 1 r a1 0 0 只是a t a6 6 的升级 版本。目前有一种新的舶隗协议被提出,即串行a 1 a ,它将采用串行线路进行数据 传输,得到了i n t e 】、m a x t o r 等公司的支持。有报道说基于这种技术的磁盘目前已经 上市,总线传输带宽将达到1 5 0 但,s 。 朋a 规范的发展使非硬盘设备也希望采用标准的a f a 方式。但a t a 协议命令集 并不支持所有的非硬盘设备。a n s in c r r st 1 3 委员会制订的a 1 队p i ( a 1 队p r o g r a i l l i n g i n t e r f a c e ) 标准主要用来支持光驱、磁带机、大容量软驱、z i p 盘等各种新型外存储设 备。 6 笙二兰! ! 亘一 1 2 3 3 技术趋势 目前通用存储设备总线,如s c s i 与a t a ,基本上属于并行总线,即由多条串行 信号线并列而成的。早期计算机体系结构外围控制电路较为简单并且系统总线的频率 较低,因此系统总线速率带宽此时并未成为系统性能的瓶颈。通过不断利用加宽总线 和频率提升的技巧,人们可以通过并行的内外部设备总线来提高系统性能,而与此同 时却几乎没有增加额外成本【1 2 0 】。 但并行总线技术存在一个致命的缺陷,即当并行高频信号在并行总线线缆上传 输时,会受到电磁干扰从而造成信号的衰减,与扁平带状电缆的宽度和频率成正比: 电磁干扰可以使多条信号线上同步传输的高频信号电平降低、波形失真、相位延迟和 信号之间不同步。 而随着工艺技术的发展,高速同步串行机制可以在相同的成本基础上,提供越 来越高的数据传输速率,同时完全避免信号电平降低、波形失真、相位延迟和信号之 间不同步等问题。另外高速同步串行机制可以通过减少接口控制器的并列信号驱动门 数而大大降低耗电量。同时,串行总线连接下的内外设备,也不再需要复杂的拓扑和 电路识别设置。因此随着工艺的进步,串行总线必将占据更加重要的地位。 1 ,3 网络技术进展 虽然存储设备与外围总线一级的技术进展对缓解i ,o 瓶颈问题起到了一定的作 用,但真正使存储技术发生革命性变化的还是来自于高速网络技术的发展。从外存储 的角度出发,人们也开始提出要将外存储i o 从计算机内部总线上转移到具有更强可 扩展能力的计算机网络上去。 本小节首先介绍与数据存储相关的传统网络技术,然后介绍用于优化数据存储 系统性能的专用标准网络技术,最后本小节将详细描述下一代计算机网络与通道技 术:i n f i n i b a n d 。 1 3 1 g j g a b t 以太网 千兆以太网是1 0 m 以太网和l o o m 快速以太网标准的扩展。它使用与以太网和 快速以太网一样的帧格式、帧尺寸以及c s m 刖c d 协议,但提供大约1 0 0 0 m b p s 的带 宽,节点之间的通信是全双工模式。从快速以太网发展到千兆以太网,在物理层和许 多数据交换协议上都有所变化。同时,为了与快速以太网兼容,千兆以太网也提供了 一些混合的操作模式。 作为一种l a n 局域网技术,干兆以太网为机群系统提供了一种实现系统网的新 选择。以这种技术实现的系统网同时具有系统网的高带宽低延时的特性,以及l a n 的灵活拓扑结构、链路长的优势。千兆以太网的刀巳醯标准编号为m e e 8 0 2 3 z ,已经 在1 9 9 8 年6 月完成。目前千兆以太网产品可以从许多厂家得到。 由于口技术的广泛应用以及千兆以太网技术的继续发展( 1 0 g b p s 以太网很快就 出现,另外4 0 g b p s 与l o o g b p s 的以太网标准也在讨论之中) ,目前也已经出现了多 种通过p 与以太网技术“捎带”特殊外存储设备命令的标准或草案。 1 3 2v i a 为了在网络和应用程序之间提供更快的接口,许多研究人员致力于从关键路径 ! ! 壁兰丛墨丝丛壁垡些竺! :塑生型! 塑一 务( 如图1 3 示) 。v i a 引进了基于标准的a p i 来给机群系统提供低延时、高带宽的 消息传递。低延时和持续高带宽是通过在发送和接受消息时减少数据拷贝和旁路o s 来实现的。 图1 3v l a 体系结构示意图( 摘自参考文献 1 0 9 】) g i 叠a n e t 公司( 已被存储设备厂商e m u l e x 收购) 的c l a n ( g i g a n e tc l u s t e ra r e a t w o r k ) 是基于a 的机群互连产品系列,包括w i n d o w sn t 和“n u x 产品系列( 分 别在1 9 9 8 年到1 9 9 9 年推出) 。g 谵a n e tc h 【1 2 3 】服务器到服务器通信允许应用程序 旁路o s ,从而提供高吞吐量、低延时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论