




已阅读5页,还剩107页未读, 继续免费阅读
(计算机系统结构专业论文)附网存储体系结构研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中理工大学博士学位论文 摘要1 厂 睡常规的客户服务器结构中,服务器主机内存为数据传输的必经通道。即使存储子系统 有潜在的带宽。也因主机内存成为系统瓶颈,客户机不能充分利用存储子系统的所提供的有 效带宽。通过建立存储子系统与客户机问的直接联系通道。附网存储系统将主机内存排除在 数据传输路径之外,使客户机能够获得持续的高带宽,因而能提高系统的响应性能。广 本文的研究重点是探索总线型网络的附网存储系统的实现方法,建立系统分析模型,同 时对系统进行实验测试及性能分析。主要研究内容包括:局域网环境下的附网存储系统的结 构选择;附网存储系统的文件管理策略;附网系统性能的实验及理论研究;附网存储环境下 的多媒体合作著作系统。 叫首先,提出了附网存储的两种实现结构:与通用文件系统兼容的结构;附网存储子系统 具有文件管理功能的结构。分析表明,分级文件管理结构具有较好的综合性能。目录结构表 的多址存储适应了n a s s 的结构要求,系统的一致性维护策略能够保证多个目录结构表的一 致性。采用文件数据分块存储技术,提高了文件数据读写的并行性,从而改善了系统的响应 性能。此外,根据附网存储的特点。提出了维护系统安全性的策略。 其次,建立了附网存储的原型实验系统。实验系统由以太网组成,采用p c 机模拟附网 存储控制器,并运行l i n u x 操作系统。在原型系统基础上,进行主机c p u 负载和客户机文件 i o 请求响应时间的实验研究,比较了常规系统与附网存储系统的性能,并对实验结果进行 了分析。实验结果表明,附网存储系统的性能比常规系统有很大的改善。附网存储系统中主 机的工作负载被减少,客户i o 请求响应时间降低1 3 。 建立了附网存储系统的排队模型。根据所建立的模型,分析了文件分块和镜像存储方式 下的i o 响应时间。分析表明,网络带宽,文件分块方式和存储系统为影响整个系统性能的 主要因素。网络带宽越大,i o 响应时间越小。同对,合理对文件分块也可减少响应时间。 最后,通过讨论一个具体的应用系统,多媒体合作著作系统,在n a s s 结构上的实现, 分析了基于n a s s 结构的合作著作系统在性能上的优点。同时,还针对多媒体合著系统,提 出了o h c a s 系统模型。厂 关键词:附网存储,文件管理,i o 响应时问,多媒体著作 1 本文的研究工作受国家自然科学基金( 6 9 7 7 3 0 4 6 ) 资助。 l 华中理工大学博士学位论文 a b s t r a c t 2 m e m o r yo fa s e r v e r sh o s ti st h eo n l yw a yt ot r a n s f e rd a t ab e t w e e ns t o r a g es u b s y s t e ma n d c l i e n t si nt r a d i t i o n a lc l i e n t s e r v e rs t r u c t u r e e v e ni fs t o r a g e s u b s y s t e mp o s s e s s e sp o t e n t i a lh i g h b a n d w i d t h ,c l i e n t sc a l l ta c q u i r ee f f e c t i v eb a n d w i d t hp r o v i d e db ys t o r a g es u b s y s t e mb e c a u s et h e h o s t sm e m o r yi st h eb o r l e n e c ko ft h es y s t e m t h r o u g h b u i l d i n gd i r e c tc o n n e c t i n gc h a n n e lb e t w e e n s t o r a g es u b s y s t e ma n dc l i e n t s ,n e t w o r k - a t t a c h e ds t o r a g es y s t e m ( n a s s ) e l i m i n a t e sh o s to u t s i d e d a t a t r a n s f e r r i n gp a t h ,t h e nc l i e n t sc a na c q u i r es u s t a i n i n gh i 曲b a n d w i d t ha n dr e s p o n s ep e r f o r m a n c e o f t h es y s t e mi si m p r o v e d t h er e s e a r c he m p h a s e so f t h et h e s i sa r eo ns t u d y i n gi m p l e m e n t a t i o nm e t h o d so f n a s sw i t hb u s n e t w o r k ,f o u n d i n gs y s t e ma n a l y s i sm o d e l ,m e a s u r i n gs y s t e mp e r f o r m a n c e f o rt h es y s t e ma tt h es a m e t i m e t h em a j o rr e s e a r c hc o n t e n t sa r et h ea r c h i t e c t u r es e l e c t i o no fn a s si n l a n ,t h ef i l e m a n a g e m e n ts c h e d u l eo fn a s s ,t h ee x p e r i m e n ta n dt h e o r yr e s e a r c ho fn a s sp e r f o r m a n c e , m u l t i m e d i ac o o p e r a t i v ea u t h o r i n gs y s t e mb a s e do nn a s s f i r s t l y , t w oi m p l e m e n t a t i o na r c h i t e c t u r e so fn a s s ,t h eo n ew h i c hi sc o m p a t i b l ew i t hg e n e r n f i l es y s t e ma n dt h eo t h e ri nw h i c hs t o r a g es u b s y s t e mc a nm a n a g e rf i l e ,a r ep r e s e n t e d i ti ss h o w e d t h a tt h es e c o n ds t r u c t u r eh a s g o o ds y n t h e t i c a lp e r f o r m a n c e m u l t i - a d d r e s ss t o r a g e o fd i r e c t o r y s t r u c t u r et a b l ea d a p t st h er e q u i r e m e n to fn a s s a tt h es a m et i m e ,t h ec o n s i s t e n c ys t r a t e g yc a n e n s u r et h ec o n s i s t e n c yo fm u l t i d i r e c t o r yt a b l e s t h ep a r a ! l e l i s mt or e a da n dw r i t ef i l ed a t ai s p r o m o t e db e c a u s ed a t as t r i p i n gt e c h n o l o g yi su s e d a l s ot h er e s p o n s ep e r f o r m a n c eo ft h es y s t e mi s i m p r o v e d ,t h es t r a t e g y t oe n s u r et h e s e c u r i t y o ft h e s y s t e m i s p r e s e n t e da c c o r d i n gt o t h e c h a r a c t e r i s t i eo f n a s s s e c o n d l y , ap r o t o t y p ee x p e r i m e n ts y s t e mf o rn a s s i sb u i l t t h ee x p e r i m e n t s y s t e m i sb a s e do n e t h e n e t ,a n dp ci su s e dt os i m u l a t en e t w o r k - a t t a c h e ds t o r a g ec o n t r o l l e ri nw h i c hl i n u xo p e r a t i n g s y s t e mi su s e d b a s e do nt h ep r o t o t y p e ,t h ee x p e r i m e n t st om e a s u r ec p u w o r k l o a di nt h eh o s ta n d i or e s p o n s et i m eo fc l i e n t sa r ed o n e ,t h ep e r f o r m a n c e sa r ec o m p a r e db e t w e e nt r a d i t i o n a ls y s t e m a n dn a s sa n de x p e r i m e n tr e s u l t sa r ea n a l y z e d t h er e s u l t ss h o wt h a tt h ep e r f o r m a n c eo fn a s si s b e t t e rt h a nt h eo n eo ft r a d i t i o n a ls y s t e m t h ec p uw o r k l o a do ft h eh o s ti nn a s si sd e c r e a s e da n d t h er e s p o n s et i m eo f i or e q u i r e m e n t si sr e d u c e du pt o1 3 t h eq u e u em o d e lo fn a s si sb u i l t t h ei 0r e s p o n s et i m ei sd i s c u s s e dw i t h i ns t r i p i n ga n d m i r r o r s t o r a g e s t r u c t u r e t h em a j o rf a c t o r st oa f f e c tt h ep e r f o r m a n c eo fn a s sa r en e t w o r k b a n d w i d t h ,f i l es t r i p i n gm e t h o da n ds t o r a g es y s t e m t h eb i g g e rn e t w o r kb a n d w i d t hi s ,t h e l e s s 2 t h i sr e s e a r c hi ss u p p o r t e db yn a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o n 佑9 7 7 3 0 4 6 ) i i 华中理工大学博士学位论文 r e s p o n s et i m ei s ,a tt h es a i l et i m e ,t os t r i pf i l ea d e q u a t e l yc a nd e c r e a s ei or e s p o n s et i m e , a tl a s t ,b yd i s c u s s i n gt h ei m p l e m e n to fap a r t i c u l a ra p p l i c a t i o ns y s t e m ,m u l t i m e d i a c o o p e r a t i v e a u t h o r i n gs y s t e mo dt h en a s s ,t h ep e r f o r m a n c ea d v a n t a g eb a s e do nn a s si sa n a l y z e d 。a tt h e s a r n et i m e o h c a sm o d e li sp r e s e n t e df o rm u l t i m e d i a c o o p e r a t i v ea u t h o r i n gs y s t e m k e yw o r d s :n a s s ,f i l em a n a g e m e n t ,i or e s p o n s et i m e ,m u l t i m e d i aa u t h o r i n g i l l 华中理工大学博士学位论文 1 1 存储模型概述 1 1 1 计算与存储模式的变化 随着计算技术的发展,计算机系统的体系结构也不断地发生变化,它经历了一个从集中 到分布的发展过程。早期的计算机结构是高度集中的,由下硬件价格的昂贵,需要共享主机, 组成了以主机为中心的计算机系统。用户通过终端共享主机资源,硬盘、打印机和磁带驱动 器等作为主机的外围设备,由主机统一管理和调度。当用户访问这些外围设备时,需要向主 机提出申请,主机从外围设各中读出所需要的数据,再传送给用户。随着大规模、超大规模 集成电路技术的发展和硬件价格的下降,以及计算机网络技术的发展,分布式计算技术也随 之发展起来。在分布式系统中,通讯网络负责各结点间消息和数据的传递。当外围设备也挂 到网上时,它与主机的关系便从主从方式( m a s t e r s l a v e ) 发展成为对等的方式( p e e rt o p e e r ) t 3 7 j 【8 2 1 6 i 。 应用需求的变化也驱动了从集中到分布计算和存储模式的转变。典型的应用需求有,在 社会领域中组织结构变化产生的分布计算的需求,在科学计算领域中高性能应用产生的分布 计算的需求。 社会组织结构的变化表现在随着信息化进程的加快,要求在组织中的个人之间增加信息 交互,以便发挥个人的信息处理和决策能力。为适应这种变化,要求将集中的组织结构分散 为分布的结构,从而出现了新的结构。新的结构要求通过信息的处理、存储和通信使个人或 一个组织能快速访问所需要的数据,同时在组织内和组织间的合作的增加也要求更广泛的信 息和系统资源的共享。因而,集中式信息系统远不能适应这种变化导致的社会需求。 价格与性能平衡的计算要求计算机系统的处理、通信、存储等部件的价格、性能与应用 需求保持平衡。但是,由于存储系统的性能落后于应用要求,且与处理器和通信系统的性能 不匹配,从而使系统的利用率低下。我们可以通过对两个高性能计算实例的分析来认识这种 客观存在的需求。 例一气候模型诊断与相互比较i “”。 此项工作的目的是研究为什么不同的气候模型与实际气候数据间发生不同的结果。诊断 与比较过程中将访问数据量很大的数据库( o o g b ) 。若采用运行在大内存、大规模并行计算 华中理工大学博士学位论文 机上的高分辨模型,同时又收集来自卫星的数据,则数据量可增加到t b 数量级的规模。为 了分析大量的数据,研究者需要改进数据管理及海量存储系统,使之能快速搜索到庞大数据 库中的数据子集。对此,只有吉兆网的分布存储模式才能满足这类应用需求。 例二核聚变建模和分析t ”i 。 核聚变建模和分析研究也需要很大的数据库。数字仿真所需的数据库规模可以大到t b 数量级。模型计算时产生的大量数据可能使超级计算机的二级存储系统的空间被填满。此时, 计算可能暂停,以等待数据传送到第三级存储器中( 磁带子系统) 。由于数据量极大,传送可 能需要几十分钟到几个小时。当需要对数据进行分析时,将数据反向上载也需要相同的时间。 延迟将使计算效率大为下降。在这类应用系统中,也可能包括一些相关需求,如可视化,从 工作站和超级计算机同时访问相同的数据库等。只有建立分布的计算和存储模型才能最好地 满足上述需求。 1 1 2 客户服务器模型对存储系统性能的要求 客户 l e 务器计算模型的出现和发展使集中到分布的变化成为现实。客户n 务器计算模 型是种基于消息的协议。在这种协议中,客户机提出服务请求,服务器提供服务。在个人 计算机和工作站的网络中文件服务器的成功使用,表明了客户服务器结构的有效性。文件服 务器是网络上提供文件服务的机器,它接受来自客户机的网络消息,如文件打开,关闭,读 写等要求,并对这些要求进行处理,然后通过网络把处理结果送给客户机。 在早期的计算机系统中,由于网络带宽较低,因而客户服务器系统的性能被网络带宽所 限制。工作站和服务器间的性能平镛主要取决于:相关的处理器性能;在工作站和服务器上 分配给文件c a c h e 的内存大小:可用的网络带宽和服务器的i o 带宽。因此,处理器、网络 和存储系统的发展影响了客户机和服务器的关系。处理器的性能正以1 4 个月到2 0 个月的速 度加倍更新,它的性能远远超过了计算机系统中的其它部件性能。与处理器不同,网络技术 在相当长的一段时间内以较低的速度发展。在8 0 年代,它用了较长的时间从3 m b i f f s 以太网 发展到1 0 m b i t s 以太网。但在当前,网络性能正在经历飞速的发展。光纤互连的网络技术f d d 提供了1 0 0 m b s 的带宽,而a t m 技术则提供了1 5 5 m b s 的网络带宽。由于处理器性能的快 速提高和网络性能的提高,客户服务器系统的性能瓶颈便落在存储系统上【6 s 1 1 8 2 1 。 为跟上处理器和网络技术的发展,存储系统也必须快速地改进。磁盘在存储容量上几乎 每1 2 年加倍一次口2 1 。同时,数传率也在不断提高。但是,由于机械定位延迟的影响,其随 机i o 数传率提高较慢,服务等待时间也较长。磁盘阵列技术( r a i d ) 的出现解决了这个问 题。r a i d 采用大量的有组织的磁盘代替少量的大容量磁盘【9 6 1 ,在满足了存储系统大容量要 求的同时。通过并行i o 技术提高了整个存储系统的综合性能。 华中理工大学博士学位论文 1 2 提高存储系统性能的方法 存储系统包括存储硬件及控制它的软件。因此,对于存储系统性能的改进,可以从两个 方面着手:改进存储设备本身的性能;改进控制存储设备i o 的算法及使用相关技术来 隐藏、消除和减少主存和辅存间的性能差异。 1 2 1 磁盘驱动器本身性能的改进m i 存储系统中首选的存储设备是磁盘驱动器。磁盘驱动器的存取时间主要包括数据传输时 间,寻道时间和旋转等待时间。因此,可以通过减少这三项时间来改善磁盘驱动器的总的响 应时间。 磁盘的数传率是磁盘记录位密度和磁道切线速度的乘积。提高数传率的重要手段是提高 磁盘主轴的转速,位密度的增加也同样提高了磁盘驱动器的数据率。当前磁盘的转速已从 3 6 0 0 r p m 提高到5 4 0 0 r p m 、7 2 0 0 r p m ,甚至到达了1 0 0 0 0 r p m 。虽然主轴转速的增加提高了数 传率和减少旋转延迟,但是增加了耗屯量及发热,需要采用更好的轴承,如液压或气动轴承 以使主轴转动时的轴心线漂移减少,更好地保持旋转稳定和使磁道定位准确。 为了寻找到数据所在磁道,磁头必须在盘面上来回移动。定位系统的任务是确保相应的 磁头尽可能快地找到需要的磁道,即使有外部震动和磁盘缺陷,也能稳定地保持在正确的磁 道。搜寻时间包括加速阶段,匀速运动阶段减速阶段和定位阶段,即磁头经历了速度从零 到最大再到零的过程。寻道时间是指磁头驱动机构移动到相应磁道所需要的时间。减少寻道 时间的技术有:减少头臂组件质量,加大驱动机构电流,改进伺服及控制方法等。高性能磁 盘驱动器的平均寻道时问已降到1 0 m s 以下1 7 6 】,仍要求继续下降。 旋转等待时间是等待磁盘旋转到磁道上目标数据块开始位置的时间。当磁盘以5 4 0 0 r p m 旋转时,旋转一圈为1 1 1 m s ,则平均延时为5 6 m s 。当前,平均延迟时间已降到4g 一5 5 m s l 9 ”。 1 2 2 磁盘调度和c a c h e 技术的选择1 6 2 1 1 2 4 l 对丁单个i o 请求,其响应时间完全由磁盘驱动器本身的特性决定。但是,对于等待队 列中的多个i o 请求,如果能够根据磁盘驱动器的读写特性,采用一定的调度算法来减少磁 头在两个连续的i o 请求间的定位时间,则可以提高磁盘驱动器的响应性能。 在磁盘请求调度中,根据不同的应用环境而使用的较经典的调度策略有: 1 f c f s 。称为先来先服务调度策略。按照请求到达的先后次序提供服务这是最 简单的调度策略。 2 c s c a n 。称为循环扫描策略。这种调度策略是磁头按单一方向顺序完成一便扫 华中理工大学博士学位论文 描,完成所有请求后,再反向扫描其它i o 请求。 3 e d f 。称为最早死限优先算法。在带有实时性要求的请求中,把所有的请求都进 行排队,优先服务离截i t 期限最近的请求。 4 ,s c a n e d f 。这是一种s c a n 和e d f 混合的调度算法。它同时支持最优寻道 和最早死限优先调度。如果许多请求有相同的死限,则根据它们在盘上的位置 调度执行。 在磁盘v o 操作中,寻道和旋转等待时间在总的i o 时间中占有相当的比例。调度策略的目 的是把定位时间缩短到最小。主要的调度策略有使用命令缓存利多盘并行操作。 c a c h e 为高速主存和慢速的次级存储设备间的匹配器。c a c h e 技术利用了数据请求的空间 局部性和时间局部性原理。即前面已使用过的数据有可能再次使用,而相邻的数据被使用的 概率较大。将这两类数据的一部分保存在存取速度较高的存储器c a c h e 中。当这些数据再次 被请求时,可以直接从高速存储器中读取,从而提高了系统的响应性能。由于c a c h e 容量较 小,当所请求的数据不在c a c h e 中时,要采用一定的替换算法从次级存储器中直接读取数据。 1 2 3 并行存取的应用瞰1 1 7 ”i i 4 i i ”i i ” 对于同时要求有高的数传率和大的存储容量的情况,在目前单个磁盘驱动器是无法解决 的。采用并行存取的方法来响应外部i o 请求,将多个独立的磁盘驱动器组织成一个大的逻 辑盘驱动器便可提供较大的存取带宽。采用分块技术把数据分散存放在多个磁盘驱动器上, 大块连续的数据可通过多盘并行处理来获得高的数传率,小块数据则由各盘并发处理,从而 可获得高的吞吐率,这就是磁盘阵列( r e d u n d a n ta r r a y so f i n e x p e n s i v ed i s k s ,r a i d ) 的基本 原理。 当多个磁盘驱动器组成磁盘阵列时,由于数据分块存储,系统可靠性成为必须考虑的重 要问题。如果每个磁盘驱动器具有相同的失效概率,则由n 个磁盘驱动器组成的系统可靠度 只有单个磁盘驱动器的l n ,解决方法是通过数据冗余来进行错误检纠。标准的冗余磁盘阵 列有6 个级别,以提高阵列的可靠性。 r a i d o 级不包含任何冗余信息,它通过数据分块以实现并行i o 。由于没有数据冗余和校 验,其存取性能最好,但是可靠性较低,适用于速度要求高但可靠性要求不高的场舍。 r a i d l 级为镜像结构,即采用两个磁盘驱动器存放完全相同的数据,其冗余度为1 0 0 , 这种结构的可靠性较高,可以容忍多至n 2 个盘的失效。由于每个驱动器都有自己独立的数 据通道,因而支持数据并行读写,此结构用于对可靠性要求相对较高的应用环境,如银行系 统。 r a i d 2 级为采用海明码检纠错的数据盘与校验盘分别设置的磁盘阵列。用户数据按位分 散存放在数据盘上,在校验盘上存放海明码。由于采用海明码检纠错,r a i d 2 中每次进行数 4 华中理工大学博士学位论文 据读写时,所有的磁盘驱动器都要参与工作。因而其i o 请求的并发性降低,吞吐量受到了 限制。 r a l d 3 级为数据以位交叉方式存放采用奇偶校验的磁盘阵列。其校验盎数为1 ,校验码 较为简单。当单盘失效时,可从其余磁盘和校验盘上读出相应单元的数据异或得到所需的数 据。r a i d 4 级为以块交叉方式存放数据的阵列,因而单个磁盘能够完成小块数据请求,从而 改善了小块数据的传输性能,该结构适合于在线事务处理的应用环境。其主要问题是,校验 盘仍是系统的瓶颈。r a i d 5 将校验数据分散存放于各磁盘上,从而保证了阵列的负载平衡。 同时,解决了校验计算的瓶颈问题。由于校验数据分散存放,r a i d 5 结构要求控制器有很强 的计算能力。其主要问题是小块数据的写性能差。 通过对标准阵列的改进,针对不同的应用环境,人们叉提出了一些新的阵列结构。r a i d 6 是采用分块交叉及双磁盘驱动器容错的磁盘阵列,它采用两个磁盘驱动器存放检纠错冗余数 据,因此在双盘出错的情况下,仍能使阵列正常工作,不致于丢失数据。其数据和检验信息 分块交叉存储在所有磁盘上,多个磁盘可同时读写,i o 数传率较高。其缺点是当数据写入 时,耍对三个磁盘驱动器进行访问,因此其写性能较差。 r a i d l 0 是r a i d 0 和r a i d l 的组合,它综台采用了分块和镜像技术,使两个磁盘驱动 器为一组,在组中采用镜像技术,在多个组问实现数据的分块存放。其优点是磁盘i o 性能 和数据可靠性都较高,但是写入时与单纯的镜像阵列一样,要同时写入两个互为镜像的磁盘, 因而写入性能较低。 e v e n o d d 是一种容双错的阵列结构,它有两个冗余磁盘存放检纠错信息,其中一个冗 余盘存放水平冗余信息,另一个冗余盘保存对角线冗余信息。因而当有两个盘失效时,可通 过两个冗余盘恢复失效数据。由其冗余原理可知,其计算复杂度较低,在e v e n o d d 中,大 多数小写操作仅影响两个冗余码元。但当码元在对角线上时,写开销较大。 c o r s s h a t c h 是一种综合考虑磁盘驱动盘容错和控制器电缆容错的r a i d 结构,其磁盘驱 动器均为双端口盘,每个磁盘驱动器都由水平串和垂直串控制器来控制,当一个串控制器出 错时,系统降级运行,不影响阵列正常工作。一个水平串和一个垂直串控制器出错时,其交 叉点磁盘的数据可以由重构恢复,阵列仍可正常工作。 1 3 附网存储系统 仅仅研究如何提高存储系统本身的性能已不能满足应用对存储系统的要求。磁盘阵列的 出现表明大量的小磁盘能被用来建立大的系统,或者使大容量磁盘形成性能更好,容量更大 的系统。它使用分块以增加带宽,采用冗余技术以提高可靠性。这种方法提高了数据在存储 系统内的i o 的并行性和数据的容错能力,即实现了数据并行存储。但是,由于i o 通道的 限制,虽然r a i d 系统的总的带宽较大,其提供给主机的实际可用带宽是有限的。r k a t z 在 5 华中理工大学博士学位论文 1 9 9 2 年提出了基于网络的存储概念m 5 1 。其后,许多研究计划把磁盘阵列中基于中央控制器 工作的思想扩展到了附网存储系统,如t i c k e r t a i p 和p e t a l 系统【”j 【7 ”。t i c k e r t a i p 发展了一 个带有分块和r a i d5 冗余的全分布存储系统,它的目标是把单个集中磁盘阵列控制器的功 能分布在多个结点上。这些结点包括w o r k e r 结点,负责管理磁盘;o r i g i n a t o r 结点,负责与 用户通信。但是,由于w o r k e r 结点要参与所有的写操作,从而导致了更复杂的失效恢复其 复杂性随系统中结点数和一致写的数量的增加而增加。p e t a l 开发了一个分布的镜象系统。它 的容错比r a i d5 更简单,因而也是可扩展的。当加入一个新的部件时,它提供的数据的自 动分布使存储管理更容易。 数据库、视频点播、医学数据和全球网文档之类的应用对存储系统有这样一个要求,即 存储系统既要有大的容量又有高性能。如视频点播系统( v o d ) ,必须有持续的高带宽。如 系统采用n t s c 视频格式( 3 0 帧,秒) ,分辨率为5 1 2 x 4 8 0 ,每个像素为2 4 位,则数传率为 ( 5 1 2 x 4 8 0 3 x 3 0 ) b s = 2 1 k l b s 。即使采用m p g - 2 压缩,其数传率至少要大于o 5 她s 。这 仅仅为一个用户的带宽要求。当多个用户同时请求服务时,所要求的持续数传率更高。在许 多情况下解决方法是多个磁盘阵列和磁带阵列的分级存储。可是,磁盘阵列包含了一些与价 格,性能比、可用性、可扩展性有关的缺点。由于使用专门的硬件,与裸盘和磁带系统不同, 磁盘阵列每兆的价格随着系统容量的增加而增加。而且,个磁盘阵列需要被连接到一个主 机,这个主机成为性能和可用性的瓶颈,它的可扩展性也被基本结构所支持的磁盘数量所限 制。一些耗费存储的应用如w e b 文档有一个固定的数据增长速度。当它们到达了磁盘阵列的 容量限制时,必须加上另一个磁盘阵列。加上独立的磁盘阵列也降低了整个系统的可靠性, 同时使存储管理更加复杂。 附网存储( n e t w o r ka t t a c h e ds t o r a g e ) 从更新的角度实现了分布式的网络存储。它的重点 在于实现数据在数据请求者和数据提供者( 存储系统) 之间的直接传输,以实现高的数据传 输带宽,较好的可扩展性。 , 1 3 1 附网存储 附网外设( n e t w o r k - a t t a c h e dp e r i p h e r a l ,n a p ) 中包括附网存储系统。在过去的几年, 附网外设正在从超级计算机环境走向广泛的应用环境,对其必要的操作系统支持正在实现之 中。 概括起来,附网外设可定义为:种计算机外部设备,它能通过网络协议( 如t c m p ) 从常规网络媒介提供访问,但不排除通过总线协议( 如s c s i ) 提供访问。典型的n a p 有许 多与传统的总线附属的外部设备不同的特性,这些特性包括: 物理互连在机房距离内是可用的,也可以是校园网或广域网的规模。可以连接大量的 结点,因而资源发现和网络路由成为必须考虑的问题。 6 华中理工大学博士学位论文 设备没有物理定义的所有者,它可能被单个远程系统拥有,也可能被多个远程系统共 享。因而,设备控制器与软件变得较为复杂。 网络互连能够满足般的通信需要。如主机到主机的通信要求,但是产生了数据安全 性问题。同时,网络共享的特性改变了系统的性能。 网络延迟较高,影响了所使用的命令协议。 数据发送也可能包括传统的与网络有关的问题。例如,打包和校验开销,数据发送失 序和传输长度限制等。 n a p 与n a p 能直接交换信息,主机只提供有限的监控,因而不消耗主机资源利总线带 宽。这种方法称为三方传输。 n a p 磁盘可提供面向块的协议,如s c s i 或l p l ,3 。它允许主机操作系统在块结构的顶 部定义它自己的结构,包括交换分区,数据库分区或文件系统。 当前,附网外设研究工作可以分成三个基本方面。( 1 ) 设备接口和协议( 2 ) 多媒体使用。 ( 3 ) 海星存储。1 8 1 ”】【2 9 肼1 1 l 2 7 1 1 1 0 6 1 ( 1 ) 设备接日与协议。 设备接口的研究大致包括: 1 物理互连; 2 高级命令协议: 3 网络层协议; 4 三方传输协议: 5 安全性和资源发现。 高性能并行接口t g ( h i g l lp e r f o r m a n c ep a r a l l e li n t e r f a c e ,h i p p i ) 的带宽为1 0 0 或2 0 0 m b y t e s , 在n a p 中可能较为常用。但是,其昂贵的、较短的电缆连线限制了其在超级计算机中的使用。 i b m 的串行存储结构【l o 1 ( s e r i a ls t o r a g ea r c h i t e c t u r e ,s s a ) 是相对好的接口,它有较高的带 宽和健壮性。光纤通道1 ( f i b r ec h a n n e l ,f c ) 是一种较新豹接口,物理上能配置成简单的通 道、仲裁环、或全开关结构。由于s s a 面向单主机环境,一般不应用于附网设备互连。而f c 则适台于n a p 结构。 三方传输是n a p 具有的突出特征。虽然s c s i 命令集中也包括了这个特征( c o p y 命令) , 但在n a p 中才开始使用。三方传输使数据可直接在磁盘和磁带间直接传递,而不必经过主机 内存。操作系统对三方传输的支持很弱,需要进行改进。 ( 2 ) 采用n a p 做为多媒体工作站的研究己列入许多国家的研究计划。在多媒体处理中 n a p 应用的典型例子是直接从录象头传递数据到视频的帧缓冲存储器,而不是通过系统的背 板总线,其结构将在n e t s t a t i o n 结构介绍时进行描述。 ( 3 ) 海量存储系统【”1 7 华中理工大学博士学位论文 图1 1h p s s 的一种配置方案 高性能存储系统( h i g h p e r f o r m a n c e s t o r a g es y s t e m , h p s s ) 是美国国家存储实验室 正在进行的一项计划,它的主要 目的是改善大规模存储系统的性 能和容量。h p s s 结构是基于 i e e e 的海量存储参考模型的, 它以网络为中心,包括一个高速 数据传输网络和一个独立的控制 网络。在典型韵实现中,客户机 传送一个数据请求到h p s s 服务 器。h p s s 服务器指挥网络附属存储设备或服务器,通过并行的或串行的方式,直接通过高 速数据传输网络传送数据到客户结点。同时通过高性能并行接口( h i p p i ) 实现t c p i p 和i p i 3 协议,将来还支持f c 或a t m 。 h p s s 的主要目的是发展一种可扩展的,分布的和高性能的存储管理系统。其设计目标 为: 1 多种可扩展性。h p s s 的i o 结构通过支持并行i ( 3 来提供i o 性能扩展。同时,也要 求地理的可扩展性以支持带有分级存储的分布式系统。在不同地理位置的多存储系统应 集成为单个逻辑存储系统。 2 模块化。h p s s 的结构应高度模块化。每个可复制的软件构件负责一套存储对象,充当 这个对象的服务提供者。 3 可移植性和标准化。使用a n s ic 编写,使用p o s i x 函数以增强软件可移植性。 4 可靠性和可恢复性。在h p s s 软件构件间的客户服务交互被设计为基于原子事件的行 为。以维持系统状态的一致性。为了系统的可恢复性,使用了存储目标的镜像。 5 ,安全性。使用访问认证和访问控制表保证系统的安全性。 1 3 2 其它相关研究 1 n e t s t a t i o n 研究 由于高速网络的发展,过去比较低速的网络通道现在已经能以与主机系统相同的带宽运 行。文献【5 1 提出了n e t s t a t i o n 结构。这种结构将磁盘显示器、键盘、鼠标等外部设备连接到 网络上,使之成为网上的自主结点( 图1 2 ) 。执行访问和控制的操作系统或应用进程通过在 可靠连接上传递的信息或命令对外部设备进行控制。 使用网络互连而不是总线连接的优势是它的可扩展性和易访问性。网络能提供对等通信, 支持同步传输,使数据能够在任何二个网络结点之间直接交换。依靠i n t e m e t 协议,附属于 8 华中理工大学博士学位论文 网络的设备对于网络内的任何主机来说都是直接可访问的。要实现这种结构,通过网络来访 问和控制设备,要求发展标准的网络协议和接口。在n e t s t a t i o n 结构研究中。主要的焦点是 客户设备和服务器设备间的有效通信和控制机制的实现。 在n e t s t a t i o n 结构中,没各子系统驻留在i n t e m e t 结点上。一个结点给系统中的其它设备 子系统提供网络服务接口,这些接口称为网络虚拟设备( n e t w o r kv i r t u a ld e v i c e s ,n v d ) 。 它们把设备子系统的外部表示同结点内的实际物理接口区别开来。一个n v d 与结点中命名 的上下文相关联,每个上下文支持个或更多的远程过程调用( r e m o t ep r o c e s sc a l l ,r p c ) 程序和一套与之相关的过程。 图i2 n e t s t a t i o n 结构 n v d 与外部使用者的关系如同 服务器与客户的关系一样。作为客户 的工作站能够使用n v d 所模拟的常 规外部设各。在打开网络接口,且生 成必要的网络服务后,工作站核心建 立一个到n v d 的连接。在结点内的 一个特殊的设备子系统或组子系统能够给网络提供多个n v d 。因此,它可以使系统的设备 表现出不同的特性,如不同的访问方法等。例如,如果一个n v d 的控制所有者想使这个n v d 对第三方可见,控制所有者能对相同n v d 生成新的连接,或者是创造一个新的n v d ,它可 能有不同的特性,如一个读写磁盘的n v d 的控制应用能为第三方生成一个到此n v d 的连接, 但是限制为只读访问模式。 访问控制。与通过总线连接的外部设备不同,一个n e t s t a t i o n 结点通过网络问接被控制, 因此必须有办法允许结点检测和拒绝未授权的命令。对设备结点和控制应用的所有命令都进 行授权确认是一种理想情况,其代价较高,开销较大。折衷方案是对结点设备的访问进行限 制,只有被系统管理员定义的成员能够访问相应的结点设备。 配置和资源发现。常规的系统结构中,组成计算系统的各设备子系统在物理上是非常接近 的,系统配置是静态的,能在自举时完成。在n e t s t a t i o n 结构中,设备不具有相邻性,组成 系统的结点是互相独立的。因此必须动态配置子系统以形成一个有效的计算系统。所需的子 系统服务必须由应用进程向设备结点提出服务要求,由提供服务的结点设备定义所提供的服 务,并在服务完成时释放结点设备。由于动态配置,服务器能够提供更复杂的配置能力。它 维持一个所有结点的数据库和属性表,也能管理域内的结点并控制对它们进行的访问。 2 p e t a l 结构 文献 7 3 】描述了p e c a i 结构。如图1 3 所示,p e t a l 系统包括一个分布存储服务器池,多个存储 服务器一起合作实现一个单一的块级存储系统。p e t a l 客户机上可以运行不同的文件系统,如 图1 3 所示的l f s 、n t 文件系统、p c 文件系统、b s d 文件系统。客户把存储系统看成一个 9 华中理工大学博士学位论文 可扩展网络 图1 3 p e t a l 的物理结构 虚拟盘的集合,通过远程过程调用 ( r p c ) 访问p e t a l 提供的服务。在p e t a l 的r p c 接口设计中,一个基本的原则 是在存储服务器上维护所有需要的状 态以确保系统中存储服务器的完整 性,但在客户中仅保持寻找数据的线 索。客户仅保持少量的高级映射信息, 用于把读写请求送到“最合适”的服 务器。如果一个请求被送到一个“不 合适”的服务器,这个服务器返回一 个错误码,使客户改变它的线索,再重新发送请求。 图1 4 描述了p e t a l 系统的软件结构。p e t a l 维护了描述当前存储系统成员的信息和当前 被支持的虚拟盘信息的数据结构。这些信息在系统的所有的p e t a l 服务器中被复制。全局状态 模块管理器负责这些信息的一致性维护,保证任意服务器通信失效后恢复的正确性,即只要 大多数服务器能相互通信就能保证系统运行,这保证了在p e t a l 中的管理操作,如创建、删除、 快照虚拟盘、增加或删除服务器的操作是容错的。生命模块确保系统中的所有服务器承认相 互的操作状态:运行或崩溃。生命模块的服务被另一些模块使用,如全局状态管理器,以确 保系统在服务器和通信失效时连续一致的操作。生命模块的工作以服务器间周期性的信息交 换为基础,如“我在活动”,“你在活动”等。这些信息交换用定时的方法保证系统正常运行, 但是能够被任意延跃和重新排序而不影响正确性。另外3 个模块处理p e t a l 客户发出的读写服 务请求。数据访问和恢复模块控制客户数据如何在p e t a l 系统中分布和存储。对每一种系统支 持的冗余策略类型有一个不同的数据访问和恢复模块存在。当虚拟盘被创建时就定义了它的 冗余策略。其后,冗余策略和另外的属性能通过称为虚拟盘配置的进程透明地改变。虚拟到 物理的地址转换模块包括通用的被不同数据访问和恢复模块使用的例程,这些例程把虚拟盘 图1 4 p e t a l 的软件结构 的偏移转换到物理的盘地址。 综上所述,n e t s t a t i o n 研究是想通过网络来连接各外部设备,以取代总线互连方式。这些 1 0 华中理工大学博士学位论文 外部设备
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 篮球战术与配合考核试卷
- 过敏反应急救
- 地铁安全工作汇报体系构建
- 常见的胃肠道疾病预防
- 伽利略呼吸机操作规范
- 门诊口腔静脉麻醉方案
- 口腔健康概论
- 精装修卫生间防水技术规范
- 内窥镜光源市场分析:北美是全球市场的主要地区占40%的份额
- 黑吉辽蒙2025年高考政治真题含解析
- 国家专项资金管理办法
- 人工智能理论知识题库(含答案)
- (新教材)高中数学A版选择性必修第三册知识点
- GB/T 4706.53-2024家用和类似用途电器的安全第53部分:坐便器的特殊要求
- 2023年甘肃省兰州市中考生物真题含解析
- DL∕T 5783-2019 水电水利地下工程地质超前预报技术规程
- 2024年贵州退役军人事务厅事业单位笔试真题
- 2024年河南三门峡市市直事业单位招考(153人)易考易错模拟试题(共500题)试卷后附参考答案
- 立定跳远(教案) 体育四年级下册(表格式)
- 北京市西城区2023-2024学年七年级下学期期末考试数学试卷
- 江苏省苏州市2023-2024学年高一下学期6月期末考试化学试题
评论
0/150
提交评论