(计算机系统结构专业论文)高可用性的网络附属存储系统.pdf_第1页
(计算机系统结构专业论文)高可用性的网络附属存储系统.pdf_第2页
(计算机系统结构专业论文)高可用性的网络附属存储系统.pdf_第3页
(计算机系统结构专业论文)高可用性的网络附属存储系统.pdf_第4页
(计算机系统结构专业论文)高可用性的网络附属存储系统.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机系统结构专业论文)高可用性的网络附属存储系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 任常规的客户服务器结构中,服务器主机内存为数据传输的必经通道。即使存储子系统 有漪赴的人带宽,由丁_ 主机内存为系统的瓶颈,客户机不能获得存储子系统的所提供的所有 带宽。阚络附属存储系统通过建立存储子系统与客户机间的直接联系通道,将主机排除在数 据传输路径外,使客户机能够获得持续的高带宽,提高了系统的响应性能。、 本文的重点在于研究以总线型网络为基础的网络附属存储系统的实现方式,建立系统分 析模型,同时进行实验测试及性能分析。本文的主要研究内容包括:局域网络环境下的网络 附属存储系统结构的选择,网络附属存储系统的文件管理策略,网络存储系统性能的实验及 理论研究,网络附属存储环境下的多媒体合作著作系统。 f 首先,提出了网络附属存储的两种实现结构。分析表明,分级文件管理结构具有较好的 综合性能。目录结构表的多址存储适应了网络附属存储系统的结构要求,系统的一致性维护 策略能够保证多个日录结构表的一致性。采用文件数据分块存储技术,提高了客户机的文件 数据读弓的并行性,从而改善系统的响应性能。根据网络附属存储的特点,提出了维护系统 安全性的策略。 其次,建立了刚络附属存储的原型实验系统。实验系统由以太网组成,采用p c 机模拟 附网存储控制器,并运行经过裁剪优化的l i n u x 操作系统。在原型系统基础上,进行主机 c p u 负载和客户机文件i o 请求响应时间的实验研究,比较了常规系统与网络附属存储系统 的性能,并对实验结果进行了分析。实验结果表明,网络附属存储系统的性能比常规系统有 不低于3 0 的改善。 随厉研究j ,磁盘阵列的缓存调度策略,提比了一种新的“基j 二需要的并行( 预) 腾空 白 写【亘| 式”的凋度策略,对该策略的实现和软件流程作了详细说明,井测试了在同样配置下采 _ e jl r u 、f i f o 等调度策略的性能。对比测试结果,表明这种策略有效地降低了磁盘阵列的 平均响应时间,改善了i o 性能。 最后建立了网络附属存储系统的排队模型。根据所建立的模型,采刚解析法分析了文僻 分块和镜像方式下的i o 响应时间,并分析了影响系统性能的相关因素从丽可为系统性能 的改善提供依据。,、7 本文还针对r a i d 系统提出了一种命令分解的优化策略:命令合并并行控制算法,它能 在持续入规模数据传输的应用中有效的提高1 1 0 传输的效率避免由非合并分块算法所带来 的i ,o 教率较低的影响 关键词:纳络附属存 l i 系统 - 缓存,并行控制 a b s t r a c t t h em e m o r yo ft h eh o s ts e r v e ri se s s e n t i a it od a t at r a n s f e r r i n gc h a n n e i 血t h ec l a s s i c a lc s s t r u c t u r es ot h em e m o r yi st h eb o t t l e n e c ko ft h es y s t e m ,e v e nt h es t o r a g es u b s y s t e mh a sg r e a t b a n d w i d t h ,t h ec l i e n tc a nn o to b t a i na l lb a n d w i d t hp r o v i d e db yt h es t o r a g es u b - s y s t e m t h e n e t w o r ka t t a c h e d s t o r a g es y s t e m b u i l d st 1 1 ed i r e c te h a r m e lb e t w e e nt h ec l i e n ta n d s t o r a g e s u b s y s t e m r e m o v et h eh o s tf r o m t h ed a t ac h a r m e l i tm a k e st h ec l i e n to b t a i nt h ec o n t i n u a lh i 曲 b a n d w i d t h ,a n di m p r o v i n gt h ep e r f o r m a n c eo f t h es y s t e m t h er e p o r tf o c u s e so nt h ei m p l e m e n tm e t h o do fn e t w o r ka t t a c h e ds t o r a g es y s t e mb a s eo n e t h e m e t ,a n de s t a b l i s h i n gt h em o d e lo fs y s t e ma n a l y s i s ,t h e ng i v i n gt h er e s u l to fe x p e r i m e n ta n d t h ep e r f o r m a n c e a n a l y s i s t h em a i n r e s e a r c hw o r k i n c l u d e s :c h o o s i n gt h es u i t a b l es y s t e m s t r u c t u r e o fn e t w o r ka t t a c h e d s t o r a g es y s t e mb a s e o ne t h e m e t ,t h e p o l i c y o ff i l e m a n a g e m e n t ,t h e e x p e r i m e n to fp e r f o r m a n c ea n dt h e o r e t i ca n a l y s i s ,s o m ep o l i c ya n da l g o r i t h mi na r r a yd i s kw e r e d i s c u s s e d f i r s t l y , t h er e p o r td e s c r i b e st w os t r u c t u r e so fn e t w o r ka t t a c h e ds t o r a g es y s t e m t h er e s e a r c h i n d i c a t e st h a tt h eh i e r a r c h yf i l em a n a g e m e n ti sb e r e t t h em u l t i - a d d r e s so fd i r e c t o r 3 , 谊b l ei 3 s u i t a b l et ut h e r e q u i r e m e n to fn e t w o r ka t t a c h e ds t o r a g es y s t e m t h ec o n s i s t e n c yp o l i c y o f m a i n t e n a n c ep r o v i d e st h ec o h e r e n c eo ft h e s y s t e m u s i n gt h eb l o c ks t o r a g et e c h n o l o g y , t h e p a r a l l e lo f c l i e n ti se n h a n c e d ,a n dt h ep e r f o r m a n c eo fs y s t e mi si m p r o v e d t h es e c u r i t yp o l i c yi s d e s c r i b e db yt h ec h a r a c t e r i s t i co f n e t w o r ka t t a c h e ds t o r a g e t h e n ,t h ee x p e r i m e n t a ls y s t e mf o rn e t w o r ka t t a c h e ds t o r a g ei sb u i l t t h es y s t e md e p e n d so n e t h e m e t ,a n dt h ec o n t r o l l e ro fn e t w o r ka t t a c h e ds t o r a g ei ss i m u l a t e db yp ci nw h i c ht h eo p t i m i z e d l i n u xo si sn m t h er e p o r tr e s e a r c h e st h el o a do fc p ua n dt h er e s p o n d i n gt i m eo ff i l ei oo f t h ec l i e n tb y e x p e r i m e n t ,a n dc o m p a r i n g t h e p e r f o r m a n c eb e t w e e nt h eg e n e r a ls y s t e ma n dn e t w e r k a t t a c h e ds t o r a g es y s t e m t h er e s u l tm a k e si tc l e a rt h a tt h ep e r f o r m a n c eo fn e t w o r ka t t a c h e d s t o r a g ei sh i g h e r3 0 t h a n t h eg e n e r a ls y s t e m t h ed i s p a t c h s t r a t e g yo fd i s ka r r a y w i t hc a c h ei sr e s e a r c h e di nt h er e p o r t ,a n dt h en e w s 订a t e g yb a s eo nt h er e q u i r e m e n to fp a r a l l e l ( p r e - ) e m p t yo u tw r i t eb a c km o d e li sf o r m e d t h e r e p o f ta l s od e s c r i b e si t si m p l e m e n tf l o wi nd e t a i l t h ec o n f f a s tt ol r u f i f oi n d i c a t e st h en e w s t r a t e g yr e d u c e st h ea v e r a g er e s p o n s et i m ea n di m p r o v e st h ep e r f o r m a n c eo f s y s t e m f i n a l l y , t h eq u e u em o d e lo f n e t w o r ka t t a c h e ds t o r a g es y s t e mi sb u i l t a c c o r d i n gt h em o d e l , t h er e s p o n dt i m eo fb l o c kf i l ea n dm i r r o ri sa n a l y z e db ya n a l y t i c s ,a n dc o n c l u d et h el h c t o ri nt h e p e r f o m m n c eo f s y s t e m i tp r o v i d e st h ec l u et oi m p r o v i n gt h ep e r f o r m a n c e t h e r e p o r ta l s oa i m s a tt h er a i d s y s t e ma n db r i n gf o r w a r dd e c o m p o s ec o m m a n do p t i m i z e d s u a t e g nt h a t i s c o m m a n d - c o n s o l i d a t e - p a r a l l e l - c o n w o la l g o r i t h m t h ea l g o r i t h mi m p r o v e st h e e f f i c i e n c yo f i 0i nm a s s i v ed a t at r a n s f e r r i n ga n d a v o i d st h ei n f e c t i o no f t a a d i t i o n a la l g o r i t h m k e ) v m r d s :n e t w o r ka t t a c h e ds t o r a g es y s t e m ,a v a i l a b l e ,c a c h e ,p a r a l l e lc o n t r o l l 上海交通大学博士后研究工作报告 第一节存储模型概述 1 1 计算与存储模式的变化 第一章概述 随着计算技术的发展,计算机系统的体系结构也不断地发生变化,它经历了一个从集中 到分布的发展过程。早期的计算机结构是高度集中的,由于硬件价格的昂贵,需要共享主机, 组成了以主机为中心的计算机系统。用户通过终端共享主机资源,硬盘、打印机和磁带驱动 器等作为主机的外围设备,由主机统一管理和调度。当用户访问这些外围设备时,需要向主 机提出申请,主机从外围设备中读出所需要的数据,再传送给用户。随着大规模、超大规模 集成电路技术的发展和硬件价格的下降,以及计算机网络技术的发展,分布式计算技术也随 之发展起来。在分布式系统中,通讯网络负责各结点间消息和数据的传递。当外围设备也挂 到网上时,它与主机的天系便从主从方式发展成为对等的方式“。 应用需求的变化也驱动了从集中到分布计算和存储的转变。典型的应用需求有,在社会 领域中组织结构变化产生的分布计算的需求,在科学计算领域中高性能应用产生的分布计算 的需求。 社会组织结构的变化表现在,随着信息化进程的加快,要求在组织中的个人之间增加信 息交互,发挥个人的信息处理和决策能力。为适应这种变化,要求将集中的组织结构分散为 分布的结构,从而出现了新的结构。新的结构要求通过对信息的处理、存储和通信使个人或 一个组织能快速访问所需要的数据,同时在组织内和组织间的合作的增加也要求更广泛的信 息和系统资源的共享。因而,集中式信息系统远不能适应这种变化导致的社会需求。 价格性能平衡的计算要求在应用需求和计算机系统的处理、通信、存储等部件的价格、 性能问保持平衡。但是由于存储系统的性能落后于应用要求,也落后于处理器和通信系统性 能,从而使系统的利用率低下。 1 2 客户服务器模型及其性能 客户服务器计算模型的出现和发展使集中到分布的变化成为现实。客户服务器计算模型 是一种基于信息的协议。在这种协议中,客户机提出服务请求,服务器提供服务。客户服务 器结构的成功应用表现在个人计算机和工作站的网络中,文件服务器的成功使用。文件服务 器是网络上提供文件服务的机器,它接受来自客户机的网络消息,如文件打开,关闭,读写 等要求,并对这些要求进行处理,然后通过网络把处理结果送给客户机。 在早期的计算机系统中,由于网络带宽较低,因而客户服务器系统的性能被网络带宽所 限制。在工作站和服务器间得到性能平衡取决于相关的处理器性能,如工作站和服务器上分 配给文件c a c h e 的内存大小,以及可用的网络带宽和服务器的t o 带宽等等。因此,处理器, 网络和存储系统的发展影响了客户机和服务器的关系。处理器的性能正以1 4 个月到2 0 个月 的速度加倍更新。很明显,处理器的性能远远超过了计算机系统中的其它部件性能。与处理 上海交通大学博士后研究工作报告 器性能不同,网络技术以较低的速度发展。在8 0 年代,它用了较长的时间从3 m b i t s 以太网 发展到l o m b i t s 以太网。但是,当前,网络性能也有了很大的发展。新技术能提供了1 g b s 以上的网络带宽。很明显,服务器的性能瓶颈落在存储系统上“3 。 第二节提高存储系统性能的方法 为跟上处理器和网络技术的发展,存储系统也在快速地改进。存储系统包括存储硬件及 控制它的软件。因此,对于存储系统性能的改进,可以从两个方面着手: 改进存储设备本身的响应性能; 改进控制存储设备i o 的算法及使用相关技术来隐藏、消除和减少主存和辅存间的性 能差异。 2 1 磁盘驱动器本身性能的改进3 基本的存储设备是磁盘驱动器。对磁盘驱动器来说,存取时r b j 主要包括寻道时间,旋转 等待时间和数据传输时间。因此,可以通过减少这三项时间来改善磁盘驱动器的总的响应时 间。 现代磁盘尺寸直径从1 3 到8 英寸,但今天2 5 、3 5 和5 2 5 英寸是最常用的尺寸。更 小的磁盘有更小的表面积,因而比尺寸大的磁盘存储更少的数据。但是,尺寸小的磁盘耗电 更少,旋转得更快,同时有更小的寻道距离。存储密度的增加来自于两个方面的改进,第一 个是更好的线记录密度,由最大的能记录和读回的流动速率决定;第二个是更小的磁道密度, 使相邻的磁道靠得更近。这两方面的改进使每年存储密度增加6 0 以上。提高磁记录密度的 主要方法有磁阻磁头,巨磁阻磁头,p r m l 等。磁盘的数传率是磁盘线性记录密度和转速的乘 积,提高数传率及旋转延迟的重要手段是提高磁盘主轴的转速,磁记录密度的增加也同时提 高了磁盘驱动器的内部数据率。当代磁盘的转速已从3 6 0 0 r p m 到达5 4 0 0 r p m 、7 2 0 0 r p m ,甚至 到达了1 5 0 0 0 r p m 。虽然主轴转速的增加提高了数传率和减少旋转延迟,但是增加了耗电量及 发热,需要采用更好的轴承,如液压气动轴承,以使主轴转动时震动减少,更加平衡。 为了寻找到数据所在磁道,磁头必须在磁片轴向上来回移动。定位系统的任务是确保相 应的磁头尽可能快地找到需要的磁道,即使有外部震动和磁盘缺陷,也能稳定地保持在正确 的磁道。搜寻时间包括加速阶段,匀速运动阶段,减速阶段和定位阶段。即磁头经历了速度 从零到最大再到零的过程。寻道时间是指磁头驱动机构移动到相应磁道所需要的时间。减少 寻道时间的技术有:减少头臂组件质量加大驱动机构电流,改进伺服及控制方法等。 旋转等待时间是等待盘片旋转到磁道上目标数据块开始位置的时间。当盘片以5 4 0 0 转 ,m i i 3 旋转时,旋转一圈为1 1 1 m s ,则平均延时为5 6 m s 。当前,平均延迟时间已降到 48 5 5 m s 。 4 上海交通大学博二t 后研究工作报告 2 2 磁盘调度和c a c h e 技术1 4 1 1 5 i 对于单个i o 请求,其响应时间完全由磁盘驱动器本身的特性决定。但是,对于等待队 列中的多个i o 请求,如果能够根据磁盘驱动器的读写特性,采用一定的调度算法来减少磁 头在两个连续的i o 请求间的定位时间,则可以提高磁盘驱动器的响应性能。c a c h e 为高速 主存和慢速的次级存储设备间的匹配器。 在磁盘请求调度中,由于应用环境不同,而使用的较经典的调度策略有: 1 f c f s 。称为先来先服务调度策略。按照请求到达的先后次序提供服务,为最简单 的调度策略。 2 c s c a n 。称为循环扫描策略。这种调度策略是磁头按单一方向顺序完成一便扫描, 完成所有请求后,再反向扫描其它i o 请求。 3 e d f 。称为最早死限优先算法。在带有实时性要求的请求中,把所有的请求都进 行排队,优先服务离截止期限最近的请求。 q s c a n e d f 。这是一种s c a n 和e d f 混合的调度算法。它同时支持最优寻道和最早 死限优先调度。如果许多请求有相同的死限,则根据它们在盘上的位置调度执行。 在磁盘i o 操作中,寻道和旋转等待时间在总的i o 时间中占有相当的比例。调度策略 的目的是把定位时间缩短道最小。调度策略的主要方法有使用命令缓存和多盘并行操作。 c a c h e 技术利用了数据请求的空间局部性和时间局部性原理,即前面己使用过的数据有可 能再次使用,相邻的数据被使用的概率较大。把这些数据保存在存取速度较高的存储器c a c h e 中。当这些在近期使用概率较高的数据被请求时,可以赢接从高速存储器中读取,从而提高 了系统的响应性能。由于c a c h e 容量较小,当所请求的数据不在c a c h e 中时,称为请求缺失, 要采用一定的替换算法从次级存储器中直接读取数据。 2 3 磁盘阵列并行存取i 6 1 1 7 对于同时要求有高的数传率和较大的存储容量的要求,单个磁盘驱动器是无法解决的。磁 盘阵列技术则采用并行存取的方法来响应外部i o 请求,它将多个独立的磁盘驱动器组织成 一个大的逻辑驱动器,从而可提供较大的存取带宽。它采用分块技术把数据分数存放在多个 磁盘驱动器上,大块连续的数据可通过多盘并行处理来获得较高的数传率,小块数据则各盘 单独并发处理,从而获得高的访问频率。 当多个磁盘驱动器组成磁盘阵列时,由于数据分块存储,系统可靠性成为必须考虑的重 要问题。如果每个磁盘驱动器具有相同的失效概率,则由n 个磁盘驱动器组成的系统可靠度 只有单个磁盘驱动器的1 n ,解决方法是采用数据冗余来进行检纠错。标准的冗余磁盘阵列 有6 个级别,以提高阵列的可靠性。 r a i d o 级不包含任何冗余信息,它采用数据分块以实现并行i o 。由于没有数据冗余和校 验,其存取性能较好,但是可靠性较低,适用于速度要求高但可靠性要求不高的场合。 r a i d l 级为镜像结构,即采用两个磁盘驱动器存放完全相同的数据,其冗余度为1 0 0 , 这种结构的可靠性较高,可以容忍多至n 2 个盘的失效。由于每个驱动器都有自己独立的数 据通道,因而支持数据并行读写,此结构用于对可靠性要求相对较高的应用环境,如银行系 上海交通大学博士后研究工作报告 统。 在r a i d 2 中,磁盘组被分为数据盘与校验盘,采用海明码检纠错。用户数据按位或字节 分散存放在数据盘上,在校验盘上存放海明码。由于采用海明码检纠错,r a i d 中每次进行数 据读写时,所有的磁盘驱动器都要参与工作。因而其i o 读性的并发性降低,吞吐量受到了 限制。 r a i d 3 的校验盘数为i ,数据以位交叉方式存放,其校验码较为简单。r a i d 4 以块交叉方 式存放数据,单个磁盘能够完成小块数据请求,从而改善了小块数据的传输性能。r a i d 5 的 校验数据分散存放于各磁盘上,从而保证了阵列的负载平衡。 通过对标准阵列的改进,针对不同的应用环境,人们又提出了一些新的阵列结构。r a i d 6 是采用分块交叉及双磁盘驱动器容错的磁盘阵列,它采用两个磁盘驱动器,存放检纠错冗余 数据因此,在双盘出错的情况下,仍能使阵列正常工作,不致于丢失数据。其数据和检验 信息分块交叉存储在多个磁盘上,多个磁盘可同时读写,1 1 0 数传率较高其缺点是当数据 写入时,要对多个磁盘驱动器进行访问,因此其写性能较差。 r a i d l 0 是r a i d o 和r a i d l 的组合,它综合采用了分块的镜像技术。使两个磁盘驱动器为 一组,在组中采用镜像技术,在多个组间实现数据的分块存放,其优点是磁盘i 0 性能和数 据可靠性都较高,但是写入时与单纯的镜像阵列一样,要同时写入两个镜像盘,因而写入性 能较低。 e v e n o d d 是- , e e 容双错的阵列结构,它有两个冗余磁盘用于存放检纠错信息,其中一个 冗余盘存放水平冗余信息,是一个冗余盘保存对角线冗余信息。因而当有两个盘失效时,可 通过两个冗余盘恢复失效数据。由其冗余原理可知,其计算复杂度较低,在e v e n o d d 中,大 多数小写操作仅影响两个冗余码元。但当码元在对角线上时,写开销较大。 c o r s s h a t c h 是综合考虑磁盘驱动盘容错和控制器电缆容错的结构,其磁盘驱动器均为双 端口盘,每个磁盘驱动器都由水平串和垂直串来控制,当一个串控制器出错时,系统降级运 行,不影响阵列正常工作。一个水平串和一个垂直串控制器出错时,其交叉点磁盘的数据可 以由重构恢复,阵列仍可正常工作。 第三节网络附属存储系统 仅仅研究如何提高存储系统本身的性能已不能满足应用对存储系统的要求。r a i d 的出现 表明大量的小磁盘能被用来建立大的系统,或者使大容量磁盘形成性能更好,容量更大的系 统,它使用分块以增加带宽,采用冗余技术以提高可靠性。这种方法提高了数据在存储系统 内的i o 的并行性和数据的容错能力,即实现了数据并行存储。但是,由于i o 通道的限制, 虽然r a i d 系统的总的带宽较大,其提供给主机的实际可用带宽是有限的。r k a t z 在1 9 9 2 年提出了基于网络存储的概念。3 。其后,许多研究计划把r a i d 中基于中央控制器工作的思想 扩展到了网络存储系统,如t i c k e r t a i p 和p e t a l 系统。“。t i c k e r t a i p 发展了一个带有分块 和r a i d5 冗余的全分布存储系统,它的目标是把单个集中r a i d 控制器的功能分布在多个结 点上。这些结点包括w o r k e r 结点,负责管理磁盘:o r i g i n a t o r 结点,负责与用户通信。但 是,由于w o r k e r 结点要参与所有的写操作时,从而导致丁更复杂的失效恢复,其复杂性随系 统中结点数和一致写的数量的增加而增加。p e t a l 开发了一个分布的镜象系统。它的容错比 上海交通大学博士后研究工作报告 r a i d5 更简单,因而也是可扩展的。当加入一个新的部件时,它提供的数据的自动分布使存 储管理更容易。 数据库、视频点播、医学数据和w e b 文档之类的应用对存储系统有这样一个要求,即存 储系统既要有大的容量又有高性能。如视频点播系统( v o d ) ,必须有持续的高带宽。如系统 采用n t s c 视频格式( 3 0 帧s ) ,分辨率为5 1 2 4 8 0 ,每个像素为2 4 位,则数传率为( 5 1 2 4 8 0 3 3 0 ) b s = 2 1 m b s 。即使采用m p g 2 压缩,其数传率至少要大于1 5 m b s 。这仅仅为 一个用户的带宽要求。当多个用户同时请求服务时,所要求的持续数传率更高。在许多情况 下解决方法是多个磁盘阵列和磁带阵列的分级存储。可是,磁盘阵列包含了一些与价格性能 比、可用性、可扩展性有关的缺点。由于使用专门的硬件,与裸盘和磁带系统不同,r a i d 磁 盘阵列每兆的价格随着系统容量的增加而增加。而且,一个磁盘阵列需要被连接到一个主机, 这个主机成为性能和可用性的瓶颈,它的可扩展性也被基本结构所支持的磁盘数量所限制。 一些耗费存储的应用如w e b 文档有一个固定的数据增长速度。当它们到达了磁盘阵列的容量 限制时,必须加上另一个磁盘阵列。加上独立的磁盘阵列也降低了整个系统的可靠性,同时 使存储管理更加复杂。 网络附属存储( n e t w o r ka t t a c h e ds t o r a g e ) 从更新的角度实现了分布式的网络存储 它的重点在于实现数据在数据请求者和数据提供者( 存储系统) 之间的直接传输,以实现高 的数据传输带宽,较好的可扩展性。 3 1 网络附属存储 网络附属外设( n e t w o r k - a t t a c h e dp e r i p h e r a l ) 中包括网络附属存储系统。在过去的几 年,网络附属外设正在从超级计算机环境成为广泛范围的使用产品,现在必要的操作系统支 持正在开始实现。网络附属外设研究工作可以分成三个基本方面。( 1 ) 设备接口和协议( 2 ) 多媒体使用。( 3 ) 海量存储。“”“” 概括起来,网络附属外设可定义为:n a p 是一种计算机外部设备,它能通过网络协议( 如 t c p i p ) 从常规网络媒介提供访问,也不排除通道和通道协议( 如s c s i ) 。典型的n a p 有许 多特性,把它们同传统的总线附属的外部设备分开,这些特性包括: 物理互连至少在机房距离内是可用的,也可能是校园网或广域网的规模,可以连接大 量的结点。因而资源发现和网络路由成为必须考虑的问题。 对设备来说,没有物理定义的所有者,它可能被单个远程系统拥有,也可能被多个远 程系统共享。因而,设备控制器与软件变得较为复杂。 网络互连能够满足一般的通信需要,如主机到主机的通信要求,但是产生了安全性问 题。同时,网络共享的特性改变了系统的性能特点。 由于网络延迟较高,而影响了所使用的命令协议。 数据发送可能也包括传统的与网络有关的问题。例如,打包和校验开销,碎块,数据 发送失序和传输尺寸限制等。 一个n a p 能直接与另一个n a p 交换信息,但是主机只提供有限的监控,因而不消耗主 机资源和总线带宽,这种方法称为三方传输。 一个磁盘n a p 可提供面向块的协议,如s c s i 或i p i 一3 ,它允许主机操作系统在块结 上海交通大学博士后研究工作报告 构的顶部定义它自己的结构,包括交换分区,数据库分区或文件系统。 3 1 1 设备接口与协议 设备接口的研究包括:物理互连;高级命令协议:网络层:三方传输以及安全性、资源 发现等。 h i p p i “”( h i g hp e r f o r m a n c ep a r a l e li n t e r f a c e ) 的带宽为1 0 0 或2 0 0 m b y t e s ,在n a p 中可能较为常用。但是,由于其昂贵的、较短的电缆连线而限制了其在超级计算机中的使用。 i b m 的串行存储结构( s e r i a ls t o r a g ea r c h i t e e t u r e ) 是相对较好的接口,它有较好的带宽 和健壮性。光纤通道“”( f i b r ec h a n n e l ) 是另一种较新的接口,物理上能配置成一个简单的 通道,一个仲裁环,或一个全开关结构。由于s s a 和串行总线p 1 3 9 4 面向单主机环境,一般 不作为网络附属设备互连结构。而f c 则适合于n a p 结构。 三方传输是n a p 提供的有用的特性。虽然s c s i 命令集中包括了这个特征( 如c o p y 命令) , 但是在n a p 中才广泛开始使用。操作系统对三方传输的支持仍然很弱,仍需要进行改进。三 方传输使数据可直接在磁盘和磁带间直接传递,而不必经过主机内存。h y p e r 等讨论了使一 个n a p 与一个已有系统合作传输的危害,指出在i p i 一3 中的缺陷使三方传输不稳定。 3 1 2h p s s 系统( 海量存储系统) 1 6 】 图1 1k p s s 的一种配置方案 高性能存储系统h p s s ( h i g h p e r f o r m a n c es t o r a g es y s t e m ) 是美国 国家存储实验室正在进行的一项计划, 它的主要目的是改善大规模存储系统的 性能和容量。h p s s 结构是基于i e e e 的 海量存储参考模型。它以网络为中心, 包括一个高速数据传输网络和一个独立 的控制网络。在典型的实现中,客户机 传送一个数据请求到h p s s 服务器。h p s s 服务器指挥网络附属存储设备或服务 器,通过并行的或串行的方式,直接通 过高速数据传输网络传送数据到客户结点。同时通过高性能并行接口( h i p p i ) 实现了t c p i p 和i p i 一3 协议,还支持f c 或a t m 。 h p s s 的主要目的是发展一种可扩展的,分布的和高性能的存储管理系统。其设计目标为: 】多种可扩展性。h p s s 的i l o 结构通过支持并行i o 来提供i o 性能扩展。同时,也要求 地理的可扩展性以支持带有分级存储的分布式系统。在不同地理位置的多存储系统应集 成为单个逻辑存储系统。 2 模块化。h p s s 的结构应高度模块化。每个可复制的软件构件负责一套存储对象,充当这 个对象的服务提供者。 j 二海交通犬学博士后研究工作报告 可移植性和标准化。使用a n s ic 编写,使用p o s i x 函数以增强软件可移植性。 可靠性和可恢复性。在h p s s 软件构件问的客户服务交互被设计为基于原子事件以维持 系统状态的一致性。为了系统的可恢复性,存储目标的镜像被使用。 安全性。使用访问认证和访问控制表保证系统的安全性。 3 2 其它相关研究 3 2 1n e t s t a t i o n 研究 由于高速网络的发展,过去是比较低速的网络通道,现在已经能与主机系统相同的带宽 运行。文献“7 提出了n e t s t a t i o n 结构。这种结构把磁盘显示器、键盘、鼠标等外部设备都连 接到网络,成为网上的自主结点。访问和控制外部设备的操作系统或应用进程通过可靠连接 而传递的信息或命令对外部设备进行控制。 使用网络而不是总线的优势是它的可扩展性以及易访问性能。网络提供了对等的通信 支持同步传输,数据能够在任何二个网络结点之间直接交换。依靠i n t e r n e t 协议、附属于网 络的设备对于网络内的任何主机来说都是直接可访问的。要实现这种结构,通过网络来访问 和控制设备,要求发展标准的网络协议和接口。而且,客户服务器模型能够被扩展实现。在 n e t s t a t o n 结构研究中,主要的焦点是客户设备和服务器设备有效的通信和控制机制的实现。 在n e t s t a t i o f l 结构中,设备子系统驻留在i n t e r n e t 的结点上。一个结点提供网绍服务 接口给系统中的其它设备子系统,这些接口称为n v d 网络虚拟设备( n e t w o r kv f r t u a l o e v i c e s ) ,从而把设备子系统的外部表示同结点内的实际物理接口区别开来。一个n v d 与结 点中命名的上下文相关联,每个上下文支持一个或更多的r p c 程序和一套与之相关的过程。 幽i2 n e t s t a t i o n 结构 n v d 与外部使用者的关系如同服务器与 它们的客户的关系一样。作为客户的= t = 作站 能够使用n v d 模拟常规的外部设备。在打开 网络接口和必要的网络服务生成后,工作站 核心打开一个到n v d 的连接,然后附带上 它。在结点内的一个特殊的设备子系统或一 组子系统能够给网络提供多个n v d 。因此,它可以使系统的设备表达出不同的特性,如不同 的访问方法等。例如,如果一个n v d 的控制所有者想使这个n v d 对第三方可见,控制所有者 能对相同n v d 生成新的连接,或者是创造一个新的n v d ,它可能有不同的特性,如一个读写 磁盘的n v d 的控制应用能为第三方生成一个到此n v d 的连接,但是限制为只读访问模式。 疠问控制。与总线外部设备相反,一个n e t s t a t i o n 结点通过网络间接被控制,因此必 须有办法允许一个结点检测和拒绝未授权的命令。对设备结点和控制应用的所有交换命 令都进行授权确认是理想的情况,但是其代价较高,开销较大。两者间的折衷方案是对 结点设备的访问进行限制,只有被系统管理员定义的成员能够访问相应的结点设备。 配置和资源发现。常规的系统结构中,组成计算系统的各设备子系统物理上是非常接 近的,系统配黄是静态的,能在自举时完成。在n e t s t a t i o n 结构中,设备不具有相邻性, 上海交通大学博士后研究工作报告 组成系统的结点是互相独立的。因此必须动态配置子系统以形成一个有效的计算系统。 所需要的子系统服务必须由应用进程提出服务要求,由提供服务的结点设备定义所提供 的服务,当服务完成时再释放结点设备。由于能动态配置,服务器能够提供更复杂的配 置能力,它维持一个所有结点的数据库和属性表,它也能管理域内的结点并控制对它们 进行的访问。 3 2 2p e t a l 结构 文献“描述了p e c a l 结构。如图1 3 所示,p e t a l 系统包括一个分布存储服务器池,多 个存储服务器一起合作实现一个单一的块级存储系统。客户把这个存储系统看成一个虚拟盘 的集合,通过远程过程调用( r p c ) 访问p e t a l 提供的服务。在p e t a l 的r p c 接口设计中,一 个基本的原则是维护所有需要的状态以确保系统中存储服务器的完整性,但在客户中仅保持 寻找数据的线索。客户仅保持少量的高级映射信息,用来把读写请求送到“最合适”的服务 器。如果一个请求被送到一个“不合适”的服务器,这个服务器返回一个错误码,使客户改 变它的线索,再重新发送请求。 i可扩展嘲络 圈1 3 p e t a l 的物理结构 图1 4 p e t a l 的软件结构 图1 4 描述了p e t a l 系统的软件结构。p e t a l 维护了描述当前存储系统成员的信息和当 前被支持的虚拟盘信息的数据结构。这些信息在系统的所有的p e t a l 服务器中被复制。全局 状态模块管理器负责这些信息的一致性维护,保证任意服务器通信失效和恢复的正确性,即 只要大多数服务器能相互通信就能保证系统运行,这保证了在p e t a l 中的管理操作,如创建、 删除、快照虚拟盘、增加或删除服务器的操作是容错的。生命模块确保系统中的所有服务器 承认相互的操作状态:运行或崩溃。生命模块的服务被另一些模块使用,如全局状态管理器, 上海交通大学博士后研究工作报告 以确保系统在服务器和通信失效时连续的一致的操作。生命模块的工作以服务器间周期性的 交换信息为基础,如“我在活动”,“你在活动”等。这些信息交换必须用定时的方法保证系 统前进,但是能够被任意延长和重新排序而不影响正确性。另外3 个模块处理p e t a l 客户发 出的读写服务请求。数据访问和恢复模块控制客户数据如何在p e t a l 系统中分布和存储。对 每个系统支持的冗余策略类型有一个不同的数据访问和恢复模块存在。当虚拟盘被创建时就 定义了它的冗余策略。其后,冗余策略和另外的属性能通过称为虚拟盘配置的进程透明地改 变。虚拟到物理的地址转换模块包括通用的被不同数据访问和恢复模块使用的例程,这些例 程把虚拟盘的偏移转换到物理的盘地址。 第四节本文研究的目的及意义 假设某个应用仅由两部分构成:x ,y 。它们的执行时间分别为x ,y 。如果x 的速度提 高n 倍,则加速比s 由下式得到。 s :堕鲞垫笪堕塑:!_ ,上,当n - - o o 时 现在执行时间+ y y 这就是著名的a m d a h i 法则。如果把x 与y 看成是系统中的部件,当x 速度提高很快时,总的 性能提高受限于速度提高不明显的y 部件。在计算机系统中,x 相当于主机的运算速度,而y 相当于外存储系统,这样,总个系统性能受限于i o 系统。这就是所谓的i o 瓶颈。这是由 主机系统弓外存子系统之间的不平衡发展而造成的。 a m d a h l 定律指出,存储设备的性能的改进必须与处理器性能的提高同步,才能使计算机 系统的总体性能得到提高。外存储设备的研究者们致力于采用各种技术提高外存储设备的性 能和容量。通过采用磁阻、巨磁阻技术,提高磁记录密度。通过提高主轴转速提高数传率并 减少旋转延迟。在控制算法上,采用各种调度策略和c a c h e 技术来提高磁盘驱动器的综合响 应性能。磁盘阵列技术则采用并行i 0 技术,将多个独立的磁盘驱动器组织成一个大的逻辑 驱动器,从而可提供较大的存取带宽。它采用分块技术把数据分数存放在多个磁盘驱动器上, 大块连续的数据可通过多盘并行处理来获得较高的数传率,小块数据则各盘单独并发处理。 从高性能计算领域到社会组织间的交互性都要求对急剧膨胀的数据实现共享,客户服务器 模型为数据共享提供了手段。但是,传统的客户服务器模型中,服务器主机要参与所有的数 据读写操作,主机内存是数据i o 的必经通道。当系统的规模增加时,主机内存将成为系统 的瓶颈。这时,改进存储设备本身的性能已经不能对整个客户服务器系统的总体性能有所改 善,只有从系统结构上进行改进才可能打破主机的i o 瓶颈。 传统的客户服务器模型的主要问题有:可持续带宽低和可扩展性差。当前,数据请求密 集的应用,如视频点播、医学数据库对系统持续带宽和可扩展性有很高的要求。因而,传统 的客户服务器模型结构不能满足这些应用的要求。网络附属存储结构正是为解决传统模型的 问题而提出的。这种结构打通了存储设备到客户机的通道,因而能够实现数据的直接传输。 h p s s ,s i o f 等研究集中在较大规模的系统中,本文研究的目的是讨论在小型局域网中实现网 络附属存储的策略和方法,并建立相应的理论分析模型。 上海交通大学博士后研究工作报告 第五节本文研究的主要内容 1 对局域网络环境下的网络附属存储系统的总体结构进行研究,以找到适合于局域网环境的 附网存储系统结构。 2 对网络附属存储系统的文件管理策略进行研究,以找到有效的文件及数据管理策略,实现 网络附属存储的主要目标:系统的可扩展性和i o 响应陆能。 3 建立基于l i n u x 环境的网络附属存储原型系统。在此原型系统上对网络存储的性能进行实 验研究,以得出实验研究结果。 4 对网络存储系统进行理论模型研究,根据所建立的理论模型,研究影响网络存储性能的相 关因素。 5 研究网络附属存储系统环境下的系统安全性问题。 6 磁盘阵列缓存的调度策略 7 r a i d 系统的并行优化及性能分析 上海交通大学博士后研究工作报告 第二章局域网络附属存储实现策略研究 本章首先分析了传统存储结构的缺点,讨论了在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论