(计算机系统结构专业论文)磁盘阵列中高速存储接口技术研究.pdf_第1页
(计算机系统结构专业论文)磁盘阵列中高速存储接口技术研究.pdf_第2页
(计算机系统结构专业论文)磁盘阵列中高速存储接口技术研究.pdf_第3页
(计算机系统结构专业论文)磁盘阵列中高速存储接口技术研究.pdf_第4页
(计算机系统结构专业论文)磁盘阵列中高速存储接口技术研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机系统结构专业论文)磁盘阵列中高速存储接口技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要+ | r l 研究高速通道技术灵活、高效地运用于构成磁盘阵列的方法,可大大提高磁盘 阵列系统i o 性能。其实现方法是选用并开发出高效腧速存储接1 3 设备驱动程序, 以支持使用高速存储设备,并向主机提供高速接口。, 开发所需完成的工作包括:对整个系统的工作流程、开发运行平台、所遵循的 协议标准、编译调试工具等方面进行深入的分析和研究。在详细分析工作流程的基 础上寻找性能差距的原因,提出通过增加设备驱动程序功能来解决内存移动开销大、 数据传输速度慢等方面的问题。其结构按照磁盘阵列运行平台的要求而设计,其功 能遵循s c s i 协议来实现。在开发中充分利用控制芯片厂家提供的s c r i p t s 指令和 编译调试工具,以提高代码的效率。 为加快阵列系统i o 速度和数据传输速率,进一步从两个方面对高速存储接口 设备驱动程序进行优化。s c s i 设备之间的传输速度是通过扩展消息交互后建立的, 扩展消息中的宽带数据传输请求、同步数据传输请求以及并行传输协议是建立高速 传输连接的三个重要消息,其实现同s c s i 芯片的寄存器设置紧密相关。磁盘阵列 采用分块技术导致多个i o 子命令的存在,合并策略可减少了磁盘的次数,但 增加了数据合并的系统开销。聚散技术是解决这个问题的有效途径。因此采用扩展 消息和聚散技术能够显著提高阵列系统性能,通过实践和比较测试证明了这一结论。 关键词: 磁叠磊磊;s 若。幻矗高速存谣苫;聚症爱,术 + 本文的研究工作受到国家自然科学基金( 6 9 9 7 3 0 1 7 ) 的资助 l 华中科技大学硕士学位论文 a b s t r a c t n e a t l ya p p l y i n gh i g h r a t e c h a n n e lt e c h n o l o g yi nt h er a i dc o n s t r u c t i o nc a r lg r e a t l y i m p r o v e t h ei o p e r f o r m a n c e o ft h ed i s ka r r a ys y s t e m t h ei m p l e m e n tm e t h o di s s e l e c t i n g a n dd e v e l o p i n gt ke f f i c i e n td r i v e r sf o rh i g h - r a t es t o r a g ei n t e r f a c ed e v i c e s , w h i c hc a l ls u p p o r tt h eu s eo fh i g h r a t es t o r a g ed e v i c e sa n dp r o v i d eah i g h - r a t ei n t e r f a c e t o t h e h o s t t h ed e v e l o p m e n tw o r ki n c l u d e st h et h o r o u g ha c k n o w l e d g e m e n tt ot h ew o r k f l o w , t h e p l a t f o r m ,t h ec o m p i l i n g a n dd e b u g g i n gt o o l s ,a n dt h e s p e c i f i c a t i o nt h a t t h es y s t e m c o n f o r m st o a f t e ra n a l y s i n gt h ew o r k f l o wo fd i s ka r m y , w ec a nf i n do u tt h ef a c t o r st h a t m a y l e a dt oab a dy o p e r f o r m a n c e :t h es l o w d a t at r a n s f e rr a t eo f c h a n n e l ,t h eh i g hd a t a m o v e m e n to v e r h e a di nm e m o r ya n ds oo n e x t e n d i n gt h ef u n c t i o n so ft h ed e v i c ed r i v e r c a nb r i n ga b o u tas o u n di 0p e r f o r m a n c eb yh a v i n gi m p a c to nt h e s ef a c t o r s t h ed e v i c e d r i v e ri sd e s i g n e da c c o r d i n gt ot h en e e do ft h ep l a t f o r ma n di tc o n f o r m st ot h es c s i s p e c i f i c a t i o n t h ee f f i c i e n c yo f t h ed r i v e rc o d ec a nb ei m p r o v e db yu s i n gt h es c r i p t s i n s t r u c t i o n sa n dt h ec o m p i l i n ga n d d e b u g g i n g t o o l ss u p p l i e db y l s i l o g i c t o g e ta f a s ti os y s t e m ,t w ot e c h n i q u e sa r et a k e n o n ei st on e g o t i a t eah i g h - :a t ed a t a t r a n s f e ra g r e e m e n tb e t w e e nt w os c s id e v i c e sb yu s i n ge x t e n d e dm e s s a g e s d u r i n gt h e n e g o t i a t i o n ,s o m es c s ir e g i s t e r e db i t so f t h ec o n t r o l l e rc h i ps h o u l db es e to rc l e a r e dt o m a k et h e n e g o t i a t i o nt a k ee f f e c t t h eo t h e ri sr e d u c i n gt h ed a t am o v e m e n t i nm e m o r y b y u s i n g s c a t t e r g a t h e r o p e r a t i o n s s t r i p i n g l e a d st ot h ee x i s t e n c eo f m u l t i p l e i o s u b - c o m m a n d s t h ec o m b i n a t i o ns t r a t e g yc a l ld e c r e a s et h ed i s ki o f r e q u e n c yb u t i n c r e a s e st h es y s t e mo v e r h e a do nm o v i n gd a t ai nm e m o r y t h u s ,ab e r e rp e r f o r m a n c e c a l lb ea c h i e v e dw h e ne x t e n d e d m e s s a g e s a n ds c a r e r g a t h e r o p e r a t i o n sb e i n gu s e d ,t h e e x p e r i m e n t r e s u l t sp r o v et h ec o n c l u s i o n t h er e s e a r c h w o r k w a s s u p p o s e db y t h e n a t i o n a l n a t u r e s c i e n c e f o u n d a t i o n o f c h i n a u n d e r g r a n t 6 9 9 7 3 0 1 7 珏 华中科技大学硕士学位论文 k e y w o r d s :r a i d ;s c s i ;i op e r f o r m a n c e ;h i g h r a t es t o r a g ei n t e r f a c e ;s c a t t e r g a t h e r i 华中科技大学硕士学位论文 1 1 存储系统面临机遇和挑战 l - 1 i 存储时代的来临 1 绪论 r r 业在经历了p c 和网络两次浪潮以后正在迎来存储时代。随着i n t e m e t 各 种应用的逐步展开与深入,存储市场己被认为是最具有战略意义、发展最快的领域。 各种权威机构的预测报告也证实了这一点。据i d c 报告,目前用户在服务器和存储 产品上的花费已经接近l :l ,到2 0 0 3 年,这一比例将扩大到1 :3 ,届时,世界存 储市场的总值将超过4 6 0 亿美元。e m c 公司估计2 0 0 5 年全球存储市场的需求将达 到1 0 0 0 亿美元。不断提高的市场需求正是推动存储系统结构进步的动力,存储系统 需要提供更高的数据传输率、更大的存储空间和更完善的数据管理服务以满足需求。 1 1 2 存储系统存在的问题 随着半导体技术的飞速发展,微处理器和主存储器系统都正在以惊人的速度发 展0 2 1 英特尔公司最新推出了n o r t h w o o d 核心的奔腾4 处理器,它采用英特尔0 1 3 微 米制程技术,同时配备了5 1 2k b 二级高速缓存,速度高达2 4 g h z 。r a m b u s 公司 在今年二月发布了r i m m 4 2 0 0 双通道内存模组,其带宽达到4 2 g b s 。而被认为是 世界上速度最快的硬盘c h e e t a hx 1 5 3 6 l p ,其转速为1 5 0 0 0r p m ,寻道时间为3 6 m s ,等待时间为2 0m s ,格式化数据传输速率为6 9 m b s 。磁盘技术同微处理器、 主存技术的发展水平悬殊。在过去的数十年中,c p u 处理能力平均每年增长 5 0 1 0 0 ,内存的带宽也以每年4 0 1 0 0 的速度增长,与此同时,由于受到机械部 件的限制,磁盘数据访问时间平均每年只能提高7 - 1 0 ,数据传输率只能以每年2 0 的速度发展。根据a m d a h l 法则,s = l ( ( 1 - - f ) + f k ) ,s 是有效加速比,f 是得 到加速的部分,k 是加速比【3 1 。假设在某个应用中有1 0 的时间用于i o ,i o 速度 一 l 华中科技大学硕士学位论文 保持不变,c p u 速度提高1 0 倍,则s = 1 ( 1 一o 9 ) + o 9 1 0 ) 一5 ,即得到的有 效掘逮比仅为5 ;当c p u 速度提高1 0 0 倍时,剐s = i ( ( 1 一o 9 ) + o 9 1 0 0 ) t 0 , 即处理器9 0 静性能提高都被低速的f 0 所抵消了。函此,只有解决o 瓶颈才能 获得计算枫系统整体性能的大幅度提升。解决的途径主要有两个:存储设备的改进 和存储系统结构的改进。前者通过寻找新的存储技术、加速寻道、提高记录密度、 提高主轴的转速、集成更多的智能控制等方法实现嘲;后者则避利用存储设备的并 行性、数据局部性原理、预取技术以及有效的调度策略建立商性能的存储系统f 5 j 。 1 2 并行分布存储系统 对于势行、分蠢式存锫系统结构的研究主要集中在两个方面,一是采用多通道、 多存储设备的并行存健结构;另一方露是将网络技术零 入存储系统,实现存储系统 与用户的点接通讯,并剥羯网络的可扩嶷性扩震存储容量1 6 l 。目前广泛应用的并行 分京式存储系统有:冗余磁盘阵列( r e d u n d a n t a r r a y so f i n d e p e n d e n td i s k s ,r a i d ) 、 嫩网存储系统( n e t w o r k - a t t a c h e ds t o r a g e ,n a s ) 、存储局域阐( s t o r a g e a r e a n e t w o r k , n a s ) 以及最近兴起的i s c s i 。 1 跗网存储( n e t w o r k - a t t a c h e ds t o r a g e ,n a s ) n a s 将存储设备通过标准的网络拓扑结构连接判一群计算机上f 78 1 。n a s 可以 无需服务器壹接上网,它不依赖通用的操作系统,而怒采用一个匿向用户设计的、 专门用于数据存储的简化操作系统,内鬣了与闻络逮接所褥的执议,熙此使整个系 统的管理和设鬣较为简单。同时n a s 是真正即插即用的产品,物理位置灵活,可放 置在工作缀肉,也可放在其他地点与网络连接。n a s 产晶蛊接通过翳络接墨连接到 网络上,只需简单地配置下i p 地址,就可以被网络上蟾用户所共享。它将所有的 软件全部固优在n a s 产晶或n a s 弓f 擎内,因此安装鄹使用都非常祷单。由于n a s 产品是独立予应用服务器的,从西能傈涯系统的安全性和可靠性。 2 存储局域刚( s t o r a g e a r e an e t w o r k s a n ) s a n 的一个概念是允诲存锉设备鄹处理器( 服务器) 之阔建立壹接的高速网络 ( 与l a n 相比) 连接,通过这秘连接实现只受光纤线路长发限制静集中式稃储f s 9 j 。 2 华中科技大学硕士学位论文 s a n 可以被看作是存储总线概念的一个扩展,它使用局域网( l a n ) 和广域n ( w a n ) 中类似的单元,实现存储设备和服务器之间的互连。这些单元包括:路由器、集线 器、交换机和网关。s a n 可在服务器间共享,也可以为某一服务器所专有,既可以 是本地的存储设备也可以扩展到地理区域上的其他地方。s a n 的接口可以是小型计 算机系统接口( s c s i ) 、串行存储结构( s s a ) 、高性能并行接口( h i p p i ) 、光纤通 道( f c ) 或任何新的物理连接方法。s a n 的另一个定义是:它是一个集中式管理的 高速存储网络,由多供应商存储系统、存储管理软件、应用程序服务器和网络硬件 组成。 3 i s c s i ( i n t e m e ts c s i ) i s c s i 是由i b m 下属的两大研发机构一加利福尼亚a l m a d e n 和以色列h a i f a 研究 中心共同开发的,是一个供硬件设备使用的、可以在i p 协议的上层运行的s c s i 指 令集 1 0 1 1 1 。i s c s i 建立在网络世界里两个广泛应用的协议基础上:在存储方面,i s c s i 使用s c s i 指令集,该指令集是广泛应用在所有存储设备里的核心存储指令;在网 络方面,i s c s i 使用口协议和以太网,它们是企业网络的基础,越来越多的城域网 和广域网使用它们来构建。经过三十多年的研究、发展和集成,口网络管理方便, 协作性好,而且费用较低。相对于以往的网络接入存储,i s c s i 的产生解决了开放 性、容量、传输速度、兼容性以及安全性等问题。 1 2 1 磁盘冗余阵列研究的进展 磁盘冗余阵列r a i d ( r e d u n d a n t a r r a yo f i n e x p e n s i v ed i s k s ) 这一概念最早出现 在一篇由美国加州大学b e r k e l e y 分校的p a t t e r s o n 等人撰写的论文中,这篇论文提 出了在磁盘阵列中引入冗余机制,并介绍了各种r a i d 的配置和应用【1 2 1 。后来由于 磁盘存储器容量不断增加,性能不断提高,物理尺寸不断减小,而其价格不断降低, 所以r a i d 又被改称为独立磁盘冗余阵列( r e d u n d a n ta r r a yo fi n d e p e n d e n td i s k s ) 1 3 - 1 6 1 。 r a i d 采用数据分块技术( s t r i p i n g ) 和冗余机制【1 7 - 2 0 l 。通过分块将数据分布到 多个磁盘驱动器上,使得多个磁盘驱动器可以并行操作。多个独立的请求可被一组 华中科技大学硕士学位论文 磁盘驱动器并行执行,从而减小了i o 请求的排队时间,提高了吞吐量;大块数据 的请求可由多个磁盘驱动器共同服务,从而提高了数据传输率。冗余机制的引入使 阵列系统可以容忍单个磁盘驱动器损坏,并在单盘受损的情况下继续服务用户请求, 从而极大的提高了磁盘系统的可靠性和可用性。 根据阵列容错方式和数据分布方式的不同,p a t t e r s o n 等人提出了五种不同级别 的r a i d 结构,即r a i d 1 r a j d ,5 级 1 2 1 。此后,人们根据需要,继续提出了 r a i d6 ,r a i d 7 ,r a i d l 0 ,r a i d 5 3 ,r a i d0 + 1 等新型阵列结构,下面逐一介绍这 些典型r a i d 结构的组成特点。 1 r a i d0 r a i d0 是基于分块的磁盘阵列,数据分块存放在所有磁盘上( 如图1 1 所示) 。 由于将i o 负载分布到多个通道( 磁盘) 上,并且没有校验计算带来的系统开销, 其i o 性能十分优越。r a i d0 设计简单,易于实现。但它不具备容错性,所以不是 真正意义上的r a i d ,只要一个磁盘发生错误都会导致阵列中所有数据丢失,可靠 性低。 图1 1r a l d 0 ( 无冗余) 2 r a i dt 图1 2r a i d l ( 镜像) r a i d 1 被称为镜像阵列,其读传输速度最高可以达到单盘速度的两倍,写传输 速度和单盘速度一样。图1 2 显示的即是r a i di 的构造。1 0 0 的数据冗余保证了 数据的高可靠性,一旦某个磁盘出错,将其镜像盘的数据拷贝一份即可恢复。在所 华中科技大学硕士学位论文 有类型的r a i d 中,r a i dl 所需要的磁盘存储空间最大,因此成本也最高。 3 r a i d2 图1 3r a i d2 ( 海明码冗余) r a i d2 采用海明码纠错校验和位交叉存取技术。数据盘上的每一个数据字在校 验盘上都有对应的海明码纠错字( 如图1 3 ) 。它适用于大块数据的读写,但冗余信 息开销太大( 校验盘为多个) ,已被淘汰。 4 r a i d3 匝互【 匝f 巫习 l a 0 1 a i i ia 2 j i p ( a ) l l b 0 ;b l b 2 1 l p ( b ) i c 0 f c 1i l c 2 1 i p ( c ) 图1 4r a i d3 ( 位交叉奇偶校验) r a i d 3 采用s t r i p i n g 技术将数据分块,对这些块进行奇偶校验,校验数据写到 最后一个磁盘上。图1 4 显示的即是r a i d3 的构造。如果一块磁盘失效,奇偶盘及 其他数据盘可以重新产生数据如果奇偶盘失效,则不影响数据使用。它对于大量 的连续数据可提供很好的传输率,但对于随机数据,奇偶盘则会成为写操作的瓶颈。 5 r a i d4 i 1 o o k o 1t m , 1 o o k 2 1 _ _ l a 0 a 1 j a 2 【 p ( a )! j b 0 j j b 1 b 2 p ( b ) 。 广i r l _ _ i r 一_ 1 r 可万一 图1 5r a i d 4 ( 块交叉奇偶校验) 从图1 5 可以看出,r a i d4 同r a i d3 很相似。它们之间的区别是:r a i d3 是 5 华中科技大学硕士学位论文 按位或字节交叉存取,而r a i d4 是按块( 扇区) 存取,可以单独地对某个盘进行 操作,不必像r a i d 3 那样每次i o 操作也都要涉及全组磁盘,它只需要涉及组中两 块磁盘( 一块数据盘,一块校验盘) 。缺点是对于随机分散的小数据量i o ,固定的 校验盘又成为i o 瓶颈,可能出现争用校验盘的问题。 6r a i d5 r a i d5 是一种旋转奇偶校验独立存取的阵列方式。它与r a i d3 ,r a i d4 不同 的是没有固定的校验盘,而是按照某种规则把奇偶校验信息均匀地分布在阵列所有 的磁盘上,所以每块磁盘上都既有数据信息也有校验信息,这一改变解决了争用校 验盘的问题。r a i d5 的构造见图1 6 。r a i d5 既适用于大数据量的操作,也适用于 各种事务处理,它是一种快速、大容量和容错分布合理的磁盘阵列。 7 r a i d6 图1 6r a i d5 ( 块分布式奇偶饺验) c k 幽1 7 r a i d 6 ( 块分布式双校验) r a i d6 是r a i d 5 的一个扩展,它使用二维校验技术,即在r a i d5 的基础上 使用第二种独立的校验信息分布在各磁盘上的校验方案( 如图1 7 所示) 。它具有很 高的数据容错性和可靠性。但其控制器设计非常复杂,写性能非常差。 8 r a i d7 r a i d 7 不仅仅是一种技术,还是一种存储计算机( s t o r a g ec o m p u t e r ) 。它自身 华中科技大学硕士学位论文 带有智能化实时操作系统和用于存储管理的软件工具,可完全独立于主机运行,不 a 0 b 0 l , c o a 2 。 - b 2 c 2 : 图1 8r a i d7 占用主机c p u 资源。r a i d7 的构造如图1 8 。r a i d7 的实时操作操作系统对阵列 进行初始化,并安排阵列的所有数据传输,将它们转换到相应的物理磁盘驱动器上。 如果一个磁盘出现故障,操作系统会自动执行恢复操作,并可管理备份磁盘的重建 过程。r a i d7 突破了以往r a i d 标准的技术架构,采用了非同步访问,极大地减轻 了数据写瓶颈,提高了f o 速度。所谓非同步访问,即r a i d7 的每个f o 入口都有 一条专用的高速通道,作为数据或控制信息的流通路径,因此可独立地控制自身系 统中每个磁盘的数据存取。r a i d7 系统内置的实时操作系统还可对主机发送过来的 读写指令进行优化处理,将可能被读取的数据预先读入快速缓存中,从而大大减少 了磁头的转动次数,提高了f o 速度。但r a i d7 的每m b 成本相当高,并且对电 源的要求很高,必须使用u p s 才能保证不至于因为掉电而丢失c a c h e 中的数据。 9 r a i d1 0 田= 田啼墨墨 c i c li e l i f i 镜像分块 图i 9r a i d1 0 r a i d1 0 是一个分块阵列,其分块是r a i d1 阵列( 如图1 9 所示) 。它采用了 分块( r a i d0 ) 和镜像( r a i d1 ) 两种技术,因此它不仅具有r a i dl 的容错能力, 而且能达到同r a i d0 一样的高速i o 速率。但r a i d1 0 成本和系统开销都很高, 扩展性也因为成本受到限制。 1 0 r a i d5 3 盛 型 型 华中科技大学硕士学位论文 r a i d3l a y e r s t r i p t n gl a y e r 图1 1 0 p a i d5 3 图1 1 0 显示了r a i d5 3 的构造。r a i d5 3 其实应该被称为“r a i d0 3 ”,因为 它是以r a d3 阵列为分块的r a i d0 。r a i d5 3 具备了r a i d 3 的容错能力,其高 速数据传输率归功于r a i d3 ,对小块数据请求的高速i 0 速率归功于r a i d 0 。但 它实现起来非常昂贵,所有磁盘必须主轴同步,按字节分块导致了格式化容量的低 利用率。 1 1r a i do + 】 分块 分块 镜像 图1 1 lp a i d0 + t r a i d0 + 1 是一个镜像阵列,其s e g m e n t s 是r a i d0 阵列( 如图1 1 l 所示) 。 它具有和r a i d5 一样的容错能力,其容错开销就是镜像所消耗的系统开销。由于 使用了分块技术,所以它有很好的i o 性能。但要注意r a i d0 + 1 不同于r a i d 1 0 。 单盘失效就会导致r a i d0 + 1 降级为r a i d0 阵列。r a i d0 + 1 同样是很昂贵的,系 统开销也很大。 1 2 2 高速存储接口研究 存储系统中最能代表系统性能的特性之一就是所采用的存储接口类型。 u l t r a l 6 0 、u l t r a 3 2 0 、f i b r ec h a n n e l 、s e r i a la t a 都是现今存储行业中耳熟能详的 词汇。无论采用r a i d 、s a n 、n a s 还是i s c s i 作为存储系统解决方案,都必须依 华中科技大学硕士学位论文 托某种接口技术才能得以实现,存储接口的性能直接影响到存储系统的性能口”。 1 s c s i 小型计算机系统接口( s m a l lc o m p u t e rs y s t e mi n t e r f a c e ,s c s i ) 【2 2 2 3 j 的控制器 带有自身的总线和指令集,是一种高性能的智能并行接e l 。其优点是数传率高、可 扩充性好、通用性好,支持多任务。在过去的二十中,s c s i 协议由8 - b i t 总线宽度, 5 m b s e c 传输率的单端接口发展为1 6 - b i t 总线宽度,3 2 0m b s e c 传输率的差分接口 1 2 ”。个1 6 - b “的s c s i 总线可以连接最多1 6 个s c s i 设备,但其中每次只能有两 个设备互相通信。在下文中还会详细谈到s c s i 接口的协议和特点。 2 光纤通道 光纤通道( f i b r ec h a n n e l ) 是一种利用光纤( 或者铜缆) 作为物理链路的高性 能串行数据接口,它具有低延迟、高带宽、远距离传输的特性和集通道、网络优点 于一身的拓扑结构【2 5 】。光纤通道模型可以分为5 层:f c 0 f c 4 。f c 0 主要是针对 物理介质,它规定了收发信号和传输的介质:f c 1 采用了8 b 1 0 b 进行编码和字节 同步以保持端口间的连接;f c 2 则规定了具体的传输机制,包括帧格式、节点间的 信息交换管理、拓扑结构和提供的类服务;f c 3 规定了同一节点上多端口的传输类 型;f c 一4 则是从应用出发,把各种主要通道、外设接口和网络的上层协议等映射到 光纤通道上。光纤通道定义了3 种拓扑结构:点对点( p o i n t t o p o i n t ) 、仲裁环 ( a r b i t r a t e d l o o p ) 和交换机( f a b r i c ) 。其网络的拓扑结构对于所连接的设备是透 明的( 2 6 1 。 3 串行存储结构 串行存储结构( s e r i a ls t o r a g ea r c h i t e c t u r e ,s s a ) 是一种极其可靠的接1 2 1 ,用 于各种系统和系统组件的连接 2 7 , 2 8 1 。s s a 采用双向电缆连接,确保电缆的失效不会 妨碍数据的访问。当数据从适配器发出时,它可能沿电缆的两个方向之一传输,如 果s s a 检测到环路的中断,它就能自动重新配置,以便在稳定的链接恢复之前保持 连接。每个系统最多支持1 9 2 个热插拔硬盘驱动器,或每个适配器最多支持3 2 个独 立的r a i d 阵列。s s a 连接的适应性相当好,只需低成本的细铜电缆,适配器、驱 动器或子系统之间的距离最多可达2 5 米。它的吞吐率最高达8 0 m b d s ,在非r a i d 模式和r a i d 模式分别可获得高达6 0 m b p s 和3 5 m b p s 的持续数据传输速率。 9 华中科技大学硕士学位论文 4 i e e e1 3 9 4 i e e e1 3 9 4 是为了增强外部多媒体设备与电脑连接性能而设计的高速串行总 线,传输速率可以达到4 0 0m b p s l 2 9 】。利用i e e e1 3 9 4 技术可以轻易地把电脑和摄像 机,高速硬盘,音响设备等多种多媒体设备连接起来。i e e e1 3 9 4 可同时提供同步 和异步数据传输方式。同步传输应用于实时性的任务;而异步传输则是将数据传送 到特定的地址。i e e e 接口特点是传输速度快、传输距离较远、能自动分配结点地址、 可连接的节点数多达6 3 个,并能通过总线桥扩展。它已经不仅仅是一种局限于某些 特殊应用的一种技术,而是一种将来有可能取代p c i 总线的全新总线标准【3 0 】。 5 u s b 通用串行总线( u n i v e r s a ls e r i a l b u s ) 是在1 9 9 4 年年底,由c o m p a q 、i b m 、 m i c r o s o f t 等多家公司联合提出的。一个u s b 接口理论上可以连接1 2 7 个u s b 设备。 其连接的方式也十分灵活,既可以使用串行连接,也可以使用h u b 把多个设备连接 在一起,再同p c 的u s b 口相接。u s b 不需要单独的供电系统,支持热插拔口1 1 。 u s b 接口拥有自己的保留中断,不会争夺周边的有限资源。u s b 接口的最高传输率 可达每秒1 2 m b ,是串口的1 0 0 多倍,而已经正式发布的u s b2 0 标准将u s b 带宽 拓宽到了4 8 0 m b p s 。u s b 接口的缺点是设备之间的通信效率低、连接电缆的长度比 较短。 6 串行a 1 1 a 2 0 0 1 年8 月,s e a g a t e 在i d f f a l l2 0 0 1 大会上宣布了s e r i a la r a 1 0 标准,s e r i a l a 1 i a 规范正式确立。在1 0 版规范中规定的s e r i a la r a 数据传输速度为1 5 0 m b s 。 s e r i a l a t a 采用串行数据传输方式,每一个时钟周期只传输一位二进制数据。因此, s e r i a l a t a 的接口连接线就变得非常简洁了只需要4 根线就可以实现数据传输 ( 第1 根发数据,第2 根接收数据,第3 根供电,第4 根地线) 3 2 】。而且,由于串 行传输方式不会遇到信号串扰问题,所以s e r i a la t a 要想提高传输速度的话,只需 要提高控制芯片的工作频率即可。s e r i a la t a 采用的是点对点传输协议,每一个硬 盘与主机通信时都独占一个通道,系统中所有的硬盘都是对等的,从理论上说每一 个硬盘都可以独享通道带宽。 华中科技大学硕士学位论文 1 3 本文研究的主要内容 本文研究的主要内容是高速存储接口技术在磁盘阵列中的应用,重点研究s c s i 接口技术,所使用的研究平台是h u s t - r a i d 磁盘阵列 3 3 - 3 8 1 。h u s t - r a i d 历经多位 研究工作者数年研究,已经形成一种新型的集成磁盘阵列产品。随着应用需求的提 高,h u s t - r a i d 磁盘阵列系统也将从各方面进一步升级和完善,将具备更高的性 能和更强大的功能。先进的高速存储接口技术能有效的提高并行存储系统的性能, 因而将其应用于h u s t - r a i d 磁盘阵列系统是一项很具意义的研究开发工作。这项 工作涉及以下几方面内容: 1 分析研究平台的结构和控制流程: 2 研究磁盘阵列的软件开发平台和s c s i 协议; 3 研究在实时操作系统下高速存储接口设备驱动程序的实现; 4 研究进一步对高速存储接口设备驱动程序的优化。 华中科技大学硕士学位论文 2 磁盘阵列的体系结构 2 1 磁盘阵列的组成和工作流程 2 1 1 磁盘阵列的基本组成结构 在集成式的磁盘阵列中,硬件全部采用商品化的部件,磁盘适配器采用高性能 的s c s i 适配器,硬盘采用s c s i 接口的硬盘。它具有开发时间短、可扩展性好、成 本低、升级容易等优点【3 7 ,j 。 图2 1 给出了集成式磁盘阵列的基本组成结构。它使用普通p c 机主板,将s c s i 适配卡和特殊功能部件集成到起。主板上一般有四到六个p c i 插槽,一般都是3 2 位3 3 m h z ,工作电压为5 伏的插槽。如果主板支持6 4 位p c i ,则可能有其他两种 圈2 1 集成式磁盘阵列的基本组成结构 华中科技大学硕士学位论文 类型的插槽,一种是6 4 位3 3 m h z 5 伏,一种是6 44 立6 6 m h z 3 3 伏。实验中发现互 相连接的s c s i 适配卡最好工作在相同的工作电压下,否则在接收字符中可能会出 现乱码。p c i s c s i 适配卡通过这些插槽连接到主板上,使用一块s c s i 适配卡( s l a v e ) 作为主机通讯的通道,其余的卡与磁盘连接,作为串控制器,每块s c s i 适配卡可 连接多达n 1 个s c s i 接口的硬盘( n 为适配卡的总线宽度) 。按照应用需求、主板 规格以及p c i 总线的限制,h u s v _ r a r o 一般配置三至六个串控制器。一块双端口 的s c s i 适配卡可作为两个串控制器,这在部分程度上解决了普通p c 主板p c i 插槽 有限的问题。 c a c h e b u f f e r 用来缓冲数据,主要是存放“读”未命中时从磁盘读取的数据。 每个磁盘在主存中都分配了定大小的c a c h e 。x o r 单元负责对数据进行校验计算。 数据分块单元负责把从主机来的数据按数据分块大小进行分解,然后放入对应磁盘 的“写”缓冲;数据重组单元负责组合各磁盘“读”数据缓冲区内的数据,组成最 后返回给主机的数据。这些所有部件的操作都由控制软件负责控制。 对于主机而言,阵列通过一个标准的s c s i 接口与之相连,整个磁盘阵列相当 于一个容量很大的s c s i 硬盘。因此,无论主机上使用何种操作系统,只要它能够 支持s c s i 硬盘,就能访问这个磁盘阵列系统。 2 1 2 磁盘阵列的工作流程分析 独立结构的磁盘阵列不占用主机资源,不受主机操作系统限制,独立性强,适 用性好。用户使用的计算机作为主机,磁盘阵列系统作为其存储设备,它们之间月 图2 2 独立结构的h u s t - r a i d 1 3 华中科技大学硕士学位论文 s c s i 电缆相连。图2 2 为独立结构的磁盘阵列。 在启动主机之前首先启动磁盘阵列,当其完成初始化操作后打开主机。在主机 启动阶段,从主机的s c s i 适配卡信息中可以看到阵列和其他设备( 如s c s i 硬盘) 的信息。进入s c s i 适配卡的b i o s 设置程序中可以对阵列的总线宽度、同步速率、 失连特性等参数重新设定。当主机进入操作系统时,会向阵列发出一系列查询、读 写、读容量等命令,不同的操作系统发出的s c s i 命令不同。磁盘阵列接收这些s c s i 命令,完成对应的处理,并向主机传递数据和状态。主机进入操作系统后,磁盘阵 列会作为一个大容量的s c s i 硬盘出现在主机的存储子系统中,主机可以对其进行 各种磁盘操作,数据的读写,磁盘的分区、格式化等。阵列在主机关机之后关闭。 整个磁盘阵列系统虚拟成一个性能优越的大容量s c s i 硬盘,单个s c s i 硬盘完 成的工作在磁盘阵列中被分解成几个步骤,由不同的部件完成。适配器传送给阵列 一个s c s l 命令,这个命令由在磁盘阵列系统的接口控制卡( s l a v e ) 接收,它必须 工作在t a r g e t 模式。接着控制程序将这个命令分解后发送到各个串控制器,它们工 作在i n i t i a t o r 模式,它们的任务是将子命令发送给与它们相连的s c s i 硬盘。这些请 求由s c s i 硬盘执行,返回数据和状态信息由串控制器接收,然后s l a v e 将这些信息 收集并加以处理后返回给主机。相对于将命令直接发送给s c s i 硬盘,这个过程是 比较复杂的。但与此同时,多个s c s i 硬盘的并行工作能加快数据传输速度。通过 这样的对比很容易得出提高阵列性能的两种主要思想: 1 提高s c s i 设备的并行性; 2 尽量减少s c s i 命令处理过程消耗的时间。 假如消耗在s c s i 命令处理的开销超过了通过s c s i 设备的并行性获得的好处, 那么磁盘阵列就无法在性能上超过本地硬盘。 2 2 磁盘阵列的控制软件 2 2 1 控制软件流程 基于实时操作系统的磁盘阵列控制程序是运行在实时核之上的一个应用程序, 1 4 华中科技大学硕士学位论文 初始化s c s i 设备 t r 爿璺):二二y l 0 l 土 l 面赢田 l;执行i o 命令: 】。1 。+ 。 l l:一 - 激活主任务 1 5 嬖 华中科技大学硕士学位论文 在阵列启动之后,它作为操作系统的r o o t 任务存在,在完成阵列的初始化以及参数 设置之后,它按照设置的参数创建多个任务,等待主机发送的i o 请求。磁盘阵列 控制软件的流程如图2 3 所示。图中的虚线箭头只表示程序执行的逻辑顺序a 首先对阵列进行初始化,包含三个顺序进行的操作:进行s c s i 适配器的设备 初始化操作,令串控制器( m a s t e r ) 和接口控制器( s l a v e ) 处于就绪状态;对阵列 的相关参数进行设置,包括串数、磁盘数、阵列级别、分块大小等等:接着为每一 个m a s t e r 创建一个任务,并初始化任务所对应的信号灯。这时候整个阵列系统的启 动完成,等待着主机的访问请求。 阵列通过s l a v e 接收主机的命令,先判断该命令类型是否为写类型,如果是写 类型命令,则继续从主机接收将写入阵列的数据。接着对命令进行分解,如果是不 是读写类型的命令,就直接分解到相应的磁盘上去:如果是读写类型的命令,则在 命令分解的同时要对数据进行分块重组。对于写命令,接收的数据被分成若干个数 据块,对应于分解后产生的各个写子命令:对于读命令,则分解后所产生的子命令 包含数据重组时的目的地址和长度。在命令分解之后,各磁盘都有了一条子命令队 列。 接着对所有磁盘命令队列进行请求调度处理。首先进行c a c h e b u f f e r 管理,按 照参数设定的不同策略( n oc a c h e 、w r i t eb a c k 、w r i t et h r o u g h ) 对数据进行操作。 假如没有命中的话,则需要激活相应的i o 子任务,将命令传递给它,并将主任务 挂起,等待所有i o 予任务完成。如果是读命令就要将读出来的数据进行重组后一 起传递给主机。对于写命令来说,如果阵列带有校验功能,那么在写入新的数据之 前得先读出旧数据和旧校验,计算新检验,再将新数据和新校验一起写入磁盘。如 果访问磁盘的操作失败,则阵列系统进入降级模式。这时候控制系统会创建一个新 的任务,对失效盘进行检测并对存储在该盘上的数据进行重构处理。重构处理就是 将校验组内其它正常磁盘上的数据( 数据或者校验数据) 读出来,通过计算得到失 效盘上的数据。失效盘检测任务的目的在于判断是否已经有新的磁盘取代失效盘, 当检测到有新的磁盘换上时,它就会创建一个数据重建任务,然后将自身这个任务 删除掉。数据重建任务每次恢复一个固定大小的数据单元,在这个期间该任务不能 被打断。当所有数据都恢复完毕后,系统就会回到正常模式。 1 6 华中科技大学硕士学位论文 2 2 2 控制软件的模块 磁盘阵列控制软件包括以下几大模块:参数设置、命令分解和数据分块、数据 重组、c a c h e b u f f e r 管理、i o 调度、数据重构、数据重建等。 1 参数设置 用户根据需要设定磁盘阵列的参数,包括选择阵列级别、数据分块大小、b u f f e r 管理策略、阵列中的串数及每串的磁盘数等。 2 命令分解和数据分块 命令分解和数据分块是同时进行的。其功能是根据阵列设定的参数( 分块大小、 阵列级别等) ,将来自主机系统的s c s i 命令按一定规则分解为独立磁盘上的子命令, 形成命令队列。命令分解原则是形成最少的子命令,以减少对磁盘的i o 操作,从 而提高i o 响应速度。对于写命令,将来自主机系统的数据按初始化设置的分块大 小进行数据分块,供命令分解生成的子命令执行时使用。 3 c a c h e b u f f e r 管理 c a c h e b u f f e r 管理策略有三种:n oc a c h e 、w r i t eb a c k 和w r i t et h r o u g h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论