(计算机软件与理论专业论文)磁盘阵列在线扩展问题的研究.pdf_第1页
(计算机软件与理论专业论文)磁盘阵列在线扩展问题的研究.pdf_第2页
(计算机软件与理论专业论文)磁盘阵列在线扩展问题的研究.pdf_第3页
(计算机软件与理论专业论文)磁盘阵列在线扩展问题的研究.pdf_第4页
(计算机软件与理论专业论文)磁盘阵列在线扩展问题的研究.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

(计算机软件与理论专业论文)磁盘阵列在线扩展问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 自从d a v i dp a t t e r s o n 等人在1 9 8 8 年提出r a i d ( r e d u n d a n ta r r a y so f l n e x p e n s j v ed i s k s ,廉价冗余磁盘阵列) 概念以来,r a i d 技术不断发展,并被广 泛应用于当前的大型存储系统。随着信息量的爆炸性增长和新的多媒体应用的 出现,往往出现磁盘阵列系统存储能力不足的情况,传统的采用更换新的磁盘 阵列的方式往往导致系统服务的中断,而且这种方式代价较高。因此要求磁盘 阵列系统提供在线扩展磁盘的功能。磁盘阵列系统如何提供高效、快速而又对 正常服务影响较小的在线扩展功能,已经成为学术界和工业界研究的重要课题。 本文首先分析了磁盘阵列扩展系统所要达到的目标,然后基于l i n u x 平台, 设计并实现了软件r a i d 在线扩展系统e x p r a i d 。该系统基于最新版l i n u x 内核态程序,在不影响r a i d 系统正常服务的情况下,提供了在线添加任意数量 磁盘的功能:为了保证r a i d 固有的容错能力,e x d r a i d 实现了r a i d 5 扩展中 降级重构的功能。经过严格的性能和可靠性的测试,本文实现的系统完全能够 满足当前企业级应用的需要。 现有r a i d 扩展产品大都采用平凡方法,即目标r a i d 保持原r a i d 数据布 局方式不变。本文分析了平凡方法的优点和不足,并总结了已有非平凡方法的 特点,提出了r a i d 扩展目标数据布局的5 条评价标准。根据标准,本文对“新 增空间散布”扩展方法进行了评价,并且提出了另一种高效的磁盘阵列扩展方 法“分区扩展”方法,运用5 条标准对此方法进行了分析与评价。 磁盘阵列扩展系统最核心的问题还是性能问题。目前还没有发现对磁盘阵列 在线扩展的数学模型分析方法。本文的另一个工作就是采用建模分析的方法对 软件r a i d 以及r a i d 扩展系统的性能进行了评价。本文针对磁盘阵列系统读写 流程的特点选择了闭合排队网络的建模方法,并采用m v a 方法对模型的性能进 行了计算。针对r a i d 扩展问题,本文对普通r a i d 排队网络性能模型进行了推 广,提出了采用多类顾客排队网络( m c q n ) 进行建模的方法,使用多类m v 八 分析方法进行了理论计算。通过将理论计算结果与实际系统的性能测试结果进 行比较可以发现,本文建立的模型基本上反映了系统性能在不同负载下的变化 趋势。运用这种方法,通过对模型的分析,可以发现系统的瓶颈资源,预测系 可靠性和可用性的实 降低r a i d 扩展给正 a b s t r a c t s l n c et h ec o n c e p to tr a i dw a s 打r s td e t i n e di n19 8 8b yd a v l dp a t t e r s o n ,t h e t e c h n 0 1 0 9 yo f r a i dp r o g r e s s e dc o n t i n u a l l y ;i th a sb e e nw i d e l ya p p l i e di n 掣e a ts t o r a g e s u b s y s t e m sa l r e a d yt o d a y jt h ea r n o u n to fi n f o m a t i o ni sh u g e ra n dh u g e ls e v e r a ln e w a p p i i c a t i o n s ,s u c h a sm u i t i m e d i aa p p i i c a t i o n s ,a r ec o m ef o r t h ,t h i sc o n d i t i o no r e n l e a d st ot h el a c ko fs t o r a g es p a c e r e g u l a r ly ,t h et r a d i t i o n a lr e s 0 1 u t i o nm e t h o do n r e p 】a c i n gt h er a i dw m 】an e w 】a r g e ro n eo 最e n 】e a d st ot h es y s t e mh a 】t s ot h eo n l i n e e x p a i l s i o nm n c t i o ni sr e q u i r e do nt h er a i ds y s t e m h o wt od e s i g na n di m p l e m e n t a r a i do n l i n e e x p a n s i o ns y s t e m w i t h h i 曲a v a i l 曲l i t y ,h i 曲r e l i a b i l i t ya n d 1 i t t l e i n n u e n c eo nt h en o m a lr e q u e s ti sb e c o m i n ga ni m p o n a n tt h e s i si nr e s e a r c h e r sa n d i n d u s t r ya r e a f i r s t l y ,t h i s d i s s e r t a t i o nd i s c u s s e st h ea i m s o ft h eo n l i n e e x p a n s i o n t o o b t a i n a r e rt h i sw ed e s i g na n di m p l e m e n tar a i do n l i n ee x p a n s i o ns y s t e mb a s e do n t h ei a t e s t1 i n u xk e m e l ,c a i l e de x p r a i ds y s t e m ,o nt h ep r o m i s eo fn o ti n n u e n c i n gt h e s e i c e 舶mu s e r s ,e x p r a i ds y s t e mp m v i d e se x t r aa b i l i t y ss u c ha so n l i n ea d d i n g d i s k s ,s h r j n k i n ge x p a j l s i o n ,b r e d k i n go f re x p a n s j o na n dd e g r a d i n gp r o c e s si nt h e1 e v e l o fr a i d 5 t og u a r a l l t e et h ei i l l l e r e n tf a u l t t 0 1 e r a n ta b i l i t i e so fr a ds y s t e m ,m e e x p r a i ds y s t e ms u p p o r t sd e g r a d i n ga n dr e c o n s t r a c t i o nd u r i n gt h ee x p a n s i o np r o c e s s t 1 1 r o u 曲t h es 砸c ts y s t e m t e s ta tt h ea s p e c to fp e r f o 肌a n c ea n dd e p e n d a b i l i t y , e x p r a i dc a nm e e td e m a n d so f t h ea p p l i c a t i o no fe n t e 叩r i s el e v e la tp r e s e n t n o w a d a y s ,t h er a i do n l i n ee x p a n s i o nm e t h o d sa r ea l m o s tu s et h es i m p l y m e t h o d ,t h i sd i s s e r t a t i o na i l a l y s i s e st h ea d v a n t a g e sa j l dd i s a d v a n t a g e so nt h es i m p l y m e t h o d , s u m m a r i z e sm ec h a m c t e s t i co ft h ee x i s t i n gn o n o r d i n a r ym e t h o d a r e r t h i s ,s e v e r a le v a l u a t i o nc n t e r i o n sf o rr a i de x p a n s i o nm e t h o di sg i v e n b a s e do n t h e s ec r i t e r i o n s ,m e “n e ws p a c e sd i s c l u s t e n n g ,m e t h o di se v a l u a t e d an e wf a s t e r e x p a n s i o nm e t h o dc a l l e d “z o n ee x p a n s i o nm e t h o d ”i sp r o p o s e d a sw e l l w ea l s o e v a l u a t et h i sm e t h o db a s e do nt h e 商t e r i o n s p e r f b h n a n c ei st h ec e n t e r a lq u e s t i o nt od i s c u s si n 也er a i do n l i n ee x p a n s i o n o n e 垒!竺坚 w o r kf o rm i sd e s e r t i o ni sb u i l d i n gap e r f o m a n c ee v a l u t i o nm o d e lo nr a i do n l i n e e x p a n s i o n 0 u rw o r kb a s e do nt h ec 1 0 s e dq u e u e i n gn e t w o r km o d e l m v am e t h o d1 s a p p l i e df o ru st oa n a l y s i st h em o d e l b a s e do nm er a i de x p a n s i o ns y s t 锄,w ee x t e n d t h e 廿e r f o n n a n c ee v a l u t i o nm o d e lo fs o 最w a r er a i d m u l f i c l a s sc u s t o m e rc l o s e d q u e u e i n gn e t w o r ki sa p p l i e df o ro u rq u e s t i o n c o m p a r i n g w i t ht h ee x p e r i m e n t r e s u l t s ,t h ep e o h n a j l c ed a t af b 丌nm o d e la n a l i s i s i n gc a na p p r o x i m a t e l yr e n e c tt h e r e a l l i f e p e r f o n n a n c ev a r y i n g w i t ht h e s y s t e mw o r k l o a d u s i n g t h i s m o d e l i n g m e t h o d ,w ec a nd i s c o v e r ym eb o t t l e l n e c kc o m p o n e n to fm eh o l es y s t e m ,a sw e l la s w ec a nf o r e c a s th o wm u c hi n n u e n c e i n gm ep e 墒m l a l l c eo f t h eh 0 1 es y s t 锄 i nt h e c o n d i t i o no ft h ep e r f o m l a n c e i n c r e a s i n go fa 1 1 yc o m p o n e n t sp e r f o n n a n c e i naw o r d ,t h eg o a li nr e s e a r c ho fr a i de x p a j l s i o nm ep r o b l e mi so 虢 n g e x p a n s i o nm e t h o d sa n ds t r a t e g i e sw i t hh i 曲p e r f o m a n c e ,h i 曲d 印e n d a b i l i t ya n d a v a l i b i l i t vi nf u t u r ew o r k ,t h em a i nt a s ki s1 0 0 k i n gf o r h i g h e f f i c i e n te x p a i l s i o nm e t h o d , a n dr a i s i n gm es y s t e mp e r f o r m a n c e k e y w o r d r a i d ,r a i de x p a n s i o n ,m v am e t h o d ,p e r f b m l a n c ee v a l u t i o n 目录 图目录 图2 1 硬盘机械部件的结构 图2 2r a i d 的条纹化 图2 3r a i d 0 数据布局方法 图2 4r a i d l 数据布局方法 图2 5 左对称r a i d 5 数据布局方式 图2 6 r a i d 6 数据布局 图2 7 串联模型一 图2 8r a i d 5 的可靠性模型一 图3 1a 扩展前布局 图3 1b 扩展后布局 图3 21 i n u xm d 驱动程序结构图 图3 3m d 驱动程序在1 i n u x 内核中的层次 图3 4m d 设备请求处理流程 图3 5m d 超级块的数据组织 图3 61 i n u xm d 驱动程序的缓冲机制 图3 7e x d r a i d 模块关系图 图3 8 扩展阵列的数据布局状态 图3 9 扩展中映射函数的区域划分 图3 一l o 冲突地址索引表 图3 1 l 扩展停机造成数据覆盖, 图3 1 2 不需要数据保护的情况 图3 1 3 扩展速度理论与实测值 图3 1 4 迁移粒度对请求响应速度的影响 图3 15 请求粒度对性能的影响 图3 1 6 扩展停止时的性能曲线 v i i 石 m m 他 坦 h 丝 丝 ” 拍 嚣 如 弛 ” ” 强 曲 钙 舶 钾 铝 目录 图3 1 7 扩展降级的性能曲线 图4 ,1 乱序扩展加快读写请求响应时间 图4 2a 数据移动前布局一 图4 2b 扩展完毕后布局 图4 3 分区扩展方法示意图 图5 1 软件r a i d 系统的排队网络模型 图5 3r a i d 5 读请求理论与实际测试性能曲线 图5 4r a i d 5 大数据写理论与实际测试结果性能曲线 图5 。5r a i d 5 小写性能曲线一 图5 6 扩展过程中读性能理论值与实测值 图5 7r a i d 扩展写性能理论值与实测值一 钞 跎弱岛 鹋 舔乃 乃 第一章绪论 第1 章绪论 近年来,以计算机技术为核心的信息技术得到了飞速的发展。随着技术的 进步,一些新型的应用领域相继出现,包括电子商务,视频点播,网格计算等 等。可以说,信息技术已经渗透进了人类的日常生活,人类正步入信息化的时 代,网络通信技术的发展则加速了这种趋势。在信息化时代,对海量数据的存 储解决方案成为一个非常紧迫的研究领域。据专家预测,全球每年的数据存储 量以8 0 的速度递增,对于一些典型的数据应用领域,每隔大约9 0 天左右,数 据量就会增加一倍,如何高效的存储数据已经成为一项重要的研究课题。 磁盘是当前计算机系统外存储器的主流产品,磁盘由于其机械部件特性, 其性能的提高远远落后于c p u 、内存等设备的发展速度。众所周知,c p u 的处 理能力正以每1 8 个月提高一倍的速度发展,这就是著名的摩尔定律。这样,磁 盘设备必然成为存储的瓶颈,难以满足应用的需求,因此采用磁盘阵列技术来 提高i o 的性能和可靠性是非常必要的。 p a t t e r s o n 等人于8 0 年代末期提出了廉价磁盘冗余阵列技术( r e d u n d a n t a r r a v so f1 1 1 e x d e n s i v ed i s k s ,r a i d ) 【2 【”。r a i d 技术将大量的磁盘组合成单一 的虚拟磁盘,通过磁盘的并行操作来提高存储系统的性能,通过数据的冗余来 提高可靠性,该技术提供了一种以低廉的价格构造大容量、高性能、高可靠性 存储系统的方法,因此很快就成为海量存储系统中最重要的技术之一。 磁盘阵列系统可以由硬件实现,也可以由软件实现,硬件r a i d 的优点在于 系统性能较高,通过硬件r a i d 控制器可以实现r a i d 设备到磁盘的高效映射和 快速的数据传输,占用c p u 的负载较低:其缺点在于灵活性比较差,而且价格 比较昂贵。软件r a i d 作为操作系统的一项驱动程序,无须购置任何附加的硬件 产品,并且灵活性较高。目前主流的操作系统中部提供了对软件r a i d 功能的支 持。 磁盘阵列技术是当前大数据量存储领域的主流产品,目前大部分服务器产 品都使用r a i d 作为外存储设备。虽然r a i d 可以组合磁盘的存储空间,但随着 应用产生的数据量不断增大,磁盘阵列的容量毕竟是有限的,当容量不能满足 系统要求时,对存储系统进行扩容是一个必然的选择。 第一章绪论 传统意义上磁盘阵列的扩容一般采用两种方法:一种是采用一个全新的、 更大的、性能更高的磁盘阵列系统来代替原来的磁盘阵列,将原r a i d 上的数据 拷贝到新的r a i d 上,这种方法的优点是实现非常简单,很容易实现在线扩展, 但缺点是数据迁移量太大,需要读取和写入的数据量为原阵列的容量。而且, 如果将原r a i d 设备丢弃,是十分浪费的。当然,这些设备可以用作它用,但新 全部使用新购置的r a i d 设备,还是存在代价过高的问题。 另一种简单的扩容方法是,保持原有r a i d 设备不变,使用新添加的磁盘组 成的一个另外一个r a i d 设备。虽然新阵列可以和原阵列合并组成一个更大的阵 列,但更多的时候是将其作为一个新增的r a m 设各来使用,显然,与前一种方 法相比,这种方法充分利用了原有的磁盘设备,降低了扩展的花费。而且,不 需要进行数据迁移。但是,这种方式虽然增加了磁盘数量,但也没有提高系统 的性能。更为严重的是,这种方法容易产生系统负载不均衡的现象。 以上的两种方法只是简单的扩展存储系统的容量,并没有扩展r a i d 设备本 身,真正的对磁盘阵列的扩展方法是:将新增磁盘加入到原r a i d 设备中,通 过数据的迁移将数据进行重新组织,形成一个更大空间的r a i d 设备。这种方 法最大的特点是充分利用了原有的磁盘空间,而且保证了不增加系统中的设备。 目前很多厂商的硬件r a i d 产品中都提供了此项功能。 此外,大多数的应用领域都要求服务器提供7 + 2 4 的服务质量,系统停机的 损失是巨大的,因此,磁盘阵列的扩展要求在线进行。所谓r a i d 在线扩展是指: 在不影响磁盘阵列对系统正常的服务请求及时响应的前提下,通过添加磁盘的 方式来扩大磁盘阵列的存储空间。这种方式的r a i d 扩展保证了系统不停机, 扩展过程对系统的正常应用是透明的,换言之,虽然扩展过程中性能有所下降, 但用户并不受r a i d 扩展过程的影响,上层模块对r a i d 系统的数据视图也是完 全不受r a i d 扩展过程的影响。 目前很多硬件r a i d 控制器都提供了在线扩展功能,与硬件r a i d 控制器相 比,软件r a i d 具有廉价,灵活性高等特点。尤其是随着p c 机硬件性能水平的 不断提高,基于p c 机开发的服务器逐渐满足了小型企业和组织的需求,软件 r a i d 随之成为低端服务器存储系统的最佳解决方案。因此,在软件层次上实现 r a i d 在线扩展功能是十分必要的。一般来说,软件r a i d 扩展不受控制器支持 最大磁盘数量的限制,只要系统资源和性能能够满足要求,可以支持任意多的 磁盘。例如1 i n u x2 6 内核m d 驱动程序提供的软件r a i d 驱动程序能够支持多达 第一章绪论 几百个磁盘,因此实现软件r a i d 的在线扩展功能,可使存储系统具有很强的可 扩展性。 基于以上的考虑,本文实现了l i n u x 平台上软件r a i d 的在线扩展系统 e x p - r a i d ,1 i n u x 作为种开放源代码的操作系统,具有稳定、安全,廉价的特点, 近年来得到了广泛的应用,尤其是在低端的服务器平台。本文之所以选择1 i n u x 系统,除了软件r a i d 的服务器应用外,还考虑到驱动程序层面的软件属于操作 系统内核的部分,我们的开发需要修改操作系统内核。而l i n u x 开放源代码的 性质,非常适合作为底层开发的平台。目前l i n u x 内核最新的稳定版本为2 6 , 本文选择的也是这一版本的内核,与以往的内核相比,2 6 版本内核更加稳定, 安全。由于2 6 版本的l i n u x 内核对块设备的读写处理方式进行了重新设计,所 以m d 模块以及配套的用户态程序代码也和以往的版本有很大的不同,目前还没 有发现l i n u x 内核上的r a i d 在线扩展系统的实现。 如果扩展后不改变原r a i d 的数据布局,( 举例来说,如果扩展前磁盘阵列 为5 个磁盘组成的r a i d 5 设备,添加两个磁盘扩展后得到的是7 个磁盘组成的标 准r a i d 5 ) ,这种扩展方式叫做平凡方法。平凡方法要求几乎所有的数据块都需 要进行迁移,代价较高,本文的另外一个工作是通过适当调整扩展后r a i d 数据 布局达到减小数据迁移量的目的。那么,扩展后的目标布局应该怎样设计才是 一个好的扩展方法呢? 本文在总结前人工作的基础上提出了r a i d 扩展目标布 局的5 条评价标准,并且依据这些标准,对“新增空间散布”方法进行了分析 和评价,并且提出了另一种快速扩展方法“分区扩展法”。新方法提高了磁 盘阵列扩展的速度,减小了数据迁移对系统正常操作的影响。 r a i d 系统采用磁盘并行存取的方式拓展了i o 访问的性能,一直以来,对 r a i d 系统的性能评价是学术界研究的一项重要内容,存储系统的性能由多种因 素所决定,既和存储系统本身对请求的处理方式、数据传输线路的带宽,磁盘 的旋转速率,缓存大小等因素有关,又和读写请求的大小以及顺序程度有关。 因此,对r a i d 系统的性能评价是复杂的。而在r a i d 扩展期间,除去用户请求 的负载外,还有数据块迁移对磁盘造成的负载,这种多类负载的存储系统性能 评价就更加困难,目前没有发现专门针对r a i d 扩展问题的定量分析方法。本文 建立了软件r a i d 系统的闭合排队网络模型,并且通过种简单的m v a 方法来 对软件r a i d 系统的性能进行分析,得出的结果与实际的系统测试结果进行了对 照,验证了模型的可用性。而针对磁盘阵列在扩展过程中的性能,本文采用了 第一章绪论 多类顾客的闭合排队网络模模型来对r a i d 扩展性能进行建模和分析。为存储系 统扩展的性能评价问题提供了一种新的方法。 总之,本文的工作包括如下几点: 设计并且实现了基于l i n u x 平台的e x p r a i d 系统,该系统提供对 r a i d o ,r a i d 5 两种级别磁盘阵列的在线扩展功能,并且实现了中断恢复,回退, 暂停等功能。 分析了平凡方法的不足,并提出了通过调整r a i d 目标数据布局来降低迁移 负载的思想,提出了扩展目标布局的评价标准,提出了对平凡方法的一种改进 方法“分区扩展”方法。 针对软件r a i d 系统的在线扩展,提出了采用多类顾客排队网络模型进行性 能分析和建模的方法,计算了在扩展过程中r a i d 在线扩展系统的性能。 本文的组织方式如下: 第二章介绍了磁盘阵列的相关知识,首先介绍了磁盘技术的基础知识和磁 盘读写性能的影响因素,然后介绍了磁盘阵列技术,包括磁盘阵列技术的基本 思想,常用的r a i d 结构,r a i d 的可靠性和性能问题。最后介绍了磁盘阵列的 扩展问题,提出了r a i d 扩展系统的目标,现有的扩展技术等。 第三章介绍了可扩展r a i d 系统e x pr a i d 的设计和实现,首先介绍了系统设 计的平台和设计的目标,然后分析了l i n u x 内核中m d 驱动程序的结构,以及 e x dr a i d 系统的关键算法和实现技术,最后对系统的几点不足进行了改进,并分 析了系统的可靠性。 第四章介绍降低r a i d 系统扩展数据拷贝的布局方法,首先介绍了平凡方法 的不足以及采用改变新阵列的布局来进行改进的思想,然后介绍了两种改变数 据布局的扩展方法,“新增空间散布法”和“分区扩展法”。 第五章介绍了e x pr a i d 系统的性能评价,首先总结了系统的性能评价方法, 然后介绍了排队网络的性能评价方法,接下来对软件r a i d 系统的性能评价模 型,最后介绍了e x pr 颤d 系统的性能评价及测试结果。 第六章对全文进行了总结。 第二章磁盘阵列相关知识 第2 章磁盘阵列的相关知识 计算机与信息技术已经渗透到社会生产生活的各个领域,数据的可靠性、 可用性的需求变得更为突出。而硬盘技术由于其自身特性的局限,其发展速度 明显落后于计算机系统其他部件,更难以满足应用的高速发展。p a t t e r s o n 等人于 8 0 年代末期提出了廉价磁盘冗余阵列技术( r e d u n d a l l ta r r a y s o fi n e x p e n s i v e d i s k s ,r a i d ) ,通过数据在多个磁盘的散布和数据的冗余存储提高了系统的性 能和可靠性。本章介绍磁盘阵列扩展问题的一些相关知识。第一节简要介绍了 磁盘技术的基本原理和磁盘总线接口的内容,分析了影响磁盘性能的几点因素。 第二节介绍了磁盘阵列的基础知识,包括磁盘阵列的基本思想、常用的r a i d 结 构、r a i d 的实现、r a i d 的性能分析和可靠性模型等等。第三节介绍磁盘阵列 扩展技术的相关背景,包括磁盘阵列扩展的方法,已有的几种扩展策略,当前 的磁盘阵列扩展技术所面临几个问题以及系统化提出了磁盘阵列扩展的实现目 标。 第一节磁盘技术综述 磁盘驱动器是当前外存储器的主要产品,而磁盘阵列的性能和可靠性与其 组成元素磁盘是密不可分的,磁盘阵列的扩展问题也受到磁盘机械和物理 特性的影响,为了明确磁盘阵列扩展问题的性能影响因素,我们将介绍磁盘技 术的原理、接口、性能决定因素等相关的背景知识。 2 1 1 磁盘技术原理和主要部件 目前的硬盘驱动器通常由机械装置和控制器两部分组成,与主机相连的总 线通道也是重要部件。图2 1 给出了硬盘驱动器机械部分的结构示意图。从图 中可见,硬盘的机械装置分为两部分:记录部件( 盘片和磁头) 和定位部件( 机 械臂和磁道定位装置) 。 第二章磁盘阵列相关知识 艨慕 蹩爹 a 侧视图b 俯视幽 图2 1 硬盘机械部件的结构 21 11 记录部件 一个硬盘驱动器由一个或多个盘片( d 1 a t t e r ) 组成,这些盘片以一个共同的 中心轴同步旋转。中心轴的转速越高,硬盘的数据传输率就越高,旋转延迟就 越小。如图2 1 所示,每个盘片的表面都有一个磁头( h e a d ) ,负责记录和检测 盘片表面磁通量的变化。每个硬盘驱动器都有一个读写通道,在读写操作过程 中,它会在不同磁头间进行切换,其作用是编码解码,完成数据流和磁信号之 间的转换工作。如果有多个通道,显然可以提高硬盘性能,但实现多通道磁盘 存在很多技术难点。盘片的表面都被划分为一系列同心圆,用来存放数据,这 些同心圆被称为磁道( t r a c k ) 。而不同盘片上距中心轴相同距离的那些磁道组合 在一起,被称为一个“柱面”( c y l i n d e r ) 。若想访问一个磁道中存放的数据,则 需将磁头移动到该磁道上。磁头都连接在机械臂( a n t l ,安装在旋转轴承上的一 个控制杆) 上,移动磁头的工作就由它来完成。 21 1 2 定位部件 硬盘驱动器的定位部件的任务是尽可能快地将磁头移动到指定磁道( 寻 道) ,并将磁头保持在相应位置不动( 定位) 。 寻道( s e e k i n g ) 过程由4 个阶段的动作组成: 加速。机械臂加速,直到到达寻道距离的一半或达到最大速度为止。 匀速运行。对于长距离寻道,机械臂会以最大速度运行一段距离。 减速。机械臂移动到指定磁道附近。 定位。控制器调整磁头到准确位置。 第二章磁盘阵列相关知识 2 1 1 3 磁盘控制器 硬盘控制器的职责是协调对磁盘介质的访问操作,运行磁道跟踪系统,在 硬盘驱动器及其用户之间传输数据,以及管理内置缓存等等。控制器由一组特 殊设计的微处理器组成,通过特殊的接口直接控制硬件。由于采用微处理器的 结构,在数据传输过程中并不需要c p u 的过多干预。 2 1 14 内置缓存 目前的硬盘般都配有内置缓存,其大小一般为2 m b 或8 m b 。内置缓存的 一个作用是缓冲总线和磁盘问的速度差异。缓存作为数据在磁盘和总线间传输 的中转,既可以解决磁盘等待总线的问题,避免磁盘空转影响性能,又可以解 决总线等待磁盘的问题,避免一个磁盘长时间占有总线,影响其它磁盘进行数 据传输,从而使系统性能达到最优。 2 1 2 磁盘驱动器的接口类型 目前的磁盘驱动器总线的接口类型很多,应用领域各不相同,应用最为广 泛的是三种磁盘总线接口,i d e ,s c s i 和s a l a 2 1 2 1l d e 总线接口 目前,i d e 接口的几种通用形式仍然被广泛应用,i d e 所代表的含义是集成 磁盘电路设备( i n t e r f a t e dd i s ke l e c 缸n i c s ) ,i d e 接口的正式名字叫做 a t a t t a c h m e n t ( a r a ) 。 2 1 2 2s c sj 总线接口 s c s i 的全称是小型计算机系统接口( s m a l lc o m p u t e rs y s t 锄i n t e r f a c e ) ,s c s i 协议在不同时期有着不同的标准,分别叫做s c s i 一1 ,s c s i 2 ,s c s i 一3 比起a 1 r a 协 议,s c s i 接口的传输速率较高,而且支持热插拔。在高端服务器市场得到广泛 的应用。 2 1 2 3s a t a 接口 s a t a ( s e r i a la 队) ,即串行a 1 a 接口,它作为一种新型硬盘接口技术于2 0 0 0 年初由h l t e i 公司率先提出。目前使用的s a t a 为1 o 标准,时钟频率为1 5 g h z , 除去以8 b 1 0 b 形式对数据进行编码所消耗的大约2 0 的带宽外,用于数据传输 第二章磁盘阵歹0 相关知识 的有效带宽峰值达到了i 5 0 m b s ,这个速度略高于u j t r a 删1 3 3 的1 3 3 m b s 。 而事实上,s a t a 工作组( s e r i a la r r a w o r k i n gg r o u p ) 当初制定s a t a1 o 标准时 就一并规划出s a t a2 o 和s a l a3o 标准。三代标准的数据传输速率分别为: 1 5 0 m b s 、3 0 0 m b s 和6 0 0 m b s 。在未来长达1 0 年的时间内,s a r a 都能够满足 性能要求。 2 1 _ 3 磁盘性能的主要影响因素 由前面分析可以看出,磁盘的一次数据传输所用的时间由三部分组成:磁 盘的定位部件将磁头定位到要读写数据所在的磁道,叫做磁盘寻道时间;磁盘 旋转使磁头在此磁道上定位到目标数据所在扇区的时间,叫做磁盘旋转时间; 最后,通道完成实际的数据读写工作,叫做数据传输时间。寻道时间和旋转时 间统称为磁盘定位时间。关于磁盘性能的论述,在很多文献中都有涉及。一般 来说,数据传输时间是和读写请求的数据量相关的,用d i s ki os i z e 代表读写数 据的大小,d i s kt r a l l s f e rr a t e 代表磁盘的数据传输率,则数据传输时间表示为: t i m e : 坐! :! ! :! 堕 ( 2 一1 ) d i s kt r a n s f e rr a t e 而磁盘定位时间的计算就相对复杂,文献4 5 【4 6 1 4 7 1 中有较为深入的研究,总 结起来,对磁盘寻道时间,是和寻道距离相关的,寻道距离是指磁盘寻道时磁 头当前所在的磁道和目标磁道之间相隔的磁道数。寻道时间和寻道距离的关系 为: d i s k s e e k t i m e = 甜+ s e e k d i s t a n c e ( 2 2 ) 其中口,为常数,而寻道距离与磁盘的队列长度有关,一个简单的估算公 式为: s e e kd i s t a n c e : ! ! ! ! ! :! ! ! 塑堡 一 1 + d i s k q u e u e i e n g t h ( 2 3 ) 其中t o t a l d i s t a n c e 为一个盘片上从一端到另一端的总的磁道数,为一个常 数,d i s l ( _ q u e u 9 - 1 e n 昏h 为磁盘队列长度,这个公式实际上就是电梯调度法的一个 平均期望值。 而磁盘旋转时间一般以磁盘旋转半周的时间作为个平均值来计算的,所 以,总的磁盘定位时间除去与磁盘物理性质有关外,和磁盘的负载( 队列长度) 第二章磁盘阵列相关知识 也是相关的。 提高磁盘读写性能的方法是尽量降低磁盘的数据定位时间,这就要求把逻 辑上相邻的数据尽量顺序的存储在磁盘的相邻扇区中,这样,次定位操作就 可以连续读出很大的数据量。另外,大多数磁盘驱动器都具有缓存,缓存也是 影响磁盘性能的个方面,尤其对于读请求如果缓存命中则直接返回,而无需 读取磁盘当中的记录,缓存命中率越高,磁盘的效率越高。 第二节磁盘阵列技术 为了解决硬盘与系统其他部分的性能差距造成的瓶颈问题,p a t t e r s o n 、 g i b s o n 和k a t z 提出了廉价磁盘冗余阵列技术( r e d u n d a n ta r r a y so fi i l e x p e n s i v e d i s k s ra i d ,后来磁盘价格不断降低,廉价二字变得没有意义,因此也有人 将其改为r e d u n d a n ta r r a yo f i n d e p e n d e n td i s k s 独立磁盘冗余阵列) 。如前所 述,在当前的存储领域,磁盘阵列已经成为存储设备的主流产品,大多数服务 器都选择了磁盘阵列作为其主要外存储设备。本节将介绍一些磁盘阵列技术的 基本知识,包括r a i d 基本思想、基本r a i d 结构、性能和可靠性分析等等。 2 2 1 磁盘阵列技术的基本思想 磁盘阵列技术的基本思想有两个方面:利用数据在磁盘间散布提高性能以 及利用数据冗余提高可靠性。提出磁盘阵列技术的一个主要的目的就是要解决 硬盘性能由于其机械特性致使其效率远远落后于其它系统部件的问题,解决的 办法就是利用大量磁盘的并行操作来提高性能,而数据条纹化就是使磁盘阵列 具有并行工作能力的技术。所谓条纹化,就是将原来顺序存放在单个磁盘上的 用户数据交错分布到所有磁盘,以实现磁盘操作的并行性。这种并行性体现为 两种方式:一种方式是,多个独立的小请求同时由不同磁盘处理,这种方式减 少了请求的响应时间,它可称为“请求间并行”方式;另一种方式为,一个大 的请求同时由多个磁盘协同进行处理,这种方式可以提高数据传输率,它可称 为“请求内并行”方式。显然,组成磁盘阵列的磁盘数目越多,阵列的性能就 有可能越高。但随着磁盘数目的增加,发生故障的可能性也随之增大。磁盘阵 列技术中的另一个基础数据冗余就是用来提高系统的可靠性。数据冗余技 第二章磁盘阵列相关知识 术通过牺牲一些存储空间保存校验数据,来实现对用户数据的保护,从而达到 提高可靠性的目的。 2 2 2 基本的r a i d 结构 图2 2 r a i d 的条纹化 p a t t e r s o n 、g i b s o n 和k a t z 最初提出了5 种基本r a i d 结构,按照用户数据 和冗余数据组织方式的不同,划分为r a i d 级别1 到级别5 。后来又增加了两种 r a i d 结构,r a i d 级别。和r a i d 级别6 ,这种分类方法和术语都已被广泛接 受。本小节介绍这几种工业界使用最为广泛的r a i d 结构。 2 2 2 1f t a i d o r a i d 0 没有使用冗余技术,而只使用了条纹化技术。r a i do 连续地分割数 据并并行地读写于多个磁盘上因此具有很高的数据传输率但r a i do 在提高 性能的同时,并没有提供数据可靠性,如果个磁盘故障,将影响整个设备上的数 据因此r a i do 不可应用于需要数据高可用性的关键应用。图2 3 表示了r a i d o 的数据布局方式。 条纹o 条纹1 条纹2 条纹3 条纹4 磁盘o磁盘l 磁盘2磁盘3 | d o d 1d 2d 3 d 4d 5 d 6d 7 d 8d 9d 1 0 d 1 l d 1 2 d 1 3d 1 4 d 1 5 d 1 6d 1 7 d 1 8d 1 9 图2 3r a i d o 数据布局方法 第二章磁盘阵列相关知识 2 2 2 2r a l d l r a i d l 也被称为镜像( m i r r o r i n g ) ,是一种传统的存储子系统容错技术。磁 盘两个一组分成镜像对,每个数据块在个镜像对的两个磁盘上都保存一个复 本,这样,只要不是同一镜像对中两个磁盘都损坏,磁盘阵列可以容许多达1 1 2 个磁盘故障。与传统镜像技术不同,r a i d l 还使用了条纹化技术,即在镜像对 间交错存放数据。l 认i d l 的缺点是磁盘冗余度较大,单位容量价格较高( 为 r a i d o 的两倍) ,因此常用于对可靠性要求非常高的应用,如数据库系统 f g r a y 9 0 1 。图2 4 给出了r a i d l 的数据布局方法。 条纹o 条纹1 条纹2 条纹3 条纹4 磁盘o 磁盘1 磁盘2 磁盘3 磁盘4 磁盘5 磁盘6 磁盘7 d od o d 1d 1d 2d 2d 3d 3 d 4d 4d 5 d 5d 6d 6d 7d 7 d 8 d 8d 9d 9d 1 0d 1 0d 1 1d 1 1 d 1 2d 1 2 d 13d 1 3d 1 4d 1 4d 1 5d 1 5 d 1 6d 1 6i d l7 d 1 7d 1 8d 1 8d 1 9d 1 9 图2 4r a i d l 数据布局方法 2 2 23f 认i d 5 r a i d 5 有多种不同的数据和校验布局方式,图2 5 给出了左对称布局方式。 从图中可见,左对称布局可以看作以r a i d o 布局为基础,将校验单元插入对角 线,校验单元之后的数据单元依次后移的结果。因此左对称布局保持了r a i d o 用户数据条纹化连续性的特点,对于连续数据请求,其负载总是均匀分布到所 有磁盘。也就是说,当顺序读取数据时,总是会依次访问所有磁盘,而不会出 现有的磁盘没有访问,而有的磁盘却已读取多个单元的情况。因此在多种不同 的r a i d 5 布局方式中,左对称布局的性能是最优的 l e e 9 1 ,l e e 9 3 】。 第二章磁盘阵列相关知识 条纹0 条纹l 条纹2 条纹3 条纹4 磁盘0 磁盘1磁盘2磁盘3磁盘4 d 0d 1d 2 d 3p o 3 d 5 d 6d 7p 4 7d 4 d l od 1 1p 8 1 1d 8d 9 d 1 5p 1 2 1 5d 1 2d 1 3d 1 4 p 1 6 1 9d 1 6d 1 7 d 1 8d 1 9 图2 5 左对称r a i d 5 数据布局方式 2 2 2 4r aj d 6 奇偶校验编码只能恢复单一自识别故障。但有很多因素,如阵列规模越来 越大、重构过程中遇到不可恢

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论