




已阅读5页,还剩120页未读, 继续免费阅读
(计算机科学与技术专业论文)动态异构虚拟盘阵及其关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
固防科学技术大学研究生院学位论文 摘要 随着微电子技术的进步,微处理器性能、内存速度迅速提高。磁盘i o 受限于 机械设备,是计算机系统性能的主要瓶颈。为了缓解i o 瓶颈,并获得有较好性价 比的j o 服务,集群虚拟盘阵已成为人们研究的热点。面向日趋多样化和分布化的 i o 资源,本文深入研究了集群虚拟盘阵系统,主要创新性工作如下: 针对当今集群i o 子系统研究在动态性和异构性支持方面的不足,本文提出了 动态异构虚拟盘阵系统的概念,目标是把异构、分布式的i o 资源,组织成并发、 单映像和虚拟的盘阵,获得高效、容错和用户透明的i o 子系统。 针对动态异构虚拟盘阵系统的磁盘设备并行性,本文提出了基于i o 请求并发 度指导的盘组划分策略,其核心思想是通过i o 请求的并发度去选择恰当数目的磁 盘构成盘组。该策略首先根据r f b o 方法确定应用程序i o 请求需要的并发设备 数目,即请求并发度:然后通过最大满足与最小满足算法将各盘组的设备进行分 配,使盘组的设备数目接近该盘组请求并发度。并发度指导的盘组划分策略的主 要目的是为了使系统在盘组一级实现请求并发,并且使盘组的并发性组织具有对 请求并发需求的适应性。 针对动态异构虚拟盘阵系统的磁盘设备异构性,本文提出了盘组o s u s ( o p t i m a ls t r i p eu n i ts i z e ) 选择的n l z p 方法。在动态异构虚拟盘阵系统中每个盘 组采用数掘片化存放数据,其中数掘片大小s u s ( s t r i p eu n i ts i z e ) 是影响系统性 能的重要参数。n l z p 方法能根据盘组内各设备的产品特性和盘组的负载情况确定 出盘组的o s u s ,充分发挥异构设备的性能。 针对动态异构虚拟盘阵系统的动态性,本文给出了盘组重组决策的t d o 方法: 为了减少重组移动开销,本文提出了d h 映射算法:为了提高重组时系统服务的 可用性,本文提出了基于负载预测的p b r 在线重组策略,综合考虑系统客户端负 载和系统处理能力,确定请求的重组速率。p b r 是兼顾系统重组时间和系统服务 可用性的折衷策略。 关键字:动态、虚拟盘阵、并发、透明、n - - l l i i l :生、可用性、盘组划分、数据片化、 异构盘阵、并发度、性能均衡、重组、映射算法、决策、在线 第1 v 页 a b s t r a c t 撕曲a d ,铷c 脚即fo f m i c r o e l e c t r o n i ct e c h n o l o g y ,t h es p e e do f m e m o r y a n dt h e p e r f o r m a n c eo f m i c r o p r o c e s s o r a r ei m p r o v e dr a p i d l y , w h i l et h ep e r f o r m a n c e o f s t o r a g e s y s t e m i sv e r yl o wb e c a u s eo f i t sm e c h a n i c a lm o v e m e n t l i m i t a t i o n 。i no r d e rt oa l l e v i a t e i ob o t t l e n e c kp r o b l e ma n da c q u i r eb e t t e rc o s t p e r f o r m a n c e i os e r v i c e ,p e o p l eh a s d o n el o t so fs t u d i e so n v i r t u a ld i s k a r r a y i nc l u s t e rc o m p u t e f i n g s y s t e m o u rp r i m a r y m o t i v a t i o ni st oo r g a n i z et h em o r ea n dm o r ed i s t r i b u t e da n dh e t e r o g e n e o u s i 0r e s o u r c e a n d o p t i m i z et h eo r g a n i z a t i o n m a i n w o r ko f t h ed i s s e r t a t i o ni sa sf o l l o w i n g s : a b o v ea l l ,d h v d a s ,d y n a m i ch e t e r o g e n e o u sv i r t u a ld i a k sa r r a ys y s t e m ,i s p r e s e n t e d t oc o n s t r u c th e t e r o g e n e o u sa n dd i s t r i b u t e di or e s o u r c ei n t oap a r a l l e l ,s i n g l e s y s t e mi m a g e a n dv i r t u a ld i s k sa r r a y d h v d a sc a ne s t a b l i s hc a p a b i l i t i e so f h i g h e f f e c t i v e ,e r r o rt o l e r a n c e ,t r a n s p a r e n c y t ou s e ra n de t c t h e n ,w eh a v ep r e s e n t e dt h ed y n a m i c d i s k sp a r t i t i o ns t r a t e g yu n d e rt h ei n s t r u c t i o n o f o c d ,o p t i m a lc o n c u r r e n c yd e g r e eo f i or e q q u e s t f i r s t w eh a v ed o n ed e t a i ls t u d y o f r f b om e t h o dt od e c i d eo c d ( o p t i m a lc o n c u r r e n c yd e g r e e ) o f r e q u e s t t h e n a c c o r d i n g t or e q u e s to c d ,w e p r o v i d e t h ea l g o r i t h mo f m a x i m u ms a t i s f a c t i o na n d m i n i m u ms a t i s f a c t i o ns t r a t e g yf o rt h er e o r g a n i z a t i o no fs y s t e md i s k s b yu s i n gt h e s e s t r a t e g i e s ,d i s k sp a r t i t i o nc a l ls a t i s f yi or e q u e s tc o n c u r r e n c yn e e da d a p t i v e l y t h i r d ,w eh a v ep r e s e n t e dn l z p m e t h o dt os e l e c to s u s ,o p t i m a ls t r i p eu n i ts i z e , f o rd a t ap l a c e m e n ti nh d g h e t e r o g e n e o u sd i s k sg r o u p o n ep o p u l a rt y p eo f d i s k g r o u p i n t e r l e a v e sd a t ai nb l o c k s i z e du n i t s ,w h i c hi sc a l l e dd a t as t r i p i n g a n ds u s , s t r i p eu n i ts i z e ,i so n e o f t h em o s tc r u c i a le l e m e n t si nd a t as t r i p i n g t h i sp a p e r i n v e s t i g a t e si no s u so f h d g , a n db r i n g s f o r w a r dt h em e t h o df o ro s u s c h o o s i n g a c c o r d i n g t of o u rf a c t o r s :n ( n u m b e ro f d i s k so f h d g ) ,l ( a v e r a g e q u e u el e n g t h o f h d g ) ,z ( a v e r a g er e q u e s ts i z e ) ,a n dp ( d i f f e r e n tp r o d u c t c h a r a c t e r i s t i co f e a c h d e v i c e ) d i s k g r o u p c a nm a k ef u l lu s eo f e a c h h e t e r o g e n e o u s d i s kp e r f o r m a n c ew i t hn l z p o s u ss e l e c t i o n , f i n a l l y , w ep r e s e n ts o m ea l g o r i t h m sf o rs y s t e md y n a m i cr e o r g a n i z a t i o n ,d h v d a s 第v 页 里堕! ! 茎垫查查堂竺茎生堕堂垡笙兰 i sa d y n a m i cs y s t e m e a c hc h a n g ew i l lb r i n g 、v i t hm u c h e x t r ao v e r h e a d i no r d e rt o d e c r e a s ei t si n f l u e n c e :f i r s tat d om e t h o df o r r e o r g a n i z a t i o nd e c i s i o n i sb r o u g h t f o r w a r d t h e ni no r d e rt od e c r e a s et h ed a t u m h a v i n g t ob em o v e db e c a u s eo f r e o r g a n i z a t i o n ,t h ed i s s e r t a t i o np r e s e n t sd hm a p p i n ga l g o r i t h m a n da no n l i n e r e o r g a n i z a t i o ns t r a t e g yn a m e d p b ri sp u tf o r w a r d p b r s t r a t e g yi sa b e t t e rt r a d e o f f b e t w e e nt h es y s t e mm o r g a n i z a t i o nt i m ea n ds e r v i c e a v a i l a b i l i t y k e y w o r d :d y n a m i c ,v i r t u a ld i s k sa r r a y , p a r a l l e l ,t r a n s p a r e n c e , r e l i b i l i t y , a v a i l a b i l i t y , p a r u t i o no fd i s kg r o u p ,d a t a s t r i p i n g , h e t e r o g e n e o u sd i s k s a r r a y , d e g r e e o fc o n c u r r e n c y , b a l a n c ei n p e r f o r m a n c e , r e o r g a n i z a t i o n ,m a p p i n ga r i t h m e t i c ,d e c i s i o n , o n l i n e 第页 独创性 声j 9j 本人声明所呈交的学位论文是我本人左导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其e 教育机构的学位或证书赢使用过的材料。与我一同工作的同,专对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论x 题目:塑查昱塑虐型垒睦矍基苤望楚壅盟塞 i ,一 学f _ 主论文作音鍪名三! l至 日期: 7 口 手d 4 月? j 口 学位论文版权使用授权书 本人完全了解国防 牛学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档克许论文被查阔和借阅;可以将学位论文的全部或部分内容编入有关数据 厍进行检索可以采用影印缩印或扫描等复制手段保存汇编学位论文。 保密学位论文在解密后适用本授杈书。) 学位论文题目: 塾奎昱蛰虐巡查鉴毽基苤壁篮鲞堡童 学位论文作者签名: 专,l 军 作者指导教拜签名 日期:矿牛年产牛月2 日 日期: 口q 年。婶月7 扣 国防科学技术大学研究生院学位论义 第一章绪论 集群是目前主流的分布并行计算环境之一。随着微处理器性能的迅猛提高, 特别是集群规模的不断扩大,集群系统的计算能力增强很快。由于受限于机械部 件性能,外存性能提高较为缓慢,且与系统计算性能的差距越来越大,使得磁盘 i o 已成为计算机特别是集群系统性能的主要瓶颈。本文对采用动态异构虚拟盘阵 构建集群i 0 子系统的关键技术进行了全面深入的研究。 1 1 1 应用对i 0 的需求 1 1 课题背景 随着系统计算能力的增强,计算机在科学计算和商业领域得到了广泛的应用。 在这些领域中,应用程序的规模越来越大,从而要求计算机存储系统提供海量存 储空间和高带宽i ,o 服务。 1 1 1 1 高性能科学计算 美国高性能计算和通信( h p c c ) 【4 7 】计划列出了需要利用大规模并行处理系统 来解决的重大挑战性课题,如图形图象处理、天气预报、海洋环流、基因工程和 流体动力学等。其中有的高端应用如高能物理、量子化学、全球气象和环境模型 等等对世界高科技研究、人类生存、文明进步和社会可持续发展等各个方面将产 生深远的影响1 4 。这些计算应用在处理过程中一般都要进行大量i 0 8 】;并且随 着计算机系统性能的提高,这些应用对i 0 子系统性能的要求越来越高0 8 1 【1 0 ”。 已有具体的统计数据来反映高端科学计算对i 0 的需求。比如,文献f 2 4 】的统 计指出世界知名科学计算中心的数据量每月增加5 t b 以上;斯坦福线性粒子加速 中心的数据量每天增加5 0 0 g b 1 1 1 4 ;到2 0 0 4 年欧洲中期天气预报中心的外存容量 需求达1 , 5 0 0 t b ;而国际数据网格,所需要的容量和性能则更大1 4 4 l 【6 8 l ;美国能源 部a s c i 系统的统计数据表明( 见表1 1t 6 1 ) ,未来几年内用于高端计算的大计算系 第1 页 国防科学技术火学研究生院学位论文 统( 主要指核爆模拟等同国家安全与发展战略密切相关的高端计算应用系统) 需 要几百个t e r a o p s 的计算性能、几十个p e t a b y t e s 与几百g b s e c 的i o 带宽。并且 随着时间的推移,系统计算性能迅猛增长,人们对科学计算结果的精度要求也不 断提高,从而进一步增加了对系统i o 性能的需求。 爵两( 年)计算性能外存容量要求 系统i o 率机群结点数 2 0 0 0 1 0 t e r a o p s 5 0 0 t b1 0 g b s e c 2 ,0 0 0 2 0 0 2 5 0 t e r a o p s 5 p b1 0 0 g b s e c1 0 0 0 0 2 0 0 4 1 0 0 t e r a o p s 2 5 p b8 0 0 g b s e c15 , 0 0 0 1 1 1 2商业应用 表1 1高性能计算和存储需求趋势 在商业应用中,w w w 服务已风靡全球1 3 5 。随着信息化进程的不断深入,大 型数据库系统得到了广泛的应用,虽然网络信息服务业和多媒体等应用领域对计 算能力的需求不及高性能科学计算应用,但它们需要大容量、高带宽、低访问延 迟的i o 服务器系统【3 6 】f o ”。 多媒体应用f 8 0 】如视频点播、远程教育、新闻点播等,是i o 密集 ( i o - i n t e n s i v e ) 的典型应用【7 引。到1 9 9 8 年,几乎所有的媒体由传统的模拟数据转 换为数字信息进行存储,卫星广播网络如d i r e c t v m 完全由数字设施代替,这些 数字信息的存储设备一般采用磁盘【1 3 9 1 。多媒体应用服务器往往不仅需要提供较大 的容量,还需要保障i o 请求的操作实时性。电视信号是8 0 0 m b s 1 0 3 ,播放- , b 时的电视信息需要存储的数据量将是3 6 0 g b ;如果一个i o 请求的长度是2 0 0 k b , 则在播放电视节目时服务器系统需要在2 m s 内完成一个i o 请求。即使采用了压 缩技术如m p e g i i 等,这些应用对服务器系统的容量和带宽要求也依然很高。 商业领域中的应用一般与人们生活和国民经济密切相关,应用中数据库服务 器系统性能好坏直接关系到系统的服务质量q o s ( q u a l i t yo f s e r v i c e ) 、人们生活质 量与公司企业的经济效益。例如对于电信企业,一个发达省份每天需要处理的业 务数据量可达几十g b 至几个t b 。这些企业一般都必须建立了自己的专用服务器, 第2 页 国防科学技术大学研究生院学位论文 在内部进行高效的信息管理,以适应电信用户的需要。 因此,当今的应用对存储容量和f o 访问性能提出了越来越高的需求【6 3 j 。 i i 2i o 性能与系统计算性能极其不匹配 然而,u o 技术的发展非常滞后,i o 性能与系统计算性能极其不匹配。 当今主流的i j o 设备包括磁盘、磁带和光盘等等。其中磁盘使用较为广泛。在 制造技术上,磁盘的存储密度和总线带宽提高很快,但是磁盘的访问延迟减少却 相对较慢。 图1 1 磁盘容量提高图 妻墨量 ( p a t t 9 3 a ) lii 图1 2 磁盘带宽提高图( g r 0 9 7 c ) 具体来说,随着读写磁头技术的改进,磁介质的存储密度每年以6 0 的速率 增长【3 2 1 ,在磁盘几何尺寸不变的情况下,硬盘容量几乎每l 至2 年翻一翻 8 3 】( 如 图1 1 所示) 。到2 0 0 6 年,单个硬盘的容量将会达到6 6 0 g b 至1 t b 以上【1 1 1 1 ;随着 总线技术的改进,特别是光纤通道的采用,磁盘的总线数据传输带宽每年以4 0 的速度增长( 如图i 2 所示) ;磁盘外设每m b y t e s 的价格在不断下降( 如图1 3 所 示) ,下降速度比内存快得多,硬盘越来越廉价。这些技术的发展,使得构建大容 量的i o 子系统成为可能。然而,在磁盘发展过程中,由于受限于机械部件运动, 寻道和旋转定位等访问时间每年仅改善5 1 0 1 4 3 】【8 3 1 1 3 2 1 ( 如图1 4 所示) ,因此磁盘 1 1 o 访问延时的减少相对较为缓慢,设备的整体性能较低。 第3 页 皇些些型堇奎兰些堂皇兰垒塑 _ 一 2 、。m 1 6 r o ,t a t i o n 干卜 l、 1 # 罢k 是遮、8 ls e et i m ;叫! 图1 3 磁盘m b 价格下降图( g r 0 9 7 a )图1 4 磁盘定位时间下降图( 4 3 ) 表1 2 以s e a g a t e 公司的硬盘产品为例,反映了磁盘技术的发展情况。从表l | 2 可知,磁盘转速和寻道时间改善较少。随着时阳j 的推移,寻道和旋转等机械部件 运动访问延迟的减少几乎达到了极限。 s e a g a t et e c h n o l o g y t m ,l n c 产品系列s t 31 2 0 0 w ds t 3 4 5 0 1 w ds t 3 7 3 4 5 3 l c ,l w f c h a w k l l pc h e e t a h4 l pc h e e t a h1 0 k 容量 1 0 0 6 g b4 3 3 9 g b7 3 4 g b 平均寻道时间 1 0 5 m s e c8 m s4 7 m s 转速5 4 0 0 r p m 10 0 3 3 r m p 1 0 0 0 0 r p m 接口带宽 3 4 7 m b s1 2 9 7 m b s3 2 0 m b s 时间1 9 9 0 年1 9 9 6 年2 0 0 2 年 表1 2s e a g a t e 公司硬盘产品的技术发展情况 随着时问的推移,微处理器的处理能力和内存的性能等每年以5 0 6 0 的速度 持续提高i s 4 。c p u 主频已超过了3 g h z ,1 9 9 7 年r d r a m 内存的总线主频已达到 了8 0 0 m h z 。磁盘性能提高速度远远落后于内存和微处理器。磁盘与内存之间的访 问延时差距以每年5 0 以上的速度增长,到2 0 0 0 年这个差距已经达到了6 个数量 级【4 ”。特别是在集群并行系统结构中,系统计算性能非常高,计算与磁盘i o 间 性能差距表现得更为明显。 a m d a h l 定律表明i i 】,对整体系统而言,微处理器的发展只能提高单个部件的 第4 页 囤防科学技术大学研究生院学位论文 局部性能,除非外存储性能也相应提高。假如每一条指令需要处理1 或2 个浮点 数,每个浮点数用4 字节表示,则2 4 0 0 m i p s 的2 1 2 6 4 处理器需要9 6 g b s 的i 0 带宽与之匹配【m 2 1 。如果i o 性能达不到要求,则大量时间内高性能的处理器处于 空闲状态,等待i ( 9 请求的完成。 因此i o 性能与系统计算性能极其不匹配使得磁盘i o 成为了计算机系统性能 的主要瓶颈之一【】,磁盘的访问延迟越来越严重地限制了计算系统的整体性能。 特别是对于i o 频率非常高的应用,如w e b 应用和多媒体应用等,磁盘i o 瓶颈问 题尤为突出。 综上所述,满足应用对i o 的需要和缓解计算机系统性能的i 0 瓶颈,是计算 机系统结构研究必须解决的问题之一。 1 2 研究现状 人们从硬件和软件等方面的技术对计算机i o 进行研究。 1 2 1硬件技术 硬件特性是i 3 子系统的物理基础。硬件设备的技术改进是提高i 0 性能的重 要途径。硬件设备的技术现状如下: 1 传统的磁带库容量大、价格低( $ o 0 5 m b t 3 8 1 ) ,但是访问延迟时间很长。 比如h p s s 磁带库的数据传输的启动时间需要2 0 至4 0 秒【旧8 1 ,数据传输率远远低 于磁盘,且磁带性能的改进速度非常馒;光盘单价比磁带高( $ 0 3 m b 【3 8 1 ) ,性能 比磁带高,但其性能比磁盘低。因此,磁盘相对性能较高,成为了使用非常广泛 的i 0 设备。磁盘的技术也不断改进,如通过c a c h e 技术减少机械操作4 5 1 、通过 z o n e 技术和t r a c k _ _ a l i g n e d 技术等提高旋转效率嗍1 5 6 1 等等,但是总的来说磁盘的访 问延迟时间比内存低了6 个数量级【4 2 1 ,并且这个差距还在不断增大。 2 单个设备的磁盘存储系统已无法满足大规模应用对i o 存储量、访问带宽 等的需求。将多个设备构成并发的i o 子系统是缓解i o 瓶颈的有效途径。1 9 8 8 第5 页 国防科学技术大学研究生院学位论文 年美国加州大学b e r k e l e y 分校的d a v i da p a t t e r s o n 等人提出了廉价磁盘冗余阵列 ( r a i d ) 1 8 3 1 ,采用信息冗余技术和数据片化技术,通过硬件盘阵控制器将各磁盘 设备集中组织起来,构成高性能、高可靠和高可用的硬件盘阵存储子系统。硬件 盘阵控制器内部通过固件进行系统管理,完成请求并发、数据映射和存储优化, 对高层计算机应用访问掩盖了内部操作细节,使计算机感觉仿佛只是在使用高性 能的单一磁盘。 所谓数据片化技术( d a t as t r i p i n g ) 是指将多个设备上相同的块构成一个片化 组( s t r i p e g r o u p ) 存储数据,如图1 5 所示。图中,片化单元( s t r i p e u n i t ) s u 0 在 第。号设备上,s u m 存放在第( 玳m o d n 号设备上。我们称为片化宽度s w ( s t r i p e w i d t h s t r i d e ) ,即加入片化的磁盘数目,而称片化单元大小为s u s ( s t r i p eu n i ts i z e ) 。 如果一个读请求或者写请求需要访问多个s u 时,可以将读请求分解成大小为s u 的小请求,通过多个设备并发执行来完成该请求,这个大请求执行时间与一个小 请求的执行时间基本相当。数据片化技术是经常采用的设备并发数据组织技术。 图1 5 数据片化技术示意图 根据容错方式和数据映射方式,r a i d 可分为( 1 8 1 :r a i d - - 0 、r a i d l 、r a i d - - 2 、r a i d - - 3 、r a i d - - 4 、r a i d - - 5 、r a i d - - 1 0 、r a i d - - 6 、r a i d 一7 和e v e n p d d 等。不同的容错方式有不同的磁盘空间利用率。 硬件盘阵的优点:设备性能高、单一性好。上层用户请求访问盘阵时,就像 访问本地普通硬盘,用户无需复杂的操作就可以得到高性能的1 , 1 0 。正因为如此, 第6 页 国防科学技术大学研究生院学位论文 在企业服务器中,硬件盘阵被广泛采用f 5 7 l i 】 1 0 1 儿h 】1 7 3 1 。 但是硬件盘阵需要特殊硬件支持,价格昂贵( 构建大规模信息处理系统时, 用来购买硬件盘阵的钱超过了系统整个价格的5 0 ) ,一般用于高性能服务器、银 行数据库系统等,对于需要巨量、廉价且高性能i o 服务的系统,如果完全采用硬 件r a i d 来构建其i o 子系统,会受到规模和价格等方面的限制。在分布式计算中, 特别是结点非常多的集群系统,集中共享的硬件盘阵容易成为瓶颈,限制了分布 式系统的扩展能力【1 0 8 】【3 6 】【1 0 6 1 。由于依赖于硬件本身的限制,硬件盘阵扩展能力 是很有限的,难以满足应用程序大规模动态变化的f o 需求。 3 采用内存( m e m o r y ) 作为缓存,是提高i 0 性能的有效手段。但是内存价 格昂贵,每m b 的价格比磁盘高出两个数量级 1 3 5 1 ( 高速c a c h e 每m b 的价格比磁 盘高了3 个数量级【7 7 1 ) ,完全由内存构建大规模的i o 子系统,系统价格将难以承 受。并且普通内存d r a m 具有挥发性,不能成为数据永久性存储器;虽然非易失 性内存n v r a m 能进行永久性存储,但价格比d r a m 更昂贵。一些科研工作者正 在研究磁性内存m r a m ( m a g n e t i cr a m ) ,其具有d r a m 的速度和价格,又具有 磁性介质的非易失性特点,并且人们正在研究基于磁性内存的内存文件系统 h e r m e s 。用磁性内存进行元数据管理和普通数据的存储,能大大提高系统i o 性 能。但是磁性内存具有与普通内存d r a m 的价格,磁性内存的大量使用受到系统 代价的限制f 3 4 l 【1 1 。 针对传统技术的不足,新的存储技术正在研究。典型的新存储技术包括:基 于微电子机械系统的m e m s 技术和全息存储技术。微电子机械系统 m e m s l 7 7 8 8 】1 4 2 1 t 7j ( m i c r o e l e c t r o m e c h a n i c a ls y s t e m s ) 是采用探针读写磁介质,探 针固定在平面的长方形区域内,而介质在两个方向( x 和y 方向) 运动,因此不 需要磁盘的旋转,i 0 操作中定位时间比当今普通磁盘大大减少7 7 】;由于探针非常 精密,因而相比于普通的磁盘,磁介质的存储密度( 2 6 0 - - 7 2 0 g b i t i n 2 ) 大大提高, 数据读写的定位时间得到进一步减少【1 7 】。因此m e m s 能大大减少磁介质与内存之 间的性能差距。德国明斯特大学的科研工作者正在利用全息原理,研究新的存 储介质”。他们预言在一块方糖大的空间中可以存放上t b 的数据,读写带宽达 第7 页 :一些坠兰垒鋈兰坠圣些些垒鳖坠一 到1 g b s e c o n d 。这些新技术使i o 瓶颈的缓解看到了曙光。但是这些技术还正在 研究之中,距离普遍应用还需要走很长的路。在这些新技术成熟之前,磁盘还将 是主流的外存设备【8 8 l 【1 2 4 1 。 因此,当今的硬件制造技术还没有解决系统的f o 瓶颈问题。 1 2 2软件技术 基于现有硬件基础研究优化的软件组织技术,是获取高性能i 0 的另一途径。 这些软件技术主要包括缓存和并行。 1 p v f s 、x f s 等文件系统利用单结点内部的内存,或者利用分布式结点间空 闲内存进行协同缓存,减少磁盘i o 操作,能有效提高系统的i 0 性能。但是由于 价格的原因,可用内存是有限的,因此缓存能达到的效果也很有限。 2 在分布式系统中各结点上设备的并行工作是缓解i o 瓶颈的有效手段。当 今分布式设备并行的主要实现方式包括i o 运行库、分布式文件系统、虚拟盘阵等。 f o 运行库 i o 运行库1 2 3 1 方式是指通过操作系统用户级的库接口如m p i 1 0 等等,由程序 员自己进行编程控制,完成并行i o 。这种方式需要的用户干预太多,不具备存储 透明性1 1 0 引。 分布式文件系统 分布式文件系统如n f s 9 6 1 、c o d a1 9 8 1 9 9 1 、s p r i t e 8 2 1 采用m o u n t 远程文件系统 和结点问消息通信达到设备共享和数据交互。此类系统在对实现数据共享方面很 有效。但此类系统中设备的并发性和数据容错性,往往需要用户自己编程实现, 因此存储透明性也欠佳【1 1 3 1 。 虚拟盘阵 虚拟盘阵采用了数据片化( d a t as t r i p i n g ) 和信息冗余机制保障请求并发和设 备容错,具有硬件盘阵并发和数据高可靠高可用的特点:虚拟盘阵对集群分布式 设备进行良好的单系统映像,设备的易用性较好,存储透明性较好:同时由于不 需要特殊硬件支持,虚拟盘阵具有很好的性价比;虚拟盘阵中i 0 操作分布在不同 第8 页 :旦塑些垒尘婪型丝皇鳖型型查一 结点上,不存在集中控制的瓶颈。可扩展性较好。 典型的虚拟盘阵系统包括:美国南部加州大学和香港大学的k a ih w a n g 、h a i j i n 和r o v h o 等提出的r a i d x 4 8 1 、普林斯顿大学的ec a o 等研究的t i c k e r t a i p 、 d i g i t a l 实验室提出的p e t a | 6 4 1 、加州大学伯克利分校的t e r t i a r y d i s k 8 】【2 1 n 3 2 1 、美国 c l e m s o n 大学的p v f s l l3 l 】【8 6 l 【1 3 7 】【1 3 8 j 【5 5 1 1 9 2 l l :9 3 1 1 2 0 1 和l i n u x 操作系统本身自带了单结点 环境下的软盘阵m d 等。这些虚拟盘阵系统各有不同的实现方式和优化策略。有的 实现在用户级,有的实现在内核级。系统的优化策略包括小尺寸i o 请求合并、 r a i d 5 中小的写请求优化、设备划负载平衡、结点间以设备为中心的协同缓存管 理、i 0 请求调度优化策略等等。这些系统中,p v f s 是使用最广泛的集群虚拟盘 阵之一。2 0 0 0 年1 0 月,在4 8 个i 0 结点、1 1 2 个计算结点的集群中,p v f s 将i 0 结点上的设备构建成虚拟盘阵,能提供1 0 5 g b s 的i o 带宽1 9 。 jp l a t f o r mc p uw r i t em b s )c p u l o a d ( 呦 r e a d ( m b s ) c p ul o a d ( ) s p e e d硬软硬软硬软硬软 p e 2 4 5 08 6 6 m h z2 3 54 5 11 2 54 3 74 6 41 0 1 51 9 96 0 2 p e 2 5 5 01 4 0 h z3 4 04 5 31 5 34 1 75 4 9i 0 3 91 4 13 9 4 p e 2 6 5 02 0 g h z4 2 75 7 71 2 53 2 o6 0 71 0 4 01 2 22 8 0 表1 3 软硬盘阵的性能比较 在对p v f s 的研究中,j e n w e ih s i e h 等人i 5 5 j 将3 个s e a g a t es t 3 1 8 4 0 6 l c 的硬磁 盘设备分别构成r a i d 5 的虚拟盘阵和硬盘阵,并在d e l l p w o e r e d g e 服务器上用 b o n n i e 和i o s t o n e 掣1 1 7 j 多个基准程序进行了测试。其中在用b o n n i e 基准程序进行 测试时,系统随机读写2 g b 的数据,其读写带宽和引入的c p u 负载如表1 3 所示, 表中的“硬”表示硬盘阵,“软”表示虚拟盘阵。测试得出结论如下【5 5 】:虚拟盘 阵的随机读写性能都比硬件盘阵高,这是因为p v f s 构建虚拟盘阵时能将结点内存 作为c a c h e ,可以拥有一个更大的c a c h e 来缓存i o 数据,减少实际的磁盘操作, 面硬件盘阵的内部缓存空间是有限的;虚拟盘阵同步写操作的性能不如硬件盘 阵,这是因为硬件盘阵在控制器内部有可靠的内存n v r a m 作为c a c h e ,数据写入 该c a c h e 就意味着写操作完成:而虚拟盘阵没有引入特殊硬件,对于每个同步写请 求,都必须写入到磁盘才能完成,这需要引起一次设备操作;同硬件盘阵相比, 虚拟盘阵会给c p u 带来更大的负载,这是因为虚拟盘阵的数据片化和冗余信息形 第9 页 :型鳖些垒奎垡型篁兰墼鲨垡查:一 成等工作都由集群系统结点上的c p u 完成,而在硬件盘阵中,这些工作出专门的 硬件完成,需要集群结点上c p u 的干预较少。 因此,虚拟盘阵有很好的i o 读写性能,是集群中获取较好性价比i o 的一种 选择,从而人们对集群虚拟盘阵的研究方兴未艾。我国许多多媒体服务器采用了 虚拟盘阵的方式,构建其存储系统。 1 3 虚拟盘阵相关的关键问题 集群是一种分布式环境。构建在分布式环境之上的虚拟盘阵系统必须解决以 下问题: 1 透明【4 8 】:i 0 设备分布在集群的不同结点上。一般用户希望在不知道请求 在内部处理具体细节的情况下,就能通过类似于访问本地设备的方式,得到分布 式i o 服务。透明性是系统易用性和应用程序有良好可移植性的前提。虚拟盘阵应 实现存储透明性,达到对系统良好的单系统映像支持。 2 动念【8 】【5 2 】 4 j :虚拟盘阵必须是一种动态系统,这是因为:集群本身是一 种变化的环境,导致虚拟盘阵中可用的i o 资源是变化的,虚拟盘阵应该对这种变 化具有适应性;应用程序的i o 需求是不同的,为了对应用需求保持可满足性, 虚拟盘阵要具有可扩展性;不同的i 0 负载具有不同的特点,不同的特点要求的 操作优化方式不同。分布式并行i o 的动态特性,要求虚拟盘阵具有自适应性和可 扩展性,并能针对动态性进行i o 优化。 3 异构1 蚓【1 3 9 l :集群系统中的i o 设备往往是异构的。不d 3j - 一家的设备性能 不同,即使同一个厂家不同型号的设备,其性能也不同。随着技术改进速度的增 快和集群规模的变大,集群系统中i o 设备的异构性更趋明显。在构建和配置集群 虚拟盘阵系统时,必须面向设备异构性特点进行优化。 4 并发h 8 1 【i l l l 【1 3 8 l :虚拟盘阵是通过设备的并行工作提高性能。i o 请求必须 分散到系统的设备上并发执行,才能减少请求的执行时间。因此如何充分发挥系 统的并发性,是虚拟盘阵的关键问题之一。 5 同步:在虚拟盘阵中,各设备的工作是异步的。一个请求被分割成小请求 由不同设备并发执行时,必须通过软件让这些设备“同步”,使得该请求能快速执 第l o 页 国防科学技术人学研究生院学位论文 行,并且不至于因为其中一设备对请求的执行而影响整个请求的正确性。 6 高可靠高可用4 8 l :可靠性问题的提出是因为每个设备都有可能失效,集群 中的结点也有可能失效。当结点出错或者设备出错时,虚拟盘阵能通过相应手段, 对数据进行恢复。从用户的角度,虚拟盘阵要持续不断地提供高性能i o 服务,达 到数据高可用。 7 负载平衡 1 0 0 】【1 3 5 :虚拟盘阵是一种并行系统。为了避免某个结点或资源的 负载过重,影响请求响应时间和系统利用率,虚拟盘阵必须研究和设计良好的负 载平衡机制,以充分发挥系统的潜能。 8 数据一致性【4 8 】:在分布式系统中,对虚拟盘阵上嗣一个块数据,如果有多 个请求同时对其进行修改,或者有的请求是进行修改而另外请求是对该数据进行 读取,就存在一致性问题。操作的一致性直接影响到数据的正确性。 9 网络拓扑:虚拟盘阵通过网络实现分布式设备的并行协同工作。当今集群 的网络拓扑结构多种多样。不同网络拓扑的内部处理方式不同,相应的优化方法 也不相同,获得的网络性能也就不同。 上述关键问题中,通过单系统映像技术,透明性问题得到了较好的解决:通 过信息冗余技术,数据的高可靠和高可用得到了支持:通过锁致性协议,一致 性闯题能得到解决;采用同步锁机制进行控制能保障分布式设备间的同步;当今 网络技术发展很快,网络传输时间是微妙量级,而磁盘设备i o 操作的寻道和旋转 等访问延时是毫秒量级,在整个远程的i o 操作时间中,网络拓扑带来的影响是次 要的,从而网络拓扑问题得到了缓解。动态性、并发性、对异构的支持和负载平 衡问题,人们正在进行研究并已取得了一些成果,但仍存在许多不足。具体的相 关工作将在后续章节中针对性地进行介绍。 1 4 主要工作与创新 本课题来源于国家杰出青年科学基金项目,该项目的主要研究内容是可扩展 并行分布操作系统与系统软件优化技术。作为该项目的一个组成部分,本课题针 对并行分布操作系统中单一i o 空间管理及其优化技术进行研究。动态性和异构性 是当前分布式系统的鲜明特点。本文重点是针对虚拟盘阵的动态性、并发性和异 第l i 页 国防科学技术人学研究生院学位论文 构性进行深入研究。其主要创新性工作体现在: 第一,针对集群系统i o 资源的分布化和多样化,本文提出了动态异构虚拟盘 阵系统的概念。集群i o 子系统面临易使用、易扩展和高可用等要求,本文提出动 态异构虚拟盘阵系统的概念,旨在把异构的、分布式的i o 资源,组织成具有并发、 层次、动态、异构、容错、透明和拓扑结构无关等特性的i o 予系统。 本文这一部分的研究工作在计算机研究与发展2 0 0 2 年和2 0 0 3 年增刊上分别 发表了两篇文章,题目为“动念海量存储系统”和“集群环境中i o 系统新结构的 研究”,并在普通核心刊物上发表文章一篇,题目为“高性能动态虚拟盘阵系统结 构”。 第二,针对动态异构虚拟盘阵系统的磁盘设备并行性,本文提出了基于i o 请 求并发度指导的盘组划分策略。首先,本文研究了确定请求在盘组内并发度的 r f b o 方法,其中r 代表请求特征( 主要指请求长度) ,f 代表描述盘组设备服务 请求的数据准备时间函数,b 代表设备的带宽,o 代表系统对设备请求分割处理的 丌销。然后,根据盘组负载的并发度去选择恰当数目的磁盘设备构建盘组( 在重 新组织过程中对盘组现有的配置进行拆分与合并) ,使盘组的设各数目接近i o 请 求的并发度。为此,本文给出了设备重组的并发度最大满足与最小满足算法。对 系统进行盘组划分有利于保障数据的可靠性和可用性。并发度指导的盘组划分策
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全环保试填空题库及答案解析
- 模拟法庭实训教学方案设计
- 墙砖施工方案道客巴巴
- 示范区幕墙施工方案
- 口才节目编排方案讲解
- 上消化道出血的护理题库及答案解析
- 工业设备自动化控制方案设计
- 剪板工安全培训试题及答案解析
- 如何做好护理教学组长工作
- 引水隧洞工程建设详细方案
- 人教版小学三年级美术上册全套课件
- 彩钢大棚钢结构施工组织设计
- 《啤酒品牌的营销策略以青岛啤酒为例(论文)》
- 舞蹈鉴赏课件
- 沥青路面施工方案61841
- 学校体育学(第三版)课件第八章体育教学设计
- 中国海洋大学《海洋生物资源与环境调查实习报告》
- 《中外美术史》课件1中外美术史.1(原始社会)
- 刺梨产品之养生有维系列简介共26页课件
- MPA、公务员必修课《公共政策》课件: 政策制定
- 大学物理高斯定理课件-英文版
评论
0/150
提交评论