




已阅读5页,还剩50页未读, 继续免费阅读
(计算机系统结构专业论文)基于vi协议的高性能网络存储系统研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 = = = = = ;= = = = = = = = = = = = = = = = = = = = = = = = = 一 摘要+ 信息技术的快速发展,对存储系统的容量和带宽都提出了更高的要求,单磁盘已经 远远达不到应用的要求,分布式网络存储系统已经成为存储技术发展的必然趋势。 通信性能是影响分布式网络存储系统性能的主要因素之一,用户级通信技术熊够充分 发挥高速网络的硬件性能,减少数撮跨贝抛改、降胝软件开销,明显改善带宽豇| 延迟,为 分布式网络存储系绕陛能的提高开辟了新的途径。设计并实现个面向分布式网络存储系 统的通信库,不仅可以改善系统的通信性能,同时也使得系统的并行计算性能得到改善, 从而十分显著地提高了分布式网络存储系统的整体性能。 v i ( v i r t u a li n t e r f a c e ) 仂议作为种广泛应用于集群计算环境下的轻量级通信协议, 已经在实践中证实了与传统t c p i p 协议相比通信性能上的优势,将y i 运用到存储系统中 国内外也有类似的工作,但还没有个完整的系统原型。v i s a ( v i r t u a li n t e r f a c es t o r a g e a r c h i t e c t u r e ) 就是在基于国内外研越础上,充分利用实验室已有的网络磁盘阵列技术 思想,提出的种基于v i 的分布式网络存储系统方案,并在l i n u 】【环境下初步实现了v i s a 的系统原型。 根据对v i s a 系统原型的i 贯憾络果分析,i o 性够障l 基于t c p i p 的网络存8 蕾系统相比 得到了显著的提高,这说明,v i 不仅仅可以运用到集群环境中的并行计算,同样也可以运 用到分布式网络存储系统环境中的数据存储应用。 关键词:虚拟接口,模块化虚拟接口结构,虚拟接口存储系统结构 + 本项研究工作受国家自然科学基金( 6 0 2 7 3 0 7 4 ) 和湖北省杰出青年基金资助 华中科技大学硕士学位论文 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c j - m o i 0 9 3 7 ,t h e ma r em o r ea n dl n o r eh i g h r e q 血= m c m t f o rs t o r a g eb a n d w i d t ha n d c a p a c i t y h o w e v e r , i ti si m p o s s i b l ef o rs i n g l ed i s kt os 血s 黟 t h e s er e q u e s t s ,t h e n , d i s t r i b u t e dn e t w o r k s t o r a g es y s t e m h a sb e c o m ea ni n e v i t a b l et r e n d o f s t o r a g e t e c h n o l o g y t h ec o x n m t m i c a t i o n p e r f o r m a n c e i st h eo n eo f p r i m a r yf a c t o r sw h i c ha f f e c tt h e p e r f o r m m l o e o f d i s t r i b u t e ds t o r a g es y s t e n = lu s e r - l e v e lc o m m u n i c a t i o n p r o t o c o l c a l lm a k ef u l lu s eo f t h eh a d w a l 冶 p e r f o r m m c eo fh i g hs p e e dn e t w o 啦w h i c hc a nr e d u c et h ed a t a - c o p yt i m e sa n dd e p r e s st h e s o f t w a r eo v e r h e a d , a n dc a l li l 聊v et h eb a n d w i d t h 舡d1 a :呦地m 趣k 吼mw h i c h p r o v i d e an 胛 w a y t oi m p r o v et h e p e r f o r m a n c e o f f i c ed i s m t o u t e ds t o r a g e 姆蚍d e s i g n i n g a n d 近暌印1 e 删氅a f i g h t - w e i g h t e o m m m a i c a t i o n h b r a r y w h i c hc a t e r s f o r 矗o f a g es y s t e mi r n p r o v e b o t ht h e c o m m u n i c a t i o n1 ) e r f o a n a n c ea n dd i s t r i b u t e dc o m p u t i n gp e r f o n m n e e , w h i c hc 趾i l l l p l o v et h e e n t i r ep e r f o m m n c eo f t h e s t o r a g es y s t e ms i g n i f i c a n t l y v i p r o t o c o li s al i g h t - w e i g h tu s e r - l e v e lc o m m t m i e a t i o n p r o t o c o lw h i c h h a sb e e nu s e di nt h e c l u s t e rc o m p u t i n ge n v i r o m n e n tw i d e l y , w h i c hh a sa p p r o v e di t sa d w n t a g e c 0 咖p 缸e dt ot c p i p p r o t o c o lp r a c t i c a l l y 1 h e ea r e 蛐es i m i l a r p r o j e c t sw h i c h 堍v il 彻o t o c o lt os t o r a g es y s t e m , h o w e v e r , m 日i sn o t 锄i n t e g r a t d ts y s t e mp r o t o c o lu pt on o w v i s a ( v m m li n t e r f a c es t o r a g e a r d l :i t e c a t r e ) p r o v i d e sa l l e w d i s t n q x x t e ds t o r a g es y s t e m h e m e b a s e dv p r o t o c o l w h i c h t a k e f u l la d v a n t a g eo f n e t w o r kr a i d t e c h n o l o g yo f o u l l a b o r a t o r y , b a s e do nd o m e s t i cm a do v o l s e , q b r e s e a r c h , a n d h a v e i m p l e m e n t t h es y s t e m p r o t o c o l o n t h e l i n u x p l a t f o r m i nt e r m so ft h et e s t i n gr e s u l t so fv i s as y s t e a n , 吐抢i 0p c d 0 r 黜eh 勰as i 即嫡c a n t i n - h o r o v e m e n t , w h i c ha l y p i o v et h a tt h ev ip r o t o c o lc 缸b e u s e di nt h ed i s m b u t e ds t o r a g es y s t w a e i l v i n m m 廿】ta f tt h ec l u s t e r e o m p u l i n g k 吖w o r d s :v l , m 丸v i s a + t h er e s e a r c h i ss u p p o r t e d b y n a f i o n a l n a t u r a l s c i e o z e f o u n d a t i o n ( 6 0 2 7 3 0 7 4 ) m a d h u b e i p r o v i n c e e x c e l l e n t y o u t h f o u n d a t i o n u 独创性声明 本人声明所里交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期:洳d q 年岁 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被奄阅 和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索可阻采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于, 不保密囱。 ( 请在以上方框内打“。) 学位论文作者签名:鸟毅 日期:抛u 年 月7 日 指导教师签名:。:,;孑乎 日期:洲年f 月7 日 0 凡口口 痧 毒 华中科技大学硕士学位论文 1 引言 本章首先介绍了虚拟存储的相关研究概况,指出了研究改进网络通信协议对于提高虚拟 存储系统性能的必要性,介绍了常用的几种用户级通信协议和目前已有的虚拟存储产品,并 对全文组织结构进行了说明。 1 1 基于网络的虚拟存储及通信协议 随着信鼬数字化的深入发展,数据存储的需求日益增长。存储虚拟化带给我们最直接的 益处就是,提高存储利用率,降低成本,简化存储管理,而基于网络的虚拟存储技术将成为 未来的一种趋势,它的开放眭、扩展陛、管理性等方面的优势将在数据量集中、异地容灾等 应用中充分体现出来。 。 虚拟存储是康柏公司早于2 0 0 0 年6 月提出的概念,f 嘣f 称之为v e 鼯a s t o r ,那境界是存 储领域的“共产主义”:消除不同存储系统之间的界限,理论上网络的所有存储资源都可以虚 拟到一个“存储池”中统管理,就像管理块硬盘叫阵。这样的结果是简化了管理、增加 了系统的吞吐量、降低了成本以及增加了扩展的方便性。v e r s a s t o r 推出以来,得到了包括m m 、 e m u l e x 、m e d a t a 等8 家公司的支持。 、 今天,虚拟存储技术和产品已经很多,大致分为基于网络的虚才荽懦稚技术、基于主机的 虚拟存储技术和基于存储设备的虚拟存储技术三种。其中,基于网络的虚拟存储的技术,与 基于主机的虚拟存储技术和基于存储设备的虚拟存储技术相比,以其兼容性、扩展性、管理 性、灵活| 生、可用性、安全性方面的优势,受至i j 广泛的重视,具有极其光明的应用前景。 基于网络的虚拟存储的技术般分为两种方式,种是“o u t - o f - b a n d ”方式,虽然,这 种虚拟存储技术在i t 界已经风闻几年,但未见实用的产品投入使用,在此,不作迸步讨论。 另种称之为“i n - b a n d ”方式。所谓i n - b a n d ,是指负责虚j 堇i 存储管理和控制的设备被置于 网络系统的传输通道t 。从结构看,虚扰i 存储的控制平台啦i 于应佣朋痨p 器和存储设备之间, 应用服务器和存储设备只存在逻辑匕的关联,而这种关联又受至嗌獭【存储平台的控制和管理, 避免了各服务器厂商和各存储厂商的设备互操作产生的兼容问题。此外,在基于网络的虚拟 存储中,数据存储的管理从匣用服务器层转移到虚拟存储管理层,降低了数据管理的投入成 华中科技大学硕士学位论文 本。 所有基于网络的虚拟存储技术都支持多种数据传输方式,如f c ( f i b r ec h a n n e l ) ” 、 s c s i ( s m a uc o m p u t e rs y s t e mi n t e r f a c e ) 3 4 1 等,可以将不同1 t 厂商、不同设备品牌、不同连接 方式的磁盘阵列组成一个虚拟的存储池,并且按照应用系统的需求为各个应用服务器配置数 据存储的虚拟存储空间和数据传输通道,并且可以根据应用的变化,在线调整虚拟存储空间 和数据传输通道。 基于网络的虚拟存储技术支持多种网络传输协议,如f c 协议和p 协议等,既可以将虚 拟存储池的存储空间映射给网络上的应用服务器使用,也可以允许客户机通过网络文件共享 协议或者文件共享软件实现数据共享服务。这里所说的网络包括i 。a n uo c a l a r 鼢n 咖哪k ) 和 w a n ( w i d ea r e a n e t w o r k ) 。所以说,基于网络的虚拟存储又可以视为网络存储的种扩展形 式。 将虚拟存储的管理控制建立在网络架构上,不仅仅拓展了数据传输方式和加强了存储空 间管理,而且,还可以把些网络技术经过改造引入存储管理系统。w 曲缓存器和网络高速 缓漆器在p 网络数据传输中,已经放证明具有明显的i 姗传输加速作用。磁盘阵列的缓存在 决定磁盘阵列i o 性能上有重要作用,但是价格昂贵。基于网络的虚拟存储可以在虚拟存储 控制平台上扩大缓存容量,投资则要节省很多。网络中的带宽q o s ( q i l a l 时o fs 刊嘲即 管理,使得网络资源的利用率提高,网络服务的水平等级化。基于网络的虚拟存f ;螽j 豆过虚拟 存储控制平台对存储系统的总带宽进行管理,将应用服务器按照匣用的重要性分为不同的 保障等级,保证大数据传输应用服务的i 性能,限制非关键应用服务器对存储系统加资 源的占用。疋网络安全设旌保证用户的数据访问是可认证和可控制的。在普通s a n ( s t o r a g e a r e a n 出峋岫删架构下,多台服务器共享的存储系统对数据访问的控制相对简单,安全陛饺 低。基于网络的虚拟存储引入网络安全的设计理念,通过安全认证手段加强各应用服务器专 属数据的安全睫。 虚拟存储的控制平台可以在网络层进行数据的存储管理,如m i r r o r i n g ,s n a p s h o t 、d a t a b a c k u p 、d a t ar e p l i c a t i o n 、d a t ad i s 扛i b u f i o n 等。采用基于网络的虚拟存储系统,用户不需要 花巨资购买具有多种数据管理功能但价格昂贵的高端存储服务器,也不用担心数据存储管理 华中科技大学硕士学位论文 对应用服务器的资源占用造成服务质量的下降。 i n - b a n d 方式的虚拟存储系统,从结构上看,虚拟存储的管理控制平台位于应用系统与存 储系统之间,有可能带来单点故障造成整个系统瘫痪的风险。所以,目前投入使用的i n - b a n d 方式的黼储系统绷了高可用技术,如双机h a ( h i g ha v 间曲i l i 酬、多对组合的双机 h a ,或者控制平台n + 1 的高可用配置。随着虚拟存储技术的发展,i n - b a n d 方式的虚拟存 储控制平台将不再是软件与硬件的简单组合,而是一个崭新的功能固化的产品。 影响虚拟存储系统性能的一个关键因素就是网络通信性能。传统的t c p i p 协议p 1 1 是个 通用的分层的网络协议,数据报从用户层,网络层,链路层到达物理层。随着网络技术的快 速发展,千兆以太网已经成为主流网络平台,数据的网络传渝时间有了数量级的减少,那么 由于操作系统的干预和分层的数据移动所带来的软件协议开销所占整个数据传输时间的比例 也就相应增加r 7 】,网目恿过软件处理t c p i p 数据流,这给系统带来了庞大开销。系统开销最 大的三方面是数据拷贝、协议处理和中断处理。由于应用程序的每次网络i o 操作产生的数 据包处理量急居增加,这给服务器的中断任务带来了沉重负担。为了发出事件通知,又需要 激活硬件中断线,这对服务器来说同样是个负担。比妇说,典型的6 4 k b p s 应用程序向网络 发送写数据任务时,为了把数据分割成个个以太网数据包,并目处理发来的应答信号,系 统和普通网卡之间至少会触发6 0 次中断事件,这就带来了庞大自睁议处理开销和较高的中断 率。虽然操作系统的某些功能能够减少中断次数,但无法减少服务器到网卡的每次事件处理 量。为了减少协议的软件开销,也就产生了很多新的网络技术。 其中之一就是由特定的软件和集成的硬件组合而成的、一种称之为t o e ( r c po f f i o a d e n g i n e ,t c p 负荷缓解引擎尸1 的技术,它能缓解服务器的处理负荷。t o e 技术对t c p i p 堆 栈进行了软件扩展,使部分t ( m 口功能调用从四u 转移到了网卡匕集成的t o e 硬件。 n i c ( n e t w o r k i n t e r f a c ec o n t r o l l e r ) 改变了系统处理模式:由每个以太网包触发一次事件,改为 应用程序的每次网络y o 操作触发一次事件,这就大大减轻了系统的网络处理负荷。5 4 k b p s 的应用程序写操作成了一次数据通路卸载事件,包处理工作则全部交给n i c ,以此来减轻主 机的中断处理负荷。由于应用程序的每次网络l 操作相当于在线路上同时传输多个包,n i c - 因而能够发挥最大效率。这种方法使操作系统得以把t c p i p 数据流全部卸载到n i c 的专用 华中科技大学硕士学位论文 硬件上,服务器只负责t c p i p 控制决策。基于数据通路卸载架构的这一方案得n t 大多数操 作系统厂商的欢迎。 另外的类技术称之为用户级通信协议【阍。用户级通信方式来自于这样的假设:操作系 统是 氐效率的。在通信路径t 将操作系统的干预最小化,通过允许直接访问n i c 寄存器和存 储区域,避免系统调用,从而让应用程序和互连网络结合更紧密。这种方式来源于f - b u r 1 q 的思想,外内核操作系统结构也是如此。事实上,用户级通信结构也利用了与操作系统微内 核相同的基本思想,也就是说,将操作系统服务挪出内核之外。效9 2 _ a b 的个主要问题是 提供对通信设备的“直接访问”,并且不违反操作系统保护模型。 用户级方式更适合在更高性能上的互连结构上使用,这是因为更高端的通信设备据有片 上可编程的处理器,可以运行复用佑驴代码,其次在用户进程和网- n - e q 牛2 问的传统操作系 统内核仲裁在采用快速l a n 硬件时才成为种通信瓶颈。 l _ 2 用户级通信协议 目前已有的用户级通信协议主要有以下几种: 1 2 1 b m 在用户级消息传递系统领域,最新的成就就是在运行l i n u x 的p e n f i u m p c 组成的m y r i n e t 网络上实现并行基本接口b i p ( p a r a l l e lb a s i ci n t e r f a c e ) ( 1 7 1 。b i p 提供了阻塞和非阻塞的通信原 语,以及个根据集翎西信模式实现的发送接收范例,除了很短的消息以外,它们是用缓存 模式来管理的。g y r i n e t 硬件保证了数据以极低的出错率进行有片砖输,通过反压: 芝蔷空制数据 流。 b i p 通过透明的将消息分段或分组而晒禹信路径流水化,分组的大小依赖于总的消息大 小。除了大量优化,b i p 还通过消除n i c 的受保护复用而获得了最优性能。b i p 可以提供原 始m y r i n e t 带宽的9 6 ( 1 2 6 m b s ) ,单向延迟时间非常f 氐( 4 3 u s ) 。 1 2 2 快速消息f m f m ( f a s tm e s s a g e ) t 1 ”是一个类似于活动消息的系统,i 垂彳= y t - m y r i n e t 的集群,提供了 带有流控串怖分组重传的可靠而有序的消息传输。f m 只能以单用户模式工作,m y r i n e t 适配 器提供了酵洽处理撇为l a n a i ) ,它能够镐程在多个进程之间复用设备。f m 的i 醋陛能与 原始m y r i n e t 硬件的性能还有很大差别。 4 华中科技大学硕士学位论文 1 _ 2 3 惠普活动消息h p a m h p a m ( h p a c t i v em e s s a g e ) f 1 9 是最早的用户级通信系统之一,它是实现在用f d d i 相连的 h p 9 0 0 0 7 3 5 工作站网络上的活动消息。f d d i 接口被连向h p 工作站的高速图像总线,而不 是i o 总线,这导致了较低的延j 1 4 5 u s ) 和较好的渐进带宽( 1 2 m b s ) 。 1 2 4 a t m 上的u - n e t 最著名的用户级访问方式代表就是u - n e t ( u s e rl e v e l - n e t ) 2 0 1l 筝ja t m ( a s y n c h r o n o u s t r a n s 衙m 0 d e ) 版本。有了u - n e t ,用户进程可以对网络设备进行直接的受保护的访问,不需 要虚拟化。互连结构被虚拟化为一系列的端点,个端点就是内核内存缓存,在加上为主机 适配器同步而设的个发送队列和接收队列。端点缓存被用作发送锫撒操作的中间存储,直 接对应于n i c 发送偌敝f i f o 队列的部分。操作系统的功能被限制于将个或更多这样的 端点通过特定的系统调用重映射到用户进程的地址空间。在端点重映射后,进程被赋予到适 配器发选镁收f i f o 指定部分的直接的、映射到内存的、受保护的访问权,不需要更多操作 系统的干预。i - n c t 获得了非常接近原始1 5 5 m b s 的a t m 硬件的通詹陛能( 单向延迟4 4 5 u s , 最大吞吐量1 5 m b s ) 。 1 2 5 虚 以接口绨带狮a ) 虚拟接口结构( a 尸蠲是由c o m p a q ,h t e lm i c r o s o f t 付出巨大努力提出的,可以认为 是将用户级通信结构标准化的首次尝试。v i a 基本上指定了_ :耐啧恿信结构,目标是让s a n 成为高带宽、低延迟、极f 氐出错率、可扩展以及舸用的互连结构。v i a 在快速以太网络上 的性能参数非常好( 单向延迟2 3 u s ,渐进带宽达到1 1 9 m b s ) 。其中协议作为被业界广泛使 用的一种轻量级的用户级通信协议,在集群计算中得到了广泛应用和认可,对的介绍将 在下一章中详细阐述。 1 3 虚拟存储产品 虚拟存储产品作为个独立的产品类别被提出已经有3 年多的时间,虽然至今虚拟存储 技术已经发艮成为一个包罗万象的技术门类,但其最初产生时主要是针对存储管理的需求而 发展的。简单的说,当初的虚拟存储技术应该归属存储管理范畴,是存储管理的个子集。 基于网络的虚拟存储技术是以软件为主导的存储技术,目前,已经见于市场并且实用案 例最多的有三家,分别是d a t a c o m s a n s y m p h o n y 、f a l c o n s t o r i p s t o r 、v e r r r a s s e r v p o i n t f o r 华中科技大学硕士学位论文 s a n 。 1 1 31d a t a c o m s a n s y m p h o n y s a n s y m p h o n y t “嘞,f 牛是吟企业级的开放存储网络平台,它的主要软件特征和可选项如 r : 核心功能: 非破坏性容量分配 安全灵活的磁盘空间提供( 拒绝非授权的访问) 设备、协议和不可知网关的存储网络管理 块级磁盘虚拟化 网络范围的读写c a c h e 协议跨接( 例如光线通道到s c s i ) 集中化管理特征 来自于一个中央控制台的统管理 灵活的存储域 可扩眨的i o 监视工具 完整的网络发现和诊断工具简化了配置并的酆罹离潜在的问题 可选特征( 每个存储域节点) 动态网络管理卷,对客户娴熟最大可访问地址磁盘,当仅仅消耗需要的物理空间 本地和远程的数据复制 卷级的时间点快照 客户端特征 居于主机的可变路径驱动确保影像数据的路由变化变化 客户端块级缓存提高i o 性能 1 3 2 f a l c o n s t o r p s 幻r i p s t o r 是f a l c o n s t o r 公司的个开放的存储网络体系结构软件工具集,可以消除存储网络 中的复杂生和高昂的代价,并且最大化了数据的可用性和可靠性。 i p s t o r 高级开放技术特征: i p s t o r 能够使得两种存储家族无缝共存( s a n 和n a s ) 任意点到点的连接( 光纤通道,i b i s c s i ,a f s ,n f s 等) 智能化存储网络 有一个单一的易用的移动的j a v a 控制台集中化管理整个存储网络和存储服务 6 华中科技大学硕士学位论文 数据的高可用性,不存在单一失效点 存储卷的动态扩展 快速备份和回复 端到端的安全性 1 33v e r i t a ss e r v p o m tf o rs a n v e r l t a ss e r v p o i n tf o rs a n 虚拟化异构存储,允许1 t 管理员把他们的存储设备作为一 个逻辑存储池,而不是独立的设备。 s e r v p o i n tf o rs a n 使用v e r l t a s 的卷管理器和集群服务器技术,提高了系统的功能、可 用性和健壮陆。卷管理器技7 | t 提供了已证实的逻辑卷管理能力,s e r v p o i n t s a n 通过使用l u n 级联,镜像和分块特征而具有了更灵活的卷配置,这些特征使得管理 、员规定存储服务以 匹配他们应用的商业需要。v - e r i t a s 的集群服务器及时提供了企业级的高可用性特征, s e r v p o i n t 幽n 服务器集群能配置以防止整个f o 路径e 的失效。 1 4 文章的组织结构 本文共分为六章。 第一章给出了虚拟网络存储系统的概念,著分析了稠用户级通信协设提高网绍性麓对 改进虚拟网络存储系统的意义,介绍了已有的虚拟网络存储产品。 第二章介绍了v i s a 原型所采用的用户级通信协议v i 的基本概念并分析了其特点。 第三章至第四章讲述了基于v i 的虚拟网络存储系统的系统结构、设许原理以及具体实 现技术。 第五章介绍了系统测试方法并对测试结果进行了分析。 第六章对全文进行总结并展望了未来工作。 - 7 。华中科技大学硕士学位论文 2 用户级通信协议 2 1 协议及其关键模块 体系结构结构友4 个翮珥牛组成:虚拟接口,完成队列,- v 7 提供者。消费者。v i 提 供者是由一个物理网络适配器和一个软件揍c 代理组成。消费者通常幽一个应用程序和一 个操作系统通信库组成。这些壶胖的组成如图2 1 所示。 图2 , 1结构模型 2 1 、1 虚拟接口 虚拟接口是种允许消费者直接访问提供者进行数据传输的机制。图2 2 描述了 一个虚拟接口。 图2 2s j l 控j , l l n 结构 华中科技大学硕士学位论文 一个包括了对工作队列:发送队列和接受队列。v i 消费者以描述符的形式在工作 队列上发出请求,发送或者接受数据。一个描述符是个内存结构,包括了提供者处理 请求所需要的所有信息,比如指向数据缓冲区的指针。v i 提供者异步的处理这些发送的描述 符,当完成时用个状态值标记他们。v i 消费者从工作队列中移走这些完成的描述符,并且 为后来的请求继续使用f 电1 门。每个工作队列都有一个相关联的门铃,用于通告网络适配器 个新的描述符已经发送到工作队列。门铃直接由适配器实现,不需要操作系统干预。 2 1 2 v i 提供者 v i 提供者是套软硬件部件,负责实现虚拟接口,它包括个网络接口控制器( r 、i i o 和 一个核心代理。 v in i c 实现了虚拟接口和完成队列,直接执行数据传输功能。v in i c 的设计并没有严格 规定。 核一0 代理是操作系统的个特权部分,通常是v in i c 制造者提供的。个驱动程序,负责 维护v i 消费者和v in i c s 之间的虚拟接口的建立和资源管理功能。这些功能包括了v i 的劬 建和销毁,v i 连接的建立和停止,中断管理,v in i c 使用的系统内存的管理以及错误处理。 v i 消费者使用标准的操作系统机制,比如系统调用,访问核心代理。核心代理通过标准操作 系统设备管理机制和v in i c 交互。 。 2 1 3 v i 消费者 消费者描述的是个虚拟接口的用户。当应用程序是通信服务集的最终消费者时,应 用通过标准操作系统接口例如s o c k e t 或者m p i 访问这些服务,操作系统工具集通常是由个 加载到应用程序空间的库实现的。 操作系统工具列核j 蚍理发出系统调用,在本地系统上创建个,并目连接到远程系 统的上,一旦一个连接建立,操作系统工具集直接对本地的发出发送或者接收请求。 操作系统通信工具集总是加载个库,抽象了底层的通信提供者的细节。 2 1 4 内存注册 大部分计算机系统都要求,用于保存消息的内存页面在网卡能访问他们之前必须被锁定, , 而且要由逻辑地址转换成物理地址。这些页面知道传输完成才能睇锁。传统的网络传输在每 9 华中科技大学硕士学位论文 次传输时都要作这些操作,这种处理方法对数据传输有很显著的开销。v i 体系结构要求在发 送数据之前标记用于数据传输的内存,仅仅由v i 提供者注册过的内存才能用于数据传输。这 种内存注册过程允许v i 消费者重用注册过的内存缓冲区,因此避免了重复的加锁和转换操 作。内存注册也从眭能关键的数据传输部分移除了这种处理开销。 内存注册使得v i 提供者能够在v i 消费者的缓冲区和网络之间直接进行数据传输,避免 了中间缓冲区的数据拷贝。而传统的网络传输通常要在用户缓冲区和中间内核缓冲区内进行 数据拷贝,数据拷贝和缓冲区管理是通信个大的开销部分,并且消耗了内存带宽。 内存注册包括了连续虚拟地址空间转换成物颤面的锁定,提供给v in i c 虚拟地址到物 理地址的转换,v i 消费者通过内存注册得到一个每一个注册内存区域唯一的旬柄。v l 消费者 可以通过虚拟地址和它相关联的句柄引用所有的注册内存。 2 1 5v i 连接和断连 v i a 提供了面向连接的数据传输服务,当个初始化创建时,它没有和任何一个其 他的相关联,一个必须和另外个建立连接才能进行数据传输,当数据传输完毕 时,相关联的必须与它断连。 连接 消费者向它v i 提供者发出请求,以连接其到远端的,提供者必须实现可靠 和健壮的连接协议。端点关联模型就是个客户机胡臣务器模型,服务器端等待到来的连接请 求,然后基于远端的属性要么接受或者拒绝它,图2 3 描述了这们丑程盼状= 态;变迁图。 服务器消费者向它的提供者发出一个c o n n e c t w a i t 请求,这们青求包括了消费 者可以接受的地址值,个消费者可以从任意的远程端点或者特定远程端点接受连接。 这个请求也包括了用于接收远端请求连接的信息的数据结构,同时j 蕾仟青求可能会指定 一个f i m e o u t 值。 在服务器消费者开始等待连接后,客户消费者向它的v i 提供者发出一个 嘶m o 弥e q l l e s c 请求,这个请求指定了本地稼越接的以及要连接的远端的地址数据结 构,它也指定了一个用于接收对应服务端信息的数据结构。 客户的c o n n o c 诹e q l 】e s t 可导致两种结果,如果指定的远端v i 不存在即不可达,提供 者会返回给消费者的个出错应答。如果指定的远端可用,服务器端的消费者 华中科技大学硕士学位论文 。2 = 2 2 2 2 = = 2 。2 2 = = = = = = = = = = = = = 一= = c o n n e c t w a i t 请求完成,同时关于客户端v i 的信息返回给服务器端v i 消费者和一个唯一的 连接标识符也被返回。 服务器端v i 消费者然后决定是否接收或者拒绝到来的连接请求。如果服务器愿意接收这 个连接,它必须为连接准备一个v i 。服务器可以从已经仓嵯的缓冲池中选择个或者创 建一个。然后它给提供者发出c o n n e c t a c c e p t 请求,指定到达的连接i d ,如果本地的v i 属性与远端的属性匹配,连接就会被建立,否则,c o n n e c t a c c e p t 误。 如果连接请求接收,客户消费者的c o n n c c t r e q u e s t 请求成功返回。 蜃备嚣进程寡p 诲霸 图2 3 v i a 端点连接过程 v i 失连 消费者给提供者发出d i s c o l m c c t 请求是为了断开个已经连接的v i ,失连请求将 导致所有端点上的描述符设置完成合适的错误位。 2 1 6 数据传输模型 v i 体系结构提供两种数据传输模型,1 ) 传统的发送接收模型。2 ) 远程直接内存访问 ( r d m a ) 模型。 发i 影接收模型 华中科技大学硕士学位论文 体系结构的发送接收模型遵从的是一个很容易理解的两个端点之间数据传输的模型。 这种模型中,本地节点上的消费者总是指定数据位置。在发送端,发送进程指定要发送 数据的内存位置,在接收端,接收进程指定要放置数据的内存位置。给定一个单个的连接, 总有一个对一的对应即发送端的发送描述符和接收端的接收描述符。 接收端的消费者总是往v i 的接收队列中预先发送一个描述符,发送端的消费者 然后才能在对应的v i 发送队列中发出消息。发道镁收摸型要求在数据传输完成时,通告两 端的消费者,这样才能保持数据同步。 消费者负责管理们圭接的流量控制,接收端的消费者必须在发送者数据到达之 前发送一个足够大的描述符,如果队列头的描述符不够大到处理进来的消息画猪没有描述符, 将发生一个错误。 r d m a 模型 在r d m a ( r e m o t e d i r e c t m e m o r y a c c e s s ) 模型中,数据传输的发起者指定数据传输的源缓 冲区和目的缓冲区,有两种r d m a 数据传输操作,r d m a 读和r d m a 写。 对于r d m a 写操作,v i 消费者在他的本地注册内存区域里指定数据传输的源和在远程 系统已经注册的远程内存区域数据作为传输目的地,r d m a 写可以指定为个缓冲区的收集 链表,当目的地是单个地址时,其虚地址是连续的。r d m a 写操作意味着远端的消费者 必须先与数据传输,通告r d m a 写操作的发起者目的缓冲区地址,并且缓冲区本身也允许 r d m a 写操作。远端的数据位置通过它的虚地址和相关联的内存句柄指定。 对于r d m a 读操作,消费者指定在远端数据传输的源和本地注册的内存区域进行数 据传输的目的地,r d m a 读操作的源必须是一个虚拟连续的缓冲区,而目的地可以指定为一 个缓冲区收集链表。r d m a 读操作意味着在远端的消费者必须先于数据传输前通告 r d m a 读操作的发起者其源缓冲区位置,而且缓冲区本身也要允许r d m a 读操作。远端的 数据位置通过它的虚地址和相关联的内存句柄指定。 r d m a 操作不会消耗远端的接收队列中的描述符,当请求完成时,也没葡夏告发送到远 端。 r d m a 写是v i a 要求的个特征,w p r o v i d e r 支持r d m a 读是可选的。个v i p r o v i d e r 应该提供一种机制来告诉消费者可以决定v i p r o v i d e r 是否支持r d m a 读操作。图2 4 描 华中科技大学硕士学位论文 述了r d m a 和发送接收的不同之处。 图2 4r d m a 和发送,按6 谱型比较 2 1 7 完成队列 完成请求的通告可以定向到基于每一个v i 工作队列的完成队列上,这种关联是v i 创建 时建立的。一旦一个v i 工作队列和个完成队列相关联,所有完成的同步都将发生在完成队 歹0 上,伴随着v i 工作队列的是通告状态由v in e 刁泌发生中断就可以放 完成5 侈0 里, 消费者在不用转换到内核就可以同步一个完成。v i 体系结构完成队列模型如图2 5 所示。 递交的描述符 0j 完成队列 l 来自与v 1 通告 h 卜 l 卜一 图2 5 完成队列模型 n i c 完成 华中科技大学硕士学位论文 2 1 8 可靠级别 v l 体系结构支持三种n i c 级的i 副言可靠级别:不可靠传输,可靠传输,可靠接收。所有 的v in i c 要求必须支持不可靠传输,对于可靠传输和可靠接收是可选的。可靠级别是的 一个属| 生,只有具有相同可靠级别的v i 才能建立连接,表2 1 总结了三种可靠性的特点。 表2i 司靠性保证 屙| 生可靠级别 不可靠传输 可靠传输 可靠接收 5 毁坏数据检测y e sy e sy e s j 数据最多传输一次 y e sy e sy e s 数据准确传输一次 n oy e sy e s 数据顺序保证 n oy e sy e s 数据丢失检测 n oy e sy e s l j 错误时连接中断 n oy e sy e s r d m a 读支持 n o o p t i o n a l o p t i o n a l r d m a 写支持 y e sy e sy e s i 请求( s e n d r d m aw r i t e ) 完 i n f l i g h t i n f l i g h t接收端也完成时 l 成时的状态 | 请求( s e n d i 山淞w r i t e ) 错 u n k n o w n , u n k n o w n 第一个u n k n o w n ,其 误时的状态它的不会传输 2 1 9 描述符格式 描述符是l i t t l e - e n d i a n 字节序,当体系结构不支持这种字节序时,就需要进行软件或者 硬件的转换。描述符是由段组成的,有三种类型的段:控制段,地址段和数据段。描述符总 是以一卟控制段开始,控相般包括控制和状态信息。对于r m d a 操作,地址段紧跟状态段, 这个段包括了进行e d m a 读写操作的远程缓冲区地址信息。数据段包括了进行发送、接收、 g d m a 读写的本地缓冲区地址信息,一个描述符可以包括多个数据段。发送接收描述符的 1 4 华中科技大学硕士学位论文 格式如表2 2 所示,r d m a 描述符的格式如表2 3 所示。 表2 2s e n d r e c e i v e 描述符格式 1 5 :1 41 3 :1 28 :1 17 :0 b y t eo f f s e t c o n t r o l s e g m e n tm a m o r y h a n d l en e x t d e s c r p t o r v i r t u a l a d d r e s s c o u n t s t a t u st o t a l1 g l l li m m e d i a t ed a t ar e s e r v e d s e g m e r i tl g i l lm e m o r y h a n d l e b u f f e rv i r t u a la d d r e s s 表2 3r d m a 描述符格式 1 5 :1 41 3 :1 28 :1 17 :0 b y t eo f f s e t c o n t r o l s e g m e n tm e m o r y h a n d l e n e x t d e s c r i p t o r v r t u a la d d r e s s c o u n t s t a t u st o t a ll e n g t h i m m e d i a t ed a t a r e 础r v e d r e s e r v e dr e m o t e m e m o r y r e m o t e b u f f e r v i r t u a l a d d r e s s h a n d l e s e g m e n tl e n g t hm e m o 毋h a n d l e b u f f e r v i r t u a la d d r e s s 2 1 1 0 描述符处理模型 数据传输请求是由描述符来描述的,描述符包括了所有需要处理请求的信息,例如传输 类型,传输状态,排队信息、立即数和个分散收集类型的缓冲区链表。 图2 6 描述了v i a 描述符处理模型,称为工作队列模型和完成队列模型。它
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 免疫疗法治疗靶点筛选-洞察及研究
- 纳米材料能量存储机制探讨-洞察及研究
- 2025年太阳能硅片硅碇行业光伏产业创新驱动与产业升级报告
- 基于2025年城市地下空间综合开发利用的地下轨道交通规划报告
- 养禽业经营管理手册
- 中级银行从业资格之中级银行业法律法规与综合能力强化训练模考卷附参考答案详解【考试直接用】
- 中级银行从业资格之中级银行业法律法规与综合能力综合检测题型汇编附参考答案详解【预热题】
- 综合解析四川遂宁市第二中学7年级数学下册第四章三角形综合训练试题(解析卷)
- 电竞公司加班调休处理细则
- 基于区块链的二手车交易智能合约平台开发-洞察及研究
- 2025年芜湖市鸠江区医院招聘16名工作人员笔试参考题库附答案解析
- T-CBDA 86-2025 建筑幕墙、采光顶及金属屋面工程质量验收标准
- 厨房消防安全培训
- 《海上风电场工程测量规程》(NB-T 10104-2018)
- 【公开课】北师大版四年级上册数学《乘法分配律说课》课件
- 广东省义务教育阶段学生转学申请表
- 挫折是成长的必修课主题教育PPT模板
- 德勤美团-中国医美市场趋势洞察报告-2021.01正式版
- 网络摄像机-模组接口规格书精简板
- 社工政策与法规
- 绿茶多酚及超级灵芝萃取物与预防癌症之关系博士
评论
0/150
提交评论