




已阅读5页,还剩57页未读, 继续免费阅读
(计算机系统结构专业论文)基于智能网卡支持的并行通信协议的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 目前,以s m p 服务器作为结点的机群系统被普遍采用由于单个结点上多个c p u 的使用,机群对结点问的通信带宽提出更高的要求虽然目前的高性能通信网络得到迅 速的发展,但因受物理硬件和i o 总线带宽等方面的限制,单套网络的性能仍无法满足 其需求,这使得并行通信技术具有重要的意义并行通信技术多种多样,其中以消息分 片技术为主当前并行通信中的分片机制主要是基于底层r m a 通信协议之上的,而 r m a 通信协议本身是面向大消息的,因此并行通信只适合于大消息。虽然也可将该并 行机制应用于中等长度的消息( 3 k 至1 6 k ) ,但由于r m a 协议中主机层握手的开销很大, 使得其性能提高非常有限,而中等长度的消息一直是众多应用程序的主要消息段,因此, 传统的并行通信协议依然无法满足目前的需要为了解决这一问题,本文引入了基于智, 能网卡支持的并行通信协议。 所谓基于智能网卡支持的并行通信协议,就是指消息发送过程中让网卡参与并行通 信处理,其实质就是对m p i 中的e a g e r 协议进行并行化。由于e a g e r 协议在发送消息前 并不知道接收端的缓冲区地址,因此,为了能够正确地进行消息重组,在实现并行时引 入了握手机制,通过握手返回接收端的缓冲区地址,从而可以根据该地址以及各消息分 片的偏移量确定消息在接收端的存放位置。本协议吸取了r m a 通信机制中主机层握手 的不足之处,将握手机制下移到网卡上实现,从而缩短了握手的过程,提高了并行通信 性能。 本文最后对基于智能网卡支持的并行通信协议进行性能评测。在网络通信性能上, 与b c l - 4 【4 l 】( 基于r m a 机制的并行通信系统) 相比,它提高了3 k 到1 7 k 范围的通 信带宽:在应用性能上,对不同的程序性能提高程度是不同的,最好的情况,如f t 程 序,该并行协议使执行时闻减少了9 0 。而b c i ,4 只减少了6 6 。此外,本文分析了 影响并行通信性能的主要因素,为以后的并行研究工作提供了重要的参考意见。 关键词:机群,s m p 机群,机群通信系统,并行通信技术,握手机制 垠卜智能州卡上打的并行通竹协度的 究 r e s e a r c ho f p a r a h e ic o m m u n i c a t i o np r o t o c o ib a s e do ni n t e l l i g e n c en i c s l i nj i ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db yp r o f m e n gd a n w i t ht h ei n c r e a s i n gd e v e l o p m e n to ft h ec l u m p s ,a n dt h ei n f i n i t ed e m a n df o r b a n d w i d t hb r o u g h tf o r w a r db ya p p l i c a t i o n s ,p a r a l l e lc o m m u n i c a t i o nt e c h n o l o g yi sm o r e m e a n i n g f u lt oc l u s t e r s t ot h i sd a y , ag r e a td e a lo fp a r a l l e lc o m m u n i c a t i o ns c h e m e sh a v e b e e n p u tf o r w a r d ,m o s to f w h i c ha i m e da ti m p r o v i n gc o m m u n i c a t i o nb a n d w i d t hb ys t r i p i n gs c h e m e u s u a l l y , t h es 研p i n gs c h e m e i sb a s e do i lr m ac o m m u n i c a t i o np r o t o c o l ,w h i c hi sf i t t e dw i t h l o n gm e s s a g e s ,n o tw i t hm e d i u mm e s s a g e s h o w e v e r , s t a t i s t i c a la n a l y s i ss h o w s t h a tm e d i u m m e s s a g e sh a p p e n e da tl a r g ei na p p l i c a t i o np r o g r a m sc o m m u n i c a t i o n t or e s o l v et h i sp r o b l e m , an e wp a r a l l e lc o m m u n i c a t i o np r o t o c o l ,w h i c hi sc a l l e dp a r a l l e lc o m m u n c a t i o np r o t o c o l b a s e do ni n t e l l i g e n c en i c s ,i sb r o u g h t u p b a s e do nt h ef o r m e rw o r k sd o n eb yo t h e r s t h i sd i s s e r t a t i o nf l r s t l yd i s c u s s e d1 1 1 ee s s e n t i a l i s s u e so fp a r a l l e lc o m m u n i c a t i o na n d i n v e s t i g a t e d t h e d i s a d v a n t a g e o f p a r a l l e l c o m m u n i c a t i o np r o t o c o l st h a te x i s t e d t h e nw ep r o p o s e dap a r a l l e lc o m m u n i c a t i o ns c h e m e b a s e do ni n t e l l i g e n c en i c s ,p r e s e n t e di t sd e s i g n e da n di m p l e m e n t a t i o ni nd e t a i l ,i n c l u d i n gt h e e x t e n d e di m p l e m e n t a t i o no f i t t h ee x p e r i m e n t a lr e s u l t ss h o w e dt h a tt h i si m p l e m e n t a t i o nh a saf a m o u sb a n d w i d t h p e r f o r m a n c ef o rm e d i u mm e s s a g e s ,s a t i s f y i n go u rd e s i g ng o a lb ya n dl a r g e f i n a l l y , w e c o n c l u d e dt h et h e s i sa n dt h ew o r kd o n eb yt h i sa u t h o r ,a n dg a v es o m ea s p e c t so fr e s e a r c h w o r kt h a tw em i g h td on e x t k e yw o r d s :c l u s t e r , c l u m p s ,c l u s t e rc o m m u n i c a t i o ns y s t e m ,p a r a l l e lc o m m u n i c a t i o n , h a n d s h a k em e c h a n i s m h 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同学对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:啐脊叁 日期:2 口。 4 l 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:桥叁导师签名 期:枷。皇、辞ti 恐一带i 二 第一章引言 在国民经济、国防建设中,存在许多具有广泛而深刻影响的领域,如天气预报,生 物计算,人体基因,石油勘探,等,这些领域需要规模庞大而复杂的计算,传统的v o n n e u m a n n 型单处理器计算机已远远满足不了它们的要求,因此,开发高性能计算机( h p c , h i g hp e r f o r m a n c ec o m p u t e r ) 已成为时代的需要。在众多的高性能计算机系统中,机群 ( c l u s t e r ) 以其卓越的性能价格比和良好的可扩展性成为这一领域中的主流平台 所谓机群系统,就是由若干台计算机( 结点) 通过高性能网络或局域网( l a n ) 连 接起来的计算机系统。机群中的每个结点均是一台完整的计算机,比如,s m p 服务器、 工作站或p c 机,可以独立工作【l 】。机群技术的发展不但为计算机系统的硬件设计指出 了新的方向,而且也为高性能计算机系统软件的设计方法带来了新的革命。对于机群系 统的研究已经成为高性能计算领域的研究热点,许多优秀的机群系统也随之建立起来 由于机群的高性能价格比,使得无论是大企业还是中小企业,都可以搭建自己的高性能 计算机,但机群本身也存在不足之处,即整机效率相对比较低。而造成这一现象的根本 原因是计算过程中结点间要进行比较频繁的通信,结点问的通信是由机群通信系统完 成。所谓机群通信系统,就是指连接机群各个结点的通信硬件( 包括网卡,网卡线和交 换机) 以及在其之上的通信软件,它的主要任务是为上层应用程序提供可靠的,有序的, 高效的通信服务 研究表明,机群通信系统是影响机群效率的关键因素,因此,为了提高机群性能, 人们在网络通信上进入广泛而深入的研究,并取得了相当的进展,比如q u a d r i c s 公司的 q s n e t 4 和m y r i c o m 公司的m y r i n e t 5 网络产品,以及后来达成的标准i n f i n i b a n d 3 9 。 人们除了推出自己的硬件设备时,也推出了相应的软件,这些通信软件不再采用复杂繁 重的t c p i p 协议,而是定义了简单的可靠性能协议,并将大部分通信操作移植到智能 网卡实现,从而大幅度地削减通信软件的开销,使其通信带宽接近了底层网络接口的上 限。然而,随着以s m p 服务器作为节点的机群系统被普遍采用,单个节点计算能力大 幅度提高,因此对节点间的通信带宽提出更高的要求。虽然目前的高性能通信网络得到 迅速的发展,但因受物理硬件和i o 总线带宽等方面的限制,单套网络的性能不能满足 星群系统( c l u m p s ) 对节点间带宽日益增长的需求。此外,应用程序对于机群系统性 能的要求也是永无止境的,对于在机群系统上运行的大量细粒度和中粒度应用而苦,机 群通信系统目前所能达到的性能水平还远远不够因此,迫切需要进一步的研究以突破 底层网络接口通信性能这一瓶颈。 为了进一步提高机群通信系统的性能,特别是寻求在通信带宽上的突破,研究者们 提出过多种解决策略,并行通信即是其中之一。所谓并行通信,就是使用多套网络实现 机群系统中各节点的互连,由于各节点问存在多条物理线路,其能很好地提高带宽性能 和整个系统的可用性同时,由于多套网络可以配置在不同的i o 总线上,并行通信可 以在一定程度上突破单i o 总线对带宽性能的限制。 目前国内外对于并行通信技术进行了多方面的研究,这些研究对提高机群通信能力 具有重要的意义。如,m u l t i m i ln e t w o r k s 技术【9 】,i pb o n d i n g 技术和b e o w u l f 系统中采 用的e t h e m e t c h a n n e lb o n d i n g 技术【4 6 】,等,但是由于当时的硬件环境,这些研究无法 建立在用户级通信协议之上,因而不能适应当前机群通信协议的发展趋势。后来,随着 托卜智能| t 畸卡上t j 的_ i r 通仁协l 王的埘,c 硬件的发展以及用户级通信协议的出现,在此基础上进行并行研究也展丌,如,【4 0 4 1 1 , 但是这些并行机制只适合于大消息,对中等长度消息的性能提高非常有限,难以满足广 大应用程序的实际需求。因此,虽然引入并行通信。应用程序并没有获得理想的性能提 高 综合以上因素,本文从应用程序实际需求出发,引入了基于智能网卡支持的并行通 信协议该协议以提高中等长度消息的通信性能为主要目的,其并行性对应用程序透明, 而对网卡非透明通过让网卡参与并行处理,可以充分发挥网卡在通信过程中的灵活性, 同时也可以减轻主机c p u 由于并行而带来的开销 最后,本文对所设计的并行通信系统进行了详细的性能测试,实验数据分析表明, 引入智能网卡支持的并行通信协议,能够很好地提高中等消息的通信性能,减少应用程 序的执行时间,从而使并行通信满足了应用程序的实际需求 本文共分六章,具体组织如下: 第一章( 即本章) 为引言部分,说明了本研究课题的重要性,对论文的目的、主要 工作和内容作了简要阐述,同时概括介绍了国内外相关研究进展。 第二章对机群和机群通信系统的发展与特点进行了较为全面的介绍,向读者简要评 述了若干典型的机群及通信系统,最后总结了它们的技术特点和发展趋势。 第三章详细介绍了并行通信技术,首先简要说明了其概念、意义和技术基础,随后 列举国外应用并行通信技术的若干实例并对其技术特点进行分类总结,然后以此为基础 分析了现有并行通信技术的主要特点以及其不足之处。 第四章引入了基于智能网卡支持的并行通信协议,介绍了该协议的基础平台( g m 通信系统) 的特点、软件结构和通信机制,随后分析并行通信协议设计中遇到的问题以 及相应的解决策略,最后给出实现方案。 第五章为测试部分,包括点到点通信性能测试、集合通信性能以及应用性能测试, 对测试数据的分析以比较为主。分析结果表明,在以往并行通信协议的基础上,引入基 丁:智能网卡支持的并行通信协议,能够很好地提高网络通信性能和应用性能。 第六章是对本文的总结和技术展望。 菜一帝押l 肝j 机群面f j 手镜 第二章机群与机群通信协议 本章对机群及其主要特点进行了概述性的介绍,并分析了几个比较典型的机群实 例之后,阐述了机群通信系统的特点,其中重点分析了当前处于主流位置的用户级通 信协议,并列举了采用该协议的具有代表性的机群通信系统最后总结它们的技术特点 和发展趋势。 2 1 高性能计算机的分类与发展方向 从1 9 4 6 年世界第一台数字计算机e n 队c 出现到现在的五十多年中,电子器件制造 技术的进步和计算机系统结构的发展极大地推动了计算机性能的提高在计算机从电子 管发展到v l s i 的四个阶段中,器件性能的提高使得计算机的处理能力飞速增长。目前, 器件的性能虽然仍在不断发展,但已难以满足计算的需求,因此,研究并行可扩展的计 算机体系结构成为提高计算机系统性能的一个重要途径 1 0 】。 在近十年中出现了许多不同的支持高性能计算的超级计算机系统【2 】。按照它们的处 理器、内存和连接方法来分类,最常见的系统包括: 基于分布存储的并行处理系统( m p p ) 共享存储的对称多处理机( s m p ) 致缓存不一致内存访问( c c - 兀m d a ) 分布式系统 机群 m p p 通常是指使用无共享资源结构的大型并行处理系统。它一般包括几百个处理单 元( 结点) ,结点问以高速内部互连网络连接。每一个节点都有各种硬件部件,但一般 来说包括一个主内存和一个或多个处理器另外,特殊的结点也可以有磁盘或备份系统 与之相连。每一个结点分别运行各自的操作系统 s m p 是一种支持两个或两个以上cpu 、以同步数据处理方式运行的计算机系统, 可将其视为一种共享一切的结构。在这种系统中,所有的处理器共享可用的全部资源( 总 线、内存和i o 系统) ,使用一个操作系统。 c c - n u m a 是可扩展规模的多处理器系统,是一致缓存不一致内存访问的结构。同 s m p 一样,c c - n u m a 系统中的每一个处理器都可以访问所有内存这类系统的名字 ( m n 订a ) 来自于访问最近和最远内存所需的时间的不一致( n o n - u n i f o r m t i m e s ) 分布式系统可被认为是由独立计算机构成的常规网络系统它们拥有多个系统界 面,每个节点运行它自己的操作系统,而且,分布式系统的每台机器可以是m p p 、s m p 、 机群或单个计算机。 机群是一群以网络技术连接起来的工作站或p c 机的组合。典型情况下,每个机群 埔卜智能阿卡是竹的并打通忙协z 的i ,仆, 节点是一台s m p 服务器、一台工作站或是台p c 计算机。更重要的是,所有机群节点 一起协同工作,如同一个统一的整合资源,所有节点使用单一界面 最初的多计算机系统多属m p p 类型【刀。这一结构曾在超级计算机市场上取得了很 大成功但由于m p p 通常采用专用部件,造成了其成本较高,标准亦难以统一。随着 近年来并行机规模的不断扩大,在进行系统设计时所需考虑的诸多因素中,性价比所占 比重越来越大因此,具有投资风险小、可扩展性好、性能价格比高,高可用性强、能 用性好、可继承现有软硬件资源以及开发周期短、可编程性好等特点的机群系统,已成 为高性能并行计算领域的主流体系结构。同时,网络时代为机群服务器的应用提供了广 阔的空间,在网络技术和应用快速发展的今天,作为网络核心的机群服务器的重要性日 益突出,机群服务器因此进入了技术、应用和市场互动并迅速发展的新阶段同时,r i s c 技术、网络技术和并行编程环境的发展使得机群系统这一新的并行处理系统正成为当前 研究的热点,使得机群系统这一并行处理的新的结构形式受到广泛的关注,国外许多大 学和计算机公司都在进行这方面的研究和开发工作 2 2 机群系统 2 2 1 体系结构 机群系统是互相连接的多个独立计算机的集合,这些计算机可以是单机或多处理器 系统( p c ,工作站或s m p ) ,每个结点都有自己的存储器,i o 设备和操作系统。机群 对用户和应用来讲是一个单一的系统,这样的系统可以提供低价高效的高性能环境来提 供快速可靠的服务,其一般结构如图l 。 图1 机群体系结构 机群系统包括下列组件: 高性能的计算结点机( p c ,t 作站或s m p s ) 4 铺一爷帆群。j 舸l 肝鹿t 系统 具有较强网络功能的微内核操作系统 高效网络,交换机( 如千兆以太网和m y r i n e t ) 网卡( n i c s ) 快速传输协议和服务 中间件层,包括: 一某些支持硬件( 如数字存储通道,硬件分布共享存储器及s m p 技术) 一应用( 如系统管理工具和电子表格) 一运行时系统( 如软件分布共享存储器和并行文件系统) 一资源管理和调度软件等 并行程序设计环境与工具,如编译器、语言环境,如并行虚拟机( p v m ) 和消 息传递接口( i v f l 。1 ) 等 应用:包括串行和并行应用程序 机群组建时应考虑下面的需求和功能: 较高带宽的网络以支持通信需求。 低延迟的通信机制 支持高带宽的多点传送通信方式。 自动恢复网络和结点错误的能力。 标准的低级原语支持通信、同步和时序。 异构的远程过程调用来隐藏体系结构、协议、和系统的不同性。 实时性能监视器。 可靠的批处理工作调度程序。 分布应用程序开发工具 支持传统的高级语言进行异构计算。 能够开发工作站机群的应用程序。 新的系统管理工具。 发展标准化以保护软件投资。 2 2 2 基本类型 机群系统可以按应用或结构进行分类 2 b ( 1 ) 按应用目标分: 高性能机群( h i g hp e r f o r m a n c ec l u s t e r ) 高可用性机群( h i 曲a v a i l a b i l i t yc l u s t e r ) ( 2 ) 按组成机群的处理机类型分: p c 机群 工作站机群 s m p ( 对称多处理器) 机群 j i l 卜智能州卡殳扎的并行通f 二协歧0 0 t i ( 3 ) 按处理机操作系统分: l i n u x 机群( 如b e o w u l f ) s o l a x i s 机群( 如b e r k e l e yn o w ) n t 机群( 如h p v m ) a 机群( 如m ms p 2 ) 数字v m s ( 虚拟存储机) 机群 h p u x 机群 微软w o l f p a c k 机群 ( 4 ) 按处理机的配置分: 同构型机群:所有结点拥有近似的构造和相同的操作系统 非同构型机群:所有结点拥有不同的构造和不同的操作系统 ( 5 ) 按处理机的位置和数量分 组机群( 结点数量2 - 9 9 ) :通过s a n s ( 系统级网络) 如m y r i n c t ,机群事实 上装入一个机箱中或存在一个范围之内。 部门机群( 结点数量几十或几百) 企业机群( 结点数量几百) ( 6 ) 按构筑机群的方式分为: 专用机群 非专用机群 高性能价格比是专用机群受到欢迎的特点 2 2 3 基本特征 机群系统之所以成为当前超级计算机的主流体系结构,主要在于它具有其它并行系 统所无法比较的优点,能充分满足人们对高性能计算机处理能力不断增长的需求。机群 系统主要特征有【l o 】: 好用性由于机群系统中每个节点都是传统平台,用户能在熟悉的成熟环境中开 发和运行他们的应用程序。平台提供了功能很强的工作站编程环境工具,能允 许大部分现有的串行应用程序无需修改便可运行 可用性传统的单一系统,如主机和容错系统依靠昂贵的定制设计来获取高可用 性;机群不使用定制组件,而是用廉价的商品化部件以提供含有大量冗余的较 高可用性。 可扩展性一个机群的计算能力随节点增多而增加。其次,机群的可扩展性是群 体可扩展性。因为是松散耦合,机群能扩展至几百个节点。 性能价格比机群能够在低成本的情况下获取上述优点。它采用大量商品化部 件,其性能和价格遵循摩尔定律,从而使机群的性能价格比增长速率快于其他 超级计算机系统 6 第一二帝机肘j 机甜洒伉系统 2 2 4 发展趋势 目前,s m p 结点机群已经成为机群系统的主流结构由于采用s m p 结点能够提供 更高的性价比,越来越多的研究都集中在s m p 机群系统上。比如近年来由美国加速战 略计算计划( 简称a s c i 计划) 引导研制成功的多个a s c i 机群系统【1 2 】【1 3 】中,除i n t e l 的a s c ir e d 外,其余a s c i 系统都采用了s m p 机群和n u m a 机群的体系结构。在机 群系统中,我们称这种多c p u 的s m p 和n u m a 结点为大结点( l a r g en o d e ) ,称大结 点机群的体系结构为a s c i 结构a s c i 结构是性能,价格比较好的体系结构,是今后几 年高性能计算机系统的主流结构 2 3 机群系统典型实例 2 3 1s g l 超级服务器 s g i 超级服务器 1 】有2 到8 个s m p 结点( 称为p o w e r n o d e ) ,每个结点是一个p o w e r c h a l l e n g es m p 服务器,它最多可达3 6 个m i p s r 1 0 0 0 0c p u 和1 6 g m 的共享内存 从总体看,该超级服务器拥有1 2 8 g m 的主存,4 g b s 以上的硬盘传输能力,2 8 t b 硬盘容量,而r a d 存储能力达1 3 9 2t b 。 该系统的结点是通过交叉h i p p i 交换机连接的,在最大配置情况下,对分带宽可达 1 6 g b s 。用户可以通过以太网从i n d yt 作站对其进行访问 2 3 2w o i f p a c k 项目 w o l f - p a c k 项目【l 】起于1 9 9 5 年后期,目的是为w i n d o w s n t 服务器开发出一个开放 的标准的机群软件,并将该软件命名为w o l f p a c k 。该软件具有以下独一无二的、具有发 展潜力的特征: w o l f p a c k 是一个开放的标准,为用户、系统生产商和第三方软件开发人员提供 一个开放的应用编程接口这使得应用软件、系统软件和机群硬件得到迅速的 发展 w o l f p a c k 适合于商用p c 机,也适用于基于i n t e r 的服务器平台、s c s i 存储总 线和标准网络,这将减少开发时间,降低成本,同时,也可以使用高性能硬件, 比如,低延迟的网络。 w o l p a c k 的长期目标不仅是为了提高机群的可用性,同时也为了提高可扩展、 可管理性,无论机群是运行在n t 还是非n t 操作系统。 w o l f p a c k 描述了一套用户可访问的a p i 接口、n t 机群支持软件以及机群解决方案: w o l f p a c k a p i :设计应用编程接口( a p i ) 标准和软件开发工具( s d k ) 的目的 7 堆卜智能l q 卡卫打的j l 行透f _ 协歧的川充 是使应用程序感知到机群的存在访问a p i 可以加速错误恢复、通知用户错误 事件、重新获得非标准资源以及监控复杂的故障。 n t 机群支持软件:该软件使得n t 服务器应用具有w o l f p a c k 兼容性,这意味 着w o l f p a c k 处理所有n t 服务器应用的基本错误恢复操作人们开发出动态连 接库( d l l ) ,该库可以通知机群管理员,同时也可以创建基本的心跳信号。 机群解决方案:w o l 审a c k 是分阶段开发的,早在1 9 9 8 年中期就对支持1 6 个结 点的机群进行b e t a 测试w o l f p a c k 除了支持i n t e l 系统外,还将支持a l p h a 、 p o w e r p c 、m i p s 系统。到目前,n t 服务器结构可支持3 2 路s m p 操作,w o l f p a c k 有望未来若干年支持3 2 个结点甚至更多 2 3 3h o ts t a n d b y 机群 对于h o ts t a n d b y 机群【l 】,通常只有主结点处理所有具有意义的任务。而s t a n d b y 结点虽然也在开机状态,并且还运行一些监控程序不停地检测主结点的运行状态,但它 并没有运行其它有用的任务主结点必须将数据拷贝到共享空间,以备出错时供s t a n d b y 结点使用。 当主结点出错时,运行的任务转移到s t a n d b y 结点,此时,s t a n d b y 结点变成了主结 点,而原来的主结点则处于维修状态。但维修好之前,故障恢复功能是不存在的 2 3 4 舢c p 的s c o r ec l u s t e r 项目 s c o r ec l u s t e r 系列【2 0 2 1 】机群项目是日本r w c p ( r e a lw o r l dc o m p u t i n g p a r t n e r s h i p ) 机构开发的一系列机群系统。目前其s c o r ec l u s t e rm e 系统采用的计算结 点为5 1 2 台n e ce x p r e s s5 8 0 01 2 0 r a - is e r v e r ( 双p e n t i u mi i i9 3 3 m h zc p u ,5 1 2 m b 内 存) 。其网络设备同时采用m y r i c o m 公司的m y r i n e t 2 0 0 0 ( 2 0 g b p s ) 系列网络设备和双 以太网卡设备( 1 0 0 m b p s ) 。系统软件方面,s c o r ec l u s t e r 以l i n u x 为基础平台,并在其 上开发了称为p m 的机群通信系统软件p m 亦采用了一种名为n e t w o r kt r u n k i n g 2 2 】 的以太网并行通信技术,其实现思想和b e o w u l f 的c h a n n e lb o n d i n g 技术类似。 2 3 58 0 r k e l e y 的n o w 项目 b e r k e l e y 的n o w 项目【1 7 】是用大量生产的商品化工作站和最先进的商品化网络构 件组建大型并行计算系统的典范为达到将分散的工作站结合成单一的系统,n o w 项 目包含了对网络接口硬件、快速通信协议,分布式文件系统,分布式调度和任务控制的 研究和开发【2 】 该项目以活动消息( a c t i v em e s s a g e ,缩写为a m ) 作为其基本通信原语a m 通 信是一个简化了的远程过程调用,可以在很多硬件中有效地实现。n o w 还包括一套低 勰二帝机i f1 j 机群通仁系统 延迟的并行通信原语:b e r k e l e ys o c k e t 、f a s ts o c k e t 、共享地址空日j 并行c ( s p l i t - c ) 和 m p i 。 此外,n o w 还以一套被称为g l u n i x 的u n i x 系统作为其全局操作系统,它提供了 透明远程运行、交互式并行和串行作业支持,以及负载平衡等功能。n o w 的机群文件 系统称为x f s ,作为一个无服务器的分布式文件系统,x f s 试图将服务器的功能分布到 客户机上,以实现低延迟、高带宽的文件系统访问能力。 2 4 机群通信协议 2 4 1 机群通信系统 机群高效通信系统是指连接机群各处理结点的通信硬件以及建立于其上的通信软 件,它为应用程序提供高效、可靠和有序的通信服务从硬件看,机群通信系统主要包 括高速互连网络和网络接口两个部分,其中,互连网络用于完成结点问消息包的传递, 一般具有低延迟和高带宽的特点,而网络接口则为结点提供一个与互联网络交换数据的 通道。从软件看( 图2 ) ,机群通信系统从下到上有四个层次:网络接口控制程序、网 络接口驱动程序、底层通信库( 又称基本通信库,通常与网卡控制程序和网卡驱动程序 合称为底层通信软件) 和高层通信软件网络接口控制程序用于将消息发送到网络上以 及从网络上接收消息;网络接口驱动程序用于对网络接口硬件的驱动以及通信资源的管 理和保护;底层通信库为高层通信软件提供一些基本的通信原语,如点到点的通信功能; 高层通信软件如m p i 和p v m 等则是利用底层通信库的基本通信功能,为应用程序提 供一个基于消息传递的并行编程环境。 应用程序 m p i p v m 和n x 等并行编程环境 基本通信库 网络接口驱动程序 网络接口控制程序 2 4 2 机群通信协议分类 图2 机群通信系统软件结构 机群通信系统是多种多样的,但它们采用的通信协议却是类似的。随着网络硬件设 备的发展,机群通信模式也经历了一系列变化,如,从“消息发送需要进行内存拷贝” 到“内存0 拷贝”,从“消息发送需要进入内核再到网卡空间”到“消息发送直接从用 户空间到网卡空问”,等通信模式的改变,使得通信协议也在改变 | i l 卜智能州卡上n 的i 行通信小议的研冗 根据消息发送是否需要进入内核,机群通信协议可分为三类:非用户级的,半用户 级的,用户级的。非用户级通信协议通常是基于t c p i p 协议进行通信的,消息发送过 程不仅要进入内核,而且存在从用户空问到内核空间的内存拷贝操作;半用户级通信虽 然要进入内核,但消息是直接从用户空间d m a 到网卡上的;而用户级通信。则是完全 不需要进入内核,也不存在内存拷贝 2 4 3 用户级通信协议 所谓用户级通信【2 6 】,其基本思路就是直接在用户空问实现通信软件,使得消息的 发送和接收等主要操作可以绕开操作系统核心,直接在用户进程和网络接口之间进行, 只是通信的初始化和结束处理等辅助性的操作仍需经由核心来完成,以实现必要的保护 机制图3 描述了用户级通信系统与非用户级通信系统的不同之处,图中的a ) 是非用 户通信系统的结构,所有的通信操作均要通过系统核心来实现;b ) 为用户级通信系统的 结构,用户进程无需经过核心,可以直接与网络接口交换信息。 基于上述思想,目前许多的并行系统都提供用户级机群通信,如t h i n km a c h i n e c m - 5 、m e i k oc s 2 、i b ms p 2 、c r a yt 3 d 、p r i n c e t o ns h r i m p 以及些工作站机群i 4 2 在众多的用户级机群通信系统中,e i c k e n 等人设计和实现的u - n e t 最具代表性,它通 过引入了e n d p o i n t 的概念,成功地支持了带保护机制的多进程用户级通信。 与非用户通信软件相比,用户级的通信软件由于通信时无需经过内核,因此可以很 好地避免消息在核心空间与用户空间之间的内存拷贝以及执行通信操作时进出核心的 上下文切换开销。 a ) b ) 岫鹄 黔一妒。 图3 用户级通信与核心级通信比较 1 0 幽注: 一、 岁用户进程 同o s 核心 l j 回网络接口 篇一辛机群j 目l 材通信系统 2 5 机群通信系统实例 当前,对高效通信系统的研究方兴未艾。各种高效通信系统层出不穷,它们中有很 多己成为比较成熟的商业系统,也有不少是带有研究性质的实验模型。它们的设计思想 和实现方案各具特色。但都朝着相同的方向发展,即,用户级通信技术。目前,采用该 技术的主要通信系统有: u - n e t 2 6 是美国康奈尔大学计算机系于1 9 9 5 年设计的一种用户级通信系统,其设 计目标就是在不削弱保护机制的前提下,通过允许多个用户进程对网络接口硬件的直接 访问,取得较小的通信延时和较大的带宽,并增加在其上实现高层通信协议的灵活性。 u n c t 的特色之一是引入了e n d p o m t 的概念,从而可以支持有保护的、多进程用 户级通信e n d p o i n t 可看成是点到点通信中的一个端口,在用户进程通信之前创建,属 于进程私有的通信资源,主要包括一些用于消息发送和接收的控制队列和数据缓冲区。 u - n e t 的特色之二是网络接口控制程序的设计。它对a t m 网络接口原有通信程序 进行了必要的修改,使得网卡控制程序和底层通信库可以通过共享e n d p o i n t 资源实现用 户级程序对网络接口的直接操作和控制,从而避免了通信过程操作系统的介入。 2 5 2s p 2i a p l s p 2 1 4 3 】【4 4 】是m m 公司推出的一种可扩展多计算机系统,其结点可以是m m3 7 0 、 m m3 9 0 和m m5 9 0 。结点问通过高速交换网互连,网络接口内设i 8 6 0 通信处理器、 内存、f i f o 和d m a 控制器。s p 2 所采用的通信库是m p l ( m e s s a g e p a s s i n g l i b r a r y ) , 共有两种实现方式,一种是基于传统的t c p i p 协议,另一种是基于用户级通信协议。 s p 2 的研制者在设计m p l 时,主要考虑了以下一些问题:其一,对m p l 要达到 的性能要求按重要程度进行排列,依次为提高通信带宽、减小通信延时和结点处理器的 通信开销:其二,虽然将通信任务交由通信处理器处理能够减少结点处理器的通信歼销, 但由于通信处理器的性能远远低于结点处理器,这样会导致整个通信延时的增加。因此, 在m p l 的实现中通信处理器只承担少量的通信任务;其三,由于结点处理器通过m i c r o c h a n n e l 访问网卡上的内存空间比较慢,设计时尽量减少这种访问。其四,由于s p 2 所 采用的通信硬件没有提供点到点的流量控制,为避免网络拥塞,引入流量控制协议:其 五,为了加快s p 2 的开发进度,尽量重用s p l 上已有的通信软件 2 5 3g m 近年来出现了很多基于m y 咖e t 【5 】【2 9 】网络设备硬件的高性能通信协议,如本节所 毕 - 智能眄卡支打的并行面信坍歧的研亢 述的由m y n c o r n 公司研制的g m 协议,法国l h p c 实验室的b i p 协议以及中科院计算 所智能中心研制的b c l 协议等。 m y r i c o m 是m y r i n e t 网络接口卡的生产厂商。g m 系统就是该公司专门为其m y r i n e t 设备开发的一个商品化通信协议,其工作机理与u - n e t 类似,采用基于端口的消息传递 方式,同时还提供了阻塞式与非阻塞式两类消息传递机制g m 还为在其上实现的 t ( = p 皿协议提供了特殊支持,由此可以同基于b s ds o c k e t sa p i 的传统网络应用程序实 现二进制兼容 2 5 4b i p b i p 3 2 是一种基于m y r i n e t 专用网络设备的精简底层次通信协议,其目标是提供一 个高效的硬件访问方式和零拷贝通信b i p 只提供简单的通信功能,为高层的通信软件 ( 如m p i 等) 提供一个具有较好功能性能比的开发环境,用户是不能直接使用的它 可同时提供阻塞式和非阻塞式通信接口,其通信的可靠性由网络硬件保证b i p 由用户 库、内核模块和网卡控制程序组成,其实现的主要点有: 用户层访问网络:避免了传统的系统访问和内存拷贝 大消息发送:采用了r e n d e z v o u s 语义,即在消息发送完成前,接收端必须不停 地进行检查消息被分成多个包,以流水的形式传输。 小消息发送:对于小消息,由于主机层的握手开销远比内存拷贝开销大,所以 在消息在发送时,直接通过网络传到接收端,再从接收端的主存拷贝到用户缓 冲区里。 b c l 是中科院计算所智能中心曙光系列机群系统上使用的通信协议。目前,它采用 用户级通信结构并实现了通信过程中的零拷贝b c l 支持无连接的点到点异步通信,并 保证消息的可靠、有序传输。 与b i p 类似,b c l 引入了端1 3 的概念,用户进程间的消息传递在端口问进行。同时, 它还引入了通道每个端口有一个固定长度的通道队列,队列中每一项对应一个通道。 一次消息传递前,接收进程先调用b c l 提供的消息接收原语将指定的用户接收数据缓 冲区与端口通道队列中一个空闲通道绑定。这样消息发送方通过一个( 结点,端口,通 道) 三元组就可唯一指定机群中一个用户接收缓冲区。 为了支持小消息的传递,降低延迟,b c l 定义了一个系统通道,由系统提供一个环 形的接收数据缓冲区与该通道绑定这样,用户的小消息可以直接传送到系统通道对应 的环形缓冲区的空闲区域中接收方通过调用查询原语可从系统通道中获取接收到的小 消息并将消息中的数据拷贝到用户的接收数据缓冲区中 第二帝村l 群o j o t j 通信系统 2 6 机群通信系统基本评价方法 对于机群高效通信系统的性能,通常可以从三个层次上来进行评价,一是硬件级的 性能,即通信硬件能够提供给底层通信软件的最好性能;二是底层通信库的性能,即底 层通信软件能够提供给高层通信软件的性能;三是应用级的性能,即应用程序调用高层 通信软件提供的通信服务时能够得到的实际性能一般说来,用户应用程序直接能利用 的只是通信系统的应用级性能,因此,高效通信系统最终的目标应该是能够提供较好的 应用级通信性能 点到点的通信效率能够比较真实地反映机群通信系统的性能,并且测试起来相当方 便,因此人们通常以点到点通信效率来评价一个通信系统的性能点到点的通信效率具 体可以用单向 ( o n e - w a y ) 通信延时( l a t e n c y ) 和通信带宽0 3 a n d w i d t h ) 这两个参数来衡量,通 信延时一般是指一个消息从发送到接收的全过程花费的时问,而通信带宽则是指在消息 传递过程中,单位时间内某条通信路径上传送的消息数据的字节数提高机群通信的性 能主要意味着要尽量降低通信软件的开销和通信延时同时尽量提高通信带宽 然而,仅从通信性能的角度来评价一个机群通信系统是远远不够的,要想比较全面 地评价一个通信系统,还必须考虑以下问题:一是可靠性,即通信系统是否能够为用户 应用程序提供可靠的消息传递功能,并对可能出现的错误进行处理;二是有序性,即对 于同源同目的的多个消息,通信系统是否能保证应用程序可以按消息发送的先后顺序来 接收消息;三是流量控制,即通信系统是否提供必要的流量控制功能,以避免缓冲区溢 出、死锁和网络拥塞;四是可用性,即通信系统为用户应用程序提供的通信界面是否能 够满足一般的通信需求以及使用的方便性;五是对多进程通信的支持,即通信系统是否 支持一个结点上多个进程同时进行消息传递并且互不干扰一般说来,上述功能的提供 与通信高性能的实现往往是互相矛盾,互相制约的,因此,在机群通信系统的设计和实 现中,要在通信系统的性能和功能这两个目标之间做出恰当的取舍和折衷。同样地,在 对机群通信系统的评价中,也应综合考虑通信系统的功能和性能这两方面的因素。 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吸痰技术试题及答案
- 铆工技术理论试题及答案
- 2025年春季部编版初中数学教学设计八年级下册第2课时 正方形的判定
- 《2025设备租赁合同范本共享》
- 2025面的合同租赁合同范本
- 公司财税知识培训课件
- 搞笑反诈骗课件
- 国际市场营销(第7版·数字教材版)课件 第1-7章 国际市场营销导论-国际大市场营销
- 求职路上如何应对蒙古特色面试题?实战技巧分享
- 《2025年物流公司挂靠合作协议》
- 《电工》国家职业技能鉴定教学计划及大纲
- 零星维修工程(技术标)
- 篮球投篮教学的课件
- 园林绿化施工现场组织协调方案与措施
- 中专生招生管理办法细则
- 2025年度江苏行政执法资格考试模拟卷及答案(题型)
- 续保团队职场管理办法
- 2025至2030直接甲醇燃料电池(DMFC)行业发展趋势分析与未来投资战略咨询研究报告
- 江苏南京师范大学附属中学2024~2025学年高一下册6月期末考试数学试题学生卷
- 医院质控科服务质量职责
- 船舶公司维修管理制度
评论
0/150
提交评论