




已阅读5页,还剩79页未读, 继续免费阅读
(计算机系统结构专业论文)机群系统中并行通信技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着并行处理技术的不断发展,机群系统因其良好的性价比、卓越的可扩展性与可 用性,逐渐成为当前高性能计算机领域的主流结构。在机群系统中,机问通信的性能是 影响整个系统性能的关键因素,因此如何提高机群通信系统的性能一直是近年来的一个 研究热点。 由于s m p 机群逐渐成为机群系统的主流,尤其是大结点和超结点机群的出现,在 机群结点计算能力不断提高的同时也提高了对机群高速通信系统的性能要求。在传统的 结点内单网卡和结点间单通路的机群网络中,由于受到网络硬件设备自身的性能限制, 机群通信系统的性能成为其整体性能的瓶颈。为了突破这一限制,研究者提出了在机群 结点问同时使用多条网络通路进行并行通信的解决方法。在曙光4 0 0 0 l 超级服务器机群 的通信系统中,我们引入了并行通信机制,有效的改善了系统的结点间通信的带宽性能。 本文在总结前人研究成果的基础上,首先系统地研究了并行通信技术的关键问题和 具有代表性的并行通信实例。随后从需求出发,提出了一种基于细粒度消息分片模式的 并行通信机制,较为详细的阐述了在曙光4 0 0 0 l 机群中该机制的设计与实现,还以此为 基础对异构并行通信和消息分派机制进行了进一步的研究探讨。本文中对试验平台上测 试数据的分析说明,该系统上并行通信的实现基本上达到了预期的性能目标,具有较好 的通信带宽。最后,本文总结了作者的工作,提出了对当前并行通信实现进行优化与改 进的方法和思路,并对未来的工作做了展望。 关键词:机群,s m p 机群,机群通信系统,并行通信技术 机群通信系统中并行通信技术的研究 r e s e a r c ho fp a r a l l e lc o m m u n i c a t i o n t e c h n i q u e o nc l u s t e rn e t w o r k g a of a n ( c o m p u t e r a r c h i t e c t u r e ) d i r e c t e db y p r o f m e n gd a n w i t ht h ei n c r e a s i n gd e v e l o p m e n to ft h ep a r a l l e lc o m p u t i n gt e c h n i q u e ,a n do w i n gt oi t s g r e a tp r i c e p e r f o r m a n c er a t i o ,o u t s t a n d i n gs c a l a b i l i t y a n da v a i l a b i l i t y , c l u s t e r s y s t e m i s b e c o m i n g t h em a i n s t r e a mo ft h eh i g hp e r f o r m a n c ec o m p u t e ra r c h i t e c t u r e i nc l u s t e r s ,t h e p e r f o r m a n c eo fi n t e r - n o d ec o m m u n i c a t i o n i st h ec r i t i c a l f a c t o r , w h i c ha f f e c t s t h ea c t u a l p e r f o r m a n c eo fc l u s t e r s i na d d i t i o n ,a n e f f i c i e n t d e s i g na n di m p l e m e n t a t i o n o fc l u s t e r c o m m u n i c a t i o ns y s t e mh a v eb e e na h o t r i o to f s u c ha r e ai nr e c e n ty e a r s b e c a u s et h ec l u m p sh a sb e c o m et h em a i nt r e n do fc l u s t e rs y s t e m s ,a n dd u et ot h e c o m i n g o fc l u s t e r so f l a r g e n o d e sa n d s u p e rn o d e s ,t h ep e r f o r m a n c e o fc l u s t e r c o m m u n i c a t i o ns y s t e mp l a y sam o l ea n dm o r ei m p o r t a n tr o l ew h i l et h eh i g hp r o c e s s i n gs p e e d o fc l u s t e rn o d e si sc o n t i n u o u s l ya d v a n c i n g i nc o n v e n t i o n a lc l u s t e rn e t w o r k sw i t hs i n g l en i c w i t h i nn o d e sa n d s i n g l e c o m m u n i c a t i o n p a t ha m o n gn o d e s ,t h ec a p a c i t y o fc l u s t e r c o m m u n i c a t i o n s u b s y s t e m h a sb e c o m ea p e r f o r m a n c eb o t t l e n e c kf o rt h er e s t r i c t i o nt h a tc o m e s f r o mt h el i m i to fn e t w o r kd e v i c e s t or e s o l v et h i sp r o b l e m ,an e wt e c h n i q u ec a l l e dp a r a l l e l c o m m u n i c a t i o n ,w h i c hu s e sm u l t i p l en i c sa n dm u l t i p l en e t w o r kp a t h st ot r a n s m i tm e s s a g e s a m o n g c l u s t e rn o d e s ,h a sb e e nb r o u g h tu p w ei n t r o d u c e dt h i sm e c h a n i s mi n t ot h ed a w n i n g 4 0 0 0 lc l u s t e rt oi n c r e a s et h eb a n d w i d t h p e r f o r m a n c e o f i t sn e t w o r k b a s e do nt h ef o r m e rw o r k sd o n e b y o t h e r s ,t h i sd i s s e r t a t i o nf i r s t l yd i s c u s s e dt h ee s s e n t i a l i s s u e so fp a r a l l e lc o m m u n i c a t i o na n di n v e s t i g a t e ds o m et y p i c a li m p l e m e n t a t i o n so fs u c h t e c h n i q u e t h e nw ep r o p o s e d ap a r a l l e lc o m m u n i c a t i o ns c h e m eb a s e do nt h em e s s a g e s t r i p i n gm e c h a n i s m ,p r e s e n t e d i t sd e s i g n e da n di m p l e m e n t a t i o no nt h eb c lb a s i cp r o t o c o li n d e t a i l ,i n c l u d i n gt h ee x t e n d e di m p l e m e n t a t i o no f i t t h ee x p e r i m e n t a lr e s u l t ss h o w e dt h a tt h i s i m p l e m e n t a t i o n h a saf a m o u sb a n d w i d t h p e r f o r m a n c e ,s a t i s f y i n g o u r d e s i g ng o a lb y a n d l a r g e f i n a l l y , w ec o n c l u d e d t h et h e s i sa n dt h ew o r kd o n eb yt h i sa u t h o r , a n dg a v es o m ea s p e c t so f r e s e a r c hw o r kt h a tw e m i g h t d on e x t k e yw o r d s :c l u s t e r , c l u m p s ,c l u s t e r c o m m u n i c a t i o n s y s t e m ,p a r a l l e lc o m m u n i c a t i o n 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:日期: 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:导师签名:日期: 第一章引高 第一章引言 白二十世纪九十年代以来,高性能计算在世界范围内呈现出飞速发展的念势。高性 能计算的发展水平已成为衡量一个国家综合实力的重要指标之一,对一个国家的国防和 科学技术、国民经济的发展起到巨大的推动作用。在当今的高性能计算机( h p c :h i g h p e r f o r m a n c ec o m p u t e r ) 系统中,机群( c l u s t e r ) 结构以其卓越的性能价格比和良好的可 扩展性成为高性能计算领域中的主流结构。如今,机群系统己被普遍应用到诸如科学与 工程计算、决策支持和事务处理、大规模网络信息服务、数字图书馆、天气预报与生物 信息处理以及视频多媒体服务等领域之中。 所谓机群系统,就是由一组计算机系统( 结点) 通过高性能网络或局域网互联而形 成的具有单一系统映象( s i n g l es y s t e mi m a g e ) 的高可用、高性能、高可扩展性的计算 机集群系统。它的每个结点都是一台完整的计算机,如s m p 服务器、工作站或p c 机, 可以独立工作【1 】。机群技术的发展不但为计算机系统的硬件设计指出了新的方向,而且 也为高性能计算机系统软件的设计方法带来了新的革命,对于机群系统的研究已经成为 高性能计算领域的研究热点,许多优秀的机群系统也随之建立起来。 与其他结构的高性能计算机系统相比,机群系统的主要性能瓶颈在于互联网络和支 持软件【2 】。而所谓机群通信系统就是指“连接机群系统各处理结点的通信硬件以及建立 于其上的通信软件,它主要的功能就是为各处理结点上应用程序的进程之间提供高效、 可靠和有序的通信服务”【3 。研究表明,机群通信系统的性能是影响整个机群系统实际 性能的一个关键因素,“它的容量和性能直接影响了整个系统对高性能计算的适用性” 【2 。因此,对于高效机群通信系统的研究在机群系统的研制中占有非常重要的地位。 到目前为止,国内外对于机群通信系统的研究已经取得了相当进展,其技术发展趋 于成熟。在硬件方面,由于传统的以太网设备性能难以满足日益增长的系统通信需求, 人们逐渐趋于使用专用的高速网络通信设备,比如q u a d r i c s 公司的q s n e t 4 1 和m y r i c o m 公司的m y n n e t 5 1 网络产品:在软件方面,一些出色的机群通信系统通过大幅度地削减 通信软件的开销,已经使其通信带宽接近了底层网络接口( n i :n e t w o r ki n t e r f a c e ) 的上 限。然而,随着s m p 机群的出现( 这种采用s m p 结点的机群被称为c l u m p s ) ,机群 系统中各个结点的计算性能有了很大的提高。继续采用现有思路和技术来提高机群通信 系统的性能,效果有限,无法很好地满足s m p 机群( 尤其是大结点机群) 的通信需求。 此外,应用程序对于机群系统性能的要求也是永无止境的,对于在机群系统上运行的大 量细粒度和中粒度应用而言,机群通信系统目前所能达到的性能水平还远远不够。因此, 迫切需要进一步的研究以突破底层网络接口通信性能这一瓶颈。 为了进一步提高机群通信系统的性能,特别是寻求在通信带宽上的突破,研究者们 提出过多种解决策略,并行通信即是其中之一。并行通信技术的核心思想就是在机群节 点间“增加互连线数以提高点到点的交换带宽”【6 】,此时的机群系统其结点内部“将配 机群系统中并行通信技术的研究 置有多块网卡,同时连入一个或多个网络,使得各个机群结点间可以同时通过多个通路 进行消息的并行传输”【7 】。通过使用并行通信技术,机群系统不但能在不对现有软硬件 环境作过大改动的情况下,大幅度提高其点到点通信性能,增强系统的可扩展性,同时 也潜在地提高了机群系统的可用性,即如果某些网络通路出现问题,机群通信系统仍可 利用与之并行的网络通路进行通信,机群通信系统的容错性能由此得以保证。因此,并 行通信技术的研究对高性能集群计算这一领域具有重要意义。 目前国外对于并行通信技术的研究己取得一定进展,在一些机群系统中该技术办有 所应用,但这些研究实现的并行通信基本上是应用级的,底层通信机制只支持在不同网 络七建立多个数据通路,数据在不同通路问的并行传输由应用控制【7 】。其他少数非应用 级并行通信机制的研究或者面向t c p i p 协议,不能支持高性能的轻量级底层协议,从 而其通信性能受到限制【8 :或者其研究还限于理论推演和性能模拟阶段,尚未形成实验 原型系统及其实测性能数据 9 】。总之,目前这一领域的研究尚处于起步阶段,上述研究 内容多数只是在其通信系统的具体实现中采用了并行通信的思想,并未明确提出机群并 行通信这一概念,其研究焦点也没有集中在高性能并行通信这一课题上,没有独立地从 机群并行通信这一角度对系统进行深入的分析与研究。更没有对机群通信系统中并行通 信的性能进行专门的测试和评价,而这一切都值得进行更加深入的研究。 并行通信技术在曙光4 0 0 0 l 超级服务器的研制过程中也起着重要作用,是大幅提升 其节点间通信性能的主要手段,具有相当的现实意义。研究过程中,我们为曙光4 0 0 0 l 超级服务器的b c l - 4 通信子系统设计并实现了基于细粒度消息分片模式的并行通信机 制,对机群结点间的消息传输实现了非常彻底的并行化,这一自下而上的实现方法同时 对其上的高层通信协议软件( 如m p i 和p v m 并行计算环境库) 和其下的网络接口控制 程序( m y r i n e t 卡上m c p 程序) 做到透明,在最大限度发挥并行通信性能的同时,尽可 能的提高了通信系统的适用性、可靠性与可扩展性。 此外,为了进一步提高系统中并行通信机制的可扩展性和灵活性,我们又引入了“消 息选路”机制,搭建了多网卡( 每结点2 块网卡以上) 试验平台并针对异构并行通信机 制进行了进一步的探讨与研究。以上工作,为今后在曙光平台上的深入研究打下了坚实 的基础。 最后,我们针对上述不同平台进行了详细的性能测试。通过对测试数据的分析,我 们总结了当前b c l - 4 中并行通信模块的优点与不足,提出了改进方法,为今后进一步的 研究工作指出了若干可行方向。 本文共分七章,具体组织如下: 第一章( 即本章) 为引言部分,说明了本研究课题的重要性,对论文的目的、主要 工作和内容作了简要阐述,同时概括介绍了国内外相关研究进展。 第二章对机群和机群通信系统的发展与特点进行了较为全面的介绍,向读者简要评 述了若干典型的机群及通信系统,最后总结了它们的技术特点和发展趋势。 本文第三章详细介绍了并行通信技术,首先简要说明了其概念、动机、可行前提和 第一辛,j l 吉 技术基础,随后列举国外应用并行通信技术的若干实例并对其技术特点进行分类总结, 然后以此为基础详细归纳了并行通信技术的具体实现形式与拓扑结构,提出了其实现过 程中应考虑的关键问题及可行的解决策略,最后介绍了若干可描述并行通信机制性能特 点的方法和相关指标。 在第四章中,首先对本文工作所基于的主要系统平台一一曙光4 0 0 0 l 超级服务器做 了简要说明,其中对b c l 一4 高效通信子系统的介绍较为详细,随后详细阐述了曙光4 0 0 0 l 机群系统中引入并行通信机制的设计方法与实现技术,即:首先给出b c l 一4 通信子系统 的网络拓扑结构,然后阐述整体设计思想,详细介绍实现过程中的关键技术与算法,最 后,对该实现的技术特点做了细致分析。 第五章介绍了对b c l 一4 中并行通信机制的深入研究内容,包括“消息分派”机制的 引入和结点问并行通路扩展与异构并行通信等部分。 第六章为测试部分,包括通信稳定性和性能测试,其中通信性能测试为其重点,包 括点到点通信性能测试和均衡通信性能测试两大部分。根据测试结果,本文总结了该实 现的性能特点,分析了其优点与需要改进之处。 最后一章是对本文的总结和技术展望。 第二章机群与机群通信系统 第二章机群与机群通信系统 本章对机群和机群通信系统的发展与特点进行较为全面的介绍,阐明了机群及其通 信系统体系结构的基本特征,并简要叙述了网格的发展,向读者简要评述了若干典型的 机群及通信系统,最后总结它们的技术特点和发展趋势。 2 1 可扩展并行计算机体系结构之分类与发展方向 自电子计算机系统出现以来,计算机硬件技术的进步,特别是半导体元件制造技术 的飞速发展,极大地促进了计算机处理能力的提高。但就目前来看,计算机器件性能的 提高仍难以满足日益增长的应用需求,因此,研究并行可扩展的计算机体系结构成为提 高计算机系统性能的一个重要途径 1 0 】。 在近十年中出现了许多不同的支持高性能计算的超级计算机系统【2 】。按照它们的处 理器、内存和连接方法来分类,最常见的系统包括: 基于分布存储的并行处理系统( m p p ) 共享存储的对称多处理机( s m p ) 一致缓存不一致内存访问( c c n u m a ) 分布式系统 机群 m p p 通常是指使用无共享资源结构的大型并行处理系统。它一般包括几百个处理单 元( 节点) ,节点问以高速内部互连网络连接。每一个节点都有各种硬件部件,但一般 来说包括一个主内存和一个或多个处理器。另外,特殊的节点也可以有磁盘或备份系统 与之相连。每一个节点分别运行各自的操作系统。 当今的s m p 系统通常拥有2 至6 4 个处理器,可将其视为一种共享一切的结构。在 这种系统中,所有的处理器共享可用的全部资源( 总线、内存和i 0 系统) ,使用一个 操作系统。 c c n u m a 是可扩展规模的多处理器系统,是一致缓存不一致内存访问的结构。同 s m p 一样,c c n u m a 系统中的每一个处理器都可以访问所有内存。这类系统的名字 ( n u m a ) 来自于访问最近和最远内存所需的时间的不一致( n o n - u n i f o r mt i m e s ) 。 分布式系统可被认为是由独立计算机构成的常规网络系统。它们拥有多个系统界 面,每个节点运行它自己的操作系统,而且,分布式系统的每台机器可以是m p p 、s m p 、 机群或单个计算机。 机群是一群以网络技术连接起来的工作站或p c 机的组合。典型情况下,每个机群 节点是一台s m p 服务器、一台工作站或是一台p c 计算机。更重要的是,所有机群节点 一起协同工作,如同一个统一的整合资源,所有节点使用单一界面。 机群系统中并行通信技术的研究 最初的多计算机系统多属m p p 类型【7 】。这一结构曾在超级计算机市场上取得了很 大成功。但由于m p p 通常采用专用部件,造成了其成本较高,标准办难以统一。随着 近年柬并行机规模的不断扩大,在进行系统设计时所需考虑的诸多因素中,性价比所占 比重越来越大。因此,具有投资风险小、可扩展性好、性能价格比高、高可用性强、能 用性好、可继承现有软硬件资源以及开发周期短、可编程性好等特点的机群系统,已成 为高性能并行计算领域的主流体系结构。同时,网络时代的到来也为机群服务器的应用 提供了广阔的空间,在网络技术和应用快速发展的今天,作为网络核心的机群服务器的 重要性日益突出机群服务器因此进入了技术、应用和市场互动并迅速发展的新阶段 1 l 】。 除一般意义上的机群系统之外,由于上个世纪9 0 年代i n t e r n e t 的迅速普及和高性能 广域网( w a n ) 技术的快速发展,使得将分布在不同地理位置的高性能计算机聚合在一 起以构成单一无缝的计算环境成为可能。这种可以集中整个国家甚至全球范围内的计算 资源,形成一台虚拟高性能计算机的技术,就是所谓的网格技术。这之中,计算网格将 会成为未来高性能计算的基础平台,而计算网格中的每一格点通常便是台高性能计算 机一超结点( s u p e rn o d e ) ,人们似乎正逐渐认识到机群系统正是这类计算格点的最好 载体。总之,近年来网格计算领域的快速成长为机群系统的研究开辟了一片新的天地, 机群系统则将成为网格技术成功发展的一个主要动力和关键点。 2 2 机群系统特征与发展趋势 2 2 1 定义 定义1 机群就是由一组计算机系统( 结点) 通过高性能网络或局域网互联而形成 的具有单一系统映象( s i n g l es y s t e mi m a g e ) 的高可用、高性能、高可扩展性的计算机 集群系统。它的每个结点都是一个完整的计算机,如s m p 服务器、工作站或p c 机, 可以独立工作【l 】。 机群系统的典型体系结构如图l 所示 1 0 b 圉l 机群系统的典型体系结构 6 第一二章机群与机群通信系统 2 2 2 特征 我们将机群系统的特征概括如下【l o 】: 好用性由于机群系统中每个节点都是传统平台用户能在熟悉的成熟环境中开 发和运行他们的应用程序。平台提供了功能很强的工作站编程环境工具,能允 许大部分现有的串行应用程序无需修改便可运行。 可用性传统的单一系统,如主机和容错系统依靠昂贵的定制设计来获取高可用 性,而机群不使用定制组件,而是用廉价的商品化部件以提供含有大量冗余的 较高可用性。 可扩展性一个机群的计算能力随节点增多而增加。其次,机群的可扩展性是群 体可扩展性。因为是松散耦合,机群能扩展至几百个节点。 性能价格比机群能成本有效地获取上述优点。它采用大量商品化部件,其性能 和价格遵循摩尔定律,从而使机群的性能价格比增长速率快于其他超级计算机 系统。 2 2 3 分类 基于不同因素,机群可以有多种分类方式 2 。一般可根据应用目的将机群系统分为: 高性能( h p ) 机群: 高可用( h a ) 机群: 按照结点归属可将其分为: 专用机群: 非专用机群; 按照结点硬件通常可将其分为: p c 机群( c o p ) ; 工作站机群( c o w ) : s m p 机群( c l u m p ) ; 依据结点操作系统,可分为: l i n u x 机群( 如b e o w u l f 系统与曙光4 0 0 0 l 系统) ; s o l a r i s 机群( 如b e r k e l e y n o w ) ; n t 机群( 如h p v m ) ; a i x 机群( 如曙光3 0 0 0 系统与m ms p 2 系统) : 微软w o l f p a c k 机群等等; 而依据结点构成,还可将其分为两类: 同构机群,即所有结点有相同的体系结构,运行相同的操作系统: 异构机群,所有结点并不需要有一致的系统结构,也不需要运行相同的操作系 机群系统中并行通信技术的研究 统。 此外,单独的机群可以通过内部连接组成一个更大的系统( 机群集群) ,实际上 i n t e m e t 本身就可被视为一个计算机群。使用w a n 上的计算机资源进行高性能计算产 生出一个新的领域,被称为元计算( m e t a c o m p u t i n g ) ,又称网格技术( g r i d ) 。【7 2 2 4 发展趋势 目前,s m p 结点机群已经成为机群系统的主流结构。由于采用s m p 结点能够提供 更高的性价比,“越来越多的研究都集中在s m p 机群系统( c l u m p s ) ”【2 。比如近年 来由美国加速战略计算计划( 简称a s c i 计划) 引导研制成功的多个a s c i 机群系统 【1 2 】 1 3 中,除i n t e l 的a s c ir e d 外,其余a s c i 系统都采用了s m p 机群和n u m a 机群 的体系结构。在机群系统中,我们称这种多c p u 的s m p 和n u m a 结点为大结点( l a r g e n o d e ) ,称大结点机群的体系结构为a s c i 结构。a s c i 结构是性能价格比较好的体系结 构,是今后几年高性能计算机系统的主流结构。 作为所在高性能计算平台的基本组成部分,无论是所谓的大结点还是计算网格系统 中的超结点,目前其独立的计算处理能力正在呈现快速增长趋势:美国a s c iw h i t e 系 统中每结点1 6 个c p u ;i b m 最新的p s e r i e ss m p 服务器已有3 2 c p u 版本;而在最新 t o p 5 0 0 排名【1 4 中列第2 8 位的a s c ib l u em o u n t a i n 系统中每结点c p u 达到了1 2 8 个。 在目前的t o p 5 0 0 排名中,星群系统( 即c o n s t e l l a t i o n s ,通常指每一结点中c p u 个数超 过了系统中结点个数的一类s m p 机群【1 5 ) 占有2 0 6 席,已经超过了m p p ( 1 9 5 个) 和单纯s m p ( 9 个) 个数的总和1 6 】。 2 3 机群系统典型实例 2 3 1 b e r k o i e y 的n o w 项目 b e r k e l e y 的n o w 项目【1 7 】是用大量生产的商品化工作站和最先进的商品化网络构 件组建大型并行计算系统的典范。为达到将分散的工作站结合成单一的系统,n o w 项 目包含了对网络接口硬件、快速通信协议、分布式文件系统、分布式调度和任务控制的 研究和开发。【2 该项目以活动消息( a c t i v em e s s a g e ,缩写为a m ) 作为其基本通信原语。a m 通 信是一个简化了的远程过程调用,可以在很多硬件中有效地实现。n o w 还包括一套低 延迟的并行通信原语:b e r k e l e y s o c k e t 、f a s ts o c k e t 、共享地址空间并行c ( s p l i t c ) 和 m p i 。 此外,n o w 还以一套被称为g l u n i x 的u n i x 系统作为其全局操作系统,它提供了 透明远程运行、交互式并行和串行作业支持、以及负载平衡等功能。n o w 的机群文件 笫一章机群与机群通信系统 系统称为x f s ,作为一个无服务器的分布式文件系统,x f s 试图将服务器的功能分布到 客户机上,以实现低延迟、高带宽的文件系统访问能力。 2 3 2u i u c 的高性能虚拟机( h p v m ) 项目 美国伊利诺伊大学u r b a n a c h a m p a i g n 分校( 简称u i u c ) 的h p v m 项目【1 8 的研制 目的是将超级计算机的性能分配在低价商品化的系统上【2 】。h p v m 还希望将复杂的分 布式系统隐藏在清晰明确的界面之后,其系统软件可以在p c 或工作站机群上运行。该 项目试图解决以下三个问题: 将高性能通信分配在标准的高层a p l 上; 一致性调度和资源管理; 管理异构系统; h p v m 的关键部分是其被称为快速消息( f m :f a s tm e s s a g e ) 的高带宽低延迟通信 协议。f m 以b e r k e l e y 的a m 为基础,提供发送长短消息以及从网络上选取消息等功能。 与众不同的是,f m 不是表层a p i 而是下层语义 2 ,其底层软件接口可以充分发挥通信 硬件性能,而其高层接口则具有更好的应用移植性和易用性。 2 3 3n a s ab o d d a r ds p a c ef ii g h tc e n t e r 的b e o w u i f 项目 b e o w u l f 项目 1 9 】的目标是发掘p c 机群计算任务的潜力。b e o w u l f 是指使用一堆 p c 机构成一个与c o w n 0 w 类似的机群系统。该项目着重于使用大量上市的商品化 部件、专用处理器( 而不是使用工作站的空闲周期) 和专用通信网络。b e o w u l f 总的目 标是达到机群的“最佳”性能价格比。 b e o w u l f 处理器之间的通信是通过机群内的以太网实现的,因此其处理器之间的通 信受到以太网的性能参数和控制消息传递的系统软件的限制。为此b e o w u l f 项目已经在 探索并行使用多以太网来满足内部数据传输带宽的需要。这技术被称为通道绑定 ( c h a n n e l b o n d i n g ) ,被作为一系列l i n u x 内核的增强功能实现,可将其视为并行通信 思想在机群通信系统中较早的应用尝试。 2 3 4 眦p 的s c o r ec l u s t e r 项目 s c o r e c l u s t e r 系列【2 0 1 1 2 1 】机群项目是日本r w c p ( r e a l w b r l d c o m p u t i n g p a r t n e r s h i p ) 机构开发的一系列机群系统。目前其s c o r ec l u s t e ri i i e 系统采用的计算结 点为5 1 2 台n e c e x p r e s s5 8 0 01 2 0 r a ls e r v e r ( 双p e n t i u m i i i9 3 3 m h zc p u ,5 1 2 m b 内 存) 。其网络设备同时采用m y r i c o r n 公司的m y r i n e t2 0 0 0 ( 2 0 g b p s ) 系列网络设备和双 以太网卡设备( 1 0 0 m b p s ) 。系统软件方面,s c o r ec l u s t e r 以l i n n x 为基础平台,并在其 上开发了称为p m 的机群通信系统软件。p m 亦采用了一种名为n e t w o r kt m n k i n g 2 2 1 9 机群系统中并行通信技术的研究 的以太网并行通信技术,其实现思想和b e o w u l f 的c h a n n e lb o n d i n g 技术类似。 2 3 5 中科院计算所智能中心的曙光4 0 0 0 l 超级服务器系统 中科院计算所的国家智能计算中心于1 9 9 5 年成功地研制出曙光1 0 0 0 大规模并行 计算机系统,以后又陆续的成功研制了曙光2 0 0 0 、曙光2 2 0 0 、曙光3 0 0 0 7 1 ,曙光4 0 0 0 l 超级服务器是其研制的最新一代大规模机群系统,已于2 0 0 3 年3 月通过项目验收。作 为国家8 6 3 重点项目之一,曙光4 0 0 0 l 的总体目标是研制每秒3 万亿次浮点峰值运算能 力的l i n u x 超级服务器,以支持数据密集应用为主,针对应用特点对系统进行优化设计, 解决关键技术问题,实现应用与系统的一体化优化。同时能支持科学与工程计算,网 络与信息服务,事务处理等多种应用1 2 3 1 。 值得注意的是,曙光4 0 0 0 l 超级服务器不再以峰值速度为研制目标,而将重点放在 特定应用的实际性能,研究关键技术以使系统的硬件性能得到最大限度的发挥,为国民 经济重要行业提供“真正”高性能价格比的高性能计算系统【2 3 】。曙光4 0 0 0 l 超级服务 器的出现,从一定程度上反映了目前集群系统注重特定应用、强调性价比、面向网格等 发展趋势。本文科研工作亦主要以曙光4 0 0 0 l 为项目依托,以其b c l 高性能通信协议 和m 蜘n e t 5 高速网络设备为基础,完成了并行通信机制的设计实现与测试等项工作。 2 4 机群通信系统定义及其技术特点 2 4 1 定义 定义2 机群高效通信系统是指连接机群系统各处理结点的通信硬件以及建立于其 上的通信软件,它主要的功能就是为各处理结点上应用程序的进程之间提供高效、可靠 和有序的通信服务 3 。 2 4 2 结构 机群高效通信系统一般由互连网络、网络接口和结点上的通信软件三部分构成,其 中通信软件又分作底层通信软件和高层通信软件两个层次【3 】。 如图2 所示【3 】,机群通信系统的硬件结构主要由高速互连网络和网络接口( n i : n e 柳o r ki n t e r f a c e ) 两部分组成。前者实现机群结点问消息包的传递功能,要求具有低 延时和高带宽的特点,后者则是机群结点上层与下层互连网络之间的连接点。 机群系统的软件层次如图3 所示【3 ,一般分为从下到上四个层次: 网络接口上的通信控制程序主要用于完成处理结点提交的消息包的发送和从 互连网络传来的消息包的接收,在网络接口没有嵌入式通信处理器的系统中, 1 0 第二章机群与机群通竹系统 一般不存在这一层次的通信软件。 结点机上的网络接口驱动程序其功能是实现对网络接口硬件的驱动以及通信 资源的管理和保护,在网络接口没有通信处理器的情况下,驱动程序通常还承 担中断和系统调用方式下通信过程的控制任务。 底层通信库又称基本通信库,通常与通信控制程序和网络接口驱动程序合称为 底层通信软件。它建立于网络接口驱动程序之上,主要为高层通信软件提供一 些基本的通信原语,如点到点的通信功能。 高层通信软件如m p i 和p v m 等,利用底层通信库的基本通信功能,为用户应 用程序提供个基于消息传递的并行编程环境。 2 4 3 特点 图2 机群通信系统硬件结构 应用程序 m p i ,p v m 和n x 等并行缠毪环境 蔫本遇偿瘁 掏缮接目驱动程序 潮络接口遘倍控髑程序 图3 机群通信系统软件层次 机群自身结构和应用的特点决定了其高效机问通信系统所具备的一些主要特征,这 些特征其实也是机群高效通信系统设计和实现所要达到的主要目标 3 】,它们包括: 高性能对机群通信系统而言,通信性能不但始终是人们最为关注的指标,而且 是衡量一个机群通信系统成功与否的主要标志。描述通信系统性能的参数主要 有结点机通信软件开销( s o f t w a r eo v e r h e a d ) 、通信延时( l a t e n c y ) 和通信带宽 ( b a n d w i d t h ) 【3 】。通常人们选择短消息的通信延迟和长消息的通信带宽作为评价 机群通信系统性能的主要参数。随着网络硬件通信性能的不断提高,网络接口 i l 机群系统中并行通信技术的研究 和结点机上通信软件的开销往往成为影响机问通信性能的主要瓶颈,因此在继 续研制性能更高的网络硬件的同时,人们己经将主要精力转移到研制高性能的 网络接口和通信软件上来。 可扩展机群系统的可扩展性首先就体现在它的机间通信系统具有良好的可扩 展性,没有机问通信系统的可扩展就谈不上机群系统的可扩展 3 。其主要包括 物理可扩展性、通信网络性能可扩展性( 随着网络规模的扩展,通信的累积带 宽相对结点机个数最好呈线性增长,而通信延时要保持缓慢而有限的增长) 以 及通信软件可扩展性( 通信软件对一些硬件资源的需求不要随系统规模的扩大 而无限制地快速增长) 三方面内容。 高可用机群通信系统的高可用性体现在,当系统中部分结点因出现故障而无法 正常工作时,不会影响通信在其它结点上的正常进行,这些结点仍能进行正常 的消息传递【3 】。 在并行处理系统中,并行计算时间是由各结点计算时间和结点间数据通信开销两大 部分构成。对于目前的机群系统而言,其结点运算速度问题由于近年来硬件技术的高速 发展相对不很突出,此时如果由结点问通信所造成通信开销比例过大,则必然使并行计 算的加速比下降,从而影响到整个系统的并行处理性能,于是建立一个高效的通信系统 成为一个关键问题。高效机群通信近几年来始终是一个研究热点,可以说高效机群通信 既是推动机群系统发展到今天的一个主要动力,同时也是其继续发展的一个重要基础。 2 5 机群通信系统实例及其发展 传统机群系统的通信是建立在普通低速的局域网互连和t c p i p 协议的基础上。其 通信性能低下,只适于运行串行程序和通信量不大的粗粒度并行程序。随着高性能通信 网络和通信软件的出现以及它们在机群机间通信中的运用,机群系统才真正成为一种较 为理想的并行处理平台并得到了较大的发展。其中较有代表性的有: 2 5 1v m 聃c v m m c ( v i r t u a l m e m o r y m a p p e dc o m m u n i c a t i o n ) 2 4 2 5 是美国普林斯顿大学计算 机系于1 9 9 4 年为其s h r i m p 多机系统( m u l t i c o m p u t e r ) 研制的一种基于虚拟内存映射的 机间通信机制。它支持消息数据在通信进程的虚拟地址空间之间进行有保护的直接传 送,可以提供有序、可靠和高效的消息传递并满足多种类型应用程序的通信需求。v m m c 使s h r i m p 系统消除了传统通信机制和网络接1 2 1 对通信性能的制约,但它的实现对操作 系统有较大的依赖【6 】。 与v m m c 同期的研究大多集中在对于通信协议结构的设计上。 第二章机群与机群通信系统 2 5 2u n e t v m m c 之后,“随着对机群通信系统研究的深入,各个通信系统的协议都集中于基 于消息传递的模式之上” 6 。u n e t 2 6 是美国康奈尔大学计算机系于1 9 9 5 年设计的一 种用户级通信系统。u n e t 直接在用户空间实现通信软件,使得消息的发送和接收等主 要操作可以绕开操作系统核心,直接在用户进程和网络接口硬件之间进行,只是通信的 初始化和结束处理等辅助性的操作仍需经由核心来完成,以实现有保护的用户级通信。 u n e t 的最大特点是“就是在不削弱保护机制的前提下,通过允许多个用户进程对 网络接口硬件的直接访问,取得较小的通信延时和较大的通信带宽,并增加在其上实现 高层通信协议的灵活性。 3 ”此后的g m 、b i p 、以及在曙光系列机群上所使用的b c l 通信协议,都在一定程度上借鉴了这种模式。 2 5 3a m 和 卜l i a m 2 7 和a m i i 2 8 是美国加州大学伯克利分校提出的一类具有代表性的通信系 统。它可以看成是一种轻量级的远程过程调用( r p c ) ,其基本设计思想就是让消息的 发送方预先指定好接收方用于处理该消息的函数( h a n d l e r ) ,消息到达接收方时,这个 预先指定的消息处理函数被调用以处理到达的消息。与传统的s e n d r e c e i v e 通信机制相 比,a c t i v em e s s a g e 在实现上的最大改进在于它不需要任何缓存 6 】。a c t i v em e s s a g e 非 常自然地避免了传统通信机制存在的由于复杂的缓冲区管理、慢速的内存数据拷贝和流 量控制造成的大量软件开销,并且也没有程序运行时消息发送操作和接收操作时问上的 不匹配问题。作为对a m 的继续,a m i i 对s m p 结点进行了特殊支持。 此外,本文2 3 2 节所述的f m 通信协议也是以a m 为基础发展出来的。 2 5 4g m 近年来出现了很多基于m y r i n e t 5 2 9 1 网络设备硬件的高性能通信协议,如本节所 述的由m y r i t o m 公司研制的g m 协议、法国l h p c 实验室的b i p 协议以及中科院计算 所智能中心研制的b c l 协议等。 g m 3 0 3 1 作为一个商品化的通信协议,其工作机理与u n e t 类似,采用基于端i :1 的消息传递方式,同时还提供了阻塞式与非阻塞式两类消息传递机制。g m 还为在其上 实现的t c p i p 协议提供了特殊支持,由此可以同基于b s ds o c k e t s a p i 的传统网络应用 程序实现二进制兼容。 2 5 5b i p 和b i p - s n p b i p 3 2 是一种基于m y r i n e t 专用网络设备的精简低层次通信协议,其目标是提供一 机群系统中并行通信技术的研究 个高效的硬件访问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2017正规租房合同范本
- 植物学奥赛题目及答案
- 人员培训与开发试题及答案(一)
- 人教版高一上学期语文期末考试试卷(含答案)
- 直营店招聘合同范本
- 法律咨询服务合同
- 俄语试卷题目及答案
- 健康保障考试试题题库及答案
- 2025年实验幼儿园教职工考核量化细则
- CN222960731U 环形跟踪上料站 (温州优匠工品科技有限公司)
- 社区公共卫生护理与干预措施试题及答案
- 起重吊装专项应急预案
- 消杀知识考试题及答案
- 医学资料 Picc导管皮肤相关性皮炎案例与分析学习课件
- 重症血液净化血管通路的建立与应用中国专家共识解读2025
- 2025年乡村医生考试题库:常见疾病诊疗与公共卫生服务体系建设试题集
- 能源管理体系及节能知识培训课件
- 2025年度股权代持协议书:国有企业股权代持与监管协议
- 土壤改良施工方案
- 商铺店面装修合同
- 食品企业总经理聘用模板
评论
0/150
提交评论