（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：69 大小：1.26MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf_第2页

（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf_第3页

（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf_第4页

（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf_第5页

已阅读5页，还剩64页未读，继续免费阅读

（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要论文以l o g g p 并行计算模型的长消息通信机制为核心展开研究。并行计算模型为并行算法和并行计算机系统结构的分析与设计提供了具有指导意义的理论界面和模型框架，它是并行计算研究的重要领域。l o g p 模型能够评测并行计算机的实际性能，其四个参数l 、o 、g 、 p 准确地表示了并行计算机的最重要的性能参数。l o g g p 模型是l o g p 模型的扩展，在通信模型中引入了线性长消息机制，提高了通信带宽，既更好地发挥了并行机的效率，又使得实际结果接近设计期望。在集群环境中，主要使用消息传递方式进行并行计算，m p i 作为最流行的消息传递平台，得到广泛应用。对于集群计算机上的m p i 平台的异步执行机制，l o 耵p 模型也是异步的，所以l o g g p 模型能够有效地指导集群计算杌下船i 平台上的并行计算。在发送长消息时，影响l o g g p 模型的通信性能的重要一点是没有考虑到同步。通过对长消息加一个长度界限值的方法对1 0 9 g p 模型进行改进，使得集群环境下的m p i 程序实现更加精确，效率更高。论文提出了根据m p i 下的通信模式来评估l o g g p 模型的参数的方法，设计了并行测试程序，对改进前后1 0 9 g p 模型的参数在曙光1 7 0 0 集群计算机上进行了实际测量。实验结果显示发送额外开销是l o g g p 模型线性长消息的通信瓶颈，改进前后模型的参数的对比分析结果和性能对比结果表明改进后l o g g p 模型的性能优于l o g g p 模型。关键字：并行计算模型，l o g p 模型，l o g g p 模型，杼i ，长消息 a b s t r a c t 1 1 l ek 咖e l0 ft h i st h e s i si ss y n c h r o n o u sc o m m u n i c 撕o no fl o n g m e s s a g e0 fl 0 9 g pm o d d 虹勰i m p o n a n tr e s e 砌a r e ao fp 缸a l l e l c o m p u t i n 吕p a 瑚1 e lc o m p u t i n g 脚蹦p r o v i d ea nd j 删i v e t h e o r e t i c a l i n t e r f a c ea n dm o d e l 丘锄郫嘟kf b ra n a l y s i sa n dd e s i g l i i n go fb o t hp 啦l l e l a l g o r i t h m s 衄ds y s t e m s 删t e c t u r l o 驴m o d e lc a ne s t i m a t et h er c a l p c r f b 城她c eo fp a r a l l dc o m p u t c r ，a n dr e a lp a r 柚e t e r0 fp 盯a 1 1 e lc o m p u t e r c a nb ee x a c n ye x p r e s s e db y 五d l l rp 舢e t 盯k o ，g ，p 1 kl o g g p m o d e l i s a i ie x t e n s i o no ft h e 她pm o d e lb y 跏p p o r t i n gl o n gm c s s a g e ，w h j c h p m v i d ea 舢c hh i g h e fb 柚d w i d t l l ，n o to n l ye x p l o i t st h ep e r f o m 粕c eo f p a r a l l e lc o m p u t e r ，b u ta l s om a l 【e st h ep i e d i c t i o nb ed o s et ot h en l 玎t 洳e e f f c d p m n c lc o m p u t i n gj nc l u s t e r s 迅i m p l e m e n t e db ym a s s a g e - p 舔s i i l g a st h em o s p o p u l 盯m 越s a g c _ p a s s j n gp l a t f b r ，m p ii su s e dw i d e l y - m p i p r o g 姗i m p l e m e n t a t i o ni n c l u s t e 璐i s a s y n c h r o n o u sa n db ) g g pi s 觞y l l c h r o n o u s ，s ol o g g pc a n a d m i t st h em p lp a r a l l e l a s y n c h i o n o u s p i o j 卿m i n gs t y l ei nc l u s t c 墙t h en e e do fs y n c h 瑚i z a t i o nw h 蚰s e n d i n g al 叫gm 鹤s a g ei so u to f n s i d c r a t i o nu n d e rt h e 螂pm o d c l ，w h i c h 栅e c t st h e 如鼢d v 卸t a g eo f 咖m 蛐i t i o np 髓f 0 玎彻c c t h e 螂p m o d e lw a se x t e n d e db ya d d i n gat h 戚o i df o rl 帅gm c s s 噌el e n g t h w l l i c h m a k c sm p ip m g 姗m o ma c c u r a t ea n de m c i e n ti nc i u 咖r s t h em e t h o d o fe v a l u a t i n gt h ep a r a m e t e i s0 ft h el o g g p sb 鹤c do no o m m u n i 龃t i o n m o d eo fm p i i s 垂v i n n l ep a p e ia n d p 缸a l l e lt e s t h gp f 0 替a mi sd e s i 印e d 摘要 1 1 1 ep a r 锄c t e r so fl o g g p 孤di t sc x t c n d e dm o d e li st e s t c di nm a c l i i n e ： d a w n i n gt c l 7 0 0s u p e rs e “e lb y 粕a i y z et i l ed a t ao ft e s t ，t h er c s u n i n d u d e ( 1 ) s e n 曲1 9 o v e r h e a di st l l eb o m e _ n e c ko f l o n gm 骼s a g e c o m m u n i c a t i o nu n d e rl o g g pm o d e l ，( 2 ) t h ep e r f o m l 柚c eo fe x t e n d e d l o g g p m o d e li sb e t t e rt h a nt i i el d g g pm o d e k i e y w o r d s ：p a m l l e lc o m p u t i n gm o d e l ，l d g pm o d e l ，l d g g pm o d e l ，m p l ， b m gm e s s a g e y8 7 9 8 2 9 独创性声明本人声明，所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽本人所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京交通大学或其他教学机构的学位或证书而使用过的材料。与我一起工作的同志对本研究所做的任何贡献已在论文中作了明确的说明并表示了谢意。本人签名：蕉壁笙日期：蒯年弓月f o 日关于论文使用授权的说明本人完全了解北京交通大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保留论文。论文中所有创新和成果归北京交通大学计算机与信息技术学院所有。未经许可，任何单位和个人不得拷贝。版权所有，违者必究。本人签名虚鲻日期：州年7 月c 。日北京交通大学硕士学位论文 1 绪论 1 。1 研究背景人类对计算机性能的要求永无止境，在众多领域中对计算提出了极高的具有挑战性的要求。面对这种挑战，在一般的计算机上用传统的计算方法往往是无能为力的，而并行计算正是实现高性能计算、解决挑战性计算问题的有效手段。在对并行计算的广泛需求中，归纳起来主要有三种类型的应用： ( 1 ) 计算密集( c o m p u t e i n t e n s i v e ) 型应用，如大型科学工程计算与数值模拟； ( 2 ) 数据密集( d a t a _ i n t e n s i v e ) 型应用，如数字图书馆、数据仓库、数据开采和计算可视化等； ( 3 ) 网络密集( n e t w o r k i n t e n s i v e ) 型应用，如协同工作、遥控和远程医疗诊断等。从另一方面讲，也正是这些重大的应用需求推动了当代并行计算技术的迅速发展。并行计算的出现源于实际应用程序存在内在并行度这一个基本事实。同时性和并行性是物质世界的一种普遍属性，具有实际物理背景的的计算问题在许多情况下都可以划分为能够并行计算的多个子任务。针对某一具体应用问题，可以利用它们的内在并行度，设计并行算法，将其分解成相互独立、但彼此又有一定联系的若干个子问题，分别交给各台处理机，而所有处理机按照并行算法完成初始应用问题 1 绪论的求解。可以看到，应用程序中是否存在可挖掘并行度是并行计算机应用的关键，而并行算法作为应用程序开发的基础，自然在并行计算机应用中具有举足轻重的地位。在使用并行计算机解决一个实际问题时，并行算法的设计是很重要的，而且最终它要成为一个由程序实现的结构依赖性的算法。这就需要有一个抽象的并行计算机结构来作为研究高效的结构依赖性的算法的基础，以保证所设计的并行算法适应广泛的并行计算机结构，并能依照抽象的结构来分析并行算法的效率，从而指导与并行结构相匹配的并行算法设计。从并行算法的设计和分析出发，从各种具体的并行机中抽象出来，在一定程度上反映出具体并行机的属性，可以使算法研究不再局限于某一具体的并行机的模型，称之为并行计算模型( 或抽象机器模型) 。“。从更广阔的意义来说，并行计算模型为并行计算提供了硬件与软件的界面。在该界面的约定下，并行系统的硬件设计者和软件设计者可以开发对并行性的支持机制，从而提高系统的性能。并行计算模型的主要作用如下： ( 1 ) 并行计算模型是并行算法实现的基础。并行算法设计与分析依赖于并行计算模型，通常人们针对统一问题可以设计出多种不同算法以适应在不同模型上对该问题的求解，并分析和评价并行算法的优劣。 ( 2 ) 并行计算模型给并行计算设计与分析提供了一个简单方便北京交通大学硕士学位论文的框架。由于并行计算模型抽象了一类并行计算机的基本特征，避开了硬件结构过多的繁琐细节的限制，从而保证了它在相当范围内的通用性，同时又能反映出不同算法的主要特征，为算法设计提供启发、指导和评价的依据。 ( 3 ) 并行计算模型使并行算法设计具有一定的生命力。算法设计者避开了多种多样的具体的并行计算机结构，依据并行计算模型来设计算法。这样，一方面可以使算法研究者集中精力在开发应用问题本身固有的并行性，分析算法性能；另一方面设计出的算法具有通用性，从而使并行算法的研究成为一项相对独立的活动。因此，研究并行计算模型具有重大意义。 1 2 并行计算模型研究现状目前，并行计算模型已经不再是仅仅受到算法研究者的密切关注，它也受到越来越多的软件设计者和硬件设计者的关注。这是因为在诸如设计问题的解决方案、软件编码、将算法转换为高效的机器指令执行序列、设计高效的执行硬件等一系列过程中，人们都对建造计算模型提出了自己的要求。冯诺伊曼模型已经成为统一通用的串行计算模型在顺序计算中取得了巨大的成功。由并行计算机系统的公共模式，是可以探索一个通用的并行计算模型的。如图卜1 ，并行计算机系统通常都是由网络连接多台计算机构成的，而每台计算机都是由微处理器、高速缓存、 d r a m 和网络接口组成。从理论上分析，跟据这种机制仍然可以寻求一个统一的并行计算模型“。 l 绪论图卜1 并行计算机系统的公共模式现存的众多并行计算模型中，基本上它们都是将某一类并行计算机的某些基本特征抽象出来而形成的。如：p r a m ( p a r a l l e lr a n d 锄 a c c e s sm a c h i n e ) 模型“”是对一类共享存储的并行机的特征抽取，它抛开通信干扰，可用于直接开发原始算法内在细粒度并行。l o g p 模型 “”是对一类分布式并行计算机的特征抽取，是基于点对点通信的一种计算模型，集中分析处理机与网络之间的瓶颈。c 3 ( c o m p u t a t i o n ， c o 衄u n i c a t i o n ，c o n g e s t i o n ) 模型“2 1 是对一类基于消息传递的分布式粗粒度系统的特征抽取，集中反映的是网络拥挤和路由影响。b 嗍 ( b 1 0 c kd i s t r i b u t e dm e m o r y ) 模型“”则是共享存储编程模式与消息传递的分布式存储系统之间的一个桥梁模型，反映的是存储系统中流水线预取等方面影响。但是，它们缺乏通用性。模型使用者迫切需要一个通用并行计算模型，在该模型上，硬件设计者可以设计多种结构的并行计算机而无须虑及被执行的软件，软件设计者能够编写各种可在此模型上有效执行的程序而无须考虑所使用的硬件。l o g p 模型“的提出正是为了解决这一问题。尽管l o g p 模型并不完美，但是与其它模型相比较却显示 4 北京交通大学硕士学位论文出了优点。与此同时，针对1 0 9 p 模型的弱点，模型研究者相继提出了一些改进的l o g p 模型n 4 呻1 ，从而能够更好地利用模型解决问题。 l o g p 是一个能很好地符合并行计算机系统公共模式的并行计算模型。它与p r a m 模型和b s p 模型的最大不同之处就在于它没有显式同步操作。根据技术发展的趋势，未来的并行计算机发展的主流之一是大规模并行计算机( m a s s i v e l yp a r a l l e lp r o c e s s o r ，简单记为m p p ) 啪1 ，它是由上千个功能强大的处理器存储器节点，通过受限带宽和可观延迟的互联网络构成。所以建立并行计算模型应该充分考虑此情况，这样基于此模型的并行算法才能够在现有的和未来的并行计算机上有效运行。相对于p r a m 模型和b s p 模型而言，l o g p 是最具有实际意义的并行计算模型。过去对l o 驴模型的研究，主要是从理论分析的角度，对其参数进行分析研究，通过增加或者减少其参数个数来优化并行程序设计，提高通信带宽。至今为止，最好的一种扩展是l o g g p 模型“，它是通过在l o g p 引入一个长消息的的线性机制扩展而来，该模型充分抽取了并行机最重要的方面处理器之间的通信，迫使算法设计者关注数据布局和消息分组的问题。最近的一些研究可以参考文献 2 3 6 7 ，由于l o g p 模型微观通信所涉及参数较多，基于l o g p 模型微观通信涉及的算法分析比较复杂，所以这种研究是顺应应用要求的。 1 3 论文研究内容本文将结合m p i 的通信模式以l o g g p 并行计算模型的长消息通信 5 l 绪论机制为核心展开研究，通过分析l o g g p 模型的长消息传递机制，对 l o g g p 模型进行改进，对模型改进前后的参数和通信开销进行评估。并根据m p i 程序设计的特点，制定通信时间测量规范和通信时间测量方法，然后在曙光t c l 7 0 0 集群服务器进行实际测量，根据测试数据对l o g g p 模型改进前后的长消息通信性能进行分析。 1 4 论文的组织结构论文的组织结构如下：第一章简要介绍了论文的研究背景，并行计算模型研究现状和研究内容。第二章主要介绍了1 0 9 p 模型和l o 酊p 模型，对两个模型的参数进行了分析和讨论，通过与p r a m 模型和b s p 模型的对比、分析，总结了l o g p 模型的特点。通过比较l o g p 模型和l o g g p 模型的长消息通信机制，总结了l o g g p 模型的长消息通信的优点和性质。第三章提出了l o g g p 模型改进的目标，给出了改进模型的方法，并分析了改进后模型的通信开销。第四章分析了l o g g p 模型在集群环境中指导m p i 编程时同步通信的不一致性，结合押i 的四种典型的通信模式，给出了集群环境中 l o g g p 模型的通信开销评估方法。第五章设计了并行测试程序，制定了通信时间测量规范和通信时间测量方法，在曙光t c l 7 0 0 集群服务器上对改进前后l o g g p 模型的参数进行了实际的测量，对测量结果进行了详细的分析，得到了结论。 6 北京交通大学硕士学位论文第六章是论文的总结和所得出的结论。 2l o g p 模型概述 2l o g p 模型概述并行技术发展使并行机正趋向于这样一个系统：由简单独立的计算机集合组成，每个计算机包括一个微处理器、c a c h e 高速缓冲存储器和一定规模的动态随机访问存储器( d r a m ) ，由一个高性能的通信网络连接。并且这种趋势随着小规模计算机日益占领更多的市场而加速发展。在这样一个系统中，通过网络接口的通讯带宽远远滞后于处理机与存储器内部带宽，虽然接口技术正在改进，但处理机速度却发展得更快，所以必须把延迟和通讯以及有限的带宽仍然作为并行计算机的瓶颈。并行机的发展趋势和算法设计要求导致l o g p 模型的提出。l o g p 模型摒弃了机器的特殊问题而通过四个参数来描述和强调并行计算机的共性问题：通信延迟( l ) 、通信开销( o ) 、通信带宽( g ) 和处理机数目( p ) 。在l o g p 模型提倡的方法中，一个好的算法就是按照这些参数使一种策略具体化以适应不同的机器。 2 1 l o g p 模型 2 1 1 l o g p 模型的定义 l o g p 模型由d c u l l e r 等人提出”3 ，与p r a m 模型和b s p 模型的最大不同之处就在于它没有显式同步操作。根据技术发展的趋势，2 0 世纪9 0 年代末和未来的并行计算机发展的主流之一是大规模并行计算机( m a s s i v e l yp 8 r a l l e lp r o c e s s o r ，简单记为m p p ) 口町，它是由上千个功能强大的处理器存储器节点，通过受限带宽和可观延迟的互北京交通大学硕士学位论文联网络构成。所以建立并行计算模型应该充分考虑此情况，这样基于此模型的并行算法才能够在现有的和未来的弗行计算机上有效运行。在此情况下，一个以m p p 为背景的计算模型l o g p 模型被提出来。 l o 驴模型由以下四个参数描述： l ( l a t e n c y ) 表示在网络中源处理器与目的处理器进行消息通信所需要等待或延迟时间的上限： o ( o v e r h e a d ) 表示处理器发送或者接收一条消息所需要的额外开销( 包含操作系统核心开销和网络软件开销) ，在此期间处理器不能执行其它操作； g ( g a p ) 表示一个处理器连续两次进行发送或者接收消息的最小时间间隔； p ( p r o c e s s o r ) 表示处理器存储器模块对数。 g 的倒数为处理器的通信带宽，l 和g 反映了通信网络的容量。l 、 o 和g 都可以表示成处理器周期的整数倍。( 假定一个周期完成一次局部操作，并定义为一个时间单位) 。可以看出，l o g p 模型是一种分布存储的点到点通信的多处理器模型。它使用l 、o 、g 三个参数刻画了通信网络的特性，但是却屏蔽了网络拓扑、选路算法和通信协议等具体细节。本质上讲，通信网络可以看作是一个启动率为g 、延迟为l 、端点处理器开销为。的流水线部件；网络的容量假定是有限的，在任何时刻至多只能有玩条消息从一个处理器到另外一个处理器，且任何消息均可以在有限但非确定的时间内到达目的地；在网络容限范围 9 2l o g p 模型概述内，点到点传输一条消息的时间为历也。 l o g p 模型在计算通信时间时屏蔽了拓扑结构对网络性能的影响。这是因为通过对具有上千个节点的网络( 如超立方、蝶形网、网孑l 、胖树等) 的平均距离分析，发现它们的差别相对于整个消息传输时间的影响是很小的。在网络空载或轻载时，通信接口部件对于系统性能的影响更大，在网络超载时，则会出现竞争资源的现象，使得等待时间迅速增加，所以l o g p 模型对网络的容量加以限制。同时l o g p 模型使用了无竞争的通信模式，因为这种模式重复传输时可以利用整个带宽，而其它的通信模式往往依赖于选路算法、路由器缓存器数量和互联拓扑结构。另外作为推广，针对特定的通信模式可以采用适当的参数g 进行算法分析。 l o g p 模型鼓励编程人员采用一些好的策略，如作业分配，计算与通信的重叠以及平衡的通信方式等等，但是这在另一方面，却增加了编程者的负担。编程人员需要很强的技巧性，要对每个处理器的局部计算进行仔细安排，以在网络通信能力的限制范围内将通信操作和计算操作尽可能重叠起来，此外还需要妥善分配处理器，以减少对通信带宽的要求和降低远程访问的频率。综上所述，l o g p 模型将现在和将来的并行计算机的特性进行了精确的综合，以少量的参数刻画了并行计算机的主要瓶颈，其详尽程度足以反映并行算法设计时的主要问题，而其简捷性也足以支持详细的算法分析。 1 0 北京交通大学硕士学位论文 2 _ 1 。2l o g p 通信机制分析 1 0 9 p 模型的消息传递机制如图2 1 所示。 1 卜q 发送、发送、b li 接收图2 一ll o g p 模型中的消息传递机制。2 1 并行程序的执行时问t 。由两部分组成，一个计算部分t 。和一个通信部分t 即有： t 。2 t 。+ t 。一其中计算时间可使用类似于顺序算法的方法加以推算，而通信时间依赖于许多因素，包括网络延迟和网络竞争，因而无法用一个简单的方程来表示。作为最基本的近似，我们将使用下列公式： t 一2t 。t ”t + n t h t 。其中t 。是表示发送一个数据字所需要的传送时间。t 。为启动时间，也成为消息时延，l o g p 模型中就是参数。就是t 。，它是发送不包含数据的消息所需的时间，包括在源进程处将消息打包以及在 2l o g p 模型概述目的进程除将消息解包所需的时间，t 。的值由所使用的网络协议所决定。发送处理器发送一个消息后到发送下一个消息之间的g o 空闲时间是网络竞争形成的。 2 1 2 参数讨论一个实际的并行机有其具体的执行特征，同时又必须为算法设计和分析提供一个合理框架。一个参数过少的模型不可能完整地描述所有的并行机，而用一个很大的参数集对感兴趣的算法进行分析也很困难且无必要，l o g p 模型对参数的特殊选择表示了二者之间的一种折衷，参数取舍刚好为二者间的一个适中点。 l o g p 模型的4 个参数l 、o 、g 、p ，其中，l 、g 反映了互连网络传送消息的平均固有性能，o 反映了处理机对网络协议的处理能力，p 为处理机数。实际上，因为并不是任何情况下这些参数都同等重要，所以并不是只要采用l o g p 模型都必须全部用上这四个参数。与现实的并行系统相结合时，经常可以忽略一、二个甚至三个参数，获得一个更简单的模型。例如，在一个数据传输量很少的算法中，就可以忽略网络的带宽和容量限制，从而可以忽略l 、o 、g 三个参数。另外，在有些系统中，采用网络信息管道来发送很长的字节流，这样，信息传输时间中，信息之问的时间间隔占主要地位，而延迟时间可以忽略，所以，l 可以略去。在某些并行机中，处理机的通信开销对于通信间隔起了支配作用，因此g 可以忽略。一种简单的近似技术是增加。使其与g 一样大，从而可以忽略g ，而用至多为2 倍的。来计算。北京交通大学硕士学位论文但是，从另一方面来说，去掉某些参数来简化模型会产生漏洞，算法设计者使用简化模型时，可能会导致错误的性能估计。 2 2l o g p 模型与p r 删模型、b s p 模型的比较 2 2 1l 昭p 模型v sp r a 哺模型 p r a m 模型。”是从顺序计算的冯诺伊曼( 随机存取机器r a n d o m a c c e s sm a c h i n e ，简记为r a m ) 模型直接类比得到的。作为一种理想化的并行计算模型，它假定存在着一个容量无限大的共享存储器和有限或者无限个功能相同的处理器，每台处理器均具有简单的算术运算和逻辑判断功能，任何时刻各个处理器都可以通过共享存储单元相互交换数据。在p r a m 模型里，所有处理器是蕴式同步的，同步开销假设为零。通过读写共享变量进行通信，通信开销忽略不计。另外，并行性开销也不考虑。因此p r a m 模型唯一考虑的开销是负载不平衡开销。可见，p r a m 模型保持了简单性，它被广泛用来分析并行算法复杂性，特别适用于并行算法的表达、分析与比较。它使用简单，很多并行机的低级细节如处理器间通信、存储管理和进程同步等都隐含于模型中；算法设计者可以容易地设计算法，并且稍加修改就可以运行在不同的并行计算机上。根据实际需要，有可能在p r a m 模型中加入一些诸如同步和通信等需要考虑的问题。与p r m 蟆型相比，l o g p 模型要复杂得多。可以说，l o g p 和p r a m 模型是并行计算模型的两个极端。l o g p 模型面向消息传递和分布式存储，并利用l 、o 、g 、p 四个参数较好的反映了现实世界中并行计算 2l o g p 模型概述机的体系结构。如果使l o g p 模型的参数g = o ，l = o ，o = o ，那么它就可以等同于p r a m 模型。p r a m 模型是一个理想化的模型，完全忽略了通信和同步开销。在p r a m 模型里，所有处理器是蕴式同步的，同步开销假设为零。通过读写共享变量进行通信，通信开销忽略不计，并行性开销也不考虑。 p r a m 模型是同步的，意味着所有的指令都按照锁步方式操作，这种方法比较费时，不能反映现实系统的异步性；它假定共享单一存储器，不适合分布存储的异步的m i m d 机器；它假定每个处理器都可以在单位时间内访问任何存储单元而忽略了存取竞争和有限带宽是不现实的；它假设处理器有限或无限，对并行任务的增大不加限制，也是不现实的。因为p r a m 模型对零通信开销和指令级同步的不现实假设，所以它并不能够真实反映实际的并行计算机，至今它未被用于实际的并行计算机。相比之下，l o g p 模型过于复杂，缺乏有效的分析和性能预测的模型，而p r a m 则过于简单，无法真实地描述物理机器。另一方面，并行计算模型作为对现实世界的抽象，必须能便于我们进行理论分析和算法设计，因此它应该尽量简单。p r a m 模型由于其简单性，它被广泛用来分析并行算法复杂性，特别适用于并行算法的表达、分析与比较，很多并行机的低级细节如处理器间通信、存储管理和进程同步等都隐含于模型中；算法设计者可以容易地设计算法，并且稍加修改就可以运行在不同的并行计算机上。根据实际需要，有可能在p r a m 模型中加入一些诸如同步和通信等需要考虑的问题。但是，l o g p 模型并非因为其复杂性而不能使用。l o 妒模型将现 1 4 北京交通大学硕士学位论文在和将来的并行计算机的特性进行了精确的综合，以少量的参数刻画了并行计算机的主要瓶颈，其详尽程度足以反映并行算法设计时的主要问题，而其简捷性也足以支持详细的算法分析。l o g p 模型的可用性已经由诸如播送、求和、f f t 、排序、图的连通性等算法得以证实，它已经打开了研究模型的新途径，不仅为算法设计者提供了设计适合于近代并行计算机的巨量并行算法的手段，而且对设计并行计算机的体系结构也提供了指导性意见。 2 2 2l o g p 模型v s 盼p 模型 b s p ( 块同步并行) 模型“”定义一个并行结构由以下三个部分组成：一组处理器存储器模块对：实现处理器存储器模块对之间点到点传递信息的选路器；执行同步所有处理器存储器模块对的全局通信机制。根据上述情况，b s p 计算模型设定了三个定量参数： p 表示处理器数量； g 表示选路器吞吐率，也称带宽因子； l 表示全局路障同步之间的时间间隔。一个基于b s p 模型的算法由若干个超步( s u p e r s t e p ) 组成，在各个超步之间用一个同步划分。 1 5 2l o g p 模型概述务门口门口” 全局通信路障同步图2 _ 2 超步示意图如图2 2 所示，每个超步分成有序的三个阶段： ( 1 ) 局部计算：若干个处理器并行地完成分配给自身的计算任 ( 2 ) 全局通信：处理器之间相互通信，交换数据，协调动作； ( 3 )障碍同步：确保通信过程中交换的信息被传送到目的处理器上，并使所有处理器达到一种可知的、一致的状态。 b s p 计算模型的一个超步里，每个计算操作只使用它自身局部存储器中的数据。这些数据或在程序启动时，或由以前超步中的通信操作将其存放到局部存储器中。所以一个进程的计算操作与其它进程无关。通信总是以点对点方式进行，因此不允许多个进程在同一周期对同一存储单元进行读写。因为采用路障同步，在一个超步中，所有存储器和通信操作必须 1 6 北京交通大学硕士学位论文全部完成后，才能开始下一超步中的任何操作。所有这些意味着b s p 计算模型具有顺序一致性存储器模型。 b s p 模型是个分布存储的m i m d 计算模型。它不需要任何特殊的交互机制，可以是共享变量或是消息传递。它有一个单地址空间，一个处理器不但能够访问它的局部存储器，而且能够访问在任何节点上的任何远程存储器。 l o g p 模型采用的参数最多，也是现有的并行计算模型中最复杂的。b s p 模型引入了路障同步机制，并且忽略了发送和接收消息的额外开销d ，它在某种程度上可以看成l o g p 模型的简化。如果在l o g p 计算模型中加上路障( b a r r i e r ) 同步而去除个体通信所造成的开销 ( 0 v e r h e a d ) 就变成了b s p 计算模型“，即： l o g p + b a r i i e r o v e r h e a d = b s p 因此在本质上来讲，b s p 与l o g p 是等效的，而且二者可以互相模拟伽。用b s p 去模拟l o g p 所进行的计算时，通常会慢常数倍；而用 l o 驴去模拟b s p 所进行的计算时，通常会慢对数倍。 l o 妒模型和b s p 模型的区别并不仅限于此。l o g p 模型侧重于用局部的观点来描述并行计算机，模型中的许多参数都和各处理机的具体情况有关。相比之下，b s p 模型是基于大块同步的，它用更加全局的观点来看待并行计算机。b s p 模型中参数l ，g 都重在描述和整个并行计算机有关的行为。与b s p 模型相比，l o g p 算法的设计技巧性很强，要对每个处理器的局部计算步进行仔细安排，以在网络通信能力的限制范围内将通信 2l o g p 模型概述操作和计算操作尽可能重叠起来；要妥善分配处理器，以减少对通信带宽的要求和降低远程访问的频率。不同的l o g p 算法其设计技巧亦不同，基本上无章可循。 2 3 l o g g p 模型 2 3 1l o g p 模型的不足之处 l o g p 模型充分考虑了网络性能和通信带宽，能够有效地指导并行程序设计，有着独到的优越性。通过试验数据的验证“。，在只发送短消息的情况下，l o g p 模型可以准确预测通信性能。然而，许多并行机对长消息提供了特殊的支持，相对于短消息来说，长消息可以获得更高的通信带宽。为了支持长消息，加利福尼亚大学的a 1 b e r t 博士通过引入一个长消息的线性模型将l o 妒扩展为l o g g p 模型“，该模型充分抽取了并行机最重要的方面处理器之间的通信，迫使算法设计者关注数据布局和消息分组的问题。 2 3 2l o g g p 模型 l o g g p 模型不仅对长消息可以建模，而且对短消息也可以建模。其通信性能用下面的参数进行刻画： l ( l a t e n c y ) ：延迟的上界，表示从源处理器发送一个消息到目的处理器的时间。 o ( 0 v e r h e a d ) ：表示处理器在发送或接收一条消息所需的额外开销，在此期间它不能进行其他的操作。 g ( g a p ) ：消息之问的间隔，表示处理器可以连续进行消息发送或 1 8 北京交通大学硕士学位论文接收的最小时间间隔。 g ：长消息中每个字节的间隔，表示长消息中每个字节所需的时问。 p ：处理器存储器模块的数目。 g 的倒数对应于长消息的通信带宽，g 的倒数对应于短消息的通信带宽。l o g g p 模型的五个参数都可以用处理器周期的整数倍来表示，该模型隐含了另一个参数，每个消息的大小w 。在描述并行机的特性时，把g 定义成每个字节的时间是最自然的。然而，有时候更容易的把g 表示成每个大小为w 字节的项的间隔。在l o g g p 模型中，认为接收消息的处理器只在整条消息到达之后才对消息进行访问，同时假设一个单端口模型，在任意给定的时间，一个处理器只能发送或接收一条单独的消息。 l o g g p 模型克服了l o g p 模型的仅支持短消息的不足之处，能够同时支持短消息和长消息，刻画具体机器更为实际，使得并行程序设计者能够高效地设计和分析算法。 2 3 3 两个模型的比较 l o g g p 模型扩展了l o 驴模型，继承了l o g p 模型的基本特征，两者之间在通信模型、基本参数上是一致的。l o g g p 模型和l o g p 模型的通信模型都是某个固定大小的点到点通信。与l o g p 模型一样，l o g g p 也可能经常使用其中一部分参数，获得一个更简单的模型。由于l o g g p 长消息机制的引入，两者之间在消息传递机制方面具 2l o g p 模型概述有不同之处。 l o g p 模型仅支持短消息传递j 其消息传递机制见节2 1 _ 2 图2 1 。在两个处理器之间发送一条短消息需要d 吐幻个周期。其中发送处理器中用d 个周期，传输延迟使用个周飙在接收处理器中使用另外d 个周期。 r 只 b i o c i g i g i g i g i gl i o 1 6 ig i g l s d 驾羹慕、矧、毽蕊蕊沁：。沁一r e c e i v e i 。j r e c e i v es 肌d p 0 ，p l ，p 2 表不处理器图2 3l o g g p 模型中的消息传递机制“” l o g g p 模型的消息传递机制如图2 2 所示。发送一条七字节的长消息需要d 十倍一觎切个周期。发送处理器使用了d 个周期，接着的送出的每个字节都需要g 个周期。最后一个字节在d 手伍叫占时刻送出。传输延迟使用了个周期。最后，接收处理器需要d 个周期的开销。发送处理器和接收处理器只有在d 个周期的额外开销中才是忙碌的，剩下的时间内计算和通信重叠。至今为止，l o g g p 模型是扩展l o g p 模型的最好的一种方式“。增加的带宽参数引吏得该模型处理长消息更为实际，参数d 、占和口抽北京交通大学硕士学位论文取了不同形式的通信瓶颈：d 抽取了处理器在发送和接收消息中使用的时间，占反映了长消息通信网络对每个处理器的带宽，而g 抽取了网络的启动瓶颈。可见，l o g p 模型仅支持短消息，而l o g g p 模型不仅支持短消息，也支持长消息，可以用l g 和l g 分别刻画短消息通信带宽和长消息通信带宽：对于消息长度t ，当七；1 时，l o g g p 模型就变成了l o g p 模型，所以l o 蜘p 模型比l o 驴模型具有更好的通用性。研究表明，影响l o g g p 模型通信性能的重要一点是发送长消息时没有考虑到同步。为了提高l o g g p 模型的通信性能，可以对l o g g p 模型进行改进，将在第三章详细论述改进的方法。 2 4 本章小结本章首先介绍了l o g p 模型，通过对l o g p 模型的通信机制分析，剖析了参数l ，o ，g 的网络开销的内涵，并对l o g p 模型参数进行了讨论，并将l o g p 模型与p r a m 模型和b s p 模型进行对比分析，总结了三种模型的特点：然后介绍了1 0 9 g p 模型，对比分析了l o g p 模型和 1 0 9 g p 模型的消息通信机制，总结了两个模型之间的异同点和长消息通信的性能优点；最后，由于1 0 9 g p 模型长消息通信没有考虑到同步，提出可以对1 0 9 g p 模型再进行改进。 2 l 3 改进的l o g g p 模型 3 改进的l o g g p 模型 3 1 模型改进的目标集群系统的诞生源于美国国家航空和宇航局的b e o w o l f 项目和 b e r k e l e y 人学的n 0 w 项日。它足利用高速网络把一组工作站或p c 机按照某种结构连接起来，并存并行系统软件的支持下实现高效并行处理的系统。集群的诞生被誉为并行计算机工业后次革命性事件，改变了人们对超级计算机的认识，为人类计算能力的提高开拓了一个巨大的发展空间。集群计算机具有下面的特点： ( 1 ) 使用方便，可利用原有资源。集群中每个单独的节点都是传统的平台，用户可以在熟悉的环境下开发和运行他们的应用程序。传统的平台提供了在工作站上运行的功能很强的程序设计环境工具，并且有成下上万种现成的为串行执行所开发的应用程序可供使用，这些软件可以不加修改地在集群上运行。因而可以把集群看作是一个比多个工作站吞吐量大得多、响应时问短得多的、可供多个串行用户作业使用的巨大的工作站。 ( 2 ) 可靠性高。集群中有多个存储器、处理机和磁盘部件，有一个部件出现故障，其它部件仍能使用，从而保证集群能继续工作。集群中每个节点都有自己的操作系统，一个操作系统崩溃了，其它节点仍能工作。 ( 3 ) 可扩展性好。集群的计算能力能随节点的增加而增加。集群中处理机、存储器、磁盘、甚至输入输出设备都可增减。由于节点群中处理机、存储器、磁盘、甚至输入输出设备都可增减。由于节点 2 2 北京交通大学硕士学位论文间是松耦合的，集群的节点数有可能增加到几百个甚至更多。 ( 4 ) 性能价格比高。集群的节点和互连网络等都用已商品化的计算机产品做成，能大批量生产，使成本降低。正是具备这些特点，集群系统已成为国内外学术界和工业界竞相研究开发的热点。集群计算机作为全体计算机节点的集合，这些节点由高速网络物理地互连。典型情况下，它的每个计算节点都有自己的处理器、存储设备，这与l o g p 并行计算模型对并行计算机结构的抽象是完全一致的。目前在集群计算机上，主要使用消息传递的方式进行并行计算，而最流行的消息传递平台无疑是消息传递界面( m e s s a g ep a s s i n g i n t e r f a c e ，简记为m p i ) 平台“。与其它平台相比，m p i 平台具有很多优点： ( 1 ) 具有很好的可移植性，几乎被所有的并行环境所支持； ( 2 ) 具有很好的可扩展性，是目前高效率的大规模并行计算( 数百个处理器) 最可信赖的平台； ( 3 )比其它消息传递系统好用，具有很好的可开发性； ( 4 ) 具有完备的异步通信功能，为使用者提供了强大帮助； ( 5 ) 有精确的定义，为并行软件产业的发展提供了必要条件。目前，1 6 p i 平台得到并行计算机供应商、库编写者及应用专家的联盟的广泛支持，已经成为业界标准。 3 改进的l o g g p 模型在m p i 平台上进行l o g g p 程序设计时，存在的一个问题就是长消息通信时必须考虑到同步，有必要对l o g g p 模型的长消息通信机制进行分析，获得影响l o g g p 长消息通信性能的因素，对l o g g p 模型进行改进，以使其更有效地指导集群计算机下m p i 平台上的并行计算。 3 2 模型改进的方法研究表明，影响l o g g p 模型通信性能的重要一点是发送长消息时没有考虑到同步。文献 1 ，4 ，1 4 ，1 7 使用1 0 9 g p 模型来分析m p i 程序的性能。文献 1 ，1 4 讨论了在发送长消息时的同步通信，文中假设发送处理器在最短的时间内和接收处理器进行同步通信，把同步通信开销归入到额外开销。中，并且对于任意长度的消息都设为一个常量值，但是，由于发送者并不总是和接收者在最短的时间内同步通信，且对于不同长度的消息其开销也是

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）loggp模型的同步通信性能分析与评测.pdf

文档简介

温馨提示

最新文档

评论

相关文档