[计算机硬件及网络]第1章并行计算机系统及其结构模型下.ppt_第1页
[计算机硬件及网络]第1章并行计算机系统及其结构模型下.ppt_第2页
[计算机硬件及网络]第1章并行计算机系统及其结构模型下.ppt_第3页
[计算机硬件及网络]第1章并行计算机系统及其结构模型下.ppt_第4页
[计算机硬件及网络]第1章并行计算机系统及其结构模型下.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,分布式系统开发,计算机学院计算机科学与技术系 主讲:陈 蕾 E-mail: ,2,第一章 并行计算机系统及结构模型,1.1 并行计算导论 1.2 并行计算机系统互连及其结构模型 1.2.1 系统互连 1.2.2 静态互联网络 1.2.3 标准互联网络 1.2.4 并行计算机系统模型,3,1.2 并行计算机系统互连,不同带宽与距离的互连技术: 总线、SAN、LAN、MAN、WAN,4,网络性能指标,并行机规模:并行机包含的结点总数,或者包含的CPU总数; 结点度:互联网络拓扑结构中联入或联出的一个结点的边的条数,称为该结点的度; 结点距离:两个结点之间跨越的图的边的条数; 网络直径:网络中任意两个结点之间的最长距离; 点对点带宽:图中边对应的物理联接的物理带宽; 点对点延迟:图中任意两个结点之间的一次零长度消息传递必须花费的时间。延迟与结点间距离相关,其中所有结点之间的最小延迟称为网络的最小延迟,所有结点之间的最大延迟称为网络的最大延迟; 折半宽度:对分网络成两个部分(它们的结点个数至多相差1)所必须去掉的边的网络带宽的总和; 总通信带宽:所有边的带宽之和;,5,网络性能评价: 大:结点度、点对点带宽、折半宽度、总通信带宽; 小:网络直径、点对点延迟;,6,静态互连网络,静态互连网络:处理单元间有着固定连接的一类网络,在程序执行期间,这种点到点的链接保持不变;典型的静态网络有一维线性阵列、二维网孔、树连接、超立方网络、立方环、洗牌交换网、蝶形网络等,7,静态互连网络(1),一维线性阵列(1-D Linear Array): 并行机中最简单、最基本的互连方式, 每个节点只与其左、右近邻相连,也叫二近邻连接, N个节点用N-1条边串接之,内节点度为2,直径为N-1,对剖宽度为1 当首、尾节点相连时可构成循环移位器,在拓扑结构上等同于环,环可以是单向的或双向的,其节点度恒为2,直径或为n/2 (双向环)或为N-1(单向环),对剖宽度为2,8,静态互连网络(2),二维网孔(2-D Mesh): 每个节点只与其上、下、左、右的近邻相连(边界节点除外),节点度为4,网络直径为 ,对剖宽度为 在垂直方向上带环绕,水平方向呈蛇状,就变成Illiac网孔了,节点度恒为4,网络直径为 ,而对剖宽度为 垂直和水平方向均带环绕,则变成了2-D环绕(2-D Torus),节点度恒为4,网络直径为 ,对剖宽度为,9,静态互连网络(3),二叉树: 除了根、叶节点,每个内节点只与其父节点和两个子节点相连。 节点度为3,对剖宽度为1,而树的直径为 如果尽量增大节点度为 ,则直径缩小为2,此时就变成了星形网络,其对剖宽度为 传统二叉树的主要问题是根易成为通信瓶颈。胖树节点间的通路自叶向根逐渐变宽。,10,静态互连网络(4),超立方 : 一个n-立方由 个顶点组成,3-立方如图(a)所示;4-立方如图(b)所示,由两个3-立方的对应顶点连接而成。 n-立方的节点度为n,网络直径也是n ,而对剖宽度为 。 如果将3-立方的每个顶点代之以一个环就构成了如图(d)所示的3-立方环,此时每个顶点的度为3,而不像超立方那样节点度为n。,11,标准互联网络(1),Myrinet: Myrinet是由Myricom公司设计的千兆位包交换网络,其目的是为了构筑计算机机群,使系统互连成为一种商业产品。 Myrinet是基于加州理工学院开发的多计算机和VLSI技术以及在南加州大学开发的ATOMIC/LAN技术。Myrinet能假设任意拓扑结构,不必限定为开关网孔或任何规则的结构。 Myrinet网使用全双工SAN链路,最长可达3米,峰值速率为(1.281.28)Gbps(目前有2.56+2.56) Myrinet主机接口 : 32位的称作LANai芯片的用户定制的VLSI处理器,它带有Myrinet接口、包接口、DMA引擎和快速静态随机存取存储器SRAM。 140 of the November 2002 TOP500 use Myrinet, including 15 of the top 100,12,标准互连网络(2),高性能并行接口(HiPPI) Los Alamos国家实验室于1987年提出的一个标准,其目的是试图统一来自不同生产商生产的所有大型机和超级计算机的接口。 1993年,ANSI X3T9.3委员会认可了HiPPI标准,它覆盖了物理和数据链路层,但在这两层之上的任何规定却取决于用户。 HiPPI是个单工的点到点的数据传输接口,其速率可达800Mbps到1.6Gbps。 开发成功了一种能提供潜在的6.4Gbps速率,比HiPPI快8倍且有很低时延的超级HiPPI技术, SGI公司和Los Alamos国家实验室都开发了用来构筑速率高达25.6Gbps的HiPPI交换开关的HiPPI技术。,13,标准互连网络(3),光纤通道FC(Fiber Channel) : 光纤通道既可以是共享介质,也可以是一种交换技术 光纤通道操作速度范围可从100到133、200、400和800Mbps。FCSI厂商也正在推出未来具有更高速度(1、2或4Gbps)的光纤通道 光纤通道的价值已被现在的某些千兆位局域网所证实,这些局域网就是基于光纤通道技术的 连网拓扑结构的灵活性是光纤通道的主要财富,它支持点到点、仲裁环及交换光纤连接 FDDI : 光纤分布式数据接口FDDI(Fiber Distributed Data Interface) FDDI采用双向光纤令牌环可提供100-200Mbps数据传输速率 FDDI具有互连大量设备的能力 传统的FDDI仅以异步方式操作,14,标准互联网络(4),ATM(Asynchronous Transfer Mode): 由成立于1991年的ATM论坛和ITU标准定义。 ATM是一种独立于介质的消息传输协议,它将消息段变成更短的固定长度为53字节的报元进行传输。 这种技术是基于报元交换机制。ATM的目的是将实时和突发数据的传输合并成单一的网络技术。 ATM网络支持从25到51、155和622Mbps不同的速率,其速率越低ATM交换器和使用的链路价格越低。,15,标准互连网络(5),16,并行计算机系统结构,从系统结构的角度,并行计算机一般可以分为6类: 1、单指令流多数据流计算机SIMD(Single Instruction stream Multiple Data stream) 2、并行向量处理机PVP(Parallel Vector Processor) 3、对称多处理机SMP(Symmetric Multiprocessor) 4、大规模并行处理机MPP(Massively Parallel Processor ) 5、工作站机群COW(Cluster Of Workstations,也称为Network Of Workstations,NOW) 6、分布式共享存储多处理机DSM(Distributed Shared Memory)。 这6种中,除了SIMD外,其余5种均属于MIMD计算机。,17,SIMD计算机其结构如下图所示,其中PE表示处理单元,P表示处理器,M表示存储器。,SIMD中通常包含大量处理单元PE,而控制部件只有一个。控制部件广播一条指令,所有的处理单元同时执行这条指令,但不同的处理单元操作的数据可能不同。,18,并行向量处理机 PVP,在并行向量处理机中有少量专门定制的向量处理器。每个向量处理器有很高的处理能力。并行向量处理机通过向量处理和多个向量处理器并行处理两条途径来提高处理能力。Cray C-90、Cray T-90、NEC SX-4和我国的银河1号都是PVP。 PVP通常使用定制的高带宽网络将向量处理器连向共享存储器模块。存储器可以以很高的速度向处理器提供数据。例如,在Cray T-90中,共享存储器能以14GB/s的速率将数据提供给一个处理器。这种机器通常不使用高速缓存,而是使用大量的向量寄存器和指令缓冲器。,19,并行向量处理机其系统结构如下图所示。图中VP表示 向量处理器,SM表示共享存储器。,20,对称多处理机 SMP,对称多处理机的最大特点是其中的各处理器完全平等,无主从之分。所有的处理器都可以访问任何存储单元和I/O设备。存储器一般使用共享存储器,只有一个地址空间。因为使用共享存储器,通信可用共享变量(读写同一内存单元)来实现。这使得编程很容易。 典型的对称多处理机有Sun SPARC server 10000,Sun SPARC center 2000,SGI Power Challenge以及我国的曙光1号。SMP广泛地用于服务器领域。,21,SMP的结构如下图所示。P/C表示处理器和高速缓存,SM表示共享存储器。,22,大规模并行处理机 MPP,大规模并行处理机一般指规模非常大的并行计算机系统,含有成千上万个处理器。它一般采用分布的存储器,存储器一般为处理器私有,各处理器之间用消息传递的方式通信。 大规模并行处理机的互连网络一般是专门设计定制的。典型的MPP有Intel Paragon、IBM SP2以及Option Red、曙光1000等。,23,MPP的结构如下图所示。其中MB表示存储器总线,P/C表示处理器 和高速缓存,NIC表示网络接口电路,LM表示本地存储器。 NIC是用来将计算机与网络(例如局域网)连接起来的接口电路。 它的功能有:将消息格式化、路由选择、流和错误控制等。,24,分布式共享存储器多处理机 DSM,分布式共享存储器多处理机的主要特点是它的存储器在物理上是分布在各个结点中的,但是通过硬件和软件为用户提供一个单一地址的编程空间,即形成一个虚拟的共享存储器。 DSM相对于MPP的优越性是编程较容易。 它通过高速缓存目录支持分布高速缓存的一致性。DSM与SMP的区别在于各结点内有存储器,与MPP的区别在于存储器在逻辑上是共享的。 典型的DSM有Stanford DASH、SGI/Cray Origin 2000。,25,DSM的结构如下图所示,其中DIR表示高速缓存目录,其它符号同前。,26,工作站机群,工作站机群是一种新兴的并行系统。COW是由高档商品微机(包括工作站)用高速商品互连网络(有的商用机群也使用定制的网络)连接而成。 COW的每个结点都是一台完整的计算机(可能没有鼠标、显示器等外设)。 COW的每个结点上都有完整的操作系统,而MPP的每个结点上通常只有操作系统的微核。 COW的每个结点内有本地磁盘,而MPP的结点内没有。 COW各结点的网络接口是连接到I/O总线上的(松耦合),而MPP各结点的网络接口是连接到存储总线上的(紧耦合)。,27,COW的结构如下图所示,其中LD表示本地磁盘,B表示存储总线与I/O总线的接口,IOB表示I/O总线。,28,并行计算机结构模型,29,并行计算机体系合一结构,SMP、MPP、DSM和COW并行结构渐趋一致。 大量的节点通过高速网络互连起来 节点遵循Shell结构:用专门定制的Shell电路将商用微处理器和节点的其它部分(包括板级Cache、局存、NIC和DISK)连接起来。优点是CPU升级只需要更换Shell。,30,并行计算机访存模型(1),UMA(Uniform Memory Access)模型是均匀存储访问模型的简称。其特点是: 物理存储器被所有处理器均匀共享; 所有处理器访问任何存储字取相同的时间; 每台处理器可带私有高速缓存; 外围设备也可以一定形式共享。,31,并行计算机访存模型(2),NUMA(Nonuniform Memory Access)模型是非均匀存储访问模型的简称。特点是: 被共享的存储器在物理上是分布在所有的处理器中的,其所有本地存储器的集合就组成了全局地址空间; 处理器访问存储器的时间是不一样的;访问本地存储器LM或群内共享存储器CSM较快,而访问外地的存储器或全局共享存储器GSM较慢(此即非均匀存储访问名称的由来); 每台处理器照例可带私有高速缓存,外设也可以某种形式共享。,32,并行计算机访存模型(3),COMA(Cache-Only Memory Access)模型是全高速缓存存储访问的简称。其特点是: 各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间; 利用分布的高速缓存目录D进行远程高速缓存的访问; COMA中的高速缓存容量一般都大于2 级高速缓存容量; 使用COMA时,数据开始时可任意分配,因为在运行时它最终会被迁移到要用到它们的地方。,33,并行计算机访存模型(4),CC-NUMA(Coherent-Cache Nonuniform Memory Access)模型是高速缓存一致性非均匀存储访问模型的简称。其特点是: 大多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论