计算机系统结构第6章.ppt

上传人：m*** IP属地：河南上传时间：2020-03-14 格式：PPT 页数：112 大小：1.14MB 积分：15 举报 版权申诉

已阅读5页，还剩107页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第6章阵列处理机 6 1阵列处理机的原理6 2SIMD计算机的互连网络6 3共享主存构形阵列处理机中并行存储器的无冲突访问6 4脉动阵列处理机 6 1并行处理机原理 6 1 1阵列处理机的构形和特点 1 阵列处理机的构形阵列处理机有两种构形差别主要在于存储器的组成方式和互连网络的作用不同图6 1是采用分布式存储器的阵列处理机构形图6 1具有分布式存储器的阵列处理机构形为了高速有效地处理向量数据这种构形要求能把数据合理地预分配到各个处理单元的局部存储器中使各处理单元PEi主要用自己的局存PEMi中的数据运算分布于各PEM的数据可以经系统数据总线从外部输入也可以用控制总线经控制部件播送在执行向量指令时可使用屏蔽位向量控制让某些PE不工作不活跃运算中 PE间可通过互连网络 InterconnectionNetwork ICN 来交换数据互连网络的连通路径选择也由控制部件统一控制处理单元阵列通过控制部件接到管理处理机SC上管理处理机是一种通用机用于管理系统资源完成系统维护输入输出用户程序的汇编及向量化编译作业调度存储分配设备管理文件管理等操作的功能因此包括处理单元阵列互连网络和控制部件在内的阵列处理部分可以看成是系统的后端处理机采用这种构形的阵列处理机是SIMD的主流典型机器有ILLIAC MPP DAP CM 2 MP 1 DAP600系列等图6 2是采用集中式共享存储器的阵列处理机构形系统存储器是由K个存储分体 MM0 MMK 1 集中组成经互连网络ICN为全部N个处理单元 PE0 PEN 1 所共享为使各处理单元对长度为N的向量中各个元素都能同时并行处理存储分体个数K应等于或多于处理单元数N 各处理单元在访主存时为避免发生分体冲突也要求有合适的算法能将数据合理地分配到各个存储分体中图6 2具有集中式共享存储器的阵列处理机构形与分布式存储器构形不同的另一个地方是互连网络ICN的作用不同其互连网络是用于在处理单元与存储器分体之间进行转接构成数据通路希望各处理单元能高速灵活地动态与不同的存储分体相连使尽可能多的PE能无冲突地访问共享的主存模块因此有的阵列处理机称它为对准网络 AlignmentNetwork 采用这种构形的典型机器有BSP 2 并行处理机的特点并行处理机的单指令流多数据流处理方式和由它产生的特殊结构是以诸如有限差分矩阵信号处理线性规划等一系列计算问题为背景发展起来的这些计算问题的共同特点是可以通过各种途径把它们转化成为对数组或向量的处理而并行处理机正好利用多个处理单元对向量或数组所包含的各个分量同时计算从而获得很高的处理速度与同样擅长于向量处理的流水线处理机相比并行处理机利用的是资源重复而不是时间重叠利用并行性中的同时性而不是并发性它的每个处理单元要同等地担负起各种运算功能但其设备利用率却可能没有多个单功能流水线部件那样高因此只有在硬件价格有了大幅度下降及系统结构有了较大改进的情况下并行处理机才能具有较好的性能价格比并行理机主要是靠增大处理单元个数来提高运算速度比起向量流水线处理机主要依靠缩短时钟周期来说速度提高的潜力要大得多与流水线处理机不同的另一方面是阵列处理机使用简单规整的互连网络来确定处理单元间的连接互连网络的结构形式限定了阵列处理机可用的解题算法也会对系统多种性能指标产生显著影响因此互连网络的设计是重点阵列处理机在机间互连上比固定结构的单功能流水线灵活使相当一部分专门问题上的工作性能比流水线处理机高得多专用性强得多如果习惯上把流水线处理机归属于通用计算机的话阵列处理机则被看成是一种专用计算机它是以一定数量的专门算法为背景的另一方面由于总希望阵列处理机解题算法的适应性更强一些应用面更广一些因此与流水线处理机不同阵列处理机的结构是和采用的并行算法紧密联系在一起的如上所述阵列处理机基本上是一台专用于向量处理的计算机但并不是所有的运算都可以转化为向量运算总有不少标量运算作为整个系统的等效速度来讲除向量运算速度外在很大程度上还受标量运算速度和编译开销的大小所影响如果一台机器的向量处理速度极高甚至不受限制而标量速度只是每秒一亿次浮点运算那么对于标量运算占10 的题目来讲系统总的等效速度最多也不会超过每秒十亿次浮点运算所以提高标量的处理能力是很重要的这就要求阵列处理机系统的控制部件必须是一台具有高性能强功能的标量处理机减少标量运算对系统性能的影响至于编译时间的多少则不仅与阵列机结构有关也与机器语言的并行性程度有关特别是想要提高阵列处理机的通用性建立一个有向量化功能的高级语言编译程序就是非常必要的了正因为如此阵列处理机还必须用一台高性能单处理机作为管理计算机来配合工作运行系统的全部管理程序所以阵列处理机实质上是由专门对付数组运算的处理单元阵列组成的处理机专门从事处理单元阵列的控制及标量处理的处理机和专门从事系统输入输出及操作系统管理的处理机组成的一个异构型多处理机系统 6 1 2ILLIAC 的处理单元阵列结构由于阵列处理机上的并行算法的研究是与结构紧密联系在一起的因此下面先介绍一下ILLIAC 阵列机上处理单元的互连结构 ILLIAC 是采用如图6 1所示的分布存储器构形其处理单元阵列结构如图6 3所示其中 PUi为处理部件包含64位的算术处理单元PEi 所带的局部存储器PEMi和存储逻辑部件MLU 64个处理部件PU0 PU63排列成8 8的方阵任何一个PUi只与其上下左右4个近邻PUi 8 mod64 PUi 8 mod64 PUi 1 mod64 和PUi 1 mod64 直接相连上下同一列两端的PU连成环左右每一行右端的PU与下一行左端的PU相连最下面一行右端的PU与最上面一行左端的PU相连从而形成一个闭合的螺线形状所以称其为闭合螺线阵列在这个阵列中步距不等于 1或 8的任意单元之间可以用软件寻找最短路径进行通信其最短距离不超过7步例如信息由PU63送PU10 可经PU63 PU7 PU8 PU9 PU104步实现信息由PU9送PU45可经PU9 PU1 PU57 PU56 PU48 PU47 PU46 PU457步实现普遍来讲个处理单元组成的阵列中任意两个处理单元之间的最短距离不超过步图6 3ILLIAC 处理单元的互连结构 ILLIAC 的处理单元是累加器型运算器把累加寄存器RGA中的数据和存储器中来的数据进行运算结果保留在累加寄存器RGA中每个处理单元内有一个数据传送寄存器RGR收发数据实现数据在处理单元之间的传送并有一个屏蔽触发器用来控制让该PUi是否被屏蔽掉使之不参与向量指令的操作 6 1 3ILLIAC 的并行算法举例 1 矩阵加阵列处理机解决矩阵加是最简单的一维情况两个8 8的矩阵A B相加所得的结果矩阵C也是一个8 8的矩阵只需把A B C居于相应位置的分量存放在同一个PEM内且在全部64个PEM中让A B和C的各分量地址均对应取相同的地址 1和 2 如图6 4所示这样实现矩阵加只需用下列三条ILLIAC 汇编指令 LDAALPHA 全部由PEMi送PEi的累加器RGAiADRNALPHA 1 全部 1 与 RGAi 浮点加结果送RGAiSTAALPHA 2 全部 RGAi 由PEi送PEMi的 2单元其中 0 i 63 图6 4矩阵相加的存储器分配举例 2 矩阵乘矩阵乘是二维数组运算比矩阵加要复杂设A B和C为3个8 8的二维矩阵给定A和B 计算C A B的64个分量可用公式其中 0 i 7且0 j 7 在SISD计算机上求解可执行FORTRAN语言编写的下列程序 DO10I 0 7 DO10J 0 7 C I J 0 DO10K 0 7 10C I J C I J A I K B K J 需经I J K三重循环完成每重循环执行8次共需512次乘加的时间且每次还要包括执行循环控制判别等其它操作所需的时间如果在SIMD阵列处理机上运算可用8个处理单元并行计算矩阵C I J 的某一行或一列即将J循环或I循环转化成一维的向量处理从而消去了一重循环以消去J循环为例可执行用FORTRAN语言编写的下列程序 DO10I 0 7 C I J 0 DO10K 0 7 10C I J C I J A I K B K J 图6 5矩阵乘程序执行流程图需要说明的是其执行过程虽与SISD的类似但实际的解决方式是不同的每次控制部件执行的PE类指令表面上是标量指令实际上已等效于向量指令如向量取向量存向量加向量乘等是8个PE并行地执行同一条指令每次播送时利用阵列处理机的播送功能将处理单元PEK中累加寄存器RGAK的内容经控制部件 CU 播送到全部8个处理单元的RGA中去然而为了让各个处理单元PEi尽可能只访问所带局部存储器PEMi 以保证高速处理就必须要求对矩阵A B C各分量在局部存储器中的分布采用如图6 6所示的方案图6 6矩阵乘的存储器分配举例如果想把ILLIAC 的64个处理单元全部利用起来并行运算即把K循环的运算也改为并行还可进一步提高速度但需要在阵列存储器中重新恰当地分配数据同时还要使8个中间积A I K B K J 能够并行相加其中0 K 7 这就要用到下面的累加和并行算法即使如此就K的并行来说速度的提高也不是8倍而只是8 log28 接近于2 7倍 3 累加和这是一个将N个数的顺序相加转为并行相加的问题为得到各项累加的部分和与最后的总和要用到处理单元中的活跃标志位只有处于活跃状态的处理单元才能执行相应的操作为叙述方便取N 8 即有8个数A I 顺序累加其中0 I 7 在SISD计算机上可以写成下列FORTRAN程序 C 0 DO10I 0 7 10C C A I 这是一个串行程序需要8次加法时间在阵列处理机上用成对递归相加算法只需log28 3次加法时间即可首先原始数据A I 分别存放在8个PEM的单元中其中 0 I 7 然后按下面的步骤求累加和 1 置全部PEi为活跃状态 0 i 7 2 全部A I 从PEMi的单元读到相应PEi的累加寄存器RGAi中 0 i 7 3 令K 0 4 将全部PEi的 RGAi 转送到传送寄存器RGRi 0 i 7 5 将全部PEi的 RGRi 经过互连网络向右传送2K步距 0 i 7 6 令j 2K 1 7 置PE0 PEj为不活跃状态 8 处于活跃状态的所有PEi执行 RGAi RGAi RGRi j i 7 9 K K 1 10 如K 3 则转回 4 否则往下继续执行 11 置全部PEi为活跃状态 0 i 7 12 将全部PEi的累加寄存器内容 RGAi 存入相应PEMi的 1单元中 0 i 7 图6 7描绘了阵列处理机上累加和的计算过程框中的数字表明各处理单元每次循环后相加的结果图中用数字0 7分别代表A 0 A 7 画有阴影线的处理单元表示此时不活跃另外图中对上述第 5 步中PE的 RGRi 在右移时超出PE7的内容没有表示出来这是因为若右移步距为2K mod8 应移入PE0 PEj 而这些PE在第 7 步将要置为不活跃所以无论它的RGR接收什么内容都不会对执行结果有影响图6 7阵列处理机上累加和的计算过程 6 2SIMD计算机的互连网络 6 2 1互连网络的设计目标与互连函数在SIMD计算机中无论是处理单元之间还是处理单元与存储分体之间都要通过互连网络进行信息交换在大规模集成电路和微处理器飞速发展的今天建造多达214 216 个处理单元的阵列处理机已成为现实但如果要求任意两个处理单元之间都有直接的通路则互连网络的连线将多得无法实现因此采取让相邻的处理单元之间只有有限的几种直连方式经过一步或少量几步传送即可实现任何两个处理单元间为完成解题算法所需的信息传送 SIMD系统的互连网络的设计目标是结构不要过分复杂以降低成本互连要灵活以满足算法和应用的需要处理单元间信息交换所需传送步数要尽可能少以提高速度性能能用规整单一的基本构件组合而成或者经多次通过或者经多级连接来实现复杂的互连使模块性好以便于用VLSI实现并满足系统的可扩充性为反映互连特性每种互连网络可用一组互连函数定义如果把互连网络的N个入端和N个出端 N 2n 各自用0 1 N 1的整数编号代表则互连函数就是表示互连网络的出端号和入端号的一一对应关系定义互连网络的互连函数为对于所有的入端0 1 j N 1 同时存在入端j连至出端f j 的函数对应关系在实现处理单元间的互连时互连网络的入端和出端实际上是同一组处理单元的出端和入端对互连网络来说就是同一个结点互连函数可以直接用结点间的连线图表示但有时显得繁琐也难以体现出连接上的内在规律因此常用另一种简单的函数式表示即把所有入端x和出端f x 都用二进制编码从两者的二进制编码上找出其函数规律下面将看到这种表示的例子 6 2 2互连网络应抉择的几个问题在确定PE之间通信的互连网络时需要对操作方式控制策略交换方法和网络的拓扑结构作出抉择操作方式有同步异步及同步与异步组合三种现有的阵列处理机根据其SIMD性质均采用同步操作方式让所有PE按时钟同步操作异步或组合操作方式一般多用于多处理机典型的互连网络是由许多开关单元和互连线路组成的互连通路的路径选择是通过置定开关单元的工作状态来控制的这种置定可以有集中或分布两种控制策略多数现有的SIMD互连网络采用由集中控制部件对全部开关单元执行集中控制的策略交换方法主要有线路交换包交换及线路与包交换组合三种线路交换是在源和目的间建立实际的连接通路一般适合于大批数据传输包交换是将数据置于包内传送不用建立实际的连接通路对短数据信息传送特别有效 SIMD互连网络多采用硬连的线路交换包交换则多用于多处理机和计算机网络中网络的拓扑结构指的是互连网络入出端可以连接的模式有静态和动态两种在静态拓扑结构中两个PE之间的链是固定的总线不能重新配置成与其他PE相连而动态拓扑结构中两个PE之间的链通过置定网络的开关单元状态可以重新配置静态拓扑有一维的线型二维的环型星型树型胖树型网络型脉动阵列型三维的弦环型立方体型环立方体型以及其他复杂的连接形式由于静态网络灵活性适应性差很少使用因此只讨论动态网络动态网络有单级和多级两类动态单级网络只有有限的几种连接必须经循环多次通过才能实现任意两个处理单元之间的信息传送故称此动态单级网络为循环网络动态多级网络是由多个单级网络串联组成的以实现任意两个处理单元之间的连接将多级互连网络循环使用可实现复杂的互连称循环多级网络或多级循环网络循环互连网络的模型如图6 8所示入端传送寄存器DTRi和出端传送寄存器DTRo除了各自与处理单元PE0 PEN 1 相连分别接收和送出数据外在不同的循环中还可以通过多路开关MUX向单级互连网络送入DTRi数据或送入在上一循环中DTRo从单级互连网络接收的数据经单级互连网络转送再送回各自有关的DTRo 作为下一次循环的输入循环互连网络比多级互连网络节省设备但通过时间长并对网络控制要求较高图6 8循环互连网络的模型 6 2 3基本的单级互连网络 1 立方体单级网络立方体单级网络 Cube 的名称来源于图6 9所示的三维立方体结构立方体的每个顶点网络的结点代表一个处理单元共有8个处理单元用zyx三位二进制码编号它所能实现的入出端连接如同立方体各顶点间能实现的互连一样即每个处理单元只能直接连到其二进制编号的某一位取反的其他3个处理单元上如010只能连到000 011 110 不能直接连到对角线上的001 100 101 111 所以三维的立方体单级网络有3种互连函数 Cube0 Cube1和Cube2 其连接方式如图6 10中的实线所示 Cubei函数表示相连的入端和出端的二进制编号只在右起第i位 i 0 1 2 上0 1互反其余各位代码都相同图6 9三维立方体结构图6 10立方体单级网络连接示意 a Cube0 b Cube1 c Cube2 推广到n维时 N个结点的立方体单级网络共有n log2N种互连函数即式中 Pi为入端标号二进制码的第i位且0 i n 1 当维数n 3时称超立方体 HyperCube 网络显而易见单级立方体网络的最大距离为n 即反复使用单级网络最多经n次传送就可以实现任意一对入出端间的连接而且任意两个结点之间至少有n条不同的路径可走容错性强只是距离小于n的两个结点之间各条路径的长度可能不等 2 PM2I单级网络 PM2I单级网络是加减2i Plus Minus2i 单级网络的简称能实现与j号处理单元直接相连的是号为j 2i的处理单元即式中 0 j N 1 0 i n 1 n log 2 N 它共有2n个互连函数由于PM2 n 1 PM2 n 1 因此 PM2I 互连网络只有2n 1种互连函数是不同的对于N 8的三维PM2I互连网络的互连函数有PM2 0 PM2 0 PM2 1 PM2 1 PM2 2等5个不同的互连函数它们分别为 PM2 0 01234567 PM2 0 76543210 PM2 1 0246 1357 PM2 1 6420 7531 PM2 2 04 15 26 37 其中 01234567 表示0连到1 与此同时 1连到2 2连到3 7连到0 图6 11只画出了其中3种互连函数的情况 PM2 0和PM2 1的连接与PM2 0和PM2 1的差别只是连接的箭头方向相反而已可见在PM2I中 0可以直接连到1 2 4 6 7上比立方体单级网络只能直接连到1 2 4的要灵活图6 11PM2I互连网络的部分连接图 3 混洗交换单级网络混洗交换单级网络 Shuffle Exchange 包含两个互连函数一个是全混 Perfect Shuffle 另一个是交换 Exchange 图6 12表示8个处理单元间的全混连接可以看出其连接规律是把全部按编码顺序排列的处理单元从当中分为数目相等的两半前一半和后一半在连接至出端时正好一一隔开正像洗扑克牌时先把整副牌分为两半再通过洗牌达到全混这也是混洗这个名词的由来用互连函数表示为式中 n log2N Pn 1Pn 2 P1P0为入端编号的二进制码图6 128个处理单元间的全混连接 Shuffle函数还有一个重要特性如果把它再作一次Shuffle函数变换得到的是一组新的代码即Pn 3 P0Pn 1Pn 2 这样每全混一次新的最高位就被移至最低位当经过n次全混后全部N个处理单元便又恢复到最初的排列次序在多次全混的过程中除了编号为全 0 和全 1 的处理单元外各个处理单元都遇到了与其他多个处理单元连接的机会由于单纯的全混互连网络不能实现二进制编号为全 0 和全 1 的处理单元与其他处理单元的连接因此还需增加Cube0交换函数这就是全混交换单级网络其N 8的连接如图6 13所示其中实线表示交换虚线表示全混图6 13N 8时全混交换互连网络连接图 4 蝶形单级网络蝶形单级网络 Butterfly 的互连函数为 Butterfly Pn 1Pn 2 P1P0 P0Pn 2 P1Pn 1 即将二进制地址的最高位和最低位相互交换位置图6 14为N 8个处理单元之间用蝶形单级互连网络互连的情况它实现的是0 0 1 4 2 2 3 6 4 1 5 5 6 3 7 7的同时连接图6 148个处理单元间的蝶形单级互连 6 2 4基本的多级互连网络最基本的多级互连网络就是与上述前3种单级互连网络相对应组成的多级立方体互连网络多级混洗交换网络和多级PM2I网络此外还介绍一下基准网络不同的多级互连网络在所用的交换开关拓扑结构和控制方式上各有不同交换开关是具有两个入端和两个出端的交换单元用作各种多级互连网络的基本构件不论入端或出端如果令居于上方的都用i表示居于下方的都用j表示则可以定义下列4种开关状态或连接方式 1 直连 i入连i出 j入连j出 2 交换 i入连j出 j入连i出 3 上播 i入连i出和j出 j入悬空 4 下播 j入连i出和j出 i入悬空只有前两种功能的称二功能交换单元有全部四种功能的称四功能交换单元两个入端同时连到一个出端会发生信息传送的冲突是不允许的此外还可以有第5种开关状态即i入连j入 i出连j出称此为返回它可用来实现入端与入端相连出端与出端相连从而将N个入端和N个出端的网络变为2N个处理单元的互连网络拓扑结构是各级间出端与入端互连的模式上述前3种单级互连网络的连接模式均可用来组合构成不同的多级互连网络控制方式是对各个交换开关进行控制的方式以多级立方体网络为例它可以有3种 1 级控制同一级的所有开关只用一个控制信号控制同时只能处于同一种状态 2 单元控制每一个开关都有自己独立的控制信号控制可各自处于不同的状态 3 部分级控制第i级的所有开关分别用i 1个信号控制 0 i n 1 n为级数 1 多级立方体网络多级立方体网络有STARAN网络间接二进制n方体网络等以8个处理单元为例其普遍结构如图6 15所示它们的共同特点是第i级 0 i n 1 交换单元处于交换状态时实现的是Cubei互连函数且都采用二功能交换单元两者的差别仅在于控制方式上 STARAN网络采用级控制称交换网络和部分级控制其中可实现移数功能的称移数网络而间接二进制n方体网络用单元控制因此后者具有更大的连接灵活性图6 15N 8多级立方体互连网络 STARAN网络用作交换网络时采用级控制实现的是交换函数所谓交换 Flip 函数是将一组元素首尾对称地进行交换如果一组元素包含有2s个则它是将所有第k个元素都与第 2s k 1 个元素相交换表6 1列出了三级交换网络在级控制信号采用各种不同组合情况下所实现的入出端的连接从表6 1可以看出控制信号为111时实现全交换也称镜像交换完成对这8个处理单元元素的一组8元交换其变换图像如下入端排列 01234567 出端排列 76543210 控制信号为001时完成对这8个处理单元元素的4组2元交换其变换图像如下入端排列 01 23 45 67 出端排列 10 32 54 76 表6 1三级STARAN交换网络实现的入出端连接及所执行的交换函数功能 ki为第i级控制信号控制信号为010时完成的功能相当于在进行4组2元交换后再进行2组4元交换其变换图像如下 1032 5476 出端排列 2301 6745 而控制信号为101时相当于实现上述两种交换后再进行1组8元交换其变换图像如下总之不管控制信号是什么状态实现的都是交换函数功能从表6 1水平方向不难看出任何输入端只要通过不同的级控制信号总可以接到任何所需要的输出端上当STARAN网络用作移数网络时采用部分级控制控制信号分组和控制结果列在表6 2中可以看出它们都是执行各种不同的移数功能的表6 2三级移数网络能实现的入出端连接及移数函数功能 2 多级混洗交换网络多级混洗交换网络又称omega网络如图6 16所示它由n级相同的网络组成每一级都包含一个全混拓扑和随后一列2n 1个四功能交换单元采用单元控制方式比较图6 15和图6 16可以发现 omega网络中各级编号的次序与多级立方体网络正好相反如果把omega网络的入端和出端位置对调它就等同于间接二进制n方体网络因此omega网络与间接二进制n方体网络只有两点差别前者数据流向是级号n 1 n 2 1 0 用四功能交换单元后者数据流向相反是级号0 1 n 1 用二功能交换单元图6 16N 8多级混洗交换网络假定omega网络也采用二功能交换单元就可看成是n方体网络的逆网络基本互连网络可以实现任一个入端与任一个出端之间的连接但要同时实现两对或多对的入出端间的连接就可能发生连接路径上的冲突由于omega网络与n方体网络的数据入出流向相反因此它们产生冲突的状况不同例如 n方体网络能同时实现5到0 7到1的连接不能同时实现0到5 1到7的连接而omega网络正好相反能同时实现0到5和1到7的连接不能同时实现5到0和7到1的连接有一种办法可以把二者统一起来就是将入端和出端重新编号仍比较图6 15与图6 16 可以发现如果把编号Pn 1Pn 2 P1P0和P0P1 Pn 2Pn 1互换例如对于n 3 就是把1 4互换 3 6互换那么两张图上所有交换单元上的处理单元编号配对就变成一样的了于是表6 1和表6 2中所列STARAN网络的互连函数在按上述规则对处理单元重新编号后便都适合于omega网络而且所有在前者运行的SIMD程序都能向上兼容当然由于omega网络采用四功能交换单元因此允许同时实现一个处理单元与多个处理单元的连接这是多级立方体网络不可能办到的例如只需将图6 16中交换单元E F置为下播状态 C I J K L置为上播状态就能一次实现入端2与全部8个出端的连接 3 多级PM2I网络 N 8的多级PM2I网络的结构如图6 17所示它包含n级单元间连接每一级都是把前后两列各N 2n个单元按PM2I 拓扑相互连接起来从第i级 0 i n 1 来说每一个入单元j 0 j N 1 都有3根连接线分别通往出单元j j 2i modN和j 2imodN 在图6 17中它们分别用点线实线和虚线表示前面已提到单级PM2I网络的最大距离为 n 2 但组成多级PM2I网络时仍用了n级因此在这种网络中提供了冗余路径例如为实现由7将信息传到2 可以经7 3 3 2 或7 7 1 2 或7 3 1 2等多条路径完成这对提高可靠性和便于集成电路化都有好处控制这三类连接线的信号分别称为平控H 下控D和上控U 为了简化对这三类信号的产生可将各级的单元分成两组对于第i级让H1i Di1 Ui1控制第i位为 0 的那些入单元而让Hi2 Di2 Ui2控制第i位为 1 的那些入单元此种多级PM2I网络称为数据变换网络 DataManipulator 可以采用单元控制增强对各级单元控制的灵活性让每一单元都有自己独立的控制信号H D U 此种多级PM2I网络称为强化数据变换网络ADM AugmentedDataManipulator 不过控制线多成本较高图6 17N 8多级PM2I网络 ADM的拓扑结构和控制方式使它可以完全模仿omega网络的四功能交换单元拿x y x y 两个入单元来说 Hx Hy为直连 Dx Uy为交换 Uy Hy为下播 Dx Hx为上播因此 ADM可以实现omega网络的全部连接而且其组合数还要更多利用数据变换网络可以实现各种灵活的移数重复间隔展开等函数变换比较上述各种多级网络灵活性由低到高的次序是级控制立方体部分级控制立方体间接二进制n方体 omega ADM 而复杂性和成本的次序也相应增高虽然这些网络的设计者都提出了各自的网络用途例如STARAN网络和omega网络都是为了进行存储器与处理单元之间的数据变换间接二进制n方体网络是为了连接成微处理器阵列但从上面对各种网络共同性的分析可以看出它们对多种应用场合都是适合的 4 基准网络图6 18是N 8的基准网络它与二进制立方体网络的逆网络相似只是在第1级的级间连接不同它采取从输入到输出的级间互连为恒等逆全混子逆全混和恒等置换所用交换单元均为二功能采取单元控制图6 18N 8的基准网络 5 多级交叉开关网络多级交叉开关 CLOS 网络是一种非阻塞式网络图6 19给出了一个三级交叉开关网络的结构其网络的入出端口数均为n r 输入级有r个n m的交叉开关中间级有m个r r的交叉开关输出级有r个m n的交叉开关当m 2n 1时它就成了非阻塞网络所谓非阻塞网络指的是同时实现两对或多对入出端间的连接均不会发送传送路径上的冲突全排列网络中介绍表示成N m n r 图6 19三级交叉开关网络的结构图6 20是一个N 3 2 2 的三级交叉开关网络入出端各有4个如采用一级交叉开关实现共需4 4 16个交叉点每个交叉点为四中选1 可能比三级交叉开关实现要便宜尽管每个结点只需二中选1 一般来说 N m n r 的多级交叉开关交叉结点总数为 C r n m m r r r m n mr 2n r 而一级交叉开关结点数为n2个因此当n值较大时使mr 2n r n2 这时采用多级交叉开关网络互连既保证了无阻塞连接也降低了互连网络的成本而且便于工程实现图6 20N 3 2 2 多级交叉开关互连网络 6 多级蝶式网络图6 21是由16个8 8交叉开关作为基本构件组成的二级蝶式网络级间采用8路混洗构成了64 64的蝶式互连再用其与64个8 8的交叉开关扩展构成512 512的三级蝶式互连网络如图6 22所示图6 21中使用了16个8 8的交叉开关图6 22则共用了3 8 8 192个8 8的交叉开关如果要构造更大的蝶式网络只需增加级数即可但蝶式网络不能实现播送只是omega网络的一个有限制的子集图6 21用8 8交叉开关构造的二级64 64的蝶式互连网络图6 22用8 8交叉开关作为基本构件扩充成512 512的三级蝶式互连网络 6 2 5全排列网络如果互连网络是从N个入端到N个出端的一到一的映射就可以把它看成是对此N个端的重新排列因此互连网络的功能实际上就是用新排列来置换N个入端原有的排列前面所介绍的各种基本多级网络都能实现任意一个入端与任意一个出端间的连接但要同时实现两对或多对入出端间的连接时都有可能发生争用数据传送路径的冲突前面在多级立方体网络和多级混洗交换网络中已举过这种例子称有这类性质的互连网络为阻塞式网络 BlockingNetwork 称无这类性质的互连网络为非阻塞式网络或全排列网络非阻塞式网络连接灵活但连线多控制复杂成本高阻塞式网络在一次传送中不可能实现N个端的任意排列大家知道N个端的全部排列有N 种可是用单元控制的n log2N级间接二进制n方体网络因为1到1映像用不上播送所以开关只需用二功能每级有N 2个开关 n级互连网络共用 N log2N 2个二功能的交换开关这样全部开关处于不同状态的总数为2 N log2N 2 即NN 2种当N为大于2的整数时总有NN 2 N 就是说它无法实现所有N 种排列以N 8的三级网络为例共12个二功能交换开关只有212 4096种不同状态最多只能控制对端子的4096种排列不可能实现全部8 40320种排列所以多对入出端要求同时连接时就可能发生冲突然而只要对这个多级互连网络通行两次每次通行时让各开关处于不同状态就可满足对N个端子的全部N 种排列因为此时全部开关的总状态数有NN 2 NN 2 NN种足以满足N 种不同排列的开关状态要求这种只要经过重新排列已有入出端对的连接就可完成所有可能的入出端间的连接而不发生冲突的互连网络称为可重排列网络 WTBZ RearrangeableNetwork 实现时可以在上述任何一种基本多级互连网络的出端设置锁存器使数据在时间上顺序通行两次这实际上就是循环多级互连网络的实现思路用多级网络也可以实现全排列网络将log2N级的N个入端和N个出端的互连网络和它的逆网络连在一起这样可以省去中间完全重复的一级得到总级数为2log2N 1级的全排列网络图6 23就是以三级基准网络和它的逆网络连在一起省出中间重复的一级后构成的全排列网络称此网络为 WTBZ Benes网络该网络至少有两个以上的通道能满足一对结点的互连要求即数据寻径不惟一有较多的冗余这有利于选择合适的路径传送可靠性灵活性较好图6 23多级全排列网络举例 WTBZ Benes网络 6 3共享主存构形阵列处理机中并行存储器的无冲突访问在共享主存构形的阵列处理机中存储器频宽要与多个处理单元的速率匹配存储器就必须采用多体并行组成此外还要保证在各种访问模式下存储器都能实现无冲突地工作只有这样存储器的实际频宽才不会下降从而使阵列处理机的数组并行处理的性能不至于下降对数组访问的模式是多样的可能要访问数组的行列主对角线次对角线的全部元素或其中某个子方阵首先以一维数组为例假定并行存储器分体数m为4 交叉存放一维数组a0 a1 a2 如图6 24所示那么每次访问相连的m个元素并依此不间断地访问下去是不会发生访存冲突的然而若遇到按2变址访问奇数或偶数下标的元素时则因访存冲突会使存储器的实际频宽降低一半在并行递归算法中对向量子集的各元素逐次按2的整数幂相间访问是典型的访问模式例如先是相连访问然后按2 4 8等变址对于这类算法并行存储器体数取成传统的2的整数幂就不适应了所以从这点出发并行存储的分体数m应取成质素数才能较好地避免存储器访问的冲突只要变址跳距与m互质存储器访问就总能无冲突地进行图6 24一维数组的存储 m 4 对于多维数组设计存储器方案所考虑的问题就要复杂一些了为简单起见下面以二维数组来讨论其结论同样也适用于多维数组假设主存有m个分体并行从中访问有n个元素的数组子集这n个元素的变址跳距对于二维数组的行列主对角线次对角线都是不一样的但要求都能实现无冲突访问如果设m n 4 一个4 4的二维数组直接按行存储的方案如图6 25所示虽然同时访问某一行主对角线或次对角线上的所有元素时都可以无冲突地访问但要同时访问某一列的元素时由于它们集中存放在同一存储分体内会产生访存冲突因此每次只能访问其中的一个元素使实际频宽降低到1 4 图6 254 4数组的直接按行存储 m n 4 为了能使行或列的各元素都能并行访问采取将数据在存储器中错位存放如图6 26所示但是该方案可造成主对角线上各元素的并行访问冲突致使实际频宽下降一半次对角线上各元素的访问则都发生冲突使实际频宽降低成与串行一样不难看出只要并行存储体体数m为偶数对m m的正方形数组无论怎样存放都不可能同时实现行列主对角线次对角线上的所有元素都能无冲突地访问尽管可以通过对不同的数组访问模式采用不同的错位方案来满足在该访问模式下不发生冲突但这将给编译程序设计者增加很大负担因此对用户来说希望寻求一种既能满足对向量数组各种访问模式都无冲突访问又能在存储器变址数据对准和硬件的实现上都不复杂的存储方案图6 264 4数组一种错位存放的方案 m n 4 1 2 1 能满足上述这些要求的一种存储方案是使并行存储器分体数m大于每次要访问的向量或数组元素的个数n n在阵列处理机上就是处理单元数且等于质数同时在多维数组的行列等方向上采取不同的错开距离假设n n的二维数组在并行存储器中同一列两个相邻元素地址错开的距离为 1 同一行两个相邻元素地址错开的距离为 2 当m取成22P 1 P为正整数时实现无冲突访问的充分条件是让 1 2P 2 1 图6 27就是对4 4二维数组按上述规则存储的一种方案其中 P 1 m 5 1 2 2 1 图6 274 4数组错位存放的例子 m 5 n 4 1 2 2 1 由图6 27可知对数组的行列主对角线次对角线甚至数组中任意一个2 2的子方阵都可实现无冲突访问对于这种无冲突访问的存储方案要求n n二维数组A中的任意一个元素Aab应放在下列地址处体号地址j a 1 b 2 c modm 体内地址i a 其中 0 j m 1 0 i n 1 c为起始元素A00所在体号地址在这种存储方案里要访问的数组中各元素的排列次序似乎是乱的为此系统中需要有专门的互连网络即排列网络或对准网络来将其回复成正常的顺序实际上并行存储器中存放的数组大小是不固定的多维数组各维的元素个数也不一定相等它们还可以超出已选定的分体数m的值因此有n个处理单元的并行处理机为了能并行访问n个元素且适应任意规模的数组可以先将多维数组或者非n n方阵的二维数组按行或列的顺序变换为一维数组形成一个一维线性地址空间地址用a表示然后将地址a所对应的元素存放在体号地址j a modm 体内地址为i a n 的单元中就可以满足无冲突访问的要求图6 28表示了一个4 5二维数组元素以列为主序排列按上述规则将其存放在m 7的存储器中的例子图6 284 5二维数组在并行存储器中存放的例子 m 7 n 6 BSP计算机就是采用类似这种映像规则存放的它共有16个处理单元选取的并行存储器分体数m为17 对常用的一般数组按此规则存放将不会产生访问冲突只不过每个访存周期在最佳工作状态下总有一个存储器分体未被用上使其在存储器的频宽和存储器空间利用率上都浪费了1 17 另外进行地址映像的硬件相对比较复杂需要设置有数据对准网络来配合并行存储器的工作为实现阵列处理机的存储器无冲突访问保证存储器工作在较高的频带上所花费的这些代价就是必要的了 6 4脉动阵列处理机 6 4 1脉动阵列结构的原理脉动阵列结构是由一组处理单元PE构成的阵列每个PE的内部结构相同一般由一个加法逻辑运算部件或加法乘法运算部件再加上若干个锁存器构成可完成少数基本的算术逻辑运算操作阵列内所有处理单元的数据锁存器都受同一个时钟控制运算时数据在阵列结构的各个处理单元间沿各自的方向同步向前推进就像血液受心脏有节奏地搏动在各条血管中同步向前流动一样因此形象地称其为脉动阵列结构实际上为了执行多种计算脉动型系统内的输入数据流和结果数据流可以在多个不同方向上以不同速度向前搏动阵列内部的各个单元只接收前一组处理单元传来的数据并向后一组处理单元发送数据只有位于阵列边缘的处理单元才与存储器或I O端口进行数据通信根据具体计算的问题不同脉动阵列可以有一维线形二维矩形六边形二叉树形三角形等阵列互连构形如图6 29所示除此之外还可以有不少变形图6 29脉动阵列结构的构形举例例如图6 30给出了在一个脉动式二维阵列结构上进行两个3

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机系统结构第6章.ppt

文档简介

温馨提示

最新文档

评论

计算机系统结构第6章.ppt

文档简介

温馨提示

最新文档

评论

相关文档