第五章多处理机系统

上传人：t*** IP属地：河南上传时间：2020-04-19 格式：PPT 页数：113 大小：632.50KB 积分：15 举报 版权申诉

已阅读5页，还剩108页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

4 19 2020 1 多处理机系统 4 19 2020 2 多处理机系统的定义 P H Enslow对多处理机作了下列定义包含两个或两个以上功能大致相同的处理器所有处理器共享一个公共内存所有处理器共享I O通道控制器和外围设备整个系统由统一的操作系统控制在处理器和程序之间实现作业任务程序段数组和数组元素等各级的全面并行 4 19 2020 3 多处理机的优点很高的性能价格比单处理机的性能价格比随其规模的增大而下降很高的可靠性冗余度大可维护性可用性很高的处理速度多个处理器并行运算很好的模块性大量重复设置结构灵活性可扩充性可重构性 4 19 2020 4 特性要求进程恢复能力多处理机系统使用的处理机结构应能反映进程和处理机是两个不同的实体如果某处理机发生故障另一台处理机应能检索到被中断的进程状态使被中断的进程能继续运行没有这个功能系统的可靠性大大下降大多数处理机把当前正在运行进程状态保存在内部寄存器中如何使其他处理器在必要时能访问到进程状态是恢复进程的关键之一在不太损失速度的前提下把通用寄存器与处理机本身分开是可能的在系统内设置所有处理机共享的寄存器堆可以实现上述功能 4 19 2020 5 特性要求有效的现场切换现场切换操作是把当前进程状态保存起来然后通过恢复新进程的状态切换到被选中的准备好运行的进程切换操作可以在指令系统中设置一条专门指令来完成该指令执行的结果是将当前进程状态或现场内容保存起来然后到主存储器的缓冲区取另一个进程状态该缓冲区称为交换包 4 19 2020 6 特性要求大的物理地址空间和虚拟地址空间多处理机系统内的处理机必须能支持大的物理地址空间即直接寻址空间要大这是因为进程需要访问大量数据例如 Pentium地址线32根直接寻址空间可达4GB 能满足需求有了大的物理地址空间还需要大的虚拟地址空间把虚拟地址空间分段便于模块共享以及地址界限的检查 4 19 2020 7 特性要求高效率的同步原语处理机设计时必须能提供作为同步原语基础的某种不可再分的操作这些同步原语需要有互斥机构支持当两个以上的进程并发地运行或相互交换数据时需要互斥互斥机构包含某种形式的读修改写存储周期和排队信号灯 semaphore 是互斥机构的一种每个信号灯有其队列队列中的项是被挂起来的进程信号灯操作是不可分操作利用读修改写存储周期测试和修改信号灯队列操作也应是不可分的 4 19 2020 8 特性要求处理机之间有高效率的通信机构通信机构可用硬件实现它有助于实现处理机之间的同步在非对称多处理机系统中不同的处理机之间经常需要交换服务请求硬件通信机构作用更加明显在处理机发生故障时通过该机构发信号给其他正在运行的处理机并启动诊断过程或纠错过程在紧密耦合的多处理机系统内有共享存储器采用软件方法实现多处理机之间的通信是可能的每个处理机必须周期地检查位于共享存储器内的信箱缓冲区检查是否有信息给它 4 19 2020 9 特性要求指令系统处理机的指令系统应能支持实现具有过程级并发功能的高级语言为有效的处理数据结构提供充分条件指令系统内应有过程连接循环结构参数处理多维下标计算和地址界限检查等指令还需包括产生和结束程序内部并行执行通路的指令设置特权指令 4 19 2020 10 Flynn分类法 MichealFlynn 1972 提出指令流数据流和多倍性概念把不同的计算机分为四大类下图 SISD Single InstructionSingle Data 单处理机结构 SIMD Single InstructionMulti Data 带分布存储器 MISD Multi InstructionSingle Data 搏动式阵列 MIMD Multi InstructionMulti Data 带共享存储器 4 19 2020 11 4 19 2020 12 1 并行性粒度 G小则粒度细通信量大 2 并行性等级划分作业级任务级子程序级 MIMD循环级语句或指令级 SIMD 粗粒度通常采用MIMD 细粒度则采用SIMD 2 并行处理是一种相对串行处理的信息处理方式侧重并发性 4 19 2020 13 并行处理机在单机系统里主要是采用时间重叠技术把一件工作按功能分割为若干相互联系的部分把每一部分指定给专门的部件完成然后按时间重叠原则把各部分执行过程在时间上重叠起来使所有部件依次分工完成一组同样的工作并行处理机主要是通过资源重复技术来实现并行处理的它属于单指令流多数据流 SIMD 计算机一类 4 19 2020 14 1 组成通常由1个控制器 CU 多个处理器 PE m个存储模块 M 及1个互连网络 ICN 组成一基本结构并行处理机工作原理根据存储模块组成方式可有分布式和集中式两种 4 19 2020 15 基本结构的共同特点并行处理机的两种基本结构的共同特点重复设置许多个同样的处理单元PE ProcessElement 由ICN InterConnectionNetwork 按照一定的方式相互连接在统一的控制部件CU ControlUnit 作用下各PE对分配来的数据并行地完成同一条指令所规定的操作 4 19 2020 16 并行处理的特点资源重复它机利用众多的处理单元对向量所包含的各个分量同时进行运算获得很高处理速度连接模式它的处理单元间是通过ICN来通信的不同的连接模式确定了它的不同结构专用性它直接与一定的算法相联系其效率取决于在多大程度上把计算问题归结为向量数组处理复合性整个系统是由三部分复合起来的一个多机系统即多个处理单元组成阵列并行地处理向量功能极强的控制部件实际上是一台标量处理机系统的管理功能则由高性能单处理机担负 4 19 2020 17 2 分布式结构存储模块由每个PE自带 3 集中式结构各个PE共享m个存储模块特点 ICN 是单向的 PE PE 工作流程特点 ICN 是双向的 PE M 工作流程比较分布式每个PE有局部存储器集中式共享存储器 ICN的作用不同分布式PE PE 集中式PE M 4 19 2020 18 三阵列处理机的常用并行算法 1 有限差分问题应用网格覆盖场图像平滑化算法结构 IN采用闭合螺旋线阵列 P189图原理实现每个PE存储和计算一组结点多次迭代直到误差小于规定效率接近N倍要扣除通讯开销结点最大间距 n 1 4 19 2020 19 互连网络基本概念并行计算机互连网络基本功能互连网络ICN主要完成结点与结点间的连接连接和控制方式不同连接效果不同并行处理机互联网络ICN是实现并行处理机中各处理单元之间或处理单元与存储器之间的信息交换互联网络的不同拓扑结构直接决定了并行处理机的结构 4 19 2020 20 结构特征 1 通信方式同步异步 3 交换方式线路交换分组交换 4 拓扑结构 2 控制策略集中分散 4 19 2020 21 设计思路根据应用需要互连网络属性选择合理的特征方式考虑互连网络的性能因素综合加以合理组合目标低成本高灵活性高连接度低延时适合VLSI 互连网络表示入端的编码 x bn 1 b0 n log2N 互连函数为基于bn 1 b0的排列组合移位取反等操作的结果互连网络的连接特征一般用互连函数表示一个互连网络的连接特征可对应多个互连函数 4 19 2020 22 1 立方体单级网络交换互连网络单级互连网络只能实现有限的几种连接单级互连网络出端编码与连接的入端结点的编码有一位相反互连函数互连特性交换功能互连函数可逆互连函数个数 log28 3 最大连接度 log28 3 结点最大间距 log28 3 4 19 2020 23 出端编码与连接的入端结点的编码有一位相反互连函数 Cube0 b2b1b0 0 1 2 3 4 5 6 7 Cube1 b2b1b0 0 2 1 3 4 6 5 7 Cube2 b2b1b0 0 4 1 5 2 6 3 7 注意立方体坐标编号不能标错 4 19 2020 24 连接图扩展成超立方体有n log2N个互连函数最大连接度 log2N 结点最大间距 log2N 应用几种互连函数反复调用任意结点间可连接 4 19 2020 25 2 PM2I单级网络循环移数网络出端编码与连接的入端结点编码相差2i 互连函数 PM2I i j j 2i modN n log2N 0 i n 1 PM2I i j j 2i modN 0 j N 1 共有2n个互连函数 2n 1种不同连接图 0 顺环圆周连接 1 顺环内接n 2边形连接 2 顺环内接n 4边形连接 n 1 顺环内直径连接 4 19 2020 26 设n 8 则各互联循环为PM2 0 01234567 PM2 0 76543210 PM2 1 0246 1357 PM2 1 6420 7531 PM2 2 04 15 26 37 4 19 2020 27 互连特性 2n个互连函数只有一种函数可逆其余均不可逆最大连接度2n 1 互连函数个数2n 应用几种互连函数混合任意结点间可连接实例闭合螺旋结构为PM2I 0及PM2I n 2互连函数 4 19 2020 28 3 混洗交换单级网络全混洗二混洗三混洗全混洗互连函数 Shuffle bn 1bn 2 b1b0 bn 2 b1b0bn 1 全 0 或全 1 结点无法与其他结点连接必须辅以交换互连函数方可实现任意结点间连接 4 19 2020 29 最简单的交换互连函数为Cube0 因此混洗交换网络由全混洗和交换网络组合而成交换互连函数混洗交换互连函数连接图 4 19 2020 30 4 总结 1 单级互连网络特性任一单级互连网络可实现部分结点一对或几对间的连接不能实现任意多对结点间的同时连接单级互连网络含义某些连接方法或拓扑结构 2 单级互连网络应用利用单级互连网络的特性作为实际IN的拓扑结构通过交换开关作为IN的可变因素通过交换开关多次控制实现IN的结点间任意互连 4 19 2020 31 阵列机结构阵列机系统是并行处理机最常见的结构形式它是由大量的处理机按一定规则的几何形式构成阵列形式最早阵列机是ILLIAC 它是由4个处理机阵列构成每个阵列里由64个处理单元和1个控制部件组成 4 19 2020 32 阵列机结构 cont ILLIAC 阵列机结构如图5 9所示 64个PE按矩形排列成8 8方阵 PE只与自己四边相邻的PE相连任意二个不相邻PE的通信可以通过选择最短路径的算法由软件来实现每个PE包括处理机外还有自身的附属存储器PEM和存储器逻辑部件MLU 同时还有包含I O在内的特殊总线结构互联像这种阵列机结构又称闭合螺线结构也是阵列机系统结构中最常见的一种结构形式 4 19 2020 33 阵列机结构 cont 阵列机的处理属于SIMD形式单指令流多数据流它最适合作向量数组运算每个处理单元相当于一个向量数组元素的运算包括定点和浮点的多种运算操作对于是阵列机处理单元个数的倍数的向量数组运算尤为合适如PE 64 则16 32 64 128 256 512 阵列向量数组就很方便地使阵列机发挥最佳效能 4 19 2020 34 阵列机结构 cont 阵列机中PE之间的互联通信是由互联寄存器来实现的当PE执行互联指令时由本PE的互联寄存器与相邻PE互联寄存器进行信息交换 4 19 2020 35 阵列机结构 cont 阵列机的操作分公共操作和本地操作公共操作是指阵列机中的所有PE同时执行的操作它一般由逻辑控制器来调度本地操作是每个PE自己的操作它由PE的指令译码执行像指令操作那样阵列机的存储器有双重变址机构除了逻辑控制器的公共变址外还有每个PE自己的单独变址这样既节省了公共数据和指令所占的存储空间又增加各PE对存储器数据分配的灵活性 4 19 2020 36 阵列机结构 cont 一般每个PE都配有状态寄存器它标志了目前本PE处于活动状态还是处于屏蔽状态运算结果是否有错矩阵边缘处于何种连接等等各种状态信息 4 19 2020 37 阵列机算法举例矩阵问题矩阵运算是最适合阵列机运行的如A B两个矩阵相加只要把A和B居于相应位置的一对分量存放在同一个处理单元存储器内当阵列机执行加法公共操作时每个处理单元都将处于本结点的Ai和Bi两个矩阵元素进行加法运算其和即为矩阵和的对应元素 4 19 2020 38 阵列机算法 cont 累加和问题书上有详细的举例请自学 4 19 2020 39 高性能计算机分三大类 PVP向量型超级计算机如国防科技大学研制的银河I 1亿次秒银河II 10亿次秒 MPP大规模并行处理超级计算机如国防科技大学研制的银河III 130亿次秒中国科学院计算机技术研究所研制的曙光1000 25亿次秒中国江南计算机技术研究所研制的神威I 3840亿次秒 Cluster集群计算机中国科学院计算机技术研究所研制的曙光2000 II 1100亿次秒曙光3000 4030亿次秒清华大学研制的THNPSC 1 320亿次秒上海大学研制的自强2000 4500亿次秒 4 19 2020 40 大规模并行处理机 MPP 1979年美国NASA Goddard中心与Goodyear宇航公司合作研制一台用于处理遥感卫星图片的大规模SIMD阵列机获得成功由于这台机器用了128 128 16384个可并行工作的微处理机因此被定名为大规模并行处理机MPP MassivelyParallelProcessor MPP可对变长的操作数按位片进行算术运算 MPP有一个微程序控制器能够十分灵活地定义向量标量和I O操作的指令系统整个MPP系统均用微处理器芯片和SRAM芯片组成 4 19 2020 41 大规模并行处理机 cont 阵列部件ARU ARrayUnit 由128 128个PE构成一个二维阵列以SIMD方式工作每个PE有一个1027位SRAM 有奇偶校验功能每个PE是位片式微处理机与四周近邻相连程序员可在平面水平圆柱垂直圆柱开螺线闭螺线等五种阵列拓扑中任选一种增加了阵列机结构的灵活性 4 19 2020 42 大规模并行处理机 cont 在阵列中增加了4列冗余PE 使阵列的物理结构为132列 128行阵列硬件出现故障时可旁路掉故障列方法使阵列逻辑结构仍为128 128 每个PE内有一个串行加法器及用一个移位寄存器实现位串式加法 PE阵列的时钟周期为100ns 阵列控制器ACU是微程序控制器对PE阵列处理进行管理完成标量运算以及控制数据在PE阵列上移位 4 19 2020 43 大规模并行处理机 cont 程序和数据管理部件PDMU ProgramandDataManagementUnit 是一台后端小型计算机其作用是管理阵列中的数据流将程序装入控制器进行系统的测试和诊断并提供程序开发手段等 MPP系统运行方式有两种独立方式由用户在终端予以操作控制在线方式由外接计算机予以控制 MPP与外接计算机之间的数据传输速率为6MB s 按高速数据方式运行时数据通过128位外部接口传输其速率可达320MB s 4 19 2020 44 多处理机的基本结构常用的松散耦合和紧密耦合这两种形式松散耦合多处理机结构互联常用通道或通信线路来实现它们连接的频带较低紧密耦合多处理机结构通常是高速总线或高速开关实现机间互联以共享存储器 4 19 2020 45 多处理机的基本结构通道连接的多处理机结构每台计算机是独立的它们之间通过通道适配器连接在进行通信时发送的计算机可以把接受的计算机认为是自己的一个I O设备从而能完成两个主存储器之间的数据传送 4 19 2020 46 多处理机的基本结构 cont 信息传输系统连接的多处理机结构计算机模块通过一个信息传输系统连接起来信息传输系统是耦合程度较低的常用简单的分时总线及环形星形等拓扑结构的系统每个计算机模块可以是独立的计算机它有处理单元存储器 I O部件而模块与信息传输系统则通过通道仲裁开关相连通道仲裁开关的作用除使要通信的计算机模块与被通信的计算机模块在信息传输系统里连接起来外还起到多个模块同时申请信息传输系统时决定本模块是提出申请还是延缓提出申请故称有仲裁作用 4 19 2020 47 多处理机的基本结构 cont 紧密耦合多处理机结构是真正的MPP 多个处理器通过互联网络它是由高速开关来组成的共享集中的主存储器它由若干个存储模块组成和多个输入输出设备当某个处理机要访问主存储器只需通过它的存储映象部件 MAP 就可以把全局的逻辑地址变换成局部的物理地址即某一存储模块内的物理地址互联网络不仅要提供高速的传输通路而且具有选择有效路径仲裁访问冲突等功能对于输入输出设备的访问也与访问存储器一样只是它们的界面通过输入输出处理机 IOP 来进行 4 19 2020 48 多处理机的互联网络多处理机的主要特点是各台处理机共享一组存储器和I O设备这种共享功能是通过两个互联网络实现的一个是处理机和存储器模块之间的互联网络另一个是处理机和I O子系统 I O接口和I O设备之间的互联网络互联网络可以采用不同的物理形式一般可有四种基本结构 4 19 2020 49 1 总线结构多处理机结构最简单互联系统是把所有功能模块或部件连接到一条公共通信通路上如图5 16所示公共通信通路也称为时分或公共总线这种总线结构的特点是简单容易实现也容易扩展重构总线是一个无源部件通信完全由发送和接收的总线接口控制由于总线是共享资源所以必须有总线请求和仲裁的机构以避免发生总线冲突 4 19 2020 50 1 总线结构 cont 总线仲裁方法有静态的或动态的优先级方法先进先出 FIFO 队列方法串行优先链方法和总线控制器或仲裁器方法当一个处理机要占用总线时首先需测试总线状态是否忙 busy 若是忙则等待等到空闲时即不忙发出总线请求信号经仲裁后等到总线响应信号才可以占用总线与目的部件进行通信在一个处理机占用总线进行通信过程中哪怕比其优先级高的处理机需占用总线也不能终止中断原来已在进行中的通信过程 4 19 2020 51 1 总线结构 cont 单总线结构简易而可靠但总线接口线路出现任何一个故障会造成系统瘫痪为了提高总线通信效率设置在同一时间可进行多条总线通信但增加了系统的复杂性影响总线性能的因素有总线上主控设备即能掌握占用总线的部件数量总线仲裁算法控制集中程度数据宽度数据传输同步和错误检测等 4 19 2020 52 1 总线结构 cont 总线仲裁算法静态优先级算法给每一个设备一个唯一的优先级固定时间片算法把带宽分成固定长度的时间片按循环方式顺序分配给每个设备动态优先级算法优先级予以动态调整使每个设备均有机会占用总线近期最少使用LRU 算法和旋转菊花链RDC算法先来先服务算法按照接受到的请求先后顺序予以处理 4 19 2020 53 2 交叉开关当不断增加总线数目使每个存储器模块有它自己单独可用的通路形成的互联网络称为无阻塞交叉开关它的特点是开关和功能部件的接口非常简单而且支持所有存储器模块同时通信每个交叉点不仅能切换并行传播而且必须能解决在同一存储器周期内访问同一个存储器模块的多个请求之间的冲突通常用预设的优先级来处理冲突 4 19 2020 54 3 多端口存储器如果把分布在交叉开关矩阵网络上的控制转接优先级仲裁等逻辑功能转移到存储器模块的接口上就形成了多端口存储器系统如图5 25所示这种系统既适合单处理机也适合于多处理机 4 19 2020 55 3 多端口存储器 cont 对于访问存储器的冲突常用的解决方法是每个存储器端口分配一个永久优先级而各个主控模块相对于某个存储器模块有一个优先级别序列例如对于M0而言其能接收主控模块的访问优先次序为P0 P1 I O0 I O1 对于M1而言则为P0 P1 I O1 I O0 对于M3而言则为P1 P0 I O1 I O0 对于M3而言则为P1 P0 I O1 I O0 4 19 2020 56 4 多处理机的多级网络由于开关过于复杂对于大规模交叉开关用多个小规模交叉开关串联和并联组成多级交叉开关网络以取代单级的大规模交叉开关 4 19 2020 57 多级互连网络目标完成某结点与其它任一结点的连接同时完成多对结点的连接方法从时间性和空间性方面开发 1 循环互连网络时间性组成 DTRin DTRout MUX IN 结构一个单级ICN MUX 特点节省了设备增加了时间每个MUX可单独控制 4 19 2020 58 2 多级互连网络空间性组成 DTRin DTRout 交换开关拓扑结构 ICN 交换开关具有传送或播送功能拓扑结构不同级开关间连接方式单级ICN的连接功能控制方式级控制部分级控制单元控制 DTRin DTRout PE或M 可为同一类型 4 19 2020 59 分类根据拓扑结构进行分类多级立方体网络多级混洗交换网络多级PM2I网络 4 19 2020 60 3 多级立方体网络有STARAN 级控制和部分级控制和间接二进制n立方体单元控制两种网络以STARAN网络为例介绍返回35页返回下页交换开关二功能直通和交换拓扑结构第i级为Cubei 为什么只有三级 4 19 2020 61 3 带宽问题 STARAN可同时多对结点连接尚不能同时任意组合 4 例题例1 编号0 F的PE间要实现下列通信配对 7 D 6 C 5 F 4 E 3 9 2 8 1 B 0 A 画出互连网络结构图写出控制方式级各开关状态答因需实现双向交换功能选择STARAN的交换网络级控制方式可满足要求因共有16个结点编码需要4位所以开关共4级网络结构图如下页返回下页 4 19 2020 62 转上页拓扑结构不同级完成地址不同位取反功能注意有交换开关的拓扑结构的实现 4 19 2020 63 4 多级混洗交换网络网络交换开关四功能允许实现一对多的连接拓扑结构不同级相同均为全混洗结构控制方式级控制部分级控制单元控制连接图第n 1级靠近入端返回下页 4 19 2020 64 并行存储器无冲突访问一访问需求并行存取向量中各分量信息可按行列对角线等方法存取步长不一致二存在问题存储器带宽限制存储器带宽达不到向量带宽访存方式步长不同产生访存冲突三解决方法 1 采用多体交叉存储器增加MEM带宽 2 对向量分组操作解决MEM带宽小于向量带宽问题 4 19 2020 65 多处理机系统结构并行处理机属SIMD结构较适合向量处理一多处理机与并行处理机区别多处理机属MIMD结构可进行更高层次的并行处理 1 结构与通用性 SIMD 单指令流系统并行操作相同一个CU 控制数据通讯简单通用性较差 MIMD 多指令流系统并行操作不同多个CU 控制数据通讯复杂通用性较强 4 19 2020 66 2 程序并行性 SIMD 操作级并行数据并行识别隐式识别和向量指令支持编译程序和硬件 MIMD 任务级并行数据功能并行识别显式指令编译程序 OS和硬件等支持专用指令 OS对任务的分派和调度 3 任务派生 SIMD 向量指令表示及控制隐式并行效率低 MIMD 专用指令表示及控制显式并行效率高 4 19 2020 67 三多处理机结构 1 紧耦合系统 TCS 特点通过共享主存实现机间通讯互连网络实现PE PEM PE I O通道 PE 中断信号间的连接 4 19 2020 68 2 松耦合系统 LCS 特点通过消息传送系统实现机间通讯每个模块是一个独立的处理机整个系统可看成是一个分布系统互连网络 MTS有总线环形多级网络等种类结构有层次和非层次两种结构 4 19 2020 69 多处理机系统的存储器结构在多处理机系统中为了减少访存冲突主存采用并行存储器结构多个存储模块可采用低位交叉编址技术也可采用高位交叉编址技术能为某处理机进程放置大多数页面的存储器模块称为该处理机宿主存储器图5 31所示如果该处理器的现行进程全部活动页面在宿主存储器内而且该存储器不包含其他处理机的页面则处理机不会遇到存储冲突 4 19 2020 70 多处理机系统的存储器结构 cont 多处理机系统中常采用二维存储器结构如图5 32所示有n个同样容量的存储模块排成l列体每一列有m个模块组成各列之间按高位交叉编址而列内各模块为按低位交叉编址每列有一个列控制器连到互联网络 4 19 2020 71 多处理机系统的cache结构当每个处理机都有自己专用的cache时对应主存中某一个单元的数据在各个cache中可能会出现相应的多个副本当对其中某一个副本进行一次修改操作就会产生cache中数据不一致性无论cache采用写回法或写直接法都不能解决多个cache不一致问题 4 19 2020 72 静态一致性校验只让该进程的独用信息指令和操作数据和共享的只读信息进入本处理机的cache 而对于共享的可写即可修改的信息不准进入cache 只可留在主存中这种方法增加了互联网络和主存的竞争因此性能较差减少竞争的方法是增加一个共享cache sc sharedcache 共享信息均在sc内而取指令和独用数据则通过独用cache pc privatecache 其结构如图5 33所示 4 19 2020 73 动态一致性校验基本思想是在若干个cache中使同一个信息指令数据始终保持动态一致一种方法是广播法即当每个处理机每次写cache时不仅写入自己的cache和共享的主存中而且还把信息送到所有cache 如果其他cache有与自己cache相同的目标行则也进行改写 4 19 2020 74 动态一致性校验 cont 另一种时目录法在快速ram中构建一个目录表如图5 34所示它有两个部分存在表 presenttable 是二维的其中每一项P i c 表示第i块是在第c个cache中修改表 modifiedtable 是一维的其中每项M i 表示第i块是否被修改过在每个cache中还有一个本地标志可在地址变换表中设立 L k c 表示第c个cache中块k的状态 4 19 2020 75 多处理机系统的特点 1 结构灵活性相比并行处理机的专用性多处理机系统是要把能并行处理的任务数组以及标量都进行并行处理有较强的通用性因此多处理机系统要能适应更多样化的算法具有更灵活的结构以实现各种复杂的机间互联模式 4 19 2020 76 多处理机系统的特点 cont 2 程序并行性在多处理机中并行性存在于指令外部即表现在多任务之间为充分发挥系统通用性的优点便要利用多种途径算法程序语言编译操作系统以至指令硬件等尽量挖掘各种潜在的并行性 4 19 2020 77 多处理机系统的特点 cont 3 并行任务派生多处理机是多指令流操作方式一个程序当中就存在多个并发的程序段需要专门的指令来表示它们的并发关系以及控制它们的并发执行使一个任务正在执行时就能派生可与它并行执行的另一些任务 4 19 2020 78 多处理机系统的特点 cont 4 进程同步在多处理机系统里同一时刻不同的处理机执行不同的指令由于执行时间互不相等它们的工作进度不会也不必保持相同因此当并发程序之间有数据交往或控制依赖时就要采取特殊的同步措施使它们包含的指令相互间仍保持程序要求的正确顺序 4 19 2020 79 多处理机系统的特点 cont 5 资源分配和任务调度多处理机执行并发任务需要处理机的数目没有固定要求各个处理机进入或退出任务以及所需资源变化的情况都要复杂的多因此资源分配和任务调度的好坏将直接影响整个系统的效率 4 19 2020 80 算术表达式的并行算法并行性的开发在算法顺序处理机习惯采用循环及迭代算法往往不适合用于多处理机而采用直解法有时能揭示更多的并行性例如下列多项式E1 a bx cx2 dx3利用Horner法则可得到E1 a x b x c x d 4 19 2020 81 算术表达式的并行算法 cont 这是顺序处理的典型算法共需三个乘一加循环六级运算见图5 37 b 所示它对于多处理并不合适而采用前一式算法更加有效只需四级运算即可见图5 37 a 所示图中P为所需处理机数目 Tp为运算级数 Sp为加速度 Sp T1 Tp EP Sp P 可见 Sp 1 即运算的加速总是伴随着效率的降低 4 19 2020 82 算术表达式的并行算法 cont 从算术表达式最直接的形式出发利用交换律把相同运算集中在一起再利用结合律把参加运算的操作数称原子配对尽可能并行运算最后利用分配律平衡各分支运算的级数使总级数减至最少例如某多项式E2 a b c def g h需要7级运算利用交换律和结合律改写为E2 a h b c g def 则需5级运算再利用分配律将上式改写为E2 a h bc bg ddef则仅需4级运算如图5 38所示 4 19 2020 83 机间互连形式 1 总线形式时间分配最常见 PE PEM I O通道均连在总线上采用分时或多路转换技术实现数据传递是最简单的连接方式总线仲裁算法静态优先级算法平等算法动态优先级算法先来先服务算法等对外设一般采用优先级算法对PE采用均等算法实现方法集中式由总线控制器控制分布式中机构分散到各PE中提高总线效率方法改善传输介质和增加总线数量总线互连方式不适宜连接过多的处理机 4 19 2020 84 2 交叉开关形式空间分配是总线形式的极端总线数 PE数 PEM数 I O通道数是一种全相联形式控制仲裁转换机构均在开关中改进用一系列较小开关串联或并联形成多级交叉开关减少其复杂性交叉开关方式不适宜连接过多的处理机 3 多端口存储器形式将控制仲裁转换机构移到存储器中每个端口与一个PE或I O通道相连多端口存储器形式不适宜连接过多的处理机 4 19 2020 85 4 多级互连网络形式是介于总线 N 与交叉开关 N2 中间的一种 Nlog2N 对互连网络I与O数不一致时可采用榕树形网络多级互连网络适宜于PE数较多的系统 a b交叉开关 a入b出输入基于a编码输出基于b编码入端出端受阻后重新申请性能受建立时间限制设置缓冲器性能有所改善适合于包交换网络 an bn互连网络交叉开关为a b开关由n级构成比较交叉开关时结点数为an bn 多级互连网络时结点数为a b n2 明显降低了复杂性 4 19 2020 86 程序并行性的分析并行性的关键在算法研究并行算法及程序设计一直是多处理机系统的一个重要研究课题其中相关问题是十分重要和难以解决的问题之一 4 19 2020 87 数据相关举例假设有一个程序包含P1 P2 P3 Pi pj Pn等多个程序段取最简单的形式 Pi和Pj都是一条语句 Pi在Pj之前执行且只讨论Pi和Pj的直接相关关系一般而言 Pi和Pj之间存在三种可能的数据相关情况 4 19 2020 88 数据相关举例 cont 1 如果Pi的左部变量也在Pj的右部变量集内且Pj要从Pi取出算出的值称 Pj数据相关于Pi 如P1A B CP2C A EP2必须取P1算得的A值作为操作数 4 19 2020 89 数据相关举例 cont 2 如果Pj的左部变量也在Pi的左部变量集内则称 Pi数据反相关于Pj 如P1C A EP2A B D在P1未取用A值之前 A的值不能被P2所改变 4 19 2020 90 数据相关举例 cont 3 如果Pi的左部变量也在Pj的左部变量则称 Pj数据数相关于Pi 如P1A B DP2A A CP2存入它自己算得的值必须在P1存入之后 4 19 2020 91 3 数据相关避免主要解决反相关和输出相关由编译程序自动完成重命名方法 S A B CT D A EU A A DV IFX 0THENG F A U AA A DV IFX 0THENG F AA 标量扩充方法 fori 1tondoifA i 0thenX B i elseX C i D i X 1 fori 1tondob i A i 0 X i B i whenb i X i C i whennotb i D i X i 1 存在数据相关反相关输出相关控制相关消除了数据反相关输出相关消除反相关输出相关 4 19 2020 92 二并行程序设计语言 1 开发方式语言形成方式扩充语言功能重新设计并行语言对语言的要求灵活性效率程序设计方式显式隐式 2 扩展语言中三种并行结构 FORK JOIN 不同机器有不同形式效果相同 FORKA 派生一个进程当前进程继续 FORKA J FORKA功能外地址J计数器 1 FORKA J N FORKA功能外地址J计数器值为N JOINJ 地址J处计数器减1 当计数器值为零时启动J 1处进程否则结束该进程释放PE 4 19 2020 93 描述程序并行性的指令并行程序的执行是一个不断地进行并行性任务的派生和汇合的过程派生是在一个任务执行的同时派生出可与它并行的一个或多个任务分配给不同的处理机完成这些任务可以是互不相同的执行时间也不一样要等它们全部完成以后在汇合起来进入后继任务后继任务可以是单任务也可以是新的并行任务若是并行任务则又开始派生和汇合过程依次类推直至整个程序结束 4 19 2020 94 派生指令FORK 指令格式 FORKA功能在遇到FORK指令时执行该指令的原进程并根据标记符A派生出该标记符所对应的新进程即准备好启动新进程或恢复原来进程继续执行时的现场若共享主存则应该产生存储器指针映像函数访问权等信息执行FORK指令的原程序继续在分配给它的处理机上运行将空闲处理机分配给FORK指令派生的新进程如果所有处理机均忙则让新进程进入排队等待 4 19 2020 95 汇合指令JOIN 指令格式 JOINN功能 JOIN指令有一个计数器其初始值置为零当执行JOIN指令时计数器加上1 并与N比较若比较结果表明计数器值等于N 说明是执行中的第N个进程经过JOIN指令则允许该进程通过JOIN指令在其所在处理机上继续执行后继指令若计数器值小于N 则必须等待N个并行任务中尚未执行或虽然执行但未结束的进程到达JOIN指令现在执行JOIN指令的这个进程可以先结束并把占用的处理机释放出来分配给排队等待的其他任务 4 19 2020 96 例 3个PE并行处理8 8矩阵乘法 DO10J 0 610FORK20 60 派生处理第0 6列进程 J 7 当前进程处理第7列 20DO40I 0 7 处理0 7行 C I J 0DO30K 0 7 处理C I J 30C I J C I J A I K B K J 40CONTINUEJOIN6060 4 19 2020 97 块结构语言把可并行执行的进程用cobegin coend括起来处理最后一条语句执行完成后方可执行后续语句该语句可嵌套可使用共享变量但不允许修改 4 19 2020 98 parfor语句 parfor语句原语 4 19 2020 99 多处理机的操作系统高效的多处理机的操作系统是多处理机系统软件的核心相同点是资源分配和管理存储器和数据保护防止系统死锁异常进程的终结和处理等高效率地利用资源合理的进程调度使输入输出和处理机负载平衡在出现故障时使系统重新配置适度降级运行以提高系统可靠性它自动地发掘硬件和运行中程序的并行性通信方法同步机构布局和分配策略对操作系统的性能起决定性作用 4 19 2020 100 1 主从方式操作系统有一台主处理机进行系统的集中控制主处理机管理系统中所有处理机状态并对所有从处理机分配任务操作系统只运行在主处理机上它把从处理机视作可调度的资源从处理机经过自陷 trap 或管理调用指令向主处理机发出请求主处理机中断当前程序识别该请求并完成相应任务由于只有主处理机执行管理程序所以它不需要也不必考虑再入问题并且也简化了系统控制表格的冲突和封锁等问题 4 19 2020 101 1 主从方式操作系统 cont 当主处理机出现故障时整个系统崩溃需要操作人员干预或重新启动系统的硬件和软件比较简单不太灵活如果主处理机不能很快的为从处理机分配任务则从处理机可能长时间空闲系统利用率下降本方式对工作负载固定且从处理机能力比主处理机低的系统是适用的例如异构型多处理机用本方式操作系统就比较有效 4 19 2020 102 2 单独管理方式操作系统每个处理机均有一个独立的管理程序操作系统的内核在运行即每一个处理机都有同一个内核的副本为其本身服务由于处理机之间可交互作用因此管理程序的某些代码必须是可重入的或为了给其它处理机提供拷贝而必须重复设置每个管理程序都有一套自用表格但仍有一些共享表格从而带来共享表格访问冲突的问题使进程调度的复杂性和开销增大因此实现比较困难 4 19 2020 103 2 单独管理方式操作系统 cont 适应分布处理模块化结构特点减少对控制专用处理机需求有较高的可靠性有较高的系统利用率每个处理机有其自己的I O设备和文件因此整个系统的I O结构有变动时需要人工干预有几台处理机共同负担整个系统的控制所以当出现故障时自动启动一台出故障的处理机相当困难需要人工干预 4 19 2020 104 3 浮动管理控制方式操作系统它属于上述两种方式的折衷主处理机可以从一台处理机向另一台处理机浮动主控制程序也可以转移或者几个处理机同时执行管理程序担任主处理机时间也不固定该方式可使各类资源的工作负载比较平衡通过静态设置或动态控制的优先安排服务请求次序由于若干台处理机可以同时执行同一个服务程序因此管理程序的大多数代码必须是可重入的 4 19 2020 105 3 浮动管理控制方式操作系统 cont 由于存在多个管理程序所以表格访问冲突和表格

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第五章多处理机系统

文档简介

温馨提示

最新文档

评论

第五章 多处理机系统

文档简介

温馨提示

最新文档

评论

相关文档

第五章多处理机系统