第7章多处理机

上传人：m*** IP属地：河南上传时间：2020-04-06 格式：PPT 页数：53 大小：247KB 积分：15 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章多处理机 7 1多处理机的特点及主要技术问题7 2多处理机的硬件结构7 3程序并行性7 4多处理机的性能7 5多处理机的操作系统本章重点多处理机结构特点程序并行性并行任务的派生与汇合本章难点并行算法的研究思路程序中并行任务的派生与汇合 7 1多处理机的特点及主要技术问题多处理机具有两台以上的处理机在操作系统控制下通过共享的主存或输入输出子系统或高速通讯网络进行通讯多处理机属MIMD系统一多处理机与并行处理机的差别1 结构灵活性并行处理机结构主要针对向量数组处理设计专用性强互连形式简单多处理机系统实现多作业多任务并行结构灵活互连形式复杂 MIMD机结构上具有更大灵活性和更强的通用性 2 程序并行性并行处理机是操作级并行并行性存在于指令内部识别比较容易多处理机系统是作业级并行存在于指令外部较难识别 3 并行任务派生并行处理机由指令反映数据间能否并行计算并启动多个处理单元并行工作多处理机系统需专用语句来指明一个任务在执行时可派生另外的任务与之并行 4 进程同步并行处理机的处理单元在同一控制器控制下执行同一条指令工作显然同步多处理机系统中处理可能执行不同指令工作进度不一致必须用同步机制来控制 5 资源分配和调度并行处理机主要执行向量数组运算处理单元数目是固定的并行处理机任务调度较易用屏蔽手段就可以改变实际参加并行工作的处理单元数多处理机系统需用的处理机数不固定需解决好资源分配和任务调度负荷平衡问题尽可能提高系统硬件资源的利用率防止系统死锁二多处理机存在的主要技术问题1 硬件上处理好处理机 I O通道存储模块的互连问题 2 软件上最大限度开发系统的并行性以实现多处理机各级的全面并行 3 确定任务粒度问题即如何选择任务和子任务的大小 4 进程同步问题 5 任务分配资源分配防止死锁问题 6 当系统中某个处理机发生故障后的恢复问题 7 多处理机机数增多后如何能给编程者提供良好的编程环境问题 7 2多处理机的硬件结构 7 2 1紧耦合和松耦合多处理机有紧耦合和松耦合两种 1 紧耦合多处理机紧耦合多处理机是通过共享主存实现处理机间通讯的其通讯速率受限于主存频宽各处理机与主存经互连网络连接处理机数受限于互连网络带宽及各处理机访主存冲突的概率为减少访主存冲突主存采用模m交叉存取处理机还可自带高速缓冲存储器Cache以减少访主存次数 184页图7 1是紧耦合多处理机的两种构形它们的主要差别是处理机是否自带专用Cache 为了减少各处理机同时访问同一存储器模块的冲突存储器模块数m应等于或略大于处理机数p 每台处理机自带局部存储器不仅可以减少访主存信息量降低访主存冲突概率也可以减少处理机存储器互连网络的冲突如果再自带专用Cache就可以进一步减少这类冲突处理机间通过中断信号互连网络由一台处理机向另一台处理机发生中断信号来实现处理机间的进程同步多数多处理机采用非对称互连紧耦合多处理机常用于并行执行作业中的多个任务以提高系统的速度性能因此各处理机一般是同构形的同构异构 PE类型相同不同对称非对称每个PE与部分全部的I O通道连接常见结构同构对称式和异构非对称式多机系统互连网络实现PE PEM PE I O通道 PE 中断信号间的连接互连网络控制分布式控制消息传递机制思考1 为什么每个PE可自带小容量局部存储器思考2 为什么每个PE可自带一个Cache 系统规模 PE数量不能很多为什么通信与同步通过共享存储器地址进行通信通过共享地址或PPIN进行同步 1 松耦合多处理机松耦合多处理机中每台处理机都有一个容量较大的局部存储器用于存储经常用的指令和数据以减少紧耦合系统中存在的访主存冲突不同处理机间或者通过通道互连实现通讯以共享某些外部设备或者通过消息传送系统MTS来交换信息各台处理机可带有自己的外部设备消息传送系统常采用分时总线或环形星形树形等拓扑结构松耦合多处理机较适合做粗粒度的并行计算互连网络实现结点非PE与PSM 间互连控制分布式控制消息传递机制结点结构是完整的处理机系统当结点为多处理机系统时构成了层次系统 7 2 2机间互连形式多处理机机间互连的形式是决定多处理机性能的一个重要因素在满足高通讯速率低成本的条件下互连还应灵活多样以实现各种复杂的乃至不规则的互连而不发生冲突 1 总线形式时间分配多个处理机存储器模块和外围设备通过接口与公用总线相连采用分时或多路转接技术传送单总线方式结构简单成本低系统增减模块方便但对总线的失效敏感处理机机数增加会增大总线冲突概率使系统效率急剧下降 1 提高总线形式的系统效率的办法一是用优质高频同轴电缆来提高总线的传输速率二是用多总线方式来减少访总线的冲突概率 2 多种总线仲裁算法静态优先级算法为每个连到总线的部件分配一固定的优先级固定时间片算法是把总线按固定大小时间片轮流提供给部件使用动态优先级算法是总线上各部件优先级可根据情况按一定规则动态改变先来先服务算法是按接收到访问总线请求的先后顺序来响应 2 环形互连形式构造一种逻辑总线让各台处理机之间点点相连成环状称环形互连在这种多处理机上消息的传递过程是由发送进程将信息送到环上经环形网络不断向下一台处理机传递直到此信息又回到发送者为止发送信息的处理机拥有一个唯一的令牌它是普通传送的信息中不会出现的特定标记同时只能有一台处理机可持有这个令牌发送者在发送信息时环上其他处理机都处于接收信息的状态优点由于环形互连是点点连接不是总线式连接其物理参数容易得到控制非常适合于有高通讯带宽的光纤通讯有效带宽可以得到最充分的利用缺点信息在每个接口处都会有一个单位的传输延迟当互连的处理机机数增加时环中的信息传输延迟将增大 3 交叉开关形式空间分配单总线互连结构最简单但争用总线最严重交叉开关形式则不同于单总线它用纵横开关阵列将横向的处理机P及I O通道与纵向的存储器模块M连接起来如188页图7 7所示交叉开关形式是总线形式的极端总线数 PE数 PEM数 I O通道数 2 控制仲裁转换机构均在开关中总线数等于全部相连的模块数 n i m 且m i n n个处理机和i个I O设备都能分到总线与m个存储器模块之一连通并行地通讯改进用一系列较小开关串联或并联形成多级交叉开关减少其复杂性交叉开关方式不适宜连接过多的处理机由于多处理机的通信模式不规则因此能实现N 种排列的全排列网络同样适用于多处理机的机间互连 4 多端口存储器形式将控制仲裁转换机构移到存储器中每个存储器端口与一个PE或I O通道相连多端口存储器形式不适宜连接过多的处理机 5 开关枢纽结构形式参照多端口存储器的思想把互连结构的开关设置在各处理机或接口内部组成分布式结构则称为开关枢纽结构形式每一台处理机通过它的开关枢纽与其他多台处理机连接组成各种有分布结构的多处理机开关枢纽的选择应使组成的多处理机有较佳的拓扑结构和良好的互连特性特别是要适应处理机机数很多的情况理想的拓扑结构应该是所用开关枢纽数量少每个开关枢纽的端口数不多能以较短的路径把数量很多的处理机连接起来实现快速而灵活的通讯不改变模块本身的结构就可使系统规模得到任意扩充 7 3程序并行性多处理机的并行性既存在于指令内部也存在于指令外部因此必须利用算法程序语言编译操作系统及指令硬件等多种途径来开拓多处理机低层次的并行可通过向量化实现系统高层次的任务和作业的并行主要靠算法编译语言和操作系统来开发 7 3 1并行算法为了简化讨论以算术表达式的并行运算为例来说明并行算法的研究思路算法必须适应具体的计算机结构串行处理机上习惯采用的循环和迭代算法往往不适合于多处理机采用直接解法有时反倒能揭示更多的并行性例如 E1 a bx cx2 dx3 利用霍纳法可得到 E1 a x b x c x d 这是在单处理机上执行的典型算法共需要3个乘加循环6级运算但不适合于在多处理机上运行因为它无法利用上其他的处理机用3台处理机只需4级运算就够了将这两式的运算过程表示为树形流程图分别为下图所示运算的级数就是树的高度用Tp代表 P为所需处理机的数目称顺序运算的级数T1与P台处理机运算的级数Tp的比为加速比用Sp代表而Sp P Ep称为效率可见 Sp 1时会使Ep 1 即运算的加速总是伴随着效率的下降既然可把运算过程表示成树形结构那么提高运算的并行性就是如何对树进行变换减少运算的级数即降低树高树型结构可以用交换律结合律分配律来交换方法首先从算术表达式的最直接形式出发利用交换律把相同的运算集中在一起然后利用结合律把参加这些运算的操作数称原子配对尽可能并行运算从而组成树高最小的子树最后再把这些子树结合起来例如表达式E2 a b c def g h 共需7级运算利用交换律和结合律改写为E2 a h b c g def 则只需5级运算利用分配律进一步降低树高在恰当平衡各子树的级数的情况下往往能收到较好的效果表达式运算并行性的识别除了依靠算法外还可以依靠编译程序例如给定算术表达式Z E A B C D F 利用普通的串行编译算法产生三元指令组为 1 AB2 1C3 2D4 3E5 4F6 5Z 指令之间都是相关的需5级运算如用并行编译算法则可得到能并行执行的三元指令组为 1 AB2 CD3 124 EF5 346 5Z可见有了好的并行编译算法算术表达式的预先变形也可以是不必要的 7 3 2程序并行性的分析任务间能否并行除了算法外很大程度还取决于程序的结构程序中各类数据相关是限制程序并行的重要因素数据相关既可存在于指令之间也可存在于程序段之间假定一个程序包含P1 P2 Pi Pj Pn等n个程序段其书写的顺序反映了该程序正常执行的顺序为了便于分析设Pi和Pj程序段都是一条语句 Pi在Pj之前执行且只讨论Pi和Pj之间数据的直接相关关系 1 数据相关如果Pi的左部变量在Pj的右部变量集内且Pj必须取出Pi运算的结果来作为操作数就称Pj 数据相关于Pi 例如 PiA B DPjC A E相当于流水中发生的先写后读相关顺序串行运行的正确结果应当是 PiA新 B原 D原PjC新 A新 E原 B原 D原 E原 2 数据反相关如果Pj的左部变量在Pi的右部变量集内且当Pi未取用其变量的值之前是不允许被Pj所改变的就称Pi 数据反相关于Pj 例如 PiC A EPjA B D相当于流水线中发生的先读后写相关顺序串行运行的正确结果应是 PiC新 A原 E原PjA新 B原 D原 3 数据输出相关如果Pi的左部变量也是Pj的左部变量且Pj存入其算得的值必须在Pi存入之后则称Pj 数据输出相关于Pi 例如 PiA B DPjA C E按原执行顺序A新应为C E 可见只要同步能保证Pi先写入之后Pj的再写入这两个程序段可以并行当然交换串行是不行的因为最后结果将使A新成了B D了总结两个程序段之间若有先写后读的数据相关不能并行只在特殊情况下可以交换串行若有先读后写的数据反相关可以并行执行但必须保证其写入共享主存时的先读后写次序不能交换串行若有写写的数据输出相关可以并行执行但同样需保证其写入的先后次序不能交换串行若同时有先写后读和先读后写两种相关以交换数据为目的时必须并行执行且读写要完全同步不许顺序串行和交换串行若没有任何相关或仅有源数据相同时可以并行顺序串行和交换串行 7 3 3并行程序设计语言并行算法需要用并行程序来实现并行程序设计语言的基本要求是能使程序员在其程序中灵活方便地表示出各类并行性能在各种并行向量计算机中高效地实现并行进程的特点是这些进程在时间上重叠地执行一个进程未结束另一个进程就开始包含并行性的程序在多处理机上运行时需要有相应的控制机构来管理其中包括并行任务的派生和汇合并行任务的派生是使一个任务在执行的同时派生出可与它并行执行的其它一个或多个任务分配给不同的处理机完成并行任务的派生和汇合常用软件手段控制首先要在程序中反映出并行任务的派生和汇合关系例如可在程序语言中用FORK语句派生并行任务用JOIN语句对多个并发任务汇合 FORK和JOIN语句在不同机器上有不同的表示形式现以M E Conway提出的形式为例 FORK语句的形式为FORKm 其中m为新进程开始的标号执行FORKm语句时派生出标号为m开始的新进程具体为准备好这个新进程启动和执行所必需的信息如果是共享主存则产生存储器指针映象函数和访问权数据将空闲的处理机分配给派生的新进程如果没有空闲处理机则让它们排队等待继续在原处理机上执行FORK语句的原进程与FORK语句配合作为每个并发进程的终端语句JOIN的形式是JOINn 其中n为已派生出的并发进程个数 JOIN语句附有一个计数器其初始值为0 每当执行JOINn语句时计数器的值加1 并与n比较若比较相等表明这是执行中的第n个并发进程经过JOINn语句于是允许该进程通过JOIN语句将计数器清0 并在其处理机上继续执行后续语句若比较结果计数器的值仍小于n 表明此进程不是并发进程中的最后一个可让现在执行JOIN语句的这个进程先结束把它所占用的处理机释放出来分配给正在排队等待的其它任务如果没有排队等待的任务就让该处理机空闲例算术表达式Z E A B C D F的计算为例经并行编译得到如下程序 S1G A BS2H C DS3I G HS4J E FS5Z I J如果不加并行控制语句这个程序仍然只是一个普通的串行程序发挥不出多处理机的作用利用FORK和JION语句实现这种派生和汇合关系将程序改写为 FORK2010G A B 进程S1 JION2GOTO3020H C D 进程S2 JION230FORK40I G H 进程S3 JION2GOTO5040J E F 进程S4 JION250Z I J 进程S5 执行这个程序可用两台处理机其执行过程见196页图7 17所示假定A B两个8 8矩阵相乘需要在多处理机上实现任务一级的并行用FORTRAN语言书写的程序如下 DO10J 0 610FORK20J 720DO30I 0 7C I J 0DO40K 0 740C I J C I J A I K B K J 30CONTINUEJOIN8 设FORK语句在处理机1上执行在循环执行7次FORK20语句时派生出J 0 6共7个以20为标号的进程让它们与J 7的进程并行如果只有3台处理机分配了J 0和J 1的进程后其余J为2 6的5个进程就得排队等待处理机1在结束循环后执行J 7的进程整个程序在先后执行完8个进程才结束资源时间图如下图所示从表面上看多处理机的每一个处理机和并行处理机的每一个处理单元求解矩阵乘完成的工作是一样的但处理方式却有根本区别第一并行处理机的每一条指令要求8个处理单元对J 0 7的不同数组完全同步地运算而在多处理机中即使有8个处理机执行同一程序段并不需要也不会完全同步更何况不同处理机执行的程序段还可以是毫不相同的这是操作级并行与任务级并行的差别第二多处理机中可用的处理机数目对程序的书写没有影响即程序对可用的处理机数目无固定要求这是多处理机相对于并行处理机的重要优点之一 7 4多处理机的性能 7 4 1任务粒度与系统性能使用多处理机的主要目的是用多个处理机并发执行多个任务来提高解题速度任务粒度的大小会显著影响多处理机的性能和效率任务粒度过小辅助开销大系统效率低粒度过大并行度低性能不会很高因此要合理选择任务粒度的大小并使其尽可能均匀还要采取措施减少辅助开销以保证系统性能随处理机数目的增大能有较大的提高衡量任务粒度大小的一个依据是程序用于有效计算的执行时间E与处理机间的通讯等辅助开销时间C的比值任务粒度还与系统的应用有关图象及多目标跟踪因为机间通讯开销少宜于细粒度处理要求冗长计算才能得到结果的题目宜于粗粒度处理系统设计应使系统的应用能与应用问题的粒度取得较佳适配 7 4 2性能模型与分析通过建立多处理机若干不同的性能模型来分析不同程序并行算法及结构对多处理机性能的影响为了简化模型只考虑用于机间通讯方面的辅助开销其他方面的辅助开销对性能的体现可以通过对该模型适当增大任务粒度的办法来体现假定一个应用程序含T个任务在N台机处理机上运行每个任务的执行时间为E 两个任务在同一台处理机上执行是不需要机间通讯的但在不同处理机上执行就可能要机间通讯设每次通讯开销时间为C 1 N 2且计算与通讯不能重叠一个程序在双处理机上运行如果将全部任务都分配给一台处理机而让另一台处理机空闲虽然没有并行却不需要机间通讯程序总的运行时间为R T E 如果将其中I个任务分配给第一台处理机而余下的T I个任务分配给另一台处理机则 R E max T I I C T I I其中第1部分为执行时间是取两台处理机执行时间中的大者第2部分时间为通讯时间 R与I之间的关系如198页图7 19所示图7 19 a 分别表示E C等于T 2 大于T 2和小于T 2时总执行时间总通讯时间与I的关系可见E C的大小不影响总执行时间只影响总通讯时间图7 19 b 说明当E CT 2时将任务均分给两台处理机可使总运行时间R最少 2 N 2且计算与通讯不能重叠若将Ik个任务分配给第K台处理机则由于所以有第2项为每台处理机上各个任务与其他处理机上各个任务之间两两通讯的总时间 N台处理机总运行时间最短的情况或者是将所有任务集中分配于一台处理机上以免去通讯开销或者是将任务尽可能平均分配给所有各处理机对于平均分配的任务数T不是处理机数N的整数倍时让大多数处理机分得T N个任务一台处理机分配所剩全部不足T N个任务余下的处理机空闲不分配任务究竟是采用平均分配还是集中分配可以通过计算这两种任务分配策略的总运行时间差来决定结论当E C T 2时应采用平均分配策略而当E C T 2时因额外开销C较大应采用集中分配策略以上是假设所有任务的执行时间都相同的情况因此任务均匀分配给所有处理机可使处理机总执行时间最少实际上各个任务的执行时间不一定相同这时若采取不均匀分配任务可以大大减少通讯开销即在各处理机总的运行时间均衡的前提下让各处理机所分配到的任务数尽可能地多或者尽可能的少可以使系统因通讯开销减少而使总运行时间得以减少 3 额外开销与计算工作可以重叠推导过程见201页对于N台处理机当ET N C T T 2 1 1 N 时辅助开销将被完全覆盖掉如果N值很大而让总运行时间最少时就有N 2 E C T 即选择的最佳机数与可提供的任务数T成反比 4 机间通讯可以多路同时进行推导过程见201页结论增大并行度和增大通信链路带宽均可以缩短总运行时间任务粒度相应可以取得小些不过通信链路数的增大及通信链路带宽的提高并不能降低通讯之外的其它辅助开销同时将会显著提高系统的造价因此此时并行度大小主要取决于系统的性能价格比所采用的机间通讯技术互连结构以及为降低其它辅助开销所采取的措施结论随着多处理机机数的增加解题时用于计算的那部分执行时间会减少但调度共享资源的竞争同步机间通讯等辅助开销会增大而且这种增大的量可能比机数的线性增加还要大就多处理机而言结构设计者应考虑如何设计出一个使E C值尽可能高且价格合理处理机机数多又能高效使用的多处理机应深入展开对并行算法并行语言并行程序设计技术和如何减少额外开销等综合研究 7 5多处理机的操作系统包含并行性的程序在多处理机上运行时要有相应的控制机构来实现管理功能它们主要是通过多处理机操作系统用软件手段来实现的多处理机操作系统有主从型各自独立型及浮动型三类 7 5 1主从型操作系统主从型管理程序只在一个指定的处理机主处理机上运行该主处理机可以是专门的执行管理功能的控制处理机也可以是与其它从处理机相同的通用机除执行管理功能外也能做其它方面的应用 1 优点系统硬件结构比较简单整个管理程序只在一个处理机上运行除非某些需递归调用或多重调用的公用程序一般都不必是可再入的实现起来简单经济方便是目前大多数多处理机操作系统所采用的方式 2 缺点对主处理机的可靠性要求很高一旦发生故障很容易使整个系统瘫痪这时必须要由操作员干预才行当大部分任务都很短时由于频繁地要求主处理机完成大量的管理性操作系统效率将会显著下降 3 适用场合主从型操作系统适合于工作负荷固定且从处理机能力明显低于主处理机或由功能相差很大的处理机组成的异构型多处理机 7 5 2各自独立型操作系统各自独立型将控制功能分散给多台处理机共同完成对整个系统的控制工作每台处理机都有一个独立的管理程序在运行即每台处理机都有一个内核的副本按自身的需要及分配给它的程序需要来执行各种管理功能 1 优点很适应分布处理的模块化结构特点减少对大型控制专用处理机的需求某个处理机发生故障不会引起整个系统瘫痪有较高的可靠性每台处理机都有其专用控制表格使访问系统表格使访问系统表格的冲突较少也不会有许

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第7章多处理机

文档简介

温馨提示

最新文档

评论

第7章多处理机

文档简介

温馨提示

最新文档

评论

相关文档