并行计算讲义

上传人：简*** IP属地：湖北上传时间：2020-04-05 格式：DOC 页数：81 大小：3.47MB 积分：9.6 举报 版权申诉

已阅读5页，还剩76页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

燕山大学课程讲义燕山大学课程讲义并行计算导论并行计算导论授课人郭栋梁授课人郭栋梁学时学时 32 学时学时其中实验课其中实验课 8 学时学时三级项目三级项目 16 学学时时第第 1 章章引言引言 1 1 概述概述单处理器计算机即将成为过时的概念我们需要考虑如下因素来着手改进提高计算机的性能 1 单纯依靠单处理器很难提升现有计算机的性能即使有一个性能十分强大的单处理器其功耗也让人无法接受想要提升计算机的性能更加可行的方法是同时使用多个简单处理器它所能达到的性能可能是现有单处理器计算机性能的几千倍 2 观察结果显示除非使用并行处理技术一个程序在一台型号更新的单处理器计算机上的运行速度可能比在旧的计算机上的运行速度更慢能依照给定算法检测出程序中的并行结构的编程工具还有待开发此算法需要能够检测出变 ja 之间的依赖关系是否规则而且不管这些依赖是否规则此算法都能在保证程序正确性的前提下通过将程序中的一些子任务并行化来加速程序的执行 3 提升未来的计算机性能的关键就在于并行程序的开发这涉及各个层面的工作算法程序开发操作系统编译器及硬件设备 4 并行计算除了要考虑到参与并行计算的处理器的数量还应该考虑处理器与处理器处理器与内存之间的通信最终计算性能的提升既依赖于算法能够提升的空间更依赖于处理器执行算法的效率而通信性能的提升则依赖于处理器对数据的供应和提取的速度 5 内存系统的速度始终比处理器慢而且由于一次只能进行单个字的读写操作内存系统的带宽也有限制 6 内存系统的速度始终比处理器慢而且由于一次只能进行单个字的读写操作内存系统的带宽也有限制本书内容主要涉及并行算法与为了实现这些算法而设计的硬件结构硬件和软件是相互影响的任何软件的最终运行环境是由处理器组成的底层硬件设备和相应的操作系统组成我们在本章开始的部分会介绍一些概念之后再来讨论为了实现这些概念有哪些方法和限制 1 2 自动并行编程自动并行编程对于算法在软件中的实现过程我们都很熟悉在编程并不需要了解目标计算机系统的具体细节因为编译器会处理这些细节但是在编程和调试时依旧沿用着在单一央处理器 CPU 上顺序处理的模式从另一方面讲为了实现并行算法硬件和软件之间的相互联系需要比我们想象的更加密切图 1 1 展示了基于软件和硬件利用并行计算机来运行程序的主要步骤和层次从最顶层开始第 5 层是指应用层在这一层里描述的是需要并行计算平台实现的应用和问题对应所需的输入和输出的格式也在这层进行定义某些输人和输出 I O 接口的描述还需要考虑数据存储的位置和时间相关性这一层的结果会被更低一层采纳以便指导并行算法的开发工作第 4 层是算法开发层这里需要考虑到应用在问题中的实现需要应用实现的计算内容决定了算法的具体任务和任务之间的相互依赖关系 interdependence 在这一阶段算法的并行性并不一定会显现出来因为在探索算法子任务执行的时候仍然在运用传统的线性思考在这一阶段也不需要考虑子任务的时间调度和处理器分配的问题可能在现阶段就将这些问题解决的做法看起来很诱人但是这样做会适得其反因为这会掩盖程序中潜在的并行性该层的结果是一个依赖图或是一个有向图或者是一个概括了任务之间依赖关系的临界矩阵第 3 层是并行化层在这一层将试着释放算法中潜在的并行性这一层接收了第 4 层对算法的描述并且给出了基于软件实现的线程时间调度和处理器分配另一种选择是在这一层进行基于超大规模集成电路的硬件实现的任务调度和处理器分配本书内容主要集中在这一层上在图 1 1 用灰色方形显示第 2 层是代码层在本层中并行算法用高级语言表示为代码使用何种语言取决于目标并行计算在何种平台执行图 1 1 中右侧的分支表示算法在通用并行计算平台上的实现过程这一做法即是我们所说的并行编程并行计算机程序由所谓的并发平台执行此种平台帮助编程人员管理线程处理处理器级别的任务执行时间调度并发平台包括 Cilk OpenMP CUDA compute unified device architecture 统一计算设备架构图 1 1 中左侧的分支表示并行算法在定制的硬件设备上的实现例如脉动阵列计算机编程人员使用硬件描述语言 HDL 例如 Verilog 或者超高速集成电路硬件描述语言 VHDL 第 1 层的目标是算法的实现或是在并行计算机平台的应用实现的途径可以是在并行计算平台上使用多线程也可以是在特定用途集成电路 ASIC 上或者现场可编程门阵列 FPGA 上使用特定的应用并行处理系统那么并行计算机自动编程又是什么意思呢现在我们已经可以进行线性计算机自动编程程序员用像 C Java FORTRAN 这样的高级语言编写代码这些代码可以被计算机自动编译不需要程序员再去做进一步的工作更重要的是程序员编程的时候也不需要了解底层计算平台的硬件细节甚至在程序员完全不需要知道内存结构也不知道 CPU 的信息和产他细节的情况下代码就可以迅速地转化为结果上述的一切能用在并行编程上吗我们需要的并行编译器要能找到简单环路和解决处理器的分配等问题而且这种编译器还能轻松地解决现在被称为让人尴尬的并行算法译注也就是相对独立的可以完全并行执行的算法的问题 2 3 除此之外程序员还需要对处理器之间的行为有着充分的了解并且知道算法需要在何时执行 1 2 自动并行编程自动并行编程 IEEE 电子工程名词标准词典里对于算法一词的定义如下为了描述在有限步骤内解决某一个问题而定义的过程或者规则一个算法的任务或者过程一般是独立的有些任务可以并发执行但有些必须线性地按顺序进行根据上述的定义任何算法都是由并行和非并行两部分组成的除了某些极端的情况很难定义某些算法是并行的而某些是完全串行的即非并行后面将探讨如何量化一个算法的并行度如果某个算法由 W 个子任务组成则称与这个算法有关的操作数是 W 定义一个算法的基本组成部分如下 1 不同的子任务 2 子任务之间的依赖关系当某一个子任务的输入是另一个子任务的输出时他们之间则存在依赖关系 3 算法的初始输入集 4 算法的最终输出集 1 3 1 算法有向图算法有向图我们通常用有向图以下简称 DG 来直观地表示算法的子任务之间的数据依赖关系 DG 在描述算法的时候表示依赖图需要用带箭头的线段强调子任务之间的数据流向关系换句话说如果一个依赖图的边没有箭头表示方向就很难从图中得知数据的依赖关系定义 1 1 一个依赖图是边和结点的集合结点表示算法的子任务边表示子任务用到的数据数据包括输人输出和中间结果需要注意的是在一个依赖图中出现的不带箭头的边表示此边连接的两个结点之间没有数据依赖关系它们只是共用算法中的某一个变量这个变量可以是输入输出或者在算法中作为 I O 媒介的中间结果定义 1 2 DG 是有向边和结点的集合结点表示算法需要处理的子任务有向边表示子任务之间的数据依赖关系一个子任务的输出在一条边的开端部分箭头指向的一端表示一个子任务的输入定义 1 3 有向无环图 DAG 址指一个没有任何环路的 DG 图 1 2 是一个示例算法的 DAG 根据源结点和目标结点的关系来加以分类在一个 DAG 或者 DG 里有 3 种不通过的边定义 1 4 一个 DG 中的输人边是指只有目标结点而没有任何源结点的边表述了算法的一个输入在图 1 2 中可以粉到有 3 条这样的输人边分别表示了输人 in0 in1 和 in2 定义 1 6 一个 DG 中的内部边是指既有源结点又有目标结点的边表述了算法的一个内部变量定义 1 7 一个 DG 中的输入结点是指所有的人边都是输入边的结点在图 1 2 中可以看到结点 0 1 和 2 都表示输人结点输人结点所表示的子任务在算法输人变量就绪后就被处理定义 1 8 一个 DG 中的输出结点是指所有的出边都是输出边的结点图 1 2 中可以看到结点 7 和 9 都表示输人结点但结点 3 不是输出结点因为结点 3 的一条出边是指向结点 7 的内部边定义 1 9 一个 DG 中的内部结点是有至少一条人边和至少一条出边的结点 1 3 2 算法的邻接矩阵算法的邻接矩阵一个算法也可以用一个邻接矩阵 A 来表示若算法中有 W 个子任务就有一个 W W 阶的 0 1 矩阵来表示这个算法其中 a i j 1 表示结点 i 的输人依赖于结点 j 的输出 j 是源结点而 i 是目标结点当 a i j 0 表示结点 i 的输入不依赖于节点 j 的输出对于任何 0 iN 此时每个处理器都需要从共享内存中读取数据从而产生了内存冲突可以把上述内容总结为若处理器试图访问同一组内存模块时将结果写回内存也有可能发生冲突对单一处理器而言完成一个任务所需的时间包括内存通信时间开销表示如下考虑到通信开销的加速比计算等式如下内存不匹配比 R 的定义如下 R 表示从内存读取一个数据块的延迟和处理一个数据块的延迟的比位根据子任务的粒以及内存读写的速度不同应比小几个数量级 p m 还可以将等式 1 17 用 N 和 R 表示为图 1 7 展示了以 N 和 R 为参考量在 1 的情况下加速比的变化情况数学模拟结果显示的变化对结果并无显著影响由以上等式可知在 RN O 1 时加速比开始迅速下降当 R 1 时出现了通信边界问题井行化的优势也消失了这提醒我们内存系统的设计和处理器之间的通信问题是很重要的第 3 章还会讨论多核处理器由于多核处理器将处理单元都染成在一块芯片上相比于跨芯片的多处理器系统多核处理器的处理单元之间的通信速率拐到了大辐提升在多核系统中 Tm减小了几个数量级 R 值也大幅减小考虑内存的读写时间多核处理器间的通信开销表示如下其中 0 由内存系统和算法决定 0 时表示单处理器系统处理器之间无数据交换在某些算法中 p 的值可能等于 log2 N 甚至等于 N 其原因可能是程序员在编程时完全没有考虑到处理器之间的通信问题 1 9 针对多处理器系统的针对多处理器系统的 Amdahl 法则法则假设一个算法或者一个任务由可并行部分 f 和串行部分 1 f 组成由单一处理器完成这个算法的所需时间则是等式的第一个部分的右手部 RHS 表示处理器完成串行部分所需的时间等式的第二个部分的 RHS 表示完成并行部分的所需时间若有 N 个并行处理器来处理此任务所需时间表示为可以将算法的并行部分分配到 N 个处理器上来实现提速在 Amdahl 法则中使用 N 个处理器时的加速比 S N 表示为由此不等式可以看出若要加速某个算法的执行并行部分 f 需要十分接近 1 特别是在 N 很大的时候图 1 8 中展示了加速比与 N 和 f 的关系实线表示 f 0 99 虚线表示 f 0 9 点线表示 f 0 5 可以从这三条曲线看出加速比受 f 值的影响同预期的一样 f 值越接近 1 加速比越大 f O 5 时加速效果更加显著随着 N 值变大加速比的曲线也趋于饱和当 N 值足够大时等式 1 23 中的加速比可以表示为由上式可以看出若系统的处理器数目大于 10 时加速比的提升主要依核于能挖掘出多少程序中的可并行部分以及能同时执行多少子任务图 1 8 证实了这些假设在 f 取得极限值时等式 1 23 变形为式的推导过程很简单在程序完全并行时加速比等于并行处理器的数目我们能从上述等式中得到什么结论首先应该知道或者大致知道给定算法的 f 值知道 f 值可以预测一个多处理器系统的加速比此外 f 值也可以帮助我们判断如何将算法映射到多处理器系统上 1 10 Gustafson Barsis 法则法则根据 Amdahl 法则得出的加速比值是比较悲观的因为在 Amdahl 法则中可并行化部分 f 的值是固定不变的但是 Gustafson 的观测结果表示随着问题规模的增长一个应用的并行度也在增长为了推导出 Gustafson Barsis 公式首先计算一个任务在 N 个并行处理器上完成的时间为若此任务在单处理器系统上处理完成其串行部分所需时间不变并行部分相应改变加速比为图 1 9 展示了加速比与 f 和 N 的对应关系实线表示 f 0 99 虚线表示 f 0 9 点线表示 f 0 5 从图中可以看出即使 f 的值很小加速效果依旧很明显加速比随着 N 的提高而提高为了得到加速效果需满足 f N 1 1 需注意若 f 的值很小而 N 的值很大加速效果依旧明显相比于等式 1 24 Gustafson barsis 公式对加速比的条件限制比较宽松 1 11 并行计算的应用并行计算的应用廉价而且强大的并行计算技术的出现将为人们的生活带来无法预见的重大影响搜索引擎的技术就是并行计算的一种应用实际上当人们输人关键词的时候搜索已经开始进行了并行计算技术仍有很大的提升空间而且有很多可以创新的应用领域本节将详述这些应用 1 11 1 气象建模气象建模气象模拟用来预测天气变化也用于预测人类活动和各类现象对全球气候的影响有文献表示现阶段气象模拟的解析度是 200km 然而有许多气象系统的规模要小于 200km 因此迫切需要提高解析度假设有一个高精度的气象模拟模型将地球划分为无数个 1km3的独立的 3D 单元地球的表面积大约是 510X106 km2 大气的厚度大约是 1000km 我们需要模拟大约 5X 1011个独立的 3D 气象单元若每个单元需要在一次迭代模拟计算中完成 200 次浮点运算进行一次迭代计算总计要完成 1014次浮点运算操作假设完成一个完整周期的气象模拟需要做性能需求运算操作总数 1014次运算每次迭代 X106次迭代 1020浮点运算操作 1 32 使用一台每秒能完成 109次浮点运算 FLOPS 的计算机来完成上述的计算内容需要 1011 秒约等于 31 个世纪若要在一天内完成上述运算需要系统的性能达到 2 8 1015FLOPS 很显然单处理器计算机无法达到这样的性能要求我们需要将计算任务分配至第第 3 章章并行计算机并行计算机 3 1 概述概述算法和多处理器架构相互之间是紧密联系的在考虑并行算法的时候不能脱离将要支持这个算法的并行硬件反过来在考虑并行硬件的时候也不能脱离将要运行于其上的并行算法计算机系统中可以通过硬件和软件的手段在不同的层次实现并行 1 数据级并行在这一层我们对一个数据的多个位或多个数据同时进行操作例如位并行加法乘法以及二进制数的除法向量处理器和处理多数据单元的脉动式阵列 2 指令级并行 ILP 在这一层我们在处理器中同时执行多个指令例如指令流水线的使用 3 线程级并行 TLP 线程是程序的一部分它与其他线程共享处理器资源线程有时也被称为一个轻量级的进程在 TLP 中多个软件线程在一个处理器或多个处理器上同时被执行 4 进程级并行进程是一个在计算机中正在运行的程序一个进程保留着其拥有的计算机资源如内存空间和寄存器当然这是典型的多任务和分时计算其中多个程序同时运行在共享的一台计算机或几台计算机上 3 2 并行计算并行计算本节试图说明可用于构建并行计算机系统的不同方案最著名的处理器分类方式是由弗林基于数据及其被执行的操作而提出的 1 单指令单数据流 SISD 这是单处理器的情况 2 单指令多数据流 SIMD 的所有的处理器在不同的数据上执行相同的指令每个处理器都在本地内存存储它自己的数据它们之间通过典型的简单通信机制进行数据交换许多科学和工程应用程序使用这种并行处理机制这种应用的例子包括图形处理视频压缩医学影像分析等 3 多指令单数据流 MISD 神经网络和数据流机是这种并行处理器的例子 4 多指令多数据流 MIMD 每个处理器在其本地数据上运行各自的指令这种并行处理器的例子通常来说就是多核处理器和多线程多处理器弗林的分类有点粗糙而且我们还希望在并行计算机中更加详细地探索包括 SIMD 和 MIMD 在内的其他领域处理器之间的同步问题并不在弗林分类标准的考虑范围内本章将讨论最常用的并行计算机体系结构而不是探索其他分类机制应该指出上述最后一种处理器类型正在迅速成为一个流行的处理系统共享内存多处理器分布式内存多处理器 SIMD 处理器脉动式处理器集群什算网格运算多核处理器流多处理器 SM 3 3 共享内存的多处理器统一内存访问共享内存的多处理器统一内存访问 UMA 共享内存处理器的流行是由于简单和通用的编程模型它使得支持共享代码和数据的并行软件开发变得简单共享内存处理器的另一个名字是并行随机访问机 PRAM 共享内存或共享地址空间作为处理器之间的一种通信方式共享内存架构中的所有处理器可以通过互联网络访问一个公用内存的相同地址空间如图 3 1 a 所示通常情况下这个互联网络是一种总线似是对于更大的系统来说网络取代了总线以提高性能我们所说的性能是指在单位时间内进行的处理器内存访问次数吞吐址以及从处理器请求内存访问到该请求被允许之间的时延延迟互联网络类型及其性能分析可在文献 28 中找到可以直观地看到内存带宽成为系统瓶颈因为在一个给定的时问内只能有一个处理器访问内存要解决这个问题图 3 1 h 的配置用互联网络替代了总线它允许多个处理器同时访问网络这种配置还使用多个内存取代单个内存模块这使得多个内存读写操作可以同时发生共享内存系统以及一般并行计算机的另一个常见问题是缓存一致性共享内存中的任何信息必须和不同 CPU 上的本地缓存中的所有副本保持一致缓存一致性协议用于确保处理器之间的缓存一致性在共享内存多处理器中任何处理器可以访问任何内存模块图 3 1 b 显示了共享内存多处理器架构多个内存模块允许多个处理器同时访问多个内存模块这当然增加了受互连网络限制和内存冲突影响的内存带宽内存冲突在多于一个的处理器试图访问相同的内存模块时发生任何内存模块设计面临的主要问题是它通常只有一个访问端日所以无论内存模块有多大只有一个数据字节可以在任意时间内被访问在共享内存多处理器中每个处理器都认为只有一个内存地址空间并且访问任何内存模块花费相同的时间这被称为 UMA 多处理器系统在许多共享内存多处理器中互联网络是一个简单的总线这就是两个以及四个奔腾处理器时的情况开发共享内存的多处理器并行程序不是太困难因为所有的内存读操作对于程序员是不可见的并且能够以小行程序一样的方式进行编写相对来说写指令的编程更加困难因为这个操作需要锁定数据访问直到某些线程完成对数据的处理程序员必须识别出程序中的临界区并引人进程间和线程间的同步机制以确保数据的完整性诸如 POSIX 的编程库和诸如 OpenMP 的指令通过屏障锁监听互斥和信号量来支持同步在共享内存多处理器系统中遇到的一个问题是缓存一致性通常情况下处理器在其自己的高速缓存中留有一个在内存模块中的数据副本现在如果另一个处理器改变了内存模块中这个块的内容那么缓存中的内容就过时了这时缓存更新政策必须被执行以确保所有处理器中高速缓存内的副本得到更新同步也必须被执行以确保多个处理器读写数据不产生冲突信号量互斥体和监听被用来确保数据的完整性第 4 章对共享内存处理器有更详细的讨论 3 4 分布式内存多处理器非统一内存访问分布式内存多处理器非统一内存访问 NUMA 在分布式内存多处理器中每个内存模块和一个处理器关联在一起如图 3 2 所示任何处理器可以直接访问它自己的内存消息传递 MP 机制用于允许一个处理器访问与其他处理器关联的内存模块消息传递接口 MPI 是一种与语言无关的通信协议从这个意义上说处理器的内存访问不是统一的因为它取决于处理器正试图访问哪个内存模块这被称为 NUMA 多处理器系统如果分布式内存多处理器是由相同的处理器组成的则是一个对称多处理器 SMP 如果内存的分布式多处理器是由异构的处理器组成的则是一个非对称多处理器 ASMP 当分布式内存多处理器的互联网络是全球性的如互联网那么这个分布式内存系统通常是由成千上万台计算机集合而成以合作解决庞大的科学问题并且这个系统被称内不同的名字如大规模并行计算分布式计算网格计算等 3 5 SIMD 处理器处理器 SIMD 可以被归类为一个单一程序多数据流的特殊情况 SPMD SIMD 处理器属于共享内存多处理系统或分布式内存多处理系统使用共享内存建立的 SIMD 适用于需要频繁交换数据的应用程序其中一个处理器作为新的数据的生产者许多其他的处理器作为数据的消费者每个处理器与其他处理器同步执行相同的任务正在执行的任务可能是一个简单的指令一个线程或进程在处理器之间分布内存可以减少内存带宽问题许多应用程序应用了 SIMD 处理模型只要应用程序是可并行的这些应用包括生物信息学生物医学诊断流体力学图像处理视频处理等 SIMT 能够 I 著提高应用程序的性能有些计算机制造商在它们的处理器中加入 SIMT 扩展并且可以运行现有的程序而不需要重新编译同样地一些容易学习的编程规范也利用了 SIMT 架构例如英特尔 C 并行探测编译器适用干 SIMD 的共享内存模型的一个例子是以下方程所描述的递归滤波器其中 a j 和 a j 是滤波器系数 N 是滤波器的阶数或长度请注意在上面的方程中 b 0 0 所有的处理器实现上述方程单指令程序但作用于不同的输入数据处理器 i 将负责生产过滤器的输出采样 y i 并且其他 N 个处理器可能需要在各自的计算中读取这个值当算法的粒度很粗糙时 SIMD 机器将被称为 SPMD 机 3 6 脉动式处理器脉动式处理器许多作者认为脉动式处理器属于流水线系统而事实上流水线处理是脉动式处理的一个特殊情况正如我们在第 2 章中看到的流水线是一维的并且数据流是单向的一个典型的管道在相邻阶段之间传输数据脉动阵列可以是一维二维或是不维的如果有必要甚至可以是更高维度的数据沿一个或多个方向在相邻的处理器之间沿着一个或多个方向流动在流水线系统中每个流水线阶段执行不同的任务在脉动式处理器中所有的处理单元 PE 通常执行相同的任务一般来说 PE 之间的互连模式是从邻点到邻点的可能还有一些全局互连每个 PE 有一个小容量的内存来存储数据和中间结果脉动架构适合实施数据依赖简单的高度规则的算法这些算法包括 1 线性代数矩阵矩阵和矩阵向量乘法求解线性方程组 2 字符串搜索和模式匹配 3 数字滤波器例如一维二维和三维数字滤波器 4 在视频数据压缩中的运动估计 5 有限域运算如椭圆曲线运算图 3 3 显示了一个用于实现矩阵一矩阵乘法算法的简单 SIMD 处理器的例子从图中可以看到矩阵系数是以分布式内存的方式被存储在 PE 上的我们也看到处理器之间的通信是从邻点到邻点的正如垂直箭头所示并且使用全局布线如水平线所示输入数据必须是主要提供给左边缘上的处理器输出数据从处于顶部的处理器获得与脉动式架构相关的设计问题有以下几种 1 脉动式处理器旨在实现一个特定的算法它必须重新设计以实现不同的算法即使在实施相同的算法时问题规模的改变可能需要对系统进行大量的重新设计 2 提供大量输入数据给多个处理器对系统输入输出 I O 的带宽是个严重的制约在一维脉动处理器中输入通常是先送到一个处理器再经过流水线传输到其他处理器在其他时间输人是通过广播总线送到 PE 或 PE 阵列的一个边缘的所有 PE 这会把脉动式处理器的性能变成受 I O 影响的廉价磁盘冗余阵列 RAID 可以提供一个高内存带宽的大规模存储这个理念可以应用到闪存而非磁盘 3 从多个处理器获取大量的输出数据对系统 I O 带宽是一个严重的制约输出可以从一个处理器从连接所有处理器的总线或从一个 PE 阵列的一个边缘获得 RAID 可提供高内存带宽的大规模存储在我们离开本节前有必要比较一下脉动式处理器和 SIMD 处理器因为表面上看这两种类型的处理器都在多个数据上执行单一指令表 3 1 从架构内存和任务粒度相关的不同方面比较了 SIMD 和脉动阵列处理器 3 7 集群计算集群计算计算机集群是一组两个或两个以上的计算机用于执行给定问题或代码段通常情况下在计算集群中将计算机连接在一起的是一个局域网络 LAN 图 3 4 显示了一个集群计算机系统的体系结构集群中的计算机在彼此之间以及共享内存之间通信因此集群中处理器的通信主要通过局域网数据包局域网通常架设在能够支持处理器之间的高速流量的服务器计算机上共享内存必须能够在同一时间与多个处理器通信根据共享的内存大小它可以使用 RAID 实现客户机在集群的处理器之间分配任务并且收集结果 3 8 网格计算云计算网格计算云计算网格计算是指为用户提供使用分布在广域网 WAN 上的计算资源的服务从这个意义上说网格计算机是一个分布在广阔的地理区域的大量处理器的集合网格计算处理的计算任务规模较大如 N 体模拟地震模拟大气和海洋模拟相对于集群计算网格计算机是一个大的集群其中 LAN 被诸如 Internet 的 WAN 取代本章后面的习题总结了集群计算和云计算之问的主要区别一些使用云计算实现的应用包括对等 P2P 计算作为服务的软件像 Google App Google Calendar 和 Google Mail 海量存储 Web 应用程序和社交网络 3 9 多核系统多核系统多核系统通常是指所有处理器都在同一芯片上的多处理器系统它也可以指处理器在不同的芯片上但在同一个封装内即一个多芯片模块的系统这种紧密的封装保证了较快的处理器间通信同时保持了较低的功耗对于双核或四核系统处理器通信使用一条简单的总线对于更多数量的核心处理器使用片上网络 NOC 进行互连另一方面多处理器系统的处理器分布在不同的芯片上并目处理器间互连依靠的是底板总线继续研究并且得到一种每个芯片都是多核心芯片的多处理器系统是可能的多核系统的开发主要是为了提高系统的性能同时限制其功耗换句话说即使其组成核心是低性能处理器多核系统仍具有良好的性能表现相比之下多处理器系统的开发提高了系统性能却很少考虑功耗一个多处理器系统具有良好的性能并且使组成的处理器也是高性能的表 3 2 总结了多核系统与多处理器系统的主要区别图 3 5 显示了多核处理器的草图一个多核系统由以下部分组成 1 通用的可编程核心 2 特殊用途的加速核心 3 共享内存模块 4 NoC 互联网络 5 I O 接口为什么要走向多核系统最主要的原因是可扩展性当我们通过增加处理器数量来提高性能时多核系统限制了功耗和处理器问的通信开销多核系统还可以通过加入更多的 CPU 内核或者调整互连网络来进行扩展要充分利用增加的资源还要做更多的工作增加 CPU 资源数量是一回事更好地调度它们来有效地处理任务又是另一回事了一些能够高效地在多核系统上实现的应用程序包括 1 通用多任务计算 2 网络协议处理 3 加密解密处理 4 图像处理 3 10 流多处理器流多处理器流多处理器 SM 是一种 SIMD 或 MIMD 机器其组成处理器是流处理器 SP 或线程处理器流处理器定义为一个处理数据流的处理器其指令集架构 ISA 包含了核来处理这些流流处理的概念与图形处理单元 GPU 密切相关从而使 GPU 能够执行一般的计算密集型的通用计算 GPU 也因此成为了通用 GPU 数据流的例子有浮点数向量或视频数据处理中的一组帧像素这种类型的数据显示出了时间和空间局部性时间局部性是输入的数据流只使用几次来产生输出流空间局部性是输入数据流处于内存的同一个块内流多处理器的一个成功的例子是新一代的 GPU 如 NVIDIA 的 Fermi 适合 SM 的应用程序必须满足 3 个特点 1 计算密集性 2 数据并行性 3 消费一者一生产者局部性也就是时问和空间局部性计算密集性的定义是算术运算次数与 I O 或全局内存访问次数的比值适合流处理的应用中这个比例可能达到 50 1 以上数据并行性是对输入流的所有数据并行地进行同一操作生产者一消费者局部性是数据被读取或使用一次或若干次以产生输出流诸如 NVIDIA 的 Ferrni 的 GPU 能够支持数以万计的并行线程因为适合流多处理的数据显示出局限性这些数据使用本地高速缓存井且没有缓存命中失败这消除了内存延时大的问题简而言之 SM 或 GPU 适合长数据序列的应用这些数据能够使用数千个线程执行 3 11 并行处理器之间的通信并行处理器之间的通信我们在本节中回顾并行处理器如何通信以及使用什么类型的通信策略并行处理器为了完成分配给它们的任务需要彼此之间交换数据 3 11 1 通信类型通信类型我们可以定义以下类型的通信模式 1 一对一单播 2 一对多组播 3 一对全部广播 4 收集 5 规约图 3 8 显示了不同类型的通信模式一对一单播一对一操作涉及一对处理器发送端和接收端这种模式有时也称为点对点通信我们往往在 SIMD 机中遇到这样的通信其中每个处理器与它的邻居交换数据图 3 8 a 显示了处理器之间的一对一通信模式图中只显示一对处理器之间的通信但通常情况下所有的处理器都可以在同一时间执行一对一通信此操作通常是在每次迭代中进行的因此须做到高效率大部分时间里假设相邻的处理器之间的时钟同步已经完成源寄存器和目的寄存器之间使用一个简单的数据交换在其他情况下双向方式即数据一确认甚至四向握手即请求一确认一数据一确认也是必要的一对多组播一对多操作涉及一个发送端处理器和多个接收端处理器图 3 8 b 给出了一对多的通信模式图中只显示了一个源到多个接收处理器的通信但通常情况下所有的处理器可以在同一时间执行一对多通信接收处理器的数量取决于该算法的细节以及如何完成任务到处理器的映射此操作通常是在每次迭代中进行因此必须做到高效率大部分时间里假设相邻的处理器之间的时钟同步已经完成源寄存器和目的寄存器之间进行一个简单的数据交换在其他情况下双向方式即数据一确认甚至四向握手即请求一确认一数据一确认也是必要的一对全部广播广播业务涉及在系统中发送相同的数据给所有处理器图 3 8 c 显示了处理器之间的广播通信模式这种模式在提供数据给所有处理器时非常有用它也可能意味着一个处理器作为发送端其他处理器接收数据我们将在脉动阵列和 SIMD 机上看到这种通信收集收集操作包括从几个或全部处理器收集数据图 3 8 d 显示了处理器之间的收集通信模式假设我们有 P 个处理器所需收集数据的时间可以被计算为其中 tc为传输一接收一处理一个数据项所需的时间规约规约操作与收集操作类似除了一些操作是针对收染到的数据图 3 8 d 显示了处理器之间的规约通信模式一个规约操作的例子是当所有的处理器产生的所有数据相加以产生一个最终值当需要规约的数据很多时这项任务可能需要很长一段时间似设我们有 P 个产生待加数据的处理器总的时间预计为 T reduce T gather P 一 1 tc 3 3 其中 tc是处理器处理一对已收到数据单元所猫的时间层次化执行规约操作可能是值得的在这种情况下规约延迟时间为 T reduce logs P tc tp 3 4 3 11 2 消息传递消息传递 MP 通信机制通信机制 MP 主要用于分布式内存机器两个处理器之问传递消息过程涉及使用 send 和 recv 库函数程序员使用 Send destination message 库之函数来确定目的处理器成进程的 ID 以及要发送的数据程序员还必须使用 recv source message type 库函数指定源处理器或进程的 ID 和接收数据的类型为了让两个处理器使用 MP 通信需要两个操作 1 在它们之间建立通信链路链路建立依赖于互联网络的特性我们可以考虑链路的物理性质硬件或它的逻辑性质地址单向或双向能力信息大小等 2 通过 send 和 recv 库函数交换消息 MPI 是一个为了改善 MP 的使用和可移植性而开发的标准 MP 同步确保处理器之间的正确通信同步必须由程序员认真处理因为执行 Send 和 RECV 库函数是在操作系统或运行在处理器上的系统的控制下的同步策略有类型同步或阻塞发送方在它执行了 send 库函数之后暂停执行直到消息被接收此外接收方在执行 RECVO 库调函数后暂停直到消息可用异步或非阻塞发送方执行 send 库函数后继续执行此外接收方执行 RECV 库函数后也继续执行 MPI 标准支持单播和广播通信方式 3 12 并行体系结构总结并行体系结构总结前面的部分简要介绍了已经广泛应用的 5 个并行处理器系统共享内存分布式内存 SIMD 脉动式多核各个种类很难被严格区分开来例如可以在共享内存系统上面建立 SIMD 我们可以通过以下几点来总结这些多处理器的突出特性 1 除脉动式处理器外所有多处理器都使用了容易确认的互联网络进行通信 2 脉动式处理器拥有邻点到邻点的连接却没有全局总线 3 除脉动式处理器外所有多处理器在特性上与 SIMD 相比更加通用它们应用于各种任务和算法 4 脉动式处理器旨在执行特定的算法算法决定了一些细节如处理器间通信 I O 数据计时和 I O 数据的进人或提取点 5 多核系统使用加速核心来实现一个需要较高速度执行的特殊任务例如我们可以在多核系统中放置一个 GPU 来实施密集的图形处理任务这种加速核心是采用脉动式处理器建立的第第 4 章章共享内存多处理器共享内存多处理器 4 1 概述概述共享内存多处理器拥有简单和通用的编程模型不仅推动了支持代码和数据共享的并行软件的发展也使它们在业界受到普遍欢迎共享内存多处理器为每个处理器提供一个唯一的物理地址空间使得每个处理器能够使用本地的内存和高速缓存运行自己的程序这些处理器也可以存取分布在不同模块的共享内存处理器主要与高速缓存通信因为高速缓存是访问速度最快的存储设备能够跟上处理器的速度这就引出两个重要问题 1 高速缓存一致性 2 同步和互斥 4 2 高速缓存一致性和内存一致性高速缓存一致性和内存一致性为什么高速缓存是有效的访问速度快但是空间很小时间局部性如果一个数据正在被访问那么近期它很可能还会被访问空间局部性在最近的将来将用到的数据很有可能与现在正在使用的数据在空间上是临近的对于共享内存系统当两个以上处理器试图存取相同的内存模块时高速缓存有助于消除内存资源的竞争什么是高速缓存一致性共享内存中数据的副本必须与高速缓存中的数据副本一致举例在一个拥有四个处理器和一个共享内存模块的系统中这些处理器读取共享内存中一个块的数据随后多个处理器对该块数据进行更改将产生问题全写式策略考虑会有什么问题还有这样一个问题当处理器读取共享内存中的一个块随后这个块的值被其他处理器更改假设使用写回式策略怎么解决更新块 b 的正确顺序呢遵循下面两种方法 1 块 b 的正确更新是基于程序的顺序执行 2 块 b 的正确更新是基于数据的依赖性常见的两种高速缓存一致性协议目录协议和 Snoopy 协议 1 目录协议每个处理器的本地缓存都有一个本地缓存控制器用于更新其内存中共享变量的副本中央控制器负责整个系统的缓存一致性有一部分共享内存是目录结构目录中每一项对应存放着相应共享内存块的信息目录项的结构依赖于所使用的目录协议的部署细节中央控制器处理本地缓存请求当共享变量的状态发生变化时中央控制器负责通知本地缓存控制器相应变化互连网络是控制器间通信的介质同时也连接缓存和共享内存图 4 4 描述了全映射目录协议的细节每项包含 n 2 位其中 n 表示处理器的数量假设 n 8 标志为 D 的位只是数据有效 0 或已更改 1 标志为 X 的位指示是否使用广播更新数据到处理器广播为 B 非广播为 NB 可以从图中看出如果该项所对应的块已更改那么只有处理器 1 和 4 中的缓存会得到更改通知特点每个一致性失误必须发送个中央管理器可能导致中央控制器成为瓶颈并且当处理器的数量发生变化时目录项的大小也会同时发生变化 2 Snoopy 协议 Snoopy 协议不是在共享内存中使用目录和中央控制器而是块的一致性是通过相应的本地缓存和共享内存的通信维持的其他本地缓存将监听这些通信互连网络需要支持数据的广播传输使得每个处理器都能监控整个网络的活动一个共享的总线适合这种广播模式缺点共享总线的带宽是有限的一次连接只能允许一个事务发生当有一个处理器对内存进行写操作所有其他的处理器需要判断操作是否与自己相关若处理器 Pj有一个被处理器 Pi访问到的内存块副本那么 Pi的这个写操作与 Pj相关的 Pj有两种选择基于无效的策略和基于更新的策略 4 3 同步和互斥同步和互斥临界区任何一个对共享变量进行操作的程序和线程多拥有的一个代码区域互斥是指散步在不同进程间的若干程序片段当某个进程运行其中一个程序片段时其它进程不能运行这些程序片段只能等到该进程运行完成后才可以运行同步是指散步在不同进程之间的若干程序片段他们的运行必须严格按照规定的某种先后次序来运行这种先后次序依赖于要完成的特定的任务显然同步是一种更为复杂的互斥软件实现的同步和互斥方法锁机制信号量监听器和栅栏 4 3 1 锁机制锁机制所有的临界区问题都会用到锁 Boolean TestandSet Boolean lock Boolean v lock 读操作 lock true 修改和写操作 Return v 进入临界区的过程 Code before critical section 试图获得锁 while TestAndSet 空闲并继续尝试获取锁临界区代码开始 critical section code 临界区代码结束 lock FALSE Code after critical section 4 3 2 互斥量互斥量信号量是一个数两个基本的原子操作 wait 和 signal Wait While m 0 do nothing M decrement M if it is 1 Signal M M increment 1 执行临界区时的过程 Code before critical section 试图获得信号量 wait M 空闲并继续尝试获取信号量临界区代码开始 critical section code 临界区代码结束 signal M 释放信号量 Code after critical section 4 3 3 栅栏栅栏栅栏主要使用在多个独立的作业或者线程用于并行完成一些任务的情况同步栅栏用于事件同步适合用于串并行算法中初始化栅栏 1 include 2 pthread barrier t barrier 3 pthread barrierattr t attribute 4 unsigned count 5 int return value 6 return value pthread barrier init 以下代码使用栅栏同步线程的执行 1 Code before the barrier 2 3 在栅栏处等待 4 ret pthread barrier wait 5 6 Code after the barrier barrier 类型初始化所使用的方法是 pthread barrier init 第第 5 章章互连网络互连网络并行计算机借助互连网络使得数据能够在处理器之间或者处理器与内存之间进行传递影响互连网络性能的因素主要有 1 网络连接介质可以是有线的无线的或是光通道的 2 交换机 switches 将所有链接连接在一起 3 软件固件协议 software firmware protocol 通过交换机和链接在处理器之间传输信息 4 网络拓扑即交换机连接在一起的方式互连网络的容量和特性对处理器系统的性能有直接影响本章要介绍多处理器中常用的几种互连网络主要介绍片内网络多核处理器中的核和链接这些核的互连网络同在一个芯片上网络直径拓扑中距离最长的两个节点之间的距离这里距离表示信息从源点传到终点所要经历的交换机或结点的个数 5 2 逻辑拓扑结构中互连网络的分类逻辑拓扑结构中互连网络的分类 5 2 1 总线型总线型所有的处理器和内存模块都连接在总线上任意两个处理器之间通信所有时间都是相同的但是任意时刻总线上只允许一个处理器对共享资源进行访问为了防止总线访问冲突需要执行 MAC 仲裁机制影响总线型系统性能的因素连接到总线上的处理器数量随着总线的增加系统性能会降低处理器请求访问总线的次数 MAC 仲裁锁使用的机制 5 2 2 星型星型所有的处理器都连接在一个中央集线器上处理器之间的通信必须经过中央集线器由于要负责和所有处理器通信并处理他们的请求因此集线器限制了系统的性能优点是扩展性好很容易增加处理器但会增加集线器的负担 5 2 3 环型环型环型网络中每个处理器都通过交换器连接到环上方格代表介质访问控制器交换器知道连接到它上面的处理器的 MAC 地址交换器允许多个处理器同时传输和接收数据处理器将要发送的数据传输给它的交换器随后交换器将数据传输给它相邻的交换器这样数据就在环中的交换器中传输直到它到达目的主机 5 2 4 网型网型每个交换器和路由器都部署了路由算法通过算法信息可以从源处理器传递到目的处理器确定路由算法是在传输前就确定好的自适应路由算法是动态变化的 5 2 5 交叉开关网络交叉开关网络一个 N N 的交叉开关网络由 N 个输人和 N 个输出组成它能连接任意一个输人和输出图 5 5 给出了一个 6 6 的交叉开关网络该网络由一组交叉点 CP 构成它们以网格的形式排列 CP i j 表示第 i 行第

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

并行计算讲义

文档简介

温馨提示

最新文档

评论

并行计算讲义

文档简介

温馨提示

最新文档

评论

相关文档