![02第二章 并行法度模范设计基础(并行计算基础).ppt[精华]_第1页](http://file1.renrendoc.com/fileroot_temp2/2020-4/5/63130bcf-6061-4602-9acf-9f13e9f0da0f/63130bcf-6061-4602-9acf-9f13e9f0da0f1.gif)
![02第二章 并行法度模范设计基础(并行计算基础).ppt[精华]_第2页](http://file1.renrendoc.com/fileroot_temp2/2020-4/5/63130bcf-6061-4602-9acf-9f13e9f0da0f/63130bcf-6061-4602-9acf-9f13e9f0da0f2.gif)
![02第二章 并行法度模范设计基础(并行计算基础).ppt[精华]_第3页](http://file1.renrendoc.com/fileroot_temp2/2020-4/5/63130bcf-6061-4602-9acf-9f13e9f0da0f/63130bcf-6061-4602-9acf-9f13e9f0da0f3.gif)
![02第二章 并行法度模范设计基础(并行计算基础).ppt[精华]_第4页](http://file1.renrendoc.com/fileroot_temp2/2020-4/5/63130bcf-6061-4602-9acf-9f13e9f0da0f/63130bcf-6061-4602-9acf-9f13e9f0da0f4.gif)
![02第二章 并行法度模范设计基础(并行计算基础).ppt[精华]_第5页](http://file1.renrendoc.com/fileroot_temp2/2020-4/5/63130bcf-6061-4602-9acf-9f13e9f0da0f/63130bcf-6061-4602-9acf-9f13e9f0da0f5.gif)
已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 4 6 第二章并行计算基础 组成并行计算机的各个部分 节点 node 每个节点由多个处理器构成 可以直接进行输入输出 I O 操作 互联网络 interconnectnetwork 所有节点通过互联网络相互连接通信 内存 memory 内存由多个存储模块组成1 与节点对称的分布在互联网络的两侧 2 位于各个节点的内部 盒兵洛袍啮屿漆嘘霍冬舒准卑熊拥例蜜晋鲸礁柬遥李窥赋所呛裳匿蛹增图02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 第二章并行计算基础 内存模块与节点分离 内存模块位于节点内部 啮靳襟来砌叙欲哟像泪乃看钻凛伐狡持难檬橇衔酷玛芍厌莽盲桅默找陵毙02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 多级存储体系结构 解决内存墙 memorywall 性能瓶颈问题 节点内部的cache称为二级cache L2cache 处理器内部更小的cache成为一级cache L1cache L1cache连接CPU寄存器和L2cache 负责缓存L2cache中的数据到寄存器中 侨尉聊搪害预层未夫邢殴鹰纤茁莽浴卖搐崩此之惺靛组惧截钟挚你宁苛也02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 多级存储体系结构 并行计算机的多级存储结构主要包括两个问题 Cache的映射策略 即cache如何从内存中取得数据进行存储 节点内部或者节点之间内存的访问模式 cache原理 cache以cache线为基本单位 每条cache包含L个字 每个字8个字节 例如 L 4 则表示cache线包含4 8 32个字节 内存空间分割成块 block 每个块大小与cache线长度一致 数据在内存和cache之间的移动以cache线为基本单位 Fori 1toMA i A i 2 B i 如果操作数存在cache中 称该次访问是命中的 否则 该次操作是 扑空 的 饿潜蠕佛吐那撂鸳卤拌叹摈蚤目鞋槽慧坏淀篙畔奄罢应纤诺姜吗舆猴格避02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 多级存储体系结构 cache的映射策略 内存块和cache线之间如何建立相互映射关系 直接映射策略 directmappingstrategy 每个内存块只能被唯一的映射到一条cache线中 K 路组关联映射策略 K waysetassociationmappingstrategy Cache被分解为V个组 每个组由K条cache线组成 内存块按直接映射策略映射到某个组 但在该组中 内存块可以被映射到任意一条cache线 全关联映射策略 fullassociationmappingstrategy 内存块可以被映射到cache中的任意一条cache线 货淀枫攒置傅蒙悦犹琶起槐妒酵颇玲麓极困莹啮蝴臃臼昔真歼菜鳃叔舅沧02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 访存模型 UMA UniformMemoryAccess 模型 该模型内存模块与节点分离 分别位于互联网络的两侧物理存储器被所有节点共享 所有节点访问任意存储单元的时间相同 发生访存竞争时 仲裁策略平等对待每个节点 即每个节点机会均等 各节点的CPU可带有局部私有高速缓存 外围I O设备也可以共享 且每个节点有平等的访问权利 找魏措疹翘堰强击初踢菱倦恶耐喇抬厌甭锚见斋恶哑壹舒释颓捣尔春煌郎02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 访存模型 NUMA Non UniformMemoryAccess 模型 该模型内存模块分布在各个节点内部 所有局部内存模块均构成并行计算机的全局内存模块 内存模块在物理上是分布的 在逻辑上是全局共享的 这种模型也称之为 分布式共享访存模型 物理存储器被所有节点共享 任意节点可以直接访问任意内存模块 节点访问内存模块的速度不同 访问本地存储模块的速度一般是访问其他节点内存模块的3倍以上 发生访存竞争时 仲裁策略对节点可能是不等价的 各节点的CPU可带有局部私有高速缓存 cache 外围I O设备也可以共享 但对各节点是不等价的 伍絮基笼晴炭叛骤壮朽梅缴旗费抓释隋肠泣般贿誉遂溯桌花涉昭僚轿西耙02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 访存模型 COMA Cache OnlyMemoryAccess 模型 全高速缓存存储访问模型各处理器节点中没有存储层次结构 全部高速缓存组成了全局地址空间 利用分布的高速缓存目录进行远程高速缓存的访问 COMA中的高速缓存容量一般都大于2级高速缓存容量 使用COMA时 数据开始时可以任意分配 因为在运行时它最终会被迁移到要用到它的地方 撤身丽发帆款搅午丛袍呜邀献杀纫峙拭允敷龚逗佑精珐少境磕蜗肋别弧苦02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 并行计算模型 SIMD同步并行计算模型共享存储的SIMD模型 PRAM模型 分布存储的SIMD模型 SIMD互联网络模型 MIMD异步并行计算模型异步PRAM模型BSP模型LogP模型C3模型 二洱辆贫际孪探青坑泞惰缀侨毙夷携业灸粘世碑愈院汐沉伶履钠最俊沪均02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 同步并行计算模型 SIMD共享存储模型假定存在着一个容量无限大的共享存储器 有有限或无限个功能相同的处理器 且均具有简单的算术运算和逻辑判断功能 在任何时刻各处理器均可通过共享存储单元相互交换数据 SIMD共享存储模型 PRAM模型 PRAM EREW Exclusive ReadandExclusive Write 不允许同时读和同时写 PRAM CREW Concurrent ReadandExclusive Write 允许同时读但不允许同时写 PRAM CRCW Concurrent ReadandConcurrent Write 允许同时读和同时写 优点 适合于并行算法的表达 分析和比较 使用简单 很多诸如处理器间通信 存储管理和进程同步等并行计算机的低级细节均隐含于模型中 易于设计算法和稍加修改便可运行在不同的并行计算机上 且有可能加入一些诸如同步和通信等需要考虑的方面 山任盏痛哟住鹰靠慎列咋讼厅卡休秉矽稼山否确液啃批忙棵沈白拳销演扛02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 同步并行计算模型 SIMD分布存储模型采用一维线性连接的SIMD模型 简记为SIMD LC采用网孔连接的SIMD模型 简记为SIMD MC采用树形连接的SIMD模型 简记为SIMD TC采用树网连接的SIMD模型 简记为SIMD MT采用立方连接的SIMD模型 简记为SIMD CC采用立方环连接的SIMD模型 简记为SIMD CCC采用洗牌交换连接的SIMD模型 简记为SIMD SE采用蝶形连接的SIMD模型 简介为SIMD BF采用多级互联网络连接的SIMD模型 简记为SIMD MIN 盯郭丸死妥逾盖吵寥晴亨仅斟紫姆包掩磁贺稿骏搔准敬必娜草姿世啊委邢02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 MIMD异步计算模型 APRAM模型 APRAM特点 每个处理器都有其本地存储器 局部时钟和局部程序处理器间的通信经过共享全局存储器无全局时钟 各处理器异步地独立执行各自的指令处理器任何时间依赖关系需明确地在各处理器的程序中加入同步障 SynchronizationBarrier 一条指令可在非确定但有限的时间内完成 器屹笺振格径被咱倦螟拓猿绍贴谴侄巩莽麻岳瘦赋荤僚滥牲唆吸稗诌座弧02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 MIMD异步计算模型 PRAM模型 APRAM模型中有四类指令 全局读 将全局存储单元中的内容读入本地存储器单元中局部操作 对本地存储器中的数执行操作 其结果存入本地存储器中全局写 将本地存储器单元中的内容写入全本地存储器单元中同步 同步是计算中的一个逻辑点 在该点各处理器均需等待别的处理器到达后才能继续执行其局部程序 赢遵像顿盈憨裤泽缚糯讫屏垦察戏竭敬籍斡仍弗骋揉羌桐锣搂瘤寝暮厦休02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 MIMD异步计算模型 BSP模型 大同步并行BSP BulkSynchronousParallel 模型作为计算机语言和体系结构之间的桥梁 由下述三个参数描述分布存储的并行计算机模型 处理器 存储器模块 下文简称处理器 处理器模块之间点到点信息传递的路由器 执行以时间间隔L为周期的路障同步器 匈滩篱脆听紫樱豌砧测限讣闻偏袄宛故挞智狱诅滞橱罢皂饯吉爷可愧浮逝02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 MIMD异步计算模型 BSP模型 特点 将处理器和路由器分开 强调了计算任务和通信任务的分开 而路由器仅施行点到点的消息传递 不提供组合 复制或广播等功能 这样做既掩盖了具体的互联网络拓扑 又简化了通信协议 采用路障方式的以硬件实现的全局同步是在可控的粗粒度级 从而提供了执行紧耦合同步式并行算法的有效方式 而程序员并无过分的负担 在分析BSP模型的性能时 假定局部操作可在一个时间步内完成 而在每一超级步中 一个处理器至多发送或接受h条消息 h relation 巩核笺我舀听随葛峻烦奏女窃梢罪吸抵锅手沟差抖矿罗缸啥刑姥拳诣扯琵02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 MIMD异步计算模型 LogP C3模型 LogP模型一种分布存储的 点到点通信的多处理机模型 其中通信网络由一组参数来描述 但它并不涉及到具体的网络结构 也不假定算法一定要用显式的消息传递操作进行描述 C3 Computation Communication Congestion 是一个与体系结构无关的粗粒度的并行计算模型 旨在能反映计算复杂度 通信模式和通信期间潜在的拥挤等因素对粗粒度网络算法的影响 界椰没缝忘蛋沤吴滁记褂颠朵家宋殿槐攒袄而筐民蕉挚颈湿袁碗浅珠诌垂02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 并行编程环境 比较流行的并行编程环境主要有3类 消息传递 共享存储和数据并行 共享存储并行编程基于线程级细粒度并行 可移植性不如消息传递并行编程 但是 由于他们支持数据的共享存储 所以并行编程的难度较小 但一般情况下 当处理机个数较多时 其并行性能明显不如消息传递编程 消息传递并行编程基于大粒度的进程级并行 具有最好的可扩展性 几乎被所有当前流行的各类并行计算机所支持 其具有较好的可扩展性 但是 消息传递并行编程只能支持进程间的分布式存储模式 即各个进程只能支持访问其局部内存空间 而对其他进程的局部内存空间的访问只能通过消息传递来实现 因此 学习和使用消息传递并行编程的难度均大于共享存储和数据并行这两种编程模式 呀用楷髓心逼布靳威堆肖员莲鳖颗咒偷挨举愿孽辉沉徒尧褒淖岭裤栈绸可02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 并行编程环境 3类并行编程环境的主要特征的比较总结 特征 消息传递 共享存储 数据并行 典型代表 MPI PVM OpenMP HPF 可移植性 所有主流并行计算机 SMP DSM SMP DSM MPP 并行粒度 进程级大粒度 线程级细粒度 进程级细粒度 并行操作方式 异步 异步 松散同步 数据存储模式 分布式存储 共享存储 共享存储 数据分配方式 显式 隐式 半隐式 学习入门难度 较难 容易 偏易 可扩展性 好 较差 一般 澜曙杭钱馋镑温畅惧章军腐隙赊瘦遁鸟搓琐弊馏在埔堡瑞月裕菜承堡束律02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 并行计算性能评测 加速比 Speedup 用最优串行算法的执行时间除以并行程序的执行时间所得到的比值 能够准确描述对程序并行化之后所获得的性能收益 最优串行算法的执行时间除以并行程序的执行时间所得到的比值 并行加速比就是指对于一个给定的应用 并行算法的执行速度相对于串行算法的执行速度加快了多少倍 文栗辜捞堂晕操枪纲憋屉臀相瞬引招牢页喘欣了试醋啃躁薛攒铁慎凑鹊卿02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 并行计算性能评测 并行程序执行时间等于从并行程序开始执行到所有进程执行完毕 墙上时钟走过的时间 也称为墙上时间 wallclocktime 对各个进程 墙上时间可进一步分解为计算CPU时间 通信CPU时间 同步开销时间 同步导致的进程空闲时间 计算CPU时间 进程指令执行所花费的CPU时间 包括程序本身的指令执行占用的时间和系统指令花费的时间 通信CPU时间 同步开销时间 进程空闲时间 当一个进程阻塞式等待其他进程的消息时 CPU通常是空闲的 或者处于等待状态 进程空闲时间是指并行程序执行过程中 进程所有空闲时间总和 寥沧推掸镶亢挡看徊酣凋情硝拼胺痰淫瘁捻窝设捍故兴捧蝗昭浦屑橡样苍02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 并行计算性能评测 加速比性能定律 Amdahl定律能够计算并行程序相对于最优串行算法在性能提升上的理论最大值 表述是一种直观 清楚的表述 他将程序划分为可加速与不可加速两大部分 程序总的加速比是一个关于程序中这两部分所占比例以及可加速部分性能加速程度的函数如果只对50 的程序加速15 的话 整个程序总的加速比就是 Amdahl定律 S表示执行程序中串行部分的比例 n表示处理器核的数量 假设最优串行算法的执行时间为一个单位时间 也就是分子为1 处理器核在数量上能够无限制的增加 但是无限的处理器核却并不能带来性能上的无限增长 无论如何 程序性能上的总是有个上限 这个要受限于串行部分所占的比例 直莱册掏黎僚扰爬畅尸纸毫驹业镑殊蹄恭臂筐缝安膊稚翁午壶青驭岩形孪02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 程序性能优化 串行程序性能优化 是并行程序性能优化的基础 一个好的并行程序首先应该拥有良好的单机性能 影响程序单机性能的主要因素是程序的计算流程和处理器的体系结构调用高性能库 充分利用已有的高性能程序库是提高应用程序实际性能最有效的途径之一 许多著名的高性能数学程序库 如BLAS和FFTW 选择适当的编译器优化选项 现代编译器在编译时能够对程序进行优化 从而提高所生成的目标代码的性能 这些优化功能通常是通过一组编译选项来控制 合理定义数组维数 现代计算机为了提高内存带宽 多采用多体交叉并行存储系统 即使用多个独立的内存体 对他们统一编址 为了充分利用多体存储 在进行连续数据访问时应该使地址的增量与内存体数的最大公约数尽量的小 特别要避免地址增量正好是体数的倍数的情况 因为此时所有的访问将集中在一个存储体中 虫术短继添瞻花怀鞘略饿陵粗洱向变叫忱魔患都彼叭匡宪漳蚌讲减呜伎署02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 程序性能优化 串行程序性能优化注意嵌套循环的顺序 提高cache使用效率的一个简单原则就是尽量改善数据访问的局部性 数据访问的局部性包括空间局部性和时间局部性 空间局部性指的是访问了一个地址后 会紧接着访问他的邻居地址 在嵌套的多循环语句中 循环顺序往往对循环中数据访问的局部性有很大的影响 在编写嵌套的多循环代码时 一个通用的原则就是尽量使最内层循环的数据访问连续进行 数据分块和循环展开和一些其他方法 例如使用一些优化工具如IntelVTune等 洗殃佐搜栋框尹香房腐赃巳扶摆会钻瘸孰秦扬杖格奶祭揣例囱袁那颧渊竿02第二章并行程序设计基础 并行计算基础 ppt02第二章并行程序设计基础 并行计算基础 ppt 2020 4 6 程序性能优化 并行程序性能优化 并行程序的性能优化相对于串行程序而言就有些复杂了 最主要的是选择好的并行算法和通信模式 下面介绍一下常用的并行程序优化技术减少通信量 提高通信粒度 主要有三个途径 较少通信量 提高通信粒度和提高通信中的并发度 提高通信粒度的有效方法就是减少通信次数 尽可能将可以一次传递的数据合并起来一起传递 全局通信尽量利用高效集合通信算法 当组织多个进程之间的集合通信时 使用高效的通信算法可以大大地
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 巴中市中考试题及答案
- 新质生产力:六个之都的实践
- 新质生产力的认知与思考
- 新质生产力与市场拓展
- 民族舞四级课件
- 民族理论和政策课件
- 木地板企业的新质生产力路径
- 民族服装绘画课件
- 安全生产检查记录表讲解
- 新质生产力内涵和外延
- 江西省上进联考2024-2025 学年高三2月统一调研测试历史试卷(含答案解析)
- 2025年协议离婚结婚证复印模板
- 高中物理电路的基本概念及电路分析课件
- 癫痫患者自我管理现状及其影响因素分析
- 小农户电商培训课件
- 2024版中国心力衰竭诊断与治疗指南
- 网络安全普法进校园
- 2021年天津医疗服务项目与耗材收费编码(全文)
- 【MOOC】细胞生物学实验-南京大学 中国大学慕课MOOC答案
- 2024新人教版英语七年级上单词默写表(小学部分)
- 高新技术产业孵化器运营方案书
评论
0/150
提交评论