并行计算机系统与结构模型_第1页
并行计算机系统与结构模型_第2页
并行计算机系统与结构模型_第3页
并行计算机系统与结构模型_第4页
并行计算机系统与结构模型_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

并行算法实践上篇并行程序设计导论国家高性能计算中心(合肥)22023/3/22并行算法实践

上篇并行程序设计导论单元I并行程序设计基础单元II并行程序编程指南单元III并行程序开发方法国家高性能计算中心(合肥)32023/3/22单元I并行程序设计基础第一章并行计算机系统与结构模型第二章PC机群的搭建第三章并行程序设计简介国家高性能计算中心(合肥)42023/3/22第一章并行计算机系统与结构模型1.1典型并行计算机系统简介1.1.1阵列处理机1.1.2向量处理机1.1.3共享存储多处理机1.1.4分布存储多计算机1.1.5分布共享存储多处理机1.2当代并行计算机体系结构1.2.1并行计算机体系结构模型1.2.2并行计算机存储结构模型1.2.3分布式高速缓存与主存体系结构1.3小结国家高性能计算中心(合肥)52023/3/22阵列处理机向量处理机共享存储多处理机分布存储多计算机典型并行计算机系统分布存储共享存储流水线并行向量机紧耦合多机系统同构对称对机系统DSM/SVM国家高性能计算中心(合肥)62023/3/22阵列处理机的两种基本结构

(a)分布存储阵列机(b)共享存储阵列机国家高性能计算中心(合肥)72023/3/22阵列处理机的特点SIMD-单指令多数据流机利用资源重复开拓计算空间的并行同步计算--所有PE执行相同操作适于特定问题(如有限差分、矩阵运算等)求解国家高性能计算中心(合肥)82023/3/22Cray-1的向量处理国家高性能计算中心(合肥)92023/3/22共享存储的多处理机MIMD-多指令多数据流机单一的共享地址空间易于编程、难于扩展存储访问可成为性能瓶颈紧耦合与同构对称方式国家高性能计算中心(合肥)102023/3/22典型的紧耦合多处理机系统国家高性能计算中心(合肥)112023/3/22Balance同构对称多处理机系统国家高性能计算中心(合肥)122023/3/22分布存储多计算机松散耦合多机系统节点独立(可有局存、IO设备等)易于扩展多地址空间消息传递通信界面难于编程国家高性能计算中心(合肥)132023/3/22IntelParagon系统框图国家高性能计算中心(合肥)142023/3/22分布共享存储多处理机分布共享存储DSM-DistributedSharedMemory

将物理上分布的存储系统,通过硬件和软件的办法,向用户提供一个单一的全局地址空间易于编程易于扩展国家高性能计算中心(合肥)152023/3/22并行计算机体系结构单指令多数据流机SIMD(Single-InstructionMultiple-Data);并行向量处理机PVP(ParallelVectorProcessor);对称多处理机SMP(SymmetricMultiprocessor);大规模并行处理机MPP(MassivelyParallelProcessor);工作站机群COW(ClusterofWorkstation)分布式共享存储DSM(DistributedSharedMemory)多处理机。国家高性能计算中心(合肥)162023/3/22并行计算机体系结构模型国家高性能计算中心(合肥)172023/3/22对称多处理机SMP(1)SMP:采用商用微处理器,通常有片上和片外Cache,基于总线连接,集中式共享存储,UMA结构例子:SGIPowerChallenge,DECAlphaServer,Dawning1国家高性能计算中心(合肥)182023/3/22对称多处理机SMP(2)优点对称性单地址空间,易编程性,动态负载平衡,无需显示数据分配高速缓存及其一致性,数据局部性,硬件维持一致性低通信延迟,Load/Store完成问题欠可靠,BUS,OS,SM通信延迟(相对于CPU),竞争加剧慢速增加的带宽(MBdouble/3年,IOB更慢)不可扩放性---〉CC-NUMA国家高性能计算中心(合肥)192023/3/22大规模并行机MPP成百上千个处理器组成的大规模计算机系统,规模是变化的。NORMA结构,高带宽低延迟定制互连。可扩放性:Mem,I/O,平衡设计系统成本:商用处理器,相对稳定的结构,SMP,分布通用性和可用性:不同的应用,PVM,MPI,交互,批处理,互连对用户透明,单一系统映象,故障通信要求存储器和I/O能力例子:IntelOptionRed

IBMSP2Dawning1000国家高性能计算中心(合肥)202023/3/22典型MPP系统特性比较MPP模型Intel/SandiaASCIOptionRedIBMSP2SGI/CrayOrigin2000一个大型样机的配置9072个处理器,1.8Tflop/s(NSL)400个处理器,100Gflop/s(MHPCC)128个处理器,51Gflop/s(NCSA)问世日期1996年12月1994年9月1996年10月处理器类型200MHz,200Mflop/sPentiumPro67MHz,267Mflop/sPOWER2200MHz,400Mflop/sMIPSR10000节点体系结构和数据存储器2个处理器,32到256MB主存,共享磁盘1个处理器,64MB到2GB本地主存,1GB到14.5GB本地磁盘2个处理器,64MB到256MB分布共享主存和共享磁盘互连网络和主存模型分离两维网孔,NORMA多级网络,NORMA胖超立方体网络,CC-NUMA节点操作系统轻量级内核(LWK)完全AIX(IBMUNIX)微内核CellularIRIX自然编程机制基于PUMAPortals的MPIMPI和PVMPowerC,PowerFortran其他编程模型Nx,PVM,HPFHPF,LindaMPI,PVM国家高性能计算中心(合肥)212023/3/22机群型大规模并行机SP2设计策略:机群体系结构标准环境标准编程模型系统可用性精选的单一系统映像系统结构:高性能开关HPS多级Ω网络宽节点、窄节点和窄节点2国家高性能计算中心(合肥)222023/3/22工作站机群COW分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计算机,有自己的磁盘和操作系统,而MPP中只有微内核优点:投资风险小系统结构灵活性能/价格比高能充分利用分散的计算资源可扩放性好问题通信性能并行编程环境例子:BerkeleyNOW,AlphaFarm,FXCOWP/CMMIOMIOMP/CNICNICDDLAN国家高性能计算中心(合肥)232023/3/22典型的机群系统典型的机群系统特点一览表名称系统特点Princeton:SHRIMPPC商用组件,通过专用网络接口达到共享虚拟存储,支持有效通信Karsruhe:Parastation用于分布并行处理的有效通信网络和软件开发Rice:TreadMarks软件实现分布共享存储的工作站机群Wisconsin:WindTunnel在经由商用网络互连的工作站机群上实现分布共享存储Chica、Maryl、Penns:NSCP国家可扩放机群计划:在通过因特网互连的3个本地机群系统上进行元计算Argonne:Globus在由ATM连接的北美17个站点的WAN上开发元计算平台和软件Syracuse:WWVM使用因特网和HPCC技术,在世界范围的虚拟机上进行高性能计算HKU:PearlCluster研究机群在分布式多媒体和金融数字库方面的应用Virgina:Legion在国家虚拟计算机设施上开发元计算软件国家高性能计算中心(合肥)242023/3/22SMP\MPP\机群比较系统特征SMPMPP机群节点数量(N)O(10)O(100)-O(1000)O(100)节点复杂度中粒度或细粒度细粒度或中粒度中粒度或粗粒度节点间通信

共享存储器消息传递或共享变量(有DSM时)消息传递节点操作系统1N(微内核)和1个主机OS(单一)N(希望为同构)支持单一系统映像永远部分希望地址空间单一多或单一(有DSM时)多个作业调度单一运行队列主机上单一运行队列协作多队列网络协议非标准非标准标准或非标准可用性通常较低低到中高可用或容错性能/价格比一般一般高互连网络总线/交叉开关定制商用国家高性能计算中心(合肥)252023/3/22五种结构特性一览表属性PVPSMPMPPDSMCOW结构类型MIMDMIMDMIMDMIMDMIMD处理器类型专用定制商用商用商用商用互连网络定制交叉开关总线、交叉开关定制网络定制网络商用网络以太,ATM通信机制共享变量共享变量消息传递共享变量消息传递地址空间单地址空间单地址空间多地址空间单地址空间多地址空间系统存储器集中共享集中共享分布非共享分布共享分布非共享访存模型UMAUMANORMANUMANORMA代表机器CrayC-90,CrayT-90,银河1号IBMR50,SGIPowerChallenge,曙光1号IntelParagon,IBMSP2,曙光1000/2000StanfordDASH,CrayT3DBerkeleyNOW,AlphaFarm国家高性能计算中心(合肥)262023/3/22并行计算机访存模型均匀存储访问模型-UMA非均匀存储访问模型-NUMA全高速缓存访问模型-COMA高速缓存一致性非均匀存储访问模型-CC-NUMA非远程存储访问模型-NORMA国家高性能计算中心(合肥)272023/3/22UMA访存模型UMA(UniformMemoryAccess)模型是均匀存储访问模型的简称。其特点是:物理存储器被所有处理器均匀共享;所有处理器访问任何存储字取相同的时间;每台处理器可带私有高速缓存;外围设备也可以一定形式共享。国家高性能计算中心(合肥)282023/3/22NUMA访存模型NUMA(NonuniformMemoryAccess)模型是非均匀存储访问模型的简称。特点是:被共享的存储器在物理上是分布在所有的处理器中的,其所有本地存储器的集合就组成了全局地址空间;处理器访问存储器的时间是不一样的;访问本地存储器LM或群内共享存储器CSM较快,而访问外地的存储器或全局共享存储器GSM较慢(此即非均匀存储访问名称的由来);每台处理器照例可带私有高速缓存,外设也可以某种形式共享。

LM1P1LM2P2LMnPn互连网络(a)共享本地存储模型全局互连网络(b)层次式机群模型GSMGSMGSM…………PCINCSMPPCSMCSM群1……PCINCSM群NPPCSMCSM……国家高性能计算中心(合肥)292023/3/22COMA访存模型COMA(Cache-OnlyMemoryAccess)模型是全高速缓存存储访问的简称。其特点是:各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间;利用分布的高速缓存目录D进行远程高速缓存的访问;COMA中的高速缓存容量一般都大于2级高速缓存容量;使用COMA时,数据开始时可任意分配,因为在运行时它最终会被迁移到要用到它们的地方。

国家高性能计算中心(合肥)302023/3/22CC-NUMA访存模型CC-NUMA(Coherent-CacheNonuniformMemoryAccess)模型是高速缓存一致性非均匀存储访问模型的简称。其特点是:大多数使用基于目录的高速缓存一致性协议;保留SMP结构易于编程的优点,也改善常规SMP的可扩放性;CC-NUMA实际上是一个分布共享存储的DSM多处理机系统;它最显著的优点是程序员无需明确地在节点上分配数据,系统的硬件和软件开始时自动在各节点分配数据,在运行期间,高速缓存一致性硬件会自动地将数据迁移至要用到它的地方。

国家高性能计算中心(合肥)312023/3/22NORMA访存模型NORMA(No-RemoteMemoryAccess)模型是非远程存储访问模型的简称。NORMA的特点是:所有存储器是私有的;绝大数NUMA都不支持远程存储器的访问;在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论