高性能并行计算机介绍_第1页
高性能并行计算机介绍_第2页
高性能并行计算机介绍_第3页
高性能并行计算机介绍_第4页
高性能并行计算机介绍_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高性能并行计算机简介2010-06 1.1 并行计算机基础知识 1.2 并行计算机系统架构 1.3 机群系统 1.4 高性能计算发展趋势目录什么是高性能并行计算机什么是高性能并行计算机由多个计算单元组成,运算速度快、存储容量大、可靠性高的计算机系统。也称为:巨型计算机、超级计算机目前任何高性能计算和超级计算都离不开使用并行技术,所以高性能计算机肯定是并行计算机。其发展历程可以简单的分为两个时代其发展历程可以简单的分为两个时代专用时代包括向量机,MPP系统,SGI NUMA 系统,SUN大型SMP系统,也包括我国的神威,银河,曙光1000等。之所以称为“专用”,并不是说它们只能运行某种应用,是指

2、它们的组成部件是专门设计的,它们的CPU板,内存板,I/O板,甚至操作系统,都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异,和用户群窄小。普及时代高性能计算机价格下降,应用门槛降低,应用开始普及。两个技术趋势起到重要作用。商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件标准化趋势使得这些部件之间能够集成一个系统中,其中X86处理器、以太网、内存部件、Linux都起到决定性作用。机群系统是高性能计算机的一种,它的技术基础和工业基础都是商品化和标准化。曙光曙光1000曙光1000有36个结点机;峰值计算速度为浮点25.6亿次/秒,实际达到15.8 亿次/秒;内存容量为

3、1024兆字节;基于Wormhole机制的二维Mesh通讯网,结点与网络通讯总带宽为2.88GB/秒;采用基于UNIX的并行操作系统和并行文件系统;并行计算机并行计算机-CRAYSystem Name Jaguar 1059000 GFlopsSystem Family Cray XT Operating System CNLInterconnect XT4 Internal Interconnect Processor AMD Opteron Quad Core 2300 MHz (9.2 GFlops) 并行计算机并行计算机-IBMSystem Name Roadrunner 110500

4、0 GFlopsSystem Family IBM Cluster Operating System Linux Interconnect Infiniband Processor PowerXCell 8i 3200 MHz (12.8 GFlops)并行计算机并行计算机-DAWNINGSystem Name Dawning 5000A 180600 GFlopsSystem Family Dawning Cluster Operating System Windows HPC server 2008 and SUSEInterconnect Infiniband DDR Processor

5、 AMD Opteron Quad Core 1900 MHz (7.6 GFlops)并行计算机所用的处理器并行计算机所用的处理器AMD OpteronXeon NoconaIntel ItaniumCompaq AlphaHP PA-RISCSun UltraSPARCIBM POWER5+,POWER6IBM BlueGene processorMIPS R10000龙芯最新TOP500cpu分布并行机处理器并行机处理器-AMDPERFORMANCE 1-WAYPERFORMANCE 2-WAYPERFORMANCE 4-WAY AND 8-WAYAMD Opteron 200 Seri

6、es & 2000 Series Processors Designed for 2-way Server / Workstation solutions First native x86 dual-core solution for 2-way computingAMD Opteron 100 Series & 1000 Series Processors Designed for 1-way Server / Workstation solutions First native x86 dual-core solution for 1-way computingAMD Op

7、teron 800 Series & 8000 Series Processors Designed for 4-way and 8-way Server solutions First native x86 dual-core solution for 4-way / 8-way computingAMD Opteron Processors for Servers and Workstations并行机处理器并行机处理器-Intel数据要求苛刻 双核英特尔 至强 7000 系列处理器 最大限度提高性能、可靠性和可扩展性双核英特尔 安腾 处理器 9000 大型机级服务器,具有顶级的灵

8、活性和可靠性 RISC 与大型机现代化基本 计算四核英特尔 至强 3000 系列处理器经济、可靠的单路服务器高密度 基础设施四核英特尔 至强 5000 系列处理器利用四核处理最大限度提高性能密度RISC 与大型机现代化并行机处理器并行机处理器-龙芯龙芯Godson意思为“教子”,相对于此的另一个词叫教父(Godfather)并行计算机专用连接网络并行计算机专用连接网络 NumaLink (SGI) SP Switch,SP Switch2 (IBM) Cray Interconnect (Cray)并行计算机商品化网络并行计算机商品化网络互联方式的选择千兆以太网,带宽小(理论值125MB/s)

9、,延迟大35-45 s ;Infiniband;MPI乒乓测试带宽:850 MB/s,MPI短消息延迟: 7 s ;Myrinet:MPI乒乓测试带宽:230 MB/s,MPI短消息延迟:7 s ;Qsnet:MPI乒乓测试带宽:300 MB/s ,MPI短消息延迟:5 s;SCI:MPI乒乓测试带宽:320 MB/s ;MPI短消息延迟:1 - 2 s ;最新TOP500网络分布商品化网络商品化网络-Infiniband趋势InfiniBand代表的就是性能和互操作性。如果你看一看超级计算机500强的话就会发现,InfiniBand技术已经从2005年的30席增长到了今天的142席,增长率超

10、过了25%。而且,采用专有互连技术的超级计算机正在不断减少。商品化网络商品化网络-以太网络以太网络I/O性能瓶颈性能瓶颈 高性能网络如InfiniBand的性能进步,使得PCI总线成为限制性能的瓶颈,PCI-X过渡为PCI-E,基本解决了这一问题; 基于共享总线结构的PCI架构具有局限性,需要面向高端的I/O方案:InfiniBand,Infiniband可能会彻底取代PCI局部总线结构,要实现这个取代,其前提是InfiniBand逻辑电路集成到芯片一级,也就是将南桥换成带有HCA (Host Channel Adapters)的I/O桥接器件; 分布式存储多处理器系统,程序和数据一般都是集中

11、存放,各进程执行时需要传输程序和应用数据到处理器本地内存; NFS文件系统在数据传输上,类似于C/S结构,各个计算节点都从I/O节点传输数据,链路单一,性能瓶颈;存储系统存储系统-共享存储共享存储1、FC 4GB光纤链路2、4Gb磁盘FC接口3、并行I/O文件系统4、最大支持224块物理磁盘5、支持1024LUN6、IOPS=280000Linpacku Linpack现在在国际上已经成为最流行的用于测试高性能计算机系统浮点性能的benchmark。通过利用高性能计算机,用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。u Linpack测试包括三类,Linpack

12、100、Linpack1000和HPL。u Linpack100求解规模为100阶的稠密线性代数方程组,它只允许采用编译优化选项进行优化,不得更改代码,甚至代码中的注释也不得修改。u Linpack1000要求求解规模为1000阶的线性代数方程组,达到指定的精度要求,可以在不改变计算量的前提下做算法和代码上做优化。u HPL即High Performance Linpack,也叫高度并行计算基准测试,它对数组大小N没有限制,求解问题的规模可以改变,除基本算法(计算量)不可改变外,可以采用其它任何优化方法。u 理论浮点峰值CPU主频CPU每个时钟周期执行浮点运算的次数系统中CPU数目 ,实测浮点

13、峰值是指Linpack测试值,也就是说在这台机器上运行Linpack测试程序,通过各种调优方法得到的最优的测试结果。HPL测试中的主要参数测试中的主要参数 Rpeak:系统的理论峰值性能,按GFLOPS表示 Nmax: 给出达到最高GFLOPS值时的问题规模(矩阵规模) Rmax: 在Nmax问题规模下,达到的最大峰值 NB: 矩阵分块大小,与高速缓存大小相关。一般在32到256之间中国高性能计算机中国高性能计算机TOP100排行榜排行榜u刀片产品占据绝对优势,渐成主流u采用开放系统已成为高性能计算的发展趋势 1.1 并行计算机基础知识 1.2 并行计算机系统架构 1.3 机群系统目录1.2.

14、1 实现并行的手段实现并行的手段指令级并行指令级并行 从CPU内部挖掘并行性 提高主频,增加核心数量 提高IPC(每个时钟周期完成的指令数目) 提高CPU主频和增加核心双核、多核处理器 指令级并行导致处理器内的功能部件增多,系统复杂,导致晶体管数目增加,功耗和发热带来问题,且会受到物理极限的天花板作用多处理器(多计算机)并行多处理器(多计算机)并行 多处理器并行主要得益于微处理器的发展; 多处理器并行是构造强大系统的必由之路; 多处理器指在同一块主板上通过主板总线实现并行。 多计算机并行,指在多台计算节点上通过网络实现并行。向量计算向量计算 向量处理器,采用向量流水部件,特别适合向量运算; 曾

15、经风靡一时; 设计困难,成本高,应用领域狭窄,向量技术被其他新兴的技术所掩盖; 地球模拟器的影响给向量处理技术带来了新的一丝希望。1.2.2 并行计算机系统架构并行计算机系统架构对称多处理机系统对称多处理机系统(SMP)SMP 对称式共享存储:任意处理器可直接访问任意内存地址,且访问延迟、带宽、机率都是等价的; 系统是对称的; 微处理器: 一般少于64个; 处理器不能太多, 总线和交叉开关的一旦作成难于扩展; 例子: IBM R50, SGI Power Challenge, SUN Enterprise, 分布式共享存储系统分布式共享存储系统(DSM)DSM分布共享存储: 内存模块物理上局部

16、于各个处理器内部,但逻辑上(用户)是共享存储的; 这种结构也称为基于Cache目录的非一致内存访问(CC-NUMA)结构;局部与远程内存访问的延迟和带宽不一致,3-10倍高性能并行程序设计注意;与SMP的主要区别:DSM在物理上有分布在各个节点的局部内存从而形成一个共享的存储器;微处理器: 16-128个;代表: SGI Origin 2000, Cray T3D;大规模并行计算机系统大规模并行计算机系统(MPP)MPP物理和逻辑上均是分布内存能扩展至成百上千个处理器(微处理器或向量处理器)采用高通信带宽和低延迟的互联网络 (专门设计和定制的)一种异步的MIMD机器;程序系由多个进程组成,每个

17、都有其私有地址空间,进程间采用传递消息相互作用;代表:CRAY T3E(2048), ASCI Red(3072), IBM SP2机群系统机群系统(Cluster)Cluster 每个节点都是一个完整的计算机 各个节点通过高性能网络相互连接 网络接口和I/O总线松耦合连接 每个节点有完整的操作系统 曙光2000、 3000、4000, ASCI Blue Mountain 1.1 并行计算机基础知识 1.2 并行计算机系统架构 1.3 机群系统 1.4 高性能计算发展趋势目录什么是机群系统什么是机群系统 机群系统(Cluster)利用标准网络将一台台普通服务器或者PC机连接起来,为使用者提供

18、更高的计算能力和存储能力并为使用者提供单一系统映象的系统。 单一系统映象使用者在使用机群系统的时候感觉上就象使用一个单独的计算机系统一样。单一系统映象实现方法:硬件层、操作系统层、软件层机群系统的优势机群系统的优势极高的性价比大型机的主流良好的可扩展性更高的可管理性更低的使用维护成本更好的可使用性更好的系统鲁棒性更多的应用支持机群使用越来越广泛应用领域越来越多机群系统的应用领域机群系统的应用领域数学基因信息气象预报生物物理石油勘探信息服务汽车制造船舶制造2010高性能计算机架构分布高性能计算机架构分布机群系统的应用分类机群系统的应用分类高性能计算机群高性能计算机群 应用于高性能计算领域; 整合

19、多个计算单元的并行计算性能; 注重整体性能的发挥; 目前成为高性能计算机的主体架构;高性能计算机群系统架构高性能计算机群系统架构节点机采用曙光天阔系列机架式服务器节点机采用曙光天阔系列机架式服务器 I系列和系列和A系统系统I系统采用Intel Xeon处理器A系列采用AMD Opteron处理器 2路、路、4路、路、8路、路、16路产品路产品 1U、2U、5U、12U . 计算节点计算节点 IO节点节点 管理节点管理节点 登入节点登入节点 . 如何选择节点机如何选择节点机?网络和存储网络和存储 网络网络 计算网 管理网 数据传输网 百兆以太网 千兆以太网 Myrinet Infiniband

20、存储存储 存储产品 存储结构 文件系统 SCSI SATA FC SAS DAS NAS SAN IPSAN NFS DCFS2 Lustre如何选择?如何选择?高性能机群层次架构高性能机群层次架构应用层机群操作系统层(DCOS)系统软件层(OS, 编译器)硬件层(节点, 网络等)高性能机群的硬件构成高性能机群的硬件构成l 机柜(含供电电源);l 节点机(计算节点,登陆节点, I/O节点,监控节点);l 互连网络,每种网络连接机群的全部或部分节点: 管理网(百兆以太网); 数据网(千兆以太网); 计算网(Infiniband等); 监控网(监控系统网络); KVM网(SKVM系统); 存储网(

21、SAN存储网络);l 存储系统:盘阵或SAN存储;高性能机群软件系统高性能机群软件系统石油领域:Geoeast、paradigm、cgg、omega、VSS物理化学:VASP、Gaussian材料化学:Materials Studio环保领域:MM5、Grapes、WRF结构力学:ABAQUS、NASTRAN性能评估:LINPACK、HPCC、NPB等等流体力学:fluent、CFX、Star_CD分子动力学:NAMD、GROWMACS、AMBER生物计算:BLAST、FASTA、MEME并行文件系统和数据库:DCFS2、PVFS2、Lustre、Oracle RAC机群管理和监控系统:DCO

22、S、DCMMII、Rocks、OSCAR曙光机群操作系统曙光机群操作系统(DCOS) 曙光机群管理系统曙光机群管理系统(DCMS) 曙光机群监控系统曙光机群监控系统(DCMM) 曙光机群部署系统曙光机群部署系统(DCIS) 曙光并行命令系统曙光并行命令系统(MTerm)曙光机群并行文件系统曙光机群并行文件系统DCFS2DCFS2(Dawning Cluster File Serving/SystemDawning Cluster File Serving/System)是曙光公司自主研发的第二)是曙光公司自主研发的第二代并行文件系统代并行文件系统 全局文件系统,提供单一系统映象与节点上的本地文件系统完全兼容支持大规模机群系统能够提供很高的元数据处理性能可靠性好,具有快速故障恢复功能并行环境、开发环境、高性能数学库并行环境、开发环境、高性能数学库 并行环境并行环境 消息传递:MPI、PVM 共享存储:OpenMP 开放环境开放环境 编译器 调试器 性能分析器 高性能数学库高性能数学库 ACML APL MKL IPP 其他专业数学库 1.1 并行计算机基础知识 1.2 并行计算机系统架构 1.3 机群系统 1.4 高性能计算发展趋势目录低功耗设计和管理技术越来越重要基于Linpack对Top500和典型高性能计算机的发展趋势进行外推,在2015-2018年左右

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论