高性能计算解决方案-华为_第1页
高性能计算解决方案-华为_第2页
高性能计算解决方案-华为_第3页
高性能计算解决方案-华为_第4页
高性能计算解决方案-华为_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、华为高性能计算解决方案1概览1.1 HPC概述2高性能计算系统概述(source:)200020131990-20001980-19901970-1980MPP向量机DSMCluster01002003004005002009.62009.112010.62010.112011.62011.112012.62012.112013.62009-2013 TOP500 HPC系统架构ClusterMPPSMP高性能计算系统的架构演变全球HPC系统主流架构(cluster和MPP)以计算为目的,使用了很多处理器的单个计算机系统或者使用了多台计算机集群的计算系统和环境什么是

2、高性能计算3高性能计算系统的应用领域4高性能计算系统组成Application : 计算应用Scalable File System: 集群存储Middleware: 计算通信中间件Development Tools: 开发工具Operating System: 集群操作系统Interconnect: 高速计算互联设备Server: 节点服务器Storage: 硬件存储设备Cluster Management: 集群和资源管理Deployment Toolkit: 部署工具Change Management: 配置变更管理Health Monitoring: 状态监控Job Schedulin

3、g: 作业调度5高性能计算系统的发展趋势世界第一的超级计算机最大计算能力TOP 500单位能耗计算能力Source: Top500官网330.80628.77885.190.00200.00400.00600.00800.001000.002011201220131.762.5710.5117.5933.860.0010.0020.0030.0040.0020092010201120122013PFlop/s计算能力每年成倍增长 单位能耗计算能力快速提高MFlops/Watt6高性能计算系统的发展趋势05000100001500020000200820092010201120122013Top

4、1计算机功耗Top2计算机功耗Top3计算机功耗Source: Top500官网计算功耗逐年增加3740374450402826292823323727220%10%20%30%40%50%60%70%80%90%100%20072008201020112012电力冷却制造、楼层、空间Source: InterSect360电力和冷却占整体机房设施费用70%以上7X86,Linux,刀片系统,高速网络占据主流高性能计算系统的发展趋势100%75%50%25%全球TOP 500 高性能计算机的使用情况81%10%95%66%41%处理器操作系统构建方式互联网络Intel X869%AMDX869

5、OthersLinuxBlade16%43%34%IBGEOthersOthersOthers5%8高性能计算发展中遇到的挑战扩容部署复杂,重复利用已有投资困难高性能计算机能耗问题越来越突出Top计算机的耗电量相当于一个中型城市日常耗电量,Top500计算机仅有167个出现在Green Top500榜单中我们的超算平台要分好几期建设,扩容很不方便 ,且部署复杂,费时费力。欧洲某高校超算中心主任管理困难,缺乏直观的管理和流程定义工具应用计算量快速膨胀,对性能要求越来越高生物基因测序的步骤很复杂,分支很多,新计算任务的上线很耗时间,效率低下。中国某生物基因公司研究员我们的渲染业务发展很快,对计算资

6、源的需求正在急剧膨胀 美国某媒体制作公司高管挑战9概览1.2 华为All-in-one高性能计算解决方案10集群管理业务管理刀片节点IB/10GE交换机IB/10GE 业务网络GE管理监控网络计算集群GPGPU机架存储集群GE交换机机柜存储Phi机架存储固态存储模块化数据中心集装数据中心交换网络管理节点华为高性能计算解决方案示意图11并行文件系统并行环境系统部署定制开发备份恢复编译开发环境行业应用服务平台CAE/CFD生命科学石油勘探动漫渲染气象环境科研教育GPGPU机架机柜存储Phi机架存储固态存储GE交换机IB/10GE交换机刀片WindowsLinuxCentOS+计 算存 储网 络硬件

7、资源操作系统计算环境系统环境高性能集群管理软件CHESSPBS WorksPlatformJ H Scheduler炫云Bright集群管理集装数据中心模块化数据中心基础设施华为高性能计算解决方案全景图12大型中型小型All In ChassisAll In RackAll In Room 高效敏捷 统一管理 适配业务特征高度集成快速部署一体化设计按需部署高效节能节约投资华为高性能计算解决方案交付形态13All In Chassis解决方案:高度融合高密计算、大容量存储和高带宽网络特性说明l12U 8/16/32刀片,单框64个至强处理器,浮点计算能力达16.5T FLOPSl单框12TB高性

8、价比内存,虚拟化和大数据分析轻松应对l单框15.6Tbps背板带宽,数据库集群极速互连l支持InfiniBand QDR/FDR ,支持IB EDR演进l支持GPGPU辅助加速计算主要应用场景小型超算用户:例如普通大学超算中心、各部委科研所、各地动画基地渲染农场等计算节点储存节点交换模块All-In-Chassis:小型HPC系统解决方案14All-In-Chassis 标准配置机框组件组件产品型号产品型号数量数量机框E90001管理节点&计算节点CH1408加速节点CH2212胖节点CH2401存储节点CH2221一体化HPC解决方案,预安装华为 集群管理软件计算能力: 10.6 TFLOP

9、S, 存储能力:13.5TB ,最大功耗: 10KW15特性说明一体化集成、快速部署l机柜42U、24U可选,交付周期短l高度集成服务器、路由器、交换机、UPS、配电单元、监控单元、PDU、散热系统于一体、即插即用模块化设计、灵活扩容l模块化架构,IT机柜、网络机柜、电池柜功能柜按基本单元灵活组合lUPS、电池包、配电盒等采用标准19”插框设备,按需部署智能高效,绿色节能l采取机柜自然通风散热,节能环保;l排风风扇采用直流变速风机,根据环温动态调节转速,高效节能主要应用场景中小企业IT应用、大型企业分支、电子校园等All-In-Rack一柜式HPC解决方案,高集成度设计,集成基础设施,IT设备

10、于一柜,即插即用All-In-Rack:中型HPC解决方案16All-In-Rack 标准配置组件组件产品型号产品型号数量数量机柜标准机柜1计算节点E90002CH14032管理/监控/存储节点RH1288 V26管理 :1监控:1存储: 4存储设备S2600T1计算能力: 33TFLOPS 存储能力: 144TB 最大功耗: 25KW机柜机柜17特性说明适应性强,空间利用最大化l最低只需2.6m的安装层高l通过单双排灵活排列,最大化利用空间 按需部署,快速便捷l通过工厂预制与标准化的接口,1周内即可完成现场安装,部署速度提升50%模块化架构,高效节能l满足高能效低PUEl行级空调、模块化UP

11、S、密闭通道、高集成配电柜的联合应用使PUE降至1.5以下主要应用场景定位大中型数据中心,可广泛应用于政务网、教育医疗、中小企业、大型公司分支机构、呼叫中心和金融网点等采用All-In-Room模块化设计理念,实现快速建设,按需部署,高效智能单排双排All-In-Room:大型模块化机房HPC解决方案18All-In-Room 标准配置中型模块化机房22 标准机柜(42U), 最大可扩展到28个p最小PUE 40% 系统级节能板级节能低功耗器件选型领先的供电效率供电关相功能高效电源拓扑设计板级液冷方案,支持内存液冷,可现场插拔维护支持集成(4.5万瓦散热)和非集成方案(8万瓦散热)自动补水,三

12、年内免补水防泄露、防凝露,泄露检测等容灾能力最低PUE1.2能耗管理能效监视分析诊断自动处理63云化演进公有云物理集群私有云集群管理FusionCluster 智能分析诊断 华为云平台FusionSphereVMVMVM自动批量安装部署镜像管理一键配置执行批量安装 动态伸缩统一资源管理和调度直观管理云化演进自研集群管理软件和云平台软件FusionSphere结合提供云化演进方案64应用3.1 行业方案65CAE(Computer Aided Engineering):用计算机辅助求解用计算机辅助求解分析复杂工程和产品的结构力学性能,以及优化结构性能等分析复杂工程和产品的结构力学性能,以及优化结

13、构性能等应用领域:航空航天、汽车、船舶、机械、建筑、电子前处理:几何建模,划分计算网格求解:指定荷载和边界条件,提交给服务器进行分析后处理:显示结果,评估产品性能CAE仿真66CAECAE常用软件对硬件的需求软件分类软件分类软件名称软件名称简介简介可扩展性可扩展性内存内存IO网络网络隐式有限元分析(IFEA)ANSYS通用隐式有限元软件16CPU16CPU时并行效率一般在50%以下内存需求大每100万自由度需要1-10GB内存IO要求高磁盘IO的时间可占全部计算时间的1/3以上Infiniband比千兆以太网仍有明显优势NASTRAN线性结构分析软件ABAQUS通用隐式/显式有限元软件显式有限

14、元分析(EFEA)LS-DYNA最出色的显式分析软件64 CPU+内存需求小每50万自由度需要0.5-1GB内存IO要求高32进程以上建议采用InfinibandPAM-CRASHPAM系列的碰撞和冲击分析软件RADIOSS汽车碰撞、冲击、噪声分析计算流体力学(CFD)FLUENT最通用的CFD分析软件128 CPU+足够即可每50万自由度需要0.5-1GB内存IO量较小Infiniband集群的整体性能会有明显改善CFX动力机械领域STAR-CD发动机模拟领域FASTRAN航天航空领域67刀片集群E9000SMP节点RH5885管理节点RH2285IB交换机Manllox 56G FDR以太

15、网交换机Quidway S Series光纤交换机Quidway S Series光纤交换机Quidway S SeriesIO节点存储阵列OceanStor T Series图形工作站局域网计算网管理网存储网华为解决方案特点:l综 合 了 S M P 节 点 和Cluster节点l完全基于x86-64处理器的平台l采用56Gb全线速的IB网络lEsight可对软硬件资源进行全面的监管l支持Linux和Windows操作系统华为CAECAE领域解决方案68石油行业地球物理地球物理勘探勘探井位确定井位确定石油开采石油开采炼化储运炼化储运石油销售石油销售野外作业地震资料处理地震资料解释油藏模拟石油

16、应用产业链浮点计算多核扩展高带宽大内存69石油行业HPCHPC的挑战及解决方案万兆以太网互联GPU/GPGPU技术SSD加速技术Infiniband互联多核/多路/高密服务器存储技术计算网络互联存储集成管理l先进的算法带来计算更高的要求l可视化处理要求CPU与GPU的配合l高密度、高精度带来了数据量的增加l数据量的增加带来了计算量、存储量的增加l进而需要更多的计算节点、存储节点l进而需要更快捷的网络互联方式来连接计算节点、存储节点l更多的节点带来管理的复杂性:机柜多、计算节点多、存储节点多、数据交换机多,设备状态无法及时掌握;l更多的节点导致电费、空调的开销在开采和勘探总支出中的占比越来越高绿

17、色节能70华为石油行业高性能计算方案10GE 网络网络千兆管理网络千兆管理网络10GE 交换机交换机NAS/SAN存储设备存储设备GPU节点节点数据采集节点数据采集节点集群计算节点集群计算节点集群管理节点集群管理节点系统登陆管理系统登陆管理10/100/1000M管理交换机管理交换机管理服务器管理服务器网络采用10GE,适合石油行业的大量数据I/O,对网络有较高的需求。更高的要求可以用IB。三种计算节点:l计算节点: 高性能刀片或者机架服务器l胖服务器节点: SMP架构高性能服务器,具备多CPU和大内存容量lGPU计算节点: 服务器中安装GPGPU卡,使用GPU进行运算加速71动漫多媒体模型图

18、抽象骨架渲染图丰满真实单机渲染 龟速集群渲图高效n 流程n 集群丰满现实强力技术强力技术艺术灵光图形渲染集群渲染72动漫多媒体领域常用软件软件分类软件分类软件名称软件名称简介简介作用作用三维制作软件MayaAutodesk公司3D软件,支持Windows、Mac OSX、Fedora等多平台。设计三维图像,图像建模。3Ds MaxDiscreet公司开发,后被Autodesk公司合并。主要支持Windows,也可以通过Parallels Desktop虚拟化计算运行在mac os上。XSISoftimage公司产品,有windows和linux版本Lightwave 3DNewTek公司开发的

19、三维制作软件。渲染器RendermanPixar产品,应用最广泛的渲染器之一三维图像渲染工具Mental Ray德国mental image公司(现已为nvidia子公司)产品渲染管理软件Enfuzion商业软件,支持主流OS及渲染软件。基于网格计算,性能优秀。渲染任务的分发软件,完成渲染任务的调度管理Qube商业软件,支持主流OS及渲染软件。基于mysql数据库,性能优秀。Muster商业软件,只要支持Windows,基于p2p技术,节点超过50后性能差Drqueue开源软件,支持linux、FreeBSD、OSX,Windows等系统。73集群渲染对硬件需求l 普通PC每小时渲染12帧,单

20、渲染节点的能力和渲染集群的大小决定渲染速度。l 渲染任务开始后,大量的材质贴图将被读取到内存中,然后开始渲染图像,在此过程中,CPU与内存的通讯非常频繁。分辨率越高,材质贴图越多,内存带宽要求越高。l 120分钟的4K电影数据量:4K:4096311238/8/1024/102440M;40M/帧*24帧/秒*7200秒=691200m=6.6Tl 存储的数量量大,为提高存储速度,需要提供高带宽(并行文件系统)大容量的存储。l 在通过渲染农场进行网络渲染时,一旦管理服务器下达渲染任务,所有的计算节点便开始从网络共享存储中去读取材质贴图和目标文件,因此,高带宽的网络将大大地缩短预读数据的时间。7

21、4华为动漫多媒体领域解决方案基于自主的计算、存储及交换硬件平台。计算采用高密度(12U32节点)的E9000刀片服务器。存储采用基于巫山文件系统的Ocean Stor 9000并行存储。IB/10GE根据业务需求灵活选择。Esight可对软硬件资源进行全面的监管。业务管理网络硬件管理网络Ocean Stor 9000并行存储E9000刀片服务器 计算集群管理服务器IB/10GE交换机图形工作站IB/10GEGE业务管理GE硬件管理75主模式:系统主要部分,是主要计算量所在前处理:气象数据的收集和预处理后处理:综合数值天气预报、天气学、统计学等预报结果数值天气预报流程在各种气象预报方法中,中尺度

22、气象在现代气象科学中应用最为广泛数值天气预报:用数学方法构建方程,将气象数据和边界参数导入方程求解,数值天气预报:用数学方法构建方程,将气象数据和边界参数导入方程求解,从而预测大气变化和状态从而预测大气变化和状态气象预报76气象预报对硬件的需求软件分类软件分类软件名称软件名称简介简介可扩展性可扩展性CPUIO网络网络气象预报模式MM5使用最为广泛的中尺度预报模式,后续会转向WRF具备良好扩展性,大部份模式已完成并行化计算量巨大,预报精度提高一倍,其所需计算量将成几何级上涨海洋模式的程序大都对整个系统的IO性能有较高要求,一般要求有分布式IO或者并行文件系统通信极为密集,网络性能要求非常高WRF

23、在MM5模式上发展起来的新一代中尺度模式GRAPES中国气象局自主开发的新一代数值预报系统AREMS武汉暴雨所和中科院研制,适合淮河长江流域暴雨预报物理海洋模式FVCOM非结构网格海洋环流与生态模型 ROMS新兴的海洋模式系统POM三维海洋数值模式HYCOM原始方程全球海洋环流模式环境模式CMAQ空气品质模式CCSM3气候系统模式CAM大气环流模式77华为气象领域解决方案华为解决方案特点:l计算节点:采用E9000,配置E5-2680 CPU,注重浮点计算性能。l管理登陆节点:采用RH2285 V2,双机HA,保证管理和登陆的可靠性。l并行存储:采用Ocean Stor 9000,500万OP

24、S和200GB/s的性能,满足气象软件的高IO需求。l网络系统:计算网络采用低延迟、高带宽的FDR Infiniband,管理网络采用低成本GE网络。计算节点E9000刀片集群管理登陆节点RH2285 V2并行存储N9000高速计算网 infiniband网络系统管理网 GE网络硬件管理网 GE网络华为气象预报HPC解决方案78生物科学生物信息学生物信息学领域领域新药研发新药研发领域领域分子动力学分子动力学模拟领域模拟领域使用HPC对生物基因数据进行测序、拼接、比对等处理,提供基因组信息以及相关数据系统,解决生物、医学和工业领域的重大问题。使用HPC快速地完成高通量药物虚拟筛选,可使研发周期平

25、均缩短1年半左右、投入减少上亿元。使用HPC进行大规模分子动力学模拟,通过模拟结果来分析和验证蛋白质在分子和原子水平上的变化79生物常用软件对硬件的需求领域领域软件名称软件名称简介简介可扩展性可扩展性内存内存IO网络网络生物信息学-DNA序列比对BLAST、FASTA序列相似性搜索软件定点计算为主,计算任务相对独立,并发效果好程序消耗内存大IO要求高通信较少,用千兆网。网络文件系统的读写对网络性能有一定要求ClustalW 多序列比对软件Censor、RepeatMasker重复序列检测软件PHYLIP、PALM系统发育树构造软件药物研发DOCK 、AutoDock、FlexX半柔性对接程序多

26、为任务级并行,扩展性好较高的内存需求,每个处理器核心配置1GB较好IO要求高通讯较少,一般千兆网就可以了Discovery 、Stuio 包含多种尺度的分子对接方法ZDOCK,、RDOCK刚性对接,蛋白质对接MORDOR柔性对接程序分子动力学NAMD模拟大分子体系的并行分子动力学代码非常高的并行加速比一般IO要求高大量的点到点通信,推荐infiniband高速网GROMACS研究生物分子体系的分子动力学程序包CHARMM商业软件,基于CHARMM势场AMBER商业软件,基于AMBER势场LAMMPS大规模原子分子并行模拟器80华为生物领域高性能计算方案IB计算网GE管理网FC存储网计算网络管理

27、网络管理/登陆RH2285LustreSMP节点RH5885MPI节点 E9000IO节点 RH2285华为解决方案特点:l综 合 了 S M P 节 点 和Cluster节点,满足高通量计算和高性能计算l完全基于x86-64处理器的平台l采用56Gb全线速的IB网络lEsight可对软硬件资源进行全面的监管l并行文件系统,满足高IO需求81应用3.2 应用案例82英国纽卡斯尔大学医学院生物信息超算系统防灾科技学院地震前兆监测系统土耳其学术网络与信息中心高性能计算平台上海众信生物科技有限公司生物云平台海思半导体高性能仿真平台首都医科大学超算系统Digital Domain公司渲染平台北京航空航

28、天大学计算机学院高性能计算平台广州国家超级计算中心北京交通大学高性能计算平台华为高性能仿真平台东北大学超级计算中心华为HPCHPC解决方案在其他领域的应用83国家超级计算广州中心客户需求Solutionl高密节点设计:节点同时支持Intel Ivy Bridge处理器和Xeon Phi协处理器卡l全方位节能设计:从器件级节能到机柜级节能的统筹设计l应用加速:针对数据库应用、大数据应用等提供应用加速方案l采用华为RH5485机架服务器:采用2*2路设计,在单一节点支持四个Ivy Bridge CPU和两个Xeon Phi协处理器卡l全方位节能设计:从器件选型到供电设计,定制节能方案实现15%能源

29、节省l应用加速:华为SSD卡提升4倍IOPS性能,华为压缩卡提升30%大数据应用性能84国家地震局防灾科技学院采用华为Tecal RH2288服务器作为计算节点,系统的峰值数据处理能力为20TFlops 。采用华为OceanStor部署分级存储系统,存储容量达500TB采用华为的All-In-One一体化HPC解决方案,模块化部署,满足后续灵活扩容需求解决方案计算数据迅速增长,学院现有的计算能力无法满足计算的要求现有的数据存取速度慢,极大影响整体的计算性能计算和存储需求不断增长,系统的扩容难度大客户挑战整体性能提升80%;数据存取速度提升70%;满足未来10年系统扩容需求客户收益“华为提供了全

30、套的端到端高性能计算解决方案产品,具有高性价比、低功耗等特点,不仅满足了我们地震前兆监测中数据实时接收、快速读取、大规模运算的需求,还具备良好的可扩展性”- 防灾科技学院85客户需求客户需求解决方案解决方案l随着系统规模的扩大,急需采用x86服务器替代原有SUN工作站降成本l现有集群软件已经无法适应大规模集群管理,需要更为成熟的软件来替代l随着服务器的增多,单位面积的部署密度提高,需解决机房的供电、制冷、散热等问题l采用华为RH系列标准x86服务器,系统采购和维护成本降低60%l集群软件集成Platform LSF,系统管理更加灵活,同时,软件集成应用模板(可定制),降低了应用部署复杂度l提供

31、高密机房解决方案,系统集成度提高50%海思半导体仿真平台86“华为HPC云平台面向具体行业领域的定制开发,运营模式设计,支撑服务方面的能力令人印象深刻。在华为HPC云平台上测试和构建自己的业务模式是一种经济高效的方式。我们将在华为HPC云平台上构建整个生物医学行业新的服务范式。”-上海众信生物研究中心 提供专业的HPC业务流程管理软件,包括流程设计工具、流程执行引擎、流程监控等组件。依托云平台的海量计算资源和存储资源,充分结合华为云平台和HPC的特点,提供完善的超算云解决方案。解决方案大量基因测序软件,业务部署慢,自建集群跟不上业务发展业务处理的步骤多,流程复杂,定义流程效率低,易出错客户挑战

32、 IT建设周期从几个月缩短为几周,降低初始投资成本80,同时,大大减轻后期运维成本。极大缩短业务上线时间,从几周缩短到几天。按需部署和使用,提高使用效率,节约运营成本30以上。客户收益87华为高性能仿真平台 提供专业的HPC集群管理软件,包含安装部署、调度、集群配置、监控告警等 提供web界面,方便进行作业操作以及集群管理维护解决方案 仿真业务需要用到多种仿真应用软件。 自动化的安装部署工具,操作简单,维护管理便利。客户需求 计算能力由原先200万网格提升到超千万,计算效率提升5倍,大大节约长期综合成本。 用户通过web界面进行作业操作,使得用户不必理解底层调度系统命令,更加聚焦本职工作,提高工作效率。 完善的资源管理、作业调度、账户管理等功能,为客户提供行业整体解决方案。客户价值当前解决方案:计算节点:共60个节点(30台RH2485 + 30

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论