新一代曙光高性能计算解决方案_第1页
新一代曙光高性能计算解决方案_第2页
新一代曙光高性能计算解决方案_第3页
新一代曙光高性能计算解决方案_第4页
新一代曙光高性能计算解决方案_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新一代曙光高性能计算解决方案高性能计算系统方案设计原则新一代曙光高性能计算解决方案曙光高性能方案总结目录从曙光一号到曙光6000,已经完成7代高性能计算机的研发7代自2009年起,实现了中国HPCTOP100的6连冠(2009-2014)7年3次进入全球TOP500前十,创造了众多第一3次亚洲最大的高性能计算机供应商第1交付了10000+套高性能计算机,服务于各行各业第1000套交付(2003.4)第2000套下线(2006.7)10000+26

年曙光高性能计算19902016曙光高性能计算的历史积淀HPC应用需求分析——因地制宜区分领域,因地制宜物理化学:开源软件众多,浮点运算密集生物基因:海量数据,批量任务,大内存卫星遥感:数据并行气象环保:流程化作业,高带宽低延迟地质石油:GPU应用成熟CAE/CAD:商业应用,需求多样生物基因类应用处理流程复杂测序仪原始数据预处理数据最终结果数据处理集群预处理服务器12345生物基因类软件众多SOAPdenovo,Velvet,CAP3,ABySS,ALLPATHS-LG,ARACHNE,MIRA,SSAKE,etc.基因组拼接Trinity,SOAPdenovo-Trans,CD-HIT,MIRA,etc.转录组拼接BLAST,FASTA,HMMER,MUMmer,MUSCLE,ClustalW,SOAP,MAQ,Corona,BWA,Bowtie,etc.序列比对tRNAscan,Snoscan,miRanda,Rfam_scan,InterproScan、MEME/MAST,Mdscan,etc.基因组注释GLEAN,Glimmer,GeneMark,AUGUSTUS,GENSCAN,TwinScan,etc.基因预测Phylip,MEGA,nj_tree,Structure,PAUP,etc.进化分析Joinmap,Onemap,Haploview,MapQTL,Germline,phase,etc.连锁,LD,QTLRepeatMasker,Trf,etc.重复序列识别应用特征–BWA基因比对基本上只做整型计算;单节点有线性加速比;对内存带宽有一定要求;对存储带宽有需求。应用特征–SOAPdenovo基因拼接计算基本为整形计算,会有很少量的向量运算;大部分时间只能使用单核进行计算,扩展性能不好;对内存大小和内存带宽有较高的需求;对网络带宽有一定需求,这部分需求主要用来请求存储数据。需求总结计算量大;部分应用需要大内存的节点;数据访问量巨大,对存储性能、容量要求高;开源软件众多,安装复杂;部分应用的工作流程较为复杂,自动化较低。高性能计算系统方案设计原则新一代曙光高性能计算解决方案曙光高性能方案总结目录曙光6000系列高性能计算机硅立方(SiliconCube)系列高性能计算机面向特定应用的专用高性能计算机针对高性能计算设计和优化、类型丰富的计算单元刀片服务器整机柜式刀片服务器胖节点异构计算节点ParaStor200分布式并行存储系统第三代高性能计算机存储系统高性能、高可靠、高可扩展计算和存储融合的高速互连网络胖树CloudBASE

机房基础设施为高性能计算机提供稳定可靠、绿色节能的支撑环境曙光高性能计算机产品线液冷刀片服务器Gridview:高性能计算机统一的监控管理与资源调度系统3D-Torus图形计算和可视化:全系列图形工作站“云图”远程可视化产品系统方案基础设施层:为相关软硬件设施提供稳定可靠、绿色节能的运行环境;硬件资源层:包含全部HPC相关的计算、存储、网络等硬件设施;基础软件层:对底层硬件资源进行统一的管理和调度,并为上层应用软件提供开发运行环境和访问接口;应用软件层:兼容各领域和行业的HPC应用软件,并针对资源需求特点进行深度系统优化。曙光6000系列高性能计算机曙光6000系列高性能计算机,国家”863”计划科研成果转化,提供从底层机房基础设施,到系统硬件、软件,再到应用软件整合的一体化产品和整体解决方案,提供全生命周期的全方位技术服务。层次化体系结构硅立方(SiliconCube)系列高性能计算机3D-Torus网络架构HyperNode超节点SiliconCube硅立方应用1应用2Failed全新架构,融合了曙光在3D-Torus高速网络架构、液冷高效制冷、高密度海量存储等方面的最新研究成果大幅度提高系统的扩展性和能效比、提高计算密度、减小占地面积液冷散热制冷技术基于3D-Torus的层次化网络结构立体延展,无与伦比的扩展能力强大的系统容错能力面向大规模并行、格点化应用【计算】TC4600E刀片服务器高密度5U10片,平均每U:2节点,4颗处理器高性能支持最新IntelXeonE5-2600v4CPU平台,BIOS等针对HPC应用优化高速率支持56Gb/s和100Gb/sInfiniBand高速网络广应用广泛适用于不同的HPC行业/领域,已有众多大规模应用案例低能耗93%效率金牌电源,冗余热插拔易部署与Gridview管理调度系统无缝对接曙光TC4600E——成熟度高、专门针对HPC设计优化的刀片平台曙光TC4600已有的大规模应用案例包括:中科院超算中心新一代计算系统“元”,北京市计算中心,教育网格二期(华中科技大学、清华大学等),东北大学、华东师范大学、中国科学技术大学等,国家气象局,北京、上海、福建、浙江、舟山等气象局,中国环境监测总站、江苏等环境监测中心,中科院等离子体所、地质与地球物理所等…【计算】TC4600E-LP液冷刀片服务器TC4600E-LP液冷刀片服务器基于TC4600E进行液冷改造,中国首款量产的液冷服务器高性能、高密度、高能效比,兼顾可维护性、成本优化PUE<1.2更节能降低CPU核温30℃更可靠噪音<45dB更低噪音CPU超频性能提高5%更高性能传热温差大,难以自然冷却噪音大,风扇风机功耗高计算密度受限PUE>1.4(传统模式>2.0)传热温差小,全年自然冷却噪音小实现超高计算密度PUE<1.2计算系统CPU的选型2016年4月完成从E5-2600v3(Haswell)到E5-2600v4

(Broadwell)的升级E5v4将延续微架构,升级制造工艺,性能一定程度提升,Socket兼容,平滑升级计算系统CPU的选型型号核数TDP主频

(GHz)LLC

(MB)QPI

(GT/s)DDR4频率

(MHz,1DPC)TDP

(W)双路节点TDP峰值

(GFlops)AdvancedE5-2690v4142.6359.624001351164.8E5-2680v4142.4359.624001201075.2E5-2660v4142.0359.62400105896E5-2650v4122.2309.62400105844.8StandardE5-2640v4102.4258.0213390768E5-2630v4102.2258.0213385704E5-2620v482.1208.0213385537.6BasicE5-2609v481.7206.4186685435.2E5-2603v461.7156.4186685326.42680v414C@2.4GHz2690v414C@2.6GHz高核计算节点—E3v5研发背景Intel主流Xeon处理器的技术演进是什么在支撑着摩尔定律?增加核心数增加向量位宽(每时钟周期运算次数)给应用带来的灾难?单核的实际应用性能没有增加(反而可能降低)高位宽的向量指令利用率低应用的并行度有限,核越多效率越低理论峰值越来越高,实际应用性能没见提升大部分HPC应用更喜欢:主频高、单核性能好高核计算—E3v5

Multihost产品2片CX30-G20(4个单路节点)共享一个100GbEDRMulti-HostIBE5E5QPI100GbEDRIBPCIe3.0x16E3E3E3E3Multi-Host100GbEDRIBx4x4x4x4双路E5,两颗CPU访问网络不均衡,E3平台无此问题曙光I980-G10—超高性能&关键业务最大单机144个物理核心采用IntelE7-8800v3或E7-4800v3系列处理器性能更加卓越16个PCIe3.0扩展,支持热插拔128根内存插槽,最大8TB内存扩展16个热插拔硬盘位扩展能力超级强大60余项RAS设计,关键部件全部实现冗余冗余多路径设计,支持硬件分区液晶监控屏实时监控硬件状态所有关键部件支持热插拔,“秒”级维护稳定可靠堪比小机计算存储网络选型QDR2008年发布Adapter/SwitchPortbandwidth40Gb/sLatencyreduction<1usInfiniBandrouterLinkbitencoding-8/10LowerpowerconsumptionFDR2011年发布Adapter/SwitchPortbandwidth56Gb/sLatencyreduction<700nsInfiniBandrouterandIB-Eth/FCbridgesLinkbitencoding-64/66ForwardErrorCorrectionLowerpowerconsumptionEDR2015年发布Adapter/SwitchPortbandwidth100Gb/sLatencyreduction<700nsInfiniBandrouterandIB-Eth/FCbridgesLinkbitencoding-64/66ForwardErrorCorrectionLowerpowerconsumption计算和存储高速网络融合采用2014年底发布、2015年供货的MellanoxEDRInfiniBand,理论带宽100Gb/s,物理延迟<700ns,将是业界最高性能的高速网络计算网络——Infiniband技术发展PCI-E速率要求理论带宽*IB编码效率*PCI-E编码效率=实际峰值带宽延迟QDRPCI-E2.0x840Gb/s*8/10*8/10=3.2GB/s1.3μsFDRPCI-E3.0x856Gb/s*64/66*128/130=6.68GB/s0.7μsEDRPCE-E3.0x16100Gb/s*64/66*128/130=11.93GB/s0.6μsEDR与FDR在带宽和延迟方面的实测性能对比更高带宽、更低延迟的EDR能够进一步提升网络密集型应用程序的并行效率典型应用的测试数据将在后续补充统一的文件印象快速的访问性能海量需求快速扩展超大的文件及容量超高的可靠性高性能计算系统对共享存储的需求统一的文件映像:是高性能存储的基本要求,即保证每个节点中看到的文件为同一个文件,并且任何节点所做的修改在其它节点立刻生效。超高可靠性:存储是系统级节点,一旦损坏将导致整个系统不可用,同时,存储中的数据价值难以估量,一旦损失后果不堪设想。快速的访问性能:随着计算性能和节点数量的不断扩大,存储的访问性能很可能成为制约整个系统的瓶颈。超大的文件及容量:高性能存储的单一目录往往要求数百TB甚至数十PB,单一文件往往要求数GB甚至数TB,这也远远超出了很多常规文件系统的设计限额。海量快速的扩展:在使用过程中随着存储空间的不断损失,可在线方便扩展,并同时实现容量和性能的扩展。需求说明高性能存储的设计演变NFS为代表,一对多方式的网络共享文件系统面向大规模系统或I/O密集型应用,存在严重性能瓶颈Lustre为代表,磁盘阵列RAID+I/O节点方式的并行存储系统解决了性能问题但单点故障较多,容错性较差基于存储服务器+并行文件系统的软硬件一体的分布式并行存储系统多副本/纠删码数据保护,可靠性高、扩展性高高性能计算机全局共享存储系统的技术演进数据、元数据分离,支持分级存储全冗余设计,数据副本/N+M纠删码数据保护在线扩容,自动负载均衡Scale-out,容量和性能线性增长曙光ParaStor200介绍曙光ParaStor200并行存储系统磁盘、节点、网络全冗余设计;数据保护:数据副本或N+M纠删码方式无人值守故障硬盘处理,避免传统RAID的“雪崩”效应生物云计算平台生物云计算平台集群计算系统数据存储系统用户层服务层接口层基础层用户管理软件管理数据管理资源配置群组管理流程管理任务管理……业务逻辑处理数据存储与访问Web服务提供消息传递数据管理Web

Service计算任务Web

Service用量统计Web

ServiceJson规范定义消息描述,HTTP协议传递消息生物云计算平台资源管理可在线配置系统资源,包括计算机集群系统、存储系统、配额管理、群组管理、权限管理等。软件配置可在线配置生物信息应用软件或程序,部署个人开发的软件或程序,并可实现私有化或公有化设置。流程定制可在线配置生物信息数据处理流程,即可配置个人开发的数据分析程,并可实现私有化或公有化设置。数据管理可在线进行数据归类管理、设置数据访问权限、数据发布与共享。作业提交在线提交计算任务,可指定参与计算的CPU数量。任务监控在线监控作业运行情况,实时掌握任务的进行进度,并给出每个作业的详细运行状态及运行报告。生物云计算平台创建应用程序审核应用程序通过系统自动生成应用程序界面在线使用应用程序用户系统管理员【管理】Gridview的监控管理功能Gridview全面的集群的运行状态实时监控,包括设备状态、存储监控、机房基础设施监控等集群监控系统快速部署用户信息统一管理集群系统服务统一管理远程KVM、IPMI智能一键开关机集群管理监控各主要故障点信息;故障阈值设置,定制监控策略;短信、邮件等告警方式告警管理集群运行状态的统计报表功能预定义和自定义形式生成集群运行状况报表报表系统一目了然防患未然轻松管理分析决策【服务】EasyOP易运维专业的7*24小时高性能计算机远程运维高性能计算专家在线咨询服务智能化,自动化运维服务大数据在线分析高性能计算系统方案设计原则新一代曙光

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论