东风汽车有限公司CAE高性能计算平台建议书.docx_第1页
东风汽车有限公司CAE高性能计算平台建议书.docx_第2页
东风汽车有限公司CAE高性能计算平台建议书.docx_第3页
东风汽车有限公司CAE高性能计算平台建议书.docx_第4页
东风汽车有限公司CAE高性能计算平台建议书.docx_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XX汽车有限公司CAE高性能计算平台方案建议书(初稿)2012年3月30日文档说明此文件属于商业机密文件. 经过有关方面批准方可从作者获取.保密说明 本建议书属于商业机密文件,书中的所有信息均为北京九联云天科技有限公司机密信息,仅供XX汽车客户使用。务必妥善保管并且仅在与项目有关人员范围内使用,未经北京九联云天科技有限公司明确做出的书面许可,不得为任何目的、以任何形式或手段(包括电子或机械复印、录音或其他形式)对本文档的任何部分进行复制、存储、引入检索系统或者传播。特别声明 本建议书内容,包括价格和配置,只适用于XX汽车客户。尽管北京九联云天科技已经尽力使本文档内容完整和有效,但仍可能有技术方面不够准确的地方或印刷错误。如果需求有所变化,北京九联云天科技将对有关内容进行相对应的调整,并在本投标未来版本中体现。IBM是国际商业机器公司的注册商标。本文档提及的其他公司、产品和服务的名称,可能是其他公司的商标或服务的标志。本建议书的有效期为自递交之日起3个月。 目 录第 1 章 概述 4第 2 章 关于IBM高性能计算的简介 7第 3 章 汽车行业CAE应用程序的特点及计算平台的选择 11汽车行业CAE分析的过程 11CAE高性能运算应用程序的特点 11CAE硬件平台的选择 15IBM Cluster 1600介绍 17IBM Cluster 1350 Linux集群系统(IBM刀片中心): 20IBM优势 21第 4 章 CAE高性能计算系统设计原则 24应用通用性原则 24系统高扩展性原则 24系统高可用性原则 25处理器性能最大化原则 25高性价比原则 26第 5 章 CAE高性能计算平台方案 27关于XX汽车CAE项目投资的几点建议 27总体方案描述 27二期扩展方案 31第 6 章 相关产品技术介绍 32IBM Power 575 32IBM BladeCenter 34IBM BladeCenter HS22 38IBM System x3650 M2 41IBM System Storage DS5000 系列模块化企业存储系统 43IBM并行文件系统GPFS简介 46xCAT集群系统管理软件 48IBM智能系统管理 49 第 1 章 概述CAE一直是高性能计算的主要应用领域。随着现代汽车技术的发展,特别是与其它学科如数学、物理、化学、材料科学的结合,汽车应用所需处理的数据信息量不断增加,对运算能力的需求也越来越大,由于并行计算技术的飞速发展,汽车CAE模拟的应用平台也逐渐从巨型机过渡到高性能计算机系统,这也为用户提供了一个具有更高性价比的选择。近年来,高性能计算作为大规模CAE应用的基石,在工业和制造业领域的应用越来越普遍和广泛。从TOP600的统计信息来看,工业领域所占的比例在不断增加。2005年6月,工业用户使用的高性能计算机占到52.8。而其中的半导体和制造业用户所占的比例相当可观。其中美国半导体公司大约有70台。许多国际著名的制造业大公司已实现了产品的虚拟化设计和制造,并实现了全球资源共享,利用全新的理念设计产品。美国、日本的一些公司都拥有总计算能力超过数十万亿次的高性能计算机用于新产品的研发。主导世界制造业方向的大集团公司目前都拥有大量的超级计算机用于产品设计和数据处理,制造业信息化是知识经济时代企业核心竞争的必要组成环节。 中国在世界上有“世界制造中心”的称号,但是实际上我们的制造还大多数属于很简单的浅层面。更多的时候,通常的做法是产品在国外设计研发,在国内生产。不过,在如今,国内的制造业一方面有了自己的进步,另一方面,国外的知名企业也纷纷将自己的研发中心设置在了国内。在开始阶段,在国内作的研发可能还更多的出于本地化需求,不过,相信在不久的以后,会有更多的分析和研发需求会在中国出现。从设计产品的设计到研发到制造,整个环节都会在国内实现。目前,在汽车领域,国内的CAE进展的比较早,典型的应用有汽车的冲撞试验。XX汽车有限公司,1992年5月18日成立。2002年10月25日,由中国东风汽车公司与法国雪铁龙公司的合资合作提升为与法国标致雪铁龙集团的合资合作,导入标致品牌,新的合资公司于2003年1月成立,新合资公司的中文名称不变仍为XX汽车有限公司(以下简称“XX公司”),英文名称为“DONGFENG PEUGEOT CITROEN AUTOMOBILE COMPANY LTD”(缩写为“DPCA”)。 XX公司总部位于中国湖北武汉,分别在武汉、襄樊两地建有包括冲压、焊装、涂装、总装、发动机、车桥、变速箱等工艺的武汉一厂、武汉二厂、襄樊工厂。2008年3月,XX公司已具备年产30万辆整车、40万台发动机的生产能力;生产高档轿车的武汉第二工厂将于2009年下半年全面建成投产,届时,XX公司将具备年产45万辆整车的生产能力。XX公司实行“一个公司、两个品牌”的经营模式,东风标致商务部总部设在北京,东风雪铁龙商务部总部设在上海。目前拥有东风雪铁龙、东风标致两大品牌的七大车型系列,包括东风雪铁龙凯旋、世嘉(三厢/两厢)、萨拉毕加索、新爱丽舍(三厢/两厢)、C2,东风标致的307(两厢/三厢)、207(两厢/三厢)。随着今年下半年第二工厂高档轿车的下线,XX公司的产品线将覆盖经济型、中高档、高档等各个细分市场。XX公司自成立以来,始终肩负“成就拥车梦想,优化生活品质”的光荣使命,开创了中国汽车发展史上“高起点、大规模、专业化”建设的先河。在充分消化、吸收两大股东领先技术和先进管理经验的基础上,不断创新发展,创造了“一撞、一漂、一贴、一认证”的奇迹,取得了“家用第一车、环保第一车、安全第一车”和“史上最牛车”等诸多殊荣,树立了“安全可靠、环保舒适、创新科技”的产品形象和品牌形象。始终坚持“关怀每一个人,关爱每一部车”的经营理念,不断为广大用户提供满意的产品和服务,树立起了良好的口碑和企业形象。近年来,XX公司的建设发展步伐不断加快,年产销量先后突破10万辆、20万辆,并正在向更高目标迈进,生产经营已呈现出良好的发展态势:产销稳步增长,成本控制成效显著,经营质量明显提升,自主研发能力日益增强。同时,随着XX公司以品牌战略、产品战略、成本竞争战略、质量领先战略、自主研发战略、工业化战略、人力资源战略、组织与信息化战略、供应链战略、可持续发展战略等十大核心内容为支撑的永续发展战略的确立,XX公司的未来发展之路更加清晰,更加充满希望和期待。未来几年,XX公司将进一步加大新产品的投放力度,进一步提升产品竞争力和市场营销能力,全力打造2-3 款年销量过10万辆的战略车型。以追求品质口碑领先、追求科学稳健发展、追求人车社会和谐为事业梦想,以成为最让人信赖的轿车企业为发展愿景的XX公司已拉开来新一轮跨越式发展的大幕,必将在未来的中国汽车市场焕发更加夺目的光彩。随着科研水平的不断提高,汽车CAE模拟对计算能力的需求也不断增长。经过广泛调研,XX汽车决定采购一套高性能计算机系统用以运行CAE软件。第 2 章 关于IBM高性能计算的简介高性能计算多年来一直是科技综合实力竞争的制高点,也在一定程度上反映了各大公司在系统研发方面的实力。在过去十年中,高性能计算技术正处于创新的高峰期,其处理速度和总体计算能力的发展远高于摩尔定律描绘的芯片技术的发展速度。作为行业的技术领先者,IBM公司在这一领域积累了长达半个世纪的丰厚经验,并在关键技术领域不断创新,发明了包括并行处理、对称多处理机和高性能计算机系统等并行计算的核心技术,并通过它们始终保持着在业界的领先水平。过去15年以来,IBM的专利数量都一直居于所有美国公司的首位。IBM长期以来致力于高性能计算领域的技术发展和应用完善,当其它IT厂商由于机会或者财务限制,在这种科学计算市场中进进出出时,IBM就从每年50亿美金的研发经费中按比例、持续地投入高性能计算领域。IBM承诺将保持在高性能计算领域的领先位置。IBM发明了包括并行处理、对称多处理机和集群等技术,并通过它们始终保持着在业界的领先水平。 并且IBM还承诺,通过利用和增强基于开放资源技术与工业标准服务器的Linux集群,来提供给客户更多的机会。IBM将会成为这种方案的领先提供商,我们在世界各地成立了专门的队伍,为Linux的发展贡献力量,帮助客户或合作伙伴将应用移植到Linux平台,开发更多的新技术和应用。IBM Linux 集群系统是利用先进的体系架构将IBM 的System x系列服务器、System p系列服务器以及TotalStorage存储解决方案连接起来,通过集群技术实现高性能运算。由于Linux 集群系统性能卓越,可用性高,扩展能力强和易于掌握等优势,一经推出,就被科学运算领域和商用领域的用户认可。众所周知,IBM公司长期以来在高性能运算方面投入了大量的精力,并取得了很好的成绩。在高性能运算 TOP 500名中,IBM公司占有很大的份额。IBM的大规模并行处理机SP系统已广泛地运用在各个领域,该机(深蓝)曾在1997年中的“人机大战”中因战胜棋王卡斯帕罗夫而享誉全球。作为后起之秀的Linux 集群系统,吸取了SP大规模并行机的诸多优势,并且将SP上的优秀的系统管理软件和并行处理方面的程序移植到Linux 集群系统上,如并行系统管理软件PSSP和通用并行文件系统GPFS等,从而使Linux 集群系统不仅能在并行运算方面的性能得到保障,增强了集群系统的可管理性,最新的技术进步使得在相同的空间内采用刀片式服务器,从而将节点密度提高一倍,大大降低成本。也正因为如此,IBM的Linux 集群解决方案越来越受到众多的用户群的关注,其中包括著名的蓝色基因(Blue Gene)以及目前在全球高性能计算集群中排名第一的“走鹃”(RoadRunner)。图1:蓝色基因系统示意图在2008年6月最新公布的全球500强超级计算机中,188套来自IBM,其中5套位于前10名,35套位于前100名,其每秒钟的运算能力总和达到了8903万亿次,是500强所有系统运算能力总和的39.4%,占绝对主导地位。其中,全球最快的计算机是 IBM的“RoadRunner”,实测浮点运算能力达到每秒1105万亿次。以下是目前全球超级计算机前十强的名单,IBM占据了5席:#Ven-dorRmax TFlopsInstallation1IBM1105DOE/NSSA/LANL (QS22/LS21)2Cray1059Oak Ridge NL - Jaguar(XT5 QC 2.3 GHz Opteron)3IBM825.5FZJ Juelich (72 racks Blue Gene/P)4SGI487.0NASA Ames(Altix QC 3.0/2.8 Xeon)5IBM478.2DOE/NSSA/LLNL (104 racks BlueGene/L)6Cray463.3NICS U Tenn - Kraken(XT5 QC 2.3 GHz Opteron)7IBM450.3Argonne Natl Lab (40 racks Blue Gene/P)8Sun433.2Texas Adv Comp Center(QC 2.3 GHz Opteron)9IBM415.7DOE/NSSA/LLNL(36 racks Blue Gene/P)10Bull274.8FZJ Juelich(QC 2.93 GHz Nehalem)来源:http:/www.toP600.org 在国内,IBM的高性能计算机系统客户遍布生命科学、环境科学、物理学、化学、数学等自然学科领域,以及高等教育、石油勘探、航空航天、汽车制造等各行各业,其中包括目前国内运算能力最强的中国国家气象局UNIX高性能计算机系统(21.7TFlops),以及目前国内排名第二的中科院网络中心百万亿次超级计算机。为了更好地提供高性能计算应用支持,IBM和许多全球领先的高性能计算应用软件提供商进行了紧密合作。在CAE领域,长期以来IBM的行业专家在CAE代码并行化和优化方面有着有丰富的经验。第 3 章 汽车行业CAE应用程序的特点及计算平台的选择汽车行业CAE分析的过程 一般说来,CAE分析主要包括前处理、计算分析和后处理这3个过程。前处理主要是建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等;计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是CAE分析中计算量最大、对硬件性能要求最高的部分;后处理则是以图形化的方式对所得的计算结果进行检查和处理图1给出了采用计算机进行产品开发的流程,包括建模、前处理(模型修改和网格生成)、计算分析、交叉学科综合及后处理几个部分。其中高性能计算主要应用于计算分析部分,统称为计算机辅助工程(CAE)。图1是CAE的分析过程。图1 计算机主要在CAE分析过程的后期解算部分发挥作用 CAE高性能运算应用程序的特点 CAE高性能运算的应用可以分为隐式有限元分析(IFEA)、显式有限元分析(EFEA)和计算流体动力学(CFD)三个子学科。采用隐式算法的软件主要有ABAQUS/Standard、ANSYS、MSC.NASTRAN等,适合求解静力、模态、屈曲等问题;采用显式算法的软件主要有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等,适合求解接触、碰撞、冲击等问题。几乎所有的制造企业的高性 能计算都依赖于独立软件开发商(ISV)提供的商业软件,只有流体动力学算题中结构网格计算类型的部分软件是用户自己开发的。因此制造行业用户在购买硬件 平台的同时通常会购买相应的科学计算软件产品。而在某种程度上,往往是应用软件的特性决定了硬件平台的选择。从对计算资源的需求来说,隐式解法的基本特点是内存占用多、磁盘IO大、进程通信量大,因此,隐式解法要求系统的内存容量大、访存带宽高、磁盘IO速度快、通信延迟低;相对而言,显式解法对内存、磁盘IO和通信延迟的要求要低一些。从软件的扩展性上来说,隐式算法和显式算法有明显的区别。采用隐式算法的软件,扩展性相对较差,计算性能在8-16 CPU以上就很难获得进一步的提升。而采用显式算法的软件,扩展性就要好得多,在64-128 CPU以内都能获得较好的并行性能。下表给出了常用的CAE软件,并列出这些软件的特点,包括并行方式和可扩展性。常用分析软件CAE应用软件分类应用软件并行方式扩展性静态隐式有限元分析(IFEA Statics)ABAQUSpthreads低高ANSYSOpenMP,MPIMSC.Nastranpthreads,MPI动态隐式有限元分析(IFEA Dynamics)ABAQUSpthreadsANSYSOpenMP,MPIMSC.Nastranpthreads,MPI显式有限元分析(EFEA)LS-DYNAOpenMP,MPIPAM-CRASHOpenMP,MPIRADIOSSOpenMP,MPI计算流体动力学(CFD)FLUENTMPISTAR-CCMPIPowerFLOWOpenMP,MPI 从上表中我们可以了解到CAE应用软件具有以下特点: (1)IFEA类应用软件(如ABAQUS、ANSYS和MSC Nastran)硬件平台支持的可扩展性不是很好。Nastran对内存,I/O性能要求高; (2)IFEA类应用软件通常使用共享内存方式(pthreads或OpenMP),进行并行处理,其中ABAQUS不支持消息传递方式(MPI)的并行; (3)EFEA类应用软件(如RADIOSS、LS-DYNA和PAM-CRASH)和计算流体动力学软件(如FLUENT、STAR-CD和PowerFlow)的硬件平台支持的扩展性相对较好。RADIOSSS/LSDYNA对CPU,I/O性能要求高; (4)EFEA类应用软件和CFD软件以采用消息传递并行方式(MPI)为主。高性能计算(HPC)服务器体系结构分类及特点 目前市场上常用的高性能计算服务器大致可以分为以下3种体系结构,即: 1并行向量处理机(PVP) PVP系统含有为数不多、功能强大的定制向量处理器(VP),以及定制的高带宽纵横交叉开关和高速数据访问。由于这类系统对程序编制的要求较高,价格很昂贵且难于管理,因此,这种类型计算机主要集中在一些大型国家关键部门,在这里不再赘述。 2对称多处理机(SMP) SMP系统采用商品化的处理器,这些处理器通过总线或交叉开关连接到共享存储器。今天市场上常见的机型有IBM p系列服务器、HPQ的SuperDome、Alpha的ES、GS系列及SGI公司的Altix系列。SMP系统通常具有以下特点: (1)系统内的CPU共享并可以直接访问所有的内存; (2)由一个操作系统管理整个系统; (3)支持共享内存方式的并行模式,如OpenMP、pthreads等; (4)支持消息传递方式的并行模式,如MPI、PVM等 (5)系统的价格相对较高; (6)为提高系统的使用效率,需要有功能强大的资源管理软件和作业调度软件配合进行系统管理。如LSF、PBS及IBM的WLM和Tivoli Workload Scheduler Loadleveler等。 3工作站集群(COW,Cluster Of Workstation,简称Cluster) Cluster结构是近年来发展势头很好的一种体系结构。这类机型的技术起点比较低,用户甚至可以自己将一些服务器或微机通过以太网连接起来,配以相应的 管理、通讯软件来搭建Cluster。但是如果要构造高性能、结构合理并具有好的RAS特性的Cluster却不是一件容易的事情。几乎所有的国内、外计 算机厂商都有自己的Cluster集群产品,如IBM的Cluster1350、联想的深腾系列及曙光的天潮系列等。Cluster系统通常具有以下特 点: (1)系统由多个独立的服务器(在Cluster概念下称为节点)通过交换机连接在一起。每个节点拥有各自的内存,某个节点的CPU不能直接访问另外一个节点的内存; (2)每个节点拥有独立的操作系统; (3)需要一系列的集群软件来完成整个系统的管理与运行,包括: Cluster系统管理软件,如IBM的CSM、xCat等; 消息传递库,如MPI、PVM等; 作业管理与调度系统,如LSF、PBS,IBM 的Tivoli Workload Scheduler Loadleveler等; 并行文件系统,如PVFS、IBM的GPFS等; (4)支持消息传递方式的并行模式,如MPI、PVM等; (5)只能在单个节点内部支持共享内存方式的并行模式,如OpenMP、pthreads等; (6)性能价格比好。 CAE硬件平台的选择 CAE在制造企业中承担着关键的业务,所以其高性能平台的选择非常重要,这个平台直接影响CAE的运行性能表现、整体成本和系统维护等方面问题。想让CAE能实现“随需应变”,在高性能计算平台的选择上就需要进行全面的考虑。 1CAE软件使用SMP系统存在的问题 理论上讲,SMP系统可以胜任CAE应用程序的运行,但是不可避免地存在一些问题。首先是SMP系统价格相对较高。而且CAE的某些应用软件的扩展性不好,如隐式有限元分析(IFEA)类软件通常只能用到最多8个CPU。这个特点决定了配置超过8CPU的大SMP服务器没有太大的必要,反而会造成投资的浪费。 此外,SMP系统由一个操作系统管理,如果没有强大的资源管理软件和作业调度软件配合,很容易造成CPU分时处理多个任务的现象,即在一个CPU上同时运 行多个进程,从而影响整个系统的使用效率,同时难于保证关键任务的按时完成。常用的作业调度软件有PBSpro、LSF和OpenPBS,其中开放源代码 的OpenPBS很难胜任复杂的CAE应用软件的管理,尤其是对共享内存方式并行模式(OpenMP,pthreads)的管理。而LSF和PBSpro 的价格比较高,同样会增加用户的投资。 2CAE软件使用Cluster系统存在的问题 目前市场上的Cluster系统通常是用PC服务器作为节点构建的,每个PC服务器内部一般配置2个CPU。这种类型的Cluster系统在承担CAE应 用软件运行任务时也存在一些问题,比如共享内存方式的并行模式只能运行在一个节点内部,也就是说,最多只能用2个CPU去处理 OpenMP/threads类型的CAE任务,很难满足应用的时效性要求。又因为单CPU的处理能力限制,需要更多的CPU来完成一个计算任务,这样就需要购买较多CPU的软件许可证,增加了用户的投资。 3SMP-Cluster混合架构:CAE应用平台的最佳选择 如上所述,不同CAE软件对计算机系统的需求差异很大,例如NASTRAN应用对内存和I/O的要求很高;而CFD类的应用对CPU速度及网络连接有较高的要求。为此,该计算机系统必须是一个平衡的系统,在CPU速度、内存容量与带宽、存储容量与带宽及网络连接等各个方面都不应该存在性能瓶颈。当设计CAE高性能计算整体解决方案时,要充分考虑用户需求,比如资金预算、问题类型、分析规模、用户数量、软件License个数等,以此来确定最终的硬件选型。根据客户以上各方面需求的综合分析,可采用以下三种方案:1)以隐式分析为主的解决方案常用的隐式有限元软件有ABAQUS/Standard、ANSYS、MSC.NASTRAN等。根据隐式有限元分析要求内存容量大、磁盘IO快、通信延迟低的特点,推荐采用基于SMP架构的IBM Power 产品,小规模的隐式分析也可采用x3850 X5或x3755。2) 以显式分析为主的解决方案 常用的显式有限元软件有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等。相比而言,显式有限元软件对系统硬件的要求略低一些,从性价比以及软件的扩展性出发,推荐采用由2路的IBM System X作为计算节点的集群系统。采用集群系统进行显式有限元分析具有以下优点:1)采用集群系统,节点硬件配置可以略低一些,节省投资。 集群节点采用XXX系列处理器,系统内存的配置推荐XGB/Core,配置硬盘。2)采用集群系统,可以为用户提供更多的CPU资源。 在同等价格的情况下,集群系统可以为用户提供更多的CPU资源。可以同时满足多个用户、多个计算任务的需求。同时集群的各个节点也可独立进行运算。3)采用集群系统,各个节点可以协同工作。 集群系统的特点在于虽然各个节点的计算性能有限,但是多个节点可以通过高性能网络进行协同工作,共同完成大规模问题的求解。目前主流的计算软件也都支持集群并行计算。4)采用集群系统,进行扩展非常方便。 当需求增加时,通过增加节点数量,可以立即提升系统的整体运算能力,用户以前的投资不会浪费。 在集群系统中,网络的性能直接影响整个系统的实际运算能力。目前市场上主要有三种高性能计算网络:千兆以太网、万兆以太网和Infiniband。应该根据用户的预算和系统规模进行选择。5)兼顾隐式和显式分析的解决方案:SMP-Cluster混合架构针对SMP系统和Cluster系统在处理CAE应用时存在的问题,我们可以考虑一种综合这两类体系结构优势的高性能计算机系统SMP Cluster。如图2所示。图2 SMP Cluster和OpenSMP、Cluster的比较 IBM Cluster 1350 Linux集群系统(IBM刀片中心):IBM将目前最紧凑的刀片式服务器加入到Cluster1350集群产品中,使集群系统的集成度提高了一倍,即在一个7U高的刀片抽屉中可以放置14个刀片服务器。该产品不仅集成了IBM在x系列服务器、p系列服务器方面的多种技术和特点,而且是开放的技术标准,在系统的结构和散热方面都有许多的独到之处,其关键的中间板的冗余设计,大大提高了整个系统的可靠性,连接线缆的减少使集群系统的可维护大大提高。IBM刀片中心BladeCenter可以安装四种类型的刀片式服务器,一种是采用Intel Xeon芯片的HS22刀片式服务器,一种是采用AMD 芯片的LS22/LS42刀片式服务器,一种是采用IBM Power 6 芯片的JS22刀片式服务器,一种是采用IBM Power架构CELL芯片的QS20刀片式服务器。使用IBM刀片中心作为节点来构成Cluster1350系统具有以下特点:(1)采用刀片服务器作为节点,使传统Cluster系统具有更高的集成度,更加省电,稳定性更高;(2)刀片中心可以在7U高度中安装14片刀片服务器共28颗CPU的集群系统。刀片之间操作系统独立;(3)节点间连接采用IBM为HPC专门设计的高性能交换机,其单通道带宽达到10Gb/s,并且每个节点都配置了双通道作为冗余配置。这样在保证跨节点通信的优越性能的同时,提供了较高的稳定性;(4)整个系统节点间使用消息传递方式的并行任务(MPI或PVM)。(5)完善的集群管理环境,统一进行资源管理和作业调度。管理软件包括:l xCAT集群系统管理软件,可以同时管理多个集群, 包括UNIX集群和Linux集群;l Tivoli Workload Scheduler Loadleveler作业调度软件,具有强大的作业调度、记帐及断点/续算功能;l 充分优化的并行使用与开发环境IBM PE,提供高性能的、完善的并行作业运行与管理;l 高性能的并行文件系统GPFS,为整个集群提供稳定的共享文件系统。GPFS是一种高性能共享磁盘文件系统,可提供对集群中所有节点的快速数据访问。单节点最高带宽15GB/s,I/O平衡调度改善吞吐性能,已安装的美国ASCI Purple 实测达到102GB/s;(6)高性能价格比。IBM优势IBM,即国际商业机器全球服务公司,1911 年创立于美国,是全球最大的信息技术和业务解决方案公司,目前拥有全球雇员 31 万多人,业务遍及 160 多个国家和地区。在过去的九十多年里,世界经济不断发展,现代科学日新月异,IBM 始终以超前的技术、出色的管理和独树一帜的产品领导着全球信息工业的发展,保证了世界范围内几乎所有行业用户对信息处理的全方位需求。众所周知,早在 1969 年,阿波罗宇宙飞船载着三名宇航员,肩负着人类的使命,首次登上了月球;1981 年哥伦比亚号航天飞机又成功地飞上了太空。这两次历史性的太空飞行都凝聚着 IBM 无与伦比的智慧。IBM在产品技术发展路线上始终保持清晰稳定的发展方向,产品设计生产上全面保护用户的已有投资。IBM是唯一一家在高端服务器行业有能力自己设计、研发和制造的厂家。IBM设计和制造CPU的成就是非凡的。从我们目前所熟知的铜芯片、绝缘硅技术,到后继的low-K dielectric和silicon strainin等新技术已一一被发明出来。总体而言,IBM 有很强的技术实力,在高性能服务器中引进了大量的主机上的先进技术,依靠“整体”的系统解决方案保证系统的可用性和可靠性,将高性能计算推广应用到“实际生产处理”系统中。IBM 多年在世界最快500套超级计算机中(TOP600)排名第一。截止到2006年11月,其中前5套IBM占据前4套,前50套IBM占有46%,全部500套中IBM占48%。IBM不仅在硬件技术上处于领先地位,在高性能计算软件方案上也有着独到之处。对于高性能计算机复杂的管理难点IBM有同时支持Unix/Linux平台的高效管理软件(IBM xCAT)。对于影响大型高性能集群性能的I/O难点IBM有性能领先的通用并行文件系统(IBM GPFS),GPFS可以根据用户系统规模的不断扩展线性提升系统I/O带宽。对于提高系统效率的作业管理软件,IBM有积累了长期大规模高性能计算经验的IBM Tivoli Workload Scheduler Loadleveler,他可以实现资源利用率和吞吐量的最大化。对于影响高性能计算程序的编程环境IBM 有历经几十年的强大编译器(最优的SPEC OMP2001性能)和优秀的数学与科学函数库ESSL, PESSL。IBM 更有经过充分优化的并行运行环境IBM PE及调试工具。其次,IBM在系统层面保证(大型)高性能计算系统的可用和可靠性,除上述系统连接、监控和系统管理功能外,IBM的优势在于IBM全球服务部以其在高性能计算上多年的经验和积累,将根据“应用”和“客户”的具体需求对整个系统运行环境的客户化,包括IP地址规划、主机名规划、操作系统包规划、各种服务规划以及集群系统本身的安装、维护、客户化、集群作业的分发、集群资源的分配、并行软件编译环境等等。这点对于高性能计算进入实际生产应用意义深刻。在高性能计算方面,IBM有一批资深的技术专家,他们不仅了解IBM的产品和技术,而且了解行业的应用,熟悉行业的应用软件,这些专家负责与应用软件商和客户应用的密切技术合作和支持,经常地与应用软件开发商一起研究和优化应用软件,使应用软件在IBM的计算机体系结构上运行得更好。有了这些专家的支持,可以使大量的应用软件可以平滑地在IBM的平台上运行,帮助用户更好地使用IBM的技术和产品,协助用户调试和优化相应的应用软件。最后,厂家长期、稳定的产品售后服务和技术支持体系也是保证一个生产处理系统正常运行的因素。IBM中国公司在1998年就投资1500万美元成立了国内最大的技术支持中心IBM中国技术支持中心(IBM China Technical Support Center,即TSC),为国内的用户、代理商及IBM内部提供技术支持服务。正是由于 IBM 在高性能计算方面长期以来的不懈努力,使IBM在“大规模”高性能计算方面拥有大量用户(安装并已进入实际生产运行)。并且,IBM公司与业内多家应用软件提供商和服务商有大量的合作和成功案例, IBM的高性能计算解决方案能在硬件和系统的层面满足应用的需要,IBM中国公司在此提供建议书,其目的在于根据IBM在并行计算项目方面的多年经验,为用户提供一个技术上的参考意见,并通过IBM的服务支持,协助用户以最高的性价比获得稳定、可靠的运行。第 4 章 CAE高性能计算系统设计原则应用通用性原则如上所述,不同CAE软件对计算机系统的需求差异很大,例如NASTRAN应用对内存和I/O的要求很高;而CFD类的应用对CPU速度及网络连接有较高的要求。为此,该计算机系统必须是一个平衡的系统,在CPU速度、内存容量与带宽、存储容量与带宽及网络连接等各个方面都不应该存在性能瓶颈。半导体技术和计算机技术的飞速发展,使得不停地有新技术出现以提高某一方面的能力,因此综合优化利用所有在某一时刻最新最先进最成熟的技术才能建立一个全方面均衡的系统,任何一个主要部件的先进不代表整个系统的先进,任何一个主要部件的落后也会导致整个系统的落后。但毋庸置疑,一个全面实现均衡设计的先进系统必然是一个成本较高的系统,最先采用新技术通常都会带来一些额外的代价。因此设计一个有具有不同特点的多个子系统构成的高性能计算系统也是一个对CAE应用非常适合的做法。但这类系统应该具有一个较好的管理机制,能够将不同特点的作业分发到最适合的子系统上进行运算,以获得总体上均衡的效果。系统高扩展性原则CAE高性能计算系统在提升作业吞吐能力(支持多用户、多作业)的同时,还有一个重要的目标是用来支持中、小规模计算机系统无法解决的特殊业务问题。为此,该计算机系统不应该是众多低端服务器的简单堆叠。用来构建该计算机系统的计算服务器必须具有强大的处理能力,并配合以高性能的网络连接。下表列出了Power575服务器与Intel最新的发布的、采用两路Nehalem芯片(8核)的服务器的一些指标对比,从中可以看出Power575服务器出了具有强大的计算性能优势外,更是一台性能平衡的系统,在内存及I/O等各方面均有优异的性能。IBM Power 575服务器2-way Nehalem服务器性能比理论峰值速度 (GFlops)60193.766.42倍缓存容量 (MB)6401835.56倍内存带宽 (GB/s)273328.53倍I/O带宽 (GB/s)9419.24.9倍系统高可用性原则建设大规模的高性能计算机系统将面临众多的技术难题,其中系统的稳定性、安全性及易管理性是该计算机系统应具有的基本特征。最终用户不应该在系统管理和维护上投入过多的人力与物力,而是将精力集中于相应的科研工作。为此,我们推荐采用更稳定的Power服务器和可靠性很高的刀片系统作为计算节点,辅之以成熟的软件系统和关键部件的冗余化设计,从而建立高可用的高性能计算系统。处理器性能最大化原则在CAE用户所处的应用领域存在一个现象,即作业的运行时间很难通过增加所使用的处理器数量来减少。下面分别列出了ANSYS和ABAQUS在典型高性能计算机上不同个数处理器上运行标准测试所花费的时间。 加速比1 CPU2 CPU4 CPUABAQUS, 7 Standard Benchmarks11.481.95ANSYS, 12 Standard Benchmarks11.301.57ABAQUS是典型的非线性有限元分析程序,从上表可以看出,即使使用4个CPU,也无法将计算时间缩短至只使用一个CPU时的50%。而ANSYS多处理器并行的效率更差。分析以上数据我们可以得出结论,若要提高工作效率,缩短作业的运行时间或者在一定的时间内运行更多的作业或更复杂的作业,只有提高单处理器的性能才能实现。也就是说,由8个相对性能为一的处理器构造的高性能计算系统不如使用由4个相对性能为2的处理器组成的高性能计算系统的使用效果好,理想状态下对两个4 CPU的作业它们的性能是一样的,而对于一个作业来讲后者只需前者一半的时间就可完成作业。对于这类应用,高性能的Power处理器是比较理想的选择,选择性能尽可能高的Power处理器还有另一个好处,就是在得到同样的运行效率的前提下,在应用软件许可证上的花费更少。高性价比原则只遵循上面的原则会造成系统购置成本不受限制地增加,所以需要在高性价比原则给以制约。对于显式有限元分析以及流体和碰撞等应用,选择性能价格比更高的刀片式服务器,无疑是非常理想的选择。同时高性价比原则也不能仅理解成硬件系统的性价比,而应该将所需软件的费用一并纳入考虑内容;也不应只是考虑系统在采购时的性价比,而应考虑系统故障造成的时间损失和信誉损失、维修备件成本、维修人员成本、能源费用等。第 5 章 CAE高性能计算平台方案关于XX汽车CAE项目投资的几点建议 根据测试结果及我们以往在汽车行业的经验,理想的计算环境应该是SMP小机+Linux cluster的混合架构; 项目投资应有计划、分步骤地有序进行,一期可先上cluster保证碰撞和显式计算并规划好未来扩展的计划; 保证ABAQUS、NASTRAN等隐式计算可以在cluster架构下过渡性地运行,明年二期可以平滑地迁移到计划的SMP小型机上,不建议采用X86 SMP服务器 存储需要考虑并行文件系统,可以考虑一期用两个I/O节点保证I/O吞吐量并兼顾可靠性,后期可平滑扩展; 考虑到碰撞等应用对时间延迟的敏感性,建议采用InfiniBand等高速网络连接,并制订后期扩展计划 作业调度方面,一期可考虑开源软件,后期可选择LSF,PBS Pro,LoadLeveler等商业版作业调度系统。总体方案描述根据客户需求,一期采用刀片集群方案,二期扩展SMP小型机,具体方案描述如下:使用一套刀片中心,8片刀片,内置万兆交换机为各刀片之间提供10Gb/s带宽。随着用户需求的增长,该系统可同过增加刀片中心灵活的扩展。基本配置如下:1) 计算节点: 8片HS22CPU:2 颗 Xeon X5670 2.93GHz CPU (Intel Xeon六核处理器, 2.93GHz, 12M L3缓存, 总线6.4GT/s)RAM:24GB HDD:2 x 146GB 2.5” SAS热插拔的硬盘集成2个千兆以太网卡万兆的子卡三年免费维护2)用于安装计算节点的BladeCenter H Chassis 1个管理模块1个两组(4个)2900W电源模块内置千兆以太网交换机BNT万兆交换机三年免费维护3)管理节点:1台IBM x3650 M3CPU:2 颗 Xeon E5630 2.53GHz CPU(四核至强处理器2.53GHz 12MB三级缓存,最高支持1066MHz内存频率,5.86 GT/s QPI,支持超线程、TurboBoost功能)RAM:16GB HDD:2块146GB 2.5” SAS热插拔的硬盘集成2个千兆以太网卡1个双口独立千兆以太网卡三年免费维护4)I/O节点:2台IBM x3650 M3CPU:2 颗 Xeon E5630 2.53GHz CPU(四核至强处理器2.53GHz 12MB三级缓存,最高支持1066MHz内存频率,5.86 GT/s QPI,支持超线程、TurboBoost功能)RAM:16GB HDD:2块146GB 2.5” SAS热插拔的硬盘集成2个千兆以太网卡1个双口光纤通道卡万兆以太网卡远程控制卡三年免费维护5)存储设备IBM DS5300高性能磁盘阵列双控制单元12块300GB,FC磁盘6)机柜套件1个42U,19英寸标准机柜1套15英寸液晶显示套件1套NetBAY Console Switch (KVM),含键盘,鼠标4个PDU 含配套电源线7)软件部分1操作系统 : Linux2集群管理系统 :IBM xCAT本系统集群管理软件采用xCAT完成集群管理功能,本方案建议选择主管理节点作为xCAT的管理服务器,安装xCAT服务器端软件。xCAT服务器端软件通过AMM网络与刀片中心的管理模块通讯,得到刀片的状态信息,例如为部署刀片操作系统需要的网卡MAC地址。通过软件分发网络,与存储节点和登陆节点通讯,进行硬件管理。xCAT管理操作,通过软件分发网络,与计算节点,存储节点,登陆节点通讯。xCAT工作逻辑如下图所示:xCAT能够通过单点控制来管理基于Intel的Linux系统群集。这样便简化了群集的管理,使其能够很方便地扩展,有助于提高系统管理员的效率。同时,该软件还充分利用了IBM在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。xCAT包括一种能够监控软硬件事件的基础设施,在适当的时候可以触发自动恢复操作。CSM的这种较高可靠性基础设施和事件监控功能,有助于快速检查和解决问题,从而增强了群集的可用性。具体来讲,IBM的集群系统管理软件可以实现如下的功能:l 实现系统的并行安装和配置;l 管理和同步节点的配置文件;l 提供系统远程运行命令操作,允许以命令或脚本方式运行在集群中的所有节点上l 支持用户帐户统一管理;l 提供远程硬件控制,如:节点的远程开机、关机和重新启动;l 动态监视系统资源使用情况;3编译器:GNU 编译器:C/C+编译器,Fortran77/90/95/编译器4并行环境软件:IBM Tivoli Workload Scheduler Loadleveler, MPICH, Maui/OpenPBSTivoli Workload Scheduler Loadleveler是一种动态任务计划和负载平衡软件,可在集群的内部支持数以千计的各种任务;5文件系统:IBM GPFS (通用并行文件系统)GPFS是一种高性能共享磁盘文件系统,可提供对集群中所有节点的快速数据访问。单节点最高带宽15GB/s,I/O平衡调度改善吞吐性能,已安装的美国ASCI Purple 实测达到102GB/s;6系统监控管理软件:IBM Systems Director8)技术集成IBM完成硬件系统平台,操作系统,系统平台软件的安装调试以及与LS-DYNA,radioss, NASTRAN等专业软件商联合安装与调试,确保用户的应用软件的正常运转。9)日常维护使用IBM提供的高级群集管理软件xCAT,能够通过单点控制来管理基于AIX/Linux系统群集。这样便简化了群集的管理,使其能够很方便地扩展,有助于提高系统管理员的效率。同时,该软件还充分利用了IBM在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。通过现场培训用户可以简便的完成系统管理工作。二期扩展方案根据现有的架构,二期可以方便地增加刀片加入现有集群,并通过xCAT管理新增加的小型机;同时,GPFS并行文件系统在线扩展文件系统和添加I/O节点,并支持分级存储。 方案具有非常好的扩展性。第 6 章 相关产品技术介绍 IBM BladeCenter要点: n 提供业界最全面的兼容机箱、刀片服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论