CPU集群GPU集群建议方案报告

上传人：b*** IP属地：安徽上传时间：2023-03-30 格式：DOC 页数：63 大小：1.69MB 积分：40 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

./.专业资料分享.XXXX油田公司勘探开发研究院xxxxx等采购项目建议方案XXXXXXX发展有限责任公司2012年4月目录TOC\o"1-4"\h\z\u第一章概述31.1项目简介31.2用户现状31.3用户需求分析3计算能力需求分析31.3.2技术先进性和稳定性需求分析4高速稳定的网络需求分析5存储系统的需求分析5节能降耗、空间利用的需求分析5管理简单、维护方便方面的需求6新旧系统整合的需求分析61.4设计思路61.5设计原则61.6设计目标7第二章技术方案设计82.1总体架构设计82.1.1总体架构说明82.1.2InfiniBand网络设计及选型102.1.3新旧集群系统融合122.2CPU计算集群方案设计132.2.1CPU集群硬件系统说明142.2.2CPU集群软件系统说明162.3GPU/CPU协同计算集群方案设计192.3.1GPU/CPU集群硬件系统说明202.3.2GPU/CPU协同集群软件系统说明212.4配套存储系统方案设计222.5方案的优势232.5.1IBM并行文件系统的优势232.5.2IBMBladeCenter绿色节能方案的优势262.5.3IBMBladeCenter方案的优势292.5.4IBM智能系统管理的优势312.5.5IBMSystemDirector系统管理方案的优势312.5.6IBMiDataPlexGPU/CPU协同集群解决方案的优势352.6典型成功案例382.6.1IBM集群成功案例382.6.2XXXX科技相关项目成功案例392.7设备清单40第三章主要软硬件产品简介443.1服务器设备简介443.1.1BladeCenter-H443.1.2IBMSystemXx3650M3493.1.2IBMSystemXiDataPlex513.2网络设备简介543.3.1IBMMellanox4036和4036E543.3存储设备简介563.3.1IBMDS5020563.4软件系统简介623.4.1IBM并行文件系统GPFS623.4.2IBMxCAT集群系统管理软件653.4.3IBM智能系统管理软件67概述1.1项目简介随着油田勘探开发工作的逐渐深入,油藏地质条件日趋复杂,采集的油藏地震资料的数量成倍增加,数据分析计算要求不断增加,要求承担地震勘探资料处理的计算机系统必须升级换代,采用新计算机网络技术和新的物探资料处理新方法,加快资料处理速度,满足XXXX油田勘探开发工作的需要,为实现"近期500万吨,远期1000万吨"的石油勘探开发目标鉴定扎实的物质基础。201X年1X月1X日,油田勘探与生产分公司召开了地震处理解释软硬件建设会议,会议决定开展叠前深度偏移、逆时偏移处理等工作的攻关,加快物探技术的引用,推广先进成熟的物探技术,推动国产Geoeast在油田的应用力度。根据会议总体要求和部署,XXXX油田资料处理硬件系统拟进行更新。1.2用户现状XXXX油田勘探开发研究院〔简称：研究院目前用于资料处理的服务器集群有三套,分别是IBMPC-Cluster、曙光4000L集群、SGIOrigin2000硬件并行集群,由于三套集群系统使用年限都很长,故障频繁,导致处理工作效率低下,影响勘探开发工作效率,加之随着地震勘探和资料采集、处理技术的不断发展,导致采集的数据量巨增,相应数据处理时间也大大加长,现有的情况对研究院的处理系统性能有了更高的要求,现有的设备已经不能满足研究院日常工作的需要,因此,急需购进用于地震资料处理的服务器及配套设备,建设采用最新技术、最适宜XXXX油田现状的新地震资料集群处理系统。1.3用户需求分析1.3.1计算能力需求分析石油数据处理计算机系统实际上是一个解决算法复杂的高性能计算环境,这种计算环境不仅涉及专用软件性能、而且要涉及计算机系统的综合运算性能。尤其是新的勘探技术不断的应用和开发,一些非常规处理的技术必须使用计算性能极高的计算机系统来实现。当前,油气勘探目标越来越复杂,人们对新的勘探技术如叠前深度域的波动方程偏移,特别是逆时偏移〔RTM>等技术的实际应用给于了热切的期盼,但由于运算量极大,常用的Pc-cluster机群不能满足要求。未来一段时间内地震勘探技术发展：万道以上地震仪得到广泛应用,高密度单点地震技术,高精度或高分辨率地震勘探技术将成为未来一段时间的主流。由于高精度、大规模地震资料处理技术的应用对高性能计算能力的进一步要求,尤其是逆时偏移、万道资料采集及处理、宽方位角资料采集及处理、三维三分量勘探资料采集及处理、4D地震勘探资料处理等技术的应用,将高性能计算推到了一个新的层次,对计算能力要求的提高,需要参与并行计算的核数要求越来越多,通用计算GPU的出现使这些技术的应用成为可能。需要用GPU/CPU协同并行集群<简称:GPU集群>计算技术为海量地震数据处理提供有效途径。目前研究院机房现有三套集群系统,承担着主要的地震资料处理任务,但远远不能满足现状的要求,随着叠前处理的常规化,现有设备已经不能满足生产,因此需要对现有设备进行升级扩展,考虑到地震叠前偏移处理对计算量和I/O需求都比较高的特点,用户需采用性能更高的多核高性能集群做偏移处理。因此研究院需要增加二套集群系统,一套用于仅支持CPU并行计算不支持GPUCUDA〔统一计算架构并行计算的地震勘探处理软件,进行大量的基础常规地质勘探开发处理工作,如：叠前时间偏移,以保护用户原有投资,另一套应用于现有支持GPU/CPU协同并行处理的地震勘探处理软件,以开展叠前深度偏移、逆时偏移的处理攻关工作。技术先进性和稳定性需求分析地震数据处理计算机系统是一个要求采用最新技术解决专业应用复杂的生产系统,由于其本身应用的特点要求整套计算机系统运行必须稳定、技术必须成熟。这种运行稳定性包括计算机系统与专业软件系统之间的配合、I/O系统与存储系统之间的稳定性、计算机系统本身的技术成熟性、先进性等诸多内容。石油行业常用处理软件都是采用MPI、MPICH或PVM作为并行工具,一个节点的故障都会导致整个计算作业的崩溃,给处理员带来不必要的麻烦。集群系统在XXXX油田已经大量使用,积累了大量的处理作业的经验,保证用户集群系统应用级的优化和系统的稳定运行,对于研究院处理作业非常重要。1.3.3高速稳定的网络需求分析地震处理计算机系统是一套复杂的分布式系统,网络性能是系统性能的关键,地震处理过程中会产生大量的数据交换,一套好的网络解决方案必须包含以下两个条件：1．提供线速解决方案,每个计算节点都能够无阻塞的数据交换,这样可以最大程度的减少偏移过程中的数据分发时间,提高常规处理CPU/GPU资源的利用率,采用高速40Gb/s的Infiniband网络。2．对集群系统中对关键节点做针对性网络优化,现在主流的应用软件仍然采用NFS文件系统,所有计算节点都要通过NFS服务器获取数据,因此需要对I/O节点的网络做相应的优化,另外根据MPICH和PVM的一些特点,也可以对数据分发节点进行相应的网络优化。1.3.4存储系统的需求分析当集群架构的高性能服务器的计算能力越来越强时,我们注意到集群系统需要存储的数据也是越来越多,这些数据多为计算过程中的中间数据,这就意味着存储系统必须提供稳定、高速的传输带宽,以保证高速计算的需要。除了中间数据以外,存储系统还需要存储大量的计算结果,这就要求存储系统提供可靠的存储环境。数据的输入/输出一直是影响数据处理的周期的重要因素,使用再快的CPU也要有高性能的输入/输出系统不断的将数据传送给CPU/GPU进行运算。因此必须使用大容量、高性能的磁盘存储系统来提升整套处理系统的性能。基于以上分析,用户需采用SAN架构存储系统,同时使用并行文件系统。1.3.5节能降耗、空间利用的需求分析随着应用处理作业需求的不断增长,为了满足处理作业的需求,相应的设备也会增多,这将不断占据并消耗用户机房的空间,最终会耗尽用户的空间资源,用户将被迫追加投资,以增加空间面积,因此需利用刀片〔blade服务器或片式〔plex服务器以减少空间占据。大量的服务器增加,线缆增多,即会导致服务器维护困难也会导致整个硬件系统的功耗成倍增长,通过系统化设计采用集中式42U机柜、刀片〔blade服务器或片式〔plex服务器专用机柜,可以有效的实现智能化管理,降低设备功耗。管理简单、维护方便方面的需求PCCLUSTER计算机集群系统是一个由多个节点组成、采用多种并行计算技术构成的复杂的计算机系统,这种集群计算机系统要想实现稳定、高性能的处理地震作业,不仅要解决各节点之间的通讯和延迟,而且还必不可少地有高效、界面丰富、维护容易的管理和诊断软件。各个厂家生产的PCCLUSTER系统对系统管理与监控是不一致的。简单利用一些PC机进行互连,没有精确的连接工艺是很难保证系统稳定运行的。1.3.7新旧系统整合的需求分析如何与目前现有的计算机处理系统进行整合也是构建集群计算机处理系统的重要需求。这种整合需求包括应用软件的整合、存储资源的整合、I/O设备的整合等等。用户现有三套集群IBMPC-Cluster、曙光4000L、SGIOrigin2000硬件并行集群,整合难度大,可考虑将计算后的结果数据通过核心网络互相拷贝,在各自集群进行数据再加工。1.4设计思路依据中石油对石油地质勘探开发工作的要求和规范,选择世界领先的高性能计算集群技术,应用世界一流集群厂商的软硬件技术,规划建设符合XXXX石油需要、经济适用、高性能的计算集群,加速XXXX油田地质勘探处理工作的进度,为助产上产服务。1.5设计原则1先进性选择了代表世界先进水平和全球主流趋势的软硬件平台产品,使之不仅能够满足XXXX油田研究院目前业务的需要,还能适应未来技术发展的趋势和需要。系统采用4XInfiniband网络方案,提供40Gb/s带宽,延迟只有100纳秒。2灵活性根据对解决大问题<Capabilitycomputing>和同时运行多个中小型任务<Capacitycomputing>,实现叠前深度域的波动方程偏移、逆时偏移处理攻关的综合需求,优化系统资源配置比例,实现最大的应用灵活性。3可扩展性在设计上充分考虑到可扩展性需求,提供具有最高可伸缩性的系统,并保护用户现有的投资。本方案的并行文件系统具有无可比拟的扩展性,最大可达8192个节点。4稳定性整体系统确保稳定、高效、连续地运营,能够支持全天24小时的连续运行需求。5开放性系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。充分满足用户投资保护和业务扩展、系统维护等方面的需求。此外,根据用户应用的特点,在系统设计上还考虑到安全性、保密性、可视化处理等需求,力求提供一个完整实用的总体方案。1.6设计目标建设经济高效实用的XXXX油田勘探开发研究院计算集群系统,包含：CPU计算集群、GPU计算集群、配套存储系统。技术方案设计2.1总体架构设计<图1：总体架构图>2.1.1总体架构说明地震资料的处理与解释是石油勘探和开发工程的一个重要组成部分。该项任务需要建立一套技术成熟、计算机处理能力强大、处理软件先进、网络传输快速的计算机系统作为保证。应用全三维处理与连片技术和叠前偏移、逆时偏移技术,是目前解决复杂区域地震成像问题的方向,而选择高性能超级并行计算机是实现该目标的基础和保证。随着勘探新技术和新算法的迅猛发展,超万道采集技术的应用,产生巨量地震资料数据处理要求。在此次方案设计中,我们推荐使用基于Linux的两套IBM集群系统方案来满足XXXX石油地质研究院对地震资料数据大量计算的要求,一套IBMCPU计算集群,另一套IBMGPU计算集群。集群系统主要由硬件系统和软件系统组成,其中硬件系统包含：计算节点、管理节点、I/O节点〔也称存储节点或头节点、存储系统、计算网络、管理网络、硬件监控网络、控制系统、基础设施,软件系统包含：操作系统、集群管理、作业调度、编译环境、并行软件系统、数学函数库等。基于高性能并行系统技术的成熟,新一代IBM超级并行计算机在批量处理能力、算法并行能力和系统I/O能力都较前一代产品有大幅度的提高,其计算机性能和处理能力得到了国内各大油田用户的一致认同,已成为选择引进超级并行计算机系统的方案之一。针对在地震资料处理中批量处理任务较多的特点,同时考虑到地震资料处理中叠前时间偏移和叠前深度偏移所要求密集算法占用CPU/GPU资源较多〔算法诸如扩展stolt偏移、相移法偏移、叠后EXP方法偏移、3－DKirchhoff偏移、F－K隐式偏移、叠前道内插、三维旅行时计算、DMO、F－K域炮集道内插等并行处理算法模块的叠前深度/时间偏移、双程波波动方程等以及计算耗时的并行处理特殊性。本方案CPU集群系统为96节点,我们设计采用91个计算节点,4个I/O节点,1个管理节点;GPU/CPU协同集群系统为23个计算节点,2个I/O及管理节点。存储系统我们采用SAN架构设计,I/O节点通过光纤交换机与存储盘阵连接,每个I/O节点配有一块双口的HBA卡。推荐IBM公司的DS5020企业级智能存储系统作为数据存储的核心平台,该存储系统所有的部件均采用了冗余设计,整个存储系统不存在单点故障；裸容量20TB存储容量〔最大容量200TB、4个8GB/s主机接口/或8个8Gb/sFC/或4个4Gb/sFC和4个1Gb/s,4GB缓存。另外CPU集群中的一个I/O节点配置一块adaptecSAS/SCSI卡,接入相关磁带库设备,构成一个完整的备份系统。计算网络我们采用4XInfiniband网络方案,提供40Gb/s带宽,延迟只有1µs,实现线速转发。管理网络采用千兆以太网交换机将计算节点、I/O节点、管理节点汇聚在一起,然后接入研究院核心网络。计算网络可以通过InfiniBand交换机的万兆上联接口接入研究院核心网络,通过支持InfiniBand的并行文件系统与原有集群的I/O节点进行数据交换。系统作业处理规划如下：用户原有的集群系统,做预处理与常规处理〔解编、预处理、反褶积、静校正、DMO、叠加、叠后偏移,通过核心网络连接到新建设的集群网络系统,通过NFS或并行文件系统将其处理数据存储在IBMDS5020存储系统中,96节点的CPU集群系统〔LinuxPC集群系统中I/O节点通过研究院核心网络读取需要处理的数据,进行地震资料叠前深度偏移及叠前时间偏移资料处理运行,23节点GPU/CPU集群系统〔LinuxPC集群系统中I/O节点〔头节点通过研究院核心网络读取需要处理的数据,进行地震资料叠前深度偏移、逆时偏移资料处理运行。2.1.2InfiniBand网络设计及选型Infiniband〔简称IB网络是一种全新的基于通道和交换的开放互连结构标准。它能够连接多个独立的处理器平台、I/O平台以及I/O设备,在同一物理网络上支持一个或者多个计算机系统之间的I/O通信和内部处理器之间的通信。IB结构具有众多传统网络无法比拟的优点,使其成为高性能计算领域的新标准。在2009年11月份的TOP500中,使用IB网络互连技术的HPC系统占32.6%,IB网络是仅次于以太网的第二大互连网络。IB网络具有以下特点：－高带宽、低延迟。IB网络最高理论带宽可以达到120Gb/s,当前常用IB产品为QDR设备,其单端口单向带宽为40Gb/s,最小延迟小于1μs；－支持多种传输服务；－支持远端存储器直接访问〔RDMA,包括RDMA读和RDMA写；－网络分区功能,支持可编程的分区密钥和路由；－用户层I/O访问功能,使用户数据可以旁路核心,实现"零拷贝"传输；－多层次的QOS保障；－支持SRP、iSER存储协议。InfiniBand代表一种新兴的I/O技术,它很有可能在高端服务器中取代PCI总线。作为一种介质,InfiniBand定义了各种铜电缆和光导纤维线缆,它为铜缆和光缆指定的最大长度分别是17m和10000m；也可以在使用导轨的线路板上直接实现InfiniBand。在InfiniBand网络中的端点称作通道适配器。lnfiniBand使用两种通道适配器：主机通道适配器<HCA：HostChannelAdapter>和目标通道适配器<TCA：TargetChannelAdapter>。HCA在InfiniBand网络和连接到CPU和RAM的系统总线之间起桥梁作用。TCA在InfiniBand网络和通过SCSI、光纤通道或以太网连接的外部设备之间起连接作用。与PCI比较,HCA对应于PCI桥接芯片,TCA对应于光纤通道主机适配卡或以太网卡。智能磁盘子系统的功能正在变得越来越强大,而InfiniBand有助于在服务器和减少了CPU负荷的存储设备之间快速通信。因此至少在理论上,诸如文件系统的缓存和共享磁盘文件系统的锁定同步这类子功能可以直接实现在磁盘子系统中或特别的处理机上。InfiniBand发展的初衷是把服务器中的总线网络化。所以InfiniBand除了具有很强的网络性能以外还直接继承了总线的高带宽和低时延。人们熟知的在总线技术中采用的DMA<DirectMemoryAccess,直接内存访问>技术在InfiniBand中以RDMA<RemoteDirectMemoryAccess,远地直接内存访问>的形式得到了继承。RDMA通过网络把数据直接传入计算机的存储区域,将数据从本地系统快速移动到远程系统的存储器中。它消除了外部存储器复制和文本交换操作,因而能腾出总线空间和CPU周期用于改进应用系统性能。日前通用的做法是由系统先对传入的信息进行分析,然后再存储到正确的区域。当一个应用执行RDMA读或写请求时,不执行任何数据复制。在不需要任何内核内存参与的条件下,RDMA请求从运行在用户空间中的应用中发送到本地IB网卡后经过网络传送到远程IB网卡。RDMA操作使应用可以从一个远程应用的内存中读数据或向这个内存写数据。用于操作的远程虚拟内存地址包含在RDMA信息中。远程应用除了为其本地IB网卡注册相关内存缓冲区外,不需要做其他任何事情。远程节点中的CPU完全不参与输入的RDMA操作。这项技术在IB网卡中实施可靠的数据传输协议,并通过减少对带宽和处理器的开销降低了时延。这种优化了的性能是通过在网卡的硬件中支持零复制技术和内核内存旁路技术实现的。零复制技术使网卡可以直接与应用内存相互传输数据。本方案中选择MellanoxIS5100或MellanoxGridDirector4036、MellanoxGridDirector4036E,其中CPU集群采用MellanoxIS5100用作计算网络的核心交换机,GPU集群采用MellanoxGridDirector4036E用作计算网络的核心交换机,其中MellanoxIS5100是模块化、组件化的产品,不具有路由功能,无法与以太网互联互通,但通过插入板卡可以提供多达108个QSPF端口,是全线速、无阻塞、低延迟HPC用网络交换机,完全满足交换矩阵冗余、管理模块冗余的用户要求。MellanoxGridDirector4036E提供36个QSPF端口,2个万兆以太网上联端口,能够实现与万兆以太网互联。2.1.3新旧集群系统融合研究院原有三套集群系统,分别是:IBMPC-Cluster、曙光4000L集群、SGIO2k硬件并行集群,三个集群各自有自己集群管理软件、硬件监控网络,集群间的主要业务联系是：把某一个集群的处理结果通过NFS传到另一个集群的I/O节点,进行再处理工作。现有新旧集群的融合方式有以下几种：1彻底融合：由于三套集群系统架构各异,生产厂家也不同,根本无法彻底融合计算网络、硬件监控网络、集群管理网络,从经济效益比考虑,将基于Infiniband网络的新建集群系统与现有三套集群进行完全整合即不经济,实现的可能性也比较低,。2部分融合：由于用户在原有三套集群间的主要业务就是处理结果的共享,只需考虑管理网络、计算网络的融合,因此考虑将研究院新旧集群系统的计算网络进行互联,实现处理结果数据在集群间共享是经济、高效的模式。本方案设计采用部分融合方式,具体网络融合方式如下：新建集群安装并行文件系统,CPU集群系统的Infiniband交换机Mellanox4036与GPU/CPU协同集群的InfiniBand交换机4036E双链路互联,通过4036E的双端口的万兆端口上联到研究院核心网络,与原有集群核心计算网络千兆以太网互通互联,计算网络拓扑图如图2：〔图2：计算网络融合管理网络融合拓扑图如图3：文件系统融合方式层面,分析用户原有的集群,情况如下：IBMPC-Cluster集群的计算网络的I/O主机采用昆腾公司的SNFS〔StoreNextFS文件系统,曙光4000L集群的计算网络的I/O主机采用昆腾公司的SNFS文件系统,SGIO2k硬件并行集群采用自身的硬件并行系统。其中SNFS和GPFS不能共享访问,在所有集群中都安装有NFS服务,可以实现基础的文件共享,但由于NFS文件系统对文件处理效能的限制,为了充分发挥InfiniBand网络的效能,提高新建集群的计算效能,避免性能瓶颈,新建系统应考虑采用可以与InfiniBand网络充分融合的并行文件系统,提高勘探地质数据在各I/O主机内存的交换效率,充分发挥新建集群的运算效能,提高作业处理速度,缩短处理周期。可以考虑采用昆腾公司的SNFS文件系统和IBM公司的GPFS文件系统,如果考虑系统的运算效率、易维护性、扩展性方面应采用IBM公司的GPFS文件系统,能够获得更快的运算效率,在系统出现故障时候,能得到更快的服务响应速度,更早的解决问题。如果更多考虑文件共享和数据在各子集群的交换效率,可以考虑采用SNFS。由于处理作业的效率对用户而言更为重要,本方案推荐IBM公司的GPFS文件系统。2.2CPU计算集群方案设计〔图3：CPU集群架构图如上图所示,整个CPU集群主要由硬件系统和软件系统组成,其中硬件系统包含：计算节点、I/O节点、管理节点、存储系统、计算网络、管理网络、硬件监控网络、控制系统、基础设施,软件系统包含：操作系统、集群管理、作业调度、编译环境、并行软件系统、数学函数库等。其中红色线表示SAN光纤链路,橙色线表示IMM硬件监控链路,蓝色线表示集群千兆管理链路,绿色线表示40Gb/s的InfiniBand链路。2.2.1CPU集群硬件系统说明如图3所示：整个CPU集群硬件系统由计算节点、I/O节点、管理节点、系统控制子系统、基础硬件支持子系统、IMM硬件监控子系统、集群管理网络子系统、InfiniBand高速计算网络子系统组成。1计算节点计算节点由91个HS22刀片组成,共占据7个BladeCenter-H机箱,每个HS22配置2颗IntelX56602.8GHz6核,6*4GBDDR3-1333ECC内存,2*600GB2.5"10KRPMSAS6.0Gb/s硬盘,集成2个千兆以太网口〔RJ45,内置IMM硬件监控卡,一块双口的InfinibandHCA网卡,每个BLadeCenter-H配置有一块主管理模块,一块InfiniBand交换机模块,一块千兆网络交换机模块。2I/O节点I/O节点由4台X3650M3组成,机身高度2U,每台X3650M3配置有2颗IntelX56602.8GHz6核,12*4GBDDR3-1333ECC内存,3*600GB2.5"10KRPMSAS6.0Gb/s硬盘,M1015RSASRaid卡,支持RAID0、1、5,集成4个千兆以太网口〔RJ45,内置IMM硬件监控卡,配置一块双口的4xQDRInfinibandHCA网卡,1块8Gb/s的QLE2562光纤通道卡。其中一台X3650M3单据配有adaptecahaSAS/SCSI卡,用于连接带库。3管理节点管理节点有一台X3650M3组成,每台X3650M3配置有2颗IntelX56602.8GHz6核,12*4GBDDR3-1333ECC内存,3*600GB2.5"10KRPMSAS6.0Gb/s硬盘,M1015RSASRaid卡,支持RAID0、1、5,内置IMM硬件监控卡,配置一块双口的4xQDRInfinibandHCA网卡。4系统控制子系统系统控制子系统由IBM1套KVM条件〔含16端口consoleSwitch及KVM连线,1台1U17"折叠液晶显示器套件,旅行键盘鼠标组成。5基础硬件支持子系统基础硬件支持子系统由5台IBM42U标准机柜,黑色；8个32A三相PDU〔6个C19输出插座用于刀片中心供电,12个32A三相PDU〔6个C13输出插座和4个16A单相PDU用于其它设备供电。6IMM硬件监控子系统通过刀片中心管理模块各个服务器的IMM实现对硬件的管理,使用IBM24口以太网交换机进行连接。7集群管理网络子系统通过IBM24口以太网交换机把计算节点、I/O节点、管理节点连接到同一个千兆以太网,其中一台BladeCenter-H刀片中心使用2个千兆网口,7台BladeCenter-H使用14个以太网口,4台I/O节点使用4个以太网口,一台管理节点使用1个以太网口,总计需使用19个以太网口。8InfiniBand高速计算网络子系统4xQDRInfiniband〔简称：IB网络能提供40Gb/s的网络传输能力,通过MellanoxIS5100或MellanoxGridDirector4036将计算节点、I/O节点、管理节点连接到同一个IB网络,从扩展性可考虑使用IS5100,从性价比考虑,本方案推荐MellanoxGridDirector4036。每个BladeCenter-H使用4个IB口,7台BladeCenter-H共使用28个IB口,4台I/O节点使用4个IB口,一台管理节点使用1个IB口,总计需要使用33个IB口。2.2.2CPU集群软件系统说明软件系统包含：操作系统、集群管理、作业调度、编译环境、并行软件系统、数学函数库等。本方案使用软件系统如下：操作系统：RedHatAS5.x64位；集群管理：IBMxCAT2.6,IBMDirector6.2；作业调度：OpenPBS/Maui作业调度系统〔注：大多数高性能计算勘探开发软件自带调度系统,此为开源的调度系统；编译环境：Linux系统自带〔GNU的的C/C++,Fortran编译器〔注：满足高性能计算勘探开发软件运行所需的类库,应由勘探开发软件厂商提供；并行软件系统：IBMGPFS文件系统；数学函数库：Atlas数学库、Goto数学库、Lapack数学库〔注：高性能计算勘探开发软件运行所需的收费类数学库,应由勘探开发软件厂商提供；并行文件系统GPFS介绍：1> I/O节点设计方案中我们使用IBMX3650M3服务器作为高性能计算机系统的I/O节点。每台服务器配置1块双端口8Gbps光纤通道卡,以及1个双口4XQDRInfinibandHCA卡。所有I/O节点通过SAN交换机与磁盘阵列连接,构成SAN网络环境；同时I/O节点与所有的计算刀片服务器通过Infiniband网连接在一起,构成数据传输网络〔该网络同时作为并行计算网络使用。2> 其它节点与计算节点的I/O访问实现在GPFS文件系统安装完成后,除了8台I/O节点可以直接访问磁盘之列上的数据之外,所有其它节点对GPFS并行文件系统上数据的访问都要通过I/O节点来实现。所有的I/O节点都可以用来存放文件系统的元数据,即文件系统在磁盘阵列上的位置、文件名称、文件大小等信息。其它节点与计算节点需要写文件时,将通过元数据信息直接产生对磁盘的写命令,并通过IB网络,采用RDMA技术〔RemoteDirectMemoryAccess把相应数据传送给I/O节点注册的相应内存区位,由HCA设备〔光纤通道卡QLE2562写入磁盘阵列,再由磁盘阵列完成相应的操作；如果是读操作则将读取数据通过I/O节点的转接再送回到发出命令的节点。3> 与I/O系统相关的网络设计与I/O系统相关的网络包括SAN光纤存储网络,节点间数据传输网络,及GPFS控制支撑网络等3套网络。现分别描述如下。SAN光纤存储网络通过SAN光纤交换机将4个I/O节点与光纤磁盘阵列连接起来。所有I/O节点对磁盘阵列上数据的读写操作都是通过SAN光纤存储网络直接进行。每个I/O节点中的光纤通道卡向下分别与2个SAN交换机相连。这样,4个I/O节点到SAN交换机的理论总带宽达到了32Gbps,与计算节点的总数量相比较,这样配置I/O节点使整个高性能计算机系统成为一个平衡的系统,并充分满足高性能计算应用对I/O性能的要求。节点间数据传输网络用来支持计算节点和I/O节点间的数据传输。当某个计算节点需要从磁盘阵列上读写数据时,因为计算节点没有配置光纤通道卡,所以需要与I/O节点进行通讯来获取或输出数据。节点间数据传输网络是IB网络,该网络同时作为计算网络为计算节点间的并行计算通讯提供支持GPFS控制支撑网络用来传递IBM并行文件系统GPFS的控制信息,是支撑计算节点和I/O节点间数据交换的管理网络。当多个计算节点或I/O节点同时访问某个建立在磁盘阵列上的共享GPFS文件系统时,GPFS需要通过该网络系统在多个节点间进行协调和管理。GPFS控制支撑网络传输的只是些控制信息数据,而非文件数据本身,所以该网络负载比较小。我们在本方案中选择与千兆以太网〔系统管理网来支撑该网络系统。4> 并行文件系统设计与建议的使用方式在本方案中我们使用IBM高性能并行文件系统GPFS作为支撑高性能计算机集群系统的主要文件系统。IBMGPFS文件系统是目前世界上性能最高的并行文件系统,最高带宽的世界纪录达到过134GB/s。在设计本项目的GPFS文件系统过程中,着重考虑了以下几个方面的问题,以提升文件系统的性能和可用性。GPFS集群设计创建GPFS集群是配置GPFS并行文件系统的前提,以便该集群内的服务器可以并发地访问GPFS文件系统。在本方案中我们建议将所有服务器器都统一划到一个GPFS集群中〔当然也可以根据用户具体需要,创建多个GPFS集群。从I/O服务器中,我们选定2个节点分别作为GPFS集群的主、备管理,另外再选择另外1个I/O节点共同构成一个拥有3个成员的"GPFS仲裁委员会",只要这3台服务器中半数以上〔2台以上服务器内的GPFS守护进程处于正常工作状态时,该GPFS集群内的所有并行文件系统就可用。这样的设计保障了在某些I/O节点处于非正常运行状态时,该集群内的并行文件系统仍然可以被正常使用。网络共享磁盘〔NSD在磁盘阵列上划分RAID和LUN后,将所有的LUN分别映射给所有I/O服务器节点。具体操作时,建议将I/O服务器分成2对,同时将所有的LUN分成2组,与2对I/O服务器建立一一对应的映射关系。然后,利用GPFS自带的功能,将所有的LUN转换成网络共享磁盘〔NSD。NSD提供对GPFS共享磁盘文件系统的远程管理和全局命名的功能。生成的所有NSD可以被GPFS集群的其它节点看到。在生成NSD的过程中,我们建议将每2台I/O服务器分别作为部分NSD的管理服务器,并互为备份,做到冗余配置。5> GPFS文件系统的创建及建议的使用方式在创建了GPFS集群和NSD后,就可以在该GPFS集群中创建GPFS文件系统了。生成的GPFS文件系统作为高性能的并行文件系统,可以被GPFS集群内的所有服务器节点并发访问,具有非常高的I/O性能和可用性。用户可以根据实际使用需求,创建最多256个并行文件系统。例如,在系统安装之初,可以先创建以下3个文件系统,然后根据运行过程中的实际情况,再增加并行文件系统,或者对现有文件系统进行容量的扩充或缩减,这些操作对GPFS来说是非常方便的。集群管理软件xCAT方案介绍：本系统集群管理软件采用xCAT完成集群管理功能,本方案建议选择主管理节点作为xCAT的管理服务器,安装xCAT服务器端软件。xCAT服务器端软件通过硬件管理网络与刀片中心的管理模块和各X3650M3服务器的IMM模块通讯,得到刀片和服务器的状态信息,例如为部署刀片操作系统需要的网卡MAC地址。xCAT管理操作,通过计算网络,与计算节点,I/O节点通讯。2.3GPU/CPU协同计算集群方案设计<图4:GPU/CPU协同集群>由上图GPU/CPU协同集群由硬件系统和软件系统组成,其中硬件系统包含：计算节点、I/O节点、管理节点、存储系统、计算网络、管理网络、硬件监控网络、控制系统、基础设施,软件系统包含：操作系统、集群管理、作业调度、编译环境、并行软件系统、数学函数库等。其中红色线表示SAN光纤链路,橙色线表示IMM硬件监控链路,蓝色线表示集群千兆管理链路,绿色线表示40Gb/s的InfiniBand链路。2.3.1GPU/CPU集群硬件系统说明如图3所示：整个CPU集群硬件系统由计算节点、I/O节点、管理节点、系统控制子系统、基础硬件支持子系统、IMM硬件监控子系统、集群管理网络子系统、InfiniBand高速计算网络子系统组成。1计算节点计算节点由iDataPlex设备中,21台高度为2U的DX360M3服务器组成,单个DX360M3由1U的计算服务器节点和1U的I/O服务器节点组成,如下图：每个2U节点配置：2*XeonX56602.8GHz/1333MHz/12MBCache95W六核处理器；48GBDDR3-1333ECC内存；2*600GB2.5"10K6GSAS硬盘；2*NVIDIAM2090GPU卡；1个Dualport1GbE；1个QDRIBQSFPHCA卡；集成了IMM硬件监控卡。2I/O节点I/O节点也称为主节点或头节点,由两台X3650M3组成,其中一台为头节点,另一台作为备用头节点。每台X3650M3配置有2颗IntelX56602.8GHz6核,12*4GBDDR3-1333ECC内存,3*600GB2.5"10KRPMSAS6.0Gb/s硬盘,M1015RSASRaid卡,支持RAID0、1、5,内置IMM硬件监控卡,一块双口的4xQDRInfinibandHCA网卡,一块QLE25628Gb/sHBA卡,集成4个千兆以太网口。3管理节点管理节点由一台备用头节点兼任管理节点组成X3650M3组成,每台X3650M3配置有2颗IntelX56602.8GHz6核,12*4GBDDR3-1333ECC内存,3*600GB2.5"10KRPMSAS6.0Gb/s硬盘,M1015RSASRaid卡,支持RAID0、1、5,内置IMM硬件监控卡,配置一块双口的4xQDRInfinibandHCA网卡,一块QLE25628Gb/sHBA卡,集成4个千兆以太网口,冗余电源风扇,内置DVD驱动器,原厂3年7*24*4服务。4系统控制子系统系统控制子系统由IBM1套KVM〔含32端口GCM32设备及KVM连线,1台1U17"折叠液晶显示器套件,旅行键盘鼠标组成。5基础硬件支持子系统基础硬件支持子系统由一台SystemxiDataPlex42U专用机柜,黑色；8个32A三相PDU〔6个C19输出插座用于刀片中心供电,12个32A三相PDU〔6个C13输出插座和4个16A单相PDU用于其它设备供电。6IMM硬件监控子系统通过各个服务器的IMM口实现对硬件的监控和管理,使用IBM24口以太网交换机进行连接,形成硬件监控网络。7集群管理网络子系统通过IBM24口以太网交换机把计算节点、I/O节点、管理节点连接到同一个千兆以太网,其中21个计算节点使用21个以太网口,2台I/O节点使用2个以太网口,总计需使用23个以太网口。8InfiniBand高速计算网络子系统4xQDRInfiniband〔简称：IB网络能提供40Gb/s的网络传输能力,通过MellanoxGridDirector4036E将计算节点、I/O节点、管理节点连接到同一个IB网络,本方案推荐MellanoxGridDirector4036E。通过4036E中的2个万兆以太网上联接口,将新旧集群的计算网络联通,实现处理数据的共享。每个DX360M3使用1个IB口,计算节点共使用21个IB口,2台I/O节点使用2个IB口,总计需要使用23个IB口。2.3.2GPU/CPU协同集群软件系统说明软件系统包含：操作系统、集群管理、作业调度、编译环境、并行软件系统、数学函数库等。本方案使用软件系统如下：操作系统：RedHatAS5.x64位集群管理：IBMxCAT2.6,IBMDirector6.2作业调度：Torque+Maui作业调度系统〔注：大多数高性能计算勘探开发软件自带调度系统,此为开源的调度系统编译环境：Linux系统自带〔GNU的的C/C++,Fortran编译器〔注：满足高性能计算勘探开发软件运行所需的类库,应由勘探开发软件厂商提供并行软件系统：IBMGPFS文件系统数学函数库：NvidiaCUDA函数库、Atlas数学库、Goto数学库、Lapack数学库〔注：高性能计算勘探开发软件运行所需的收费类数学库,应由勘探开发软件厂商提供2.4配套存储系统方案设计本方案,CPU集群和GPU/CPU协同集群共享1套光纤存储,示意图如下：光纤交换机采用冗余链路,使用2台IBMB24光纤交换机,每台光纤通道交换机16口激活。磁盘阵列使用一台DS5020磁盘阵列,配置如下：控制器：双控制器磁盘阵列；占据机柜空间：3U；架构：光纤架构；缓存：4GB缓存<电池供电>；接口：4个8GB/s主机接口/或8个8Gb/sFC/或4个4Gb/sFC和4个1Gb/siSCSI；分区：2分区最大支持128分区；扩展性能：单机磁盘数量16块,最大支持6个EX520〔EX810机箱磁盘柜托架,最大支持：112块磁盘数量,内置硬盘接口：FC/FDE/SATA,支持FC300GB,450GB,600GB和SATA2T,3T,固态盘混插,专用ASIC数据处理CPU,支持动态改变RAID0级别,支持不停机在不同复制模式之间转换,XOR异或引擎减少CPU占用资源；RAID支持级别:0,1,3,5,6,10；硬盘速度：内置硬盘接口16块平均传输率6万/硬盘IOps,4根光纤线〔连服务器的线不包括；容量：2T*10块SATA硬盘,MTBF100万小时；保修：提供3年7*24免费原厂安装,人工、部件保修,中标商提供原厂工程师上门安装调试网络部署指导；软件：提供异构平台管理关键2.5方案的优势2.5.1IBM并行文件系统的优势IBMGPFS文件系统是一种专门为群集环境设计的高性能、可扩展的并行文件系统。GPFS可以在群集中的多个节点间实现对共享文件系统中文件的快速存取操作,并提供稳定的故障恢复和容错机制。1被业界超大规模高性能计算机系统所广泛使用GPFS文件系统被广泛应用于世界上超大规模的高性能计算机系统中,包括运行速度最快〔478TFlops的IBMBlueGene系统。在当前TOP500计算机排名中的232套IBM计算机系统几乎都采用了GPFS并行文件系统方案。在中国规模最大的5个高性能计算机系统中也无一例外地使用GPFS作为并行文件系统,这其中包括运行关键业务的气象部门、石油勘探和超级计算中心。这些项目成功实施和顺利运行充分证明了GPFS完全可以胜任用来构建超大规模的计算机系统。2高可扩展性GPFS具有无可比拟的扩展性,如下表所示：集群中的节点数81922441单个文件系统容量299Byte2PB集群中并行文件系统个数25632单个文件系统中文件个数2,147,483,648N/A单个文件系统能用到的逻辑卷个数〔LUN数268millionN/A每个逻辑卷容量取决于磁盘阵列系统支持的能力2TBI/O带宽取决于系统硬件配置134GB/s3高性能IBMGPFS并行文件系统软件在设计上不存在任何性能瓶颈,因此GPFS并行文件系统可以充分发挥硬件系统的性能。换句话说,GPFS并行文件系统的性能完全取决于硬件配置的好坏,而文件系统软件本身对性能的影响微乎其微。IBMGPFS并行文件系统与其它并行文件系统之间最大的区别在于GPFS不需要专用的元数据〔MetaData管理服务器,所有元数据分散在磁盘阵列中,并可以由任何I/O节点管理。这样的设计避免了并行文件系统中最可能产生性能瓶颈的因素——MetaDataServer。大规模高性能计算机系统的设计都会采用专用的I/O节点。I/O节点配置光纤通道卡连接外部磁盘阵列,而计算节点及登录节点对磁盘阵列的访问则是利用网络与I/O节点进行数据通讯。在系统规模非常大的时候,用来交换数据的网络通常会成为性能的瓶颈。IBMGPFS文件系统可以充分利用高速网络的特性,提升计算节点与I/O节点间的数据通讯性能,同时最大程度地降低因I/O处理带来的对CPU资源的消耗。在Linux集群系统中,当使用了InfiniBand作为高速网络时,GPFS并行文件系统可以充分利用InfinBand网络的RDMA〔RemoteDirectMemoryAccess特性进行数据通讯。与TCPsocket协议不同,RDMA可以实现计算节点与I/O节点间内存的直接通讯,而最小化CPU的参与。这样在提升I/O带宽性能的同时,降低计算节点CPU资源的消耗,从而保证计算节点内的资源可以更专注于数据计算。IBMGPFS的先进设计保证了GPFS是目前性能最高的并行文件系统,保持着在实际测试中得到的带宽134GB/s世界纪录。4高可用性IBMGPFS文件系统本身提供了丰富的高可用性功能,所有的GPFS相关的管理服务器都能做到冗余配置,并可以由I/O节点中的任意节点担任。具体从GPFS集群〔节点、逻辑卷〔磁盘及文件系统的管理与维护三个层面得以体现。可以将所有服务器划到一个GPFS集群〔GPFS集群是并行文件系统的专用概念,是所有要访问并行文件系统的服务器的集合中,或分成多个GPFS集群。每个GPFS集群设置主、备2个管理服务器,可以选择I/O节点中的任何服务器承担。GPFS集群管理服务器负责管理和维护集群配置信息,如增加或减少节点、改变集群中服务器的属性等。同时,在一个GPFS集群中还可以指定若干个服务器作为"仲裁委员会"的成员〔quorumnode,只要该仲裁委员会中一半以上的成员正常运行,就可以保证GPFS正常使用。在磁盘阵列划分好逻辑卷〔LUN并映射到相应服务器后,GPFS将每个LUN转换成网络共享磁盘〔NSD,同时为每个NSD指定多个〔最多8个管理服务器,可以由任何I/O节点承担。这样可以充分保证任何I/O节点宕机都不会导致逻辑卷的不可用。在文件系统层面,每个GPFS集群中可以创建最多256个文件系统,每个文件系统都对应多个管理服务器〔可以由任何I/O节点承担。当任何一个文件系统管理服务器宕机时,都会有另外一个服务器自动接替其工作,保证并行文件系统的高可用性。另外,GPFS支持分布式的元数据服务器,支持元数据自动日志功能,实现用户数据和元数据的备份和自动恢复,当一台服务器宕机时,其管理功能可以有另外的服务器接管,不存在单点故障。GPFS支持多路径磁盘访问,一条路径访问失败,GPFS可以自动尝试其它路径,并同时支持节点和磁盘两级故障切换,对上层应用透明,确保应用的继续执行。GPFS支持分布式的块级锁管理,通过令牌机制来避免并发读写冲突。GPFS还支持rollingupdate功能,可以在线升级文件系统。5丰富的功能GPFS还具有其它丰富的功能,如信息生命周期管理〔ILM、多集群间交叉mount、集群化NFS〔CNFS、磁盘限额管理、NFS和SAMBA客户端支持等。这些功能保证了GPFS配置和使用的灵活性,可以针对用户业务特点对GPFS进行设计与配置,满足用户业务对并行文件系统的复杂需求。2.5.2IBMBladeCenter绿色节能方案的优势随着企业对其IT基础设施的电力使用情况和能源成本进行审查的压力越来越大,能源效率已成为企业CIO和IT经理本年度最优先关注的问题。为了帮助企业改善IT环境、实现能源的可持续性发展,IBM将在今年推出包括服务器、散热、数据中心供电管理工具和新芯片技术等多个领域的绿色IT解决方案。IBMBladeCenter为您提供高能效的服务器和全面的电力解决方案。能够实现服务器整合的IBMBladeCenter正是为"绿色"而生：与机架服务器相比,可实现30%的节能成效与同类产品相比,可实现20%的节能成效1IBM拥有众多的绿色节能技术IBM在服务器、散热、数据中心供电管理工具和新芯片技术等领域拥有众多绿色IT解决方案。2007年推出的具体创新成果包括：热诊断<ThermalDiagnostics>工具、PowerExecutive、后门热交换器<RearDoorHeateXchanger>、矢量校准冷却技术<CalibratedVectorCooling>和能量配置软件<PowerConfigurator>等。IBM服务器能够适应动态的工作负载、冷却和配电环境,而不是让客户为了适应服务器而更改数据中心环境,进而避免增加客户负担。2IBM刀片服务器拥有"绿色"的产品架构绿色电源架构：高转换效率,低损耗IBMBladeCenter采用业内高效电源,在30%的工作负载下,转换效率即可实现最高91%的峰值效率。其它品牌产品往往要负载接近80％以上才能达到类似的转换效率,需要知道我们的服务器大部分时间都是运行在50％以下的负载。IBMBladeCenter采用4个电源,在保证1＋1冗余基础上能够做到优化电源利用率,从而减少不必要的能源浪费。更多的电源意味着更多的闲置。绿色散热架构：强冷却,弱耗电IBMBladeCenter采用了先进的向量冷却设计,确保整个系统热量分布均匀、合理,没有局部热点。IBM采用类似飞机涡轮技术的鼓风机取代传统的风扇,在风流量与压力之间取得精确的平衡,同时也达到最优化的冷却效果。机箱中的鼓风机可根据机箱及环境的温度进行相应的调整。速度越慢,所耗费的电能越少某些厂商刀片采用的多个传统的气流设计,效率低下,为了带走机箱内的热量不得不采用更多的风扇和更高的转速,意味您要花费更多的钱去冷却机箱。即便这样,有时仍然没办法彻底接近局部热点问题。3IBM刀片服务器拥有独有的"绿色"技术应用绿色的固态驱动器,普通硬盘能耗的10%：被广泛关注的SSD固态驱动器,已经成为传统硬盘的替代之选。IBM第一个把固态硬盘引入到企业级服务器。固态存储磁盘的稳定性是普通硬盘在RAID1状态下的4倍,功耗却不到2瓦,比普通硬盘减少耗电90%。绿色的内嵌虚拟化技术：独树一帜,IBMBladeCenter支持内嵌的虚拟化技术,进一步提高服务器的效率达到节能的目的,同时还比其它同类产品每单位节约399美元的购置虚拟化软件的费用。4IBM刀片服务器为"节能降耗"而主动管理——"绿色"的ActiveEnergyManager图形化监控接口设计IBM独特的ActiveEnergyManager工具,可提供企业级功耗管理与控制。IBM突破性的PowerExecutive技术,可以帮助客户在任何时间"测量"实际的用电情况和热量辐射情况,有效的计划和控制电能的使用。创新的向量校准冷却技术是管理进气、风扇布置和区域冷却的技术,能够最大化促进刀片和机架服务器内部的气流,优化冷却效率。对服务器的电力消耗提供"巡航控制"：跟踪实际的电力使用情况以及变化趋势,以直观的图形化接口显示,能耗管理变被动为主动。强大的酷蓝技术〔CoolBlue,可根据需要设置使用上限和虚拟分配电力的功能,最大程度地提高服务器在受限的供电环境下的使用率。这些功能立竿见影地实现了15%的电力成本降低,而无需您付任何额外费用。而其它厂商提供的此类管理功能很少,而且每个刀片要获得此功能需要支付399美元。5"密集"帮您搭建"高效"的IT平台高效集成的"密集"服务器IBMBladeCenter将服务器、存储、网络、I/O与应用程序紧密地集成在一起,客户可以使用通用构建模块构建强大而灵活的IT基础架构。业务增长时,只要插入新的刀片即可,非常简单。模块化设计能节约大量的电缆成本,而且在很大程度上减少了由于电缆太多而造成的混乱和路由上的麻烦。由于电缆数量的减少,能够大大提高机架后面的空气流通自由度。IBMBladeCenterE集中体现了IBM刀片产品的绿色优势。IBM给"E"赋予了企业〔Enterprise和节能〔EnergyEfficiency双重含义,因为BladeCenterE是市场上最密集,最节能的刀片服务器。它的密度2倍于机架服务器。在能耗方面,BladeCenterE与机架服务器相比则可节能35%。2.5.3IBMBladeCenter方案的优势1的市场份额及先进的设计理念IBM在刀片服务器领域是当之无愧的创新者和领导者,它已连续11个季度在市场份额中拔得头筹。IDC公司在2008年的一季度报告显示,IBM继续领先刀片市场,一季度所有刀片〔含x86与non-x86的营业额和出货量市场份额分别领先第二名19个百分点和6个百分点。即便是在竞争更为激烈的x86平台,IBM仍然在营业额和出货量方面领先对手14个百分点和5个百分点。在刀片服务器领域,自2002年IBM开创性的推出企业级刀片服务器BladeCenter以来,它便在业界独树一帜。2007年6月,IBM再一次发布了多项行业领先的BladeCenter新产品及技术,丰富了IBMBladeCenter刀片服务器家族,同时指出了刀片计算当前的适用<Right>、开放<Open>、绿色<Green>和轻松〔Easy四大发展方向：适用——BladeCenter使您能够在标准化的同时保持极致的灵活性。通过BladeCenter,您能够组合和匹配5种机箱、5种类型的刀片,和5种类型的I/O结构,在单一平台上支持您的多种IT需求。开放——通常,开放和创新并不会携手出现,但BladeCenter是卓尔不群的。通过BladeCenter,我们能够利用整个行业的创新能力。我们采用最佳的行业思想,并将其与明智的方式相结合,利用、部署和安装IT系统。它让您兼得鱼与熊掌——开放的思想和独特的增值。轻松——管理和复杂程度的提高正在推动您的成本上扬。通过BladeCenter,您可以获得整合的设计,将您的服务器、存储和数据合并到一个平台上。无论您是IT技能有限的小型企业,还是寻求简化的大型客户,BladeCenter都能够使整个系统的安装、部署和管理更为方便。绿色——IBM正在领导IT行业更加环保。低能耗的服务器和存储仅仅是解决方案的冰山一角。我们提供全局性的数据中心思想与经验,以降低能耗和占地面积。如果您能够降低您的环境影响并改善您的底线,那将是非常出色的成就。这就是IBM和BladeCenter的力量。2IBMBladeCenter产品优势更可靠〔全冗余,N+N设计,给客户更多选择余地〔5种机箱、5种刀片,5种类型I/O可帮助客户降低TCO,减少宕机时间和生意风险；IBMBladeCenterE是行业能效最高的刀片机箱,AEM可提供业界最先进能耗管理,特别适合大规模集群部署；IBMBladeCenter走在虚拟化最前沿,唯一一家提供I/O虚拟化的厂家,IBMDirector可管理虚拟机,帮助客户提高效率,降低成本；IBM拥有业界最多的刀片专利,只有IBM是行业无可争辩的刀片专家；用IBM全新刀片技术也可以帮助IBM的装机用户降低IT成本和复杂度。IBM刀片中心提供本地的光驱和KVM以便于本地管理,HP的刀片中心没有本地光驱和KVM交换机,使用不方便,特别是习惯了机架服务器管理的用户本地KVM在突发事件时可以远程访问每台刀片服务器BladeCenterAdvancedManagement模块<AMM>提供全面的远程与本地KVM,而无需部署KVM交换机和昂贵的线缆,HP只能通过专有访问装置进行本地访问〔且必须将这些装置同时插入每个刀片的前端IBM先进连接技术<ACT>,采用小巧、灵活的CAT5线缆代替庞大、笨重的KVM线缆,可以极大地简化集群系统的安装,同时减少线缆数量,提高系统可靠性。CAT5转换选件可以馈入到用于本地管理<LCM>的便宜的CAT5控制台交换机或面向大型配置或远程管理的远程控制台管理<RCM>,并和传统产品向后兼容,提供无限的可扩展性,通过级联能够支持多达2048台服务器端口连接。2.5.4IBM智能系统管理的优势IT基础设施正在日益多样化和复杂化,而复杂程度的增加导致IT基础设施的管理〔部署、调整、安装和防护成本居高不下,目前管理IT环境所增加的成本远远大于价格降低和性能提高所节约的成本。IBM的智能系统管理通过硬件、固件和一套高级系统管理工具帮您实现：1减少总体拥有成本〔TCO更加轻松地管理系统优化系统资源的使用提高系统的可用性加快新产品和解决方案的部署。2实现卓越系统管理的IBM硬件及固件Systemx服务器硬件是Systemx系统管理解决方案中的首要组件,可以提供卓越的管理功能,其中部分原因是它的系统设计和配置方法比较均衡。使您的整个Systemx服务器基础架构保持一致性。具有类似的状态和报警结构,使用户可以节约时间和金钱。使客户能够灵活地采用他们的运行环境所要求的系统管理级别,而不必受到服务器类型的限制。利用IBM远程管理适配器〔RSAII即可享用全部系统管理功能3IBM丰富的系统管理工具系统管理软件与系统硬件及固件协同工作。虽然硬件及固件可以实现管理功能,但决定您如何利用这些功能的却是软件〔通过记录、显示告警及其他管理信息并采取适当的应答行动。IBM系统管理工具使您能够将服务器及网络化客户机系统控制在一个前所未有的水平。使用IBM系统管理工具,您可以远程部署新系统、升级软件及固件、快速高效地开展许多其它管理工作。许多情况下,这些工作均可预定义,并将其设置成在系统无人值守以及网络使用量较低的非工作时间自动运行。2.5.5IBMSystemDirector系统管理方案的优势1支持集中的界面呈现现代企业对IT系统容量和性能的要求越来越高,IT基础设施日益复杂,IT管理难度和管理成本随之提高。如何有效保持关键业务系统的高可用性,减低故障率,节约运营成本,达到高效管理,是企业面临的最大的挑战之一。IBMSystemsDirector是一套平台管理软件。它能够帮助企业轻松有效的管理物理设备和虚拟IT环境,帮助客户缩短故障排除时间,提高系统可用性。并且,通过提高IT管理效率和提高系统使用率来降低成本。IBMSystemsDirector为客户提供了简单易用的方式来对不同硬件设备<包括服务器和存储等>,不同的操作系统和不同虚拟环境进行集中的管理。通过统一的Web用户界面,IBMSystemsDirector把各种IT资源之间的关系和状态等信息用可视化的方式表现出来。通过该Web界面,客户可以管理底层硬件、操作系统和平台管理器<如硬件管理控制台HMC>。由于IBMSystemsDirector是基于行业标准开发的,它既能管理IBM的平台,又能管理非IBM的平台。2发现和管理资产Director发现和资产管理器是所有发现系统和网络设备以及收集库存功能的集合。管理员可以使用系统发现功能来进行一些基本的系统和网络发现工作；也可以使用高级系统发现功能,通过易于使用的向导来进行系统的发现。通过IBMSystemsDirector的发现管理器可以实现以下功能。发现复杂环境中各种物理的、虚拟的服务器、存储设备和网络设备。通过一个集中的视图来查看已发现的系统以及系统之间的关系。通过资源浏览器方便地查看所管理的系统和资源。通过收集库存来查看一些系统数据,例如物理的、逻辑的或者虚拟的硬件、软件、操作系统、中间件、固件、BIOS以及网络的信息。可以通过管理概要文件来设置发现库存的标准。3状态监控和定义自动任务IBMSystemsDirector状态管理器可以提供被管系统的监控状况〔包括硬件、操作系统、应用程序和安全管理员可以方便地使用IBMSystemsDirector状态管理器,通过自定义的层次查看系统的健康状况。Director的自动化管理器提供了迅速、准确的应急处理机制。它能够实时地监控系统,并能在系统中发生硬件或者资源异常时〔比如风扇损坏停转、CPU温度过高、内存使用率过高等自动启动预先定制的相应操作〔比如发送SMTP邮件、启动程序、重启系统等。4自动化系统配置在IBMSystemsDirector中,用户可以通过配置管理器来将新的硬件设备集成到管理环境中,进行安装后的系统配置,或者为某些特殊要求进行一次性配置。通过一系列精心设计的、适用于各种系统的模板,IBMSystemsDirector配置管理器提供了统一的用户体验来配置服务器、存储、网络资源,而且所配置的资源甚至可以基于完全不同的技术。5统一的虚拟化管理环境用户可以通过IBMSystemsDirector对各种IBM品牌和非IBM品牌的虚拟服务器、存储器以及各种虚拟化环境进行统一的单点管理。基于插件的体系结构决定了IBMSystemsDirector拥有丰富的可扩展性,可以最大限度地简化虚拟化管理工作。用户不再需要"奔波"于不同厂商提供的系统管理软件界面之间,而只要通过统一的基于浏览器的控制台,就可以快速、灵活地完成对硬件资源的虚拟化配置以及其他系统管理工作。6简单易用的更新管理通过定制系统的一致性策略,

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CPU集群GPU集群建议方案报告

文档简介

温馨提示

最新文档

评论

CPU集群GPU集群建议方案报告

文档简介

温馨提示

最新文档

评论

相关文档