高性能计算集群项目.doc_第1页
高性能计算集群项目.doc_第2页
高性能计算集群项目.doc_第3页
高性能计算集群项目.doc_第4页
高性能计算集群项目.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高性能计算集群项目需求说明书中国科学院地质与地球物理研究所2009年4月1建设目标 随着中国科学院地质与地球物理研究所相关课题研究的不断深入和扩展,现有计算集群提供的计算资源已经不能满足日益增长的科研任务需求。为保证相关研究的顺利开展,我们需要建造一套新的高性能计算集群以便提供海量计算资源。该设备的主要目标如下:(一) 大幅降低课题软件VASP的计算耗时;(二) 可支持后期扩展,如增加计算节点等;(三) 整体架构的所有层次具备高可靠性和易管理性。2功能需求本项目中所建立的Cluster集群系统是高性能计算的硬件基础。为了保证计算集群的高效、稳定地运行,需要采用物理上的刀片集群服务器,实现硬件支撑平台的高效集中管理,而管理上采用分层架构,即计算层面采用高性能的刀片集群、后台的管理层可以实现应用的快速部署和扩展。各层面功能上的需求具体如下:2.1计算需求(一)计算层应具备高可扩展性;l 可以根据具体计算应用的情况,增加或者减少参与计算的进程数;l 在进程数增加的同时,体现出良好的加速比;l 确保能够完全适应当前及今后不断变化的应用需求。(二)计算层应具备高可靠性l 针对计算集群系统软件的调优应使所有的计算节点稳定高效的并行计算;l 整体计算支撑系统应具备较高冗余度以确保稳定运行;l 对计算节点的控制机制具备冗余能力,保证对计算节点操作的延续性;2.2管理需求l 与计算硬件平台高度整合的系统管理软件平台,可对系统进行全面的监控和管理;l 具备高易用性,功能全面的集群的部署系统;确保对计算系统的快速部署;3技术要求3.1 cluster集群系统技术根据可扩展性和可靠性,以及通过性原则,此次计算平台应使用目前主流的Cluster集群技术搭建;同时通过高速网络(20Gb/s InfiniBand) 提高松散耦合系统之间的通讯能力,在并行计算环境下支持统一调度的并行系统。从而在具备高性能的同时兼顾系统的灵活伸缩性; 3.2 Infiniband高速交换技术随着课题计算规模的增加,用于Cluster并行计算系统的网络会有较大的数据交换压力,因此要求使用20Gb/s 带宽的Infiniband高速交换网技术,以有效地扩展网络带宽,增加网络数据交换能力,提高网络的可用性。Infiniband高速交换技术能够完成以下任务:缩小网络交换延时,解决千兆网络面临的拥塞问题,大幅缩短科研算例总体计算时间等。3.3 计算集群系统软件优化技术高性能集群的高效率运转,一定程度上依靠硬件平台与编译运行环境和并行运行环境,以及数学函数库的融合优化程度;为了集群的高效运行,硬件计算平台应与计算集群系统软件高度融合,并针对应用进行性能优化,确保充分发挥硬件系统平台的性能;3.4集群统一管理技术为了简化系统管理工作,提高整个硬件平台的运行效率,需要有一个管理系统来对整个服务器集群需要实现统一的管理。能够基于系统映象的计算集群备份和一致性,对计算集群软件进行快速部署;包括分布式文件管理技术,基于IP管理技术、Hosts管理技术、进程管理技术、服务管理到并行命令等集群管理技术;应具有对所有计算节点通过网络IE页面形式进行管理;实时的状态监控,故障预警技术等。以便于管理人员掌握和调整机群的运行状态,及时的对可能的故障进行处理;4系统架构整个高性能计算支撑系统分为计算系统和管理软件系统两部分,其中各部分的功能,以及对各部分所需设备的要求如下:4.1计算系统4.1.1刀片服务器随着课题计算规模的不断增大,计算支撑平台需要更高性能的集群才能满足日益增长的计算规模的需求。面临不断增加的设备,机房容量和设备管理上都面临了新的压力;因此,对集群的空间、功耗、可管理性等都提出了一些特殊要求,如下:l 占用空间较小;l 功耗尽可能地低;l 易于部署和管理,要求尽可能地实现模块化。综合上述要求,我们要求计算集群采用刀片式的集群架构,最好是采用2组各10片的刀片服务器,在符合应用需要的同时,节省机柜空间,降低机房的功耗,也能实现物理上的“即插即用”和“即购即换”,保证系统处理的高效性,而且部署所须线缆也可以大规模地减少。4.2管理/软件系统4.2.1高性能集群整体监控管理系统构建一套高性能集群系统涉及到多个层面的内容:最底层的是硬件平台,它是完成任务的最基础设施;其次是OS平台,包括节点机的操作系统以及mpi环境、编译器等;最后是应用环境平台。一套高效率的集群整体监控管理系统可使几个层面紧密耦合,协调工作;4.2.2 计算节点配套操控软件承担高性能计算任务的计算刀片,需要管理人员随时把握系统的运行状况,调节系统的运行状态,因此在管理维护方面尤为重要,管理人员需要通过WEB页面的形式管理系统的运行,提供所有组件的最新状态及图形标示的详细信息供管理人员参考,实时状态监控、故障预警,动态优化调整资源配给和节点工作策略。 4.2.3 节点机OS 根据集群计算的应用特点,以及高可靠性高稳定性原则;节点机操作系统应采用正版SUSE 10 Linux企业版操作系统;5软硬件设备需求5.1计算刀片节点需求为了满足实际需求,并使硬件支撑平台具有良好的性能和可用性,对计算刀片部分具有如下的要求:(一)低能耗随着服务器性能越来越高,应用环境越来越高密度化,服务器的电源功率也越来越重要。高功耗不仅意味着会耗费更多的电能,同时也会带来在电源布线、机房通风、空调散热等各方面的巨大压力,大大增加了运营成本。目前社会上的计算节能意识已经越来越强烈,节能型服务器产品将成为企业信息化建设的又一趋势。因此,本项目中要求刀片服务器必须具备较低的耗电能力,从而可以节省整个硬件支撑平台的用电量。(二)高可靠性刀片机箱承载着计算刀片的应用,因此必须重点实现高可用性。要求刀片机箱能够实现关键部件的冗余,采用冗余电源、冗余风扇、冗余管理模块等配置提高服务器的可用性。除了硬件本身的高可用性以外,还应该进一步提高整个系统的可用性,从而可以提供 7244的服务,保证此硬件平台的高效、稳定运行。(三)高可管理性要求刀片系统主要部件模块化;硬盘、管理模块、电源、交换模块等要部件便于拆装、维护和升级;具有方便的远程管理和监控功能,采用人性化、可视化的管理界面;具有较强的安全保护措施等,支持硬盘、电源、风扇等几类功率部件可能出现故障时的提示信号,如硬盘故障隐患提示、电源故障隐患提示等;可以通过管理系统能够全面监控到这些信息,及时提醒管理员,并支持管理员对服务器设备进行远程操作和控制。 (四)可扩充性本项目中,还要求能够给系统留有足够的扩充空间,以便于随计算规模和应用增加对系统进行扩充和升级。可扩充性的关键在于,可以根据需要随时增加有关部件,在满足系统运行要求的同时,又保护投资。可扩展性主要包括集群的扩充能力、刀片机箱设备的扩展能力(比如采用扩展模块支外插板卡等)以及应用软件的升级能力。 (五)售后服务要求选用的计算系统可以享受及时、优良的售后服务内容等,这点的重要性仅次于设备的可用性要求。5.2高速计算网需求随着计算规模的增加,网络系统可能会有较大的数据交换压力,因此需要Infiniband高速交换网提供有效的方法扩大网络带宽和增加吞吐量,加强网络数据交换能力,提高网络的灵活性和可用性。高速计算网系统应满足下面的要求:采用刀片机箱集成20Gb/s Infiniband交换模块的形式实现箱内全交换;采用刀片箱集成的Infiniband模块,对内10个20Gb/s接口,对外10个20Gb/s接口;刀片箱对内对外均实现20Gb/s全交换; 降低了管理和布线复杂度。模块化设计也使维护更加简单易行;配置一台24端口20Gb/s交换机,保证网络系统的可扩展性和冗余性;5.3集群支撑管理系统需求本次采用的集群系统为刀片式高性能计算集群,因此,需要通过集群管理系统对其进行全方位的监控与管理,从而降低集群系统管理的难度,方便用户管理员的日常维护工作,使得集群得以高效运行。集群管理系统包括视频切换控制系统、机柜系统和集群操作系统等。5.3.1 SKVM视频切换控制系统采用SKVM(Super Key Visio Mouse)系统来管理、部署、维护和监控集群系统。通过这个切换系统,可以在不同节点间任意切换,充分地仿真屏幕、键盘和鼠标,完全控制与SKVM相连的计算机,从整体上提升集群的使用性能水准,尽可能地满足信息网络系统的可管理性、好用性、高可用性。对视频切换系统有如下要求:1) 布线简单;2)具有良好的可扩展性;3)可以通过网络控制集群;4)性价比高。5.3.2 机柜系统随着网络设备的集成化程度越来越高,对安装环境、设备承重、布线规范及外观审美的要求也越来越高。因此,本项目中的机柜系统需要满足下面的要求:(一)安全、耐久;(二)方便拆卸,方便运输和内部设备安装、维护;(三)全方位完善的整体设计、能够合理布线;(四)尽可能采用模块化的配置,所有部件都具有可互换性。5.3.3 集群整体监控管理软件要求具备集群操作系统相关的软件,包括机群管理系统、集群映象管理软件、机群监控软件、集群统一终端系统等一系列的软件系统。通过这些软件系统,可以对集群系统进行整体的监控与管理,自行调整集群系统的资源分配,以保证这个硬件支撑系统的高效运行。对集群软件系统的整体要求如下:(一)功能全面,可以完成机群管理的各种任务,如快速安装部署、配置、升级、快速恢复等;(二)界面直观,有可视的性能总体图表;(三)可通过基于WEB界面形式进行管理;(四)实时告警信息查询,以便及时地了解系统状态,在系统出现问题时能够及早发现问题;(五)应具有可导出的性能报表功能,能通过机群性能报表系统了解机群系统每小时、每日、每月、每年的总体运行情况;5.3.4计算节点OS需求需要为集群中的每个节点配备一套正版操作系统:SUSE 10 企业版Linux操作系统;共计20套;6验收方案本项目的高性能计算集群建造完成后,测试性能时采用量子模拟软件VASP。在使用任意8个刀片节点启动64个进程的条件下,VASP运算256个粒子一个分子动力学步所需时间不得超过240秒。设备达不到这个要求将不予验收。7售后服务及质保 要求提供5年免费人工服务。主要部件5年质保,其余部件3年质保。附:设备列表服务器节点刀片式计算节点刀片机箱:19标准, 7U机架式,带导轨套2冗余管理模块:对外提供2个共享USB接口、1个VGA、2个PS2、1个网络管理接口;可实现KVM OVER IP 切换、共享USB和全方位管理控制监视功能1000M交换模块:对外提供4个千兆以太网接口I/O扩展模块:对外提供10个PCI-E 8x标准扩展槽4+2冗余电源模块:4000W刀片机箱专用Infiniband高速网交换模块; 计算刀片TC2600:2*AMD Opteron2384 (主频2.7GHz四核),8*2GB DDR2-533MHz 内存, 146GB 热插拔SAS硬盘;片20高速计算网络高速计算网应实现所有计算节点间20Gb/s 全速无阻塞互联;套11* 24端口20Gb/s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论