上海超级计算中心三期作业调度系统软件项目需求书_第1页
上海超级计算中心三期作业调度系统软件项目需求书_第2页
上海超级计算中心三期作业调度系统软件项目需求书_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上海超级计算中心三期 -作业调度系统软件工程需求书一、工程概况 上海超级计算中心三期配套工程工程是引进峰值速度为 200Tflops 的高效能可信计算系统提供满足 其运营和应用的机房环境、网络平台、存储系统、商业和半商业软件、主机信息系统、综合布线、系统 平安建设、网格效劳环境和网格应用平台、主机计算前后处理系统、培训等内容,并继续承当国家 863 网格主结点建设任务。二、软件技术指标要求 所采购作业调度系统,其配置满足如下指标要求: ( 一 ) 基 本指标(1) 安装要求:可在上海超级计算中心三期 200T 主机系统全机范围内调度所有计算资源。( 2) 高可靠性: 具有大规模集群商业系统可靠

2、运营的成功案例, 在国内具有可靠运营的大规模集群 成功案例( 3) 作业运行正确性:在大规模集群的并行作业运行环境中,作业调度和运行正确性到达%以上(4)高可扩展性:单一机群具有可管理5000个以上节点、10000个以上CPU的能力;可同时支持1000 个以上作业并行运行( 5) 良好的可操作性:可支持系统管理员根据实际需求变化,在线动态调整系统配置参数,不影响 作业运行和用户使用,同时确保作业运行统计准确性( 6) 多集群管理能力: 可以同时在同一作业管理系统下管理多个物理或逻辑分割的集群系统,作业可以在不同集群间根据条件自动迁移( 7) 统一的系统级管理平台:提供系统监控、计费、作业调度等

3、功能的统一管理平台,可通过web方式管理,并可同时管理多个集群(8) Linux及windows混合机群的支持:具备统一管理单一机群中的WINDOW效劳器、LINUX效劳器以及其它UNIX效劳器等混合异构平台的能力(9) 多路多核CPU的调度和支持:支持自定义调度策略,支持应用程序在多路多核CPU上运行的情况,可自动扩展调度策略处理(10) 作业控制能力:可对作业的运行时间、CPU时间、内存大小、数据区大小、CPU数量、文件大小等进行设置和控制(11) 支持并行文件系统,并可根据并行文件系统的技术架构特点灵活部署:支持如Lustre 、 PVFS、CXFS GPFS PFS等主流并行文件系统。

4、( 12) Web Portal 开发支持:支持二次开发与用户自行开发,可根据用户需求进行二次开发(13) 基于X Windows的交互式图形支持:提供基于X Windows的交互式作业的提交和管理,且具有实际成熟客户案例( 14) 动态效劳器(即无须重启效劳):支持效劳器对调度规那么的手工、自动移出或者参加,而无须 重启效劳或配置,操作不影响实际业务运行( 15) 支持网格计算环境,如 863 国家网格环境的 Globus 网格计算平台:支持主流网格计算平台, 提供详细技术标准要求。( 16) 支持同构、 异构机群系统互相提交作业: 支持在同一的机群内具有不同的操作系统的机器统一 调度。用户

5、可根据情况,从 Linux 提交作业到 windows 机器上执行或者相反。( 17) 与主机厂商建立良好合作关系;( 18) 支持并提供与如下系统软件及商业应用软件的集成接口:仿真分析领域: ANSYS、Start CD/StartNet 、FLUENT、Abaqus、LS-DYNA、NASTRAN ISIGHT、 PATRAN、PAM-CRASHAnalysis Manager、MARCFEKO、HyperWorks、ICEM-CFD、 AI*ENVIRONMENT GEFEP-P CADEM-P等生命科学领域: SRS、 Mascot 、 QicProp 、 Macromodel 、 I

6、mpact 、 Glide 、 Pipeline Pilot等石油物探领域: Paradigm 、CGG、 Omega、 FOCUS、 ProMAX、 Grisys 、JASON、 Eclipse 、VIP。 科学计算领域: Amber、Gaussian03 、Dock、VASP、NWCHE、Mmatlab 、CPMD、EGO、DOCK、BLAST、 WIEN 2000、NAMD、ABINIT、MM5、WRF、ARPS、GRAPE、S FDS。电子设计行业: ADS、Verifier 、Creative Genius 、Explorer 、Taurus-Workbench 、Hspice 、

7、Xcite 、SPW、 NC-VHDL、 Verifault 、NC-Verilog 、NC-Sim、Analog Artist 、 Ambit Buildgates 、 Mercury & MercuryPlus 、MMAV( 二 ) 调度策略指标调度系统提供的所有调度策略均可进行一定程度的自由组合, 且都可以对某个队列进行单独控 制,包括:(1) 先来先效劳FCFS最根本、常用调度策略,可配置成单一的调度策略。2) 公平调度及份额控制 Fair share :对主机资源进行公平竞争。也可对用户资源进行一定的预 分配,保证某些资源对特定用户的需求。3) 抢占式调度 Preemptio

8、n :用户按照不同的权限可进行对主机资源的抢占式调度。尤其可采用 抢占的计算资源来满足特定需求(工程商业软件)的用户使用。4) 独占式调度 Exclusive :需支持5) 主机公平调度 Host Paration :需支持6) 资源预约调度 Resource Reservation :需支持7 )高级处理器预约 Advance Reservation :需支持(8)提供作业控制能力:对作业的运行时间、CPU时间、内存大小、数据区大小、CPU数量、文件大小等进行控制。( 三 ) 软件许可证管理指标1 ) 许可证可预约:应用程序启动前,可预约程序所需的许可证,防止互相冲突。2) 许可证抢占式调度

9、: 高优先级的作业可抢占低优先级作业正在使用的许可证。而低优先级作业将被挂起直到有许可证可用为止。3) 许可证所有权控制:用户可保存自己的许可证,确保需要时能立即获得所需要的许可证。4) 使用份额控制:每个用户可使用所分配的许可证份额。( 四 ) 统计报表分析指标 作业管理系统可查询所有计算节点和许可证的运行和使用信息,并将所有运行数据收集起来, 通过数据库管理,同时充分考虑所有数据的备份与容灾。(1) 、统计报表a) 提供系统各种资源(CPU内存、许可证等)的全面使用情况统计报表b) 对各种硬件性能( nice 值)的统计c) 具有权限管理 : 对每种报表,可规定用户权限,只有满足权限的用户

10、才能查看该报表,用户权限支持至少三级:系统管理员、主管领导、用户( 2)、分析报表A、软件许可证分析在商业软件 license 昂贵的前提下,确保调度系统具有软件许可证分析能力,确保使用合理 化、最优化,解决许可证的无效占用,获得最大的投资回报。在提供各种分析报表的同时,系统支 持分析报表定制。a) 许可证使用分析,包括峰值、平均值、利用率等情况:可按具体Feature 统计的许可证统计使用情况,包括平均使用、峰值使用、平均利用率、峰值利用率和有效数目b) 许可证利用率峰值分析 : 可根据许可证利用率峰值排行榜分析。c) 许可证拒绝分析:可根据许可证、效劳器、用户统计的许可证拒绝统计分析d)

11、按具体 Feature 统计的许可证使用情况e) 按具体 Feature 统计的各用户、部门使用情况f) 按用户统计的许可证使用情况B、机群工作负载分析a) 基于机群的工作负载分析b) 基于工程的工作负载分析c) 基于用户的工作负载分析d) 基于主机的工作负载分析e) 基于队列的工作负载分析f) 基于资源使用的负载分析g) 用户和工程的作业统计分析( 五 ) 计费系统指标 作业调度系统具有以各种指标进行计费,尤其是提供针对软件许可证进行统计计费的功能,同时具有灵活方便的管理账单工具或者平台,可以WEB界面方式进行费率设定、费用查询、账单生成。可根据不同需求设定不同费率;根据的许可证的不同价格设

12、定相应费率,表达出不同的计算资源以 及软件的不同进行收费。所有计费数据形成可定制报表,并以电子或纸质方式输出。a) 以用户使用计算资源进行计费b) 以CPU时间进行计费c) 以运行时间进行计费d) 以CPU数目进行计费e) 以作业队列进行计费f) 以存储资源进行计费g) 以商业软件许可证资源进行计费( 六) web 管理平台指标基于WEB技术所提供的易用性,为系统管理员及用户提供可视化的、统一的web管理平台以及访问接口,同时根据要求进行不同的用户授权。(1) 、系统管理员远程管理和控制为系统管理员提供主机系统的web远程管理和控制:a) 系统监控:包括整个机群运行状况实时监视以及单个计算节点

13、的实时监视。b) 用户管理:可对用户信息,权限等以及所使用的主机资源进行管理。c) 队列管理:可对队列资源进行管理d) 作业管理:用户作业的在线监视、查询,杀除、监控等e) 节点管理:支持对节点的状态等监测及配置f) 软件管理:支持对软件集成的配置、调整等g) 软件许可证的监视和管理: 通过 WEB式实时监视各商业软件许可证的使用情况,包括最大许可证数目和当时实际使用数量,以及使用用户及具体节点。h) 计算资源使用统计分析:i) 软件许可证使用统计分析j) 计费管理:以通过 Web界面进行:费率设定、费用查询、账单生成等k) 用户使用及收费查询:根据不同的主机资源进行查询(2) 、用户远程使用

14、根本功能 为用户提供高性能计算资源使用根本功能:a) 用户作业的提交和管理:实现 Web方式作业的提交和管理b) 用户作业查询、杀除、监控等:提供用户在作业运行中的在线操作c) X Windows 交互作业的提交、管理:支持基于 X Windows 的交互式作业的提交和管理, 且具有实际成熟客户采用。dX Windows 的交互式作业许可证调度和管理:包括份额控制、公平调度、许可证所有权调度、优先级控制、强占式调度等e用户数据管理f用户作业统计与查询:用户可以通过 Web界面进行统计与查询 七 二次开发在主机系统整体安装前后, 根据上海超级计算中心实际需求对调度系统的局部模块进行二次开 发,并

15、在实际运行中,根据业务需求,配合上海超级计算中心进行开发。1、根本模块的开发与定制1 在主机采用作业调度软件后可根据实际的需求变化对整个 系统的定制调整以及根据平安可定制开发,完善和提高系统架构的 健壮性。2 对提供的管理平台可根据实际需求进行改造、开发定制。3 根据多核、多 CPU网络通信等硬件结构的特点,对根本 功能的优化开发。2、调度策略的开发定制1自定义调度策略的开发和定制:允许根据用户需求进行定 制开发调度策略。同时随着实际业务的运行的需求不断改变提供不同的定制与开发。2 多路多核 CPU的调度和支持:可以根据硬件多核、多CPU 网络通信等以及应用软件的情况开发专用的、有针对性的调度

16、策略。3、软件集成优化与许可证管理1定期对主要商业应用软件版本升级提供集成、策略制定和优 化开发:可根据商业软件版本的升级,及时对新版本进行集成、优化等工作。2根据不同软件的特点提供许可证管理监控、调度、统计、计 费等,根据需求定制开发。4、统计报表与计费1统计报表的定制:提供方便的扩展机制,从而可以根据用户 需要定制相应的统计报表。2 计费系统开发:包括基于许可证、CPU存储份额等进行开 发,并根据用户实际业务需求开发基于某些计算资源的计费系统。5、web 管理平台指标基于 WEE技术所提供的易用性,为系统管理员及用户提供可视化的、统一的web管理平台以及访问接口,同时根据要求进行不同的用户

17、授权。1可根据实际业务特点管理定制web平台,方便使用。包括系统管理、用户管理、系统监控、队列管理、软件管理、许可证的监视和管理等。2根据用户应用以及业务流程,定制不同行业软件的提交方式。允许根据用户实际需求定制 web统计报表。 八 技术支持指标1提供免费技术支持效劳:此期间保证技术支持效劳质量,配备专门的技术支持团队, 保证技术支持力度和响应速度,具有快速解决问题的能力。2提供调度系统运行主、备效劳器、 license 管理效劳器、报表分析计费主、备效劳器 各一台,并提供相关维保37x24 的 或者邮件技术支持4现场响应:有紧急救援现场支持效劳,对于紧急情况可以在2 小时内到达现场处置。5 驻场效劳:在系统部署、试运行阶段,对产品调试、模块开发提供至少1个月的专业 工程师驻场效劳。6专职维护工程师: 为本工程设立专职维护工程师, 专门负责超算中心的技术支持和维 护事项,以便更好了解中心实际业务需求,有利于快速分析、解决问题。 7 由专职工程师提供每半年一次定期全系统检查及效劳 8 免费技术效劳过期后,每年后续效劳总费用不超过系统总价的10%;9 提供 5 年质保期。 九 公司能力A 、投标商要求1 本地技术支持团队: 在国内具有 1020 人以上本地技术支持团队, 包括一线技术支持、 二线技术支

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论