信息技术 高性能计算系统 管理监控平台技术要求_第1页
信息技术 高性能计算系统 管理监控平台技术要求_第2页
信息技术 高性能计算系统 管理监控平台技术要求_第3页
信息技术 高性能计算系统 管理监控平台技术要求_第4页
信息技术 高性能计算系统 管理监控平台技术要求_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.180

CCSL63

中华人民共和国国家标准

GB/TXXXXX—XXXX

信息技术高性能计算系统管理监控平台

技术要求

Informationtechnology—Highperformancecomputingsystem–Technical

requirementformanagementandmonitorplatform

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上

XXXX-XX-XX发布XXXX-XX-XX实施

国家市场监督管理总局

发布

国家标准化技术委员会

GB/TXXXXX—XXXX

前  言

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本标准由全国信息技术标准化技术委员会归口。

本标准主要起草单位:

本标准主要起草人:

II

GB/TXXXXX—XXXX

信息技术高性能计算系统管理监控平台技术要求

1范围

本文件规定了高性能计算系统的管理监控平台的技术要求,包括管理监控平台对高性能计算系统管

理的功能、性能要求。

本文件适用于高性能计算系统管理监控平台的设计和开发。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

SJ/T11647信息技术盘阵列接口要求

3术语、定义和缩略语

3.1术语和定义

下列术语和定义适用于本文件。

3.1.1

高性能计算机highperformancecomputer

由成百上千、上万个处理器单元、加速处理器单元、存储单元,通过高速网络互联并行工作,组成

的具有超强计算能力的超级计算机,广义上泛指解决大型复杂任务的计算工具。

3.1.2

高性能计算系统highperformancecomputingsystem

高性能计算机上加载操作系统、并行编译环境、并行文件系统、科学计算应用,构建用于处理

科学计算信息的系统。

3.1.3

高性能计算系统管理监控平台managementandmonitoringplatformforthehighperformance

computingsystem

高性能计算系统管理监控平台是对组成高性能计算系统的硬件、系统环境、应用及作业的运行状态

进行监控、报警、管理和调度的软件,是高性能计算系统的运行维护软件。

3.2缩略语

下列缩略语适用于本文件。

HPC:高性能计算(HighPerformanceComputing)

1

GB/TXXXXX—XXXX

CPU:中央处理单元(器)(CentralprocessingUnit)

IO:输入输出系统(inputoutput)

OS:操作系统(OperationSystem))

PCE:并行编译环境(ParallelCompilerEnvironment)

PFS:并行文件系统(ParallelFileSystem)

RAID:廉价(或独立)磁盘冗余阵列(RedundantArrayofInexpensive(orIndependent)Drive)

SNMP:简单网络管理协议(SimpleNetworkmanagementProtocol)

SSH:安全外壳协议(Secureshelly)

4概述

4.1高性能计算系统

由高性能计算机上加载操作系统、并行编译环境、并行文件系统、科学计算应用构成。图1为高性

能计算系统示意图。

图1.高性能计算系统示意图

4.2高性能计算系统管理监控平台功能模块

高性能计算系统管理监控平台功能模块包括资源管理、监控管理、报警管理、系统管理、作业管理、

记账系统、应用管理几个功能模块。图1为高性能计算系统管理监控平台功能模块组成示意图。

2

GB/TXXXXX—XXXX

图2.高性能计算系统管理监控平台功能模块组成示意图

5功能要求

5.1一般要求

应满足以下要求:

应具有对异构软硬件资源进行统一监控报警能力;

应具有对HPC系统上进行串行、并行、批处理作业的作业管理调度能力;

应具有对HPC系统进行系统部署、应用部署和系统管理的能力;

应具有支持动态添加监控项、支持在线功能升级;

应具有动态扩展计算、存储、网络单元的能力;

应提供标准的SNMP访问和传输接口,以利于被其他运维系统的集成。

5.2监控

5.2.1统一监控

对计算单元、存储单元、网络单元等所有部件统一呈现,以机柜为单位呈现各部件的物理位置、名

称、识别ID、状态以及呈现HPC系统的整体的计算、内存、IO能力和使用状态、拓扑结构。对机柜和机

柜内的各个设备按照当前运行状态实时地用相应颜色来表示。

5.2.2硬件监控

应具备以下功能:

a)对计算单元、存储单元、网络单元监控如下静态信息:设备名称、IP地址、操作系统类型和版

本号、CPU型号、主频、缓存大小、内存大小、内存频率、磁盘ID、类型、接口、转速、RAID

级别、空间大小、IO设备型号、设备名称、厂商、端口数量、协议类型、带宽等信息。(包括

但不限于以上静态信息,监控项可以动态添加);

b)对计算单元、存储单元、网络单元监控如下动态信息:设备状态、CPU利用率、物理内存占用

率、网络流出字节/流入字节、数据包丢包率、磁盘IOPS、读写带宽、CPU温度、散热风扇的转

速、电源供电等信息。(包括但不限于以上静态信息,监控项可以动态添加)。

5.2.3应用监控

3

GB/TXXXXX—XXXX

HPC系统上运行应用的版本等静态信息以及进程的状态、启动时间、运行时间、用户数、连接数等

状态信息。

5.2.4队列和作业监控

应具备以下队列和作业的监控功能:

a)监控各队列调度策略;

b)监控各队列资源使用状态;

c)监控各队列作业数量和运行状态(等待、运行、完成、挂起);

d)监控作业的优先级高低;

e)监控作业运行时状态和运行结果。

5.3报警

应具备以下报警功能:

a)实时告警:

1)硬件:对机柜电源、计算单元、网络单元、存储单元的运行状态的检测告警;

2)应用程序:对各种应用软件的运行状态进行检测告警,同时包括操作系统的运行状态

告警。

b)..历史告警:支持对历史告警的查询(按类别、时间、自定义方式)、统计功能,并可给出

统计分布图。

c)告警设置:

1)提供对告警的阈值的单词、批量设定功能;

2)可对告警级别进行设定和调整;

3)支持单词、批量地对告警信息进行取消和确认的操作;

4)提供告警过滤功能,即根据条件呈现告警;

5)提供告警处理建议的编辑功能,当再次发生同类告警,系统直接给出处理建议;

6)支持用户自定义告警设置。

d)告警归并:对系统关联告警进行归并处理,合成一类告警程序。

e)提供短信、邮件以及屏幕闪烁、弹出提示窗口等告警形式。

5.4调度

具备以下调度功能:

a)提供基于优先级、先进先出、作业回填的作业调度策略,以及独占资源的调度策略;

b)提供作业投放、停止、删除的操作,可删除队列中已投放的作业,无论其是排队中还是已运行;

c)智能负载功能:根据节点运行状态和作业排队情况,动态调整系统计算资源可用处理器颗数,

降低电力消耗;

d)一键式作业调度:提供复杂应用工作流,将作业的前中后处理各环节形成调度作业一键提交,

直接生成可读的图片或数据。即将作业的算例生成、作业提交、作业调度、作业运行过程监控、

作业结果处理的前中后处理形成可一键提交的作业。

5.5管理

4

GB/TXXXXX—XXXX

5.5.1系统部署

应具备如下功能:

a)操作系统自动镜像恢复的功能,包括系统批量镜像恢复功能;

b)对计算单元操作系统的远程单机、批量部署功能,包括对原有设备的恢复和新增设备的部署;

c)对计算单元系统的单机、批量更新功能。

5.5.2应用部署

应具备如下功能:

a)对计算节点应用软件单机、批量上载、安装的功能;

b)对计算节点应用程序配置文件的单机、批量更新功能;

c)对应用程序的自动重启功能。

5.5.3系统管理

应具备如下功能:

a)对计算单元单机、批量脚本的执行功能;

b)对计算节点的操作系统批量更改用户名和口令的功能;

c)能按照物理的机架拜访位置布局,提供添加、修改和删除机柜、计算单元、网络单元、存储单

元的操作。

5.5.4远程管理

应具备如下功能:

a)对于计算单元设备,应提供远程单机、批量开机、关机、重启功能;

b)提供远程文件上传下载和SSH登录的功能;

c)对存储单元和网络单元,提供远程管理功能,以对其进行配置更改和故障维护。

5.5.5应用模板

应具备如下功能:

a)提供HPC应用领域常用应用的应用模板,模板中有关于应用运行的建议参数及配置;

b)支持用户通过自定义方式定义模板。

5.5.6报表管理

具备以下数据统计功能:

a)计算节点的CPU使用率月度趋势报表;

b)计算节点内存利用率月度趋势报表;

c)磁盘空间使用量报表;

d)应支持自定义报表,对监控数据进行分类统计与报表生成。

6性能要求

管理监控平台应满足如下性能要求:

a)支持系统CPU处理器数量应达到千颗级以上,CPU核数应达万级核心以上,实现用户单一映像

的登录;

5

GB/TXXXXX—XXXX

b)系统告警级别可配置,对于关键监控指标的延迟不大于1min;

c)系统运行监控项的数据采集周期可配置,最小采集周期可达秒级;

d)告警信息、报表所需数据的存储时间至少1年,性能数据的存储时间至少三个月;

e)平均故障间隔时间大于6个月;

f)软件运行占单颗CPU资源占用率不大于2%;

g)页面的响应时间小于5s。

_________________________________

6

GB/TXXXXX—XXXX

目  次

前言.....................................................................................................................................................................II

1范围...................................................................................................................................................................1

2规范性引用文件...............................................................................................................................................1

3术语、定义和缩略语.......................................................................................................................................1

4概述...................................................................................................................................................................2

5功能要求...........................................................................................................................................................3

6性能要求...........................................................................................................................................................5

I

GB/TXXXXX—XXXX

信息技术高性能计算系统管理监控平台技术要求

1范围

本文件规定了高性能计算系统的管理监控平台的技术要求,包括管理监控平台对高性能计算系统管

理的功能、性能要求。

本文件适用于高性能计算系统管理监控平台的设计和开发。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

SJ/T11647信息技术盘阵列接口要求

3术语、定义和缩略语

3.1术语和定义

下列术语和定义适用于本文件。

3.1.1

高性能计算机highperformancecomputer

由成百上千、上万个处理器单元、加速处理器单元、存储单元,通过高速网络互联并行工作,组成

的具有超强计算能力的超级计算机,广义上泛指解决大型复杂任务的计算工具。

3.1.2

高性能计算系统highperformancecomputingsystem

高性能计算机上加载操作系统、并行编译环境、并行文件系统、科学计算应用,构建用于处理

科学计算信息的系统。

3.1.3

高性能计算系统管理监控平台managementandmonitoringplatformforthehighperformance

computingsystem

高性能计算系统管理监控平台是对组成高性能计算系统的硬件、系统环境、应用及作业的运行状态

进行监控、报警、管理和调度的软件,是高性能计算系统的运行维护软件。

3.2缩略语

下列缩略语适用于本文件。

HPC:高性能计算(HighPerformanceComputing)

1

GB/TXXXXX—XXXX

CPU:中央处理单元(器)(CentralprocessingUnit)

IO:输入输出系统(inputoutput)

OS:操作系统(OperationSystem))

PCE:并行编译环境(ParallelCompilerEnvironment)

PFS:并行文件系统(ParallelFileSystem)

RAID:廉价(或独立)磁盘冗余阵列(RedundantArrayofInexpensive(orIndependent)Drive)

SNMP:简单网络管理协议(SimpleNetworkmanagementProtocol)

SSH:安全外壳协议(Secureshelly)

4概述

4.1高性能计算系统

由高性能计算机上加载操作系统、并行编译环境、并行文件系统、科学计算应用构成。图1为高性

能计算系统示意图。

图1.高性能计算系统示意图

4.2高性能计算系统管理监控平台功能模块

高性能计算系统管理监控平台功能模块包括资源管理、监控管理、报警管理、系统管理、作业管理、

记账系统、应用管理几个功能模块。图1为高性能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论