《人工智能算力资源池技术规范》_第1页
《人工智能算力资源池技术规范》_第2页
《人工智能算力资源池技术规范》_第3页
《人工智能算力资源池技术规范》_第4页
《人工智能算力资源池技术规范》_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240

CCSL70

团体标准

T/STSIXXXX—XXXX

人工智能算力资源池技术规范

TechnicalSpecificationsforArtificialIntelligenceComputingPowerResourcePool

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

XXXX-XX-XX发布XXXX-XX-XX实施

中关村新兴科技服务业产业联盟发布

T/STSIXXXX-XXXX

人工智能算力资源池技术规范

1范围

本文件规定了人工智能算力资源池的总体架构、总体要求、功能要求、兼容性要求、组件通信要求、

部署集成要求及安全和可靠性要求。

本文件适用于人工智能算力资源池的设计、开发和运维。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该口期对应的版本适用于本文件;不注口期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T41867-2022信息技术人工智能术语

GB/T42018-2022信息技术人工智能平台计算资源规范

3术语、定义和缩略语

a1术语和定义

GB/T41867-2022、GB/T42018-2022界定的以及下列术语和定义适用于本文件。为方矍使用,以下

重复列出了GB/T42018-2022中的一些术语和定义。

3.1.1

人工智能力口速卡artificiaIinteIIigenceacceleratingcard

专为人工智能计算涉及、符合人工智能服务器硬件接口的扩展加速设备。

[来源:GB/T42018-2022,3.6]

3.1.2

物理计算资源physicaIcomputingresource

为人工智能应用提供信息处理能力(如存储、计算等)的实体设备。

示例:人工智能服务器、人工智能加速卡和人工智能加速模组等。

[来源:GB/T42018-2022,3.3]

3.1.3

虚拟计算资源virtualcomputingresource

为人工智能应用提供信息处理能力(如存储、计算等)的逻辑设备。

示例:逻辑设备是物理设备的虚拟化形态,它与物理设备间存在映射关系。

[来源:GB/T42018-2022,3.4]

3.1.4

AI算力池化Alcomputingpowerpooling

对物理计算资源进行抽象,软件化后形成一个统一的资源池,方便用户按需对计算资源进行有效调

用,无需关注实际物理计算资源的大小、数量、型号以及安插的物理位置.

1

T/STSIXXXX—XXXX

32缩略语

下列缩略语适用于本文件。

AI:人工智能(ArtificialIntelligence)

API:应用程序编程接口(ApplicationProgrammingInterface)

ASIC:专用集成电路(ApplicationSpecifieIntegratedCircuit)

CPU:中央处理器(CentralProcessingUnit)

FPGA:现场可编程逻辑门阵列(FieldProgrammableGatoArray)

GPU:图形处理单元(GraphicsProcessingUnit)

KVM:基于内核的虚拟机(Kernel-basedVirtualMachine)

4总体架构

人工智能算力资源池总体架构见图1。

人工智能业务

5~UJ

图1总体架构

其中:

-人工智能业务:基于自然语言处理、计算机视觉、机器学习等技术实现的业务应用;

——异构算力资源池:通过软件定义的方式将多种异构算力变成可动态管理的资源池:

一一运行时:一套兼容各类计算资源的API编程环境的运行环境,模拟API编程的运行时接口,

实现与上层AI框架的对接和管理;

一一调度控制服务:资源池的核心管理、调度模块,实现对节点IP地址、物理计算费源信息、

虚拟计算资源信息以及应用任务信息等的汇总管理;

一一运维管理:提供图形用户界面,实现资源池全方位管理与监控;

——AI算力池化服务:发现并管理节点上的物理计算资源,将物理计算资源池化,将计算能力提

供给集群中各个物理节点,以及各个物理节点上的虚拟机、容器;

一一异构算力:GPU、FPGA、ASIC等多种计算资源。

2

T/STSIXXXX—XXXX

6.6横向扩展功能

应支持资源池平滑扩容、缩容,支持添加和删除计算资源节点或者人工智能加速卡。

7兼容性要求

71网络兼容性:TCP/IP以太网络、RDMA网络(InfiniBand和RoCE)。

75GPU设备兼容性:NVIDIAGPL\寒武纪MLU、中科海光DCU。

73API版本兼容性:NVIDIACUDA>寒武纪Neuware、中科海光ROCm。

74操作系统兼容性:64位CentOS6/7、64位Ubuntu16/18/20。

74云平台兼容性:容器环境、kubernetes环境、KVM环境。

7.6深度学习框架:TensorFlowxPytorch>PaddlePaddle、MXNet、Xgboost、Deepsheech、NVCaffe、

TensorRT、0NNXo

8组件通信要求

81管理平面网络

在部署人工智能算力资源池时,使用基于TCP/IP网络的管理平面,来承载整个系统的管理工作。通

过管理网络,分布在各个节点的功能组件都保持和GPU资源池控制模块同步。管理平面网络逻辑结构见

图2。

图2管理平面网络

通过私有的同步协议,分布式部署的各个功能组件应满足如下要求:

-算力资源池控制模块支持多副本、高可用的部署模式;

——各个功能组件启动的次序无要求;

当某•个功能组件从错误中恢复之后,可以自动同步到正确状态。

4

T/STSIXXXX—XXXX

82数据平面网络

在应用运行的过程中,应用所在环境和计算资源物理节点之间的数据传输使用的是资源池软件的

数据面。该数据面支持多种后端数据传输载体,包括TCP/IP以太网络、RoCERDMA>InfinibandRDMA、

ShareMemo"等。数据平面网络逻辑结构见图3。

?人工智能应用人工智能应用;

jr'______________>

运行时运行时

Memory/Network

|AI*力池化圈务AIH力池化版务]

异构算力资源

异构算力资源异构宜力资源

算力节点算力节点算力节点

图3数据平面网络

数据平面网络应满足如下要求:

----高带宽、低延迟;

-同时支持多种传输协议,根据优先级自幼使用局性能的传输方式;

-支持虚拟机、容器和宿主机之间的TCP/IP网络隔离。

9部署集成要求

91部署要求

资源池的各个服务组件,应支持集中式单机部署或者分布式多机部署,部署形式包括直接部署在裸

金属服务器上,即安装操作系统后,直接以Binary形式部署,也支持以容器镜像方式部署。

9:集成要求

资源池应具备适配多种Linux操作系统和云平台的能力,同时支持基于KVM的虚拟机云平台和基于

Docker的容器云平台。应支持原生容器,提供完善的虚拟GPU资源调度插件,以实现和Kuberneles的平

滑对接。

10安全和可靠性要求

101安全要求

5

T/STSIXXXX—XXXX

10.1.1资源池架构应考虑系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论