CESA2024006人工智能加速卡管理接口规范团体标准_第1页
CESA2024006人工智能加速卡管理接口规范团体标准_第2页
CESA2024006人工智能加速卡管理接口规范团体标准_第3页
CESA2024006人工智能加速卡管理接口规范团体标准_第4页
CESA2024006人工智能加速卡管理接口规范团体标准_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.020

CCSL62

团体标准

T/CESAXXXX—202X

人工智能加速卡管理接口规范

Managementinterfacespecificationforartificialintelligenceacceleratorcard

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请

证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请

号和申请日期。

202X-XX-XX发布202X-XX-XX实施

中国电子工业标准化技术协会发布

T/CESAXXXX—202X

人工智能加速卡管理接口规范

1范围

本文件规定了人工智能加速卡管理接口的技术要求,描述了对应的测试方法。

本文件适用于人工智能加速卡固件管理接口的设计、开发与测试。人工智能服务器带外管理模块的

适配设计与开发可参照使用。

2规范性引用文件

本文件没有规范性引用文件。

3术语和定义

下列术语与定义适用于本文件。

3.1

人工智能加速卡artificialintelligenceacceleratorcard

配置人工智能加速处理器,完成人工智能应用计算处理的部件。

注:人工智能加速处理器通常指图形处理器(GPU),张量处理器(TPU),神经网络处理器(NPU),数据处理单

元(DPU),现场可编辑逻辑门阵列(FPGA)等。

3.2

AI加速卡管理接口AIacceleratorcardmanagementinterface

由AI加速卡提供给带外管理模块的硬件接口(如I2C/SMBus或PCIe)和软件接口(协议命令等)的

集合。

注:AI加速卡管理接口为人工智能服务器系统或集群对AI加速卡全面监控、管理和故障预测等提供实现方式。

4缩略语

下列缩略语适用于本文件。

AER:高级错误上报(AdvancedErrorReporting)

AI:人工智能(ArtificialIntelligence)

AMM:加速卡管理消息(AcceleratorManagementMessage)

ASIC:专用集成电路(ApplicationSpecificIntegratedCircuit)

CE:可纠正错误(CorrectableError)

CPU:中央处理器(CentralProcessingUnit)

1

T/CESAXXXX—202X

FPGA:现场可编程门阵列(FieldProgrammableGateArray)

GPU:图形处理器(GraphicsProcessingUnit)

I2C:集成电路总线(Inter-IntegratedCircuit)

MCTP:管理组件传输协议(ManagementComponentTransportProtocol)

NCSI:网络控制器边带接口(NetworkControllerSidebandInterface)

PCIe:快速外围组件互连(PeripheralComponentInterconnectExpress)

RMA:退货授权(ReturnMerchandiseAuthorization)

SSD:固态硬盘驱动器(SolidStateDrive)

UCE:不可纠正错误(UncorrectableError)

5概述

图1给出了AI加速卡在服务器系统中的互连关系示意。AI加速卡通过PCIe链路与CPU相连,负

责其带内管理及业务数据的传输;同时,它也通过SMBus/I2C链路与带外管理模块相接,以实现带外管

理功能。本文件中的AI加速卡管理接口与图中展示的用于网卡带外管理的NCSI协议和用于NVMeSSD

管理的NVMe-MI协议具有相似性,均用于以带外方式进行部件管理。为了实现该管理接口,要求AI加

速卡及带外管理模块根据本文件进行相应的固件适配。

图1AI加速卡在服务器系统中的互连关系示意

6功能架构

通过AI加速卡管理接口,服务器系统能获取加速卡的固件版本、温度、电压、功耗、ECC错误信

息和升级状态等信息,实现对AI加速卡的运行状态、健康状态和升级过程等全方位的监控、管理和智

能化故障预测。

AI加速卡的管理接口分为静态信息、动态信息、诊断信息和固件升级等接口类型,每种类型的接

口包含不同的子功能接口,图2给出了AI加速卡管理接口功能架构。

2

T/CESAXXXX—202X

图2人工智能加速卡管理接口功能架构

7技术要求

7.1管理接口物理层

本文件AI加速卡的管理接口物理层采用SMBus/I2C或PCIe物理链路,管理命令在传输层封装为

MCTP消息进行收发,封装后的消息命名为AMMOverMCTP消息。图3给出了请求消息格式。

图3AMMOverMCTP请求消息格式

除MCTP头,请求消息格式中与管理接口命令相关的字段描述应符合表1要求。

表1AMMOverMCTP请求消息关键字段定义

字段名位宽(bits)描述

MessageType7AMMOverMCTP消息类型,固定为0x0C

3

T/CESAXXXX—202X

HeaderRevision8头部版本信息,标识AMMOverMCTP的消息格式,支持的管理命令等信息

VenderID16AI加速卡的厂商身份识别号

DeviceID16AI加速卡的设备身份识别号

管理接口命令类型,具体定义为:

0x00:静态信息类命令,如获取AI加速卡固件版本信息的命令

0x01:动态信息类命令,如获取AI加速卡的温度、功耗信息的命令

CommandType8

0x02:诊断信息类命令,如获取AI加速卡的错误类型信息的命令

0x03:固件升级类命令

其他值:暂时预留

CommandCode8命令码,与CommandType结合定义具体命令

TotalPackets8命令包含的总传输包数,与PacketNumber共同决定命令数据是否完整传输

当前传输的包号,从1开始编号,每进行一次传输,该值加1,当PacketNumber

PacketNumber8

值与TotalPackets值相同,则表示命令传输完成

PayloadLen16命令携带Payload的字节长度

Payload数据,用于携带命令相关的参数,根据PayloadLen的取值该字段具有

PayloadData可变

可变长度

校验字节,用于从MessageType字段至PayloadData字段数据完整性校验,校

CheckSum8

验规则采用以字节为单位进行二进制累加

相应地,响应消息格式见图4。

图4AMMOverMCTP响应消息格式

除MCTP头,响应消息格式中与管理接口命令相关的字段描述应符合表2要求。

表2AMMOverMCTP响应消息关键字段定义

字段名位宽(bits)描述

MessageType7AMMOverMCTP消息类型,固定为0x0C

HeaderRevision8头部版本信息,标识AMMOverMCTP的消息格式,支持的管理命令等信息

VenderID16AI加速卡的厂商身份识别号

DeviceID16AI加速卡的设备身份识别号

Reserved8预留位,默认值为0x00

CompletionCode8命令返回码,详细定义参见7.3.4.4

TotalPackets8命令包含的总传输包数,与PacketNumber共同决定命令数据是否完整传输

4

T/CESAXXXX—202X

当前传输的包号,从1开始编号,每进行一次传输,该值加1,当PacketNumber

PacketNumber8

值与TotalPackets值相同,则表示命令传输完成

DataLen8返回数据的长度,以字节为单位

Data可变返回数据,用于携带命令返回的有效数据,根据命令类型的不同该字段长度可变

校验字节,用于从MessageType字段至Data字段数据完整性校验,校验规则采

CheckSum8

用以字节为单位进行二进制累加

7.2管理接口命令集

7.2.1静态信息类命令集

静态信息是设备在正常运行过程中不再更新的信息,这些信息用以表示设备本身的属性或状态。获

取静态信息的命令集见表3。

表3静态信息类命令集(CommandType:0x00)

序号命令名称命令码(CommandCode)访问属性命令描述

获取硬件版本编号,如0x20表示硬件版本

1硬件版本号0x00RO

为V2.0

2厂商编号0x01RO获取厂商编号

3产品号(PN)0x02RO获取产品号,以ASCII码表示返回字符串

获取产品序列号,以ASCII码表示返回字符

4产品序列号(SN)0x03RO

获取制造时间,如0x2306表示2023年6月

5制造时间0x04RO

生产

获取固件版本编号,如0x0523表示主版本

6固件版本号0x05RO

号为5,次版本号为2,修订号为3

7板卡类型0x06RO获取板卡类型,如0x01表示GPU卡

获取设备支持的PCIe链路额定带宽,如

8PCIe链路额定带宽0x07RO

0x08表示X8

获取设备支持的PCIe链路额定速率,如

9PCIe链路额定速率0x08RO

0x03表示Gen38GT/s

10内存厂商编号0x09RO获取内存厂商编号

11内存产品号0x0ARO获取内存产品号,以ASCII码表示返回字符

12内存序列号0x0BRO获取内存序列号,以ASCII码表示返回字符

13内存容量0x0CRO获取板卡实际配置的内存容量

14预留命令0x0D-0x9FRO预留命令,暂不定义

15OEM命令0xA0-0xFFROOEM命令,由OEM厂商自定义

7.2.2动态信息类命令集

5

T/CESAXXXX—202X

动态信息是设备正常运行过程中动态更新的信息。获取动态信息的命令集见表4。

表4动态信息类命令集(CommandType:0x01)

序号命令名称命令码(CommandCode)访问属性命令描述

1温度0x00RO获取板卡、芯片、内存和光模块温度

2功耗0x01RO获取板卡和芯片功耗

3电压0x02RO获取板卡和芯片电压

4PCIe链路协商带宽0x03RO获取PCIe链路协商带宽,如0x08表示X8

获取PCIe链路协商后的速率,如0x03表示

5PCIe链路协商速率0x04RO

Gen38GT/s

6CPU利用率0x05RO获取芯片CPU利用率

7内存利用率0x06RO获取芯片内存利用率

8启动状态0x07RO获取板卡的启动状态

9预留命令0x08-0x9FRO预留命令,暂不定义

10OEM命令0xA0-0xFFROOEM命令,由OEM厂商自定义

7.2.3诊断信息类命令集

诊断信息表征设备自身的运行健康状态。获取诊断信息的命令集见表5。

表5诊断信息类命令集(CommandType:0x02)

序号命令名称命令码(CommandCode)访问属性命令描述

获取板卡的健康状态,包换Normal、Warning

1健康状态0x00RO

和Error三种状态

2RMA状态0x01RO获取板卡的RMA状态

3PCIe错误数0x02RO获取PCIe错误发生次数

4内存错误数0x03RO获取内存错误发生次数

5外设错误数0x04RO获取外设错误发生次数

6ECC错误数0x05RO获取ECC错误发生次数

7PCIeUCE状态寄存0x06RO获取PCIeAERUCE状态寄存器内容

8PCIeUCE掩码寄存0x07RO获取PCIeAERUCE掩码寄存器内容

9PCIeUCE等级寄存0x08RO获取PCIeAERUCE等级寄存器内容

10PCIeCE状态寄存0x09RO获取PCIeAERCE状态寄存器内容

11PCIeCE掩码寄存0x0ARO获取PCIeAERCE掩码寄存器内容

6

T/CESAXXXX—202X

12PCIeAER控制寄存0x0BRO获取PCIeAER功能控制寄存器内容

13PCIeAERHDRLOG0x0CRO获取PCIeAERHeader日志寄存器内容

寄存器

14PCIeAERTLPLOG0x0DRO获取PCIeAERTLPPrefix日志寄存器内容

寄存器

15预留命令0x0E-0x9FRO预留命令,暂不定义

16OEM命令0xA0-0xFFROOEM命令,由OEM厂商自定义

7.2.4固件升级类命令集

固件升级是对设备自身固件进行刷新的过程。固件升级类命令集见表6。

表6固件升级类命令集(CommandType:0x03)

序号命令名称命令码(CommandCode)访问属性命令描述

1固件保护状态读取0x00RO获取固件保护状态

2固件保护状态设置0x01W设置固件保护状态

3固件升级0x02W升级板卡固件

4系统复位0x03W设置整个板卡和主芯片复位操作

5系统开关机0x04W设置板卡开关机操作

6预留命令0x05-0x9F-预留命令,暂不定义

7OEM命令0xA0-0xFF-OEM命令,由OEM厂商自定义

7.3管理接口命令格式

7.3.1静态信息类命令格式

7.3.1.1硬件版本号

硬件版本号的命令格式见表7。

表7硬件版本号命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x00命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

响应Byte1CompletionCode-见“管理接口命令返回码”章节定义

格式Byte2DataLen0x01响应数据长度,以字节为单位,固定值,不含CheckSum

7

T/CESAXXXX—202X

字段

响应数据,Data[7:4]表示主版本号,Data[3:0]表示次

Byte3Data[7:0]-

版本号,如0x20表示硬件版本为V2.0

校验和数据,校验范围为从CompletionCode到Data

Byte4CheckSum-

所包含的数据

7.3.1.2厂商编号

厂商编号的命令格式见表8。

表8厂商编号命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x01命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含CheckSum字

Byte2DataLen0x01

响应段

格式Byte2Data[7:0]-响应数据,用于识别厂商信息,需各厂商统一编号

校验和数据,校验范围为从CompletionCode到Data所包

Byte3CheckSum-

含的数据

7.3.1.3产品号

产品号的命令格式见表9。

表9产品号命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x02命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含

Byte2DataLen0x14

响应CheckSum字段

格式Byte3–响应数据,20字节字符数组,标识产品号信息,以

Data[159:0]-

Byte22ASCII码表示返回的字符串

Byte23CheckSum-校验和数据,校验范围为从CompletionCode到

8

T/CESAXXXX—202X

Data所包含的数据

7.3.1.4产品序列号

产品序列号的命令格式见表10。

表10产品序列号命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x03命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含

Byte2DataLen0x10

CheckSum字段

响应

Byte3-响应数据,16字节字符数组,标识序列号信息,

格式Data[127:0]-

Byte18以ASCII码表示返回的字符串

校验和数据,校验范围为从CompletionCode到

Byte18CheckSum-

Data所包含的数据

7.3.1.5制造时间

制造时间的命令格式见表11。

表11制造时间命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x04命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含CheckSum

Byte2DataLen0x02

字段

响应

Byte3–响应数据,2字节,标识设备的制造时间,如0x2306

格式Data[15:0]-

Byte4表示2023年6月生产

校验和数据,校验范围为从CompletionCode到Data

Byte5CheckSum-

所包含的数据

7.3.1.6固件版本号

9

T/CESAXXXX—202X

固件版本号的命令格式见表12。

表12固件版本号命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x05命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含CheckSum

Byte2DataLen0x02

字段

响应

响应数据,2字节,标识固件版本编号,如0x0523表

格式Byte3–Byte4Data[15:0]-

示主版本号为5,次版本号为2,修订号为3

校验和数据,校验范围为从CompletionCode到Data

Byte5CheckSum-

所包含的数据

7.3.1.7板卡类型

板卡类型的命令格式见表13。

表13板卡类型命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x06命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含CheckSum

Byte2DataLen0x01

响应字段

格式Byte3Data[7:0]-响应数据,1字节,标识板卡类型,如0x01表示GPU卡

校验和数据,校验范围为从CompletionCode到Data

Byte4CheckSum-

所包含的数据

7.3.1.8PCIe链路额定带宽

PCIe链路额定带宽的命令格式见表14。

表14PCIe链路额定带宽命令

命令字节序号命令字段值描述

10

T/CESAXXXX—202X

格式

Byte1CommandType0x00命令类型,固定值

Byte2CommandCode0x07命令码,固定值

请求Payload

Byte30x00请求参数长度,2字节长度,低字节部分

格式Len[7:0]

Payload

Byte40x00请求参数长度,2字节长度,高字节部分

Len[15:8]

Byte1CompletionCode-见“管理接口命令返回码”章节定义

Byte2DataLen0x01响应数据长度,以字节为单位,固定值,不含CheckSum字段

响应

Byte3Data[7:0]-响应数据,1字节,标识PCIe链路额定带宽,如0x08表示X8

格式

校验和数据,校验范围为从CompletionCode到Data所包含

Byte4CheckSum-

的数据

7.3.1.9PCIe链路额定速率

PCIe链路额定速率的命令格式见表15。

表15PCIe链路额定速率命令

命令

字节序号命令字段值描述

格式

Byte1CommandType0x00命令类型,固定值

请求Byte2CommandCode0x08命令码,固定值

格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含CheckSum字

Byte2DataLen0x01

响应

响应数据,1字节,标识PCIe链路额定速率,如0x03表示

格式Byte3Data[7:0]-

Gen38GT/s

校验和数据,校验范围为从CompletionCode到Data所包

Byte4CheckSum-

含的数据

7.3.1.10内存厂商编号

内存厂商编号的命令格式见表16。

表16内存厂商编号命令

命令

字节序号命令字段值描述

格式

请求Byte1CommandType0x00命令类型,固定值

格式Byte2CommandCode0x09命令码,固定值

11

T/CESAXXXX—202X

Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分

Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分

Byte1CompletionCode-见“管理接口命令返回码”章节定义

响应数据长度,以字节为单位,固定值,不含CheckSum字

Byte2DataLen0x02

响应段

格式Byte3–Byte4Data[15:0]-响应数据,2字节,标识内存厂商编号

校验和数据,校验范围为从CompletionCode到Data所包

Byte5CheckSum-

含的数据

7.3.1.11内存产品号

内存产品号的命令格式见表17。

表17内存产品号命令

命令

字节序号命令字段值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论