版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.020
CCSL62
团体标准
T/CESAXXXX—202X
人工智能加速卡管理接口规范
Managementinterfacespecificationforartificialintelligenceacceleratorcard
(征求意见稿)
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请
证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请
号和申请日期。
202X-XX-XX发布202X-XX-XX实施
中国电子工业标准化技术协会发布
T/CESAXXXX—202X
人工智能加速卡管理接口规范
1范围
本文件规定了人工智能加速卡管理接口的技术要求,描述了对应的测试方法。
本文件适用于人工智能加速卡固件管理接口的设计、开发与测试。人工智能服务器带外管理模块的
适配设计与开发可参照使用。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语与定义适用于本文件。
3.1
人工智能加速卡artificialintelligenceacceleratorcard
配置人工智能加速处理器,完成人工智能应用计算处理的部件。
注:人工智能加速处理器通常指图形处理器(GPU),张量处理器(TPU),神经网络处理器(NPU),数据处理单
元(DPU),现场可编辑逻辑门阵列(FPGA)等。
3.2
AI加速卡管理接口AIacceleratorcardmanagementinterface
由AI加速卡提供给带外管理模块的硬件接口(如I2C/SMBus或PCIe)和软件接口(协议命令等)的
集合。
注:AI加速卡管理接口为人工智能服务器系统或集群对AI加速卡全面监控、管理和故障预测等提供实现方式。
4缩略语
下列缩略语适用于本文件。
AER:高级错误上报(AdvancedErrorReporting)
AI:人工智能(ArtificialIntelligence)
AMM:加速卡管理消息(AcceleratorManagementMessage)
ASIC:专用集成电路(ApplicationSpecificIntegratedCircuit)
CE:可纠正错误(CorrectableError)
CPU:中央处理器(CentralProcessingUnit)
1
T/CESAXXXX—202X
FPGA:现场可编程门阵列(FieldProgrammableGateArray)
GPU:图形处理器(GraphicsProcessingUnit)
I2C:集成电路总线(Inter-IntegratedCircuit)
MCTP:管理组件传输协议(ManagementComponentTransportProtocol)
NCSI:网络控制器边带接口(NetworkControllerSidebandInterface)
PCIe:快速外围组件互连(PeripheralComponentInterconnectExpress)
RMA:退货授权(ReturnMerchandiseAuthorization)
SSD:固态硬盘驱动器(SolidStateDrive)
UCE:不可纠正错误(UncorrectableError)
5概述
图1给出了AI加速卡在服务器系统中的互连关系示意。AI加速卡通过PCIe链路与CPU相连,负
责其带内管理及业务数据的传输;同时,它也通过SMBus/I2C链路与带外管理模块相接,以实现带外管
理功能。本文件中的AI加速卡管理接口与图中展示的用于网卡带外管理的NCSI协议和用于NVMeSSD
管理的NVMe-MI协议具有相似性,均用于以带外方式进行部件管理。为了实现该管理接口,要求AI加
速卡及带外管理模块根据本文件进行相应的固件适配。
图1AI加速卡在服务器系统中的互连关系示意
6功能架构
通过AI加速卡管理接口,服务器系统能获取加速卡的固件版本、温度、电压、功耗、ECC错误信
息和升级状态等信息,实现对AI加速卡的运行状态、健康状态和升级过程等全方位的监控、管理和智
能化故障预测。
AI加速卡的管理接口分为静态信息、动态信息、诊断信息和固件升级等接口类型,每种类型的接
口包含不同的子功能接口,图2给出了AI加速卡管理接口功能架构。
2
T/CESAXXXX—202X
图2人工智能加速卡管理接口功能架构
7技术要求
7.1管理接口物理层
本文件AI加速卡的管理接口物理层采用SMBus/I2C或PCIe物理链路,管理命令在传输层封装为
MCTP消息进行收发,封装后的消息命名为AMMOverMCTP消息。图3给出了请求消息格式。
图3AMMOverMCTP请求消息格式
除MCTP头,请求消息格式中与管理接口命令相关的字段描述应符合表1要求。
表1AMMOverMCTP请求消息关键字段定义
字段名位宽(bits)描述
MessageType7AMMOverMCTP消息类型,固定为0x0C
3
T/CESAXXXX—202X
HeaderRevision8头部版本信息,标识AMMOverMCTP的消息格式,支持的管理命令等信息
VenderID16AI加速卡的厂商身份识别号
DeviceID16AI加速卡的设备身份识别号
管理接口命令类型,具体定义为:
0x00:静态信息类命令,如获取AI加速卡固件版本信息的命令
0x01:动态信息类命令,如获取AI加速卡的温度、功耗信息的命令
CommandType8
0x02:诊断信息类命令,如获取AI加速卡的错误类型信息的命令
0x03:固件升级类命令
其他值:暂时预留
CommandCode8命令码,与CommandType结合定义具体命令
TotalPackets8命令包含的总传输包数,与PacketNumber共同决定命令数据是否完整传输
当前传输的包号,从1开始编号,每进行一次传输,该值加1,当PacketNumber
PacketNumber8
值与TotalPackets值相同,则表示命令传输完成
PayloadLen16命令携带Payload的字节长度
Payload数据,用于携带命令相关的参数,根据PayloadLen的取值该字段具有
PayloadData可变
可变长度
校验字节,用于从MessageType字段至PayloadData字段数据完整性校验,校
CheckSum8
验规则采用以字节为单位进行二进制累加
相应地,响应消息格式见图4。
图4AMMOverMCTP响应消息格式
除MCTP头,响应消息格式中与管理接口命令相关的字段描述应符合表2要求。
表2AMMOverMCTP响应消息关键字段定义
字段名位宽(bits)描述
MessageType7AMMOverMCTP消息类型,固定为0x0C
HeaderRevision8头部版本信息,标识AMMOverMCTP的消息格式,支持的管理命令等信息
VenderID16AI加速卡的厂商身份识别号
DeviceID16AI加速卡的设备身份识别号
Reserved8预留位,默认值为0x00
CompletionCode8命令返回码,详细定义参见7.3.4.4
TotalPackets8命令包含的总传输包数,与PacketNumber共同决定命令数据是否完整传输
4
T/CESAXXXX—202X
当前传输的包号,从1开始编号,每进行一次传输,该值加1,当PacketNumber
PacketNumber8
值与TotalPackets值相同,则表示命令传输完成
DataLen8返回数据的长度,以字节为单位
Data可变返回数据,用于携带命令返回的有效数据,根据命令类型的不同该字段长度可变
校验字节,用于从MessageType字段至Data字段数据完整性校验,校验规则采
CheckSum8
用以字节为单位进行二进制累加
7.2管理接口命令集
7.2.1静态信息类命令集
静态信息是设备在正常运行过程中不再更新的信息,这些信息用以表示设备本身的属性或状态。获
取静态信息的命令集见表3。
表3静态信息类命令集(CommandType:0x00)
序号命令名称命令码(CommandCode)访问属性命令描述
获取硬件版本编号,如0x20表示硬件版本
1硬件版本号0x00RO
为V2.0
2厂商编号0x01RO获取厂商编号
3产品号(PN)0x02RO获取产品号,以ASCII码表示返回字符串
获取产品序列号,以ASCII码表示返回字符
4产品序列号(SN)0x03RO
串
获取制造时间,如0x2306表示2023年6月
5制造时间0x04RO
生产
获取固件版本编号,如0x0523表示主版本
6固件版本号0x05RO
号为5,次版本号为2,修订号为3
7板卡类型0x06RO获取板卡类型,如0x01表示GPU卡
获取设备支持的PCIe链路额定带宽,如
8PCIe链路额定带宽0x07RO
0x08表示X8
获取设备支持的PCIe链路额定速率,如
9PCIe链路额定速率0x08RO
0x03表示Gen38GT/s
10内存厂商编号0x09RO获取内存厂商编号
11内存产品号0x0ARO获取内存产品号,以ASCII码表示返回字符
12内存序列号0x0BRO获取内存序列号,以ASCII码表示返回字符
13内存容量0x0CRO获取板卡实际配置的内存容量
14预留命令0x0D-0x9FRO预留命令,暂不定义
15OEM命令0xA0-0xFFROOEM命令,由OEM厂商自定义
7.2.2动态信息类命令集
5
T/CESAXXXX—202X
动态信息是设备正常运行过程中动态更新的信息。获取动态信息的命令集见表4。
表4动态信息类命令集(CommandType:0x01)
序号命令名称命令码(CommandCode)访问属性命令描述
1温度0x00RO获取板卡、芯片、内存和光模块温度
2功耗0x01RO获取板卡和芯片功耗
3电压0x02RO获取板卡和芯片电压
4PCIe链路协商带宽0x03RO获取PCIe链路协商带宽,如0x08表示X8
获取PCIe链路协商后的速率,如0x03表示
5PCIe链路协商速率0x04RO
Gen38GT/s
6CPU利用率0x05RO获取芯片CPU利用率
7内存利用率0x06RO获取芯片内存利用率
8启动状态0x07RO获取板卡的启动状态
9预留命令0x08-0x9FRO预留命令,暂不定义
10OEM命令0xA0-0xFFROOEM命令,由OEM厂商自定义
7.2.3诊断信息类命令集
诊断信息表征设备自身的运行健康状态。获取诊断信息的命令集见表5。
表5诊断信息类命令集(CommandType:0x02)
序号命令名称命令码(CommandCode)访问属性命令描述
获取板卡的健康状态,包换Normal、Warning
1健康状态0x00RO
和Error三种状态
2RMA状态0x01RO获取板卡的RMA状态
3PCIe错误数0x02RO获取PCIe错误发生次数
4内存错误数0x03RO获取内存错误发生次数
5外设错误数0x04RO获取外设错误发生次数
6ECC错误数0x05RO获取ECC错误发生次数
7PCIeUCE状态寄存0x06RO获取PCIeAERUCE状态寄存器内容
器
8PCIeUCE掩码寄存0x07RO获取PCIeAERUCE掩码寄存器内容
器
9PCIeUCE等级寄存0x08RO获取PCIeAERUCE等级寄存器内容
器
10PCIeCE状态寄存0x09RO获取PCIeAERCE状态寄存器内容
器
11PCIeCE掩码寄存0x0ARO获取PCIeAERCE掩码寄存器内容
器
6
T/CESAXXXX—202X
12PCIeAER控制寄存0x0BRO获取PCIeAER功能控制寄存器内容
器
13PCIeAERHDRLOG0x0CRO获取PCIeAERHeader日志寄存器内容
寄存器
14PCIeAERTLPLOG0x0DRO获取PCIeAERTLPPrefix日志寄存器内容
寄存器
15预留命令0x0E-0x9FRO预留命令,暂不定义
16OEM命令0xA0-0xFFROOEM命令,由OEM厂商自定义
7.2.4固件升级类命令集
固件升级是对设备自身固件进行刷新的过程。固件升级类命令集见表6。
表6固件升级类命令集(CommandType:0x03)
序号命令名称命令码(CommandCode)访问属性命令描述
1固件保护状态读取0x00RO获取固件保护状态
2固件保护状态设置0x01W设置固件保护状态
3固件升级0x02W升级板卡固件
4系统复位0x03W设置整个板卡和主芯片复位操作
5系统开关机0x04W设置板卡开关机操作
6预留命令0x05-0x9F-预留命令,暂不定义
7OEM命令0xA0-0xFF-OEM命令,由OEM厂商自定义
7.3管理接口命令格式
7.3.1静态信息类命令格式
7.3.1.1硬件版本号
硬件版本号的命令格式见表7。
表7硬件版本号命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x00命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
响应Byte1CompletionCode-见“管理接口命令返回码”章节定义
格式Byte2DataLen0x01响应数据长度,以字节为单位,固定值,不含CheckSum
7
T/CESAXXXX—202X
字段
响应数据,Data[7:4]表示主版本号,Data[3:0]表示次
Byte3Data[7:0]-
版本号,如0x20表示硬件版本为V2.0
校验和数据,校验范围为从CompletionCode到Data
Byte4CheckSum-
所包含的数据
7.3.1.2厂商编号
厂商编号的命令格式见表8。
表8厂商编号命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x01命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含CheckSum字
Byte2DataLen0x01
响应段
格式Byte2Data[7:0]-响应数据,用于识别厂商信息,需各厂商统一编号
校验和数据,校验范围为从CompletionCode到Data所包
Byte3CheckSum-
含的数据
7.3.1.3产品号
产品号的命令格式见表9。
表9产品号命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x02命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含
Byte2DataLen0x14
响应CheckSum字段
格式Byte3–响应数据,20字节字符数组,标识产品号信息,以
Data[159:0]-
Byte22ASCII码表示返回的字符串
Byte23CheckSum-校验和数据,校验范围为从CompletionCode到
8
T/CESAXXXX—202X
Data所包含的数据
7.3.1.4产品序列号
产品序列号的命令格式见表10。
表10产品序列号命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x03命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含
Byte2DataLen0x10
CheckSum字段
响应
Byte3-响应数据,16字节字符数组,标识序列号信息,
格式Data[127:0]-
Byte18以ASCII码表示返回的字符串
校验和数据,校验范围为从CompletionCode到
Byte18CheckSum-
Data所包含的数据
7.3.1.5制造时间
制造时间的命令格式见表11。
表11制造时间命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x04命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含CheckSum
Byte2DataLen0x02
字段
响应
Byte3–响应数据,2字节,标识设备的制造时间,如0x2306
格式Data[15:0]-
Byte4表示2023年6月生产
校验和数据,校验范围为从CompletionCode到Data
Byte5CheckSum-
所包含的数据
7.3.1.6固件版本号
9
T/CESAXXXX—202X
固件版本号的命令格式见表12。
表12固件版本号命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x05命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含CheckSum
Byte2DataLen0x02
字段
响应
响应数据,2字节,标识固件版本编号,如0x0523表
格式Byte3–Byte4Data[15:0]-
示主版本号为5,次版本号为2,修订号为3
校验和数据,校验范围为从CompletionCode到Data
Byte5CheckSum-
所包含的数据
7.3.1.7板卡类型
板卡类型的命令格式见表13。
表13板卡类型命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x06命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含CheckSum
Byte2DataLen0x01
响应字段
格式Byte3Data[7:0]-响应数据,1字节,标识板卡类型,如0x01表示GPU卡
校验和数据,校验范围为从CompletionCode到Data
Byte4CheckSum-
所包含的数据
7.3.1.8PCIe链路额定带宽
PCIe链路额定带宽的命令格式见表14。
表14PCIe链路额定带宽命令
命令字节序号命令字段值描述
10
T/CESAXXXX—202X
格式
Byte1CommandType0x00命令类型,固定值
Byte2CommandCode0x07命令码,固定值
请求Payload
Byte30x00请求参数长度,2字节长度,低字节部分
格式Len[7:0]
Payload
Byte40x00请求参数长度,2字节长度,高字节部分
Len[15:8]
Byte1CompletionCode-见“管理接口命令返回码”章节定义
Byte2DataLen0x01响应数据长度,以字节为单位,固定值,不含CheckSum字段
响应
Byte3Data[7:0]-响应数据,1字节,标识PCIe链路额定带宽,如0x08表示X8
格式
校验和数据,校验范围为从CompletionCode到Data所包含
Byte4CheckSum-
的数据
7.3.1.9PCIe链路额定速率
PCIe链路额定速率的命令格式见表15。
表15PCIe链路额定速率命令
命令
字节序号命令字段值描述
格式
Byte1CommandType0x00命令类型,固定值
请求Byte2CommandCode0x08命令码,固定值
格式Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含CheckSum字
Byte2DataLen0x01
段
响应
响应数据,1字节,标识PCIe链路额定速率,如0x03表示
格式Byte3Data[7:0]-
Gen38GT/s
校验和数据,校验范围为从CompletionCode到Data所包
Byte4CheckSum-
含的数据
7.3.1.10内存厂商编号
内存厂商编号的命令格式见表16。
表16内存厂商编号命令
命令
字节序号命令字段值描述
格式
请求Byte1CommandType0x00命令类型,固定值
格式Byte2CommandCode0x09命令码,固定值
11
T/CESAXXXX—202X
Byte3PayloadLen[7:0]0x00请求参数长度,2字节长度,低字节部分
Byte4PayloadLen[15:8]0x00请求参数长度,2字节长度,高字节部分
Byte1CompletionCode-见“管理接口命令返回码”章节定义
响应数据长度,以字节为单位,固定值,不含CheckSum字
Byte2DataLen0x02
响应段
格式Byte3–Byte4Data[15:0]-响应数据,2字节,标识内存厂商编号
校验和数据,校验范围为从CompletionCode到Data所包
Byte5CheckSum-
含的数据
7.3.1.11内存产品号
内存产品号的命令格式见表17。
表17内存产品号命令
命令
字节序号命令字段值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东汕头大学医学院第一批招聘6人备考题库含答案详解(模拟题)
- 白洋淀补水工作制度
- 水利测量员工作制度
- 社区小区管理工作制度
- 水泵卫生管理工作制度
- 派出所基础工作制度
- 正面宣传报道工作制度
- 残联机关保密工作制度
- 气象服务站工作制度
- 2026广西贵港市桂平市垌心乡卫生院招聘编外人员1人备考题库附答案详解(典型题)
- 四川省广元市高2026届第二次高考适应性检测数学+答案
- TSG08-2026《特种设备使用管理规则》全面解读课件
- 2026广东广州市黄埔区大沙街道招聘编外聘用人员4人备考题库及参考答案详解
- 《2026年化学制药企业安全风险防控专项工作方案》解读
- 2026新疆兵团第七师胡杨河市公安机关社会招聘辅警358人笔试备考试题及答案解析
- 企业车间绩效考核制度
- 2026年江西赣州市高三一模高考数学试卷试题(含答案详解)
- 2023年11月山东社会科学院专业技术中级岗位招考聘用2人笔试历年难易错点考题荟萃附带答案详解
- 河道漂流设计施工方案
- 2023年江西上饶市公开招聘交通劝导员32人高频考点题库(共500题含答案解析)模拟练习试卷
- 广东省五年一贯制语文试卷
评论
0/150
提交评论