版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.240CCSL70TechnicalspecificationforartificialintelligencecomputingpoIT/STSI43—2023前言 12规范性引用文件 13术语、定义和缩略语 13.1术语和定义 13.2缩略语 24总体架构 25总体要求 36功能要求 36.1池化管理 36.2池化调度 36.3提供任意规格算力资源 36.4虚拟算力资源隔离 36.5业务热迁移 46.6横向扩展 47通信网络 47.1管理网络 47.2数据网络 48资源池部署与集成 58.1资源池部署 58.2资源池集成 59兼容性要求 59.1网络兼容性 59.2GPU设备兼容性 59.3API版本兼容性 69.4操作系统兼容性 69.5基础架构平台兼容性 69.6深度学习框架兼容性 610可靠性要求 611安全要求 6 612.1验证方法 612.2验证过程 6T/STSI43—2023参考文献...............................................................................8T/STSI43—2023本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由北京趋动智能科技有限公司提出。本文件由中关村新兴科技服务业产业联盟归口。本文件起草单位:北京趋动智能科技有限公司、中关村新兴科技服务业产业联盟、之江实验室、联通(广东)产业互联网有限公司、贵安新区大数据科创城、长江云通有限公司、中贝通信集团股份有限公司、趋动科技(上海)有限公司、北京青云科技股份有限公司、杭州谐云科技有限公司、麒麟软件有限公司、达观数据有限公司。本文件主要起草人:王鲲、陈飞、高翔、程伟、雷剑、罗嘉欣、许元锎、任彬、饶有根、龙非、张增金、李凯、刘广瑜、钟楚然、许健、赵晨曦、王翱宇、徐运元、邹宇、万雨辰、陈运文、纪达麒。T/STSI43—2023目前,人工智能通过数据、算力、算法和场景的融合深入到各行各业,促进和赋能数智化转型。算力作为数字经济时代新的生产力,对推动科技进步、行业数字化转型以及经济社会发展发挥着重要作用。人工智能算力资源存在分配不灵活、利用率低、缺乏整体调度和监控等普遍问题,而资源池化作为云计算的核心支撑技术之一可有效解决上述问题。资源池的核心是通过软件的方法,将各种硬件(CPU、内存、磁盘、网络等)变成可以动态管理的资源集合,从而提升资源的利用率,简化系统管理,实现资源整合,让IT对业务的变化更具适应力。AI算力资源池化也是遵循这样的理念,对物理计算资源进行抽象,软件化后形成一个统一的资源池,方便用户按需对计算资源进行有效调用,无需关注实际物理计算资源的大小、数量、型号以及安插的物理位置。本文件针对人工智能算力资源池技术规范方面存在的标准空白,对人工智能算力资源池的总体架构、总体要求、功能要求等进行规范,对于利用算力资源池实现算力资源的虚拟化、整合、调度和高效利用,具有重要的现实意义。T/STSI43—20231人工智能算力资源池技术规范本文件规定了人工智能算力资源池的总体架构、总体要求、功能要求、通信网络、资源池部署与集成、兼容性要求、可靠性要求和安全要求,给出了验证方法和过程。本文件适用于人工智能算力资源池的设计、建设、运维和验证。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T31168信息安全技术云计算服务安全能力要求GB/T35279信息安全技术云计算安全参考架构GB/T41867信息技术人工智能术语GB/T42018信息技术人工智能平台计算资源规范YD/T3954云服务用户数据保护能力参考框架3术语、定义和缩略语3.1术语和定义GB/T41867、GB/T42018界定的以及下列术语和定义适用于本文件。3.1.1人工智能artificialintelligence<学科>人工智能系统相关机制和应用的研究和开发。[来源:GB/T41867—2022,3.1.2]3.1.2人工智能加速卡artificialintelligenceacceleratingcard专为人工智能计算设计、符合人工智能服务器硬件接口的扩展加速设备。[来源:GB/T42018—2022,3.6]3.1.3物理计算资源physicalcomputingresource为人工智能应用提供信息处理能力(如存储、计算等)的实体设备。[来源:GB/T42018—2022,3.3]3.1.4虚拟计算资源virtualcomputingresource为人工智能应用提供信息处理能力(如存储、计算等)的逻辑设备。T/STSI43—20232[来源:GB/T42018—2022,3.4]3.2缩略语下列缩略语适用于本文件。AI:人工智能(ArtificialIntelligence)API:应用程序编程接口(ApplicationProgrammingInterface)ASIC:专用集成电路(ApplicationSpecificIntegratedCircuit)CPU:中央处理器(CentralProcessingUnit)FPGA:现场可编程逻辑门阵列(FieldProgrammableGateArray)GPU:图形处理单元(GraphicsProcessingUnit)KVM:基于内核的虚拟机(Kernel-basedVirtualMachine)TCP/IP:传输控制协议/网际协议(TransmissionControlProtocol/InternetProtocol)4总体架构人工智能算力资源池化指的是无需关注实际物理计算资源的大小、数量、型号以及安插的物理位置,对物理计算资源进行抽象,软件化后形成一个统一的资源池,按需对计算资源进行有效调用的过程。人工智能算力资源池总体架构见图1。其中:——人工智能应用:基于自然语言处理、计算机视觉、机器学习等技术实现的业务应用;——异构算力资源池:通过软件定义的方式将多种异构算力变成可动态管理的资源池;——运行时:一套兼容各类计算资源的API编程环境的运行环境,模拟API编程的运行时接口,实现与上层AI框架的对接和管理;T/STSI43—20233——调度控制服务:资源池的核心管理、调度模块,实现对节点IP地址、物理计算资源信息、虚拟计算资源信息以及应用任务信息等的汇总管理;——AI算力池化服务:发现并管理节点上的物理计算资源,将物理计算资源池化,将计算能力提供给集群中各个物理节点,以及各个物理节点上的虚拟机、容器;——异构算力资源:GPU、FPGA、ASIC等多种计算资源;——运维管理:提供图形用户界面,实现资源池全方位管理与监控。5总体要求5.1资源池应采用分布式架构、模块化设计,在架构及功能方面应具备良好的系统可扩展能力,使得系统在为用户提供服务的过程中能实现平滑扩展,持续运行。5.2资源池应支持各类异构AI算力资源。注:AI算力资源包括GPU、FPGA、ASIC等人工5.3资源池采用的软硬件应便于安装、升级,并具有友好的管理界面。5.4资源池应具备人工智能应用和计算资源的解耦能力,在同一集群的任意节点上运行人工智能应用均可调用人工智能算力资源池内的资源。5.5资源池应具备提供细粒度算力资源的能力。5.6资源池应对能耗进行有效的监控和管理,通过远程管理提高运维管理效率。5.7资源池应支持业务不停机的灰度升级部署。5.8资源池在运维管理方面应具备计算资源全局监控、告警、日志、数据统计、报表等能力。6功能要求6.1池化管理6.1.1应支持AI应用与物理计算资源解耦合,AI应用向资源池软件调取虚拟计算资源,资源池软件再匹配物理计算资源。6.1.2应支持多台物理计算资源节点跨机资源聚合,为单一容器或虚拟机提供多卡虚拟计算资源。6.1.3应支持运行在普通CPU节点的人工智能业务通过网络远程调用物理GPU计算资源节点上的虚拟计算资源。6.1.4应支持虚拟计算资源动态调整,不应重新加载、重置、重启容器或虚拟机等运行环境。6.2池化调度6.2.1应支持配置多种算力资源池任意调度策略,包括本地调度、本地优先、节点均衡/紧凑、设备均衡/紧凑等调度策略。6.2.2应支持为不同的AI任务提供个性化的计算资源调度策略。6.2.3应支持AI任务调度计算资源时,可指定物理计算资源节点、人工智能加速卡芯片型号。6.3提供任意规格算力资源6.3.1应支持为上层业务提供聚合多台计算资源节点上的物理计算资源的能力。6.3.2应支持为上层业务提供的虚拟计算资源按照算力1%和显存1MB两个维度进行任意切分,提供小算力资源。6.4虚拟算力资源隔离T/STSI43—20234应支持同一张人工智能加速卡上多任务虚拟计算资源并发运行,虚拟计算资源多任务隔离保护,异常虚拟计算资源任务不影响其他正常任务。6.5业务热迁移业务迁移不应中断AI业务,迁移过程中不影响AI业务对计算资源的远程调用,能够有效保证业务连续性,减少上层业务宕机时间,提升用户使用体验。6.6横向扩展应支持资源池平滑扩容、缩容,支持添加和删除计算资源节点或者人工智能加速卡。7通信网络7.1管理网络资源池使用基于TCP/IP的管理网络来承载整个系统的管理工作,用于资源池的管理及调度服务。通过管理网络,分布在各个节点的功能组件都保持与资源池控制模块同步。管理网络逻辑结构见图2。图2管理网络逻辑结构通过私有的同步协议,分布式部署的各个功能组件应满足如下要求:——资源池控制模块支持多副本、高可用的部署模式;——各个功能组件启动的次序无要求;——当某一个功能组件从错误中恢复之后,可以自动同步到正确状态。7.2数据网络资源池使用TCP/IP以太网络、RoCERDMA、InfinibandRDMA、SharedMemory等多种后端数据网络实现AI应用所在环境与计算资源物理节点之间的数据传输,用于资源池业务运算数据的交互。数据网络逻辑结构见图3。T/STSI43—20235图3数据网络逻辑结构数据网络应满足如下要求:——高带宽、低延迟;——同时支持TCP/IP以太网络等多种传输协议,优先使用高性能的传输方式;——支持虚拟机、容器和宿主机之间的TCP/IP网络隔离。8资源池部署与集成8.1资源池部署资源池的各个服务组件,应支持集中式单机部署或者分布式多机部署,部署形式包括:——安装操作系统后,直接以二进制(Binary)形式部署;——以容器镜像方式部署。8.2资源池集成资源池应具备适配多种Linux操作系统和云平台的能力,同时支持基于KVM的虚拟机云平台和基于Docker的容器云平台。应支持原生容器,提供完善的虚拟GPU资源调度插件,以实现和Kubernetes的平滑对接。9兼容性要求9.1网络兼容性资源池应支持数据中心级各类网络协议类型。9.2GPU设备兼容性6资源池应支持主流人工智能芯片厂家生产的、多种GPU型号设备。9.3API版本兼容性资源池应支持主流人工智能芯片API。9.4操作系统兼容性资源池应支持人工智能应用主流操作系统基座。9.5基础架构平台兼容性资源池应支持多种类型的基础架构平台。9.6深度学习框架兼容性资源池应支持各类主流深度学习框架。示例:TensorFlow、Pytorch、PaddleP10可靠性要求10.1资源池应支持组件分布式部署方式,控制台组件多副本部署,具备控制组件高可用等级。10.2资源池应具备任务热迁移能力,保障服务不中断。10.3资源池关键信息应具备自动或手动备份恢复能力。11安全要求资源池的安全应符合GB/T35279、GB/T31168、YD/T3954等要求。12验证12.1验证方法验证方法包括:a)审查法:对人工智能算力资源池相关技术资料进行可视化检查,以确定有关功能或特性是否达到规定的要求;b)演示法:对人工智能算力资源池进行操作,查看其实际运行情况,以验证有关功能或特性是否达到规定的要求;c)实际运行法:将人工智能算力资源池投入实际运行,在一定周期内检查运行情况,以确定有关功能或特性是否达到规定的要求。12.2验证过程12.2.1功能T/STSI43—20237按照以下步骤对功能进行验证,判断验证结果是否符合第6章的要求:a)对人工智能算力资源池相关技术资料,采用审查法检查池化管理功能内容、池化调度功能内容、提供任意规格算力资源功能内容、虚拟算力资源隔离功能内容、业务热迁移功能内容和横向扩展功能内容;b)采用演示法,进行人工智能算力资源池相关操作,验证池化管理功
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肺气肿管理流程指南
- 核医学科甲状腺功能障碍核素治疗指南
- 军校学员个人情况报告
- 麻醉科全麻术前评估指南
- 急诊科心血管内科创伤性休克急救培训要点
- 婚礼宴会设计策划方案
- 巴厘岛风格景观设计
- 基于Spark的实时日志分析平台前沿技术课程设计
- c 的课程设计的致谢
- 湖北2026年一级建造师考试(民航机场工程管理与实务)模拟题含答案及答案
- 2025年广东省深圳市福田区小升初语文试卷
- TSG08-2026《特种设备使用管理规则》解读
- 2026年等离子体物理考研复试高频面试题包含详细解答
- 门诊消防安全责任制制度
- 2025黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解(3卷)
- 江苏师范大学本科毕业论文开题报告格式
- 做账实操-高新技术行业会计真账实操 SOP
- GB/T 32684-2025塑料酚醛树脂游离甲醛含量的测定
- 智能化环境风险评估-洞察与解读
- 2025广东省监狱管理局所属事业单位招聘医疗卫生专业技术人才99人考试参考试题及答案解析
- 国企廉洁从业课件教学
评论
0/150
提交评论