先进计算产业发展联盟2026基于国产GPU算力平台的低时延通信技术研究报告

上传人：策*** IP属地：山西上传时间：2026-06-29 格式：DOCX 页数：147 大小：1.14MB 积分：19.9 举报 版权申诉

先进计算产业发展联盟2026基于国产GPU算力平台的低时延通信技术研究报告_第2页

先进计算产业发展联盟2026基于国产GPU算力平台的低时延通信技术研究报告_第3页

先进计算产业发展联盟2026基于国产GPU算力平台的低时延通信技术研究报告_第4页

先进计算产业发展联盟2026基于国产GPU算力平台的低时延通信技术研究报告_第5页

已阅读5页，还剩142页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ACI公司、沐曦集成电路(上海)股份有限公司本报告聚焦国产GPU算力平台的低时延通信技术，系统阐述了华为昇腾、沐曦、昆仑芯为代表的国产GPU计算架构及其高速互联报告总结了当前国产生态面临的挑战，提出未来优化方向，为国产GPU低时延通信技术落地及算力生态完善提供技术支撑。公司、沐曦集成电路(上海)股份有限公司主编：李璇、朱国平、谢贵超、刘年超、张乾完成日期：2025年12月31日二、国产GPU算力平台现状 4(一)国产GPU的发展历程 41.萌芽期(2000年前后) 42.军用突破期(2010-2018年) 43.AI驱动期(2019年至今) 4(二)主要国产GPU厂商及产品 5(三)国产GPU的主要架构和技术特点 51.华为昇腾(达芬奇架构) 2.壁仞科技(壁立仞架构) 63.沐曦(MXMACA自主架构) 64.登临科技(GPU+架构) 65.摩尔线程(MUSA架构) 76.寒武纪(MLUarch架构) 7 7(四)国产GPU的应用领域 (五)存在的问题 8三、低时延通信技术的关键要素四、基于国产GPU的低时延通信系统架构设计 1 12.总体架构 3.数据流路径分析(以AI训练梯度同步为例) 14(二)硬件平台选型与配置 1.计算节点：长城AI服务器 2.AI加速单元：曦云C550OAMAI加速卡 3.网络接口单元：云豹智能网卡 4.网络交换设备：新华三(H3C)高性能数据中心交换机 4.AI框架集成 (四)关键模块设计与实现 1.GPUDirectRDMA高速数据路径模块 2.网络健康与性能监控模块 23.自适应集合通信算法模块 23五、基于国产GPU的低时延通信关键技术研究 2.低时延通信的应用场景 4.低时延通信的技术演进趋势 29(二)GPU硬件加速通信 301.GPU单机及超节点ScaleUp通信技术(GPUDirect) 1.IB和RoCE网络对比分析 2.RoCEv2协议优化策略 (四)实时任务处理机制 1.故障无感恢复 2.链路级高可靠性 3.端网协同网络路径精确控制 4.层次化多粒度负载均衡 1.智能无损的拥塞控制(AI-ECN) 2.端网协同的拥塞控制(ENCC) (六)低时延通信的性能评估指标 2.测试工具与方法 3.国产GPU的评估重点六、低时延通信技术性能评估 (二)测试方案设计 2.测试结论 1.国产GPUvs国际主流GPU平台 72.传统通信方案vs优化后方案七、基于国产GPU的低时延通信应用案例 (二)分布式AI场景的应用 (三)金融智能服务的应用八、结论与展望 1.国产GPU算力平台的低时延通信潜力与优势 2.低时延通信技术对国产算力生态的重要性 1延逼近物理极限(微秒至纳秒级),更需实现算力资源与网络资源的新质生产力”的系统性升级。近年来，以壁仞科技、沐曦、摩尔线程等为代表的国产GPU企业，在通用计算架构与AI加速器设计上取得显著进展。同时，中科驭数、云豹智能等国产DPU厂商，则在可编程数据面、网络功能硬件卸载等领域实现关键技术国产化。国产新提供了坚实底座。23近年来，随着人工智能技术的快速发展，国产GPU算力平台在表的国产GPU厂商，在深度学习、神经网络训练和推理等核心场景中展现出强大的计算能力。国产GPU不仅在性能上逐步追赶国际领领域，国产GPU通过支持大规模并行计算和硬件加速，成为推动人GPU将朝着更高算力、更低功耗和更广泛的应用场景发展，为人工基于国产GPU算力平台开展低时延通信技术研究具有重要的战略意义和实际价值。首先，国产GPU在智算领域的计算性能和并行4产GPU的硬件加速特性，可以显著降低通信协议处理和数据传输的延迟，从而提升智算系统的整体效率。其次，基于国产GPU平台开二、国产GPU算力平台现状(一)国产GPU的发展历程国产GPU的研发起步较晚，早期依赖进口技术，经历了从图形处理向通用计算扩展的长期探索。1.萌芽期(2000年前后)高校和科研机构(如中科院、清华大学)开始图形处理器研究，景嘉微2014年推出首款国产GPUJM5400,专攻军用图形渲染，在军工领域实现国产替代，但民用市场仍被NVIDIA/AMD垄3.AI驱动期(2019年至今)5(二)主要国产GPU厂商及产品表1国产GPU领域的主要厂商及产品核心产品景嘉微JM9系列图形渲染+轻量AI加速军工、信创PC、低功耗服务器昇腾910C(训练)、昇腾950PR(推理)智慧城市、自动驾驶、超算中心BR100系列高性能计算+通用AI大模型训练、科学计算MXN系列(曦云)、G系列(GPGPU)高带宽+CUDA兼容染天数智芯智慧城市、边缘计算邃思系列云端AI训练和推理互联网公司私有云登临科技GoldenX系列高性能计算+AI推理GPU)、MUSA计算卡图形+AI融合架构云游戏、AI推理、寒武纪思元(MLU)系列专用AI计算架构+高能云端训练与推理、边(三)国产GPU的主要架构和技术特点1.华为昇腾(达芬奇架构)62.壁仞科技(壁立仞架构)架构设计：双计算芯粒设计突破单芯片面积限制，通过Chiplet64GB,显存带宽1.6TB/s。卡间3.沐曦(MXMACA自主架构)显存带宽1.8TB/s。卡间互联采用HCCS高速总线，双向带宽达到架构设计：采用片内异构技术，集成通用计算核与AI加速核，能效比优于国际同级产品，多层次缓存、大容量SRAM、高吞吐互联，数据交换效率高，低功耗、低延迟、低内存带宽依赖。7内存与互联能力：登临GoldwasserII-XL512采用GDDR技术，显存容量128GB,显存带宽1.0TB/s。卡间互联采用PCle高速总线，双向带宽达到256GB/s。集成AI加速器与通用计算核。内存与互联能力：摩尔线程S5000采用HBM3技术，显存容量6.寒武纪(MLUarch架构)内存与互联能力：寒武纪MLU590采用HBM2e技术，显存容量线，双向带宽达到600GB/s。7.其他架构8(四)国产GPU的应用领域华为昇腾GPU已应用于深度学习训练和推理和图像识别、自然语言处理等场景、也应用于自动驾驶、政府壁仞BR100系列GPU已应用于超大规模大模型训推、图像与自沐曦曦云GPU已应用千亿参数大模型训推、AIGC生成、智算登临GoldenX系列GPU已应用于图像识别、轻量化自然语言推摩尔线程GPU已应用于大模型训练与推理、智算中心、运营商寒武纪MLU系列GPU已应用于云端训练与推理、图像识别、(五)存在的问题9GPU的广泛应用。性能瓶颈：在低时延通信和高吞吐量场景中，国产GPU的硬件这些问题表明，国产GPU在低时延通信领域的研究和优化具有迫切需求。通过开展基于国产GPU的低时延通信技术研究，可以进高速互联总线：高速互联总线是实现GPU之间高效数据传输的基础，国产GPU算力平台需要采用可靠的高速互联总线，以降低传硬件优化：包括GPU芯片的架构设计、高速缓存机制以及与网针对GPU优化的库和框架来编写高效的应用程序代码，实现异步操四、基于国产GPU的低时延通信系统架构硬件、具备低时延特性的通信系统至关重要。本章将围绕国产GPU以高性能RDMA(远程直接内存访问)网络为通信骨架的软硬协同体系，旨在最大限度地降低跨节点数据传输路(GPU->主机内存->网卡->网络->对方网卡->对方主机内存->对方GPU),并致力于通过内核旁路(KernelBypass)、零拷贝(Zero-Copy)等技术缩短数据在路径上的每一个环节所消耗的存中转，造成了不必要的拷贝和CPU负载。本架构采用GPUDirectRDMA技术，允许GPU直接与网络设备(智能网卡)进行数据交换，绕过CPU和系统主存，这是实现微秒级低时延的关键。2.总体架构生成式多模态大模型训练和推理生成式多模态大模型训练和推理经典AI应用开源大模型系列闭源大模型经典AI模型并行训练支持开发者套件运行时库Runtime驱动Driver昆仑芯AI加速设备&服务器集群部署高性能算子库推理引擎支持框架支持计算视觉库集合通讯库图编译引擎框架支持框架支持图1基于国产GPU的低时延通信系统总体架构图(1)硬件平台层计算节点：采用长城AI服务器作为基础单元，其内部集成高性AI计算核心：每个计算节点内配置8张曦云C550OAMAI加速卡，卡间通过高速互联技术(如MetaXLink)实现高效通信，构成强网络接口：节点配置云豹智能网卡，作为实现RDMA功能和卸网络交换：采用新华三(H3C)系列高性能数据中心交换机构建(2)系统软件层驱动程序：包括曦云C550的GPU驱动、云豹智能网卡的通信中间件：基于RDMAVerbsAPI,开发或适配支持GPUDirectRDMA的集合通信库(如优化版的NCCL),为上层应用提供标准、资源管理与调度：部署集群管理软件(如Slurm、Kubernetes),(3)应用生态层AI框架：支持主流的AI框架如PyTorch、TensorFlow等，并通过插件或后端的形式，使其能够调用底层的国产化低时延通信库。HPC应用：提供兼容MPI等标准的接口，使各类科学计算和工3.数据流路径分析(以AI训练梯度同步为例)(3)打包后的报文经由网卡向外发送；(4)接收端网卡接收传输报文；(5)接收端CPU解析拆解TCP/IP报文，还原原始梯度数据；(6)最终把数据从CPU内存拷贝至本地GPU内存。(1)AI框架调用优化后的集合通信库(如All-Reduce操作),通信库通过曦云C550的驱动获取待同步梯度数据在GPU显存中的(2)云豹智能网卡获取该地址信息后利用其RDMA引擎，直接从源端曦云C550的显存中读取数据。然后数据被封装成RoCEv2报整个过程无需CPU介入，也避免了在系统内存中的多次拷贝，到1.2us左右；对于1MB大消息通信，通信时延降到5us左右。(二)硬件平台选型与配置1.计算节点：长城AI服务器选型理由：长城AI服务器作为国内领先的计算设备提供商中国●采用支持PCIe5.0的高性能国产CPU,为GPU和网卡提供充足的I/O带宽。●配置大容量DDR5内存，即使在需要CPU辅助的场景下，●提供多个PCle5.0x16插槽，以无阻塞方式连接多张曦云2.AI加速单元：曦云C550OAMAI加速卡选型理由：曦云C550是专为AI和HPC设计的新一代国产卡间互联：支持MetaXLinkFullMesh互联技术，实现单节点内多张C550卡之间的高速、低时延通信，是构建8卡或更高密度AI节点间通信支持：明确支持RoCEv2/IB两种RDMA协议，使其能够通过GPUDirectRDMA技术与云豹智能网卡直接交互，这是实与网卡之间的数据传输提供了双向128GB/s的理论带宽。3.网络接口单元：云豹智能网卡选型理由：云豹智能(JaguarMicro)是国内领先的高性能网络●高性能RDMA引擎：内置硬件RDMA协议处理引擎，能够完整卸载RoCEv2协议栈，将CPU从繁重的网络数据包处理中解放出来。●高网络带宽：支持200Gb/s或400Gb/s的以太网接口，与●高级特性支持：支持eXtendedRDQPType、片上缓存等高级功能，能够在大规模组网时维持稳定的低时延性能。作为DPU,其可编程能力还为未来部署更复杂的网络内计算 (In-NetworkComputing)和拥塞控制算法提供了可能。4.网络交换设备：新华三(H3C)高性能数据中心交换机豹智能网卡的速率相匹配。的优先级流控(PriorityFlowControl,PFC)和显式拥塞通管理机制，两者结合是RoCEv2网络稳定运行以吸收AI训练等应用中常见的突发流量，防止因PFC触●网络拓扑：推荐采用胖树(Fat-Tree)或Clos网络拓扑结构，为集群内任意两个节点之间提供无阻塞或低收敛比的1.驱动层适配与协同GPU驱动：曦云C550的GPU驱动需要提供稳定的底层API,用于内存管理、任务提交，并且必须实现对GPUDirectRDMA的支持。这要求驱动能将GPU显存的物理地址页映射并暴露给支持RDMA的第三方PCIe设备(即云豹智能网卡)。智能网卡驱动：云豹智能网卡的驱动不仅要实现标准的RDMAVerbs接口，还需与曦云GPU驱动进行深度适配。当上层应用发起GPUDirectRDMA传输请求时，两个驱动需要协同工作，完成GPU战之一。2.通信中间件优化基础RDMA库：基于Linux内核的rdma-core等基础库进行适配●后端适配：针对目前广泛使用的NVIDIANCCL,需要开信原语(如AllReduce,Broadcast)翻译成针对“曦云C550+云豹智能网卡”的RDMARead/Write/Send操作序列。优先在节点内通过速度更快的MetaXLink完成第一轮规约，然后再通过云豹网卡进行跨节点规约，最后在节点内广播结果，从而形成分层、高效优的通信算法(如Ring-based,Tree-based,或两者的结合)。3.拥塞控制与流量调度优化端网协同拥塞控制：依赖硬件配置的PFC和ECN只是基础。软件层面需要实现或优化一套完整的拥塞控制算法，如DCCenterQuantizedCongestionNotification)。该机制通过云豹智能网卡 (作为端点)和新华三交换机(作为网络)的协同工作，实现对网络度地减少因PFC暂停帧引起的链路停顿，维持高吞吐和低时延。流控机制优化：针对AI训练中混合存在的大量小消息(如控制信令)和少量大消息(如梯度数据)的特点，设计差异化的服务质量 (QoS)策略。通过在交换机和网卡上设置不同的流量队列和优先级，确保小消息的低时延传输不被大流量任务阻塞。通过开发定制化的PyTorchProcessGroup后端或TensorFlowAI框架中。用户只需在代码中指定新的通信后端名称，即可透明地●内存映射与注册：设计一个内核模块，它通过曦云GPU驱●性能验证：使用rdma_pingpong或自定义的基准测试程序，验证GPU显存到GPU显存(G2G)的传输带宽和时延，并与传统的CPU中转路径进行对比，量化GPUDirectRDMA带来的性能增益。2.网络健康与性能监控模块(1)数据采集●交换机层：通过新华三交换机支持的Telemetry、SNMP或gNMI等协议，实时采集各端口的PFC帧计数器、ECN标操作的性能计数器(QPcounters)、CNP(拥塞通知包)23(2)数据处理与存储列数据库(如Prometheus)。(3)可视化与告警使用Grafana等可视化工具，创建定制化的监控仪表盘，直观展当PFC帧持续出现或网络时延超过阈值时，能主动通知运维人员。3.自适应集合通信算法模块●算法库构建：预先实现多种经典的集合通信算法，如Ring、●性能建模：在离线阶段，对不同算法在不同消息尺寸、不同集群规模下的性能(时延和带宽)进行基准测试，建立控模块获取的当前网络负载信息，查询性能模型，选择预●在线学习与调整：引入强化学习或简单的反馈机制，决策引擎可以根据实际执行的性能反馈，持续微调其内部的性能模型，使算法选择越来越精准，实现系统的自适应和自低时延通信是指通过技术手段将数据传输过程中的延迟降低至(1)时延的构成●传输延迟(TransmissionDelay):数据从发送端物理介质发出所需的时间，通常与链路带宽和数据包大小相关。例如，在100Gbps的光纤链路上传输1KB数据包的传输延迟仅为约80纳秒。●传播延迟(PropagationDelay):信号在物理介质中传播的时间，取决于传输距离和介质中的信号传播速度(如光速的2/3)。例如，北京到上海约1200公里的光纤链路，传播延迟约为6毫秒。●处理延迟(ProcessingDelay):设备(如交换机、网卡、GPU)解析数据包头部、执行转发决策或执行计算任务的列中等待处理的时间，尤其在高负载场景下可能显著增加 (如交换机拥塞时)。(2)时延的量化标准●中时延(10ms～100ms):如视频会议、在线游戏；●低时延(1ms～10ms):如工业自动化控制、金融高频交●超低时延(<1ms):如自动驾驶紧急制动、分布式AI训2.低时延通信的应用场景低时延通信广泛应用于人工智能训练(如大模型参数同步)、高度学习中，多GPU间需频繁交换梯度数据，时延过高会导致训练效(1)人工智能与分布式训练在大模型训练中，多GPU节点需频繁交换梯度数据。以BERT-Large模型为例，单次迭代的梯度同步若延迟超过10微秒，可能导致GPU利用率下降30%以上。通过GPUDirectRDMA技术可将延迟降至1微秒以内，显著提升训练效率。(2)金融高频交易迟差异可能导致每笔交易损失数百美元。低时延网络(如采用光通信技术的专用链路)可帮助交易系统在纳秒级完成订单撮合。(3)自动驾驶与车联网自动驾驶车辆需实时处理传感器数据并与其他车辆(V2V)或基础设施(V2I)通信。例如，紧急制动场景要求端到端时延低于5毫(4)工业互联网与远程控制在智能制造场景中，机器人协同操作依赖超可靠低时延通信 (URLLC)。例如，工业现场的运动控制指令传输延迟需控制在1(5)实时渲染与虚拟现实(1)减少数据路径中的冗余操作传统通信架构中，数据需多次经过CPU和主机内存中转(如从GPU到CPU再到网卡),导致额外拷贝开销。例如，PCle4.0总线的一次数据拷贝可能消耗2微秒。通过GPUDirect和CXL技术实现(2)提升硬件层的传输效率GPU与设备间的带宽提升至TB/s级；●低时延网络协议：利用RDMAoverConvergedEthernet (RoCE)或InfiniBand协议，将网络传输延迟降至1微秒●硬件卸载：通过智能网卡(SmartNIC)或交换机芯片实现协议栈处理卸载，减少CPU干预。(3)优化软件协议栈与算法●动态流量调度：基于AI模型预测网络状态，动态调整数据包优先级(如区分梯度同步与日志传输);·内存管理优化：采用零拷贝(Zero-Copy)技术，避免数据(4)面向国产GPU的适配性挑战●硬件生态兼容性：需设计与NVLink/PCle兼容的互连架构，29●协议栈自主可控：基于国产操作系统(基于kernel4.低时延通信的技术演进趋势●端网协同：端网协同通过AI驱动的智能化优化，使用机器学习模型预测网络拥塞状态，动态调整路由策略，跨层级联合优化硬件与协议，实现端到端时延的全局可控性与动●存算网一体化：在GPU芯片内部集成网络接口与存储控制器，消除跨设备通信瓶颈；●确定性网络(DeterministicNetworking):通过时间敏感网络(TSN)技术，为工业控制等场景提供时延上限保障；●硅光技术(SiliconPhotonics):硅光技术通过高带宽、低功耗的光互连，显著降低数据传输时延至亚微秒级，支撑●光交换机技术：光交换与光互联技术利用动态光路由构建●在网计算(InNetworkingComputing):在网计算通过嵌入网络设备的计算能力，减少冗余数据搬运，提升分布式系(二)GPU硬件加速通信时代显现出显著局限性。当GPU凭借并行计算优势实现指数级算力增长时，原有基于PCle总线的CPU-GPU通信架构成为制约数据吞的传输，导致I/O延迟与CPU开销呈几何级放大。NVIDIA推出的资源的池化扩展与数据直通传输，将GPU-GPU带宽提升至PCIe5除CPU在存储路径中的中介角色，使GPU可直接访问NVMe存储设备。这些创新标志着计算架构正从“CPU中心论”向“数据流驱GPU互联通信分为单机多卡通信和多机多卡通信。单机多卡通过CPU实现跨节点零拷贝传输。两类技术共同突破传统I/O瓶颈，GPUDirect最早是NVIDIA开发的一项技术，可实现GPU与其他设备(例如网络接口卡和存储设备)之间的直接通信和数据传输，而不涉及CPU。使用GPUDirect,网络适配器和存储驱动器可以直接支持同一PCle或NVLink总线上的GPU之间的内存访问。●2012年底，GPUDirectRDMA完美地解决了计算集群节技术已经逐渐完善，形成了包括GPUDirectP2P(Peer-to-Peer)技术允许同一节点内的多个GPU通过PCIe或NVLink总线直接传输数据，无需将中间数据暂存到主机内存。例如，NVIDIAKepler架构已支持该技术，开发者可通过来实现GPU间直接通信(一般用于机内通信)。图3GPUDirectP2P数据流示意图●国产GPU需设计兼容的互连拓扑结构(如类似NVLink的高速接口);●需优化驱动层对P2P的支持，确保多GPU协作时的内存一致性。对AI和HPC应用而言，随着数据规模的不断扩大，数据加载时间对系统性能影响越发显著。随着GPU计算速度的快速提升，系统I/O(数据从存储读取到GPU显存)已经成为系统瓶颈。Fabric)与GPU显存的直接通路，减少不必要的CPU中断和系统内存拷贝(通过bouncebuffer)。消除CPU和主机内存的数据中转环节，使GPU可直接访问存储设备(如NVMeSSD和存储系统)。这SystemmemorySystemmemorySyst图5GPUDirectStorage数据流示意图RDMA(Remotedirectmemoryaccess)技术可使外围PCIe设备直机通信。它能减轻CPU负载，同时也能减少不必要的通过系统内存SystemSystemMemoryGPUDirectVideo提供一个服务于frame-based的通过优化的流水过去处理视频的第三方硬件与GPU交互时，会引入不必要的延迟，如上图左边所示。有了GPUDirectVideo技术，I/O设备和GPU可达到很好的同步(两个设备driver间拷贝数据),同时能减少CPU通过RDMA操作实现节点之间的高速直接内存访问和数网上实现RDMA的技术。它使用标准的以太网作为底层传输介质，并通过使用RoCE适配器和适当的协议栈来实现RDMA●iWARP:iWARP是基于TCP/IP协议栈的RDMA实现。它TCP/IP协议栈中实现RDMA功能来提供高性能的远程内 IBTA定义的蓝色内容图9RDMA三种承载网络图10RDMATransports对比示意图在实现上，RDMA实际上是一种智能网卡与软件架构充分优化的远端内存直接高速访问技术，通过将RDMA协议固化于硬件(即网卡)上，以及支持Zero-copy和Kernelbypass这两种途径来达到其●零拷贝(Zero-copy):应用程序能够直接执行数据传输，在不涉及网络软件栈的情况下，数据能够被直接发送到缓冲区或者能够直接从缓冲区里接收，而不需要被复制到网●内核旁路(Kernelbypass):应用程序可以直接在用户态执行数据传输，不需要在内核态与用户态之间做上下文切●不需要CPU干预(NoCPUinvolvement):应用程序可以访问远程主机内存而不消耗远程主机中的任何CPU。远程主机内存能够被读取而不需要远程主机上的进程(或CPU)参与。远程主机的CPU的缓存(cache)不会被访问的内了GPU加速计算和RDMA(RemoteDirectMemoryAccess)技术，实现了在GPU和RDMA网络设备之间直接进行数据传输和通信的能图11GPUDirectRDMA跨节点通信示意图GPUDirectRDMA通过绕过主机内存和CPU,直接在GPU和RDMA网络设备之间进行数据传输，显著降低传输延迟，加快数据交换速度，并可以减轻CPU负载，释放CPU的计算能力。另外，GPUDirectRDMA技术允许GPU直接访问RDMA网络设备中的数(三)低时延通信的协议栈分析与优化维的需求，目前业界比较常用的网络方案是InfiniBand方案和(1)InfiniBand网络架构个被指定为主SM,负责通过管理数据报文(MAD)的内部下发和上传来管理所有交换机和网卡。每个网卡端口和交换芯片都通过由SM分配的唯一身份标识(LocalID,LID)进行识别，确保网络内设备InfiniBand网络基于信用令牌(credit)机制，在每条链路都配备而避免了缓冲区溢出或数据丢包的问题。同时InfiniBand网络的自大规模的网络环境中实现了网络资源的实时优化和最佳负载均衡利RoCE(RDMAoverConver上进行RDMA的集群网络通信协议。该协议有两个主要版本UDP传输层，取代了InfiniBand的网络层，从而提供了更优的可扩展性。与InfiniBand网络的集中管理方式不同，RoCEv2采用的是纯图13RoCEv2网络架构示意图已发送的数据则会存储在下游交换机的缓存中，等到缓存恢复正通信。其核心理念是在网络拥塞发生时，优先RoCE网络利用RDMA技术实现了高效的数据传输，不必占用市场中对网络的多样化需求促成了InfiniBand和RoCEv2两种网络架构的共同发展。InfiniBand网络凭借其高级技术，如高效的转发性能、快速的故障恢复时间和增强的扩展性，以及运维效率，在应用层业务性能上展现出显著优势，特别是在大规模场景下，能够提供卓越的网络吞吐性能。对比项流控机制转发模式负载均衡模式故障恢复网络配置基于LocalID转发通过UFM实现零配置基于IP转发ECMP方式路由路由收敛图14InfiniBand与RoCEv2技术对比图功能和规模运维运维业务运维：InfiniBand相较于RoCEv2更加成熟，提供了诸如多场提供优质的产品与服务；而在RoCEv2领域，则有多家供应商共同时也是国产化GPU低时延通信协议的首选，但存在三大限制，这限制1:每连接单路径的限制限制2:硬件RC连接数的限制限制3:GoBackN重传能力的限制这也是当前RoCEv2依赖开启PFC反压的主要原因，由于丢包后重传的代价巨大，需要依赖PFC反压尽量杜绝网络上的丢包。限制4:大QP规格下流控机制限制在QP数量较多的场景下，基于公平轮询原则，单个QP调度时优化点1:支持每连接多路径的能力优化优化点2:从RC模式往连接数依赖更小的模式演进目前基于RC的通讯是为每一对需要通讯的QP建立、维护一组接池，实现连接的动态共享，Mellanox的DC技术就是此思路的代优化点3,从GoBackN向选择性重传优化限的情况下硬件卸载的协议栈选择此方式来实现重传，加上有PFC加持，一般来说丢包概率非常低(在PFC参数配置合理的情况下，一般只会在出现链路错包，链路故障的情况下才会发生丢包),芯片实现GoBackN重传不失为一种合理的选择。但随着RoCE组网规方式将会逐渐从GoBackN的全量重传演进到选择性重传。优化点4,基于大QP组的拥塞控制将两个节点间共享同一转发路径QP资源归为一QP组，如下图内所有的信息可以实现共享，如CNP反馈信息、速率信息、令牌信息等，在大QP组内，实现各个QP的速率快速精准控制。当网络出一个调整比例系数，告知各个小QP;2)QP组计算出来组速率，分解到各个小QP,然后告知各个小当RoCEv2协议延伸到更复杂的超长距互联网络时，问题将变得更为复杂。当单一的技术手段无法满足需求的时候，尝试将AI、PFC、ECN、TDM等多种技术手段进行融合将是一种必然的选择，采用智能化多维度分析调度的手段才能达到最佳的效果。(四)实时任务处理机制设备级保障Failover去包硬件MOD异常丢包记录和上报us微秒级缓存突发基于硬件的高精度统计和监测光模块劣化趋势分析和预警率统计隐患光模块智能识(1)设备级保障1)隐患光模块劣化趋势分析和预警都可能导致整个AI训练任务被中断。智算交换机基于DOM功能实2)微秒级缓存突发监测和毫秒级高精度速率统计AI大模型训练流量具有高吞吐、微突发、高频次的明显特征，原有基于CPU软件的传统网络性能质量监测技术已无法适用。智算交换机依托自研芯片可编程能力，在芯片各接高精度Counter监测指示器，提供端口、队列、流量等不同粒度毫3)亚毫秒级故障通知和切换●硬件丢包环回。对发送给MAC的业务报文，当硬件识别出该端口故障，则会自动将该业务报文环回到发送端，芯片重新查找转发表项获取备用端口发送出去，从而避免丢片层面各类常见丢包事件(如路由未命中、MTU错误等),精准记录丢包原因及被丢弃报文的关键特征并自动推送给路径，芯片自动生成ARN消息通知上游节点，消息中携带受故障影响的业务报文特征信息；上游节点收到ARN消息时，利用报文特征信息查询本地表项尝试进行换路，整个端到端ARN处理和换路可在图18亚毫秒级故障切换流程示意图(2)网络级保障超高带宽，在一个Group中实现GPU数量和通信带宽倍增。双平面图19A:B双平面网络架构示意图2)端网协同毫秒级故障自愈在A:B双平面的网络中，还可以在交换机和DPU网卡上同时开启ARN自适应路由功能，通过端+网协同工作来提升跨平面故障切AI大模型训练网络需要更高的传输速率。对于给定的波特率，四电平脉冲幅度调制(PAM4)能有效地将比特率提高到不归零(NRZ)假设FEC纠错后的BER为le-12,则一个包含256个GPU的POD内估计每秒将产生2700个错误帧。虽然PAM4可以采用高级前向纠错(FEC),以满足更低的BER需求，但更复杂的FEC机制会显著使用轻量级FEC(即使用6字节FEC和额外的8字节CRC保护242字节块)来纠正大部分比特错误，然后检查CRC。如果此检查失败，上采用低时延FEC叠加链路层重传功能，也能显著降低网络时延，以IEEE802.3400GE为例，当前400GE基于PAM4信令并采用在物理编码子层的延迟约为62.6纳秒。假设在150米的400Gb/s以太网光纤链路上传输N个64字节帧，每N帧会有1个帧丢失，1个帧的往返时间(RTT)约为2000纳秒。但如果将RS(544,514)替换为RS(272,258),并对由于采用RS(272,258)的帧丢失率(FLR)较高而3.端网协同网络路径精确控制●端侧主动探测路线。由端侧探测路径，进行路径的精确发现和信息维护。通常由发送端主动发送探测报文，通过改变报文TTL值以及流量特征值(如源端口号等)实现网络路径的发现，形成发送端的路径数据库。但由于哈希冲突的存在，该种方式有可能导致对网络路径探测不全，此外当出现网络链路变更时，无法及时获取变更后的路径信担算法，由端侧对网络上各设备选路进行模拟计算，从而得出相应流量的网络路径信息。该方案效率更高，也能够对网络事件更快速地做出反应。但需要端侧提前预知网络设备转发逻辑，并预置算法，端网耦合较紧密，且增加了●端网协同路线。利用网络侧较强的路径探测和控制能力，满足端侧对路径控制的需求。该路线可发挥端和网各自的南向接口南向接口服务器：网卡根据管控系统配置，在发出业务报文时，携带相应路径控制标识。NCPC方案中，在网络拓扑、链路、配置等发生改变后，可首先载状态进行全局路径规划和控制。如下图所示，网络控制AlAl调度平台流量创速、销毁接口需标准化活跃表项流量特征，数据量转发策略●本地自适应路由，交换机本地根据出口负载状态，动态选择出口。在全局规划的前提下，主要针对网络突发事件引起的瞬时流量不均，及时对路径进行局部调整。时，通过数据面报文通知上游节点进行切换，完成远端路同时还要兼顾时延和实现成本；此外逐包喷洒的情况下还需要考虑防止故障半径的扩散，以及不固定的转发路径对●传统的每流基于五元组哈希方式在AI训练场景下容易导致哈希极化和负载不均，但配合层次化负载均衡技术，从全局视角尽可能将大流分担到不同链路上，避免同一时间多个大流共用链路，也可以以较小的实现代价提升网络中分布式全调度网络(DSF)技术路线中，流量按报文单元或容器对报文进行转发，通过对报文单元的路径编排，在5.多维智能自动化运维关键技术一、指标监控：性能、资源、流量、路径信息二、性能调优：全局路由、负载均衡、拥塞控制P流量端到端性能业务路径和故障点丢包和拥塞根因ROCE指标(PFC计数、Hoadroom缓存、无设备指标(板卡、CPU、内存、电压.….)链路指标(接口、队列、光协议指标(表项、居状态..)②节点和链路定界层可观测性体系，并基于Telemetry技术，通过算侧和网侧的上报获(1)基础网络层●链路指标：跟踪接口报文计数、流量统计、队列信息、光●协议指标：检查协议状态、路由及邻居表，确保全面网络监控。通过大数据分析处理上述数据，实现健康评估、风(2)网络服务层●服务路径指标：涵盖ECMP路径的时延与丢包详情，利用存状态及PFC死锁恢复次数。通过大数据分析上述采集数(3)业务层指标度更细。通过计算或网络节点提供毫秒级业务流统计，包●端到端性能评估：获取AI训练场景下业务流实时丢包率与延迟数据，采用随流检测技术(如IOAM、INT或IFA),径上的所有链路与节点，利用计算侧扩展的随流检测技术●根因信息上报：一方面采用MOD技术，覆盖Ingress、Egress和MMU环节，报告受影响流、事件时间、原因及数量。另一方面采用MOC技术，自动探测微秒级拥塞并精确捕捉突发情况，包括拥塞时间窗口、队列深度峰值及●指标监控可视：实时掌握网络资源与业务动态，如端口占●业务性能调优：监控关键指标，优化网络与业务协同，精与分钟级自动恢复，显著增强网络运维效率和可靠性，保智算中心网络的多维分层可观测性需求推动了Telemetry技术的●●节省CPU资源和总线带宽，实时性、精度高，水水平扩展，难以满足现代化的网络Telemetry要求面向高性能网络的发展趋势，Telemetry技术将聚焦于以下关键●优化芯片算力利用：通过芯片算法与设计创新，在确保信●本地感知与智能化决策：全生命周期的业务检测与资源覆盖，在芯片级减少不必要的开销。借助高精度的数据感知结果，驱动本地节点实现智能分析与即时决策机制，显著●综合运用多种遥测技术：整合基于流、基于事件及混合型遥测方法，形成全面灵活的解决方案体系，增强网络观测(五)网络拥塞控制策略典型的数据中心组网如下图所示，分布式计算与分布式存储的设计，会导致多个服务器同时向一个服务器传输数据的多打一现象，造成拥塞丢包，严重影响网络的时延和吞吐性能。多打一拥塞图24数据中心网络多打一拥塞场景示意图数据中心网络通常采用ECN机制进行流量速率控制，流量接收智能无损功能是对基础ECN功能的扩展和增强，算法模型基于队列的拥塞情况，动态调整ECN水线，实现丢包、吞吐与时延的最类智能算法的使用均能带来远优于基础ECN功能的更好的拥塞控制(1)精细化拥塞控制无论是基础ECN还是扩展和增强后的ECN,位于IP报头中的ECN字段始终只包含2比特信息，能表示的拥塞信息有限，无法支带内遥测机制，较为有影响力的包括INT、IFA和IOAM,以及新提式特点长度递增型拥塞控制信号递增长度固定型拥塞控制信号(2)快速反馈拥塞信息功能。快速CNP是由检测到拥塞的中间交换机直接向发送端反馈拥这种拥塞通告反馈链的缩短在长距离RDMA应用场景下能带来显著的收益。目前，业界已有多种私有的快速CNP技术方案，这些方案速CNP方案的灵活部署，所以快速CNP方案的标准化就显得尤为必(3)流控机制优先级的流控PFC仅支持入口8个队列，单独使用难以满足高性能网络需求，但可以与其他拥塞控制/流控机制配合使用，作为其他机(六)低时延通信的性能评估指标延迟(Latency):单向传播延迟(RTT的一半)和端到端延迟。带宽(Bandwidth):有效数据吞吐量(如GB/s)。2.测试工具与方法nvbandwidth:NVIDIAGPU间带宽测试工具。RDMAping/pong测试：评估RDMA网络延迟。3.国产GPU的评估重点节点1和节点3共16张P800卡使用4条400Gps网络线缆针对节点1和节点3同时运行8个点对点的读写显存测试节点2和节点4共16张P800卡64端口400G的高通量国产交换机使用4条400Gps网络线缆针对节点2和节点4同时运行8个点对点的读写显存测试图25实验环境硬件平台示意图(1)中国长城擎天AI服务器GH7290V6中国长城擎天AI服务器GH7290V6基于海光7400系列处理器开发的一款全新企业级高性能8U8GPU服务器，适配OAM2.支持曦云550、昆仑芯P800等国产主流OAM模组AI处理器。具备卓越的计算性能和强大的IO扩展能力，在8U空间中实现了高性能比的解决方案。满足政府、互联网、能源、运营商、HPC等行业的2规格介绍处理器24*64G海力士RDIMMDDR54800MHz系统盘：960GSATASSD企业级硬盘*2数据盘：3.84TNVMeSSD*4;9560-8i/SAS12Gb/4GB缓存/RAID0、1、5、6、10、50、60、JBOD(带电池保护)网络1张CX6双口25GbSFP28网卡；1张CX6双口100GQSFP28网卡；4张CX7单口400GQSFP112网卡；4张云霄RNIC系列单口200GQSFP56网卡规格介绍I/O接口1个RJ-45BMC管理接口位于机箱后部2个VGA接口，1个位于机箱前部，1个位于机箱前部1个后置Type-C接口风扇GPU区域：10个808054V风扇，支持N+1冗余；CPU区域：4个9GPU层：可选3300W54V后进后出电源模块，主板层：可选2700WCRPS高效白金热插拔电源，支持1+1冗余，电压范围100-240Vac(2)国产GPU型号-昆仑芯P800-OAMP800OAM模组AI加速器是一款基于昆仑芯自研XPU-P架构速片间互联，组建FullMesh网络，支持高效执行7B至70B参数的表4昆仑芯P800-OAM产品规格表规格介绍PCle接口显存算力精度FP32/FP16/BF16,INT32/INT规格介绍虚拟化实例PyTorch,TensorFlow,PaddlePaddle,ONNX等AI框架，Megatron、DeepSpeed并行训练框架，XTRT-LLM、xVLL引擎物理形制(3)国产高性能交换机面向高端数据中心和AIGC智算场景推出的新一代高性能、高密度图29S9825-8C-G交换机外观示意图S9825-8C-G:支持8个插槽，支持200GE和400GE插卡，表5S9825-8C-G产品规格表外形尺寸(宽×深×高)(单位：mm)串行Console口带外管理以太网口1个电口和1个光口(不能同时工作)200GQSFP56端口支持128端口400GQSFP112端口支持64端口8电源模块四个模块化电源五个可热插拔风扇模块，前后功耗(静态)功耗(典型)工作环境温度工作环境湿度(非凝露)2.软件栈通信库采用昆仑芯XCCL集合通信库，算力调度平台采用中国电子云CECSTACK智算云异构算力平台，通信测试工具采用生成式多模态大模型训练和推理生成式多模态大模型训练和推理开源大模型系列闭源大模型高性能算子库部署智能云服务开发者套件推理引擎支持框架支持计算视觉库集合通讯库框架支持框架支持经典Al应用经典AI模型使用rb_write_bw工具使用RDMA从指定GPU的显存读出数据发送到另一台主机写入GPU显存中。可测试从显存到网络再到显存4台主机，两台一组。每组主机同时启动8对测试进程，每一对(1)启动跨主机读写显存测试1)选取节点1和节点2为一组。2)登录节点1,使用ib_write_bw工具，同时启动8个服务端测址。其中GPU0-1使用400G网卡1,GPU2-3使用400G网卡2,GPU4-5使用400G网卡3,GPU6-7使用400G网卡4。3)登陆节点2,使用ib_write_bw工具，同时启动8个客户端测试进程，每个进程分别连接上述8个服务端监听端口，开始4)选取节点3和节点4为第二组，进行同样测试。(2)统计结果读取上述两组节点，共16对测试进程的平均带宽结果数据，累(三)测试结果分析(1)节点1同时启动8个ib服务端进程，分别指定8张GPU显存图31节点1测试截图(2)节点2同时启动8个ib客户端进程，分别指定8张GPU显存地址和节点1的4张400G网卡IP地址。与服务端参数相同。-repor-report_gbits--mmap-offset=0x0018521-n1000--mmap=/dev/xdrdrv图32节点2测试截图(3)节点1上使用脚本从日志中读取每对GPU读写进程的平均带宽值，累加得出节点1和节点2之间测试总带宽为203GB/s。remoteaddress:LID0000QPNθx⁰e34PSNGID:00:00:00:00:00:00:00:00:00:00:255:255remoteaddress:LID0000QPNθx⁰e35PSNGID:00:00:00:00:00:00:00:00:00:00:255:255:19图33节点1-2测试总带宽截图(4)节点3同时启动8个服务端测试进程。图34节点3测试截图(5)节点4上同时启动8个客户端测试进程。pp18516-n1000--mmap=/dev/xdrdrv图35节点4测试截图(6)可以看到8组测试的运行结果。236..57图368组测试运行结果截图(7)使用脚本汇总节点3和4的总带宽结果为224.35GB/s。[root(qp800-3xcCl_Linux_x86_64]#catget_result.sh[root(qp800-3xcCl_Linux_x86_64]#catget_result.shcount=$((count+1))sum=$(echo"$results"|a分路1带宽29.57GB/s分路2带宽29.63GB/s分路3带宽29.58GB/s分路5带宽29.57GB/s双机16卡测试带宽总和

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

先进计算产业发展联盟2026基于国产GPU算力平台的低时延通信技术研究报告

文档简介

温馨提示

最新文档

评论

先进计算产业发展联盟2026基于国产GPU算力平台的低时延通信技术研究报告

文档简介

温馨提示

最新文档

评论

相关文档