2025年ODCC开放数据中心大会:下一代智算DC高速互联-网络需求白皮书_第1页
2025年ODCC开放数据中心大会:下一代智算DC高速互联-网络需求白皮书_第2页
2025年ODCC开放数据中心大会:下一代智算DC高速互联-网络需求白皮书_第3页
2025年ODCC开放数据中心大会:下一代智算DC高速互联-网络需求白皮书_第4页
2025年ODCC开放数据中心大会:下一代智算DC高速互联-网络需求白皮书_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

--网络需求白皮书开放数据中心标准推进委员会ODCC2025年9月版权声明转载、摘编或利用其它方式使用ODCC成果中的文字或者观点千亿乃至万亿参数模型的训练与推理,催生了GP的下一代高速互联网络,已成为释放AI算力潜能、赢得智能时代求、关键技术挑战与未来演进方向。其目的在于凝聚产业共识网络架构师、设备制造商、芯片研发者及云服务提供商提供权技术参考与规划指南,并促进产业链上下游协同,推动技术创共同构建面向未来的、可持续的高性能智能计算网络底座,为 7 1 6 8 8 9 2一、智算网络发展现状与趋势(全球)万亿参数、长序列、多模态、长思维链以及物理AI几趋势。可以预见的是,未来几年AI对集群算力的需求智算网络发展至今,以太网技术在标准组织(如UEC超级以太网联盟)和产业上下游的共同努力下,在与Infiniband技术的竞争中取得明显的优势,已经成为万卡以上集群ScaleOut网络的首选场景成为业界关注的焦点。以AMD为首的UALink1.0协议规范的NVL72/CloudMatrix384超节点对推理性能和集群算力利用率提32.大模型业务的分布式、稀疏化、服务化,要求智算网络具有趋势,专家并行(EP)的广泛使用导致了通信对象的不可预期,并础的电互联网络已经初现IO性能和集群架构的双重瓶颈,加速了XPO技术的产业应用节奏。以NPO/CPO光电共封装、OCS光交换4.AI负载展现出对规模、带宽和延迟性能的极度贪婪,智算网议上指出:“我们正处于分布式计算的第五个历史性时刻,生成式AI对连接性能的需求跃迁意味着我们需要重新审视未来的网络”。4何在满足规模的前提下进一步满足超高带宽和超低延迟的需求成为5.AI对网络的影响力已经外溢至数据中心外,AIWAN成为新2023-2024年间,在AI业务的驱动下,Meta骨干网流量呈30%以上的高增长,且AI流量占比已经超过了传统流量。由于国内6.智算标准和技术联盟推动开放互联取得实质性进展,行业进网络最重要的细分场景,行业均进入了多生态赛马的关键阶段。在5二、AI大模型演进对智算网络需求综述基于以上主流趋势及AI大模型持续升级,因模型性能与参数规模呈超线性关系,模型参数规模在指数级增长(破)、训练数据量爆发式扩张(单模型训练数据达EB级)。AI头推动了对更高性能计算平台的需求。这促使AI系统架构向Scaleup(纵向扩展)转变,即通过增强单节点内的计算点数量来提高整体性能。在Scaleup架构下,数百乃至上千个GPU来源:Huawei,20246在此背景下,互联网络成为影响AI训练效率的关键2)为了减少跨节点梯度同步所带来的通信延迟,亟需部署低延同步训练至关重要,特别是在大规模GPU集群中,任何微小3)为确保系统的长期稳定运行与数据安全,网络架构必须具备4)面对大规模集群环境下的复杂通信模式,传统网络拓扑已难5)为实现大规模分布式训练中各计算节点间的高效协同,高精76)为保障智算网络的高效运转与持续可用性,还需在运维管理三、智算业务对网络的新重点需求3.1新拓扑需求3.1.1大规模智算集群场景AI大模型计算需求持续攀升,直接驱动集群组网规模扩张,亟百卡级别。结合业界最新提出的Attention-MoE分离技术(MegaScale推理架构已公开采用该技术),推理算力池预计可以扩大到K~10K8来源:根据公开资料整理智算中心的网络设计需满足高性能、低延迟、高扩展性因此需要选择合适的网络设计。此外,数据中心的规模从几十台服务来源:SPCL,ETHZurich9模和成本的最优平衡点。在智算中心中,Clos/FatTree拓扑是最广泛连在一起。如图3所示,它的创建方式是,每个Leaf交换机都直接出色的灵活性。Clos/Fat-Tree可以进行。Clos/Fat-Tree架构可有2层/3来源:ClipSafariDragonfly拓扑是HPC(HighPerform来源:《华为研究》,2025年7月在Dragonfly的基础上,可进一步升级为Dragonf于传统的Dragonfly网络,Dragonfly+主要在拓扑结构、全局链路分布、路由策略以及可扩展性方面进行了改进。Dragonfly+的组网方式用Clos架构2)组内通信,组内交换机和节点通过高带宽连接实现低延迟通信3)组间通信,使用分层全局链路连接各组,链路Dragonfly+组网架构可以灵活分配组内通信和组间通信的连接来源:《华为研究》,2025年7月),Group-WiseDragonfly+通过改变Dragonfly+组网中L2交换机连Group-WiseDragonfly+具备Dragonfly+的全部优点(除了牺牲了最大Dragonfly+由于中间交换组(组B)的每个L2交换机连接了所有组的同号L2交换机,因此不需要Down-Up绕行就能实现绕路。如图号的低损耗传输。此时,链路的静态延迟天然会增大到us级别,甚径,3条绕路路径。虽然稀疏化互联在一定程度上牺牲了P2P的通信带宽,然而AI因此,BST的均衡性设计原则又保障了M2M通信具有与Clos持平节点radix=R,无收敛情况上行端口数为R/2,Clos与其他任意数量的Leaf节点通信时均可用满这R/2份带宽;结合集合通信的M2M流量模式,BST的设计规则需要满足该Leaf节点与其他(M-1)个Leaf节点通信时可以均衡打满R/2份带宽,即任意Leaf节点到其他(M-1)个Leaf节点具有相同的最短路径数量。3.1.2扁平化拓扑技术体系场景时,使用Dragonfly拓扑具有在使用Clos/FatTree拓扑时,则需要考虑计算单元之间不能有太在部署Clos/Fat-Tree等拓扑时,网络中有大量的ECMP链路,跳节点之间的链路故障/拥塞情况,可显著减少因选择错误的下一跳在智算中心的规模较小或者非密集型拓扑时,也可采用OSPFIntermediateSystem)等传统路由协议,如果辅以泛洪减少、加速通Protocol)和RIFT(RoutinginFatTree)等,BGP/RIFT协议不仅适配大规模路由数量,其优良的扩展性也是优势。模网络中部署可有效减少运行和维护的压力。特别的,RIFT协议本身没有冗余泛洪的问题,其南北向分离通告和算路特点,非常符合另外还需要考虑这类大型网络的运行和维护难度,具备ZTP3.2P2MP通信需求3.2.1P2MP通信关键场景混合专家模型(MixtureofExperts:MoE)通过把超大网络拆成的前提下大幅扩容参数量。MoE模型的核心流程分为两步(如图9),来源:DeepSeek-V3TechnicalReport在DeepSeekV3等模型中,专家数量众多,难以在单节点存储,阶段涉及大范围节点的AlltoAll通信,同一token的多专家冗余传输MoE模型在推理过程中,不同专家冷热程度每隔一定时间随请求负载发生变化,收到token更多的热专家容易成为慢节点,影响推在多Agent系统协同工作的场景下,主模型Agent对请求任务规Agent往往都需要基于主模型Agent产生的上下文信息进行推理,例主模型Agent产生的上下文发送给其他模型Agent,后续Agent可以3.2.2P2MP通信核心需求MoE场景下Gating对专家选择具有随机性,在专家BIER是一种高度灵活的组播技术,相对于传统的组播技术,BIER技术将组播流的转发与网络状态完全解耦,其核心转发层的转机制,优化组播流量在智算多路径条件下的自),接的可靠确认机制以应对极端丢包场景,防止偶发丢包造成训练/推3.3高可靠需求3.3.1高可靠核心场景杂任务分配给多个专业化“专家子模型”并行处都有严格要求;另一方面,推理过程中“门控网络与专家子模型”“不同专家子模型之间”的交互频繁,任何一次数据传输失败或延迟超标,都会导致整个推理结果错误或超时。因此,在为MOE推理场景设计可靠性解决方案时需着重考虑低时延要求。多元化AI智能应用场景:可靠性随应用自定义,弹性适配各类3.3.2高可靠具体需求再根据不同业务场景的可靠性诉求,匹配差异化的恢复策略,既保证故障处理的效率,又避免“一刀切”式恢复造成的资源浪费或体验通信单元)、多层架构(云—边—端)和动态流量(如MoE推理的随机调度微秒级甚至纳秒级精准检测故障类型并快速略,在恢复速度、资源消耗、和业务影响之间找到最优解。3.4高精度时间同步需求3.4.1高精度时间同步场景随着智算网络业务的发展,分布式业务部署越来越普遍,即:业也可能是部署在同一机房的不同物理设备如何保证训练推理任务运行的一致性,以及异地数据的读写一致性,这个问题会变得越来越当前国际ITU和IEEE标准组织,及OCP开源组织等正在研究数据中心网络设备(包括:末端计算服务器,DC交换机)支持高精效率和GPU利用率当用户在读写多个异地备份数据时,高精度时间同步可以提升数据读3.4.2高精度时间同步需求对于上述四个业务场景,目前的普通精度时间同步(如:N),),),考虑在网络故障时,长时间内(如:30天)还能提供满足业务应用3.5高安全需求AI大模型及智能体等技术驱动了高性能集群网络的蓬勃发展,在智算任务部署与执行之前,两个执行AI任务并需要协作的通信实体之间,需要执行双向认证以确保连接的合法性。在处理用户AI任务请求时,需要验证请求及来源的合法性,向客行业务实体的合法性。另外,针对高安全的场景需要提供更加可信的认证技术,需要有可信的硬在某些场景下需要支持纳秒级安全传输延迟、Tbps级线速加解密能且高效的访问隔离技术来防范非法的访问。三、传统网络需求的新变化4.1大带宽互联需求视频与文本等多种数据类型需在训练和推理中被同时处理。这类任务4.1.2大带宽需求的均衡分配与高效利用,避免热点链路拥塞,确保GPU/AI芯片算4.2低时延需求4.2.1低时延场景分布式AI训练与推理调度生成式AI(如LLM训练)在内的大规模分布式训练任务。若通信延时过高,将导致GPU/AI加速芯片的利用率显著下降。有文献如“ResearchonDistributedTrainingArchitectureforLargeScaleModels以保障大规模并行运算的进行。存储与计算解耦架构跨集群与多数据中心协同4.2.2低时延需求成为主要优化目标,由此可以归纳出三大核心需求1)轻量化协4.3运维/检测4.3.1动态流量下的性能波动实时监测网络性能(时延、抖动、吞吐)的敏感度差异显著。传统“秒级/亚理请求)的毫秒级波动。针对原生ld/st甚至需要亚微秒级的测量精业务级根因分析:构建业务-网络联动引擎,关联网络指标(端口拥塞、ECN)与任务状态(GPU利用率),快速定位链路拥塞、4.3.2超大规模网络故障快速定位与自愈场景:在万卡级GPU集群中,单交换机或链

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论