版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
[编号ODCC-2025-03006]扁平化智算网络架构研究报告开放数据中心标准推进委员会ODCC2025年9月版权声明ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。本研究报告通过剖析智算网络训练与推理两大场景的业务负载 6 2 4 5 6 9 5 6 7 一、智算网络场景(一)业务负载说明1.训练场景前向传播计算损失值、反向传播确定梯度,以及通过优化器调整模型模型和激活张量分割至数万块XPU。在每个迭代轮次内,XPU之间频繁交换数据以分发输入数据、同步激活值及梯度等。随着训练系统规模扩大,数据移动成为整个系统中最耗资源的环节。若缺乏强大的针对采用混合专家(MoE)的模型,将稠密MLP层替换为含多2.推理场景阶段,分别部署不同的XPU上。Prefill阶段处理用户输入的整个的输入,网络新增的负载就从Prefill节点传输KVCache数据到Decode节点。业界有实践证明PD分离可以大幅提升推理的TPS将MoE模型推理解耦为Attention(注意力计算)与Expert(专家执行)两个独立阶段,分别部署不同的XPU上。Attention阶段执batchsize设置不宜过高,硬件需求为访存密集型,适合部的batchsize以提高计算效率。硬件需求为计算密集型,适合部署在数据和专家计算结果,形成M:N的数据交互,这是AE分离所产生3.负载样例多种并行技术共同将训练任务分发至集群中的XPU进行并行计算。如下是基于Deepseek模型建模的通信量数据。表1描述了同并行技术产生的数据流量存在显著差异:EP占据总通信量中的绝量111811111//2//041416888比比比(二)三种网络类型智算集群涉及三个独立网络,包括Scale-Up、Scale-Out和用于互联多台XPU服务器,支持分布式训练、推理任务的节点条来源:UEC1.SO网络的主要需求根据epoch.ai[4]的测算,在过去的五年,前沿大模型的算力需求然而大规模组网的成本,是个重要的挑战。DCN普遍采用胖树具体地讲,SO网络的下一个目标,是如何低成本地满足十万卡量级2.SU网络的主要需求模型参数量破万亿。对于稀疏模型,最优的部署方式,通常是每个XPU部署一个专家,这样可以最小化推理过程中的访存带宽需求,K3.VPC网络的主要需求务器进行计算数据供给,主要的数据包括推理请求、检索增强、KV这中间潜在的需求是提升VPC网络端到端的带宽供给。此方向有待二、现有组网架构讨论1.胖树拓扑及其各类变形一个物理临近的区域,业界也称为POD,网络视角的特征是在一个网络设备,在初始阶段就按最大规模建好,其下层的网络,按POD的数量、XPU所属的物理位置。要准确计算准确的收敛比需求,需Serdes速率Cable电缆驱动距离(米)~1于网络负载均衡即不存在ECMPHASH选路的路径冲突问题。业界2.Dragonfly拓扑不同于胖树用“堆叠交换层级”扩展组网规模的高成本方式,Dragonfly通过交换机间的直连替换交换机层次堆叠,实现组网规模Dragonfly类拓扑具有相对较好的对称性、可模组性、成本、普适性。其对于通信性能而言,Dragonfly的全局均匀流量下的性能与胖树几乎持平,但这需要适配的自适应路由及流量均衡算法。Dragonfly的可划分性远不如胖树,因此面对局部热点流量时,性能3.Dragonfly+拓扑Dragonfly+拓扑在超算有少量的应用,在智算尚未见公不同于传统的Dragonfly拓扑,其交换机组内交换机的互联关系交换机组间的互联关系与Dragonfly拓扑一致,即:通过1DFullMesh对比传统的Dragonfly与胖树,Dragonfly+的优势在于:具有更1.胖树拓扑分对。NVL576跨机柜的超节点,采用2层Clos架构,导致高成本光互联,成为阻碍客户接受的主要原因。2.Torus拓扑谷歌通过自研TPU计算芯片,叠加Torus低成本组网,实现 Torus拓扑的缺点是对于All-to-严重影响超节点拓扑在稀疏模型训练下的线性度。TorusAll-to-AllAllReduce流量主导,适配Torus拓扑;其通信模型都可以转换为近性能。TPUv5e在Pod间进行Clos集群组网,能够部分解决集群3.Mesh类拓扑三、扁平化智算网络架构优化方向围后,Group-WiseDragonfly+是较优的选项,逻辑上看,这两种拓对于SU网络,业界重点关注的方向是一层全光互连,实现升引入光互连后的系统可靠性,同时为了最大化规模,需要端侧IO1.多平面胖树拓扑单个网卡的接入带宽需求为400G,则采用四平面,每个平面提供simultaneouslyutilizeallavailableportsfortransmitting此网络架构有4个主要问题需要解决:在此基础上,需要进一步解决布线问题。如图24所示,有两种式,下图25是逐包均衡的一个示意,以条流,在网卡侧逐包packet如图26所示,当网卡接入的某个平面发生故障时,此网卡的收2.Group-WiseDragonfly+线密度,即:每个组内的同号L2交换机之间进行采用最大组网规模而相对Dragonfly+而言有如下路由上的改进。(a)Dragonfly+拓扑的Down-Up绕路(b)Group-WiseDragonfly+拓扑的绕路图ETH-XUltra方案有几个优点:第一控制了超过64卡超节点的网络成本,相比64卡电互连超节点,均分到每GPU的网络成本仅有小幅增加(从电互连改为光互连第二实现了超节点这种产品形态计算与网络的解耦,每个计算节点可以维持标准服务器形态,与普通HighBandwidthDomain四、未来网络架构趋势展望(一)大规模低直径的网络层Clos架构下组网规模为0(n2)@Rf在2024年NSDI会议论文中介绍其实际的部署情况,以及在AI因此其上层算法(例路由、流控、负载均衡和TCP流量,通信需求在数据大小、距离、丢包、时延和数据包长 五、附录跳数计)NA1r敛3敛568fly141414884NANANANANANANANA数NANANANANANA3六、参考/online/files/p63-alfares.pdf/doi/pdf/10.1145/doi/pdf/10.1145GB200
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 烤烟房使用合同协议书
- 看房为啥要签协议合同
- 盐城上海签订合同协议
- 街头店面出租合同范本
- 网吧部分转让合同范本
- 维修技术支持合同范本
- 物业解除物业合同协议
- 社区阵地建设合同范本
- 物品以租代售合同范本
- 物业安装门套合同范本
- 2025新疆交通投资(集团)有限责任公司所属公司招聘26人笔试历年典型考点题库附带答案详解2套试卷
- 村干部考入事业编面试真题(含答案)
- 营养强化盐,你了解多少-
- 病例汇报PPT模板
- 英语四级单词4500
- 肿瘤学-宫颈癌(双语)
- GB/T 34988-2017信息技术单色激光打印机用鼓粉盒通用规范
- 最新部编版人教版一年级语文上册《江南》优质教学课件
- 艰苦边远地区范围和类别表
- 《旅游法》与旅游文明
- 《国际私法》教学全套课件
评论
0/150
提交评论