版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容目录英伟达Rubin,集群互联高带宽低时延方向持续升级 4第六代NVLink赋能,RubinScaleup持续突破 4满配CPX,RubinNVL144Scaleout芯光比最高可达1:12 5谷歌TPUScaleup&out,3D低时延互联升级 7基于3D拓扑,谷歌TPU多链路Scaleup扩展 7TPUScaleout:DCN多层组网+OCS支撑超大规模低时延互联 9亚马逊组网突出“高密度互联+灵活扩展” 10ScropioX赋能,Tr3基于PCIe6+AEC完成Scaleup扩展 10双网分工,高基数低速率交换机支撑Scaleout Meta组网聚焦超大规模AI训练需求 13MetaMinarvaScaleup:TH5+112G铜缆204.8T对称互联 13MetaScaleout:DSF网络架构,专为AI训练设计 14投资建议 16风险提示 16图表目录图1:RubinNVL144CPX拆解 4图2:GB200NVL72网络端口拆分 5图3:TPU计算托盘板卡 7图4:TPU服务器机柜 7图5:TPUV73D拓扑图 8图6:谷歌TPU147456DCN网络Scaleout网络互联 10图7:TrainiumTeton3NVL722交换机架构 11图8:Tranium3131072万卡集群Scaleout组网 13图9:Minerva机柜网络拓 14图10:MTIA托盘图 14图Jericho托盘图 14图12:托盘图 14图13:MetaDSFFabric网络拓扑 15图14:MetaDSFDual-stageFabric网络拓扑 15表1:RubinNVL144光模块需求比例测算 6表2:谷歌IronwoodTPU3D连接端口配比关系测算 8英伟达Rubin,集群互联高带宽低时延方向持续升级图1:RubinNVL144CPX拆解英伟达第六代NVLink赋能,RubinScaleup持续突破RubinNVL144Scaleup184个RubnGU双GUd。单颗RubinGPU模组单向互联带宽1.8TB/s,整机柜计算侧单向带宽为721.8TB/s=129.6TB/s。94NVSwitch36颗NVSwitch。第六代NVSwitch单向带宽3.6TB/s,整机柜交换侧单向带宽129.6TB/s。基于GB200NVL72ScaleupGB200颗B2005184AEC/ACC铜缆18NVSwitch64.8TB/s的机柜级NVLinkRubinGPU22G1.6TC5184对2GGU与Nwchscale-upNVLink图2:GB200NVL72网络端口拆分陆玉春《NvidiaAI芯片演进解读与推演(二)满配CPX,RubinNVL144Scaleout芯光比最高可达1:12AI(FatAI1:1RDMA(RemoteDirectMemoryAccess,RDMA)AI无阻塞网络指系统内所有算力节点可相互连接,无需中断现有连接。以RubinNVL144(无CPX)Spectrum6RubinNVL1444个X9(8颗X8个4GPUCX-94OSFPSpectrum6641.6T9216张Rubin第一层网络的服务器上行端口与Tor交换机下行端口等价。9216个1600Gbps网卡流量对应288台641600Gbps的Tor交换机50%端口单向下行,Tor交换机剩余50%端口上行连接叶交换机。第二层网络中,单台Tor交换机上行的321600G带宽将占据641600G叶交换机的1/2,叶交换机之间互不相连。考虑网络全互联端口充分利用,641600G端口的Spectrum6交换机在双层胖树架构下最多仅可容纳6464/2=2048张GPU互联,GPU数量超过2048则需要引入第三层脊交换机。因此接纳288台Tor交换机一半端口上行,再预留同等数量端口向第三层脊交换机上行互联,第二层网络共需要288台641600G的叶交换机。144表1:RubinNVL144光模块需求比例测算集群芯片量(颗)1152(无CPX)9216(无CPX)1152(满配CPX)9216(CPX)网络层数(层)2333Tor交换机数量(台)3628872576叶交换机数量(台)1828872576脊交换机数量(台)14436288服务器1.6T端口(个)115292162304184321.6T()230418432460836864叶交换机1.6T端口(个)115218432460836864脊交换机1.6T端口(个)9216230418432总光模块需求数量(个)46085529613824110592芯片/光模块比例1:41:61:121:12英伟达测算谷歌TPUScaleup&out,3D低时延互联升级基于3D拓扑,谷歌TPU多链路Scaleup扩展图3:TPU计算托盘板卡 图4:TPU服务器机柜 Hotchips HotchipsPOD集群:集群由144个64卡机柜组成,总计144机柜64卡=9216颗TPU芯片,整体集群即为谷歌的ICIPOD。6416个TPU4颗TPU。TUnoodV7ScaleupI/O端口:每颗TPU6I/O端口。I/O800Gbps带宽。芯片双向互联速率:800Gbps26/8=4.8TB/s。POD3DI/O643D64卡总I/O端口数=64卡6端口=384端口。96I/O+OCSRackTPU。128I/OPCB内部走线连接板上相邻TPU。160I/O/AOC与柜内不同板TPU连接。图5:TPUV73DTorus拓扑图Semianalysis,表2:谷歌IronwoodTPU3DTorus连接端口配比关系测算每张TPU应数量 整机总量8颗内部TPU铜缆端口(个)432PCB端口(个)216光模块端口(个)008颗角TPU铜缆端口(个)18PCB端口(个)216光模块端口(个)32424颗边TPU铜缆端口(个)248PCB端口(个)248光模块端口(个)24824颗面TPU铜缆端口(个)372PCB端口(个)248光模块端口(个)124整机柜64TPU与连接介质比例及用量铜缆(根)1.2580PCB(块)164光模块(个)1.596SemianalysisTPUScaleout:DCN多层组网OCS支撑超大规模低时延互联644颗TPU。CDFP4个CDFPPCIeTPUCDFPPCIeCPUCPU9216ICIPODPODPOD144649216ICIPOD。交换机:该POD28812.8T288台144口上行连接到上层Leaf4ICIPODLeaf/Spine4Spine/LeafAB内的4个ICIPOD:425.6TSpine425.6TLeafLeaf57625.6TLeaf50%4POD50%SpineSpineLeaf50%Leaf50%OCS系统。4(AB)147456TPU通过OCSOCS数量和端口:谷歌使用64台300300端口OCS将2304台Spine交换机(4个AB模块总Spine数量)连接起来。每台OCS使用288个输入端口和288个输出端口。图6:谷歌TPU147456DCN网络Scaleout网络互联Semianalysis亚马逊Trainium3组网突出高密度互联+灵活扩展ScropioX基于PCIe6+AEC完成Scaleup扩展基础构建单元:Trainium3NL722:计算托盘36个:Trainium3XPU144颗(72颗/机架2)GravitonCPU(1/)ScropioX32/64/128PCIe6.04互8/4/2交换托盘20个:ScropioX320通道PCIe6.0交换芯片40颗。Scaleup组网逻辑与AECTrainium3160NeuronLink4PCIe6.014416PCB:每颗Tr3分配64个NeuronLink4端口,通过板上ScropioX交换芯片和同托盘4Tr3互联,无外部线缆。背板:每颗Tr3分配80个端口,经由背板连接器及AEC铜缆接入交换托盘。整机柜144颗Tr380通道=11520PCIe6通道,对应180根64端口PCIeAEC铜缆。跨机架:每颗Tr3分配16个端口,经由板上配置的OSFP-XD端口及AEC铜缆接入邻机架交换托盘。整机柜144颗Tr316通道=2304PCIe6通道,对应36根64端口PCIeAEC铜缆。图7:TrainiumTeton3NVL722交换机架构Semianalysis双网分工,高基数低速率交换机支撑ScaleoutScaleoutE(40GNov6S3/EFS/EBSED2颗anu3共享400G的低延迟带宽,支撑AI集群通信的规模化扩展。Scaleout12.8T升级为25.6T/51.2T2/4ScaleoutNitro-v62Trainium31400GNitro-v6ENA1GravitonCPU1400GNitro-v6网卡。及Graviton与Trainium3:通过带Gearbox的400GY型AEC(56GSerDes转112G),单网卡以2条200G链路连NL722配置的双ToR。CPU:通过直连AEC/DAC,连NL722配置的双ToR。Leaf/Spine采用Cos892台O(12.T608台Lea12.T,204台n(128T36图8:Tranium3131072万卡集群Scaleout组网SemianalysisMeta组网聚焦超大规模AI训练需求MetaMinarvaScaleup:TH5+112G铜缆204.8T对称互联MinarvaScaleupMTIA-TV1161MTIA-TV1加速卡。41颗TH532800G4cablecatridges16MTIA。4384256Scaleup1024Scaleup。MinarvaScaleupMTIA单卡对外通过8个2800Gbps端口进行Scaleup互联。16颗MTIA芯片总带宽为1682800=204.8Tbps。4颗Tomahawk5交换芯片总带宽为451.2T=204.8Tbps图9:Minerva机柜网络拓 图10:MTIA托盘图Substrack Substrack图11:Jericho托盘图 图12:Tomahawk托盘图Substrack SubstrackMetaScaleout:DSF网络架构,专为AI训练设计MetaAIDSF(DisaggregatedScheduledFabric)Scale-outDSFRDSWFDSWMinervaDSF16个MTIA-TV11MTIA-TV12Jericho32Jericho34RDSW(RakDggegaedwchMTIAJericho3MTIA4×800Gbps以太网端口接入RDSW,16MTIA4Jericho357.6略有冗余的无阻塞机柜级Scale-out互联。DWcD(cDgggaedwch)采用Ramon3PodScale-outRDSW与FDSW2×400GJericho340OSFPFDSWDSFFabric在DSFFabric的基础网络单元之上,进一步可扩展至DSFDual-stageFabric,核心逻辑是引入第二层Fabric交换机(SDSW,SpineDisaggregatedSwitch),从而形成一个真正意义上的非阻塞交换网络。FDSW与SDSW之间同样采用800G光模块(如2×400GFR4或DR8)进行长距离互联。通常SDSW层的总交换能力会与下层FDSW的总上行带宽保持1:1的收敛比。由于Ramon3芯片专为信元交换设计,其单芯片容量与Jericho3匹配,通过多级堆叠,可以构建出一个逻辑上等效于巨型模块化交换机的扁平网络
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 林长制监管员责任制度
- 卫健局疫情防控责任制度
- 财政网络安全责任制度
- 叉车司机安全责任制度
- 职业班安全管理责任制度
- 茶叶出厂检验责任制度
- 总经理安全管理责任制度
- 煤矿验车员岗位责任制度
- 指挥部安全管理责任制度
- 宾馆食品安全责任制度
- OpenClaw发展研究报告
- 2025中国东方资产管理股份有限公司总部部门分公司高级管理人员社会招聘笔试历年典型考题及考点剖析附带答案详解2套试卷
- 制造业生产安全操作规范
- 2026春统编版二年级下册道德与法治教学设计(附目录)
- 《冠心病诊断与治疗指南(2025年版)》
- 2026年春人教版八年级下册英语Unit 1~Unit 8全册教案
- (081000)信息与通信工程专业考研复试高频面试题
- 2026年小红书文旅兴趣出游种草指南
- 2025年甘肃公务员省考笔试真题及答案
- GB/T 20839-2025智能运输系统通用术语
- 2026年高校教师资格证考试题库(附答案)
评论
0/150
提交评论