通信行业超节点与Scaleup网络专题之英伟达:行业标杆领先优势建立在NVLink和NVLinkSwitch_第1页
通信行业超节点与Scaleup网络专题之英伟达:行业标杆领先优势建立在NVLink和NVLinkSwitch_第2页
通信行业超节点与Scaleup网络专题之英伟达:行业标杆领先优势建立在NVLink和NVLinkSwitch_第3页
通信行业超节点与Scaleup网络专题之英伟达:行业标杆领先优势建立在NVLink和NVLinkSwitch_第4页
通信行业超节点与Scaleup网络专题之英伟达:行业标杆领先优势建立在NVLink和NVLinkSwitch_第5页
已阅读5页,还剩18页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目 录LLM训练要求高带宽与延迟,驱动超节点成为AI算力网络创新方向 5英伟达:超节点领先优势建立在NVLink和NVLinkSwitch 10Scaleup网络核心技术:NVLink与NVLink交换机 10GB200NVL72超节点:铜缆互联,总交换容量129.6TB/s 13VR200NVL72超节点:延续GB200NVL72工程技艺,总交换容量翻倍 19总结:处于领先优势,互联GPU数将从72颗进一步向576颗发展 22投资建议 25风险提示 25插图目录图1:Scaleup网络(左)与Scaleout网络(右)特点对比 6图2:英伟达NVL72超节点示意 7图3:全球主流算力方案对应ScaleUp协议 8图4:全球主流算力芯片厂商旗下Scaleup协议特点 9图5:NVLink技术规格参数对比 10图6:NVLink交换机规格参数对比 10图7:NVLink网状拓扑结构提供高速双向带宽 图8:NVLink交换网络的演进过程(1) 12图9:NVLink交换网络的演进过程(2) 12图10:英伟达GB300NVL72超节点外观 13图GB200NVL72机柜外观与内部构件细节 14图12:GB200NVL72中计算托盘 15图13:GB200NVL72中NVLink交换机托盘 15图14:GB200NVL72中NVLink电缆盒 16图15:B200端口Port示意图 17图16:NVLINKSwitch5芯片Port示意图 17图17:GB200/300NVL72单层计算托架的互联拓扑 17图18:英伟达GB200NVL72机柜后置铜线背板 18图19:VR200NVL72机柜计算托盘 19图20:RubinNVL72机柜交换机托盘 19图21:英伟达RubinGPU芯片互联方式 20图22:VR200NVL72机柜中GPU互联拓扑结构 20图23:RubinNVL72机柜交换机托盘无缆线设计 21图24:英伟达RubinNVL576新一代Kyber机架 24图25:英伟达算力芯片发布时间表 24表格目录表1:AI大语言模型训练中多种并行计算方式对比 5表2:GB200NVL72超节点算力与通信性能 14表3:英伟达超节点Scaleup迭代路线 22我们计划推出超节点与ScaleupAMD以及华为四家头部AIScaleLLM训练要求高带宽与延迟,驱动超节点成为算力网络创新方向TransformerLLM成为TPEPScaleup()并行方式带宽要求延迟要求 说明张量并行(TP)数百至数千并行方式带宽要求延迟要求 说明张量并行(TP)数百至数千GB/s级延迟要求极高 将单个运算(如矩阵乘法)拆分到不同GPU上运行,通常在机内完成专家并行(EP)数百至数千GB/s级延迟要求极高 基于不同的任务选择不同专家进行训练引入AlltoAll流量,适合机内完成流水线并行(PP)MB/s至GB/s级延迟要求较高 将模型的不同层划分为若干个阶段,每个阶段可以在不同的GPU上执行,通常在机间完成数据并行(DP)GB/s级延迟要求较高 将同一批数据分割成多个子集,并将每个子集分配给不络技术趋势洞察公众

同GPU上(模型实例相同)运行,通常在机间完成根据阿里云给出的定义为:Scaleup是在一定范围内,于成本和互联技术约束下实现的超高带宽互联。其范围固定且带宽是Scaleout的数倍以上,可在协议层面优化以支持内存语义。我们对Scaleup网络与Scaleout网络特点对比如下:Scaleup(左)vsScaleout(右)vs80%vs30%-50%;通信延迟:百纳秒级vs微秒级;vsvs图1:Scaleup网络(左)与Scaleout网络(右)特点对比I数智码云公众Scale-upScaleupUSpePDU能力。其中ScaleupScaleupNVL72NVSwitchScale-UpDAC)小,目前商用的英伟达NVL7272XPUCloudMatrix384超节点及UnifiedBusUB)Scale-UpAOC)CloudMatrix384XPU图2:英伟达NVL72超节点示意国移动《超节点Scale-Up网络互联技术白皮书目前AMD以及华为四家头部AI均推出各自的Scaleup协议。英伟达在AI数据中心的ScaleupNVLink与ULk;ogeCIS技术B图3:全球主流算力方案对应ScaleUp协议里叶的猫公众ScaleupGoogleVik仅向第三方半开放PUCiltogeCILkUEthernetUALink2.0图4:全球主流算力芯片厂商旗下Scaleup协议特点emiAnalysis,CSDN英伟达:超节点领先优势建立在NVLink和NVLinkSwitchScaleup网络核心技术:NVLink与NVLink交换机NVLink与NVLink交换机是英伟达构建单机柜Scaleup20261NVLink以及NVLinkRubinNVLinkGPU-to-GPUVRNVL72260TB/sGPU的NVLinkNVLink5.0100GB/s。图5:NVLink技术规格参数对比伟达官图6:NVLink交换机规格参数对比伟达官NVLinkAINVLink允许GPUGPU都可以同时与多个其他GPUNVLink协议创新如下:VikSerDesNVLinkNVLink的SerDes在链路层,NVLink定义多种类型的符号,包括数据符号、控制符号和填充符号,实现复杂的通信协议功能;设计精细的信用机制,实现不同优先级的流量调度。除此之外,NVLink其他创新之处包括多Lane绑定技术、统一内存空间等。图7:NVLink网状拓扑结构提供高速双向带宽望7866公众NVSwitch是实现Scaleup网络复杂交换的关键设备。早期的NVLink实现主要采用点对点连接模式,GPU之间通过直接的串行链路进行通信。当系统包含多个GPU时,点对点模式的连接复杂度呈平方级增长。作为专门的交换芯片,NVSwitch可以提供多端口的高速交换能力。NVLink的交换网络采用多阶Clos网络架构,Clos网络通过多级交换结构实现输入端口到输出端口的任意连接。图8:NVLink交换网络的演进过程(1) 图9:NVLink交换网络的演进过程(2)望7866公众 望7866公众GB200NVL72超节点:铜缆互联,总交换容量129.6TB/s目前英伟达超节点已经推出成熟方案,在行业中处于领先地位。2024-2026年,英伟达陆续推出GH200NVL72、GB200/GB300NVL72、VR200NVL72三代超节点。Hopper架构开启超节点Scaleup初步探索。GH200NVLinkNVLink-C2C(Chip-to-Chip)技术,使得每个CPUGPU芯片的内存,实现CPUBlackwell架构推动Scaleup标准化。GB200NVL72将Scale-up72GPU/NVL7218个Compute9SwitchTray()Tray用于实现NVL72NVLink5+18个ComputeTray72颗B200GPU9SwitchTray18NVSwitchRubin架构推动Scaleup2026年1月CESRubin架构VR200NVL72。其中NVLink6Switch3.6TB/s1.8TB/sScaleoutSpectrum-6交换机支持321.6Tb/s图10:英伟达GB300NVL72超节点外观热之道公众目前全球算力芯片公司进入芯片性能与超节点性能并行竞争的新阶段。GB200NVL72作为全球超节点发展的标杆产品,我们将从多个维度拆解其硬件构成以及重点性能指标。NVL72180PFLOPTF32Core576TB/s;Scaleup64800GB/s。表2:GB200NVL72超节点算力与通信性能单位GB200NVL72算力(TF32Tensor核心)PFLOPS180HBM内存TB13.4HBM带宽TB/s576Scaleup带宽单向GB/s64800Scaleup计算单元GPUs72功耗KW145emiAnalysis,Nvidia,华除了算力与通信性能,尺寸、重量、功耗均是超节点TCO(总体拥有成本)的关键影响因素。GB200NVL72机柜尺寸为长1068毫米、宽600毫米、高2495毫米;重约1.36吨;功耗145KW。图11:GB200NVL72机柜外观与内部构件细节芯公众单台GB200NVL72机柜有18GB200NVL7218Compute)9Switch4B2002Grace个GB200超级芯片。图12:GB200NVL72中计算托盘芯公众GB200NVL72机柜有9个网络交换托盘。每个网络交换托盘中包含两颗NVLINKSwitch5芯片,合计18NVSwitch5NVSwitch5129.6TB/sNVLinkOSFP图13:GB200NVL72中NVLink交换机托盘芯公众电缆盒负责垂直方向信号重组。电缆盒有8个底部连接器和10个顶部连接器,每个连接器可处理一个GPU的全部带宽。图14:GB200NVL72中NVLink电缆盒芯公众GB200NVL72实现72颗B200完全互联,总交换带宽129.6TB/s。计算节点访存带宽为72B:B208Por224Gerde200Gbps*4颗B200GPU72个NVLink5Port7.2TB/s。交换节点访存带宽为4TBNSih572个VLNKPor(36个Por200Gbps速率的SerDesPort100GB/sNVLINKSwitch5144个NVLINKPort14.4TB/s。图15:B200端口Port示意图 图16:NVLINKSwitch5芯片Port示意图artbot公众 artbot公众图17:GB200/300NVL72单层计算托架的互联拓扑贝吹风公众B20NVL72ScaepB20NL72(C(中,会采用ACCACC(DAC基础上增加有源信号处理芯片)的信号增强能力可以弥补DAC在较长距离传输时的信号衰减问题,确保数据传输的稳定性和可靠性。GB200NVL72)×4(GPU)×4(GPU到NVSwtich数量)=5184(100GB/s4根DAC)图18:英伟达GB200NVL72机柜后置铜线背板伟达GTCVR200NVL72超节点:延续GB200NVL72工程技艺,总交换容量翻倍202616CES2026展会上,英伟达发布新一代超节点VR200NVL72相比GB200NVL72,新一代VR200NVL72破坏性创新。具体对比如下:RubinNVL721821CPU2块RubinGPU7236CPU。图19:VR200NVL72机柜计算托盘芯之路公众交换节点:VR200NVL72配置9个交换托盘,每个托盘集成4颗第六代NVSwitch芯片,全机柜部署36颗NVSwitchGB200NVSwitch7.2TB/s,相比NVSwitch5图20:VeraRubinNVL72机柜交换机托盘北吹雪公众VR200NVL72Scaleup方案实现总交换容量259.2TB/s,对比GB200NVL72,提升一倍。计算节点:VR20072100GB/s2VR200GPU144个NVLink6.014.4TB//s。交换节点:NVSwitch672个NVLink6.0NVLinkPort100GB/s4NVLink6Switch288个NVLinkPort28.8TB/s。NVL72NVLink-C2C1.8TB/sCPU-GPUGB200NVL72NVLink-C2C的速率为900GB/s,提升一倍。图21:英伟达VeraRubinGPU芯片互联方式 图22:VR200NVL72机柜中GPU互联拓扑结构伟达官 伟达官VR200NVL72Scaleup方案延续铜缆互联方案。稍有不同之处,VR200用中板取代计算托盘内部的线缆,中板采用覆铜板技术。此外,基于Rubin平台NVLink6.0升级至448GSerDes通道速率。因此,GPU到每个NVSwtich铜缆连接由4根变为2根。18()*4(GPU)*2(GPU到NVSwtich)*36(NVSwtich数量)=5184根。图23:VeraRubinNVL72机柜交换机托盘无缆线设计北吹雪公众总结:处于领先优势,互联GPU数将从72颗进一步向576颗发展2024-2025GH200NVL72、GB200/GB300NVL72GB200/300NVL7228002026-2027RubinNVL144和RubinUltraNVL576GPU72576颗发展。届时,英伟达将在新一代KyberNVLinkSwitchBlade(NVLinkB500RbnlaNL56英伟达超节点的优势建立在NVLink和NVLinkSwitch。为实现AI训练集群高带宽与低延迟数据传输,NVLinke05Vik5Sich实现支持单U到U100Bs,可构建2PU的Vik130B(72PUichGen6Gen7GPU-to-GPU3.6TB/s。网络融合或将成为英伟达超节点新的发展趋势。表3:英伟达超节点Scaleup迭代路线架构BlackwllUtra网络融合或将成为英伟达超节点新的发展趋势。表3:英伟达超节点Scaleup迭代路线架构BlackwllUtraVeraRbinVL72VeraRbinVL144RubinltraNVL56Feunman首发时间2025-032026-01预计2026下半年预计2027年预计2028年核心平台GB300NVL72VR200NVL72VR200NVL144RubinUltraNVL576FeynmanNVL1152计算托盘18个(单盘4GPU+2CPU)18个(单盘4GPU+2CPU)36个(单盘4GPU+2CPU)72个(单盘8GPU+4CPU)144个(单盘8GPU+4CPU)36GraceCPUs(72核)36核)72核)288VeraUltraCPUs(176核)576FeynmanCPUs(256核)单颗内存带宽3.6Tpbs单颗内存带宽4.8Tpbs单颗内存带宽4.8Tpbs单颗内存带宽9.6Tpbs单颗内存带宽19.2TpbsNVLinkC2C0.9TpbsNVLinkC2C1.8TpbsNVLinkC2C1.8TpbsNVLinkC2C3.6TpbsNVLinkC2C7.2Tpbs72GB300GPUs72VR200GPUs144VR200GPUs576VR300GPUs1152FeynmanGPUs单颗288GHBM3E单颗512GHBM3E单颗512GHBM3E单颗1TBHBM4E单颗2TBHBM5ECPU

单颗MVFP415PFLOPS

50PFLOPS

单颗MVFP450PFLOPS铜缆背板+板载无源光

单颗MVFP4100PFLOPS

单颗MVFP4200PFLOPS铜缆背板 铜缆背

引擎(

3.2TCPO(规划)6.4TCPO硅光(规划)72NVLink8硅光交换Scaleup

18个NVLink5 36个NVLink6 72个NVLink6 144个NVLink7144*800G115.2TGPU侧NVLink带宽18

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论