谷歌、AMD、国产超节点持续发力打破英伟达独大格局_第1页
谷歌、AMD、国产超节点持续发力打破英伟达独大格局_第2页
谷歌、AMD、国产超节点持续发力打破英伟达独大格局_第3页
谷歌、AMD、国产超节点持续发力打破英伟达独大格局_第4页
谷歌、AMD、国产超节点持续发力打破英伟达独大格局_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

超节点与Scaleup网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局投资策略:2025AIAIAI+ScaleupAMDMeta、Amazon、中国移动、阿里巴巴、字节跳(AMDA202538%AMDAAMD)AD2ADCB3caeup(OCS)UALink1LLM(4AI目 录LLM训练要求高带宽与延迟,驱动超节点成为AI算力网络创新方向 7英伟达:超节点领先优势建立在NVLink和NVLinkSwitch 12Scaleup网络核心技术:NVLink与NVLink交换机 12GB200NVL72超节点:铜缆互联,总交换容量129.6TB/s 15VR200NVL72超节点:延续GB200NVL72工程技艺,总交换容量翻倍 21总结:处于领先优势,互联GPU数将从72颗进一步向576颗发展 24华为:对外开放灵衢互联协议,超节点性能追赶英伟达 27华为自研灵衢互联协议,并对外开放 27华为CloudMatrix384超节点:两层拓扑架构,全光互联 35总结:灵衢协议尚未被国内业界广泛接受,集群化方式实现性能追赶 41谷歌:建立光互联超节点,与英伟达形成不对称竞争 42Scaleup网络核心技术:创新应用光电路交换机(OCS) 42谷歌TPUv7超节点:Cube+3D光交换实现扩展 48总结:光互联Scaleup网络实现技术标准化,技术路线独树一帜 54AMD:UALink成为重要开放标准,超节点有望成为英伟达有力竞品 55UALink:代表开放标准路线,受到业内广泛支持 55AMD超节点:英伟达NVL72系列有力竞品,有望实现市场突破 59总结:UALink成为重要标准,Helios机架有望成为行业主流选择 64投资建议 65风险提示 66插图目录图1:Scaleup网络(左)与Scaleout网络(右)特点对比 8图2:英伟达NVL72超节点示意 9图3:全球主流算力方案对应ScaleUp协议 10图4:全球主流算力芯片厂商旗下Scaleup协议特点 图5:NVLink技术规格参数对比 12图6:NVLink交换机规格参数对比 12图7:NVLink网状拓扑结构提供高速双向带宽 13图8:NVLink交换网络的演进过程(1) 14图9:NVLink交换网络的演进过程(2) 14图10:英伟达GB300NVL72超节点外观 15图GB200NVL72机柜外观与内部构件细节 16图12:GB200NVL72中计算托盘 17图13:GB200NVL72中NVLink交换机托盘 17图14:GB200NVL72中NVLink电缆盒 18图15:B200端口Port示意图 19图16:NVLINKSwitch5芯片Port示意图 19图17:GB200/300NVL72单层计算托架的互联拓扑 19图18:英伟达GB200NVL72机柜后置铜线背板 20图19:VR200NVL72机柜计算托盘 21图20:RubinNVL72机柜交换机托盘 21图21:英伟达RubinGPU芯片互联方式 22图22:VR200NVL72机柜中GPU互联拓扑结构 22图23:RubinNVL72机柜交换机托盘无缆线设计 23图24:英伟达RubinNVL576新一代Kyber机架 26图25:英伟达算力芯片发布时间表 26图26:UB协议栈 27图27:基于灵衢协议部署的超节点架构 28图28:灵衢总线交换设备外观 29图29:灵衢总线交换设备物理结构图 30图30:灵衢总线交换设备逻辑框图 31图31:UB物理层支持两种模式 31图32:UB-Mesh中的nD-FullMesh拓扑示意 32图33:1D-FullMesh拓扑示意 32图34:2D-FullMesh拓扑示意 33图35:2D-FullMesh+Clos混合拓扑示意 33图36:UB融合组网和光交换组网示意 34图37:CloudMatrix384超节点外观 36图38:CloudMatrix384超节点组网方案 37图39:CloudMatrix384三层网络平面 38图40:CloudMatrix384中Ascend910CNPU芯片架构 38图41:CloudMatrix384单个计算节点网络拓扑 39图42:谷歌PalomarOCS光信号传输路径 43图43:谷歌PalomarOCS实物图 44图44:MEMS微镜模块实物图 45图45:MEMS微镜模块热成像图 45图46:谷歌PalomarOCS机箱机构图以及实物机箱后视图 46图47:谷歌超节点单个机架实物图 49图48:TPU4×4×4立方体互联逻辑示意图 50图49:TPUv7128(4×4×8)TPU拓扑示意图 51图50:谷歌TPUv4超节点网络拓扑 52图51:谷歌TPUv7超节点网络拓扑 52图52:UALink发展时间线 55图53:UALink联盟成员名单 56图54:UALink协议栈架构 57图55:AMDHeliosAIRackMI455X72xGPU超节点外观 59图56:AMDMI455x系列Helios机架外观 61图57:AMDMI450XUALoE72Helio机架示意图 62图58:AMDMI400sUALoE72ScaleUp拓扑示意图 63图59:2023-2026年2月英伟达/谷歌/超威半导体/中证算力当年累计涨跌幅对比 65表格目录表1:AI大语言模型训练中多种并行计算方式对比 7表2:GB200NVL72超节点算力与通信性能 16表3:英伟达超节点Scaleup迭代路线 24表4:华为超节点迭代路线及性能对比 35表5:GB200NVL72超节点与CloudMatrix384算力与通信性能对比 36表6:华为CloudMatrix384超节点网络架构与互联方案 40表7:华为超节点Scaleup迭代路线 41表8:谷歌ICILink协议VS英伟达NVLink协议 42表9:各类光电路交换技术的成本、规模、性能及可靠性/可用性对比 47表10:谷歌超节点迭代路线及性能对比 48表英伟达GB200芯片与与谷歌TPUv7性能对比 48表12:谷歌Scaleup网络演进与TPU代际发展紧密同步 53表13:UALink与SUE技术对比 58表14:AMDMI455x系列Helios与英伟达RubinNVL72参数对比 60超节与Scale-up络突破力通瓶撑万级模与实性应的键础施本超节与Scaleup络 详研英达歌AMD及四家部AI力芯厂在此领域布进以各优势。我认,节与Scale-up络处速发期并成算芯、网络件(PCB、芯片光件高铜、存部、电散设施件新技的要应用市。LLM训练要求高带宽与延迟,驱动超节点成为算力网络创新方向(MoE)模型在TransformerLLM(EP)成为TPEPScaleup()并行方式带宽要求延迟要求 说明张量并行(TP)数百至数千并行方式带宽要求延迟要求 说明张量并行(TP)数百至数千GB/s级延迟要求极高 将单个运算(如矩阵乘法)拆分到不同GPU上运行,通常在机内完成专家并行(EP)数百至数千GB/s级延迟要求极高 基于不同的任务选择不同专家进行训练引入AlltoAll流量,适合机内完成流水线并行(PP)MB/s至GB/s级延迟要求较高 将模型的不同层划分为若干个阶段,每个阶段可以在不同的GPU上执行,通常在机间完成数据并行(DP)GB/s级延迟要求较高 将同一批数据分割成多个子集,并将每个子集分配给不络技术趋势洞察公众

同GPU上(模型实例相同)运行,通常在机间完成Scaleup范围固定且带宽是ScaleoutScaleupScaleoutScaleup(左)vsScaleout(右)vs80%vs30%-50%;通信延迟:百纳秒级vs微秒级;vsvs图1:Scaleup网络(左)与Scaleout网络(右)特点对比I数智码云公众Scale-upScaleupUSpePDU其中ScaleupScaleupNVL72NVSwitchScale-UpDAC)小,目前商用的英伟达NVL7272XPUCloudMatrix384超节点及UnifiedBusUB)Scale-UpAOC)CloudMatrix384XPU图2:英伟达NVL72超节点示意国移动《超节点Scale-Up网络互联技术白皮书目前AMD以及华为四家头部AI均推出各自的Scaleup协议。英伟达在AI数据中心的ScaleupNVLink与ULk;ogeCIS技术B图3:全球主流算力方案对应ScaleUp协议里叶的猫公众ScaleupGoogleNVLink仅向第三方半开放CPU/ChipletGoogleICILink则服务于自研TPUEthernetUALink2.0版本起图4:全球主流算力芯片厂商旗下Scaleup协议特点emiAnalysis,CSDN英伟达:超节点领先优势建立在NVLink和NVLinkSwitchScaleup网络核心技术:NVLink与NVLink交换机NVLink与NVLinkScaleup20261NVLink以及NVLinkRubinNVLinkGPU-to-GPUVRNVL72260TB/sGPU的NVLinkNVLink5.0100GB/s。图5:NVLink技术规格参数对比伟达官图6:NVLink交换机规格参数对比伟达官NVLinkAINVLink允许GPUGPU都可以同时与多个其他GPUNVLinkVikSerDesNVLinkNVLink的SerDes在链路层,NVLink定义多种类型的符号,包括数据符号、控制符号和填充符号,实现复杂的通信协议功能;设计精细的信用机制,实现不同优先级的流量调度。除此之外,NVLink其他创新之处包括多Lane绑定技术、统一内存空间等。图7:NVLink网状拓扑结构提供高速双向带宽望7866公众NVSwitch是实现Scaleup网络复杂交换的关键设备。早期的NVLink实现主要采用点对点连接模式,GPU之间通过直接的串行链路进行通信。当系统包含多个GPU时,点对点模式的连接复杂度呈平方级增长。作为专门的交换芯片,NVSwitch可以提供多端口的高速交换能力。NVLink的交换网络采用多阶Clos网络架构,Clos网络通过多级交换结构实现输入端口到输出端口的任意连接。图8:NVLink交换网络的演进过程(1) 图9:NVLink交换网络的演进过程(2)望7866公众 望7866公众GB200NVL72超节点:铜缆互联,总交换容量129.6TB/s目前英伟达超节点已经推出成熟方案,在行业中处于领先地位。2024-2026年,英伟达陆续推出GH200NVL72、GB200/GB300NVL72、VR200NVL72三代超节点。Hopper架构开启超节点Scaleup初步探索。GH200NVLinkNVLink-C2C(Chip-to-Chip)技术,使得每个CPUGPU芯片的内存,实现CPUBlackwell架构推动Scaleup标准化。GB200NVL72将Scale-up72GPU/NVL7218个Compute9SwitchTray()Tray用于实现NVL72NVLink5+18个ComputeTray72颗B200GPU9SwitchTray18NVSwitchRubin架构推动Scaleup2026年1月CESRubin架构VR200NVL72。其中NVLink6Switch3.6TB/s1.8TB/sScaleout交换机支持321.6Tb/s图10:英伟达GB300NVL72超节点外观热之道公众目前全球算力芯片公司进入芯片性能与超节点性能并行竞争的新阶段。GB200NVL72作为全球超节点发展的标杆产品,我们将从多个维度拆解其硬件构成以及重点性能指标。NVL72180PFLOPTF32Core576TB/s;Scaleup64800GB/s。表2:GB200NVL72超节点算力与通信性能单位GB200NVL72算力(TF32Tensor核心)PFLOPS180HBM内存TB13.4HBM带宽TB/s576Scaleup带宽单向GB/s64800Scaleup计算单元GPUs72功耗KW145emiAnalysis,Nvidia,华除了算力与通信性能,尺寸、重量、功耗均是超节点TCO(总体拥有成本)的关键影响因素。GB200NVL72机柜尺寸为长1068毫米、宽600毫米、高2495毫米;重约1.36吨;功耗145KW。图11:GB200NVL72机柜外观与内部构件细节芯公众单台GB200NVL72机柜有18GB200NVL7218Compute)9Switch4B2002GraceGB200图12:GB200NVL72中计算托盘芯公众GB200NVL72机柜有9个网络交换托盘。每个网络交换托盘中包含两颗NVLINKSwitch518NVSwitch5NVSwitch5129.6TB/sNVLinkOSFP图13:GB200NVL72中NVLink交换机托盘芯公众电缆盒负责垂直方向信号重组。电缆盒有8个底部连接器和10个顶部连接器,每个连接器可处理一个GPU的全部带宽。图14:GB200NVL72中NVLink电缆盒芯公众GB200NVL72实现72颗B200完全互联,总交换带宽129.6TB/s。计算节点访存带宽为72B:B208Por224Gerde200Gbps*4颗B200GPU72个NVLink5Port7.2TB/s。交换节点访存带宽为4TBNSih572个VLNKPor(36个Por200Gbps速率的SerDesPort100GB/sNVLINKSwitch5144个NVLINKPort14.4TB/s。图15:B200端口Port示意图 图16:NVLINKSwitch5芯片Port示意图artbot公众 artbot公众图17:GB200/300NVL72单层计算托架的互联拓扑贝吹风公众B20NVL72ScaepB20NL72(C(中,会采用ACCACC(DACGB200NVL72)×4(GPU)×4(GPU到NVSwtich数量)=5184(100GB/s4根DAC)图18:英伟达GB200NVL72机柜后置铜线背板伟达GTCVR200NVL72超节点:延续GB200NVL72工程技艺,总交换容量翻倍202616CES2026展会上,英伟达发布新一代超节点VR200NVL72相比GB200NVL72,新一代VR200NVL72破坏性创新。具体对比如下:RubinNVL721821CPU2块RubinGPU7236CPU。图19:VR200NVL72机柜计算托盘芯之路公众NVL7294NVSwitch36颗NVSwitchGB200NVSwitch7.2TB/s,相比NVSwitch5图20:VeraRubinNVL72机柜交换机托盘北吹雪公众VR200NVL72Scaleup方案实现总交换容量259.2TB/s,对比GB200NVL72,提升一倍。计算节点:VR20072100GB/s2VR200GPU144个NVLink6.014.4TB//s。交换节点:NVSwitch672个NVLink6.0NVLinkPort100GB/s4NVLink6Switch288个NVLinkPort28.8TB/s。NVL72NVLink-C2C1.8TB/sCPU-GPUGB200NVL72NVLink-C2C的速率为900GB/s,提升一倍。图21:英伟达VeraRubinGPU芯片互联方式 图22:VR200NVL72机柜中GPU互联拓扑结构伟达官 伟达官VR200NVL72ScaleupVR200RubinNVLink6.0448GSerDes到每NVSwtich4218()*4(GPU)*2(GPU到NVSwtich)*36(NVSwtich数量)=5184根。图23:VeraRubinNVL72机柜交换机托盘无缆线设计北吹雪公众总结:处于领先优势,互联GPU数将从72颗进一步向576颗发展2024-2025GH200NVL72GB200/GB300NVL72GB200/300NVL722800RubinNVL144和RubinUltraNVL576GPU72576KyberNVLinkSwitchBlade(NVLinkPB000uinlaV576英伟达超节点的优势建立在NVLink和NVLinkSwitch。为实现AI训练集群高带宽与低延迟数据传输,NVLinke05Vik5Sich实现支持单U到U100Bs,可构建2PU的Vik130B(72PUichGen6Gen7GPU-to-GPU3.6TB/s。网络融合或将成为英伟达超节点新的发展趋势。表3:英伟达超节点Scaleup迭代路线架构BlackwllUtra网络融合或将成为英伟达超节点新的发展趋势。表3:英伟达超节点Scaleup迭代路线架构BlackwllUtraVeraRbinVL72VeraRbinVL144RubinltraNVL56Feunman首发时间2025-032026-01预计2026下半年预计2027年预计2028年核心平台GB300NVL72VR200NVL72VR200NVL144RubinUltraNVL576FeynmanNVL1152计算托盘18个(单盘4GPU+2CPU)18个(单盘4GPU+2CPU)36个(单盘4GPU+2CPU)72个(单盘8GPU+4CPU)144个(单盘8GPU+4CPU)36GraceCPUs(72核)36核)72核)288VeraUltraCPUs(176核)576FeynmanCPUs(256核)单颗内存带宽3.6Tpbs单颗内存带宽4.8Tpbs单颗内存带宽4.8Tpbs单颗内存带宽9.6Tpbs单颗内存带宽19.2TpbsNVLinkC2C0.9TpbsNVLinkC2C1.8TpbsNVLinkC2C1.8TpbsNVLinkC2C3.6TpbsNVLinkC2C7.2Tpbs72GB300GPUs72VR200GPUs144VR200GPUs576VR300GPUs1152FeynmanGPUs单颗288GHBM3E单颗512GHBM3E单颗512GHBM3E单颗1TBHBM4E单颗2TBHBM5ECPU

单颗MVFP415PFLOPS

50PFLOPS

单颗MVFP450PFLOPS铜缆背板+板载无源光

单颗MVFP4100PFLOPS

单颗MVFP4200PFLOPS铜缆背板 铜缆背

引擎(

TCPO(规划)6.4TCPO硅光(规划)72个NVLink8硅光交换Scaleup

18个NVLink5 36个NVLink6 72个NVLink6 144个NVLink7144*800G115.2TGPU侧NVLink带宽18*1.8TBpsGPU侧NVLink带宽18*3.6TBpsGPU侧NVLink带宽18*3.6TBps115.2TGPU侧NVLink带宽18*1.8TBpsGPU侧NVLink带宽18*3.6TBpsGPU侧NVLink带宽18*3.6TBpsGPU侧NVLink带宽36*7.2TBpsGPU侧NVLink带宽72*14.4TBps

机单个288*1.6T460.8T架架构 BlackwllUtra VeraRbinVL72 VeraRbinVL144 RubinltraNVL56 FeunmanScaleout

Spectrum-5800G可插拨

Spectrum-6CPO硅光 Spectrum-6CPO硅光 Spectrum-7CPO硅光 Spectrum-8CPO硅光64*800G51.2T 128*800G102.4T 128*800G102.4T 256*1.6T409.6T 512*3.2T1638.4T注:28.8Tbps=3.6TBps信 之路RubinNVL576由单个计算柜配置一个KyberSideCar4个NVL14418个ComputeTray;SwitchBlade图24:英伟达RubinNVL576新一代Kyber机架TC2025后续NVSwitchGen6和Gen7的GPU-to-GPU通信带宽为3.6TB/s。图25:英伟达算力芯片发布时间表TC2025华为:对外开放灵衢互联协议,超节点性能追赶英伟达华为自研灵衢互联协议,并对外开放对标英伟达LinSae02(iidBuBnfiduU、UBUB。图26:UB协议栈为《灵衢基础规范》官方文/nd-meshClostorus图27:基于灵衢协议部署的超节点架构为《灵衢基础规范》官方文根据灵衢互联协议,华为超节点自研灵衢总线设备。灵衢总线交换设备(灵衢交换机)内置的高性能交换芯片,从而为超节点的智算服务器提供高速网络连接,该设备具有高性能、高带宽、低延迟等特点。图28:灵衢总线交换设备外观为《Atlas800TA3超节点技术白皮书图29:灵衢总线交换设备物理结构图为《Atlas800TA3超节点技术白皮书NVSwitch5芯片的3482200G400GQSFP-DD端口。(支持192*112GSerDes)(VSich57B72个NLKPor(6个PorLikPort100GB/s图30:灵衢总线交换设备逻辑框图为《Atlas800TA3超节点技术白皮书UBUB线性光组件53.125Gbps和106.25Gbps速率。图31:UB物理层支持两种模式为《灵衢基础规范》官方文华为UB交换网络支持UB-MESH。UBPUUBUB-Mesh以(UB-Mesh:aHierarchicallyLocalizednD-FullMeshDatacenterNetworkArchitecture)UB-MeshnD-FullMeshNPU1D2D3D4D5D图32:UB-Mesh中的nD-FullMesh拓扑示意为《基于灵衢的超节点架构参考白皮书在华为超节点1D/2D-FullMesh拓扑均采用电缆互连方式。1D-FullMesh即指NPU单板内的若干个NPU芯片之间实现FullMesh互联。图33:1D-FullMesh拓扑示意爬科技树公众2D-FullMeshnD-FullMesh图34:2D-FullMesh拓扑示意为《基于灵衢的超节点架构参考白皮书混合拓扑一层交换互联支持DPO/LPO光模块。UB-Mesh支持混合拓扑,Rack内采用2D-FullMesh组网,Rack间采用一层UBSwitch互连,支持从64卡线性扩展到8192卡。图35:2D-FullMesh+Clos混合拓扑示意为《基于灵衢的超节点架构参考白皮书UBUB除了支持采用多级UBSwitchUBoE与以太Switch(OCS-电-)图36:UB融合组网和光交换组网示意为《基于灵衢的超节点架构参考白皮书华为CloudMatrix384超节点:两层拓扑架构,全光互联加入超节点发展潮流,华为推出第一代超节点CloudMatrix384。2025年4月,华为推出CloudMatrix384(Aas90SperodB00NL2Cludix384312026年第四季度发布Atlas950SuperPod2027年第四季度发布Atlas960SuperPod。表4:华为超节点迭代路线及性能对比CloudMtrix384Atlas50SperPd Atlas60SperPd(Atas90SuerPod)推出时间2025年4月预计2026年第四季度发布预计2027年第四季度发布NPU数量384昇腾910CNPUs8192昇腾910DTNPUs15488昇腾960NPUs计算机柜数12128176互联机柜数43244系统算力300PFLOPS(BF16)8EFLOPS(FP8)16EFLOPS(FP4)30EFLOPS(FP8)60EFLOPS(FP4)内存容量49.2TB1152TB4460TB互联协议灵衢1.0灵衢2.0灵衢2.0总互联带宽269TB/s16.3PB/s34PB/s训练总吞吐280kTPS4.9mnTPS15.9mnTPS推理总吞吐740kTPS19.6mnTPS80.5mnTPS为全连接大会,SemiAnalysis,科技攀爬树公众CloudMatrix384Scaleup网络性能。GB200NVL72Scaleup72个CloudMatrix38412Saleu38Acend91CCloudMatrix384的BF16300PFLOPS,与GB200NVL72此外,华为CloudMatrix384Scaleup单向带宽134400GB/s,约是GB200NVL72的2.1倍。表5:GB200NVL72超节点与CloudMatrix384算力与通信性能对比单位GB200NVL72CloudMatrix384倍数算力 PFLOPS180(TF32Tensor300(BF16dense)接近核心)HBM内存TB13.849.23.6XHBM带宽TB/s57612292.1XScaleup带宽单向GB/s648001344002.1XScaleup计算单元GPUs723845.3X功耗kW1456004.1XemiAnalysisCloudMatrix3841620600kW(GB200NVL72106824951.36145KW)图37:CloudMatrix384超节点外观CloudMatrix384ScaleupCloudMatrix384L1L2L1-L2L1层:每个计算节点集成了8个昇腾910CNPU、4个鲲鹏CPU,每个计算节点内部放置了7颗板载UB交换芯片。L2(76个L2UB116条L2图38:CloudMatrix384超节点组网方案为《Atlas800TA3超节点技术白皮书CloudMatrix384两层扁平拓扑架构形成三个网络平面。UB平面构成超级节点内主要的超高带宽Scale-UP384个NPU192个CPU。RDMACloudMatrix384超级节点和外部RDMA兼容系统之间的向外Scale-OUT(将CloudMatrix384图39:CloudMatrix384三层网络平面构师技术联盟公众Ascend910CNPU芯片采用双Die封装,通过高带宽总线实现芯片互连,单向传输速率为270GB/s。对比GB200NVL72,其芯片内部通过NVLink-C2C的双向传输速率为900GB/s。图40:CloudMatrix384中Ascend910CNPU芯片架构微有光公众CloudMatrix384计算节点48个;单个计算节点传输带宽5.6TB/s。CloudMatrix384124CloudMatrix3848个昇腾910CNPU、4CPU7UB12(8个NPU4个CPU)UBUB910C392GB/s(14*400Gbps400GbpsNPU7400G14*400GB/s5.6TB/s图41:CloudMatrix384单个计算节点网络拓扑微有光公众CLoudMatrix384通过3168根光纤和6912个400GLPO模块构建高速互连总线。UB每个NPU7400G5376L2400GRDMA384(GPU1400G)+768(RDMA2层)384()1536VPCCloudMatrix384表6:华为CloudMatrix384超节点网络架构与互联方案CCloudMtrix384NPU数量 384昇腾910CNPUsCPU数量 192鲲鹏CPUs系统算力 BF16密集算力300PFLOPS,与GB200NVL72接近总内存容量 49.2TB,是英伟达GB200NVL72的3.6倍总内存带宽 1229TB/s,是英伟达GB200NVL72的2.1倍三平面网络设计(B(392Bs(RA(40bps/NPU,UB平面

165KNPU扩展()PC平面(管理控制与存储)NPU7400GLPOSipho6912个光模块,3168根光纤构建全光互联网络cae-(L1节点内8910CNP+4个鲲鹏CP+71UB交换芯片1()L2层(机柜间7个独立子16L2UB交换芯片;L116L2子平面的每个交换芯片,实现无阻塞全对等拓扑L1UB交换芯片 上行链路带宽为448GB/s,可支持48个400G接口支持跨CloudMatrix384超节点和外部RDMA兼容系统的Scale-out通信,采用RoCE协议以兼容标RDMAVPC平面光模块用量

准的RDMA生态,该平面主要连接NPU,每个NPU提供400GB/s的单向RDMA带宽通过高速NIC(华为擎天卡)将CloudMatrix384超节点接入更广泛的数据中心网络,每个超节点提供400GB/s的单向带宽UB平面:384(NPU总数)7(NPU7400G光模块)2(双向互联)=5376个,L1层和L2层之间不采用400G光模块互联RDMAGPU1400G网卡768(RDMA网络平面采用2层胖树架构,叶层交换机端口翻倍)+384(脊层交换机需同等数量)=1536个VPCCloudMatrix384超节点连接到更广泛的数据中心网络,是超节点外的运用,使用的光模块数量不计入统计emiAnalysis,架构师技术联盟公众号,曦微有光公众总结:灵衢协议尚未被国内业界广泛接受,集群化方式实现性能追赶国内ScaleUpScaleUp2.0OISAETH-XETH+以及中兴通讯OLink工信部正牵头推动CLinkAtlas9502026226年下半年上市的NL14252EP(P8FLP(PAlas950超节点16.3PB/s靠集群化实现性能追赶,但在超节点复杂性、可靠性、功耗等维度需要平衡。从整体解决方案看,英伟达在超节点的芯片工艺、软件生态与系统集成上的优势仍难以撼动。Atlas950Atlas950(。表7:华为超节点Scaleup迭代路线Atlas800TA3 Atlas900SuperPod TaiShan950Superpod Atlas850 Atlas950SuperPod首发时间2025年4月2025年9月华为全连接大会上市时间2025年Q2预计2026年Q1预计2026年Q4产品定位企业级AI服务器 旗舰级AI集群首个通用计算超节点企业级AI服务器 旗舰级AI集群卡数单机8NPUs 384NPUs单机32CPUs单机8NPUs 8192NPUs单机柜,支持多形态柜灵活部署6PFLOFPS(FP16)

12计算柜4备柜300PFLOPS

单机柜,支持多柜灵活部署8PFLOPS(FP8)

128计算柜+32总线设备柜8EFLOPS(FP8)系统算力12系统算力12POPS(INT8)(FP16)未公布16PFLOPS(FP4)16EFLOPS(FP4)内存容量 1024GB48TB48TB1152GB1152TBD2D互联带784GB/s784GB/s/2TB/s2TB/s总互联带宽 /269TB/s//16.3PB/s为官网,华为全连接大谷歌:建立光互联超节点,与英伟达形成不对称竞争Scaleup网络核心技术:创新应用光电路交换机(OCS)相比英伟达NVLink,谷歌超节点ScaleUp协议具有显著差异。谷歌超节点ScaleUpInterconnect)(OCS)TPU集群内的高速互联。NVLinkNVLink交换机是英伟达构建单机柜ScaleupICI表8:谷歌ICILink协议VS英伟达NVLink协议维度GoogleTPU(v4/v7)NVIDIA(H100/GB200)互联协议G-ICI(私有轻量级,Credit-based)NVLink+InfiniBand/RoCE网络层级物理隔离:ICI和DCN存储分离分层架构:Scale-up与Scale-out分层故障恢复物理重构:OCS旋转镜面隔离坏点协议重传:依赖IB/RoCE重传机制软件耦合强耦合:XLA编译器需感知物理拓扑解耦:CUDA生态屏蔽底层拓扑差异核心哲学静态极致:通过OCS光交换网络构建确定拓扑带宽堆叠:顶级芯片提供无阻塞带宽信 GI小咖公众对比英伟达NvlinkClos”SS(Plar光CSW形光路设计:光纤准直器>二向色分光镜>2DMEMS阵列I>二向色分光镜>2DMEMS阵列II>二向色分光镜>光纤准直器。图42:谷歌PalomarOCS光信号传输路径oogle论文《MissionApollo_LandingOpticalCircuitSwitching》(作者:RyoheiUrata,HongLiu等谷歌PlmarCSa)iberclmaosb)cmeaodlsc)ESakgedESd)ijecionodlse)ichocspierandcbnerN×N2DMEMSMEMS2DMEMS1310nm850nmInjectionModuleCameraModule2DMEMS图43:谷歌PalomarOCS实物图oogle论文《MissionApollo_LandingOpticalCircuitSwitching》(作者:RyoheiUrata,HongLiu等谷歌PalomarOCS设备端口数为136×136PalomarOCSMEMS176136MEMS是微机电系统(Micro-Electro-MechanicalSystems)的缩写。这类器件将微型机械结构与电子元件集成,通过微细加工技术制造,实现了机械与电学功能的微型化融合。图44:MEMS微镜模块实物图 图45:MEMS微镜模块热成像图oogle论文《MissionApollo_LandingOpticalCircuitSwitching》(作者:RyoheiUrata,HongLiu等

oogle论文《MissionApollo_LandingOpticalCircuitSwitching》(作者:RyoheiUrata,HongLiu等谷歌PalomarOCS设备最大功耗为108W136×136(含8PalomarMEMSMEMS176图46:谷歌PalomarOCS机箱机构图以及实物机箱后视图oogle论文《MissionApollo_LandingOpticalCircuitSwitching》(作者:RyoheiUrata,HongLiu等基于MEMS路径的谷歌PalomarOCS设备具备长期迭代发展的潜力。从实际商业落地角度,压电驱动(ieoRboc和S1000×1000表9:各类光电路交换技术的成本、规模、性能及可靠性/可用性对比驱动电压(伏技术类型 相对成本 端口数 交换时延 插入损耗 锁存功能特)MEMS中等320×320毫秒级<3dB数百伏无Robotic中等1008×1008分钟级<1dB—有Piezo高384×384毫秒级<2.5dB十余伏无GuidedWave低16×16毫秒级<6dB1伏无WavelengthSwitching待定100×100纳秒级<6dB0有信 oogle论文《MissionApollo_LandingOpticalCircuitSwitching(作者:RyoheiUrata,HongLiu等谷歌TPUv7超节点:Cube+3DTorus+OCS光交换实现扩展2017TPUv22025年TPUv7TPU2569216TUTU5205TU(onood26D环面拓扑,OCS表10:谷歌超节点迭代路线及性能对比TPUv2TPUv3TPUv4TPUv5pTPUv7首发时间 20172018202220232025单芯片峰值算力45.9T123.2T275T459T2307T(FP16)单芯片HBM内存16GB32GB32GB95GB192GB机柜数41664140144互连拓扑2D环面2D环面3D环面3D环面3D环面分布16×1632×324×4×44×4×44×4×4OCS数量--484848芯片数2561024409689609216信I闲谈公众谷歌TPUv7单芯片算力不及v72307TFLOPs的BF16192GHBM3e7.3TB/sGB200相比,TPUv7FLOPsScale-Upv7可4×4×4Cube+3D光交换的层级架构实现从单芯片到全PodScale-Up最多9216/LLM表11:英伟达GB200芯片与与谷歌TPUv7性能对比UnitGB200TPUv7(internal)TPUv7(external)FP8denseTFLOPSTFLOPS500046144614BF16denseTFLOPSTFLOPS250023072307HBMcapacityGB192192192HBMbandwidthTB/s8.0TB7.37.3单向互连带宽Gb/s720048004800TCOperMarketedFP8$/hrperPFLOP0.460.280.4DensePFLOPTCOperMemoryBandwidth$/hrperTB/s0.280.180.25TCOperMemoryCapacity$/hrperTB11.876.679.65emiAnalysis,Nvidia,Google谷歌单个机架采用“××464颗。TUTPU168HostCPUBBUTPUtray4TPUTPUIronwoodTPU4ICI连接的OSFPcage1HostCPU的CDFPPCIecage。图47:谷歌超节点单个机架实物图oogle谷歌v4、v5p及v7超节点架构组网均采用“4×4×4立方体构建块”作为核心架构单元。单元组成:由4(X)×4(Y)×4(Z)共64块TPU芯片构成。链路总数:每块TPU芯片引出6条ICI(Inter-ChipInterconnect)高速互联链路,分别对应三维坐标系的±X,3DTPUT8个:2根B4根DCcoperU(4个2根CB3根Ccope1T242根CB2根ACope2T8个2根B1根DC34×4×496TPU1根PCB1.25根DACcopper和1.5个光模块。光模块能够连接OCS交换机,使得立方体(机架)与立方体(机架)之间得以互连。图48:TPU4×4×4立方体互联逻辑示意图emiAnalysisTPUv7引入3D,不局限于4×4×4立方体的拓扑单元。TPUv73D3DTPUv7128TPUSlice(4x4x8拓扑CubeATPU4143D4×4×4TPU3D邻的CubeBTPU415TPUv74TPU2048TPU10slice图49:TPUv7128(4×4×8)TPU拓扑示意图emiAnalysis谷歌TPUv4超节点设置64个3D3D对外互联带宽4.8TB/sTPUv43DGB200NVL723845.6TB/s。TPUv44096TPUv4643D48OCS3D6*16/2=48OCSOCS1361283DTPUv4,83DLinkOCS,因此128/2=643D。3DTorus之间互联通过光模块和OCS光交换机实现。单个3DTorus对外引出96条光链路,TPUv4每Link50GB/s,则单个3DTorus对外互联带宽4.8TB/s。图50:谷歌TPUv4超节点网络拓扑I闲谈公众号公众PU7ond926设置144个DoruDorus对外互联带宽92s。图51:谷歌TPUv7超节点网络拓扑I闲谈公众号公众附:谷歌TPUScaleup网络演进与TPU代际发展紧密同步。TPUv2ICILink462GB/s,ICI248TPUv3v2Link62GB/s82GB/s,ICI328GB/s,40bsC。TU4采用DLkik6CI30B,00GPC50。TPUv5p3DLink650GB/s100GB/s,ICI总带宽达到600GB/s,光模块升级为800GOSFP,光通道波特率提升至100G。TPUv73DLink6100GB/s200GB/s,ICI总1200GB/s800GOSFP200G。表12:谷歌Scaleup网络演进与TPU代际发展紧密同步TPUv2TPUv3TPUv4TPUv5pTPUv7首发时间20172018202220232025互连拓扑2D环面2D环面3D环面3D环面3D环面Link数44666带宽/Link62GB/s82GB/s50GB/s100GB/s200GB/sOCS数量\\484848ICI带宽248GB/s328GB/s300GB/s600GB/s1200GB/sICI光模块\400GbpsAOC400GOSFP800GOSFP800GOSFP光通道速率\50G50G100G200G信I闲谈公众4.3总结:光互联Scaleup网络实现技术标准化,技术路线独树一帜谷歌TPUScaleup年谷歌陆续推出TPU、TPUv5pTPUv7TPUv72026nhroic00万颗PU7onoodAI20278NvidiaRubinTPU的谷歌TPU超节点竞争优势建立在交换机,技术路线独树一帜。AMDScaleup谷歌OCS相较于电分组交换机,光电路交换技术具备诸多优势:光电路交换机可跨多代光收发模块技术复用、光电路交换机的每比特能耗较电分组交换机低数个数量级、光电路交换机引入的时延极小。OCSNPU10~20PalomarMEMSAMD:UALink成为重要开放标准,超节点有望成为英伟达有力竞品UALink:代表开放标准路线,受到业内广泛支持相比英伟达NVLink以及谷歌ICI协议,UALinkUALink(UltraAcceleratorAI加速器的开放、高效的Scale-UpUALinkScale-up1.02024年5ADEea和微软携手成立ALk旨在推动数据中心AI2024年0WAseraLasUALink联盟正式成立,主推AI服务器ScaleUP互连协议——UALink。20251AppleSynopsys当选为UALink20252UALink200G20254月,正式发布UALink200G1.0AI1024200G202512UALink1.0+INCIODie、12GDL/PL。图52:UALink发展时间线导体行业观察公众UALink100(截止2026年1UALinkAMDAsteraLabsCISCOHPEIntelMetaMicrosoftSynopsys100UALink4437UALink图53:UALink联盟成员名单ALink官Scale-UpScale-UpGPU要有PCIeSerDes(当前主流达224GpsPCe50x1(18BsUALinkPHYAik(LDL(LUL图54:UALink协议栈架构ALink《Scale-Up互联技术白皮书对比博通SUE可实现单节点1024UALinkSUE针对Scale-Up需求进行协议优化和交换芯片架构创新,意在将其市场主导地位从Scale-Out自然延伸至Scale-Up领域。而UALinkUALink(≤4)SUE(≤10米UALinkPod(1024。SUEClos10万+XPU。UALinkGPU则兼顾单机架Scale-UpScale-Out表13:UALink与SUE技术对比性能指标UALINKSUE物理层基于以太网SerDes完全兼容标准以太网SerDes数据链路层封装64B事务为640B数据帧,添加CRC校验保留以太网MAC层,新增10BA转发包头传输层事务层(压

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论