计算机行业市场前景及投资研究报告:Google集群拆解_第1页
计算机行业市场前景及投资研究报告:Google集群拆解_第2页
计算机行业市场前景及投资研究报告:Google集群拆解_第3页
计算机行业市场前景及投资研究报告:Google集群拆解_第4页
计算机行业市场前景及投资研究报告:Google集群拆解_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Google集群拆解2025年11月目

录1.Google集群的Scaleup:3D结构2.Google集群的Scaleup光互联:光路交换机3.TPU集群内,光路交换机和光模块占比4.Google集群的Scaleout1Scaleup与Scaleout2Google:Scaleup与Scaleout31Google集群的柜内Scaleup:3D结构TPU6*112

Gb/s

*8/8*2≈1.2TB/s5从TPU到TPU

TrayTPUV7单卡TPUTray6*NvidiaGPU:Hopper到BlackwellBlackwellNVLink

5:1.8

TB/s7*AMD

GPU:MI350到MI400PCIe

5.0:128

GB/S3张

800G网

应2.4Tb/s

per

GPU

的Scale

out网络单

72

200Gb

UALinkLane,对应

72

*

200

/

8

=1.8TB/s的Scaleup网络封装内带宽:5.5TB/S封装外

GPU-GPU带宽:1.075TB/S8从TPU

Tray到TPURack物理结构:一列8行,每行2个TPU

Tray。一个机架16个TPU

Tray,64个TPU芯片TPU机架外观图TPU机架拆分连接到数据中心主交换网络(DCN)的通道,用于常规管

、数

存取

外部通信,与

ICI

网络是分离的。CPU

Host(主机计算节点)Heat

Out(散热):机架的空气与液冷散热通道。TPU

板卡采用液体冷却系统,而整个

rack

的热量则通过风冷加液冷系统排出。Copper

Intra-rack

ICI

Interconnects(机架内电缆

ICI)9TPU

Rack:拓扑结构蓝色箭头:内部ICI连接;向外箭头:连向外侧OCS的光缆。10*NvidiaGPU:连网方式11*NvidiaGPU:Scaleup12*AMD

GPU:Scaleup132Google集群的Scaleup光互联:光路交换机光路交换机的工作原理光信号输入和输出:••光纤准直器(136通道):把来自光纤的发散光束变成平行光束,以便在空间中传播和被MEMS反射二维透镜阵列:辅助光束的准直与聚焦,使得每根光纤对应一条独立的光束。光束交换:•二维

MEMS

微镜阵列:通过控制每个MEMS镜子的角度,光束可以被精确地反射到目标输出端口光路监控和对准:•••注入模块(850nm

激光二极管):注入一束监控光(850

nm),它和信号光(O波段)共路。二色分光元件:把监控光和数据信号光分开:相机模块(850nm):接收监控光,判断光束是否准确到达目标端口,实现自动对准和校准。15TPU

SuperPod:组成结构TPUV4Superpod:8*8TPUV7

Superpod:16*916TPU

SuperPod:组成结构Scale-up部分由光路交换机连接,实现TPU之间的全连接17TPU

SuperPod:整体物理结构•••每套系统包含

64个

Google

机架,被划分成

8组,每组

8个机架。总共集成了

4096

芯片,共享

256

TiBHBM内存容量。总计算性能超过

1ExaFLOP(10¹⁸

FLOPS)。每组

8

个机架配备一台

Coolant

Distribution

Unit(CDU),负责提供液冷循环中的冷却介质。18TPU

SuperPod:整体物理结构•

Ironwood

TPU

将帮助客户进一步突破规模和效率的极限。部署

TPU

时,系统会将每个芯片彼此连接,形成一个芯片组

(pod),从而使互连的

TPU

能够作为一个整体协同工作。•借助

Ironwood,我们可以在一个超级芯片组中扩展多达

9,216

个芯片,并通过突破性的芯片间互连

(ICI)

网络以

9.6

Tb/s

的速度连接。这种强大的连接能力使数千个芯片能够快速相互通信,并访问高达

1.77

PB的HBM,从而克服即使是最苛刻模型的数据瓶颈。19TPU

SuperPod:整体物理结构•

TPUV7Superpod物理结构:包含144个机架203TPU集群内,Scaleup部分互联组件占比TPU

V4

光路交换机占比:1.1%•

TPU数量:4096••相关参数:光路交换机端口

136*136,使用端口数为128*128考虑Z轴方向通路,每个机架包含16个(4*4)向上的TPU,一个Superpod包含64个机架,所以向上的TPU数为16*64,考虑上下两个面,一个TPU连出/连入一根光缆,因此总的光缆数为

16*64*2•光路交换机端口为128,

16*64*2/128=16,所以Z轴方向16个光路交换机•

X/Y/Z轴一共48个光路交换机22TPU

V7

光路交换机占比:0.52%•

TPU数量:9216••相关参数:光路交换机端口

300*300,使用端口数为288*288考虑Z轴方向通路,每个机架包含16个(4*4)向上的TPU,一个Superpod包含144个机架,所以向上的TPU数为16*144,考虑上下两个面,一个TPU连出/连入一根光缆,因此总的光缆数为

16*144*2•光路交换机端口为128,

16*144*2/288=16,所以Z轴方向16个光路交换机•

X/Y/Z轴一共48个光路交换机,光路交换机占比为0.52%23TPU

V4集群Scale

up光模块比例:1.5•

TPU数量:4096••光模块数量

=总的光缆数

=朝向外的TPU数量

=16

*64(每个面朝外的TPU)

*6(6个面)=

6144光模块比例:6144/4096

=1.524TPU

V7集群Scale

up光模块比例:1.5•

TPU数量:9216••光模块数量

=总的光缆数

=朝向外的TPU数量

=16

*144(每个面朝外的TPU)

*6(6个面)=

13824光模块比例:13824/9216

=1.525机架内:其他量化数据••••对于单个Rack:向外光模块:6*16PCB

Traces:4*16Copper

cables:12(单方向连线)*4*3(3个方向)

4*16

=

8026TPU•为什么每个TPU对应4个OSFP?•

80

*

2(Copper

cables)+

96(96

optical

fiber)

=256

=64*4TPUV4TPUV7274Google集群的ScaleoutScaleoutTomahawk

5交换机参数:128个400G端口29TPU

SuperPod之外•通过数据中心网络

(DCN)进行通信30Google:Scaleout中的OCS31Google:Scaleout中的OCS32NVScaleout中的OCS••2025年7月:Nvidia论文Programmable

Fabrics

withOpticalSwitchesin

AI

Supercomputers通用三层

FT

拓扑中光交换机的主要集成点:通过截取不同节点和分组交换层之间的光纤连接,引入了相应的

OCS

层,为连接的网络端点提供

L1

可编程数据平面。当与冗余硬件(分组交换机、收发器和服务器)配合使用时,支持

OCS

的架构可以增强架构中硬件和软件故障的弹性,从而最大限度地减少故障对计算集群利用率和效率的显著影响。此外,OCS

层还可以用于创建更扁平的网络,并消除相应的分组交换层。例如,OCS

核心层可以在脊交换机之间建立直接连接,从而无需核心分组交换层。33Google:Scaleout•在这种规模下,服务需要不间断的可用性。因此,我们的光路交换

(OCS)

技术充当动态可重构架构,能够即时绕过中断,在服务持续运行的同时恢复工作负载。当您需要更强大的性能时,Ironwood

可以跨

pod扩展到包含数十万个

TPU的集群。34十万卡集群,Scale

out的光模块、交换机占比十万卡集换机数量和光模块数量十万卡集群

互联和服务器

部分成本拆分(个)交换机数量光模块数量(百万美元)400,000350,000300,000250,000200,000150,000100,00050,0000服务器成本交换机成本光模块成本350,2083,9394,0003,5003,0002,5002,0001,5001,0005003,770251,904251,9044262073,516299136131799,4083,1683,168BroadcomTomahawk5InfiniBandNVIDIASpectrum-X十万卡集群

光模块和交换机占比(%)光模块/GPU(左轴)交换机/GPU(右轴)3,3353,3054.03.53.02.52.01.51.00.50.012.0%3,3053.610.0%8.0%6.0%4.0%2.0%0.0%9.6%2.62.603.2%3.2%InfiniBandNVIDIASpectrum-XBroadcomTomahawk5InfiniBandNVIDIASpectrum-XBroadcomTomahawk535十万卡集群,不同互联方案对比InfiniBand98,304NVIDIASpectrum-X

BroadcomTomahawk5测算逻辑:基于连接示意图测算逻辑:基于通信需求GPU数量交换机数量(台)98,30498,304Spectrum-X每个SN5600交换机有128个400G端口,64个接GPU,64个接第二层交换机,98304/64=1536,Tomahawk5也是128个400G端口每个Rail包含64个Leaf交换机,每个计算岛(Pod)包含8个Rail,一共有三个Pod,因此

64*8*3=1536第一层交换机3,0721,5361,536第二层交换机第三层交换机第四层交换机3,0723,0721,536961,53696Spine交换机和Leaf交换机数量相同图片中包含92个Super

Spine交换机Spine交换机和Leaf交换机数量相同1929,4089.6%2200交换机总数3,1683.2%433,1683.2%25交换机占比平均价格(USD

K)交换机总支出(USD

M)207.0136.279.2收发器数量400G

单端口多模收发器98,30498,30498,304位于HGX

H100侧的收发器数量,4096*8*3=98304Spine-Leaf结构中的收发器数量,(64*64*8*3*2+98304)/2=147456,前部分是叶脊结构中全连接的收发器数量,后部分是从下面HGX

H100向上连的数量。800G

双端口多模收发器245,760147,456147,456800G

单模收发器光模块总数6,144350,208

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论