版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Google集群拆解2025年11月目
录1.Google集群的Scaleup:3D结构2.Google集群的Scaleup光互联:光路交换机3.TPU集群内,光路交换机和光模块占比4.Google集群的Scaleout1Scaleup与Scaleout2Google:Scaleup与Scaleout31Google集群的柜内Scaleup:3D结构TPU6*112
Gb/s
*8/8*2≈1.2TB/s5从TPU到TPU
TrayTPUV7单卡TPUTray6*NvidiaGPU:Hopper到BlackwellBlackwellNVLink
5:1.8
TB/s7*AMD
GPU:MI350到MI400PCIe
5.0:128
GB/S3张
800G网
卡
,
对
应2.4Tb/s
per
GPU
的Scale
out网络单
卡
72
条
200Gb
UALinkLane,对应
72
*
200
/
8
=1.8TB/s的Scaleup网络封装内带宽:5.5TB/S封装外
GPU-GPU带宽:1.075TB/S8从TPU
Tray到TPURack物理结构:一列8行,每行2个TPU
Tray。一个机架16个TPU
Tray,64个TPU芯片TPU机架外观图TPU机架拆分连接到数据中心主交换网络(DCN)的通道,用于常规管
理
、数
据
存取
、
外部通信,与
ICI
网络是分离的。CPU
Host(主机计算节点)Heat
Out(散热):机架的空气与液冷散热通道。TPU
板卡采用液体冷却系统,而整个
rack
的热量则通过风冷加液冷系统排出。Copper
Intra-rack
ICI
Interconnects(机架内电缆
ICI)9TPU
Rack:拓扑结构蓝色箭头:内部ICI连接;向外箭头:连向外侧OCS的光缆。10*NvidiaGPU:连网方式11*NvidiaGPU:Scaleup12*AMD
GPU:Scaleup132Google集群的Scaleup光互联:光路交换机光路交换机的工作原理光信号输入和输出:••光纤准直器(136通道):把来自光纤的发散光束变成平行光束,以便在空间中传播和被MEMS反射二维透镜阵列:辅助光束的准直与聚焦,使得每根光纤对应一条独立的光束。光束交换:•二维
MEMS
微镜阵列:通过控制每个MEMS镜子的角度,光束可以被精确地反射到目标输出端口光路监控和对准:•••注入模块(850nm
激光二极管):注入一束监控光(850
nm),它和信号光(O波段)共路。二色分光元件:把监控光和数据信号光分开:相机模块(850nm):接收监控光,判断光束是否准确到达目标端口,实现自动对准和校准。15TPU
SuperPod:组成结构TPUV4Superpod:8*8TPUV7
Superpod:16*916TPU
SuperPod:组成结构Scale-up部分由光路交换机连接,实现TPU之间的全连接17TPU
SuperPod:整体物理结构•••每套系统包含
64个
机架,被划分成
8组,每组
8个机架。总共集成了
4096
芯片,共享
256
TiBHBM内存容量。总计算性能超过
1ExaFLOP(10¹⁸
FLOPS)。每组
8
个机架配备一台
Coolant
Distribution
Unit(CDU),负责提供液冷循环中的冷却介质。18TPU
SuperPod:整体物理结构•
Ironwood
TPU
将帮助客户进一步突破规模和效率的极限。部署
TPU
时,系统会将每个芯片彼此连接,形成一个芯片组
(pod),从而使互连的
TPU
能够作为一个整体协同工作。•借助
Ironwood,我们可以在一个超级芯片组中扩展多达
9,216
个芯片,并通过突破性的芯片间互连
(ICI)
网络以
9.6
Tb/s
的速度连接。这种强大的连接能力使数千个芯片能够快速相互通信,并访问高达
1.77
PB的HBM,从而克服即使是最苛刻模型的数据瓶颈。19TPU
SuperPod:整体物理结构•
TPUV7Superpod物理结构:包含144个机架203TPU集群内,Scaleup部分互联组件占比TPU
V4
光路交换机占比:1.1%•
TPU数量:4096••相关参数:光路交换机端口
136*136,使用端口数为128*128考虑Z轴方向通路,每个机架包含16个(4*4)向上的TPU,一个Superpod包含64个机架,所以向上的TPU数为16*64,考虑上下两个面,一个TPU连出/连入一根光缆,因此总的光缆数为
16*64*2•光路交换机端口为128,
16*64*2/128=16,所以Z轴方向16个光路交换机•
X/Y/Z轴一共48个光路交换机22TPU
V7
光路交换机占比:0.52%•
TPU数量:9216••相关参数:光路交换机端口
300*300,使用端口数为288*288考虑Z轴方向通路,每个机架包含16个(4*4)向上的TPU,一个Superpod包含144个机架,所以向上的TPU数为16*144,考虑上下两个面,一个TPU连出/连入一根光缆,因此总的光缆数为
16*144*2•光路交换机端口为128,
16*144*2/288=16,所以Z轴方向16个光路交换机•
X/Y/Z轴一共48个光路交换机,光路交换机占比为0.52%23TPU
V4集群Scale
up光模块比例:1.5•
TPU数量:4096••光模块数量
=总的光缆数
=朝向外的TPU数量
=16
*64(每个面朝外的TPU)
*6(6个面)=
6144光模块比例:6144/4096
=1.524TPU
V7集群Scale
up光模块比例:1.5•
TPU数量:9216••光模块数量
=总的光缆数
=朝向外的TPU数量
=16
*144(每个面朝外的TPU)
*6(6个面)=
13824光模块比例:13824/9216
=1.525机架内:其他量化数据••••对于单个Rack:向外光模块:6*16PCB
Traces:4*16Copper
cables:12(单方向连线)*4*3(3个方向)
–
4*16
=
8026TPU•为什么每个TPU对应4个OSFP?•
80
*
2(Copper
cables)+
96(96
optical
fiber)
=256
=64*4TPUV4TPUV7274Google集群的ScaleoutScaleoutTomahawk
5交换机参数:128个400G端口29TPU
SuperPod之外•通过数据中心网络
(DCN)进行通信30Google:Scaleout中的OCS31Google:Scaleout中的OCS32NVScaleout中的OCS••2025年7月:Nvidia论文Programmable
Fabrics
withOpticalSwitchesin
AI
Supercomputers通用三层
FT
拓扑中光交换机的主要集成点:通过截取不同节点和分组交换层之间的光纤连接,引入了相应的
OCS
层,为连接的网络端点提供
L1
可编程数据平面。当与冗余硬件(分组交换机、收发器和服务器)配合使用时,支持
OCS
的架构可以增强架构中硬件和软件故障的弹性,从而最大限度地减少故障对计算集群利用率和效率的显著影响。此外,OCS
层还可以用于创建更扁平的网络,并消除相应的分组交换层。例如,OCS
核心层可以在脊交换机之间建立直接连接,从而无需核心分组交换层。33Google:Scaleout•在这种规模下,服务需要不间断的可用性。因此,我们的光路交换
(OCS)
技术充当动态可重构架构,能够即时绕过中断,在服务持续运行的同时恢复工作负载。当您需要更强大的性能时,Ironwood
可以跨
pod扩展到包含数十万个
TPU的集群。34十万卡集群,Scale
out的光模块、交换机占比十万卡集换机数量和光模块数量十万卡集群
互联和服务器
部分成本拆分(个)交换机数量光模块数量(百万美元)400,000350,000300,000250,000200,000150,000100,00050,0000服务器成本交换机成本光模块成本350,2083,9394,0003,5003,0002,5002,0001,5001,0005003,770251,904251,9044262073,516299136131799,4083,1683,168BroadcomTomahawk5InfiniBandNVIDIASpectrum-X十万卡集群
光模块和交换机占比(%)光模块/GPU(左轴)交换机/GPU(右轴)3,3353,3054.03.53.02.52.01.51.00.50.012.0%3,3053.610.0%8.0%6.0%4.0%2.0%0.0%9.6%2.62.603.2%3.2%InfiniBandNVIDIASpectrum-XBroadcomTomahawk5InfiniBandNVIDIASpectrum-XBroadcomTomahawk535十万卡集群,不同互联方案对比InfiniBand98,304NVIDIASpectrum-X
BroadcomTomahawk5测算逻辑:基于连接示意图测算逻辑:基于通信需求GPU数量交换机数量(台)98,30498,304Spectrum-X每个SN5600交换机有128个400G端口,64个接GPU,64个接第二层交换机,98304/64=1536,Tomahawk5也是128个400G端口每个Rail包含64个Leaf交换机,每个计算岛(Pod)包含8个Rail,一共有三个Pod,因此
64*8*3=1536第一层交换机3,0721,5361,536第二层交换机第三层交换机第四层交换机3,0723,0721,536961,53696Spine交换机和Leaf交换机数量相同图片中包含92个Super
Spine交换机Spine交换机和Leaf交换机数量相同1929,4089.6%2200交换机总数3,1683.2%433,1683.2%25交换机占比平均价格(USD
K)交换机总支出(USD
M)207.0136.279.2收发器数量400G
单端口多模收发器98,30498,30498,304位于HGX
H100侧的收发器数量,4096*8*3=98304Spine-Leaf结构中的收发器数量,(64*64*8*3*2+98304)/2=147456,前部分是叶脊结构中全连接的收发器数量,后部分是从下面HGX
H100向上连的数量。800G
双端口多模收发器245,760147,456147,456800G
单模收发器光模块总数6,144350,208
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年浙江建设职业技术学院单招职业技能测试题库及完整答案详解1套
- 2026年正德职业技术学院单招职业适应性测试题库含答案详解
- 2026年贵州文化旅游职业学院单招职业适应性考试题库含答案详解
- 2026年浙江汽车职业技术学院单招综合素质考试题库及答案详解一套
- 2026年长春早期教育职业学院单招职业技能考试题库及参考答案详解一套
- 2026年驻马店幼儿师范高等专科学校单招职业倾向性考试题库及参考答案详解一套
- 2025年鄂州市华容区属国有企业面向社会公开招聘工作人员备考题库完整答案详解
- 【历 史】2025-2026学年七年级上册地图信息合集课件
- 2025年楚雄市爱昕健康养老产业有限公司招聘备考题库及一套答案详解
- 信阳国信发展集团有限公司2025年公开招聘职业经理人备考题库及答案详解1套
- 2025-2030集中式与分散式青年公寓运营效率对比分析
- 矿山环境监测评价报告
- 广西协美化学品有限公司年产7400吨高纯有机过氧化物项目环评报告
- 智慧树知道网课《艾滋病、性与健康》课后章节测试答案
- 配电施工工艺培训
- 2025年全国教师师德网络培训考试题库及答案
- 2025年医院新进人员岗前培训综合试题(附答案)
- 2025年嫩江市招聘农垦社区工作者(88人)笔试备考试题附答案详解
- 医药行业KA经理工作汇报
- 乳液稳定性研究-洞察及研究
- 人工智能在医药健康领域的应用
评论
0/150
提交评论