版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
开放
解构
超节
点(ODS)系统架构技术
白皮书(1
.
0版本
)目
录前言
..................................................................................................................................................5术语
..................................................................................................................................................7第
1
章
超节点技术发展面临的挑战.............................................................................................91.1
硬件架构异构化和系统封闭性
...........................................................................................91.2
厂商锁定风险和客户采购决策复杂性
................................................................................
91.3
数据中心适配与系统成本挑战
.........................................................................................101.4模型扩展与业务适配灵活性
..............................................................................................111.5
交付与运维便利性不足
.....................................................................................................12第
2
章
开放解构超节点设计理念
...............................................................................................13第
3
章
开放解构超节点系统架构
...............................................................................................153.1基础开放解构超节点系统架构
...........................................................................................
153.1.1硬件系统架构总体介绍
............................................................................................
153.1.2Scale-up网络互连拓扑
..........................................................................................163.1.3
64
卡风冷基础开放解构超节点产品示例
................................................................173.2级联开放解构超节点整体架构
..........................................................................................203.2.1架构总体介绍
.............................................................................................................203.2.2Scale-up网络互联拓扑
..........................................................................................
24第
4
章
计算节点
..........................................................................................................................2614.1XPU/GPU
选型要求
..........................................................................................................264.2风冷型计算节点设计参考
..................................................................................................
274.2.1计算节点架构
.............................................................................................................274.2.2计算节点机箱布局
.....................................................................................................
284.2.3
GPU
Baseboard参考设计
......................................................................................304.2.4CPU主板
..................................................................................................................
314.2.5
PCIe
Switch
板
........................................................................................................334.2.6
DC-SCM
BMC
卡
...................................................................................................354.2.7高速硬盘背板
.............................................................................................................364.2.8计算节点
power设计要求
......................................................................................374.2.9SI
设计要求
...............................................................................................................
384.2.10计算节点散热设计要求
...........................................................................................444.3液冷型计算节点设计参考
..................................................................................................
47第
5
章
交换节点
..........................................................................................................................495.1交换芯片选型
......................................................................................................................
495.2风冷型交换机参考设计
......................................................................................................505.2.1基本规格
....................................................................................................................505.2.2结构与布局
.................................................................................................................515.2.3功能框图
....................................................................................................................535.2.4SI
设计
.......................................................................................................................5625.2.5散热设计
....................................................................................................................595.3液冷型交换机参考设计
......................................................................................................595.3.1基本规格
....................................................................................................................595.3.2结构与布局
.................................................................................................................605.3.3功能框图
....................................................................................................................635.3.4SI
设计
.......................................................................................................................655.3.5散热设计
....................................................................................................................65第
6
章
Scale-up互联方案
........................................................................................................676.1AEC
铜互联方案
................................................................................................................676.2光互联方案
.........................................................................................................................
696.2.1
FRO
............................................................................................................................696.2.2
LPO
............................................................................................................................
706.2.3
LRO
............................................................................................................................
716.2.4CPO
............................................................................................................................72第
7
章
软件栈参考架构
...............................................................................................................74第
8
章
机柜尺寸要求
...................................................................................................................778.1风冷机柜
..............................................................................................................................778.1.1风冷计算机柜参考设计
.............................................................................................778.2液冷机柜
.............................................................................................................................788.2.1CDU要求
..................................................................................................................7838.2.2
Manifold要求
..........................................................................................................79第
9
章
机柜供电要求
...................................................................................................................809.1计算机柜
..............................................................................................................................809.2交换机柜
.............................................................................................................................81第
10
章
布线要求
........................................................................................................................8210.1AEC
铜缆
..........................................................................................................................8210.2光纤布线
...........................................................................................................................83第
11
章
散热要求
........................................................................................................................8411.1计算机柜
.............................................................................................................................8411.1.1风冷计算机柜
..........................................................................................................8411.1.2液冷计算机柜
..........................................................................................................8511.2交换机柜
............................................................................................................................
8611.2.1风冷交换机柜
..........................................................................................................8611.2.2液冷交换机柜
..........................................................................................................86第
12
章
机柜的统一管理
............................................................................................................884前言混合专家模型(
MoE
)已成为当前基于
Transformer
架构大语言模型的主流技术路径
。该架构依托稀疏激活核心机制
,在实现模型参数量级跃升的同时
,可维持优异的计算效率
,凭借相对有限的算力代价实现显著的性能增益
。然而
,这一架构优势也对
AI
基础设施提出了全新的系统性诉求——MoE
模型运行依赖的专家并行等通信范式
,对节点间互联带宽与延迟表现出极强的敏感性
。随着模型规模从千亿级向万亿乃至十万亿参数量级演进
,专家并行的通信范围已突破单一服务器物理边界,
亟需构建规模更大
、带宽更高
、延迟更低的高带宽通信域(
High-bandwidth
Domain,
HBD)。这一刚性需求直接驱动超节点技术的兴起与演进
。其核心目标是借助超高速互联技术,将成百上千颗
GPU
整合为逻辑统一的“超级GPU
”,实现近似单机级别的协同计算效能
。在此背景下
,超节点技术正加速演进为支撑下一代万亿乃至十万亿参数级MoE
大模型训练与推理任务的核心基础设施基石
。当前
,超节点技术已成为行业焦点
,主流芯片厂商
、服务器供应商及云服务商纷纷推出专属解决方案
。但产业界普遍面临硬件架构异构化
、互联协议私有化
、软件生态碎片化等痛点
,导致用户技术选型时面临显著的采购决策风险与长期厂商锁定风险
。这种碎片化态势不仅推高总体拥有成本(
TCO)
,
还制约跨平台兼容性与产业链协同效率,
阻碍超节点技术市场的健康可持续发展
。对此
,行业亟需在硬件架构
、互联协议及软件框架等层面建立开放统一的技术标准
,构建具备互操作性与可持续演进能力的超节点技术体系
,
为全球人工智能基础设施的健康可持续发展筑牢根基
。5需要说明的是
,本技术白皮书1.0版本主要聚焦于定义开放解构的超节点硬件系统技术架构
,暂不涉及互联协议的具体定义
。6ODS开放解构超节点Open
Disaggregated
SuperPoDODCC开放数据中心委员会Open
Data
Center
CommitteBMC基板管理控制器
Baseboard
Management
ControllerOCM开放控制模组Open
Control
ModuleCPU中央处理器
Central
Processing
UnitGPU图形处理单元
Graphics
Processing
UnitXPU一种泛指各类专用加速处理器的术语
eXtended
ProcessingUnitNIC
网卡
Network
Interface
CardHBD高带宽域High
Bandwidth
DomainI
DC互联网数据中心Internet
Data
CenterRoCE基
于
融合
以
太
网
的
远
程
直
接
内
存
访
问
RDMA
overConverged
EthernetPFC基于优先级的流量控制Priority
Flow
ControlECN显式拥塞通知Explicit
Congestion
NotificationOAM开放式加速器模块
OCP
Accelerator
ModuleOCS
光电路交换机
Optical
Circuit
SwitchOEO光电转换Optical-Electrical-OpticalFEXT远端串扰Far-End
CrosstalkNEXT
近端串扰Near-End
Crosstalk术语7AECDACAOCFROLPOLROCPOOEELSQSFPOSFPConsoleMGMTUSBVGA有源电子电缆
Active
Electrical
Cable直连电缆Direct
Attach
Copper
Cable有源光缆
Active
Optical
Cable全重定时光模块Full
Retimer
Optics线性可插拔光模块Linear
Pluggable
Optics线性接收光模块Linear
Receive
Optics共封装光学技术
Co-Packaged
Optics硅光引擎
Optical
Engine外部激光光源External
Laser
Source四通道小
型
可
插
拔
光
模
块Quad
SmallPluggable八通道小
型
可
插
拔
光
模
块Octal
SmallPluggable控制串口管理网口通用串行总线Universal
Serial
Bus视频图形阵列端口
Video
Graphics
ArrayForm-factorForm-factor8当前
,超节点在硬件架构维度呈现出鲜明的多元化发展特征,例如
,英伟达现有
GB200/GB300
NVL72
整机柜超节点产品采用电缆托盘(
CableTray)架构,
而其下一代
Rubin
NVL576
整机柜超节点转向中背板设计;与此同时
,业界还涌现出以
AMD
Helios
为代表的双宽机柜超节点,
以及浸没液冷超节点等差异化技术路线
。这种硬件架构的异构化趋势
,使得设备在机柜规格
、供电接口及散热方案等基础设施层面
,与数据中心标准规范存在显著兼容性冲突
,大幅抬高了系统部署与集成的综合成本
。在协议层面
,主流超节点普遍依托私有互联技术
,例如
NVLink
、Infinity
Fabric
等专有协议
。此类协议虽能在单系统内实现极致的通信性能
,但技术封闭性的固有缺陷
,不仅导致跨厂商设备之间难以建立有效的互操作机制
,更引发多厂商异构算力组网场景下技术标准不统一的问题
,显著增加了运维侧的配置适配
、故障排查与版本迭代难度
,进而对统一资源调度与管理平台的构建形成结构性障碍
。1.2
厂商锁定风险和客户采购决策复杂性开放解构超节点(ODS)
系统架构技术白皮书第
1章
超节点技术发展面临的挑战1.1硬件架构异构化和系统封闭性超节点的全栈式定制化设计模式,使得用户一旦完成技术选型
,便会在硬件采购
、软件适配
、运维服务及技术演进等全生命周期环节形成对单一供应商的深度依赖
。这种强绑定的厂商锁定效应
,不仅直接削弱用户在合作中9整机柜超节点系统的功率密度持续攀升
,单柜功率已普遍突破
100kW,传统风冷技术的散热能力已难以匹配实际需求,液冷方案成为必然选择
。这不仅要求现有风冷型机房开展大规模改造升级,涵盖液冷管路铺设
、冷却单元
(
CDU)部署
、承重结构加固等核心环节
,更对机房的密闭性
、防漏液防护设计及精细化环境管控提出严苛要求
,显著提升了基础设施改造的复杂程度与投入成本
,大幅抬高了超节点部署的门槛
。例如
,冷板式液冷需针对性适配
GPU模组的安装布局,浸没式液冷则需全面重构机柜的物理安装环境
。同时
,超节点系统的计算节点
、交换节点
、电缆托盘及机柜结构通常采用高度定制化设计
。这种非标准化架构虽然有助于实现系统级性能最优化,但也带来了较高的研发投入
、硬件BOM
成本与后期维护成本
。从散热维护来看
,液冷系统需定期检测冷却液纯度
、管路密封性,
冷板需及时清理流道结垢
,浸没式液冷还需管控冷媒损耗与相变循环效率
,这些运维工作不仅专业性强
,还需配备专用工具与团队
,进一步推高了运维成本
。当下
,行业普的议价主动权
,更会因供应商的商业策略调整
、技术路线封闭甚至生态布局变动,
引发总体拥有成本(
TCO
)非预期攀升
,造成成本管控的被动局面
。此外
,不同厂商的技术路线存在显著差异
,用户在技术选型阶段需对性能指标
、扩展能力
、生态兼容性等核心维度展开全面研判
。在缺乏统一行业标准与技术移植机制的产业环境下
,任何选型决策都将面临因架构快速迭代
、厂商生态更迭而产生的投资保护风险
,进而大幅提升采购决策的复杂性与不确定性
。1.3
数据中心适配与系统成本挑战开放解构超节点(ODS)
系统架构技术白皮书10整机柜超节点在性能密度和互连带宽方面具备显著优势
,对支撑大规模模型训练及满足
Scaling
Law
提出的计算与通信需求具有重要意义
。然而,该架构在模型规模适配与业务需求灵活性方面存在明显局限
。当前主流整机柜超节点通常采用
64
或
72
个
GPU
的固定互连规模
,在面对不同模型大小与多样化市场需求时
,容易出现两种极端情况
:对于中小模型或推理型业务场景,
固定的大规模
HBD(
High
Bandwidth
Domain
)配置可能造成硬件资源过剩,
降低系统利用率
;在支持更高
Expert
Parallelism(
EP
)的超大规模模型训练时
,单机柜架构在空间
、功率及冷却限制下
,往往无法满足更大的
HBD
扩展需求,
需要依赖多机柜级联实现扩展
,从而增加系统复杂度与部署难度
。因此
,业界亟需探索一种
“开放解构超节点(
Open
DisaggregatedSuperPod,
ODS
)
”
架构
,通过模块化
、可组合化的设计理念,根据实际业务与模型需求灵活组建不同规模的
GPU
集群
,实现按需配置的
HBD
拓扑结构
。这一方向不仅有助于提升系统的资源利用率与投资效率
,也为数据中心在采购规划
、能耗分配与部署优化方面提供了更高的灵活度与可持续发展空间
。遍面临在性能提升
、散热效率与系统可扩展性之间寻求平衡的挑战
,如何在保持高性能密度的同时实现模块化与标准化设计
,将成为超节点技术规模化落地的关键方向
。1.4
模型扩展与业务适配灵活性开放解构超节点(ODS)
系统架构技术白皮书11当前整机柜超节点的设计普遍侧重性能优化
,对交付便捷性与运维灵活性考量不足
,导致实际部署与运营过程中面临诸多痛点
。在交付环节
,采用Cable
Tray架构的整机柜超节点(如英伟达GB200
NVL72)
因电缆托盘与计算节点预集成
,形成高度一体化的大型设备
,不仅体积庞大
、重量超标,还对运输链路提出严苛要求,
需专用重型运输车辆及定制化固定方案
,避免运输过程中精密电缆与接口受损;
现场交付时
,还可能面临机房入口尺寸
、通道宽度不足等问题,
需临时改造机房结构
,严重延误交付周期
。在运维环节,
问题更为突出
。一方面
,Cable
Tray
架构的超节点采用集成化电缆组件(
Cable
Cartridge
),
当单根电缆出现故障时
,无法单独拆卸更换,
需停机后整体更换整个电缆组件
,导致故障修复时间大幅延长
,严重影响业务连续性
;另一方面
,采用浸没液冷的整机柜超节点
,虽能满足超高功率密度散热需求
,但运维难度显著提升——设备出现部件故障时,
需先排空液冷罐中的冷媒
,将整机从液冷
tank
中取出后才能进行维修
,不仅操作流程复杂
、耗时久
,还需专业团队管控冷媒回收与加注
,避免漏液与环境风险
。此外
,超节点的定制化硬件设计导致备品备件通用性差,
需从原厂商单独采购
,不仅采购周期长
、成本高
,还进一步加剧了厂商锁定风险;
同时
,运维人员需掌握液冷系统
、专有互连协议等多领域技术
,对运维团队的专业能力提出极高要求,
而行业内此类复合型人才普遍短缺
,进一步推高了运维成本
。开放解构超节点(ODS)
系统架构技术白皮书1.5
交付与运维便利性不足12第
2章开放解构超节点设计理念为应对上述挑战
,我们提出以“开放解构
”为核心理念的新型超节点架构,
旨在通过标准化
、模块化的设计思路
,推动构建健康
、可持续的超节点
技术生态体系
。开放解构超节点(
Open
Disaggregated
SuperPoD
,ODS
)的核心设计原则包括以下
5
个方面:(1)网络协议完全开放基于开放以太技术路线,充分发挥以太网产业生态繁荣
、兼容广泛的优势;同时最大化统一Scale-up
与Scale-out技术栈,消除异构组网的协议壁垒,显著降低网络运维复杂度
。(2)硬件架构全面解构计算节点采用轻量化定制服务器形态,交换节点基于标准化交换机架构
,通过通用铜缆或光纤接口实现计算与交换节点的高效互联,从底层架构层面打破专用硬件的厂商绑定,提升设备兼容性与选型灵活性
。(3)系统规模弹性扩展支持从几十卡到上千卡的平滑弹性扩展,可无缝覆盖小规模分布式推理集
群
、中大型模型训练集群等多样化业务场景,满足不同用户的差异化算力需求
。(4)散热方案灵活配置系统架构原生兼容风冷与液冷两种散热方案,可适配不同数据中心的基础开放解构超节点(ODS)
系统架构技术白皮书13设施条件
。其中,风冷方案能够直接匹配现有
I
DC机房的部署环境,无需大规模改造即可快速落地;液冷方案则更适用于为高密度AI
工作负载量身打造的
智算数据中心
,实现散热效率与算力密度的最优平衡
。(5)
互联效率全面优化●遵循“铜缆优先
”原则,在满足超节点规模和互联距离的前提下
,优先采用成本更低
、能效更优
、可靠性更高的铜缆互联方案;●优先采用高基数(
High-Radix
)交换机
,简化网络结构
,减少数据交换跳数,
降低端到端通信延迟;●最大限度减少光电转换(
OEO
)环节显著降低系统功耗与传输延迟
。开放解构超节点(ODS)
系统架构技术白皮书143.1.1硬件系统架构总体介绍基础
ODS以独立的计算节点为基本构建单元
,通过标准化的高速互连接口与交换节点进行连接
,从而实现硬件系统架构的完全解构
。基础
ODS
允许计算节点与交换节点在物理空间上灵活布局
。计算节点可分布于多个标准机柜内
,通过结构化布线与交换柜内交换节点互联
,从而显著提升机柜布局
、供电与散热设计的灵活度
。基础
ODS的规模主要受限于交换机的端口密度和线缆最大通信距离两个因素
,交换机可以选择
51.2T(128*400G
)交换机或102.4T(128*800G
)交换机
,采用
7
米
800G
AEC可以支持5
个标准机柜互联(注:
中间一个交换柜
,两侧各两个计算柜)
,可以在一级交换的组网架构下
,最大支持256
卡(液冷)
和128卡(风冷)
规模
。64卡风冷型ODS(图3-1
)。第
3章开放解构超节点系统架构开放解构超节点(
Open
Disaggregated
SuperPoD,
ODS
)系统架构支持两种差异化部署形态
:其一为采用单级交换架构的基础开放解构超节点
,其二为采用两级交换架构的级联开放解构超节点
,分别适配不同规模的超节点部署需求
。3.1
基础开放解构超节点系统架构开放解构超节点(ODS)
系统架构技术白皮书15图
3-13.1.2Scale-up网络互连拓扑基础开放解构超节点的
Scale-up
网络采用一级交换全对等互连结构:所有计算节点中的
GPU
通过标准线缆连接到高基数高性能交换机
,实现GPU
之间全对等互联
,形成一个高带宽域(
HBD,
High
BandwidthDomain
),
以满足MoE大模型训练和推理场景对高带宽
、低延迟通信的需求
。以
64
卡风冷基础开放解构超节点为例
,互联拓扑(图
3-2)
,每个GPU的通过
4
个800G
AEC
线缆连接到
4
个交换机
。如果采用
800GAEC
一分二线缆(一侧
800G
OSFP
,另外一侧
2*400G
QSFP112)
,则每个
800G
AEC
对应的两个
400G
接口连接到同一台交换机
。开放解构超节点(ODS)
系统架构技术白皮书16图
3-23.1.364卡风冷基础开放解构超节点产品示例以一个由
64
卡
Gaudi3
GPU
组成的
基础
ODS
为例(图
3-3):开放解构超节点(ODS)
系统架构技术白皮书图
3-317由
16
台
4U
风冷计算节点组成
,每台计算节点内配置
4
个
GPU
,并具备独立的供电与散热能力(风冷计算节点的详细规格说明见第四章)
。每个
GPU
提供
24
个
200G
RoCE
接口
。为满足全带宽通信需求
,集群设计采用
6
台
51.2T
交换机实现互联
。交换机的具体数量与带宽配置
,取决于
GPU
的互连需求与系统拓扑设计:在典型部署中
,可选择
6
台
51.2T
以太网交换机
,每台提供
64
个800G
OSFP
接口
;或采用
128
个
400G
QSFP112
接口
的交换机型号,以提升端口密度与兼容性;推荐的交换机型号与端口配置详见第五章
。在机柜布局方面
,计算节点可对称分布在交换柜两侧:左右两侧各包含
8
个计算节点(共
32
GPU);中间机柜为交换柜
,部署上述
6
台交换机
,通过结构化布线与计算节点互连
。这种布局不仅优化了
信号完整性与线缆长度,
同时便于
风冷/液冷混合部署
与数据中心机电系统的灵活扩展
。基于
Gaudi3的64
卡超节点
Scale-up网络互联拓扑(图3-4):开放解构超节点(ODS)
系统架构技术白皮书18图
3-41)
交换机选型与链路配置在使用
128
×
400G
交换机
的情况下,
需要通过
800G
到
400G
分支连接线(一分二)
将
GPU
接口连接到交换机端口,
以保证每条链路的带宽与互连完整性
。每个
GPU
的同编号端口应统一连接到同一交换机上
,这样可以在通信协议层面实现
拓扑简化与统一管理
,便于调度和负载均衡
。2)
拓扑设计原则全对等互连可确保
GPU
间通信延迟最小化
,适用于需要高并行度和大规模
HBD
的模型训练任务
。采用标准化接口(如
QSFP/OSFP
)和分支线缆设计,使系统在不同GPU
数量和不同交换机配置下均可灵活适配
。统一端口连接策略不仅降低了布线复杂度
,也便于系统调试和后期维护开放解构超节点(ODS)
系统架构技术白皮书193.2.1架构总体介绍级联开放解构超节点以多套基础开放解构超节点为核心算力单元
,通过引入第二级互联层
,实现多套基础超节点单元的级联
,从而快速扩容超节点规模
。在第二级互联设备选型上,
除采用电交换机之外(与第一级交换机一样)外
,强烈推荐采用
OCS(光电路交换机)替代
。OCS设备依托光电路调度特性
,可省去数据传输中的频繁光电
/
电光转换环节
,借此进一步降低传输延迟
,减少系统功耗
,提高可靠性
。级联开放解构超节点配套的
Scale-up
网络互联架构采用
“光电混合的高效互联
”
体系
,具体层级设计如下:(1)第一级交换:支撑基础开放解构超节点全对等互联与级联预留第一级交换的核心作用的是实现基础开放解构超节点范围内
GPU/XPU之间的高效互联
,并为级联预留一半端口资源
,具体设计如下
:所有计算节点直接接入第一级交换机
,实现全对等互联;
同时
,第一级交换机需预留50%
端口资源
,专门用于后续与第二级互联设备的级联扩展
。以
64
卡基础开放解构超节点(风冷)
为例
,交换柜内的第一级交换机。对于未来扩展到更大规模的
HBD
,可通过增加交换机或计算节点模块的方式,保持一级全互连结构,
同时保证互连性能和系统可管理性
。3.2
级联开放解构超节点整体架构开放解构超节点(ODS)
系统架构技术白皮书20配置有两种方案:●
方案一
:部署
8
台
51.2T
高性能交换机(128*400G)
,对应构建8
个
Scale-up
网络平面
,每个
GPU/XPU
通过单链路
400G
的方式接入这
8
个网络平面(图
3-5)
;图
3-5●
方案二
:部署
4
台
102.4T
高性能交换机(128*800G
)
,对应构建
4
个
Scale-up
网络平面
,每个
GPU/XPU
通过单链路
800G
的方式分别接入这
4
个网络平面(图
3-6)
。开放解构超节点(ODS)
系统架构技术白皮书21图
3-6以
128
卡基础开放解构超节点(风冷)
为例
,交换柜内的第一级交换机配置采用如下方案:部署
8台102.4T高性能交换机(128*800G
),对应构建
8
个Scale-up网络平面
,每个GPU/XPU
通过单链路
400G
方式接入这
8
个网络平面(图
3-7)
。开放解构超节点(ODS)
系统架构技术白皮书22图
3-7(2)
第二级交换:实现多套基础超节点级联与规模扩展第二级交换实现
“基础开放解构超节点级联
”,通过第一级交换机与第二级互联设备的高带宽链路
,实现多套基础开放解构超节点的级联
,具体设计与规模适配如下:●
互联方式:
第一级交换机与第二级互联设备通过光纤连接
。第二级交换设备可以采用交换机(与第一级交换机相同型号)
或光路交换机(
OCS
)
,基于开放解构超节点的第
5
条设计原则,
即最大限度减少光电转换(
OEO
)环节
,强烈推荐采用OCS
。●
超节点规模:
超节点的最大级联规模由第二级互联设备的类型和规格决定
。当第一级
、第二级交换均采用
51.2
T的交换机(128*400G
端口)
时,
最大可支持
8192
卡超节点集群;
当第一级交换采用
51.2T
交换机
、第二级交换替换为
OCS(256*256)
时
,最大支持
1024
卡超节点集群(图
3-
8)
。图
3-8当第一级
、第二级交换均采用
102.4T
交换机(128*800G
端口)
时,开放解构超节点(ODS)
系统架构技术白皮书23最大可支持
16384
卡超节点集群;
当第一级交换采用
102.4T
交换机
、第二级交换机替换为
OCS(256*256)
时
,最大支持
2048
卡超节点集群
。3.2.2Scale-up网络互联拓扑以
64
卡风冷基础开放解构超节点为构建单元
,第二级采用交换机的级联开放解构超节点的
Scale-up
互联拓扑如下(图
3-9):图
3-9以
64
卡风冷基础开放解构超节点为构建单元
,第二级采用
OCS的级联开放解构超节点
Scale-up
互联拓扑如下(图
3-10):开放解构超节点(ODS)
系统架构技术白皮书24开放解构超节点(ODS)
系统架构技术白皮书图
3-1025开放解构超节点(
ODS
)架构在设计上开放支持多种互连协议,
为了保证系统的开放性与生态延续性
,建议优先采用
以太网互连方案
。基于以太网的设计能够充分利用现有
交换机
、线缆及管理工具的成熟生态,
同时兼顾高性能计算需求
。为满足大规模深度学习训练中高带宽
、低延迟的
GPU
互连需求
,每个GPU
的网络接口带宽建议
≥
3.2Tb
ps
。芯片
SerDes
能力需满足开放互连拓扑中的信号完整性(
SI)指标
,保证多节点互连时的可靠传输
。每个
GPU需具备连接至
CPU的
PCIe
Gen5
x
16接口能力
。在多机多卡场景下,
GPU
互连接口应建议支持以下功能,
以提升通信性能并降低软件干预:●RDMA(远程直接内存访问)GPU
接口应建议支持
RDMA
功能
,为计算引擎提供
高带宽
、低延迟的内存访问
,无需
CPU
干预
,实现端到端高效通信
。●MPI
Collective
操作硬件卸载GPU
接口建议支持将集体通信操作(如
All-Reduce
、Broadcast
)卸载至硬件,
以减少
CPU
负载并提高端口带宽利用率
。第
4
章
计算节点4.1
XPU/GPU选型要求开放解构超节点(ODS)
系统架构技术白皮书26硬件卸载可解决发送方交会流冲突
,确保数据仅发送一次至接收方,
同时避免多余内存拷贝
。●
网络拥塞控制GPU
接口应建议支持无损网络机制,
如
基于优先级的流量控制(PFC
)或
基于时效的拥塞管理(
ECN/RTT-based
Congestion
Control)
,
以防止丢包导致性能下降
。4.2
风冷型计算节点设计参考本章节描述风冷型
4U
计算节点(图
4-1)
的设计规范
,涵盖架构
、机箱布局
、各单板(子卡)
、信号完整性
、电源
、散热及接口要求,
旨在为开放解构超节点(
ODS
)提供标准化参考
,实现高性能
、标准化
、可扩展的GPU
Scale-up
网络设计
。图
4-14.2.1计算节点架构本章节描述的计算节点采用
4U
风冷设计
,支持
4
个加速器模块
,面向开放解构超节点(ODS)
系统架构技术白皮书27图
4-24.2.2计算节点机箱布局为兼顾风冷型计算节点的通用性与可维护性
,本设计采用
GPU
与
CPU系统一体化布局方案
。整机基于
4U
机箱结构,在机箱前部进风口位置布置
4
块高功耗
GPU
OAM
模块,
以实现最优的气流组织和散热效果,
同时便于高速网络连接的布线与管理
。CPU
主板
位于机箱尾部区域,便于
管理网口
、I/O
接口及其他系统连接器
的布置与接入
。整机各功能单元均采用模块化设计
,包括
GPU
Baseboard
、CPU
主板主流
OAM
形态的高性能计算需求
。参考设计基于
Intel
Gaudi3
OAM
模块构建
,系统由
GPU
Baseboard
、PCIe
Switch
板
、CPU
主板和电源分配板(
PDB
)等关键部件组成
,形成完整的计算节点架构(图
4-2)
。开放解构超节点(ODS)
系统架构技术白皮书28、PCIe
Switch
板及电源分配模块等
,模块间通过线缆实现互联,
既提升了系统装配灵活性
,也方便后期维护与升级
。机箱的整体布局(图
4-3)图
4-3系统配置(图
4-4)开放解构超节点(ODS)
系统架构技术白皮书图
4-429图
4-5GPU
Baseboard
4
个
GPU
的PCIe
信号通过
MCIO
cable
连接到PCIe
SW
板的
PCIe
Switch
下行接口
。板上的
54V
和12V电源来自PDB板,
54V转3.3V的powermodule
主要用于给
24
个
OSFP
module
供电
。Side
band
信号连接器用于
CPU
主板对于GPU
板上电时序和
GPU的管理
,板上
CPLD
主要用于上电时序控制和对
GPU
信号控制
。GPU
baseboard
外形(图
4-6)
尺寸如下(表
4-1
)4.2.3GPUBaseboard参考设计GPU
Baseboard
的板框图(图
4-5)
。以
Intel
Gaudi3
为例,Baseboard
搭载
4
个
GPU
OAM
模块
,每个
OAM
模块支持
24
条
200Gb
ps
以太网接口
。为满足业界标准互联要求
,这些接口通过
6
个
OSFP
接口
对外呈现,实现单板
共
24
个
OSFP
端口
的高速网络连接能力
。开放解构超节点(ODS)
系统架构技术白皮书30图
4-64.2.4CPU
主板CPU
主板框图(图
4-7)
。本参考设计采用
单路
Intel
BHS-AP
平台,
搭载
GNR-AP
CPU
,支持
12
条
DDR5
内存
。通过
MCIO
连接器
提供88
条
PCIe
Gen5
lane
对外接口
。主板集成
CPLD
用于上电控制和状态监控
,并配备
标准
OCP
DC-SCM
连接器
,外接
DC-SCM
卡实现
BMC
管长424mm宽360mm板厚3.6mmTOP限高区域合理定义BOT限高2.1mm开放解构超节点(ODS)
系统架构技术白皮书表
4-131长355mm宽210mm板厚2.51TOP限高区域合理定义BOT限高2.1mm图
4-7单路
CPU
主板外形尺寸如下:CPU
主板外形(图
4-8)
尺寸如下(表
4-2
)开放解构超节点(ODS)
系统架构技术白皮书理功能
。32图
4-84.2.5PCIe
Switch板PCIe
Switch
板框图(图
4-9)
,单板集成
2
个
Broad
comPEX89104
Switch:●
每个
Switch
配备
2
个
PCIe
Gen5
x
16
上行口●
下行口包括:➢
2
个
x
16
CEM
slot
,用于
Scale-Out
NIC➢
2
个
x
16
接口连接
GPU
Baseboard➢
2
个
x8
接口连接
2
个
x4
NVMe
存储
,通过
HSBP
扩展
➢
电源由
PDB
提供
,side
band
信号来自
GPU
Baseboard
。开放解构超节点(ODS)
系统架构技术白皮书33长285mm宽250mm板厚2.63mmTOP限高区域合理定义BOT限高2.1mm图
4-9PCIe
Switch
板外形(图
4-10)
尺寸如下:开放解构超节点(ODS)
系统架构技术白皮书图
4-10表
4-3344.2.6DC-SCMBMC卡BMC
卡框图(图
4-11
),采用
AST2600
BMC
芯片
,通过
Gen-Z4C+
连接器
与主板连接
。接口符合
OCP
DC-SCM2.0
标准,板上集成EROT
芯片
提供加密功能
。BMC
卡用于计算节点管理
,对外接口包括:●管理
GE
口●USB2.0
、USB3.0
、USB-C
接口●
VGA
显示接口开放解构超节点(ODS)
系统架构技术白皮书图
4-1135图
4-124.2.7高速硬盘背板高速硬盘背板支持
4
个
U.2
硬盘,
PCIe
信号由
两片
PCIe
Switch
板通过
MCIO
线缆连接
。板上
CPLD
负责电源控制
、硬盘在位检测及指示灯控制,
同时提供VPP
接口给主板(图4-13)
。长宽
板厚TOP限高BOT
限高120.4mm
90mm1.57mm11.5mm1.8mmBMC
板外形(图
4-12)
尺寸如下(表
4-3
):开放解构超节点(ODS)
系统架构技术白皮书表
4-336表
4-44.2.8计算节点power设计要求PDB
两路输出54V
和12V,
提供节点内各个子系统的供电需求,power
budget
table
如下
,可用于选择合适的PSU
。ComponentGaudi3
OAMCount4Power900WTotal
Power3600W长宽
板厚TOP限高BOT
限高163mm
39.3mm
2mmN/AN/A图
4-13高速硬盘背板外形尺寸如下(表
4-4
):开放解构超节点(ODS)
系统架构技术白皮书37HPM1800W800WPCIE
SW1150W150WHN
NIC160W60WGPU
NIC445W180WSSD420W80W54V
FAN895W760W12V
FAN839W312WMiscs110W10WVR
loss+PDN
lossTotal1150W1850W6102W表
4-5互联方案建议优先选择
AEC
,800G
OSFP
AEC
典型的功耗为10W
(单端)
。54V
设计有额外的安规要求
,请参照
“Open
AcceleratorInfrastructure
(OAI)
-Universal
Baseboard
(UBB)
Base
Specification
r2.0
v0.5
”。4.2.9SI
设计要求本节针对112G
Serdes
的互连
,提出计算节点的信号完整性设计要求。开放解构超节点(ODS)
系统架构技术白皮书38项目损耗预算
(dB
@
/2)OAM
互连结构3.0板到板连接器1.0UBB
互连结构8.0OSFP
连接器2.0OSFP模块2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年出版专业技术人员职业资格考试出版专业基础知识(中级)试题
- 技术人员职业资格考试(中级)《出版专业基础知识》试题与答案
- 2025年出版专业技术人员职业资格考试(初级)《出版专业基础知识》试题
- Geranyl-isovalerate-生命科学试剂-MCE
- Formylisoglutamine-生命科学试剂-MCE
- Flufenamate-aluminum-生命科学试剂-MCE
- 2025年无人机管制设备技术参数
- 帕金森病护理中的疼痛管理
- 急救护理中的心理支持与沟通
- 导尿术无菌操作规范讲解
- 药企化验室安全培训课件
- 船舶内装工程施工方案
- 2025中国武夷实业股份有限公司招聘1人(公共基础知识)综合能力测试题附答案
- 人教版高中英语选择性必修三词汇表(背默版)
- 企业内部创业孵化器搭建方案
- 2025年东南亚润滑油市场研究报告和展望
- 国开-人文社会科学基础(A)-期末终考-学习资料
- 观察和处置患者用药与治疗反应的制度
- 冲压工程师技能等级评定标准
- 危废仓库安全管理要求与操作手册
- 【《基于51单片机的自动窗帘控制系统设计》6800字(论文)】
评论
0/150
提交评论