2026开放解构超节点(ODS)系统架构技术白皮书(1.0版)_第1页
2026开放解构超节点(ODS)系统架构技术白皮书(1.0版)_第2页
2026开放解构超节点(ODS)系统架构技术白皮书(1.0版)_第3页
2026开放解构超节点(ODS)系统架构技术白皮书(1.0版)_第4页
2026开放解构超节点(ODS)系统架构技术白皮书(1.0版)_第5页
已阅读5页,还剩84页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

开放

解构

超节

点(ODS)系统架构技术

白皮书(1

.

0版本

)目

录前言

..................................................................................................................................................5术语

..................................................................................................................................................7第

1

超节点技术发展面临的挑战.............................................................................................91.1

硬件架构异构化和系统封闭性

...........................................................................................91.2

厂商锁定风险和客户采购决策复杂性

................................................................................

91.3

数据中心适配与系统成本挑战

.........................................................................................101.4模型扩展与业务适配灵活性

..............................................................................................111.5

交付与运维便利性不足

.....................................................................................................12第

2

开放解构超节点设计理念

...............................................................................................13第

3

开放解构超节点系统架构

...............................................................................................153.1基础开放解构超节点系统架构

...........................................................................................

153.1.1硬件系统架构总体介绍

............................................................................................

153.1.2Scale-up网络互连拓扑

..........................................................................................163.1.3

64

卡风冷基础开放解构超节点产品示例

................................................................173.2级联开放解构超节点整体架构

..........................................................................................203.2.1架构总体介绍

.............................................................................................................203.2.2Scale-up网络互联拓扑

..........................................................................................

24第

4

计算节点

..........................................................................................................................2614.1XPU/GPU

选型要求

..........................................................................................................264.2风冷型计算节点设计参考

..................................................................................................

274.2.1计算节点架构

.............................................................................................................274.2.2计算节点机箱布局

.....................................................................................................

284.2.3

GPU

Baseboard参考设计

......................................................................................304.2.4CPU主板

..................................................................................................................

314.2.5

PCIe

Switch

........................................................................................................334.2.6

DC-SCM

BMC

...................................................................................................354.2.7高速硬盘背板

.............................................................................................................364.2.8计算节点

power设计要求

......................................................................................374.2.9SI

设计要求

...............................................................................................................

384.2.10计算节点散热设计要求

...........................................................................................444.3液冷型计算节点设计参考

..................................................................................................

47第

5

交换节点

..........................................................................................................................495.1交换芯片选型

......................................................................................................................

495.2风冷型交换机参考设计

......................................................................................................505.2.1基本规格

....................................................................................................................505.2.2结构与布局

.................................................................................................................515.2.3功能框图

....................................................................................................................535.2.4SI

设计

.......................................................................................................................5625.2.5散热设计

....................................................................................................................595.3液冷型交换机参考设计

......................................................................................................595.3.1基本规格

....................................................................................................................595.3.2结构与布局

.................................................................................................................605.3.3功能框图

....................................................................................................................635.3.4SI

设计

.......................................................................................................................655.3.5散热设计

....................................................................................................................65第

6

Scale-up互联方案

........................................................................................................676.1AEC

铜互联方案

................................................................................................................676.2光互联方案

.........................................................................................................................

696.2.1

FRO

............................................................................................................................696.2.2

LPO

............................................................................................................................

706.2.3

LRO

............................................................................................................................

716.2.4CPO

............................................................................................................................72第

7

软件栈参考架构

...............................................................................................................74第

8

机柜尺寸要求

...................................................................................................................778.1风冷机柜

..............................................................................................................................778.1.1风冷计算机柜参考设计

.............................................................................................778.2液冷机柜

.............................................................................................................................788.2.1CDU要求

..................................................................................................................7838.2.2

Manifold要求

..........................................................................................................79第

9

机柜供电要求

...................................................................................................................809.1计算机柜

..............................................................................................................................809.2交换机柜

.............................................................................................................................81第

10

布线要求

........................................................................................................................8210.1AEC

铜缆

..........................................................................................................................8210.2光纤布线

...........................................................................................................................83第

11

散热要求

........................................................................................................................8411.1计算机柜

.............................................................................................................................8411.1.1风冷计算机柜

..........................................................................................................8411.1.2液冷计算机柜

..........................................................................................................8511.2交换机柜

............................................................................................................................

8611.2.1风冷交换机柜

..........................................................................................................8611.2.2液冷交换机柜

..........................................................................................................86第

12

机柜的统一管理

............................................................................................................884前言混合专家模型(

MoE

)已成为当前基于

Transformer

架构大语言模型的主流技术路径

。该架构依托稀疏激活核心机制

,在实现模型参数量级跃升的同时

,可维持优异的计算效率

,凭借相对有限的算力代价实现显著的性能增益

。然而

,这一架构优势也对

AI

基础设施提出了全新的系统性诉求——MoE

模型运行依赖的专家并行等通信范式

,对节点间互联带宽与延迟表现出极强的敏感性

。随着模型规模从千亿级向万亿乃至十万亿参数量级演进

,专家并行的通信范围已突破单一服务器物理边界,

亟需构建规模更大

、带宽更高

、延迟更低的高带宽通信域(

High-bandwidth

Domain,

HBD)。这一刚性需求直接驱动超节点技术的兴起与演进

。其核心目标是借助超高速互联技术,将成百上千颗

GPU

整合为逻辑统一的“超级GPU

”,实现近似单机级别的协同计算效能

。在此背景下

,超节点技术正加速演进为支撑下一代万亿乃至十万亿参数级MoE

大模型训练与推理任务的核心基础设施基石

。当前

,超节点技术已成为行业焦点

,主流芯片厂商

、服务器供应商及云服务商纷纷推出专属解决方案

。但产业界普遍面临硬件架构异构化

、互联协议私有化

、软件生态碎片化等痛点

,导致用户技术选型时面临显著的采购决策风险与长期厂商锁定风险

。这种碎片化态势不仅推高总体拥有成本(

TCO)

,

还制约跨平台兼容性与产业链协同效率,

阻碍超节点技术市场的健康可持续发展

。对此

,行业亟需在硬件架构

、互联协议及软件框架等层面建立开放统一的技术标准

,构建具备互操作性与可持续演进能力的超节点技术体系

,

为全球人工智能基础设施的健康可持续发展筑牢根基

。5需要说明的是

,本技术白皮书1.0版本主要聚焦于定义开放解构的超节点硬件系统技术架构

,暂不涉及互联协议的具体定义

。6ODS开放解构超节点Open

Disaggregated

SuperPoDODCC开放数据中心委员会Open

Data

Center

CommitteBMC基板管理控制器

Baseboard

Management

ControllerOCM开放控制模组Open

Control

ModuleCPU中央处理器

Central

Processing

UnitGPU图形处理单元

Graphics

Processing

UnitXPU一种泛指各类专用加速处理器的术语

eXtended

ProcessingUnitNIC

网卡

Network

Interface

CardHBD高带宽域High

Bandwidth

DomainI

DC互联网数据中心Internet

Data

CenterRoCE基

融合

访

RDMA

overConverged

EthernetPFC基于优先级的流量控制Priority

Flow

ControlECN显式拥塞通知Explicit

Congestion

NotificationOAM开放式加速器模块

OCP

Accelerator

ModuleOCS

光电路交换机

Optical

Circuit

SwitchOEO光电转换Optical-Electrical-OpticalFEXT远端串扰Far-End

CrosstalkNEXT

近端串扰Near-End

Crosstalk术语7AECDACAOCFROLPOLROCPOOEELSQSFPOSFPConsoleMGMTUSBVGA有源电子电缆

Active

Electrical

Cable直连电缆Direct

Attach

Copper

Cable有源光缆

Active

Optical

Cable全重定时光模块Full

Retimer

Optics线性可插拔光模块Linear

Pluggable

Optics线性接收光模块Linear

Receive

Optics共封装光学技术

Co-Packaged

Optics硅光引擎

Optical

Engine外部激光光源External

Laser

Source四通道小

块Quad

SmallPluggable八通道小

块Octal

SmallPluggable控制串口管理网口通用串行总线Universal

Serial

Bus视频图形阵列端口

Video

Graphics

ArrayForm-factorForm-factor8当前

,超节点在硬件架构维度呈现出鲜明的多元化发展特征,例如

,英伟达现有

GB200/GB300

NVL72

整机柜超节点产品采用电缆托盘(

CableTray)架构,

而其下一代

Rubin

NVL576

整机柜超节点转向中背板设计;与此同时

,业界还涌现出以

AMD

Helios

为代表的双宽机柜超节点,

以及浸没液冷超节点等差异化技术路线

。这种硬件架构的异构化趋势

,使得设备在机柜规格

、供电接口及散热方案等基础设施层面

,与数据中心标准规范存在显著兼容性冲突

,大幅抬高了系统部署与集成的综合成本

。在协议层面

,主流超节点普遍依托私有互联技术

,例如

NVLink

、Infinity

Fabric

等专有协议

。此类协议虽能在单系统内实现极致的通信性能

,但技术封闭性的固有缺陷

,不仅导致跨厂商设备之间难以建立有效的互操作机制

,更引发多厂商异构算力组网场景下技术标准不统一的问题

,显著增加了运维侧的配置适配

、故障排查与版本迭代难度

,进而对统一资源调度与管理平台的构建形成结构性障碍

。1.2

厂商锁定风险和客户采购决策复杂性开放解构超节点(ODS)

系统架构技术白皮书第

1章

超节点技术发展面临的挑战1.1硬件架构异构化和系统封闭性超节点的全栈式定制化设计模式,使得用户一旦完成技术选型

,便会在硬件采购

、软件适配

、运维服务及技术演进等全生命周期环节形成对单一供应商的深度依赖

。这种强绑定的厂商锁定效应

,不仅直接削弱用户在合作中9整机柜超节点系统的功率密度持续攀升

,单柜功率已普遍突破

100kW,传统风冷技术的散热能力已难以匹配实际需求,液冷方案成为必然选择

。这不仅要求现有风冷型机房开展大规模改造升级,涵盖液冷管路铺设

、冷却单元

(

CDU)部署

、承重结构加固等核心环节

,更对机房的密闭性

、防漏液防护设计及精细化环境管控提出严苛要求

,显著提升了基础设施改造的复杂程度与投入成本

,大幅抬高了超节点部署的门槛

。例如

,冷板式液冷需针对性适配

GPU模组的安装布局,浸没式液冷则需全面重构机柜的物理安装环境

。同时

,超节点系统的计算节点

、交换节点

、电缆托盘及机柜结构通常采用高度定制化设计

。这种非标准化架构虽然有助于实现系统级性能最优化,但也带来了较高的研发投入

、硬件BOM

成本与后期维护成本

。从散热维护来看

,液冷系统需定期检测冷却液纯度

、管路密封性,

冷板需及时清理流道结垢

,浸没式液冷还需管控冷媒损耗与相变循环效率

,这些运维工作不仅专业性强

,还需配备专用工具与团队

,进一步推高了运维成本

。当下

,行业普的议价主动权

,更会因供应商的商业策略调整

、技术路线封闭甚至生态布局变动,

引发总体拥有成本(

TCO

)非预期攀升

,造成成本管控的被动局面

。此外

,不同厂商的技术路线存在显著差异

,用户在技术选型阶段需对性能指标

、扩展能力

、生态兼容性等核心维度展开全面研判

。在缺乏统一行业标准与技术移植机制的产业环境下

,任何选型决策都将面临因架构快速迭代

、厂商生态更迭而产生的投资保护风险

,进而大幅提升采购决策的复杂性与不确定性

。1.3

数据中心适配与系统成本挑战开放解构超节点(ODS)

系统架构技术白皮书10整机柜超节点在性能密度和互连带宽方面具备显著优势

,对支撑大规模模型训练及满足

Scaling

Law

提出的计算与通信需求具有重要意义

。然而,该架构在模型规模适配与业务需求灵活性方面存在明显局限

。当前主流整机柜超节点通常采用

64

72

GPU

的固定互连规模

,在面对不同模型大小与多样化市场需求时

,容易出现两种极端情况

:对于中小模型或推理型业务场景,

固定的大规模

HBD(

High

Bandwidth

Domain

)配置可能造成硬件资源过剩,

降低系统利用率

;在支持更高

Expert

Parallelism(

EP

)的超大规模模型训练时

,单机柜架构在空间

、功率及冷却限制下

,往往无法满足更大的

HBD

扩展需求,

需要依赖多机柜级联实现扩展

,从而增加系统复杂度与部署难度

。因此

,业界亟需探索一种

“开放解构超节点(

Open

DisaggregatedSuperPod,

ODS

架构

,通过模块化

、可组合化的设计理念,根据实际业务与模型需求灵活组建不同规模的

GPU

集群

,实现按需配置的

HBD

拓扑结构

。这一方向不仅有助于提升系统的资源利用率与投资效率

,也为数据中心在采购规划

、能耗分配与部署优化方面提供了更高的灵活度与可持续发展空间

。遍面临在性能提升

、散热效率与系统可扩展性之间寻求平衡的挑战

,如何在保持高性能密度的同时实现模块化与标准化设计

,将成为超节点技术规模化落地的关键方向

。1.4

模型扩展与业务适配灵活性开放解构超节点(ODS)

系统架构技术白皮书11当前整机柜超节点的设计普遍侧重性能优化

,对交付便捷性与运维灵活性考量不足

,导致实际部署与运营过程中面临诸多痛点

。在交付环节

,采用Cable

Tray架构的整机柜超节点(如英伟达GB200

NVL72)

因电缆托盘与计算节点预集成

,形成高度一体化的大型设备

,不仅体积庞大

、重量超标,还对运输链路提出严苛要求,

需专用重型运输车辆及定制化固定方案

,避免运输过程中精密电缆与接口受损;

现场交付时

,还可能面临机房入口尺寸

、通道宽度不足等问题,

需临时改造机房结构

,严重延误交付周期

。在运维环节,

问题更为突出

。一方面

,Cable

Tray

架构的超节点采用集成化电缆组件(

Cable

Cartridge

),

当单根电缆出现故障时

,无法单独拆卸更换,

需停机后整体更换整个电缆组件

,导致故障修复时间大幅延长

,严重影响业务连续性

;另一方面

,采用浸没液冷的整机柜超节点

,虽能满足超高功率密度散热需求

,但运维难度显著提升——设备出现部件故障时,

需先排空液冷罐中的冷媒

,将整机从液冷

tank

中取出后才能进行维修

,不仅操作流程复杂

、耗时久

,还需专业团队管控冷媒回收与加注

,避免漏液与环境风险

。此外

,超节点的定制化硬件设计导致备品备件通用性差,

需从原厂商单独采购

,不仅采购周期长

、成本高

,还进一步加剧了厂商锁定风险;

同时

,运维人员需掌握液冷系统

、专有互连协议等多领域技术

,对运维团队的专业能力提出极高要求,

而行业内此类复合型人才普遍短缺

,进一步推高了运维成本

。开放解构超节点(ODS)

系统架构技术白皮书1.5

交付与运维便利性不足12第

2章开放解构超节点设计理念为应对上述挑战

,我们提出以“开放解构

”为核心理念的新型超节点架构,

旨在通过标准化

、模块化的设计思路

,推动构建健康

、可持续的超节点

技术生态体系

。开放解构超节点(

Open

Disaggregated

SuperPoD

,ODS

)的核心设计原则包括以下

5

个方面:(1)网络协议完全开放基于开放以太技术路线,充分发挥以太网产业生态繁荣

、兼容广泛的优势;同时最大化统一Scale-up

与Scale-out技术栈,消除异构组网的协议壁垒,显著降低网络运维复杂度

。(2)硬件架构全面解构计算节点采用轻量化定制服务器形态,交换节点基于标准化交换机架构

,通过通用铜缆或光纤接口实现计算与交换节点的高效互联,从底层架构层面打破专用硬件的厂商绑定,提升设备兼容性与选型灵活性

。(3)系统规模弹性扩展支持从几十卡到上千卡的平滑弹性扩展,可无缝覆盖小规模分布式推理集

、中大型模型训练集群等多样化业务场景,满足不同用户的差异化算力需求

。(4)散热方案灵活配置系统架构原生兼容风冷与液冷两种散热方案,可适配不同数据中心的基础开放解构超节点(ODS)

系统架构技术白皮书13设施条件

。其中,风冷方案能够直接匹配现有

I

DC机房的部署环境,无需大规模改造即可快速落地;液冷方案则更适用于为高密度AI

工作负载量身打造的

智算数据中心

,实现散热效率与算力密度的最优平衡

。(5)

互联效率全面优化●遵循“铜缆优先

”原则,在满足超节点规模和互联距离的前提下

,优先采用成本更低

、能效更优

、可靠性更高的铜缆互联方案;●优先采用高基数(

High-Radix

)交换机

,简化网络结构

,减少数据交换跳数,

降低端到端通信延迟;●最大限度减少光电转换(

OEO

)环节显著降低系统功耗与传输延迟

。开放解构超节点(ODS)

系统架构技术白皮书143.1.1硬件系统架构总体介绍基础

ODS以独立的计算节点为基本构建单元

,通过标准化的高速互连接口与交换节点进行连接

,从而实现硬件系统架构的完全解构

。基础

ODS

允许计算节点与交换节点在物理空间上灵活布局

。计算节点可分布于多个标准机柜内

,通过结构化布线与交换柜内交换节点互联

,从而显著提升机柜布局

、供电与散热设计的灵活度

。基础

ODS的规模主要受限于交换机的端口密度和线缆最大通信距离两个因素

,交换机可以选择

51.2T(128*400G

)交换机或102.4T(128*800G

)交换机

,采用

7

800G

AEC可以支持5

个标准机柜互联(注:

中间一个交换柜

,两侧各两个计算柜)

,可以在一级交换的组网架构下

,最大支持256

卡(液冷)

和128卡(风冷)

规模

。64卡风冷型ODS(图3-1

)。第

3章开放解构超节点系统架构开放解构超节点(

Open

Disaggregated

SuperPoD,

ODS

)系统架构支持两种差异化部署形态

:其一为采用单级交换架构的基础开放解构超节点

,其二为采用两级交换架构的级联开放解构超节点

,分别适配不同规模的超节点部署需求

。3.1

基础开放解构超节点系统架构开放解构超节点(ODS)

系统架构技术白皮书15图

3-13.1.2Scale-up网络互连拓扑基础开放解构超节点的

Scale-up

网络采用一级交换全对等互连结构:所有计算节点中的

GPU

通过标准线缆连接到高基数高性能交换机

,实现GPU

之间全对等互联

,形成一个高带宽域(

HBD,

High

BandwidthDomain

),

以满足MoE大模型训练和推理场景对高带宽

、低延迟通信的需求

。以

64

卡风冷基础开放解构超节点为例

,互联拓扑(图

3-2)

,每个GPU的通过

4

个800G

AEC

线缆连接到

4

个交换机

。如果采用

800GAEC

一分二线缆(一侧

800G

OSFP

,另外一侧

2*400G

QSFP112)

,则每个

800G

AEC

对应的两个

400G

接口连接到同一台交换机

。开放解构超节点(ODS)

系统架构技术白皮书16图

3-23.1.364卡风冷基础开放解构超节点产品示例以一个由

64

Gaudi3

GPU

组成的

基础

ODS

为例(图

3-3):开放解构超节点(ODS)

系统架构技术白皮书图

3-317由

16

4U

风冷计算节点组成

,每台计算节点内配置

4

GPU

,并具备独立的供电与散热能力(风冷计算节点的详细规格说明见第四章)

。每个

GPU

提供

24

200G

RoCE

接口

。为满足全带宽通信需求

,集群设计采用

6

51.2T

交换机实现互联

。交换机的具体数量与带宽配置

,取决于

GPU

的互连需求与系统拓扑设计:在典型部署中

,可选择

6

51.2T

以太网交换机

,每台提供

64

个800G

OSFP

接口

;或采用

128

400G

QSFP112

接口

的交换机型号,以提升端口密度与兼容性;推荐的交换机型号与端口配置详见第五章

。在机柜布局方面

,计算节点可对称分布在交换柜两侧:左右两侧各包含

8

个计算节点(共

32

GPU);中间机柜为交换柜

,部署上述

6

台交换机

,通过结构化布线与计算节点互连

。这种布局不仅优化了

信号完整性与线缆长度,

同时便于

风冷/液冷混合部署

与数据中心机电系统的灵活扩展

。基于

Gaudi3的64

卡超节点

Scale-up网络互联拓扑(图3-4):开放解构超节点(ODS)

系统架构技术白皮书18图

3-41)

交换机选型与链路配置在使用

128

×

400G

交换机

的情况下,

需要通过

800G

400G

分支连接线(一分二)

GPU

接口连接到交换机端口,

以保证每条链路的带宽与互连完整性

。每个

GPU

的同编号端口应统一连接到同一交换机上

,这样可以在通信协议层面实现

拓扑简化与统一管理

,便于调度和负载均衡

。2)

拓扑设计原则全对等互连可确保

GPU

间通信延迟最小化

,适用于需要高并行度和大规模

HBD

的模型训练任务

。采用标准化接口(如

QSFP/OSFP

)和分支线缆设计,使系统在不同GPU

数量和不同交换机配置下均可灵活适配

。统一端口连接策略不仅降低了布线复杂度

,也便于系统调试和后期维护开放解构超节点(ODS)

系统架构技术白皮书193.2.1架构总体介绍级联开放解构超节点以多套基础开放解构超节点为核心算力单元

,通过引入第二级互联层

,实现多套基础超节点单元的级联

,从而快速扩容超节点规模

。在第二级互联设备选型上,

除采用电交换机之外(与第一级交换机一样)外

,强烈推荐采用

OCS(光电路交换机)替代

。OCS设备依托光电路调度特性

,可省去数据传输中的频繁光电

/

电光转换环节

,借此进一步降低传输延迟

,减少系统功耗

,提高可靠性

。级联开放解构超节点配套的

Scale-up

网络互联架构采用

“光电混合的高效互联

体系

,具体层级设计如下:(1)第一级交换:支撑基础开放解构超节点全对等互联与级联预留第一级交换的核心作用的是实现基础开放解构超节点范围内

GPU/XPU之间的高效互联

,并为级联预留一半端口资源

,具体设计如下

:所有计算节点直接接入第一级交换机

,实现全对等互联;

同时

,第一级交换机需预留50%

端口资源

,专门用于后续与第二级互联设备的级联扩展

。以

64

卡基础开放解构超节点(风冷)

为例

,交换柜内的第一级交换机。对于未来扩展到更大规模的

HBD

,可通过增加交换机或计算节点模块的方式,保持一级全互连结构,

同时保证互连性能和系统可管理性

。3.2

级联开放解构超节点整体架构开放解构超节点(ODS)

系统架构技术白皮书20配置有两种方案:●

方案一

:部署

8

51.2T

高性能交换机(128*400G)

,对应构建8

Scale-up

网络平面

,每个

GPU/XPU

通过单链路

400G

的方式接入这

8

个网络平面(图

3-5)

;图

3-5●

方案二

:部署

4

102.4T

高性能交换机(128*800G

,对应构建

4

Scale-up

网络平面

,每个

GPU/XPU

通过单链路

800G

的方式分别接入这

4

个网络平面(图

3-6)

。开放解构超节点(ODS)

系统架构技术白皮书21图

3-6以

128

卡基础开放解构超节点(风冷)

为例

,交换柜内的第一级交换机配置采用如下方案:部署

8台102.4T高性能交换机(128*800G

),对应构建

8

个Scale-up网络平面

,每个GPU/XPU

通过单链路

400G

方式接入这

8

个网络平面(图

3-7)

。开放解构超节点(ODS)

系统架构技术白皮书22图

3-7(2)

第二级交换:实现多套基础超节点级联与规模扩展第二级交换实现

“基础开放解构超节点级联

”,通过第一级交换机与第二级互联设备的高带宽链路

,实现多套基础开放解构超节点的级联

,具体设计与规模适配如下:●

互联方式:

第一级交换机与第二级互联设备通过光纤连接

。第二级交换设备可以采用交换机(与第一级交换机相同型号)

或光路交换机(

OCS

,基于开放解构超节点的第

5

条设计原则,

即最大限度减少光电转换(

OEO

)环节

,强烈推荐采用OCS

。●

超节点规模:

超节点的最大级联规模由第二级互联设备的类型和规格决定

。当第一级

、第二级交换均采用

51.2

T的交换机(128*400G

端口)

时,

最大可支持

8192

卡超节点集群;

当第一级交换采用

51.2T

交换机

、第二级交换替换为

OCS(256*256)

,最大支持

1024

卡超节点集群(图

3-

8)

。图

3-8当第一级

、第二级交换均采用

102.4T

交换机(128*800G

端口)

时,开放解构超节点(ODS)

系统架构技术白皮书23最大可支持

16384

卡超节点集群;

当第一级交换采用

102.4T

交换机

、第二级交换机替换为

OCS(256*256)

,最大支持

2048

卡超节点集群

。3.2.2Scale-up网络互联拓扑以

64

卡风冷基础开放解构超节点为构建单元

,第二级采用交换机的级联开放解构超节点的

Scale-up

互联拓扑如下(图

3-9):图

3-9以

64

卡风冷基础开放解构超节点为构建单元

,第二级采用

OCS的级联开放解构超节点

Scale-up

互联拓扑如下(图

3-10):开放解构超节点(ODS)

系统架构技术白皮书24开放解构超节点(ODS)

系统架构技术白皮书图

3-1025开放解构超节点(

ODS

)架构在设计上开放支持多种互连协议,

为了保证系统的开放性与生态延续性

,建议优先采用

以太网互连方案

。基于以太网的设计能够充分利用现有

交换机

、线缆及管理工具的成熟生态,

同时兼顾高性能计算需求

。为满足大规模深度学习训练中高带宽

、低延迟的

GPU

互连需求

,每个GPU

的网络接口带宽建议

3.2Tb

ps

。芯片

SerDes

能力需满足开放互连拓扑中的信号完整性(

SI)指标

,保证多节点互连时的可靠传输

。每个

GPU需具备连接至

CPU的

PCIe

Gen5

x

16接口能力

。在多机多卡场景下,

GPU

互连接口应建议支持以下功能,

以提升通信性能并降低软件干预:●RDMA(远程直接内存访问)GPU

接口应建议支持

RDMA

功能

,为计算引擎提供

高带宽

、低延迟的内存访问

,无需

CPU

干预

,实现端到端高效通信

。●MPI

Collective

操作硬件卸载GPU

接口建议支持将集体通信操作(如

All-Reduce

、Broadcast

)卸载至硬件,

以减少

CPU

负载并提高端口带宽利用率

。第

4

计算节点4.1

XPU/GPU选型要求开放解构超节点(ODS)

系统架构技术白皮书26硬件卸载可解决发送方交会流冲突

,确保数据仅发送一次至接收方,

同时避免多余内存拷贝

。●

网络拥塞控制GPU

接口应建议支持无损网络机制,

基于优先级的流量控制(PFC

)或

基于时效的拥塞管理(

ECN/RTT-based

Congestion

Control)

以防止丢包导致性能下降

。4.2

风冷型计算节点设计参考本章节描述风冷型

4U

计算节点(图

4-1)

的设计规范

,涵盖架构

、机箱布局

、各单板(子卡)

、信号完整性

、电源

、散热及接口要求,

旨在为开放解构超节点(

ODS

)提供标准化参考

,实现高性能

、标准化

、可扩展的GPU

Scale-up

网络设计

。图

4-14.2.1计算节点架构本章节描述的计算节点采用

4U

风冷设计

,支持

4

个加速器模块

,面向开放解构超节点(ODS)

系统架构技术白皮书27图

4-24.2.2计算节点机箱布局为兼顾风冷型计算节点的通用性与可维护性

,本设计采用

GPU

CPU系统一体化布局方案

。整机基于

4U

机箱结构,在机箱前部进风口位置布置

4

块高功耗

GPU

OAM

模块,

以实现最优的气流组织和散热效果,

同时便于高速网络连接的布线与管理

。CPU

主板

位于机箱尾部区域,便于

管理网口

、I/O

接口及其他系统连接器

的布置与接入

。整机各功能单元均采用模块化设计

,包括

GPU

Baseboard

、CPU

主板主流

OAM

形态的高性能计算需求

。参考设计基于

Intel

Gaudi3

OAM

模块构建

,系统由

GPU

Baseboard

、PCIe

Switch

、CPU

主板和电源分配板(

PDB

)等关键部件组成

,形成完整的计算节点架构(图

4-2)

。开放解构超节点(ODS)

系统架构技术白皮书28、PCIe

Switch

板及电源分配模块等

,模块间通过线缆实现互联,

既提升了系统装配灵活性

,也方便后期维护与升级

。机箱的整体布局(图

4-3)图

4-3系统配置(图

4-4)开放解构超节点(ODS)

系统架构技术白皮书图

4-429图

4-5GPU

Baseboard

4

GPU

的PCIe

信号通过

MCIO

cable

连接到PCIe

SW

板的

PCIe

Switch

下行接口

。板上的

54V

和12V电源来自PDB板,

54V转3.3V的powermodule

主要用于给

24

OSFP

module

供电

。Side

band

信号连接器用于

CPU

主板对于GPU

板上电时序和

GPU的管理

,板上

CPLD

主要用于上电时序控制和对

GPU

信号控制

。GPU

baseboard

外形(图

4-6)

尺寸如下(表

4-1

)4.2.3GPUBaseboard参考设计GPU

Baseboard

的板框图(图

4-5)

。以

Intel

Gaudi3

为例,Baseboard

搭载

4

GPU

OAM

模块

,每个

OAM

模块支持

24

200Gb

ps

以太网接口

。为满足业界标准互联要求

,这些接口通过

6

OSFP

接口

对外呈现,实现单板

24

OSFP

端口

的高速网络连接能力

。开放解构超节点(ODS)

系统架构技术白皮书30图

4-64.2.4CPU

主板CPU

主板框图(图

4-7)

。本参考设计采用

单路

Intel

BHS-AP

平台,

搭载

GNR-AP

CPU

,支持

12

DDR5

内存

。通过

MCIO

连接器

提供88

PCIe

Gen5

lane

对外接口

。主板集成

CPLD

用于上电控制和状态监控

,并配备

标准

OCP

DC-SCM

连接器

,外接

DC-SCM

卡实现

BMC

管长424mm宽360mm板厚3.6mmTOP限高区域合理定义BOT限高2.1mm开放解构超节点(ODS)

系统架构技术白皮书表

4-131长355mm宽210mm板厚2.51TOP限高区域合理定义BOT限高2.1mm图

4-7单路

CPU

主板外形尺寸如下:CPU

主板外形(图

4-8)

尺寸如下(表

4-2

)开放解构超节点(ODS)

系统架构技术白皮书理功能

。32图

4-84.2.5PCIe

Switch板PCIe

Switch

板框图(图

4-9)

,单板集成

2

Broad

comPEX89104

Switch:●

每个

Switch

配备

2

PCIe

Gen5

x

16

上行口●

下行口包括:➢

2

x

16

CEM

slot

,用于

Scale-Out

NIC➢

2

x

16

接口连接

GPU

Baseboard➢

2

x8

接口连接

2

x4

NVMe

存储

,通过

HSBP

扩展

电源由

PDB

提供

,side

band

信号来自

GPU

Baseboard

。开放解构超节点(ODS)

系统架构技术白皮书33长285mm宽250mm板厚2.63mmTOP限高区域合理定义BOT限高2.1mm图

4-9PCIe

Switch

板外形(图

4-10)

尺寸如下:开放解构超节点(ODS)

系统架构技术白皮书图

4-10表

4-3344.2.6DC-SCMBMC卡BMC

卡框图(图

4-11

),采用

AST2600

BMC

芯片

,通过

Gen-Z4C+

连接器

与主板连接

。接口符合

OCP

DC-SCM2.0

标准,板上集成EROT

芯片

提供加密功能

。BMC

卡用于计算节点管理

,对外接口包括:●管理

GE

口●USB2.0

、USB3.0

、USB-C

接口●

VGA

显示接口开放解构超节点(ODS)

系统架构技术白皮书图

4-1135图

4-124.2.7高速硬盘背板高速硬盘背板支持

4

U.2

硬盘,

PCIe

信号由

两片

PCIe

Switch

板通过

MCIO

线缆连接

。板上

CPLD

负责电源控制

、硬盘在位检测及指示灯控制,

同时提供VPP

接口给主板(图4-13)

。长宽

板厚TOP限高BOT

限高120.4mm

90mm1.57mm11.5mm1.8mmBMC

板外形(图

4-12)

尺寸如下(表

4-3

):开放解构超节点(ODS)

系统架构技术白皮书表

4-336表

4-44.2.8计算节点power设计要求PDB

两路输出54V

和12V,

提供节点内各个子系统的供电需求,power

budget

table

如下

,可用于选择合适的PSU

。ComponentGaudi3

OAMCount4Power900WTotal

Power3600W长宽

板厚TOP限高BOT

限高163mm

39.3mm

2mmN/AN/A图

4-13高速硬盘背板外形尺寸如下(表

4-4

):开放解构超节点(ODS)

系统架构技术白皮书37HPM1800W800WPCIE

SW1150W150WHN

NIC160W60WGPU

NIC445W180WSSD420W80W54V

FAN895W760W12V

FAN839W312WMiscs110W10WVR

loss+PDN

lossTotal1150W1850W6102W表

4-5互联方案建议优先选择

AEC

,800G

OSFP

AEC

典型的功耗为10W

(单端)

。54V

设计有额外的安规要求

,请参照

“Open

AcceleratorInfrastructure

(OAI)

-Universal

Baseboard

(UBB)

Base

Specification

r2.0

v0.5

”。4.2.9SI

设计要求本节针对112G

Serdes

的互连

,提出计算节点的信号完整性设计要求。开放解构超节点(ODS)

系统架构技术白皮书38项目损耗预算

(dB

@

/2)OAM

互连结构3.0板到板连接器1.0UBB

互连结构8.0OSFP

连接器2.0OSFP模块2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论