算力、GPU、AI服务器详解_第1页
算力、GPU、AI服务器详解_第2页
算力、GPU、AI服务器详解_第3页
算力、GPU、AI服务器详解_第4页
算力、GPU、AI服务器详解_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

算力、

GPU、

AI服务器详解,,5608,690

5,097

.

.

72092

7

6121,000.0800.0600.0400.0200.030,00025,00020,00015

000,10,000一、

什么是算力算力顾名思义是

“计算能力

”的缩写

指的是IT设备的计算能力,在以

“智算中心

”“新基建

”、

“数字经济

”以及

“东数西算

”等国家政策导向驱动下

“算力

”相关话题近两年热度非常高

大家对算力的关注度也持续攀升。二、

算力的规模情况算力的概念和市场规模616.6497.1259.92020-2028年中国智算市场规模GAGR=46.3%40,000

2020-2027年中国智算算力规模GAGR=33.9%2020

2021

2022

2023

2024E2025E2026E2027E2028E来源:IDC《2023-2024年中国人工智能计算力发展评估报告》2020

2021

2022

20232024E2025E2026E2027E

中国智能算力规模及预测(EFlops/年)数据来源:艾瑞咨询数据研究院

中国智算市场规模(亿元)1

200

0

.,2,3

9301683234

,

174,117.435,000414.1812.5155.25,00075

0--智算特征—训练算力集中高密部署

,推理算力贴近客户快速交互o

训练:需要较高计算性能及海量数据,集群内网络时延性能要求高,需要集中高密部署;耗电量大,无需靠近最终用户,电力供应充足、能源成本低的蒙贵甘宁等西部区域数据中心有一定优势o

推理:需要低时延、高弹性的计算,需要与模型实时交互,可部署在贴近用户的数据中心,当前主要集中在训推一体的京津冀、长三角、大湾区等重点区域智算时代的算力特征推理过程又称判断过程,是指利用训练好的模型,使

用新数据推理出各种结论。需求特点•

需要低时延、

高可靠性和高弹性的计算

,需要与

模型实时交互

,贴近用户部署•

:GPU与

ASIC/

FPGA/

NPU均

可•

英伟达

:T4

,单卡70W

,单台服务器1kW•华为

:昇腾Atlas300iPro

,单卡72W,单台服

务器800W

•单机柜功耗:

6

~

10kW训练过程是指通过大数据训练出一个复杂的神经网络模型,训练过程需要较高的计算性能、需要海量的数据、训练出的网络具有一定通用性。需求特点•

需要低时延、零丢包、

大带宽的高性能网络

,集中高密部署

,每个算力集群建议控制在50m以内•

芯片类型:GPU为主•英伟达:

H800,单卡700W,单台服务器11kW•

华为

:昇腾910B

,单卡392W

,单台服务器5.2kW•

单机柜功耗:10

~60kW1

基础算力:

以CPU的计算能力为主。

适用于各个领域的计算。2

智能算力:

以GPU、FPGA、

ASIC芯片等输出的计算能力为主

侧重人工智能领域。3、超算算力:

以超算(

HPC)

集群输出的计算能力为主,科研、

国防、

高端制造等领域。上述算力分类是从狭义的角度进行的统计

目前和信息技术有关的一切

其实都可以笼统称为算力领域,算力的分类和单位算力及服务的时代

除了狭义上的算力,还包括存储的存力、网络的传输能力、

算法的能力等等。算力的单位通常采用

FLOPS(

Floating

Point

Operations

Per

Second)

表示每秒钟能够完成的浮点运算或指令数,例如一台计算机每秒钟可以完成

10

亿次浮点运算

那么它的

FLOPS值就是1

GFLOPS(1

Giga

FLOPS)除了FLOPS还有其他多种不同的衡量方法。主要有如下:(1)

MIPS(每秒钟执行的百万指令数);(2)

DMIPS(Dh

rystone每秒钟执行的百万指令数);(3)OPS(每秒操作次数,Operations

Per

Second);(4)

Hash/s(每秒哈希运算次数,

Hash

Per

Second)等。算力分类技术架构定制化程度可编辑性价格优点缺点应用场景GPU通用性强强高通用性强

,且适合大规模并行运

算,设计和制造工艺成熟。并行运算能力在推理侧

无法完全发挥。高级且复杂算法和通

用性AI平台FPGA半定制化强中可通过编译灵活配置芯片架构适

应算法迭代,平均性能较高;功

耗较低,开发时间较短(半年左

右)量产单价高,峰值算力

较低

,编程门槛高各种具体的行业应用ASIC全定制化弱低通过算法固话实现极致的性能和

能效

,功耗低、体积小、量产后

成本最低前期投入成本高、研发

周期较长(1年以上)技术风险高。特殊且专用的领域。类脑芯片模拟人脑强NA低功耗、通信效率高、认知能力

强目前技术成熟度差实时高效地解决不确

定及复杂环境下的问

题AI算力对应的芯片路线GPU算力的典型业务场景AI推理的场景非常广泛、比如:安防监控、自动驾驶、各类边缘计算场景等。对GPU卡的要求是性价比高、功耗底。以广电媒资、游戏开发、工程3D建模

,AR、VR等,主要对GPU的视频处理、图形渲染要求高,

同时还要支持视频接口输出等。大型3D游戏对显卡性能要求极高。对应英伟达GeForce消费类卡,但是由于卡的高性价比也经常被用于企业级应用中。CPU+GPU是HPC发展重要基石,CPU擅长逻辑控制,

串行的运算和通用类型数据运算,GPU擅长大规模并发计算。OpenAI从英伟达采购了三万多张顶级人工智能芯片

,每枚价值近十万元

,光是这批芯片,就价值三十亿人民币。大型模型训练高性能计算AI推理图形渲染云游戏信通院发布了《中国算力发展智算白皮书》

,作为权威机构的材料

对如何衡量

“基础算力

”、

“智能算力

”和

“超算算力

”给出了明确的解释。结论归纳

与智算中心或者AI相关(默认是FP16)、

超算HPC(默认是FP64)、

部分情况为了便于统计

会统一换算为FP32(目前见到的不多)

,通常都会备注清楚。算力规模的统计标准部分新闻报道----指明了算力精度问题简单分析怎么理解精度?在计算机世界里面

,浮点数精度

,跟存储方式有关,占用bit越多

,精度越高

,表示的越准确。以圆周率π为例,3.14后面还有很多小数

,但是如果要更高精

度,小数点后面可以有无数位。为何存在多个精

度?精度越高肯定更准确,但是也会带来更高的计算和存储成本。较低的精度会降低计算精度,但可以提高计算效率和性能。所以多种不同精度,可以让你在不同情况下选择最适合的一种。举例-------

展开分析FP32、

FP16等算力精度-1=标准的FP英文全称是Floating

Point

是IEEE定义的标准浮点数类型

。由符号位

(sign)、

指数位(exponent)

和小数位

(fraction)

三部分组成

和FP类似的还有TF32

(全称Tensor

Float

32)

,是英伟达提出的特殊的数值类型

用于替换FP32

当然也有google提出的BF16(

Brain

Float

16)

。FP16也叫float16

全称是Half-precision

floating-point(半精度浮点数)

,在计算机的角度是用16位二进制来表示的展开分析FP32、

FP16等算力精度-2类型符号位长度指数位长度小数位长度偏移半精度FP16151015单精度FP321823127双精度FP64111521023二、

以FP32为例,我们将FP32精度格式的二进制转化为十进制。

转换公式

十进制结果FP32和FP64都是二进制表示的

为了让计算机能看懂,那么和十进制的数值如何转换呢?一、

以FP32为例,我们将9.625这个十进制转换为FP32精度格式的二进制。

小数部分:0.625

小数部分:0.1011001.101=

1.001101*23FP32表示2130

=10000010小数位要补齐23位后,拼接如下:整数部分:

9整数部分:1001注:偏移的量是根据IEEE754的规范规定的

,我理解是为了更好的显示和计算。0

1000001000110100000000000000000十进制的9.625二进制转换

二进制表示指数部分要加127偏移,即为3+127

=130算力的计算方式—CPU算力CPU单周期双精度浮点计算能力

=2(FMA数量)*2(同时加法和乘法)*512/64

=32CPU单周期单精度浮点计算能力

=2(FMA数量)*2(同时加法和乘法)*512/32

=646348双精算力=28x2.6(109

)x(32)/(1012)=2.3Tflops6348单精算力=28x2.6(109

)x(64)/(1012)=4.6TflopsCPU算力计算公式:Flops

=【CPU核数】

*【单核主频】

*【CPU单个周期浮点计算能力】以6348

CPU为例

支持AVX512指令集,且FMA系数=2,所以CPU每周期算力值为:英特尔®

至强®

Gold

6348处理器

28c

2.60GHz中兴服务器CPU跑分宣传SPEC是一个由计算机硬件广商

软件公司

大学

研究机构

系统集成商出版发型及咨询机构组成的非营利性组织

致力于创建

维护并引导一个计算机系统及业界公认的系统指标。

得到众多国际软硬件厂商的支持和参与,被金融

电信

证券等关键行业用户作为选择IT系统一项权威的选型指标。SPEC

CPU是一系列的测试工具

比如

SPEC

CPU

2017是最新版本的评估整机计算处理能力工具

它包括Cint和Cfp两个子项目

前者用于测量和对比整型性能

而后者则用于测量和对比浮点性能。常见的CPU算力跑分举例龙芯3A6000跑分宣传算力的计算方式—GPU算力(A100)

-1

=运行频率的单位为

GHz

一个时钟周期内特定数据类型的指令吞吐量单位为FLOPS/Cycle

,其中不太好理解是后面2项;1

单个SM一个时钟周期内特定数据类型的指令吞吐量

与英伟达每一代的GPU架构设计有关

与基于标准CUDA

Core还是通过Tenser

core加速也有关

在不同精度的表现也都不一样

具体如图(图片来自网络)

;2

公式里面的“

2

”是因为Tensor

Core融合了乘和加的指令

每次执行指令会计算一次乘法和一次加法

视作两次浮点运算所以乘以2;GPU

峰值算力的测算公式为:峰值计算能力

=

GPU

Core

的运行频率*

GPU

SM

数量*单个SM一个时钟周期内特定数据类型的指令吞吐量*21、FP64

Tensercore的峰值算力为:1.41x108x64x2≈19492GFlops

,换算成T为19.5Tflops

,与彩页里的官方公布的算力数值一致。

2、FP16

Tenser

core的峰值算力:1.41x108x1024x2≈

311869GFlops

,换算成T为

312TFlops,

同样也和彩页里的数值一致。

3

稀疏算力对应的“周期内特定数据类型的

指令吞吐量

”是标准Tenser

core下的2倍,所以算

力也是2倍的关系。算力的计算方式—GPU算力(A100)

-2

=芯片指标定义分析算力GPU执行浮点运算的能力,通常以TFLOPS(每秒浮点操作次数)为单位衡量。高计算能力对科学计算、模拟和深度学习等计算密集型任务至关重要。它能加速模型训练、数据分析以及复杂模拟的处

理速度。显存是GPU用于存储数据和纹理的专用内存,与系统

内存(RAM)不同,显存具有更高的带宽和更快的访问速度。显存的大小和性能直接影响GPU处理大规模数据的能力。显存带宽作为GPU与显存之间数据传输的桥梁;显存带宽=

显存位宽x显存频率功耗指单位时间内的能量消耗,反应消耗能量的速率,单位是瓦特(W)。卡间互联NVIDIA

®

NVLink™是世界首项高速GPU互连

技术,与传统的

PCIe方案相比

,能为多GPU间

提供更快速的互联方案。GPU算力的综合指标算力显存带宽功耗卡间互联自Ampere架构开始,随着A100Tensor

CoreGPU的推出,NVIDIAGPU提供了可用于加速推理的细粒度结构化稀疏功能。该功能可以加速推理。

由稀疏TensorCore提供

,这些稀疏TensorCore需要2:4

的稀疏模

式。也就是说,以4个相邻权重为一组

,其中至

少有2个权重必须为0,即

50%

的稀疏率。这

种稀疏模式可实现高效的内存访问能力,有效的

模型推理加速,并可轻松恢复模型精度。渐进式稀疏训练方法。腾讯机器学习平台部门

(MLPD)利用了渐进式训练方法

,简化了稀疏模型训练并实现了更高的模型精度。借助稀疏功能和量化技术

,他们在腾讯的离线服务中实现了

1.3倍~1.8倍的加速。

(网上数据)英伟达GPU的“稀疏算力”•

标准算力•

Tenser

core加速后的算力•Tenser

core+稀疏矩阵加速后的算力u

英伟达视角:为了体现自身技术牛x,一般用稀疏矩阵加速后数值做营销(夸大的成分);u

政府层面:为了突出“业绩”

,有时候也会

用稀疏矩阵的数值(有面子);u

客户视角:会采用FP16,

1个P的算力作为指标(实用为主)

,会备注要求稠密算力;以H100为例不同精度算力数值理解目前智算中心建设中。

使用最多

讨论最多的依然是H100\H800型号的GPU和NvLink整机

但是还是有很多同学对H100

GPU卡的参数不清楚

智算中心以AI算力为主

该用哪个数值呢?

和FP16相关的竟然有三个,我们设计方案时会采用FP16

Tenser加速的989TFPOPS

约1个P,个人简单总结如下:NVIDIA的显卡目前可以按照应用领域大致分为三种类型:u

GeForce消费卡:

面向游戏娱乐领域

:如GeForce

RTX™

4090

GeForce

RTX™

3080等。u

Quad

ro专业卡:

面向专业设计和虚拟化领域

:如NVIDIA

RTX™

A6000、NVIDIA

®

T

1000等。u

Tesla企业级卡:

面向深度学习、

人工智能和高性能计算领域:

如NVIDIAA

100\A

30

Tensor

Core

GPU等。GPU厂商英伟达的AI算力卡分类AI训练(

TF32)A100>A30

>

=

A40AI推理(

TF16)A10

>T4HPC应用(FP32,

FP64)A100>A30数据分析(FP32,

FP64,

INT8)A100>A30图形渲染(RT

Core)A40

>A10

>T4云桌面,视频编解码A16

>A40

>A10

>

T4数据来源:

NVIDIA不同类型英伟达GPU算力的对比0.80.60.40.20HPC(FP64)

1显存带宽多实例(MIG)图形渲染HPC(

FP32)AI训练(TF32)AI推理(NLP)各GPU横向对比

A100

A30A40A10视频解码GPU型号H

100/800SXMA

100/800SXMRTX

4090H20SXML20910BOAM天数天垓150太初元碁

T

100沐曦曦云C500OAM摩尔显存S4000OAM燧原云燧T21OAM昆仑芯P800单卡算力FP16稠密990T约1P312T330T148T119.5T376T190T240

T240T100T128T375T整机8卡约8P约2.5

P约2.6

P1.2

P0.95P约3P1.5

P1.9

P1.9

P800T1P3P显存80G

HBM380GBHBM2e24GGDDR6x96GHBM3141GHBM3e48GGDDR6x64GHBM2e64GHBM2e64GB

HBM2e64GB

HBM2e48GB

GDDR632GBHBM2

E96GBHBM2?显存带宽3.35TB/s2TB/s1TB/s4TB/s4.8T/s864GB/s1.6

TB/s1.6

TB/s?1.2TB/s1.84TB/s768GB/s1.6TB/s1.8TB/S?GPU互联900/400GB/s600/400GB/s理论64GB/s900GB/s64GB/s392GB/s64GB/s128GB/s896GB/s240GB/s64GB/s200GB/s?TDP700W400W450W400W275W400W350W300W350W450W300W?适用场景训练

微调和推理场景微调和推理、渲染场景训练

微调和推理

场景微调和推理场景训练

微调和推理场景微调和推理场

景千P算力8

卡机台数FP16稠密128台410台400台854台1078台342台683台540台540台1311台1024台342台主流AI芯片(含国产)

的算力情况目前市场上除了英伟达GPU外

国产主流的厂商在10家以上,AIDC算力规划通常以FP16(稠密)算力为标准

,同时考虑显存的大小和带宽、

互联速率等,如下表格筛选了常见的AI芯片型号。主流国产AI芯片的算力情况(供参考)

=数据预处理模型设计训练模型评估验证模型训练共享超分可扩展高性能集群按需使用、弹性算力调度网络虚拟化网络卸载RDMA(IB

RoCE)网络模型优化模型部署模型集成嵌入模型推理平台监控数据管理用户管理监控管理液冷微模块机房绿色供电I

DC运营服务平台运维监控管理平台安全智算中心技术架构-产品类型产业创新聚集平台智能生态建设平台数据开放共享平台行业平台算力服务TensorFlowPyTorchPaddlePaddle深度学习框架与库CPU、GPU内存、显存虚拟化

容器化算力池化自然语言处理图像多模态开发接口机器学习工具模型部署管理开发工具并行文件系统分布式持久化集群存储随需扩展高吞吐量智能管理存储智慧医疗金融科技电子商务农业智慧化智能制造智慧城市教育科技智慧交通行业应用数据服务算法服务行业应用层大模型开发平台层平台管理层基础设施层AI推理服务器AI训练服务器语音视频信创非信创计算智算中心算力基础设施产品组成管理平台算力设备通用算力AI算力信创算力存储网络Intel/AMD

NV+国产

C86

&

ARM

分布式并行存储

RoCE

&

IB液冷+方案模块化交付NV等海光

天数

寒武纪燧原

希姆算能主流AI芯片

国产AI芯片运管平台调度平台算力平台产品品类齐全算力类型多元实施交付便捷绿色低碳加持通道微模块数据中心冷板式液冷整机柜集装箱数据中心浸没液冷整机柜算力芯片AIPaaS西云丹摩超云云迹智算中心AI算力服务器-主流干亿级大模型OAM训推服务器R8868G13

集群训练

-性价比推理8卡机R8428A12/A13

AMDRome/MilanIntel推理4卡机R8428G12/G13

Intel

3代、4代AMD推理8卡机R8428A14(Genoa)INTEL推理8卡机R8428G12(

3代)Intel训推8卡机R8428(4代)HGX训推R8868G13百亿级大模型智算中心算力的核心载体-服务器GPU服务器与标准服务器的10点区别智算中心算力-适配RTX5090的服务器

=o处理器型号:2颗第四代/第五代英特尔®至强®可扩展处理器

,TDP≤350Wo内存插槽:32*DDR5DI

MM/

LDI

MM插槽

,最高支持DDR5-5600内存o硬盘数量:最大支持12个标准3

.

5/2

.

5英寸热插拔硬盘o:

可选支持4个U.2NVMe硬盘:

支持1个M.2NVMe

SSD

硬盘o

RAID支

:支持RAID0、

1、

10、5、50、6、60

,支持超级电容超云

R8628G13是超云推出的新一代人工智能服务器。基于英特尔®至强®第四代/第五代可扩展列处理器平台打造,在6U空间中支持最大

10张全高四宽GPU

,提供最高600W功率及PCIe

5.0x16速率支持,为用户的灵活需求提供优质差异化解决方案。训练优化

·新一代Ⅱ双路

6

U

图线下训练回视频加速极致扩展最大支持20个PCIe5.

0扩展插槽

,最多支持10个全高四宽加速卡

,供电功率最高可达600W高效互联采用GPU-CPU直通架构设计,

无需经过PCIe

Switch通信,大大提高数据交互效率oGPU卡:最大支持10片四宽全高AI加速卡

,TDP最高600Wo电源:支持2

+2

3+

1

冗余

(2000W/2700W/3200W)R8628G13产品图规格

旗舰级AI服务器o

PCIe扩

:支持10*PCIe

5.

0*16或20*PCIe

5.

0*8标准PCIe插槽产品亮点产品概述o

产品形态:

6

U机架式1、

常见问题汇总近三年AI市场的火爆

带动了GPU服务器的市场需求,尤其是以高端GPU为主的A800\H800的Nvlink八卡机。问题1:

标准PCIE与Nvlink全互联的GPU服务器差在哪儿?问题2:Nvlink的GPU服务器还需要PCIE吗?问题3:Nvlink桥接器能把PCIE服务器变成Nvlink服务器吗?问题4:Nvlink和SXM是什么关系?2、NVIDIA高端GPU的两种外观,

以A800为例典型的GPU服务器常见问题PCIe接口的GPU卡SXM接

口的GPU卡GPU服务器的2种主流机型GPU服务器按照GPU芯片之间的互联方式可分为两类:1、PCIE机型:

常规的服务器

GPU直接通过PCIE链路进行通信,受限于PCIE的带宽上限

卡与卡双向互联带宽低,不满足大模型训练需求。2、Nvlink机型:

也习惯叫SXM机型

指的是在服务器内部

GPU卡之间通过Nvlink链路互联,相比PCIE带宽更高,更适合于大模型训练场景。类型GPU通道数双向互联带宽PCIE互联A100PCIE4.0x162GBx16x2

=64GB/sH100PCIE

5.0x164GBx16x2

=128GB/sNVLink互联A100每个GPU链路Nvlinkx1225GBx12x2=600GB/sH100每个GPU链路Nvlinkx1825GBx18x2=900GB/s两种方案的带宽对比:

英伟达Nvlink技术Nvlink的互联带宽几乎是PCIE的数倍(7-10倍)Nvlink升级变化1

标准的GPU服务器CPU和GPU

GPU之间都是通过PCIE链路互联。2

只能在成对的

GPU之间通过NVLink桥接器连接,无法做到全互联。3、受限于PCIE的协议的速率

以PCIE

5.0为例

一张GPU为PCI

E

x16,双向互联带宽仅为128GB/s

,远低于Nvlink的900GB/s。4

对比SXM机型

,PCIE更加灵活

包括GPU卡的数量

以及PCIE的拓扑都可以调整。GPU服务器-Nvlink全互联标准GPU服务器的GPU和CPU之间的互联架构GPU服务器三类GPU拓扑介绍o

同样的一台8卡GPU服务器

可以根据场景不同。o

通过调整主板上PCIE

SW的链接线缆可实现不同拓扑的切换

,有些厂商宣称可以一键切换

可能其他把线缆全部链接

再通过软件控制。PCIe机型的NVLink扩展为了尽可能的普及Nvlink技术,

英伟达专门推出了配套PCIE高端型号GPU卡的桥接器

通常只能实现两卡之间的互联,局限性强

以A100为例支持最多3个,满配三个时互联带宽可达600GB/s注

:很多注意事项,

同属于一个CPU下,

以及只能相邻槽位等桥接器互联正确和错误实例Nvlink机型的核心-HGX模组Nvlink机型各个厂商都基于英伟达的HGX-GPU模组设计

整机在高度上通常是6U或8U

其中最核心也是价格占比最高是英伟达的GPU模组

可以理解成是一个有8个物理GPU组成的一个大的逻辑

GPU”

。超聚变-第四代至强NVlink8卡机Nvlink机型产品形态-超聚变G8600V7

=以超聚变NvlinkH800整机G8600V7为例,产品采用模块化设计

GPU模组,系统模块

,IO模组,风扇模组,电源模组,各个模块均可单独维护。因为厂商围绕HGX模组进行设计,其他部分的差异化较大。1.

与PCIE机型的GPU服务器不同

,Nvlink机型的主板不需要直接支持GPU。2

.

主板通过四个PCIE

Switch提供PCIE通道与HGX模组互联,

每个PCIE

Switch与2个GPU互联

到每个GPU的链路为PCI

Ex16。3.Intel

SPR

CPU支持80个PCIE通道

CPU到每个PCIE

Switch通常也是PCI

Ex16。4

.

2个CPU到4个PCIE

Switch采用对称设计,架构上实现了PCIE资源的均衡和CPU性能的平均。Nvlink机型-主板逻辑图分析H200SXM单芯片性能提升英伟达官方视频里展示全新的H200和B100

芯片性能加倍升级。

以推理1750亿参数的GPT-3为例

,H

100是前代A100性能的11倍,近期上市的H200相对于H100则有超过60%的提升

而再之后的B200,性能将有更大提升。HGX

H200模组参数及产品迭代HGX

H200与H100完全兼容,也就是说H200可以直接用在原来H100的系统里。

接口、

尺寸等均完全一致。H200预计在2024年Q2上市

真正的产品迭代是在2024年的Q4

基于新架构Blackwell的B100也将发布,但是具体的性能还不确定

,从英伟达的发布的迭代图显示

升级肯定不会小。很多同学看到HGX

H100、DGX

H100、

还有DGX

Pod、

DGXGH200等等搞不清楚DGX

BasePOD3、DGX

POD:

以DGXH

100为核心的集群方案还包括了IB网络、IP网络、存储、

管理节点等。4、DGX

GH200:由NVIDIA

GraceHopper

超级芯片和NVIDIA

NVLink®Switch

System

驱动的NVIDIADGX™

超级计算机英伟达各种“某GX”的产品2、DGX

H100

:英伟达官方整机

含了HGXH

100,还有服务器的

其他部件,机箱、

主板、CPU、内存、

硬盘等。1、HGX

H100:

GPU模组,通常把8张H100

SXM加

上Nv

switch板子整合一起,逻辑上是一个大的

GPU”

。DGX

GH200HGX

H100DGX

H100英伟达NVL72产品的组成部分2024年3月份

GTC大会除了最新B200芯片的备受瞩目外

,NVL72产品的关注点也居高不下

作为NVIDIA技术的集大成的产品

一体化的设计亮点十足,包括B200、

GB200、

计算节点、NvSwitch节点、Nvlink

5.0技术等。理解NVL72一体化的设计

,装满一个机柜

,相当于一

个由72块B200组成

的逻辑的

“大GPU”,GPU内部需要通过链

路互联。18个计算节点每个节点包括2个GB200每个GB200包括1个CPU和2个B200,所以18x2x2=729

Nvlink

Switch每个Switch节点包括2个

Nvlink

Switch4

.

0的芯片问题来了1、

GB200内部互联方式?2、

9个SW节点如何实现72GPU互联?解析NVL72模块化产品的组成①蓝色-GPU到NVlink交换机之间的互联NVLink

5.0技术

,1.8TB/s

②橙色-GPU到Grace

CPU之间的互联NVLink

C-C技术

900GB/sNvlink

5.0技术在后面展开GB200节点内部组成和连接节点内部展示GB200

节点(Compute

Tray)

包含

2

GB200

每个GB200包括1个

Grace

CPU、

2个

GPU9个NVLink

Switch将72个GPU互联为一个逻辑的

大GPU”每个B200有18个NVLINK

Port

72x

18=

1296个1个Switch

Tray包含2颗NVLINK

Swtich芯片

每个芯片提供72个接口

共计144个NVLink接口1296

÷144=9(台)

因此正好通过9台的Switch将72个GPU进行互联。NVL72的GPU互联方案如左图所示:

每一个GPU都与18个互联

,因此通过SW芯片,GPU到GPU直接能实现18条NVLink的全互联。NVL72与华为Cloud

Matrix

384性能对比

=智算中心-网络产品需求分析高带宽、低延迟、

降低CPU使用率适合用于存储大规模低延迟访问需求方案支持以太交换机,适合大规模算力交

高吞吐、低延迟、性价比较高超高带宽需求200-400Gb超低时延及抖动

2-5us超便捷运维要求

自动部署和诊断方案原生RDMA支持,扩展力强方案通用性强

,通用业务性超高稳定性需求

冗余设计超大规模组网

千卡万卡高带宽、相对低延迟、性价比高适合用于算力间网络汇聚连接通用性、适用性好、通用性广智算中心-网络产品举例上架与布线网络配置调通测试系统调优极致调优应用调优RoCE•

高吞吐、

低延迟•

性价比高•

均衡以太网•

应用广泛•

稳定可靠•

标准化和开放性Infini

Band•

高性能•

低延迟•降低CPU负载产品设计实施需求分析架构设计业务目标安全需求交换机线缆物料人力架构设备层次设计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论