2024 AIGC行业深度报告(14):从英伟达到华为零部件迎来大机遇_第1页
2024 AIGC行业深度报告(14):从英伟达到华为零部件迎来大机遇_第2页
2024 AIGC行业深度报告(14):从英伟达到华为零部件迎来大机遇_第3页
2024 AIGC行业深度报告(14):从英伟达到华为零部件迎来大机遇_第4页
2024 AIGC行业深度报告(14):从英伟达到华为零部件迎来大机遇_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从英伟达到华为,零部件迎来大机遇AIGC

行业深度报告(14)华西计算机团队2024年6月14日

细阅读在本报告尾部的重要法律声明华西证分股份有限公司HUAXI

SECURITIES

C0.,LTD.仅供机构投资者使用证券研究报告|行业深度研究报告◆

英伟达打响算力架构升级战:英伟达业绩超预期,原因是Hoper架构的强势需求,公司给予第二季度乐观指引,Blakcwell出货时间为最大亮

点。过去英伟达平均两年架构升级,目的是维持在GPU霸主地位。如今,英伟达GPU架构疯狂加速,黄仁勋宣布下一代AI芯片为Robin

架构

以一年为节奏更新产品,用统一架构覆盖整个数据中心产品线,具体来看,2024年,Blackwell芯片现已开始生产;2025年,将推出Blackwell

Ultra产品;2026年,将推出Rubin产品2027年,将推出Rubin

Ultra产品。◆

H100

到GB200

NVL72,零部件升级为最大亮点:铜互联为最大增量之一,DAC

高速线缆在短距离信号传输价值凸显,GB200NVL72的

铜缆包括内部线缆和外部线缆,安费诺为供应商,安费诺股价年初至今涨幅超35%;高算力与高功耗相匹配,GB200

功耗相较H100显著提

升,高功耗电源价值凸显,台达电为英伟达电源的供应商,年初至今涨幅超10%;GB200

芯片模组功耗已超风冷极限,液冷已经从“选配”

到“必配”,液冷冷板和分期管是GB200NVL72的核心增量之一,奇鉱科技为英伟达液冷的供应商,年初至今涨幅超85%。◆

华为910C

敬请期待,Atlas打开国产算力集群想象空间:自从2018年来,美国连续发动对我国高科技行业制裁,自主可控势在必行。华为海

思昇腾AI芯片,构建算力的第二极,参数方面,我们认为昇腾910芯片单卡算力已经可以与英伟达A100

相媲美。根据集成电路IC消息,华为

昇腾910C

芯片正处于紧张的测试阶段。910C预计在今年第四季度推出样机,而到2025年第一季度将实现量产。Atlas打开国产算力集群想象

空间,在华为全联接大会2023上推出昇腾AI计算集群Atlas900SuperCluster,相关供应链国产化为大势所趋。√

投资建议:英伟达打响算力架构升级战,零部件升级为最大亮点。此外,在AI+

信创大背景下,华为已经推出国产算力集群Atlas解决方案,相关供应链国产化为大势所趋,同时看好910C带来的相关增量。受益标的为:全球算力产业链美股:英伟达、超微电脑、戴尔科技、惠普、安

费诺、维谛技术等;全球算力产业链A股:工业富联、浪潮信息、紫光股份、沃尔核材、麦格米特、淳中科技等;国产服务器相关产业链:神

州数码、拓维信息、中国长城、高新发展、大华股份等;国产连接器相关产业链:华丰科技等;国产电源相关产业链:泰嘉股份等;国产液冷

模块产业链:飞荣达等;国产液冷解决方案产业链:英维克、申菱环境等;国产PCB产业链:景旺电子、胜宏科技等;其他:强瑞技术、恒

为科技等;国产AI芯片产业链:海光信息、景嘉微、寒武纪、云天励飞等。◆

风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。

2核心逻辑:目录01英伟达GB200

零部件升级为最大亮点02华为910C

敬请期待,Atlas打开国产算力想象空间

03投资建议:梳理AIGC

相关受益厂商04风险提示

301英伟达GB200零部件升级为最大亮点◆英伟达业绩超预期,原因是Hoper架构的强势需求:英伟达第一季度收入达到创纪录的260亿美元,环比增长19%,远高于市场245亿

美元的预期。创历史新高。原因是数据中心推动的快速成长,数据中心推动英伟达成长,该业务第一季度营收达226亿美元,强于分析

师预期的221亿美元,环比增长23%,同比增长427%,原因是Hopper

架构的强劲需求。◆公司给予第二季度乐观指引,Blakcwell出货时间为最大亮点:英伟达预计下一季度营收为280亿美元,上下浮动2%,强于分析师预期

的268亿美元。GAAP和非GAAP毛利率预计分别为74.8%和75.5%,上下浮动50个基点。同时,根据超微电脑指引,超微电脑Q1收入

为38.5亿美元,下一季度指引为51-55亿美元收入,原因是AI的强势需求。此外,公司在业绩会上透露,公司Blackwell架构已经全面

投入生产,公司预计第二季度开始供货,第三季度加速,客户数据中心在第四季度建立。我们判断Blackwell出货时间超出市场预期。100005000022年Q122年Q222年Q322

年Q423

年Q123

年Q223

年Q323

年Q424

年Q1■实际总收入(百万美元)■市场预期总收入(百万美元)5000022年Q122年Q222年Q322年Q423年Q123

年Q223年Q323

年Q424

年Q1■实际数据中心收入(百万美元)

■市场预期数据中心收入(百万美元)英伟达季度总收入及市场一致预期(百万美元)30000250002000015000数据中心实际收入与预期收入对比25000200001500010000

1.1.1英伟达Q1业绩超预期,Blackwell出货时间为最大亮点

5资料来源:Bloomberg,,

华西证券◆

平均两年架构升级,目的是维持在GPU

霸主地位:根据CSDN

数据,英伟达14年期

间发布8款芯片架构,我们判断芯片架构的持续升级有望维护其在GPU

市场的龙头

地位。◆

英伟达架构升级速度明显加快:此前,根据财联社以及SemiAnalysis消息,预计在

H200芯片架构后,B100

将于2024年第三季度开始量产,部分早期样品将于明年第

二季度出货。而GH200和H200也是于2023年开始问世,同时,AMD

也推出了MI3

00Al算力芯片,谷歌直接表示要打造自己的人工智能基础设施,其TPUv5和TPUv5

e可用于内部培训和推理,还供苹果、Anthropic、CharacterAl等公司客户使用。我们判断英伟达架构升级明显处于加速状态。英伟达全新产品架构升级图NVIDIAAl-OneArchitecture

|Trainand

Deploy

EverywhereFromTwo-YearRhythmtoOne-Year

Rhythm

|Training

&Inference

|x86

&Arm|Hyperscale

&Enterprise

1.1.2英伟达架构持续升级,升级迭代速度明显加快Fermi

是第一个完整的GPU

计算架构。1.Fermi首款可支持与共享存储结合纯cache层次的GPU

架构,支持ECC的GPU

架构。2.512个acceleratorcores即所谓CUDAcores(包含ALU和FPU),16

个SM,

个SM包含32个cUDAcoreoKepler相较于Fermi更快,效车更高,性能更好。1.15个SM,192

个单精度CUDAcores,64个双精度单元2.Kepler图形架构在极大提升游戏性能的同时,又在很大程度上降低了能耗。Kepler基于28纳米制造工艺NVIDIA

H100集成了800亿个品体管,采用台积电M

工艺,是全球范围内最大的加速器,拥有

Transforaer引擎和离度可扩展的NVLink互连技术(最多可连按达256个100

CPU,

相较于上一代采

用HDR

Quantun

InfiniBand网络,带宽高出9倍,带宽速度为900GB/s)等功能,可推动庞大的AI语62008年Tesla2010年

Fermi2012年Kepler2014年

Maxwell2016年

Pascal1.640个TENSOR内核,巨大的性能飞跃;Volta配备640个Tensor内核,可提供每秒超过100万

亿

Volta次(TFLOPS的深度学习性能。2.它将CUDA内核和Tensor

内核搭配使用,在GPU中提供人工智能超级计算机的性能。X86

Enterprise&InferenceInfiniBandAI

InfrastructureEthernet-X

Enterprise&Hyperscale

Al

Infrastructure1.用于A加速的TENSORCORE,用于实时光线追踪的RTCORE2.Turing利用多达4608个CUDA核心及软件开发套件(SDK)创建复杂的模拟3.Turing架构能够借助增强的图形管线和全新可编程着色技术显著提高光棚性能2021

2023

2024GH200NVL

G8200NVLGH200A100

H100

H200白皮书:/content/pdf/tesla/whitepaper/pascal-architecture-whitepaper.pdf基于AmpereGPU架

,基

于TSMC7nm制程;NVIDIA第一个统一了数据分析,训练和推理的弹性多实例GPU。基于TF32的第三代张量核,NVLink3,

结构稀疏性等特性适用于大数据工作负载,采用HBM2的CoWoS技术,16纳米FINFET工艺。在深度学习方面,由Pascal

支持的系统的神经网络训练性能提高了12倍紧随Kepler之后,Maxwel是NVIDIA的第四代GPU架构。这一架构是下一代游戏体验的引

擎,可解决视觉计算领域中最复杂的光照和形难题。2025GX200NVL

Arm

Training

&Inference言模型、深度推荐系统、基因组学和复杂数字字生的发展。CSDN@daijingxin2020年

Ampere2022年HopperQuantum

400GSpectrum-X

400G

一资料来源:

CSDN,

财联社,

SemiAnalArm

inferenceX86

Training

&InferenceX40-1,600G1,600G英伟达GPU发展时间表B40800G800G2018年Turing2017年VoltaGX200X100GB200B100L40S◆

黄仁勋宣布下一代AI芯片为Robin

架构:2024年6月2日晚,英伟达CEO黄仁勋在中国台北国际电脑展(COMPUTEX2024)上表示,

将在2026年推出下一代AI芯片平台Rubin,作为对现有Blackwell平台的迭代,RubinAI平台将采用HBM4

记忆芯片。Rubin

平台的产

品包括,Rubin

GPU(8S

HBM4)、Vera

CPU等◆

英伟达GPU

架构疯狂加速:在演讲中,黄仁勋介绍了关于芯片产品年度升级周期的计划。黄仁勋表示,英伟达将坚持数据中心规模一年节奏、技术限制、一个架构的路线,即坚持运用当时性能最强的半导体制程工艺,以一年为节奏更新产品,用统一架构覆盖整个数据中心产品线,具体来看,2024年,Blackwell芯片现已开始生产;2025年,将推出BlackwellUltra产品;2026年,将推出Rubin产

品2027年,将推出RubinUltra产品。英伟达黄仁勋在中国台北的工Computex

2024展示英伟达架构升级示意图

1.1.3英伟达GPU架构疯狂加速,确定下一代架构为Robin架构7◆

公司明确表示人工智能需求强劲:2024年4月18日,公司明确表明人工智能需求强劲,人工智能2024年收入占比有望达到十几个点(原

:low-teens),公

司预计未来五年其收入复合增长率将达到50%,2028年有望占比20%以上。我们认为此指引背后寓意为公司对于CoWos产能持乐观态度,我们判断CoWos产能的乐观,为英伟达的产品的及时出货提供乐观预期。◆

台积电收入维持高增:台积电5月10日公布,4月销售额2360.2亿元新台币,环比增长20.9%,同比增长59.6%;近日,台积电公布5月

份销售数据,销售额为2296.2亿新台币,同比增长30.1%,公司法人指出,人工智能及一般服务器需求转好,推动第二季度业绩展望,

这一领域也为台积电主要收入贡献来源。◆

台积电或将提高英伟达代工价格:根据电子技术应用消息,台积电新任董事长魏哲家暗示,他正在考虑提高公司人工智能芯片代工服务

的价格,我们判断其背后的本质在于英伟达Blackwell的生产与新高端工艺制程有关。台积电季度收入(百万台币)300,000250,000200,000150,000100,00050,0000台积电CoWos示意图HBMHBMLogic

IC

Logic

ICinterposerSubstrate资料来源:芯智讯,台积电官网,电

1.1.4台积电收入乐观,AI需求强劲40%30%20%10%0%-10%

-20%

-30%台积电收入(百万台币)

一环比增长TSV2

0

23年

1

1月2

0

2

3

年1

0月2

0

23

年12月2023年2

月2023年5月2023年8月2

0

2

4年2月2023年

1月2

0

2

3年3月2

0

2

3

4月2

0

2

3年

6月2

0

2

3年7月2

0

2

3

9月2

0

2

4

3月2

0

2

4

4月2

0

2

4

5月20

24年

1

月8组成36Grace

CPU:72Blackwell

GPUs1Grace

CPU:2

Blackwell

GPUFP4

Tensor核心²1,440

PFLOPS40

PFLOPSFP8/FP6

Tensor核心²720

PFLOPS20

PFLOPSINT8

Tensor核心²720

POPS20

POPSFP16/BF16

Tensor核心²360

PFLOPS10

PFLOPSTF32

Tensor核心180

PFLOPS5

PFLOPSFP326,480

TFLOPS180

TFLOPSFP643,240

TFLOPS90

TFLOPSFP64

Tensor核心3,240

TFLOPS90

TFLOPSGPU記憶體頻宽最高13.5TB

HBM3e|576TB/s最高384GBHBM3e

|16

TB/sNVLink

記憶體頻宽130TB/s3.6TB/sCPU核心数2592個Arm°Neoverse

V2核心72Arm

Neoverse

V2核心CPU記憶體频宽最高17TBLPDDR5XIUp

to

18.4TB/s最高480GBLPDDR5X|Upto

512

GB/s◆

GB200

NVL

72震撼出世,其为性能怪兽:在英伟达GTC

大会上,基于Blackwell的AI算力将以名为DGXGB200

的完整服务器形态提供给用户,结合了36颗NVIDIAGraceCPU

和72块BlackwellGPU。这些超级芯片通过第五代NVLink

连接成一台超级计算机(后文简称GB200

NVL

72)。与相同数量的72个H100相比,GB200NVL72的性能绝对是逆天的存在,大模型推理性能可以

提升30倍,并且成本和能耗只有前者的1/25。◆

此为全机架式解决方案:有18个

1U

服务器。其提供的

FP8性能为720petaflops

,FP4计算性能为1440petaflops,可处理多达27万亿个AILLM参数模型。每

台服务器里带有两个GB200GraceBlackwellSuperchip,这些计算节点带有1.7TB

HBM3E内存、

32TB/s的内存带宽,并且全部采用液冷MGX封装。然

而由于功耗过大,需要采用液冷,内部采用铜互联形式。资料来源:英伟达官网,华西证券研

1.2.1

GB200

NVL

72震撼出世,其为性能怪兽GB200

NVL72

GB200

Grace

Blackwell

Superchip英伟达NVL

72

规格9◆

英伟达DGX

H100零部件价格拆解:AI

服务器中的主要元器件包括CPU、GPU板组、内存、硬盘、网络接口卡组成,配合电源、主板机箱、散热系统等基础硬件以提供信息服务。根据SemiAnalysis,AI服务器(以Nvidia

DGXH100为例)总成本为26.9万美元,其核心组件按BOM占比由高到低依次为GPU

板组、SmartNIC、DRAM、CPU、NAND、

电源、主板、机箱和散热,BOM

占比分别为72.5%、4.1%、2.9%、1.3%、0.4%、0.3%、0.2%、0.2%,相较标准CPU服务器(以2xIntel

Sapphire

Rapids

Server为

)

,Nvidia

DGXH100单机总成本提升25.7倍。◆英伟达Blackwell

架构出世,GB200

NV

L72核心零部件升级为最大亮点:我们判断GB

200

NVL72不同于H100

等8卡DGX

服务器,

其零部件价值量占比有望提升,其重点在于CPU、铜连接、液冷模组、电源板块。英伟达DGXH100BOM成本一览

英伟达

DGXH100

零部件示意图组件价

(

)占比CPU52001.93%8GPU

+4NVSwitch

Baseboard19500072.49%内存DRAM78602.92%硬盘NAND34561.28%网卡SmartNIC109084.05%机箱(外壳、背板、电缆)5630.21%主板8750.33%散热(散热器+风扇)4630.17%电源12000.45%组装测试14850.55%Markup4200015.61%总成本269010100.00%

1.2.2深度拆截英伟达DGX

Hopper架构零部件价格资料来源:SemiAnalysis,DCD,华10ANNOUNCING

NVIDIA

BLACKWELL

PLATFORMFORTRILLION-PARAMETERSCALE

GENERATIVEAlGraceCPU资料来源:英伟达官网,凤凰网华西

Grace

CPU为下一代数据中心的引擎:NVIDIAGraceMCPU是一款具有突破性性能和效率的

ArmBCPU。它可以与

GPU

紧密结合

以增强加速计算,也可以部署为强大、高效的独立CPU。◆

以“CPU+GPU”

为主的芯片组竞争格局更加明确:目前,芯片厂商的竞争格局不再割裂,过去,CPU的龙头企业为AMD、Intel,GPU的龙头企业为英伟达,而如今芯片厂商已经逐步补强自身“短板”,其目的在于维持自身在应用场景中的龙头地位,例如英伟达自

身的Grace

CPU,亦或者是Intel

发布自身酷睿Ultra

AIPC处理器,此款处理器为集中式显卡,此显卡集成了CPU、GPU、NPU、Io

芯片。◆Grace

CPU在GB200

NVL72的价值比重凸显:原因在于,GB200

NVL72的一个芯片组为两个B200和一个GraceGPU,CPU与GPU的比例关系为1:2,而传统DGX

H100的CPU与GPU的数量关系为1:4。GraceCPU芯片示意图

Grace

CPU为GB200的核心模块

1.3

Grace

CPU为下一代数据中心的引擎11◆

GB200

发布,铜互联为最大增量之一:根

据GTC大

,GB200

NVL72采用NV

link

互联方式,具有5000根NVLink铜缆(合计长度超2

英里)。而英伟达自身对于DAC

铜缆的描述为NVIDIAB

MellanoxB

LinkXO以太网

DAC

铜缆是在以太网交换网络和基于NVIDIAGPU

的系统中创建高速100G-400G链路的成本最低的方式。亮点在于成本、功耗、延迟都极低。其端口速度可达到400Gb/s。◆

DAC

高速线缆在短距离信号传输价值凸显:DAC(高速线缆)可直接通过铜电缆传输电信号。无源DAC无需任何信号调节即可实现此目的,

通常

,DAC电缆用于连接机架内的交换机、服务器和存储设备来进行堆叠。而从功耗来看,其功耗明显小于AOC,

传输距离小于7M。有源光缆(AOC)

由两端带有光收发器的多模光纤电缆组成。它依靠外部电源来促进信号的转换,从电信号转换到光信号,然后再转换回电信号。从广义上讲,AOC

电缆主要用于连接位于数据中心内单独机架中的交换机、服务器和存储设备。由于AOC

本身进行光与电

信号的转换,因此其成本和功耗显著大于DACDAC和

A0C

DAC铜缆示意图有源光缆A0C示意图DACA0C功耗<1W1-3W传输距离<7M<300M传输介质铜缆光纤传输信号电信号光信号价格光纤的价格比铜高,另外A0C两端含有激光器而DAC没有,所以AOC的价格比DAC高很多;重量体积同样长度下,AOC的体积重量要比DAC的体积重量小很多

1.4.1高速互联时代,铜互联价值凸显资料来源:

21经济时代网,CSDN,华12◆

H100

系列中铜互联方式较少:我们判断,由于H100没有机柜内互联,而实单独配置网络机柜,因此几乎没有短距铜互联,然而连接器

依旧作为服务器重要组成部分,我们认为其价值量占比相较于GB200

NVL72相比较低。◆

GB200NVL72中铜互联价值凸显:原因在于其短距离更具成本和传输优势,GB200NVL72具有内部线缆和外部线缆,外部线缆主要

负责链接机柜与机柜之间,而内部线缆连接方式呈现多样化。DGXH100

连接器示意图GB200NVL72高速铜缆示意图GB200NVL72高速铜缆示意图资料来源:

华硕电脑,芯语,华西证

1.4.2

GB200发布,铜互联为最大增量之一13◆

安费诺为全球TOP2

连接器制造商:公司成立于1932年,1984年进驻中国,1991年在纽约证交所上市。目前是全球TOP2的连接器制

造商,覆盖通讯、汽车、消费电子等多个板块,2023年集团销售额为126亿美元。◆

安费诺为英伟达丰富生态重要合作伙伴:在中国台北国际电脑展(COMPUTEX2024)上,安费诺总裁兼首席执行官R.AdamNorwitt

:“NVIDIA

的突破性AI

系统需要先进的互连解决方案,安费诺很自豪能够提供关键组件。作为NVIDIA丰富生态系统的重要合作伙伴,我们能够为

Blackwell加速器提供高度复杂且高效的互连产品,以帮助实现尖端性能。”◆

安费诺股价年初至今涨幅超35%:截至2024年6月10日,公司股价为131.86美元,年初至今涨幅为35.19%。安费诺AI产品解决方案示意图安费诺股价示意图(近一年)G88MPSeries

Micro

PowerPlus,Board

Mount

&CableWire-to-Board

HeaderRAAssemblyMini

Cool

Edge

I0Connectors856Gb/s

HiglBackplaneConnecDDxaMAX③56Gbis

HighSpee

BackplaneCableAssemblieMinitek*Pwr

3ConnectorSystemMagneticJack

(RJMG)-2xN,1000BASE-Twith

LEDoptionUitraPort"#QSFP+

BergStik*2.54mm2x1

Stacked

ModularJack2x1

Stacked

Combo

2x4OSFPCombounshroudedheaders

1.4.3供货英伟达,安费诺迈向成长它

进LANADHENOL)

14安

诺(AMPHENOL)PCI

ExpressGen4

and

Gen

5

Card

Edge

ConnectorsMiniCool

Edge

0.60mmCard

Edge

ConnectorsDensiLinks

OverPass"Cable

Assemblies架构英伟达Volta架构英伟达Turing架构英伟达Ampere架构型号V100V100sT4A100A800规格PCleSXM2PClePCleSXMPClePCleSXM芯片架构NVIDIA

VoltaNVIDIA

VoltaNVIDIA

VoltaNVIDIA

TuringNVIDIA

AmpereNVIDIA

AmpereNVIDIAAmpereNVIDIAAmpereNVIDIA

Ampere显存32GB或16GB

HBM232GB或16GB

HBM232GB

HBM216GB

GDDR680GB

HBM2e80GB

HBM2e40GB

HBM280GB

HBM2e80GB

HBM2e显存带宽900GB/s900GB/s1134GB/s320

GB/S1935GB/s2039GB/s1555GB/s1935GB/s2039GB/sFP64算力7TFLOPS7.8TFLOPS8.2TFLOPS254.4GFLOPS9.7TFLOPS9.7TFLOPS9.7TFLOPS9.7TFLOPS9.7TFLOPSFP64

Tensor

Core19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPSFP32算力14TFLOPS15.7TFLOPS16.4TFLOPS8.1TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPSFP32算力(Tensor)Tensor

Float

32

(TF32)156

TFL0PS156

TFLOPS156

TFLOPS156

TFLOPS156

TFLOPSTF32(Tensor

Core)312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPSFP16算力(Tensor

Core)112TFLOPS125TFLOPS130TFLOPS65TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPSBFLOAT16(Tensor

Core)312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPSFP8(Tensor

Core)INT8算力(Tensor

Core)130

TOPS624

TOPS624

TOPS624

TOPS624

TOPS624

TOPSCUDA核心数量5120256069126912Tensor

Cores核心数量640320432432功耗250瓦300瓦250瓦70瓦300瓦400瓦250瓦300瓦400瓦晶管数量(亿)211136542542制成(nm)12nm12nm7nm7nm互联速度32GB/s300GB/s32GB/s32GB/SNVLink

:600GB/s

PCle4.0

:64GB/sNVLink

:600GB/s

PCle4.0

:64GB/sNVLink

:400GB/sPCle4.0

:64GB/sNVLink

:400GB/sPCle

4.0

:64GB/s◆

AI芯片架构升级速度明显加快,高算力与高功耗相匹配:复盘英伟达数据中心芯片产品,其中明显可以看到其芯片算力和芯片的功耗成明显的正相关。资料来源:英伟达官网,华西证券研穷

151.5.1算力在大模型时代迎来爆发,高算力与高功耗相匹配AI芯片架构升级速度明显加快,高算力与高功耗相匹配L架构英伟达Hopper架构BlackwelI架构型号H100H800H200GH200B100B200GB200规格SXMPCleNVLSXMPCleSXM芯片架构NVIDIA

HopperNVIDIA

HopperNVIDIA

HopperNVIDIAHopperNVIDIA

HopperNVIDIA

HopperNVIDIA

Hopper+ARMNVDIA

BlakwellNVDIA

BlakwelINVDIA

Blakwe

ll显存80GB

HBM380GB

HBM2e188GB

HBM380

GB

HBM380

GB

HBM3141GB

HBM3e96GB|144GB

HBM3e192GB192GB384GB显存带宽3.35TB/s2TB/s7.8TB/s3.35TB/s2TB/s4.8TB/s512GB/s(CPU)8TB/s8TB/s16TB/sFP64算力34

TFLOPS26

TFLOPS68

TFLOPS1

TFLOP0.8

TFL

OP34

TFLOPS34TFLOPSFP64

Tensor

Core67

TFLOPS51

TFLOPS134

TFLOPS1

TFLOP0.8

TFLOP67

TFLOPS67TFLOPS30TFLOPS40TFLOPS90TFLOPSFP32算力67

TFLOPS51

TFLOPS134

TFLOPS67

TFLOPS51

TFLOPS67TFLOPS67TFLOPSFP32算力(Tensor)TensorFloat

32

(TF32)67

TFLOPSTF32(Tensor

Core)494.5

TFLOPS378

TFLOPS989.5

TFLOPS494.5

TFLOPS378

TFLOPS494.5

TFLOPS494

TFLOPS0.9

PFLOPS1.12PFLOPS2.5PFLOPSFP16算力(Tensor

Core)989.5

TFLOPS756.5TFLOPS1979

TFLOPS989.5

TFLOPS756.5TFLOPS989.5

TFLOPS990

TFLOPS1.8

PFLOPS2.25

PFLOPS5

PFLOPSBFLOAT16(Tensor

Core)989.5TFLOPS756.5TFLOPS1979

TFLOPS989.5TFLOPS756.5TFLOPS989.5TFLOPS990

TFLOPS1.8

PFLOPS2.25

PFLOPS5

PFLOPSFP8(Tensor

Core)1979

TFLOPS1513

TFLOPS3958

TFLOPS1979

TFLOPS1513

TFLOPS1,979

TFLOPS1,979

TFLOPS3.5

PFLOPS4.5

PFLOPS10

PFLOPSINT8算力(Tensor

Core)1979

TOPS1513

TOPS3958

TOPS1979

TOPS1513

TOPS1,979

TOPS1,979

TOPS3.5

PFLOPS4.5

PFLOPS10

PFLOPSCUDA核心数量168961689616896Tensor

Cores核心数量528528528功耗7

0

0

瓦300-350瓦2x

350-400W高

7

0

0

瓦300-350瓦700瓦1000瓦700W1000W2700W晶管数量(亿)800800800制成(nm)4nm4nm4nm4nm互联速度NVLink:900GB/s

PCleGen5:128GB/sNVLink:600GB/s

PCleGen5:128GB/sNVLink:600GB/s

PCleGen5:128GB/sNVLink:

400GB/s

PCle

5.0:

128GB/sNVLink:400GB/sPCle

5.0:128GB/sNVIDIA

NVLink⑧:·900GB/S·PCle

Gen5:

128GB/s900

GB/s

bidirectionalNV

Link:1.8

TB/sNV

Link:1.8

TB/sNV

Link:2x1.8

TB/S资料来源:英伟达官网,华西证券研穷

16◆

AI芯片架构升级速度明显加快,高算力与高功耗相匹配:从下图可以看到,英伟达GB200单芯片组的功耗为2700W。1.5.1算力在大模型时代迎来爆发,高算力与高功耗相匹配AI芯片架构升级速度明显加快,高算力与高功耗相匹配

17◆

英伟达H100

最大功耗为10.2KW:

据FS社区数据,英伟达DGXH100的电源规格为最大10.2KW,200-240V3300W,16A,50-60H。从下图示意图所示,电源个数为6,我们判断其核心原因是考虑到电源冗余问题。而DGXH100GPU数量为8个,H100

的功耗为700W因此我们假设巅峰功耗系数=10200/(700*8)≈1.82。◆

从英伟达GB200

NVL72示意图所示,包含6个电源架:根据半导体行业观察资料,可以清晰的看到,GB200

NVL72包含6个电源组,其中三个位于机架顶部,三个位于底部,其中上层电源组包含6个电源模块。根据已知资料,我们大致可以推算出每个电源模块的功耗GB200

单个芯片组功耗为2700W,

假设NVL72

电源模块共36个,单个电源模块功耗为2700*36*1.82/36≈5000W。(未考虑电源冗余

情况)。◆

高功率电源价值凸显:根据京东数据,浪潮服务器电源M63000W的价格为3899元,M5550W电源价格为829元。因此,在未考虑电源工艺升级的情况下,我们判断GB200

整体电源模块相较于H100价值凸显。英伟达DGX

H100电源示意图GB200NVL72电源示意图

1.5.2

GB200功耗相较H100

显著提升,高功耗电源价值凸显华西证分HUAXI

SECURITIES◆

台达电为全球提供电源管理与散热解决方案:公司成立与1971年,近年,台达已逐步从关键元器件制造商迈入整体节能解决方案提供

者,深耕“电源及元器件”、“交通”、“自动化”与“基础设施”四大事业范畴。公司2023年营收为131亿美元。◆

台达电为英伟达服务器电源的供应商:在中国台北国际电脑展(COMPUTEX2024)上,台达电董事长兼首席执行官郑平表示:“对

计算能力的普遍需求开启了加速性能的新时代。通过我们先进的冷却和电源系统,台达开发了创新的解决方案,能够使NVIDIA

的Blackwell平台以峰值性能运行,同时保持能源和热效率。”◆

台达电股价年初至今涨幅超10%:截至2024年6月10日,公司股价为355.2新台币,年初至今涨幅为11.31%。台达电电源及系统产品示意图台达电子股价示意图(近一年)台达电台达电

18嵌入式电源外接式电源工业电池充电器

1.5.3台达电为英伟达电源的供应商资料来源:台达电子官网,,华西证工业电源医疗电源架构英伟达Volta架构英伟达Turing架构英伟达Ampere架构型号V100V100sT4A100A800规格PCleSXM2PClePCleSXMPClePCleSXM芯片架构NVIDIA

VoltaNVIDIA

VoltaNVIDIA

VoltaNVIDIA

TuringNVIDIA

AmpereNVIDIA

AmpereNVIDIAAmpereNVIDIAAmpereNVIDIA

Ampere显存32GB或16GB

HBM232GB或16GB

HBM232GB

HBM216GB

GDDR680GB

HBM2e80GB

HBM2e40GB

HBM280GB

HBM2e80GB

HBM2e显存带宽900GB/s900GB/s1134GB/s320

GB/S1935GB/s2039GB/s1555GB/s1935GB/s2039GB/sFP64算力7TFLOPS7.8TFLOPS8.2TFLOPS254.4GFLOPS9.7TFLOPS9.7TFLOPS9.7TFLOPS9.7TFLOPS9.7TFLOPSFP64

Tensor

Core19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPSFP32算力14TFLOPS15.7TFLOPS16.4TFLOPS8.1TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPSFP32算力(Tensor)Tensor

Float

32

(TF32)156

TFL0PS156

TFLOPS156

TFLOPS156

TFLOPS156

TFLOPSTF32(Tensor

Core)312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPSFP16算力(Tensor

Core)112TFLOPS125TFLOPS130TFLOPS65TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPSBFLOAT16(Tensor

Core)312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPS312

TFLOPSFP8(Tensor

Core)INT8算力(Tensor

Core)130

TOPS624

TOPS624

TOPS624

TOPS624

TOPS624

TOPSCUDA核心数量5120256069126912Tensor

Cores核心数量640320432432功耗250瓦300瓦250瓦70瓦300瓦400瓦250瓦300瓦400瓦晶管数量(亿)211136542542制成(nm)12nm12nm7nm7nm互联速度32GB/s300GB/s32GB/s32GB/SNVLink

:600GB/s

PCle4.0

:64GB/sNVLink

:600GB/s

PCle4.0

:64GB/sNVLink

:400GB/sPCle4.0

:64GB/sNVLink

:400GB/sPCle

4.0

:64GB/s◆

AI芯片架构升级速度明显加快,高算力与高功耗相匹配:复盘英伟达数据中心芯片产品,其中明显可以看到其芯片算力和芯片的功耗成明显的正相关。资料来源:英伟达官网,华西证券研穷

191.6.1液冷已经从“选配”到“必配”,液冷拐点已经到来AI芯片架构升级速度明显加快,高算力与高功耗相匹配L架构英伟达Hopper架构BlackwelI架构型号H100H800H200GH200B100B200GB200规格SXMPCleNVLSXMPCleSXM芯片架构NVIDIA

HopperNVIDIA

HopperNVIDIA

HopperNVIDIAHopperNVIDIA

HopperNVIDIA

HopperNVIDIAHopper+ARMNVDIA

BlakwellNVDIA

BlakwellNVDIA

Blakwe

ll显存80GB

HBM380GB

HBM2e188GB

HBM380

GB

HBM380

GB

HBM3141GB

HBM3e96GB|144GB

HBM3e192GB192GB384GB显存带宽3.35TB/s2TB/s7.8TB/s3.35TB/s2TB/s4.8TB/s512GB/s(CPU)8TB/s8TB/s16TB/sFP64算力34

TFLOPS26

TFLOPS68

TFLOPS1

TFLOP0.8

TFL

OP34

TFLOPS34TFLOPSFP64

Tensor

Core67

TFLOPS51

TFLOPS134

TFLOPS1

TFLOP0.8

TFL

OP67

TFLOPS67TFLOPS30TFLOPS40TFLOPS90TFLOPSFP32算力67

TFLOPS51

TFLOPS134

TFLOPS67

TFLOPS51

TFLOPS67TFLOPS67TFLOPSFP32算力(Tensor)TensorFloat

32

(TF32)67

TFLOPSTF32(Tensor

Core)494.5

TFLOPS378

TFLOPS989.5

TFLOPS494.5

TFLOPS378

TFLOPS494.5

TFLOPS494

TFLOPS0.9

PFLOPS1.12PFLOPS2.5PFLOPSFP16算力(Tensor

Core)989.5

TFLOPS756.5TFLOPS1979

TFLOPS989.5

TFLOPS756.5TFLOPS989.5

TFLOPS990

TFLOPS1.8

PFLOPS2.25

PFLOPS5

PFLOPSBFLOAT16(Tensor

Core)989.5TFLOPS756.5TFLOPS1979

TFLOPS989.5TFLOPS756.5TFLOPS989.5TFLOPS990

TFLOPS1.8

PFLOPS2.25

PFLOPS5

PFLOPSFP8(Tensor

Core)1979

TFLOPS1513

TFLOPS3958

TFLOPS1979

TFLOPS1513

TFLOPS1,979

TFLOPS1,979

TFLOPS3.5

PFLOPS4.5

PFLOPS10

PFLOPSINT8算力(Tensor

Core)1979

TOPS1513

TOPS3958

TOPS1979

TOPS1513

TOPS1,979

TOPS1,979

TOPS3.5

PFLOPS4.5

PFLOPS10

PFLOPSCUDA核心数量168961689616896Tensor

Cores核心数量528528528功耗700瓦300-350瓦2x

350-400W高达700瓦300-350瓦700瓦1000瓦700W1000W2700W晶管数量(亿)800800800制成(nm)4nm4nm4nm4nm互联速度NVLink:900GB/s

PCleGen5:128GB/sNVLink:600GB/s

PCleGen5:128GB/sNVLink:600GB/s

PCleGen5:128GB/sNVLink:

400GB/s

PCle

5.0:

128GB/sNVLink:400GB/sPCle

5.0:128GB/sNVIDIA

NVLink⑧:·900GB/S·PCle

Gen5:

128GB/s900

GB/s

bidirectionalNV

Link:1.8

TB/sNV

Link:1.8

TB/sNVLink:2x1.8

TB/S◆

AI芯片架构升级速度明显加快,高算力与高功耗相匹配:风冷的极限芯片散热功率是800W,

如下图所示,GH200

以及最新款B200GB200的功耗已经超过风冷极限,H200和B100

的功耗已经接近风冷极限。资料来源:英伟达官网,华西证券研穷

201.6.1液冷已经从“选配”到“必配”,液冷拐点已经到来AI芯片架构升级速度明显加快,高算力与高功耗相匹配◆

我们判断H100

服务器主要以风冷散热方式为主:原因是根据英伟达官方资料,H100芯片的功耗为700W,

并没有达到风冷极限,如下

,A800服务器的风冷模块,我们判断H100服务器同理。◆

液冷冷板和分歧管是GB200

NVL72的核心增量之一:原因是英伟达芯片组的功耗为2700W,

远超风冷的极限,同时根据Cool3c消息,

GB200NVL72

只有液冷散热单一解决方案;如下图所示,根据鸿海科技官网消息,鸿海科技在GTC

大会商展示GB200NVL72为液冷机

柜,上面的冷板和分歧管为明显增量。同时,根据GTC大会上,英伟达展示的NV

Switch

tray中,可以明显看到液冷冷板和分歧管的的

增量。英伟达

A800服务器风冷模块示意图鸿海科技在GTC大会上展示液冷机柜英伟达GTC大会展示GB200

NVL72示意图VIDIAGB200

NVL72Liquid-cooled

Rack

Solutionwith

72High-performancessiveScale

GenerativeAL,Dataand

Engineering

DesignandSimulaCcessTEaupmentforHughSevtce

1.6.2液冷冷板和分歧管是GB200

NVL72的核心增量之一华西证分HUAXI

SECURITIES21◆

单相液冷的核心在于冷却液没发生相态的变化:制冷过程:CDU的循环泵推动二次侧的冷却液从设备的底部进入,在流过竖直放置于浸

没腔中的T设备时,移走设备热量。随后,吸收了热量并升温的二次侧冷却液从液冷机柜的顶部离开,流向EDU。在CDU中,通过板式热

交换器,冷却液将其所携带的热量转移给一次侧的冷却液。然后,已经升温的一次侧冷却液经过冷却塔,将热量释放至大气中,完成整

个冷却过程。◆

两相液冷的核心在于二次侧冷却液在热量传递过程中发生相态转变:传热路径与前者基本相同,区别在于,二次侧冷却液只在浸没腔体

内循环,且浸没腔体内部形成了液态和气态两个区域:顶部为气态区,底部为液态区。当冷却液吸收了设备产生的热量后沸腾并转化为

高温气态。这些气态冷却液的密度较低,会逐渐上升到浸没腔体的顶部,在那里与顶部的冷凝器进行热交换并冷凝成低温的液态。这些

冷却液在重力的作用下重新回到腔体底部,从而完成IT设备的散热过程。◆

我们判断两相液冷的液冷模组相对昂贵,原因是工艺相对复杂。单相液冷技术原理示意图两相液冷技术原理示意图室外侧CDU冷量分配单元冷却塔

高温冷却液一次侧循环冷却液

1.6.3两相液冷的液冷模组相对昂贵,原因是工艺相对复杂CDU冷量分配单元高温冷却液一次侧循环冷却液高温冷却液二次健循环冷却液资料来源:中兴通讯,华西证券研究月1777T77π设备气态区液态区IT设

备高温冷却液二次侧环冷却液

低温冷却液低温冷却液低温冷却液低温冷却液室内侧室内侧室外侧冷却塔22◆

奇宏科技(AVE)为英伟达液冷供应商:在台北国际电脑展(COMPUTEX

2024)上

,AVC

董事长兼首席执行官

Spencer"AVC在

NVIDIA产品中扮演着关键角色,为其AI硬件提供高效冷却,包括最新的GraceBlackwell

超级芯片。随着

负载不断增长,可靠的热管理对于处理密集型AI计算至关重要——我们一路与NVIDIA同行。”◆

奇鉱科技股价年初至今涨幅超85%:截至2024年6月10日,公司股价为628元新台币,年初至今涨幅为88.02%。D/T,VGA,AlIO,NB,Server

,IPC石墨舆複合銅箔熱板熱管

散熱方案通信設備散熱器TEC

制冷晶片散熱器◆

奇宏科技致力于电脑CPU、VGA、LED、

通讯散热及电脑零件相关之散热产品的开发:公司成立于1991年,公司以自有品牌-AVC

行销全球,散热器全球市占率超过30%。公司拥有完整的资讯管理系统,覆盖产品的设计开发、生产制造、采购交货、供应商管理等方面

主要生产基地包括中国深圳、东莞、成都、武汉,并在美国、韩国、德国拥有销售据点。公司2023年营业收入为19亿美元。奇鉱科技90580570560550540530520523-0623-07

23-08

23-0923-10

23-11

23-12

24-01

24-0224-03

24-04

24-05

奇科技

23散熱方案CPU散熱器通信設備散熱器IGBT散熱器TEC

制冷晶片散熱器工業水冷板熱板、熱管石墨與複合銅箔

1.6.4奇鉱科技为英伟达液冷的供应商散熱片工兿铝擠壓鑄鳍片嵌合

鳍片焊接

熱管緊配

熱板焊接奇

科技散热方案示意图奇科技散热产品示意图奇科技股价示意图(近一年)Shen表示:AI模型和工作资料来源:,奇科技官网,华西证工業水冷板IGBT散熱器CPU散熱器VC02

4a⁹打开围产算方想象空间

24时间事件2018/11/1美国商务部发布涉及人工智能和机器学习技术、先进计算技术、数据分析技术等14项新兴和前沿技术的对华出口管制框架2019/5/1“布拉格5G安全大会”召开:联合发布了“布拉格提案”,该提案从政策、安全、技术、经济四个方面探讨如何排除中国5G技术产品。2020/1/1特朗普政府发布限制人工智能软件出口新规,应用于智能化传感器、无人机和卫星的目标识别软件都在限制范围之内。2020/2/1推动42个加入《瓦森纳协定》的国家扩大半导体对华出口管制范围,旨在加强防备相关技术外流到中国。2020/2/1美国商务部更新《出口管制条例》,将“用于自动分析地理空间图像的软件”列入对华管制清单中,应用于智能化传感器、无人机、卫星和其他自动化设备的目标识别

软件。2020/5/1美国宣布将加入七国集团“人工智能全球合作伙伴组织”,力图以霸权力量主导构成不利于中国的全球人工智能管理规则,限制中国人工智能技术发展。2020/5/1发起七国集团(G7)加澳大利亚、韩国和印度的“D10俱乐部”(D10Club),以减少对中国电信技术的依赖。2020/10/1美国家人工智能安全委员会提出通过多边合作、数字联盟等形式与北约、印度等建立国际联盟,推广美国标准和规则,形成对我人工智能的封锁围堵之势。2022/7/1美国半导体设备制造商收到美商务部的通知,拟要求禁止向中国大陆供应用于14nm或以下芯片制造的设备。2022/8/1美国总统拜登正式签署《芯片与科学法案》,以补贴美国的半导体产业。关于补贴资助对象资格的内容里,明确写到,禁止接受联邦奖励资金的企业,在中国等对美国国家安全构成威胁的特定国家扩建或新建某些先进半导体的新产能,期限为10年,违反禁令或未能修正违规状况的公司,可能需要全额退还联邦补助款。2022/9/1美国两大芯片制造巨头英伟达(MIDIA)与AMD同时发布公告,声称均已接到美国拜登政府下达的最新命令,要求停止向中国出口用于人工智能的最先进芯片。制裁主要针对的两个芯片是NvidiaA100和H100图形处理单元以及AMD的M1250人工智能芯片。2022/10/1BIS修订《出口管理条例》:美国从多方面加强对出口到中国的半导体的管制措施。新的管控措施主要涉和先进计算及半导体制造业以及超级计算机和半导体最终用途。◆

自2018年来,美国通过多种制裁手段,严重限制我国高科技领域发展。2022年8月,拜登正式签署《芯片与科学法案》,其中提到禁止接

受联邦奖励资金的企业,在中国扩建或新建先进半导体的新产能;同年10月,美国政府进一步紧缩半导体产品对华出口的政策,主要包括

限制英伟达、AMD等公司向中国出售高算力人工智能芯片;限制应用材料、泛林、科磊等美国设备厂商向任何中国公司出售半导体设备;

将31家中国公司、研究机构及其他团体列入所谓“未经核实的名单”(UVL清单),限制它们获得某些受监管的美国半导体技术能力。◆

美国政府禁止英伟达、AMD

向中国出口用于人工智能的顶级计算芯片。根据钛媒体,2022年9月,美国商务部宣布限制英伟达(NVIDIA)

和AMD

等美国公司向中国出口先进计算机图像处理器(GPU),该禁令主要限制了英伟达的A100、H100

高端芯片以及AMD的MI250

口中国,目的是瞄准国内先进计算进行遏制,影响国

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论