通信行业深度报告:超节点:光、液冷、供电、芯片的全面升级-_第1页
通信行业深度报告:超节点:光、液冷、供电、芯片的全面升级-_第2页
通信行业深度报告:超节点:光、液冷、供电、芯片的全面升级-_第3页
通信行业深度报告:超节点:光、液冷、供电、芯片的全面升级-_第4页
通信行业深度报告:超节点:光、液冷、供电、芯片的全面升级-_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

通信106%79%53%26%0%-26% 2025-012025-052025-09数据来源:聚源《台积电和谷歌表现亮眼,重视硅光超节点:光、液冷、供电、芯片的全面升级l超节点:依托网络互联下的“超大型GPU/ASIC”超节点集群(SuperPod)最早由英伟达提出,随着AI模型迭代对算力需求不断展)和ScaleOut(横向扩展)两个维度。我l超节点新增scaleup互联需求,光、液冷、供电、芯片等环节迎升级超节点服务器Rack主要由计算节点Comp算力卡、交换芯片、交换机的需求外,也有望持续拉动高功率电源、高压l超节点助力国产集群性能提升,或弥补单卡算力差距,助力国产AI发展国产超节点规模的方式,有望实现国产AI基础设施性能的弯道超车,助力国产l投资建议:重视三大主线和四大赛道伴随AI在训练和推理算力需求持续增长,超节点产业链有望长期受益,我们看好“网络端+AIDC+计算端”三条核心方向,以及“光+液冷+供电+芯片”四大1l风险提示:AI发展不及预期、芯片供应风险、市场竞争加剧等1 行业深度报告21、模型发展下的必然,算力基础设施迈入超节点时代 42、超节点:依托网络互联下的“超大型GPU/ASIC” 82.1、Scaleup组网架构包括:Fat-tree胖树拓扑、Mesh类拓扑、Torus拓扑等 92.2、Scaleup协议:从大厂私有逐步走向开源开放 3、超节点架构:新增scaleup互联需求,光通信、液冷、供电、芯片等环节迎升级 4、国产超节点案例——从华为Atlas900A3到Atlas960,国产万卡集群加速发展 5、投资建议及超节点板块部分企业介绍 215.1、盛科通信:稀缺的国产商用交换机芯片龙头 225.2、中兴通讯:自研AI交换芯片,推出国产GPU超节点产品 225.3、锐捷网络:互联网数通白盒交换机龙头,布局超节点产品 235.4、紫光股份:国内服务器+交换机市场排头兵,超节点产品已规模部署 235.5、浪潮信息:国内服务器龙头,助力国产GPU超节点发展 246、风险提示 25图1:大模型持续迭代升级 4图2:算力集群拓展方向Scaleup+Scaleout 5图3:算力集群Scaleup+Scaleout组网连接 5图4:集群规模扩大,Scaleup先行 5图5:基础设施scaleup加速,迈入超节点时代 6图6:AI大模型采取并行策略训练 6图7:稠密模型和稀疏模型通信模式的差异 7图8:超节点服务器对推理架构优化 7图9:传统8卡采用的2种直连拓扑结构 8图10:英伟达引入NVSwtich互联 8图11:H200配备4颗NVSwitch芯片 8图12:NVL72超节点引入Switchtray一层拓扑 9图13:NVL72超节点通过9个NVlinkSwitchtray互联 9图14:NVL5762层Clos拓扑组网 9图15:英伟达推出NVL576 9图16:背脊互联的Fattree拓扑 图17:AMDMI350Fullmesh互联 图18:华为柜内64卡采用2Dfullmesh 图19:GoogleTPU采用3DTorus拓扑架构 图20:UALink分层架构图 图21:博通发布TomahawkUltra支持HPC及Scaleup 图22:更加开放的以太网SUE架构 图23:计算单元通过UB完成全局同步 图24:海光双芯战略 图25:OISA三层核心架构 图26:多方助力OISA建设 3图27:超节点机柜正面外观示意图 图28:超节点机柜背面外购示意图 图29:计算节点拓扑结构 图30:计算节点布局图 图31:交换节点系统功能框图 图32:单芯片架构下交换节点系统框图 图33:机柜功耗持续攀升带动Powershelf和PSU需求 图34:采用Busbar为各节点提供电源 图35:华为CloudMatrix384超节点由12个计算柜组成 图36:910C采用双die方案 图37:Node内CPU和NPU通过UB互联 图38:CloudMatrix384节点UB网络分为L1和L2层 图39:CloudMatrix384节点包含UB、RDMA、VPC平面 图40:CloudMatrix384集群性能高于GB200NVL72 图41:Atlas950支持8192张NPU组网 20图42:Atlas960支持15488张NPU组网 20图43:盛科通信产品覆盖多领域交换芯片及网络产品 22图44:中兴通讯发布搭配自研AI大容量凌云AI交换芯片的超节点系统 23图45:锐捷网络展示ETH128交换产品 23图46:紫光股份发布H3CUniPoDS80000超节点产品 24图47:浪潮信息发布SD200超节点服务器 24表1:NVLink的演进 表2:超节点板块受益标的估值表 21 行业深度报告4输入输出、多模态输入/输出、长思维等特点,模型参数持续突破(从千亿级陆续走从大语言到多模态,模型参数量提升至万亿级。随着基础大模型参数量从千亿迈向万亿,大模型预训练过程对底层智能算力的诉求进一步升级。头部基础大模型的训练算力需求已达到十万亿兆量级,且仍以每年4.1倍的速度快速增长,例如型参数量达2.4T。模型预训练对千卡、万卡算力集程,模型不光随着参数量提升而提高性能,还能基于强化学习、思维链等算法创新级,发现了明显的性能提升,验证了模型的性能会随着思考的次数的增长而不断提Up(纵向扩展)和ScaleOut(横向扩展交换机等,同时需搭配供电、制冷设备等其他设备以确保超节点机柜的运行。 行业深度报告5过去算力集群扩张主要采用Scale-Out架构型的核心架构方向,而大模型分布式训练,使得跨服务器的带宽与时延成为根本瓶单卡GPU远不足以承载模型,高带宽域 行业深度报告6放入单个加速卡中进行训练。此时的并行策略主要是数据并行,单卡的计算能力是(3)超节点服务器集群阶段(大模型主导当模型参数达到千亿乃至万亿级别,单机已无法满足需求,必须使用大规模服务器业界通过引入序列并行、专家并行等更复杂的并行策略,进行分布式训练,训练集行(CP)等多种并行维度的乘积。模式也从单卡单机走向多机大专家并行,随着用户数量持续增长,需同时兼顾多并发需求。语言模型走向多模态/多任务理解和生成,对算力及访存需求变大,此外,模型输入序列长度不断增长,对KVCache缓存提出新 行业深度报告7 行业深度报告82、超节点:依托网络互联下的“超大型GPU/ASIC”扩展,搭配8卡GPU服务器模组的AI服务器,多采用full进入超节点机柜服务器时代,我们认为构造超节点联,硬件与软件协议需互相适配整合,使得数个分离的算 行业深度报告9资料来源:ODCC《扁平化智算网络架构研究报告》单个框包含36个B200和L1层的N资料来源:ODCC《扁平化智算网络架构研究报告》采用RoCE方案,整机柜GPU互联带宽为204.8Tbps。8个SwitchTray支持409.6Tbps的带宽,一半用于超节点柜内连接GPU,另一半的带宽用于背靠背连接旁边机柜的超节点或者通过L2层HB架构适配于物理承重与供电能力受限的机房环境。结构,即任意两个节点都有一条边互联。以AMDMI350高维度拓扑实现机房级、楼层级、数据中心级互联。 行业深度报告体(Cube)内的TPU处理器通过铜互连(铜ICI)应64个机架)组成,可组合出最大8×16×16(2048颗芯片)的切片;TPUv5p的片集群,该架构将故障域缩小至单个立方体,提升系统可靠性。 行业深度报告条高速差分信号通道组成链路的方式进行点对点通信,允许同时进行多个数据传输NVLink1.0NVLink2.0NVLink3.0NVLink4.0NVLink1.0NVLink2.0NVLink3.0NVLink4.0NRZNRZNRZ46NVSwitch2.0NVSwitch3.0英特尔、博通、Meta、微软等公司共同发起的一项开放式互连标准,后续阿里、苹果等厂商相继加入,成员均可参与开发和采用,从而促进生态系统的创新和丰富。UAlink在物理层和链路层同样复用以太网技术,UALink1.0支持每通道最高200点组成的整个POD上进行Load/Store操 行业深度报告以支持大规模数据集处理、深度神经网络训练及并行任务执行。XPU与XPU之间(含交换机传输时间)通信延时低于400ns。SUE要求端到端往返位于2024年6月共同发布了OISA(Omni-directionalIntelligentSensingExpress具备支持原生内存语义、创新TLP报文重构技术、支持智能switch交换机、供电单元Powersh交换芯片、交换机的需求外,也有望持续拉内存条、存储等部件。四个GPU(OAM)适配在CarrierBoard上,单板上BMC、SSD、或额外的光端口以及管理接口等部件。此外,节点内采用风液混合方式散热,交换芯片搭配液冷冷板套件。资料来源:ODCC《ETH-X超节点AI整机柜设计规范》资料来源:ODCC《ET风液混合,液冷为主,风冷为辅,液冷占比80%以上,未来有望最终转变为全液冷 行业深度报告资料来源:华为《ServingLargeLanguageModelsonHua 行业深度报告链接到Supernode结构中的L2层交换机;RDMA平面:只有NPU参与次级RDMA资料来源:华为《ServingLargeLanguageModelsonHua(3)UB交换系统:板载L1层UB交换芯片链接至4个资料来源:华为《ServingLargeLanguageModelsonHua总体来看,CloudMatrix384超节起来,使得节点间通信性能接近节点内水平,节点间带宽衰减小于3%,节点间延迟速传输,支持使用RDMA兼容框架的分布式训练和推理,并保持了多集群部署中资料来源:华为《ServingLargeLanguageModelsonHua超节点助力国产集群性能提升,弥补单卡算力差距。从单卡和集群性能对比上910C芯片BF16性能仅为GB200模组的1/3,但通过超节点集群的方式,单个 行业深度报告20 行业深度报告21软件、润泽科技;受益标的:万国数据、世纪互联、云赛智 行业深度报告22盛科通信产品覆盖100Gbps~25.6Tbps交换容量及100M入市场推广和逐步应用阶段,有望持续受益于网络产品国产化。公司是全球领先的综合通信与信息技术解决方案提供商,基于ICT全栈核心能力,商网络、政企业务和消费者业务。公司服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论