




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录TOC\o"1-1"\h\z\u一、网络在算力系统中的地位有望继续提升,1.6T光块加速推进 1二、北美云厂商资本开支指引乐观,800G及1.6T光模块需求或爆发 8三、投资建议 15四、风险分析 16图表目录图表1:英达DGXA100SuperPOD系统意图 1图表2:光信业和电升迭示图 2图表3:英达GH200VSH100IB集在内模下的现 2图表4:GH200网接示图 3图表5:1.6T的OSFP-XD封与OSFD和QSFP-DD封装对比 3图表6:OSFPMSA和4x400GMSA的1.6T主方案 4图表7:OSFP-XD的DR8网络扑图 4图表8:OSFP-XD的4xFR2络扑图 4图表9:OSFPMSA和4x400GMSA的1.6T主方案 5图表10:三菱200GEML结示图 5图表11:博通200GEML及PD决案意图 5图表12:Marvell于模块的DSP产升意图 6图表13:OSFP-XD装式下分接的意图 6图表14:NVLink同的级Roadmap 7图表15:在PCIe和NVLink不情的GPU与模块例况 7图表16:北四云资本支况百美) 8图表17:亚逊收况(万元) 8图表18:亚逊本情况百美) 8图表19:的代EC2UltraClusters的络构介示图 9图表20:的代EC2UltraClusters的络构介示图 9图表21:含的HPC软栈意图 10图表22:SRD协意图 10图表23:2020-2023Q2年Meta收情(万) 10图表24:2020-2023Q2年Meta资开情(美元) 10图表25:Meta的SuperCluster网架介示图 11图表26:Meta早发的数中网架示图 12图表27:Meta新数中心备布意图 12图表28:2020-2023Q2谷歌收情(万元) 13图表29:2020-2023Q2谷歌本支况百美元) 13图表30:谷歌Spine换机步成OCS13图表31:谷包含OCS网络构意图 14图表32:谷歌PalomarOCS内部构意图 14图表33:谷内置Circulator的模结示图 14图表34:2020-2023Q2微软收情(万元) 15图表35:2020-2023Q2微软本支况百美元) 15一、网络在算力系统中的地位有望继续提升,1.6T光模块加速推进算力基础设施是影响AI发展与应用的核心因素,优秀的网络性能可以提升计算效率,显著提升算力水平。ChatGPTAIGCAI模型和海量数据,能够在多个应用场景下产生优质的内容,AIGCAI发展与应用的核心因素。算力基础设施成了目前行业亟需布局的资源,目前除了CPU/GPU等算力硬件需求强劲之外,网络端也催生了更大的带宽需求,以匹配日益增长的流量,未来随着AI应用的发展,对于流量与带宽的需求有望进一步增长。图表1:英伟达DGXA100SuperPOD系统示意图资料来源:英伟达,2022年开始,北美传统云计算市场的光模块已经开始向800G速率升级,在AI领域,我们认为无论是训练还是推理,800G在2023年-2024年,都将是AI数据中心的首选。速率已经升级到800G的速率。从电口来看,单个Serdes的速率达到了100G,而单个光路的速率也达到了50GBaud(EML的速率)PAM4100G速率。800G2022年底开始小批量出货,2023AIAI的客户也是采用目前行业速率最高的800G光模块。2024年,800G光模块的出货量有望大幅增长。目前,英伟达的A100GPU主要对应使用200G光模块,H100GPU主要对应使用800G光模块。每个A100GPU配一张MellanoxHDR200Gb/sInfiniband网卡,每个H100GPU配一张MellanoxNDR400Gb/sInfinibandH100SuperPOD800G1800G2400G8SerDes8100G通道一一对应。因此,在这种设计之下,交换机的通道密度提高,物理尺寸显著降低。行业动态报告图表2:光通信行业光口和电口升级迭代示意图资料来源:思科,增加网络带宽能够显著提升算力,且性价比很高,GH200便是重要的实例。NVLink带宽远大于网卡侧的PCIeNVLinkGPUGPU互连,将显著提升系统的带宽。20236月,英伟达创始人兼CEO黄仁勋在NVIDIAComputex2023演讲中宣布,生成式AI引擎NVIDIADGXGH200现已投入量产。GH200NVLink4900GB/s超大网络带宽能力来提升算力,服务器256GH2001GH2009800G256GH2001GH20012800G光模块。相较传统的IB/Ethernet的网络,GH200采用的NVLink网络部分的成本占比虽然大幅增长,但是因为网络在数据中心中的成本占比较低,因此通过提升网络性能来提升算力效率,性价比实际很高。图表3:英伟达GH200VSH100IB集群在大内存模型下的表现资料来源:英伟达,网络对AI的作用愈发重要,包括带宽,架构和协议层。更高的网络带宽能够在单位时间传输更多的数据量,在内存增加的同时带宽也相应提升,从而变相提升系统的算力水平;无阻塞的网络架构能够保证在数据量Infiniband、NVLink系统中的协议、基于RDMA的以太网协议、云厂商定制化的网络协议,都能保证数据传输时的高稳定性、高可靠性及低时延等。图表4:GH200的网络连接示意图资料来源:英伟达,1.6T光模块有望在2024年下半年小批量出货,比预期提早一年左右。在AI数据中心中,越来越多的客户倾向于选择更大带宽的网络硬件。带宽越大,单位bit传输的成本更低、功耗更低及尺寸更小。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求,其在2022年底开始小批量,2023年和2024年的出货量都有望大幅增长。而AI对于带宽的需求是没有极限的,得益于网络较高的性价比,1.6T光模块有望加速应用。图表5:1.6T的OSFP-XD封装与OSFD和QSFP-DD封装的对比资料来源:OSFPMSA,目前1.6T光模块的MSA标准包括4x400G和OSFP。4x400GMSA202112月,主要成员包括AristaMolex等厂商。4x400GMSA100G200G单通道的硬件逐步成熟,4x400G的方案将会受到比较大的挑战。而行业动态报告OSFPMSA201611400G100多家,包括谷歌、、Coherent、中际旭创、思科和安费诺等厂商。OSFPMSA1.6TOSFP1600OSFPXD等两种封装方式。图表6:OSFPMSA和4x400GMSA的1.6T主要方案资料来源:OSFPMSA,4x400GMSA官网,目前OSFP-XD封装方案为1.6T光模块主流的选择。OSFP-XDOctalSmallFormFactoreXtraDensePluggableModule2023OFC1.6TOSFP-XD1.6TOSFP-XDDR8+200G,温度范围0-7023W2kmOSFP-XD1.6T4xFR2光模块,采用4xSN16100G4x400GFR21291nm1311nm两个波长,同时公司的官网上DR82xFR4两款产品;Coherent200G800GGen2和1.6T1.6T1.6T的研发。图表7:OSFP-XD的DR8网络拓扑图 图表8:OSFP-XD的4xFR2网络拓扑图资料来源:OSFPMSA, 资料来源:OSFPMSA,1.6T光模块按照传输距离、通道数和波长可以分为多种产品,下游客户可以根据实际需求定制化相关产品。100Gbps100G200GIM-DD的调制方式,若光口单通道100G16DR16(采用一个波长),4FR4(采用四个波长),2FR8(采用八个波长)200G8DR8(采用一个波长),4FR2(采用两个波长),2FR4(采用4个波长),FR8(采用八个波长)。以相干的调制方式,若单通道速率为800G,包括ZR2(采用两个波长)。我们认为,光口单通道200G预计是1.6T光模块未来的主流选择。图表9:OSFPMSA和4x400GMSA的1.6T主要方案资料来源:OSFPMSA,从上游的光芯片来看,200GPAM4EML进展加速。1.6T光模块的发展,核心元件是芯片,包括光芯片和100GBaudEML200GPAM4EML20233月200GPAM4EMLCWDM的光模块中,800G采用四个,1.6T采用八个;Lumentum的200GPAM4EMLLightwave2023创新奖,该产品最大限度地降低了输入电压的波动,从而降低驱动芯片PAM4PAM6PAM8200GEML也在加速研发中,2022年公司已经可以提供相关的解决方案,同时公司可以提供创新的无制冷的200GEML激光器方案。图表10:三菱200GEML结构示意图 图表11:博通200GEML及PD解决方案示意图资料来源:三菱, 资料来源:博通,从上游的电芯片来看,1.6TDSP有望迅速取得突破。2023年3月,Marvell发布了新一代Nova系列PAM4DSP5nm先进制程。NovaDSPGearbox16100G8200G1.6TDR8/DR4.2/2xFR4/LR8DSPSNR的性能监控、FFE-taps、PRBS发生器等功能。2023OFCSemtech200G单通道电光112GBdPAM4DSP1.6T网络奠定了基础。图表12:Marvell用于光模块中的DSP产品升级示意图资料来源:Marvell,从上游的光连接器来看,多款不同产品将采用不同的连接器。根据光路的数量和波长的分类,有不同的连LC连接器、MPO连接器、MXC连接器、CSSN连接器等产品。比如,MPO-12TxRx发射端;四个SN连接器可以用于1.6T4xFR2光模块中。图表13:OSFP-XD封装形式下部分连接器的示意图资料来源:OSFPMSA,从下游客户来看,英伟达、谷歌和亚马逊可能会是1.6T光模块的主要需求方。英伟达网络带宽的需求非GH200中,NVLinkGPUGPU的互连。NVLink4.0的PCIe5.091.6T光模块,则单位bit1.6TNVLink5.0,带宽将进一步提升,那么对于光模块的需求将持续增长。我们认为,谷歌作为在数通光模块市场需求的主力,对光模块更1.6T1.6T也将成为谷歌的主要需求产品。而400G1.6T1.6T产品成熟,亚马逊可能会大量采购。图表14:NVLink不同代际的升级Roadmap资料来源:英伟达,以英伟达的GH200架构为例,假设PCIe和NVLink的下一代带宽增加一倍,那么在训练场景下,非常乐观的情况下,H100与1.6T光模块对应比例有望达到1:12。假设PCIe6.0的带宽增加一倍,那么从GPU到网卡适配器的带宽增加一倍,光模块的总带宽也增加一倍。在胖树三层架构的基础上,H100和800G的比例由1:3上升到1:6,与1.6T的比例则可能达到1:3。假设NVLink下一代5.0的带宽增加一倍,在GH200的产品中,H100800G1:91:181.6T1:9256GH200假设乐观情况下PCIe和NVLink同时升级到下一代产品,且带宽增加一倍,那么H100与800光模块比例有望达到1:24,与1.6T光模块比例有望达到1:12。图表15:在PCIe和NVLink不同情况下的GPU与光模块比例情况资料来源:英伟达,(假设PCIe6.0的带宽相比5.0增加一倍,NVLink5.0的带宽相比4.0提升一倍)二、北美云厂商资本开支指引乐观,800G及1.6T光模块需求或爆发北美云厂商收入增速有所回暖,短期资本开支同比下降,但各家云厂商对未来AI的投资指引乐观。2023Q2,北美三家云厂商亚马逊、谷歌和微软的云业务收入总计541.64亿美元(Meta露),15.43%6.41%,增速有所提升。2023Q2334.29.56%89.4330.16%,Meta18.52%,谷0.88%27.15%2023Q2Capex降幅有所扩大,但是各家云厂商对未来(今年下半年及明年)AI业务发展均给予较高期待。图表16:北美四大云厂商资本开支情况(百万美元)亚马逊 微软 谷歌 Meta 亚马逊YoY 微软YoY 谷歌YoY MetaYoY45000 2540000 35000 2030000 1525000 102000015000 50100005000 0%0 -5资料来源:,2023Q2221.412.16%3.68%。虽然在过去的几个季AWS客户在云计算业务的开支不断减少,但是目前公司已经看到客户开始将注意力更多放在创新上,同时考虑将新的工作负载放在云上。2023Q2114.5527.15%,环比下降19.37%2023500亿美元,同比有一定的下降,其中用于配送和运输的支出有AI的技术基础设施投资有所增加。图表17:亚马逊云收入情况(百万美元) 图表18:亚马逊资本开支情况(百万美元)AWS收入(百美元) 环比 同比
资本开支(百万美元) 环比 同比25000
20000
200%0
40%30%20%10%0%2020Q12020Q22020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q42023Q12023Q2
0
150%100%50%0%2020Q12020Q22020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q42023Q12023Q2资料来源:, 资料来源:,AWS用于AI的超算集群,采用无阻塞网络,AI芯片包括英伟达GPU和自研的芯片。第一代EC2UltraClusters4000A100GPU400GEFA8A100GPU,4100GEC2UltraClusters,该集群包含20000H100GPUEFA800G3.2T,大幅提升,且同样采用无阻塞网络架构,因此光模块用量及速率将大幅提升。UltraClusterTrainiumInferentialAI3Trainium6EFlops。图表19:AWS的第一代EC2UltraClusters的网络架构介绍示意图资料来源:AWS,图表20:AWS的第二代EC2UltraClusters的网络架构介绍示意图资料来源:AWS,行业动态报告AWS的网络采用EFA配合SRD协议,因此光模块及交换机预计也采用定制化方案。EFA是定制化的低HPCRDMATCP通信,网络延迟更低,数据吞吐量更高。EFA允许应用程序直接访问网络接口,而无需让操作系统参与,从而减少开销且使得应用程序更有效地运行。SRDScalableReliableDatagramAWS网络构建和优化的协议。在HPC中,数据包延迟和丢包会增加时延,降低扩展效率。SRD可以提供可靠的乱序交付,增加尽量多的网络路径发送数据包,在接收处快速排序,既可以降低传输延迟,也可以提升数据吞吐量。同时SRD有专门的拥塞控制,保证在各种负载下较高的传输带宽和稳定的时延。AWS原来的光模块升级计划是从400G到1.6T,但我们认为网络带宽需求不断提升,2024800G1.6T需求也有望加速。图表21:包含的HPC软件栈示意图 图表22:SRD协议示意图资料来源:AWS, 资料来源:AWS,2023Q2,Meta77.8816.46%36.42%,业绩表现出色。2023Q2公61.3418.52%2023270亿美元-300亿美元,本年度第二次下调全年预期,主要原因是在非AI的服务器上节省了成本,同时由于项目延迟和设备交付推迟,这20242024年资本开支将保持增长,驱动力来自数据中心和服务器,尤其用于支撑AI方面的发展。公司过去在人工智能基础设施上投入了数十亿美元,目前这些投入已经对公司的相关业务产生了明显的推动作用,包括排序和推荐系统的优化。图表23:2020-2023Q2年Meta收入情况(百万美元) 图表24:2020-2023Q2年Meta资本开支情况(百万美元)收入(百万美元) 环比 同比
资本开支(百万美元) 环比 同比40000 60%35000 50%
10000 9000
140%120%0
40%30%20%10%0%-10%-20%-30%
0
100%80%60%40%20%0%-20%2020Q12020Q22020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q42023Q12023Q2资料来源:Meta, 资料来源:Meta,行业动态报告20221月,Meta发布了“ResearchSuperCluster”项目,旨在部署超大规模的服务器集群。第一阶段公760DGXA1006080GPU200GInfiniband3Clos网络架20235Meta’sAIInfra@Scale活动上表示第二阶段的部署之前也已经完成。目前,Meta2000DGXA10016000A100GPU。而网络部分,Meta采取了当Infiniband480002000台交换机。4800096000个连接点,每DACMeta的服务器集群中,A100与光模块的比例为1:6,与英伟达胖树三层架构计算侧的比例基本一致。我们认为,Meta的用于训练的超级集群的网络与英伟达的DGXA100SuperPOD胖树三层网络架构非常相似,GPU与光模块的比例也基本一致。图表25:Meta的SuperCluster的网络架构介绍示意图资料来源:Meta,追溯Meta老数据中心的网络架构,可类比胖树三层Clos架构。2014年,Meta基于简单模块化的设计思维,为了能够扩展更大的服务器规模,对现有的网络架构做了一定的更新。该网络架构的最小单元为1个PODPOD48TORTOR440G1610GPOD48TOR4FabricPODSpine行业动态报告图表26:Meta早期发布的数据中心网络架构示意图资料来源:Meta,2023Q1,Meta2023340亿美元-370300亿美元-330亿美元,主要原因是数据中心建设的成本降低,因为新的数据中心架构性价比高,可以同时支持AI和非AI的工作载荷。从MetaAISuperClusterCLOS架构。可以看出,Meta1.6T虽然Meta没有提供新网络架构的细节内容,但是我们认为可能是非AI和AI服务器共用存储、网络和液冷等设备,其中网络采用三层CLOS的网络基础架构,再根据实际的工作载荷进行切换。图表27:Meta新的数据中心设备分布示意图资料来源:Meta,行业动态报告2023Q280.3127.96%7.74%Q1基本持平,没有再出现前两个季度同比增速持续放缓的情况。2023Q268.880.88%,环比增长9.52%。公司二季度资本开支略低,主要是由于办公设施的优化和部分数据中心建设延误。但是公司20232022年,下半年将会对技术基础设施的投资有所增加。因此可以推测,下半年18323.11%800G光模块市场的主要需求厂商,明年需求有望持续快速增长。图表28:2020-2023Q2年谷歌云收入情况(百万美元) 图表29:2020-2023Q2年谷歌资本开支情况(百万美元)收入(百万美元) 环比 同比
资本开支(百万美元) 环比 同比9000 60%
12000
80%0
50%40%30%20%10%0%
10000 80006000400020000
60%40%20%0%-20%-40%-60% 资料来源:, 资料来源:,谷歌数据中心探索OCS(opticalcircuitswitch)光交换机新方向,可取代Spine层交换机。谷歌以前的数CLOSOCSOCS的网络。传统的CLOS网络中,Spine层交换机一直存在需提前部署灵活性差、性能容易成为瓶颈、成本高和功耗高等SpineOCSSpine侧去掉了光电转换过程,同时在带宽不断升级的背景下,OCS无需做更新,能够有效降低成本和功耗等问题。图表30:谷歌Spine层交换机逐步替换成OCS交换机资料来源:谷歌,行业动态报告基于OCS的网络架构,对光模块用量影响实际较小。目前谷歌采用MEMS方案来实现OCS。通过对MEMS中不同镜面施加一定的电压,调节镜面的反射角度,以实现光路方向的转换,完成光信号在不同交换机之间的传输。MEMS具备一定的商用成熟度,拥有波长和数据速率普适性、低功耗和低时延的优点,但同时也有量产成熟度低、转换时间长、成本高和可靠性不高等缺点,仍需时间去解决。在Spine层采用OCS交换机,那么在Spine侧OCS交换机无需光模块,而在汇聚层的一侧仍需光模块。假设整个网络采用胖树架构,若汇聚层采用一层交换机,那么GPU和光模块的比例略有降低,会有一定影响;若汇聚层采用两层交换机,那么GPU和光模块的比例会有相应的提升。因此综上分析,虽然Spine层采用OCS交换机,对光模块的影响较小。图表31:谷歌包含OCS的网络架构示意图资料来源:谷歌,基于OCS的网络架构,光模块的ASP将有明显提升。OCS交换机不再使用光模块,取而代之的是光纤直PalomarOCS136个端口,光纤数量较多,因此降低光纤数量成为刚需。若汇聚层交换机上的光模块还是按照收发各一根光纤,那么OCS的端口数及光纤的数量翻倍。而如果两根光纤变成一根,那么将大大提升端口利用的效率。因此OCS的网络中使用的光模块,首先必须是波分复用的方案,其次需要加上一个环形器(circulator)800GMux/DeMux组件进行波分复用/解复用,然后通过环形器耦合到一根收发共用的光纤中。定制化增加研发溢价,加之环形器增加BOM成本,因此单个光模块的价值量将有明显提升。谷歌在光连接需求一直保持领先,也有望成为1.6T的主要需求客户。图表32:谷歌PalomarOCS内部结构示意图 图表33:谷歌内置Circulator的光模块结构示意图资料来源:谷歌, 资料来源:谷歌,行业动态报告2023Q2239.9314.75%8.66%,增速有所放缓,AI相关的收入增量还不是很明显。2023Q2,微软的资本开支为89.43亿美元(不包含融资租赁),同比增长30.16%,环比增长35.36%。公司预计2024财年的资本开支将逐季度环比提升,主要用于数据中心、CPU和GPU以及网络设备方面。20236Microsoft365Copilot30/月,超市场预期。AI收入capex的持续性,若Copilot用户数不断提升,则微软有望投入更多去强化算力基础设施。公司专注于打造强大的人工智能平台,帮助客户在数字化支出中充分受益。图表34:2020-2023Q2年微软云收入情况(百万美元) 图表35:2020-2023Q2年微软资本开支情况(百万美元)收入(百万美元) 环比 同比
资本开支(百万美元) 环比 同比30000 35%25000 30%20000 20%
10000 9000 800070006000
50%40%30%20%10%0
15%10%5%0%-5%
0
0%-10%-20%-30%-40%-50%2020Q12020Q22020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q42023Q12023Q2资料来源:, 资料来源:,三、投资建议虽然近期包括光模块等在内的AI算力板块有一些调整,但是中长期维度下我们仍然坚定看好AI发展给算力板块带来的需求拉动,行业景气度仍在提升,业绩兑现的概率较高。若不考虑AI的拉动,传统数通光模块市场需求相对保持
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机械安全知识培训目的
- 社交媒体驱动的快速消费品营销策略研究-洞察及研究
- 消防车辆起火课件
- 机械加工知识培训总结课件
- 机械制图减速器测绘课件
- 消防网格化课件
- 2025年港航工程试题及答案
- 记叙文课件小说
- 污废水处理工职业培训考试题库及答案
- 运输行业疫情培训课件
- 2025届四川省高三上学期第一次联合诊断性考试历史试卷(含答案)
- 人教版四年级数学上册单元课程纲要
- 金属矿石购销合同模板
- DL∕T 1052-2016 电力节能技术监督导则
- 肌肉注射完整版本
- DL5190.5-2019电力建设施工技术规范第5部分:管道及系统
- 应急照明、疏散指示系统施工方案
- 物流服务方案与实施方案(2篇)
- QBT 2959-2008 钢板网行业标准
- DB32T3795-2020企事业单位和工业园区突发环境事件应急预案编制导则
- 《国际中文教育概论》课件全套 第1-12章 从对外汉语教学到国际中文教育- 国际中文教育前瞻
评论
0/150
提交评论