计算机行业深度研究报告:全球AI算力革命生态之争加速演绎_第1页
计算机行业深度研究报告:全球AI算力革命生态之争加速演绎_第2页
计算机行业深度研究报告:全球AI算力革命生态之争加速演绎_第3页
计算机行业深度研究报告:全球AI算力革命生态之争加速演绎_第4页
计算机行业深度研究报告:全球AI算力革命生态之争加速演绎_第5页
已阅读5页,还剩27页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目 录TOC\o"1-2"\h\z\u一、全球AI算力革命,响加速芯片争霸赛 6(一)全智需快增长英达力局现领跑 6(二从通训”“专推智成化催定化案 9二、英伟达数据中业爆发,构建全栈计基设施 13(一)研驱创,伟达建栈算础施 13(二打“尔律从Bakel到eaRbn 14(三)CUDA态筑据中业“城” 17三、博通崛起,打造AI专用芯片领域的“隐冠” 19(一)博崛,焦ASIC芯片 19(二)硬与件同驱动通绩速长 20四、全球算力生态争剧,AI市场或趋于异构合 24(一)英达居球导体售首 24(二)ASIC之正速向生之争 25(三)AMD完生建,升AI性能 27(四)超规云商算力主趋势 31五、投资建议 34六、风险提示 34图表目录图表1 力常单位 6图表2 力分类 6图表3 球力模增速 7图表4 2021-2023全算力与GDP7图表5 2008-2026全机器习件计能示意(EpochAI) 7图表6 2017-2024数中心GPU市份测算 8图表7 同速训的知模数(Epoch8图表8 同域模训练需力(EpochAI) 8图表9 先技的AI计算力(EpochAI) 9图表10 按GPU际分的伟算总(EpochAI) 9图表H100图处器的于2023完交付况 9图表12 GPU、ASIC、FPGA对比 10图表13 GPGPU与ASIC10图表14 Marvell上修2028年球ASIC场模期至554美元 图表15 英尔的FPGA产品 12图表16 英达新程 13图表17 Blackwell六项命的术 14图表18 NVIDIABlackwell产品 15图表19 Rubin平全栈构 15图表20 Rubin平全栈构 16图表21 2016-2025财英伟营及润况 17图表22 2016-2025财英伟收结(美) 18图表23 CUDA的效转需配英的GPU硬件 18图表24 博发历图 19图表25 博定技力与IP核 20图表26 博的导决方业构成 21图表27 2016-2025财博通收利情况 22图表28 2020-2025财博通入构亿元) 22图表29 博的础软件务成 22图表30 2023-2024年球前大导供商入排(位百美) 24图表31 WSTS球前二的导公榜单 25图表32 Scale-up、Scale-out、Scale-Across框比 26图表33 英达博AMD架比 27图表34 AMD通更的HBM内容和的能比撬市场 28图表35 AMDMI355X与英达B20029图表36 AMDMI350列性参数 29图表37 AMD发的HeliosAI机架 30图表38 AMD产发路线图 30图表39 PassMark关务器CPU场额统计 31图表40 A股心益的 34一、全球AI算力革命,打响加速芯片争霸赛(一)全球智算需求快速增长,英伟达算力布局实现领跑人工智能(AI)训练和推理计算驱动全球智能算力需求快速增长。作为信息产业的重要组成部分,算力主要涵盖基于计算技术的算力、基于数据储存技术的存力和基于网络通信技术的运力。从计算能力角度来看,算力分为通用算力、智能算力、超算算力、边缘算力等多个维度。从算力基础设施角度来看,主要包括数据中心、智算中心、超算中心等设施,以及通信网络基础设施。算力常用计量单位是OPS(每秒执行的浮点数运算次数,主要用于衡量高性能计算(PAI1EOPS25200图表1 算力的常用单位常用量级(十进制前缀)简介GFLOPS:10⁹FLOPS(10亿次/秒)常见于入门级GPU或高性能CPU。TFLOPS:10¹²FLOPS(1万亿次/秒)主流消费级GPU(如NVIDIARTX4090约80-100TFLOPS)、服务器CPU(如IntelXeon)或小型超算节点的算力。PFLOPS:10¹⁵FLOPS(1千万亿次/秒)中型超级计算机的门槛(如中国天河二号峰值算力约33.86PFLOPS)。EFLOPS:10¹⁸FLOPS(1百亿亿次/秒)当前顶级超算的水平(如美国Frontier超算达1.194EFLOPS,中国神威·太湖之光约93PFLOPS)。ZFLOPS:10²¹FLOPS(1千亿亿亿次/秒)未来超算的发展目标(如百亿亿次之后的下一代)。凤科技官方账随着大模型使用的数据量和参数规模增加,智能算力需求快速增长,规模远超通用算力。据中国信息通信研究院信息化与工业化融合研究所发布的《先进计算暨算力发展指数蓝皮书(2024年20231397EFlops54%(FP32)497EFlops(FP32)875EFlops,占(25EFlops50%2030年全球算力将超过16ZFlops,90%。图表2 算力的分类算力分类介绍通用算力CPU(32位单精度为主边缘计算等。智能算力主要是基于GPUFPGAASIC半精度浮点数)计算是智能计算的主流。主要用于人工智能的训练和推理计算,比如语音、图像和视频的处理。超算算力CPUGPU提供双精度浮点数(64位)计算能力为主。睿等《复杂国际形势下算力产业的发展研究》,周倩《中国算力产业链的短板与突围策略图表3 全球算力规模增速 图表4 2021-2023年全球算力规模与GDP关系国信通院、IDC、Gartner、TOP500 国信通院、IDC、Gartner、世界银行2023年算力规模前20的国家中有17个是全球排名前20的经济体,并且前四名排名一2022英伟达GPUGartner2023AI5362025710920AI芯PU的AI服务器占比约为190,AMD8%ASIC芯片在AI26%。图表52008-2026年全球机器学习硬件的计算能力示意图(EpochAI)pochAI图表6 2017-2024年数据中心市场份额测算6kr转引自WellsFargoEquiltyReseachviaNextPlatformEpochAI2024AIA10085第二的是NVIDIA68的TPUv3442020AI2.3HopperH100202222025年H1002024AIH100订单已转向下一代芯片H200和B1002026-202820261CES()RubinRubin图表7 不同加速器训的知名模型数量 图表8 不同领域大模训练所需算力pochAI pochAI图表9 领先科技公司的AI计算能力 图表10 按代际划分的英伟达算力总和pochAI pochAI图表H100图形处理器的订单于2023年完成交付情况范儿微信公众号转引自Omdia(二)从通用训练到专用推理,智算成本优化催生定制化方案CPU(CentralProcessUnitCPUAIonGraphicsProcessingUnit,ProgrammableGateASIC(ApplicationSpecificIntegrated适合大规模并行训练,ASIC适合高能效推理,FPGA适合特定算法加速。FPGAASICGPGPUFPGAASIC。图表12 GPU、ASIC、FPGA对比技术架构种类定制化程度可编辑性算力价格优点缺点应用场景GPU通用型不可编辑中高通用性较强且适合大规模并行计算;设计和制造工艺成熟。并行运算能力在推理端无法完全发挥。高级复杂算法和通用性人工智能平台。FPGA半定制化容易编辑高中可通过编程灵活配置芯片架构适应算法迭代,平均周期较短。量产单价高;峰值计算能力较低;硬件编程困难。适用于各种具体的行业。ASIC全定制化难以编辑高低通过算法固化实现极致的性能和能效、平均性能很产后成本低。前期投入成本高;研发时间长;技术风险大。当客户处在某个特殊场景,可以为其独立设计一套专业智能算法软件。导体产业纵横公众随着AIASICGPU场份额。图表13 GPGPU与ASIC对比对比领域 解决方案GPGPU(通用图形处理器)ASIC(专用集成电路)算力维度:精度与能效GPGPUASIC要高精度浮点运算的AI训练任务中,英伟达的GPGPU仍是首选。ASIC专注于低精度计算场景优化,其功耗控制与能效比显著优于GPGPU。存力配置:密度与带宽GPGPU在显存配置上具备整体优势。ASIC的算力密度和算数强度迭代速度突出,但在低精度处理器)GPU的内存瓶颈。互连技术:生态壁垒NVLinkScale-up扩展能力,在集群通信效率上遥遥领先。ASIC厂商正试图通过定制化互连方案突破限制。融界《算力芯片行业观察:GPGPU与ASIC性能角力;大厂自研驱动代工生态重构ASICPW)推出anum芯MetaAI摩根士丹利通过TCO模型对比了ASIC和GPU在AI训练和推理任务中的成本效益。结果显示,尽管英伟达的GPU在性能上占据明显优势,但ASIC的Trainium2GPU30%-40%Trainium32025年123Trainium34倍,与同等GPUAI40%。与此同时,芯片代工巨头如台积电、三星也开始与客户合作开发ASIC项目。除了终端用户的垂直整合,专业的半导体设计公司,如博通(Broadcom)和迈威尔科技ASIC市55%-60%MetaAIXPU)13%-15%20256(CustomAIInvestorEvent)2028ASIC55442929%。图表14 Marvell上修2028年全球ASIC市场规预期至554亿美元ustomAI投资者日Marvell演示材料FPGACPUGPU将产品加速推向市场。FPGACyclone10GXFPGAArria10GXFPGAStratix10GXFPGA2025年3FPGAAltera20156月167亿美元收购Altera是全球第二大FPGA业务独立运营,仍以Altera图表15 英特尔的FPGA产品特尔官网二、英伟达数据中心业务爆发,构建全栈计算基础设施(一)研发驱动创新,英伟达构建全栈计算基础设施2025582从革新游戏显卡,到筑基AI年英伟达发布了GeForce首款2006年CUDAGPU2012GPU训练的AlexNetImageNet计算机图像识别竞赛中获胜,标志着人工智能迎来大爆发时刻。构建全栈算力生态:2017CoreGPU2018SoC2020Mellanox(DPU)AI年英伟达推出了其首款数据中心CPU(HPC)5GPU和CUDA包括用于自动驾驶的NVIDIADRIVE栈、用于医疗保健的Clara化的OmniverseNVIDIA英伟达的全栈解决方案包括在所有NVIDIAGPUCUDA(D)P。深度和广泛布NVIDIA3DGPUAI图表16 英伟达创新历程VIDIA官网(二)打破摩尔定律,从Blackwell到VeraRubin英伟达推出Blackwell架构,为生成式AI革命量身打造。20243BlackwellGPU、CPU、DPUNVIDIANVLinkSwitch芯NVIDIAInfiniBandBlackwell10AILLM超越摩尔战略。Blackwell的GPU架构拥有2080亿个晶体管,处理万亿参数AI模型的速度比之前的技术快30倍,黄仁勋表示,此前8年,英伟达的计算能力已提升了数千倍,超越了摩尔定律巅峰时期设定的传统基准。Blackwell驱动实例的云服务供应商包括GoogleCloudMicrosoftAzure、OracleCloudInfrastructureNVIDIACloudAppliedDigital、Crusoe、IBMCloudLambda等。2025年3VDABackelUaPU(B30一代B200PU50POP(P4HBM3E192GB288GB。在公司2025年财报电话会议上,英伟达首席财务官ColetteKress表示:大型CSP(云服务提供商)是首批Blackwell的支持者,Azure、GCP(谷歌云产品)、AWS和OCI(甲骨文云基础设施)为全球各地的云区域带来了200个(Blackwell)系统,以满足客户对AI不断增长的需求。2025年11月,英伟达CEO黄仁勋表示,Blackwell芯片需求非常强劲。三星、SK海力士和美光科技已扩大产能,以支持供货。图表17 Blackwell拥有六项革命性的技术产品亮点介绍全球最强大的芯片BlackwellGPU20804reticleGPU裸片将10TB/秒的芯片到芯片链路连接成单个统一的GPU。第二代Transformer引擎BlackwellTensorCoreTensorRT-LLMNeMoMegatron框架中的英伟达先进动态范围管理算法,Blackwell将通过新的4位浮点AI支持双倍的计算和模型大小推理能力。第五代NVLinkAINVLinkGPU1.8TB/s双向吞吐量,确保最复杂LLM之间多达576个GPU之间的无缝高速通信。RAS引擎BlackwellGPU包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell架构还增加了芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间,并提高大部署规模AI的弹性,使其能连续运行数周甚至数月,并降低运营成本。安全人工智能AI于医疗保健和金融服务等隐私敏感行业至关重要。解压缩引擎年花费数百亿美元的数据处理方面,将越来越多地由GPU加速。伟达2024GTCAI大会,每日经济新图表18 NVIDIABlackwell产品VIDIA官网再次打破摩尔定律,英伟达发布VeraRubin计算平台。随着AI模型规模以每年10倍的速度增长,为突破传统芯片迭代的物理极限,英伟达不再进行局部优化,而是选择了极致协同设计。在2026年1月的拉斯维加斯CES(国际消费电子展)大会上,英Rubin6CPURubinGPU、ConnectX-9BlueField-4DPUNVLink-6Spectrum-6Rubin图表19VeraRubin平台全栈重构CES2026,爱范儿微信公众号通过6款芯片的深度整合,VeraRubinNVL72系统性能比上一代Blackwell实现了全方位的提升:NVFP4Blackwell架构提5倍。NVFP42.5EFLOPS3.53)54TBLPDDR5X3(0.7B.55BM41.PB,2.8Scale-Up260TB/s2图表20 Rubin平台全栈重构序号芯片介绍1VeraCPU88个NVIDIA定制Olympus核心采用NVIDIA空间多线程技术,支持176个线程NVLinkC2C带宽1.8TB/s系统内存1.5TB(为Grace的3倍)LPDDR5X带宽1.2TB/s2270亿个晶体管2RubinGPUNVFP4推理算力50PFLOPS,是前代Blackwell的5倍拥有3360亿晶体管,比Blackwell晶体管数量增加了1.6倍搭载第三代Transformer引擎,能根据Transformer模型需求动态调整精度3ConnectX-9网卡基于200GPAM4SerDes的800Gb/s以太网可编程RDMA与数据通路加速器通过CNSA与FIPS认证230亿个晶体管4BlueField-4DPU专为新一代AI存储平台而构建的端到端的引擎面向SmartNIC与存储处理器的800GGb/sDPU搭配ConnectX9的64核GraceCPU1260亿个晶体管5NVLink-6交换芯片连接18个计算节点,支持最多72个RubinGPU像一个整体协同运行在NVLink6架构下,每个GPU可获得3.6TB每秒的alltoall通信带宽采用400GSerDes,支持InNetworkSHARPCollectives,可在交换网络内部完成集合通信操作6Spectrum-6光以太网交换芯片512通道,每通道200Gbps,实现更高速数据传输集成台积电COOP工艺的硅光子技术配备共封装光学接口(copackagedoptics)3520亿个晶体管ES2026,爱范儿微信公众Rubin10BlackwellRubin计算吞吐量预计将达到基于Hopper100AItoken利于促进AI(三)CUDA生态构筑数据中心业务护城河2016-202550.11305年CAGR6.1728.8CAGR70.0%2023GPU2025142.4%88.3%。图表212016-2025财年英伟达营收及利润情况NVIDIACPUPPUP软件栈。此外,还包括NVIDIAAIEnterpriseDGXPU图表222016-2025财年英伟达收入结构(亿美元)CUDACUDA并CUDA-XAPI、SDKUnifiedDeviceArchitecture2006GPUGPU的并CPUCUDAGPUCUDAGPUCUDA300多600AI3700个GPUCUDA53005004成式AI由此,英伟达形成了由硬件底座(GPU)+软件(CUDA)+生态系统(开发者、应用程序、合作伙伴)+高昂转换成本共同构成的、几乎无法被短期超越的复合壁垒。飞轮一旦转动,其产生的引力是巨大的:英伟达从一家芯片公司演变为了AI时代的基础设施提供者和标准制定者。图表23CUDA的高效运转需要配合英伟达的GPU硬件VIDIA官网三、博通崛起,打造AI专用芯片领域的隐形冠军(一)博通崛起,聚焦ASIC芯片随着AI应用场景从训练转向推理,科技巨头们为降低对英伟达GPU的依赖、优化计算成本并提升效率,纷纷将目光投向专用集成电路芯片(ASIC)芯片。博通(Broadcom)公司则成为了ASIC竞赛中的隐形冠军。/安捷伦丰富的技术遗产为基础,专注于连接世界的技术。通过Broadcom、LSIBroadcomCorporationBrocadeCATechnologiesSymantec从惠普到安华高:19611999(Agilent)2005SilverLake()26.6agoehnooge收购之路:安华高(Avago)于2009年成功完成IPO。此后,公司通过并购实现快速扩张:先是于2014年收购美国传统芯片供应商LSI,进军网络和存储芯片领域;继而于2016年以370亿美元收购半导体巨头博通公司(BroadcomCorporation)。合并后,新公司主动采用了知名度更高的博通作为品牌,接力成为全球领先的Wi-Fi芯片供应商。博通2017年收购博科(Brocade),2018年收购CATechnologies,2019年收购赛门铁克(Symantec)企业安全部门,2023年收购软件巨头VMware,逐步在半导体技术和基础设施软件市场构建了强大的综合竞争力。图表24 博通发展历程图导体行业纵横转引自博通官网介绍文件业内也习惯将博通的AI专用加速芯片归类为领域专用加速器(DomainSpecificAcceeaorSASC550M、OpenAI等将与博通合作开发下一代XPU3/23DSOIC技200Gbps/ChannelSerDes自主研发,主要源于博通在芯片设计、封装技术和IP领域的深厚积累。芯片设计:半导体产业纵横指出,博通AIDSA(DomainSpecificAccelerator,领域博通为Google定制数代TPU3D/3.5DSOIC3)博通的高速互连与CPO封装技术:3.5DeXtremeDimension600012IP积累:202521.9SerDesIPAINICsIPIPCPOAPI为其差异化的XPU图表25 博通定制技术力与IP核导体行业纵横转引自博通官网介绍文件同时,博通通过收购VMware,成功切入企业级软件与云基础设施,形成了半导体+软件的双轮驱动模式,进一步增强客户黏性和业务稳定性。(二)硬件与软件协同,驱动博通业绩高速增长2016-2025132.4638.99年CAGR19.1%;17.4231.3368.6AI200(VMwareCloudFoundation,简称VCF)2702026191亿美元,受ASICAI82在半导体解决方案领域,博通的产品组合涵盖了从独立设备到复杂的子系统等多个层级的产品,包括用于连接模拟系统和数字系统的固件。在某些情况下,其产品还包括与光电或电容式传感器相连接的机械硬件。图表26 博通的半导体决方案业务构成主要终端市场主要应用关键产品供应网络数据中心、服务提供商和企业网络以太网交换和路由硅片定制硅解决方案光纤和铜缆物理层光纤发射器和接收器组件无线移动设备连接射频前端模块和滤波器Wi-Fi、蓝牙、GPS/GNSS系统级芯片定制触摸控制器电感充电专用集成电路存储服务器和存储系统SAS和RAID控制器及适配器PCIe交换机光纤通道主机总线适配器以太网网络接口控制器基于读取通道的片上系统;定制闪存控制器前置放大器宽带机顶盒和宽带接入机顶盒系统级芯片DSL/PON网关DOCSIS有线调制解调器和网络基础设施DSLAM/PON光线路终端Wi-Fi接入点系统级芯片工业工厂自动化、可再生能源和汽车电子光耦合器工业光纤工业和医疗传感器运动控制编码器和子系统发光二极管以太网物理层、交换机集成电路和相机微控制器通公司公AI23.5DAI网络领域,公司发布了第六代102Tbps,同时51.2TbpsJericho4AI图表27 2016-2025财年博通营收及利润情况图表28 2020-2025财年博通收入结构(亿元)博通的基础设施软件解决方案提供多种选择,使客户能够在数据中心、私有云和混合云环境中大规模地构建、运行、管理、连接和保护应用程序及数据。图表29 博通的基础设软件业务构成软件组合组合描述主要组合产品私有云无处不在、灵活且在本地、边缘、公共及合作伙伴云之间实现集成的云基础设施VMware云基础架构VMware云基础架构边缘VMwarevSphere基础架构专用人工智能实时恢复电信云平台Tanzu适用于应用程序开发、运营和优化的全面解决方案塔森平台塔森数据解决方案塔森云健康塔森实验室VeloCloud全面的软件定义网络解决方案,能够在互联和性能,并简化部署并降低成本SD-WAN和SASE维洛RAIN固定无线接入应用网络和安全具有横向安全功能的全面软件定义解决方案,可保护VCF应用程序流量免受恶意软件和勒索软件的侵害,并为VCF私有云提供唯一的即插即用应用程序交付和安全解决方案横向安全防火墙高级威胁保护高级负载均衡大型机软件大型机软件Software)DevOps、AIOps、安全、工作负载自动化、数据管理、基础软件解决方案以及超越代码的项目运营分析与管理工作负载自动化数据库与数据管理应用开发与测试身份与访问管理合规性与数据保护安全洞察超越代码的项目分布式软件优化业务关键服务的规划、开发和交付的解决方案ValueOpsDevOpsAIOps企业安全通过保护任何应用程序、设备或网络上的用户和数据来抵御威胁和合规风险的全面网络安全和合规解决方案端点安全网络安全信息安全应用程序安全身份安全FCSAN管理具有自主SAN功能的当前存储网络的解决方案光纤通道交换机支付安全由3D安全驱动的Arcot支付认证网络支付安全套件通公司公202593%490730VMware2025AI4pct75%32%的AI6983.2四、全球算力生态竞争加剧,AI市场或趋于异构融合(一)英伟达稳居全球半导体销售榜首人工智能浪潮正在重塑全球半导体产业的竞争格局,英伟达在2024Gartner6559图表302023-2024年全球前十大半导体供应商收入排名(单位:百万美元)artner官网(2025年4月统计)208415.8%。WSTS20254507722.4322.5%WSTS9754.60WSTS570片巨头三星、SK海力士分列第二、第三;博通则位居第四;英特尔位居第五位。图表31 WSTS全球排名前二十的半导体公榜单6氪转引自WSTS(二)ASIC之争正加速转向生态之争随着AI算力需求从通用向专用转变,开放互联+专用芯片的模式正在重塑AI算力市场的竞争格局。数据中心领域,英伟达构筑了由GPU、InfiniBand和NVLink共同组成的强大的封闭系生态。2020年英伟达完成了对Mellanox的收购,获取InfiniBand、Ethernet、SmartNIC/DPU及LinkX互连的能力,从而同时拥有了NVLink、InfiniBand、Ethernet(以太网)核心技术。英伟达构建了从图形处理器(GPU)到完整系统的全栈平台,即AI工厂,从而实现了与客户之间的平台化生态绑定。从技术架构看,英伟达擅长Scale-Up(垂直扩展),通过NVLink在机架内实现GPU间的紧密耦合。博通专长于Scale-Out(水平扩展),以Ethernet(以太网)和PCIe等开放标准为核心技术路线。其Tomahawk和Jericho系列产品在商用以太网交换领域占据主导地位,提供了SerDes、NIC、光器件和交换机等构成大型AI系统所需的粘合剂。博通半导体解决方案集团总裁CharlieKawwas表示,博通并不生产GPU,而是生产驱动XPU和HBM(高带宽内存)运行的部件。图表32 Scale-up、Scale-out、Scale-Across框架对比Scale-UpScale-OutScale-Across扩展架构垂直扩展水平扩展垂直+水平传输介质铜互连光互连光互连应用场景机柜内GPU-GPU或ASIC间互连机柜间的连接超长距离多数据中心传输传输距离小于10米多台服务器机柜间的连接跨区域、跨距离,距离远于Scale-Out传输技术NVLink、UALink、SUEInfiniBand、EthernetEthernet产业格局NVIDIA占优势博通较占优势NVIDIA率先提出技新科技巨头们联合构建开放标准。对标InfiniBand,UEC成立年AMDMetaEthernet9761.0AI/HPCInfiniBandUEC规范在包含网卡、交换机、光纤、电缆的网络堆栈的所有层级提供高性能、可扩展且可互作的解决方案,可实现无缝的多供应商集成并加速生态系统创新。对标NVLink,UALink成立:2024MetaAMDUltraAcceleratorGPU20254UALink200G1.0UALinkAI/ML200Gbps个AI英伟达入局ASIC,打造Scale-Across能力。20255NVIDIANVLinkFusionNVIDIANVIDIAAIGPU800Gb/s的吞吐量。半开放的NVLinkFusion20258NVIDIASpectrum-XGS(Scale-AcosAICoeaeSpectrum-XGS英伟达收购Groq20261200Groq资产布局LPU技术。Groq主攻LPU(LanguageProcessingUnitix,是一种专门为语言处理任务设计的硬件处理)芯片技术,采用软件定义硬件的可重构数据流架构。Groq创始人JonathanRoss曾是谷歌核心初创成员,领导开发了TPU。博通进军Scale-Up市场。20254OCPEMEA(Scale-UpSUESUE7SUENVLinkUALinkSUEUltra400ns的XPU-XPUAISUE-Lite图表33 英伟达、博通AMD框架对比扩展架构NVIDIA博通AMDScale-Up阵营NVLink(封闭架构)、NVFusion(半开放)UALink(开放架构)、SUEUALink(开放架构)解决方案NVLink平台、NVSwitch平台、NVFusion解决方案TomahawkUltra、Tomahawk6(TH6)InfinityFabric(已融入UALink)Scale-Out阵营InfiniBand阵营、拥有Ethernet产品UEC(Ethernet阵营)UEC解决方案QuantumInfiniBand平台、Spectrum-X/Spectrum以太网络交换平台Tomahawk6、Jericho4Scale-Across解决方案Spectrum-XGS推测为Jericho4技新(三)AMD完善生态建设,提升AI性能AMDCPUGPUAMD通过更高的HBMMI300X配192GBHBM35.3TB/s的峰值内存带宽;其对标的H10080GB3.35TB/s。图表34 AMD通过更的HBM内存容量和更的能效比来撬动市场MD官网2025AMD43.4122%InstinctMI350系列GPU对标英伟达Blackwell芯片,AMDMI350系列性能大幅提升。20256月,在AMDAdvancingAIAMDAMDInstinctMI350系列AIMI350FP4FP6,是上一代MI300X的435倍。MI350MI350XMI355XMI350XMI355XB2009.2和1POPS的密集P4POPsAD10B的HM3eDeepSeekR1MI350系列的推理吞吐量超越了英伟达B300288GBHBM3e14PFLOPsFP4图表35 AMDMI355X与英伟达B200对比导体产业纵横图表36 AMDMI350系列性能参数MD官网AMD2026年发布MI450GPU50000MI45020262027年及以后进一步扩大与AMD合作。20261发布了Helios机架AIAMDInstinctMI455X,相比于前代MI355X,MI455X10倍的AMD20271)2026MI400(即M455X2)027M500CA62HBM4EAMD41000AI图表37AMD发布的HeliosAI机架ES2026,新智元图表38 AMD产品发路线图ES2026,新智元AMD加强GPU软件生态建设。AMDAdvancingAI大会还发布了AMDROCm7.0软件平台,进一步缩小了与CUDA的生态差距。ROCmHIPNvidiaCUDAAMDGPUAIGPUMI300XAMDROCmROCm7AMDMI300系列加速器。与ROCm63.53倍。新版本还引入了AI张量引擎AITEROCP图表39PassMark关于服务器CPU市场份额的统计能网转引自WccftechAMD在服务器CPU领域迅速崛起。PassMark2025年AMDCPU50%2017AMD2%。(四)超大规模云厂商呈算力自主化趋势谷歌、Meta、亚马逊、微软等正通过自研芯片推进算力自主化,旨在降低外部依赖、优化成本结构,推动产业向专用化、定制化发展谷歌云:自研TPU芯片,扩大生态影响力(GoogleTPUv1)于201572025GoogleTPU250v5190万片,v6系602026TPU300TPU在2025年谷歌云大会上,谷歌发布了第七代TPU,代号Ironwood。Ironwood是谷歌迄今为止性能最强、能效最高且最节能的TPU芯片,其峰值算力达到4614TFLOPs,内存容量为192GB,带宽高达7.2Tbps,每瓦峰值算力为29.3TFLOPs,首次支持FP8计算格式,适用于复杂的推理任务如大型语言模型和混合专家模型,整体性能已经十分接近英伟达B200。谷歌TPU开始对外出售。2025年10月,AI初创公司Anthropic宣布与谷歌达成合作,将部署多达100万个谷歌的TPU芯片以训练旗下AI大模型Claude。此次扩展计划价值数百亿美元,预计算力容量将于2026年达到1GW(吉瓦)级别。此外,谷歌还与云服务提供商Fluidstack达成协议,将在纽约数据中心部署其TPU。谷歌也试图将TPU部署至CoreWeave、Crusoe等中小型云服务商的数据中心,通过技术标准输出+算力分成模式扩大TPU生态影响力。TPUv7GeminiChromeGmail、Maps、202579%155023%亿美元以上大额订单数量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论