科技行业再谈NV的下一个Mellanox：GroqLPU的整合

上传人：b*** IP属地：北京上传时间：2026-04-05 格式：DOCX 页数：9 大小：544.59KB 积分：12 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026112GroqAIGroq2020Mellanox4QCEOIP与核心人才体系内化，以弥补产品的结构性短板。Mellanox的InfiniBandNVLinkNVSwitch互联体系一样，GroqLPUGPU产品路线图，Feynman可能先推出一款独立的机架级U推理集群（或命名为X，作为能够快速落地的阶段RubinRubinUltraGPU机架并行部署运行。通过将面向低延CUDAGPU软件栈，英伟达获得的并非仅AgenticAI的执行范式，加速其规模化落地。AIAI下半场定义新的计算架构标准。我们也认为英伟达与Grq的合作2025PhysicalAI2026AgenticEra的开启之年，其核心特征在于计算范式向“以用户交互点为核心的低延迟、确定性执行”发生GPUAI部署场景时，我们判断英伟达已在软硬件架构层面同时掌握两种计算范式的主导权，建立对其他芯片厂商的先发优势。Q1：英伟达将LPU集成至其GPU平台的战略逻辑是什么？我们认为，GroqMellanox200亿美元的交易，2020GPUAI基础设施的关键拼图；此次GroqIPAgenticAI我们认为，英伟达现有GPU架构在训练及大批量推理场景下已高度优化。然而，新一代AgenticAIAI需要将复杂目标拆解为多步推理路径，在实时交互的关键链路上完成内部Chain-of-Thought（CoT）循环，并同步调AI协同执行。在此类场景中，我们认为下游客户决定芯片采购的核心指标不再只是峰值吞吐能力，对于尾延迟的确定性表现也同样重要。图表1：GroqLPU搭载230MBSRAM，带宽高达80TB/s，面向AgenticAI时代低延迟、高性能推理场景的专用设计Groq官网、华泰研究Agentic技术栈（HeterogeneousAgentictackGUIFctorGr的确定性架构则构建专门面向实时c推理的“fxr半场（训练”确立主导地位的基础上，英伟达正前瞻性布局I竞争的“下半场（tcInfce，ntc推理”能力。我们认为，当工作负载重心明确向实时、低批量推理迁移之际，英伟达已提前完成架构卡位。从技术层面看，GroqLPU230MB片上SRAM80TB/sAgenticAIJonathanRossIP，更包括支撑确定性Feynman架构起对公司未来产品路线形成深Groq理两大核心场景，从而提升平台整体的系统级竞争壁垒。在此背景下，超大规模云厂商推ASIC的必要性与边际收益或将下降。Q2Fenman或为LPU的整合载体？其预计部署节奏如何？市场普遍预期，英伟达将在GTC6上推出一款新的U集群产品（或命名为X该系统预计将是一种机架级推理平台（rk-cefcesstem，在M9B上集成576GroqLPURealScale互联进行连接。在系统层面，我LPXRubinRubinUltraGPUNVLinkFusion实GPU+LPUGPU负责高吞吐训练任务，而LPULPX短期快速落地的过渡性产品，而非英伟达的最终架构形态。从更长期战略来看，公司更可MellanoxLPUGPULPUGPU计算架构深度整合（nativesconuligck。第一，制程条件已具备必要基础FeynmanLPUPower（BacksideorDlvr，将电源布线从芯片正面迁移至背面。我们认为，这将显著释放正面布线Die-to-DieSoIC混合键3DDieLPUSRAMChiplet所带来的封装复杂性。换言之，新节点的晶体管密度进步，为异构叠加结构提供面积与功耗层面的缓冲空间。3DSoICFace-to-FaceSoIC结LPU（thmlschFeynman可能是首个具2028TSMCIntegratedMicrochannelCoolinginSilicon（IMC-Si）等新一代散热技术的商业化节奏基本同步。IMC-Si通过在硅GPULPU的垂直集成提供关键基础设施支持。SRAMLPUchiplet本身也将成为下一代架构中的关键模块。LPUChiplet3nm4nm等成熟SRAMbit-cell在先进制程下的缩放收益已明显递减，在首代整合阶段，SRAM阵列，在成本控制与良率稳定性方面更具现实优势。因此，我们认为，LPUSRAMDie将采用差异化制程路径，本质上是一种AMDV-Cache策略具有相似逻SRAM缩放技术与制程优化进一步推进，LPUChiplet有望在后续世代逐步向更先进工艺节点迁移。第二，系统级协同设计需要完整时间窗口Die的良率优化。这一过程本质上是系统级18-24RubinRubinUltra，在时间维度上或均难以承担首代整合任务，Feynman则成为现实可行的最早落点。第三，工作负载成熟度与硬件节奏相匹配LPUAgenticAICoTAI协同执行之上。但我们认为，从产业现实看，这类工作负载仍处于商业化早期阶段，无论是模型能力1-2Femn预计于8年落地的时间窗口，AgenticAI从技术验证阶段迈向企业规模化应用的拐点。因此，硬件节奏与工作负载成熟度之间的匹配，更像是一项有意为之的架构规划安排，而非时间上的偶然重合。图表2：英伟达GPU路线图和台积电制程路线图英伟达官网、台积电官网、华泰研究图表3：台积电CoWoS示意图、Feynman预计将采用台积电A16制程和SPR背部供电技术台积电官网、华泰研究Q3：Feynman+LPU的封装架构如何设计？如何影响HBM和存储层级？我们预计，Feynman+LPUGPU2.5DSoIC（SystemonIntegratedChips）等技术实现的Chiplet架构。在现有的Blackwell与Rubin2.5DCoWoSDieHBMFeynman+LPUSRAMLPUChipletFeynmanDieTSVDie-to-Die堆叠预计仍维持现有环绕式布局，部署于封装基板周边，其位置与当前布局或基本一致。A16FeynmanDieGPU核心逻辑、CoreNVLink控制单元等关键功能模块。A16所引入的背面供电技术，从而释放3-4nmLPUSoIC技术与主Die80TB/s。这一结构设计支撑LPU的确定性执行机制及权重常驻计算模型（weight-stationaryexecutionm，是其实时推理性能优势得以实现的底层基础。HBMLPUSRAM所处位置完全不同，解决的瓶颈亦不相同，二者并非替代关系，而是功能互补。我们认为，LPUSRAM的作用将更接近于一个超80TB/s。图表4：台积电SoIC架构图表5：AMDV-Cache架构注：a为系统级芯片（SoC）方案；b、c、dSoIC技术的不同芯粒（Chiplet）划分与再集成方案台积电官网、华泰研究

AMD官网、华泰研究Q4：LPURealScale互连扩展性约束是什么？英伟达如何在整合方案中规避这一限制？Grq的cae互连体系，本质上是一种基于“准同步（sscros”确定性Chip-to-Chip（LPU-to-LPU）互连方案。其核心特征在于：所有跨芯片的数据流动，均在编译阶段由编译器提前完成调度，运行时不存在仲裁机制（runtimearbitration）或动态路径选择（dmcrtgcss。这意味着，系统在执行过程中无需进行实时调度决策，也不会出现访存不确定性或尾延迟波动。硬件所执行的，是一条在编译阶段已完成验证的指令流（e-ltedstrctnstrem。然而，我们认为，这一特性本身也构成其扩展能力的上限。编译器能够在全系统范围内维持数据到达时间的确定性，前提在于网络规模与拓扑复杂度处于可控范围之内。一旦芯片数量持续扩张，数据传输所需的跳数增加、路径长度分化加剧，跨全局维持严格的时间一Groq当前的576颗芯片，构成统一的确定性互连域。当系统规模突破该上限后，网络直径随之拉长、数据跳数增加，原本支撑确定性调度的全局时间一致性将难以维持，从而削弱其性能优势的稳定性与可扩展性。这并非实现层面的缺陷，而是确定性执行架构在系统级扩展上的结构性约束。换言之，该体系天然不适合支撑跨机架、跨千颗级规模的互连扩展。RealScale的扩展瓶颈，而是通过架构重LPUFeynmanRealScaleLPU与FeynmandieSoIC混合键合实现直接互连。在该LPU-to-LPUNVLink实现，与现有架构路径保持一致。2020Mellanox的逻辑具有高度相似性。当年，英伟达并未MellanoxSRAM结构与确定性执行编译体FeynmanGroq的确定性推理NVLink实现规模化扩展，从而兼具两种架构优势。图表6：RealScale互联架构对比传统互联对比，基于GroqTopology的576芯片确定性准同步系统设计Groq官网、华泰研究Q5：LPU的整合将在哪些具体工作负载场景下体现性能优势？AIAgentic时代核心工作负载。从性能约束角度看，LPU的优势集中体现在“带宽与时延”成为核心瓶颈的场景，而非算力吞吐本身成为限制因素的场景。我们认为，LPU所针对的核心约束之一，在于自回归解码（autoregressivedecoding）阶段（特别是低时延情况）生成过程中，大语言模型需以严格可通过多序列并行执行，将频繁的内存访问成本在不同请求之间进行摊销，从而维持较高的计算单元利用率。然而，在低批量、对延迟高Agentic的并行能力无法充分释放，HBM3E8TB/s带宽条件下，计算核心在每一轮权重调取之间均存在显著的空闲周期，内存带宽成为实际瓶颈。我们认为，LPU通过片上SRAM实现约80TB/sAgentic规Chain-of-Thought推理过程。在此背景下，带宽差异将直接体现在响应时延上，进而决定用户在交互层面的体验，是近乎即时的反馈，还是明显迟缓的体验。AIAICopilotAI实现稳定交互体验AI基于编译器预调度的确定性执行模型，在运行时不存在动态仲裁或路径选择，因此显著降低时延抖动风险。由于所有指令在编译阶段已完成调度，其执行时间具有高度可预测性，不随系统负载变化而出现明显波动。我们认为，这种无论系统负载如何变化，其执行时间均高度可预测的特征，对语音类实时交互场景尤为重要。LPUAI部署GPU优化的大规模批量并行计算模式并不完全契合。GPU在大批次场景下能够充分发挥并行度优势，但在BatchSize1架构在不同并发会话Agentic并发、全天候运行”特征。在此类场景中，决定产品体验的关键指标并非平均时延，而是LPU架构的核心优势所在。Q6：Groq的确定性LPU执行模型将如何与英伟达的CUDA软件生态体系整合？我们认为，若仅实现芯片层面的物理整合，而未完成软件栈的深度融合，其对开发者的实CUDAGroqWare的体系衔接。然而，两者在执行范式上存在根本差异，前者强调运行时动态调度，后者依赖编译期确定性调度，这一理念差异本身即构成整合过程中的核心工程挑战。我们判断，整合路径大概率将分为三个层级逐步推进，且每一层的架构深度依次递进。第一层：编译器与运行时层我们预计，英伟达需要将GroqWare的静态调度能力融入TensorRT以及更广泛的CUDA推GroqWareBatchSize1整的单请求推理执行计划，而非依赖运行时通过批量合并提升硬件利用率，有望以一种专Feynman（executionfe，由sT图优化器自动识别低批量、受内存带宽约束的解码算子，并将其调LPUGPUHBM进行数据访问。第二层：硬件抽象层我们预计Feynman将在CUDALPU作为独立的存储与执行层级。也就是说，LPU不再只是封装内部的物理单元，而是在软件模型中被正式抽象为一个具备CUDASharedMemory、L2CacheHBM分层调用逻辑一致，不同层级在性能特征上存在差异，但均纳入统一地址AgenticLPUPrefillGPU计算路径并访HBMCUDAMemoryAPI第三层：模型执行层CUDA执行图框架的扩展，使其能够在特定子图中引入静态调度机制。CUDAGraphsGPU操作，并在运行CPUGroqWare的编译期调度模式具有内FeynmanCUDAGraphLPUGPU运算仍维持原有的动态执行模式。对于开发者而言，整体编程模型依然是CUDA执行并不会改变接口层逻辑，而是作为编译器层面的实现机制，在后台完成调度与映射。AgenticAI推理范式演进过程LPU能力内嵌于CUDAGroqWare编程模型，英伟达得以延续统一的开CUDAAgenticFeynmanLPU所带来的性能优势，无需额外迁移路径或重构现有软件栈。投资逻辑：英伟达布局IgenicI时代技术标准AgenticAIAI2025AI2026年或为“tcI转向“延迟关键的实时推理阶段”时，英伟达在训练与推理两大范式中均握有顶尖架构，AI芯片领域的领先优势。风险提示技术落地缓慢：公司的生产技术推进和产品落地可能达不到预期，或影响营收及利润。芯片需求不及预期：市场的芯片需求规模可能不及预期，影响行业营收及利润。图表7：重点公司推荐一览表最新收盘价目标价市值(百万)EPS(元)PE(倍)股票名称股票代码投资评级(当地币种)(当地币种)(当地币种)20242025E 2027E20242025E2026E2027E英伟达(NVIDIA)NVDAUS买入 183.04310.004,447,1401.332.99 4.819.40137.6561.1338.0219.47Bloomberg 202634日图表8：重点推荐公司最新观点股票名称最新观点英伟达(NVDAUS)

2/25FY26Q44%；但因电话会缺乏新增信息，涨幅后回落至持平。FY26Q4营收681（同比VA（下同659650Non-GAAPEPS1.621.52美元。623亿美元（环比+22%，同比+75%91%），GB2/3。Networking110亿美元（环比+34%，同比+263%18%）NVLink、Spectrum-XInfiniBandAI37亿美元、汽车营6PhysicalAI落地加速，FY2660FY27Q1780亿美元（±2%），高于预期的715AIGTC。重申“买入”。CapexAIFY27-28E11.2/2.3%4035/5134FY29E6052亿美元。FY27-28ENon-GAAP10.8/2.8%2284/2891FY29ENon-GAAP3389310美元（280美元）30x33xFY27EPE，重申“买入”。风险提示：技术落地缓慢、中美贸易摩擦、需求不及预期等。报告发布日期：2026年02月26日点击下载全文：英伟达(NVIDI

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

科技行业再谈NV的下一个Mellanox：GroqLPU的整合

文档简介

温馨提示

最新文档

评论

科技行业再谈NV的下一个Mellanox：GroqLPU的整合

文档简介

温馨提示

最新文档

评论

相关文档