科技:dt-q4长上下文降本带来需求扩张_第1页
科技:dt-q4长上下文降本带来需求扩张_第2页
科技:dt-q4长上下文降本带来需求扩张_第3页
科技:dt-q4长上下文降本带来需求扩张_第4页
科技:dt-q4长上下文降本带来需求扩张_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。科技华泰研究4月24日DeepSeek发布V4系列模型及论文,核心变化是围绕1Mtoken上下文的低成本实用化,对模型架构、训练流程与基础设施进行系统性升级。我们认为,市场容易将V4理解为“降本压低算力/存储需求”,但更重要的边际变化在于长上下文成本下降后,复杂Agent、多文档分析、长周期任务、在线学习等场景可用性提升,推理调用量与存储访问频次有望扩张。潜在催化剂包括国产算力Day0适配、昇腾950超节点后续放量、DeepSeek多模态与Engram路线推进,以及国内开源模型算法互通带来的产业发展。海外头部闭源模型已普遍实现1M上下文,国内模型追赶更多是能力对齐。我们认为,V4的预期差在于把“能看1M”推进到“较低成本看1M”。从分别为12元、1元、24元;在参数量高于多数国内模型的情况下,价格仍具竞争力。DeepSeek官方信息显示,受限于高端算力,Pro服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,Pro价格会明显下调。我们认为,长上下文价格曲线下移,是行业需求扩张的重要前提。V4延续DeepSeekMoE和MTP,并引入CSA/HCA混合注意力、mHC和Muon,其中CSA/HCA是长上下文效率的关键。DeepSeek-V4论文显示,在1Mtoken上下文下,V4-Pro单token推理FLOPs仅为V3.2的27%,KVcache仅为10%;V4-Flash单token推理FLOPs仅为V3.2的10%,KVcache仅为7%。市场容易据此形成算力需求下修判断,而我们更关注“杰文斯悖论”,即单价下降与用量提升共同推动总量扩张。DeepSeek-V4论文显示,V4-Pro-Max在通用知识评估中位居开源大模型前列,但仍落后Gemini-3.1-Pro等海外专有模型;推理能力超越此前开源模型,并在多项指标上匹敌闭源模型;代码Agent能力与K2.6、GLM-5.1相当。DeepSeek官方承认V4发展轨迹落后前沿尖端模型约3到6个月。我们认为,V4的产业意义不在于单点能力超越,而在于通过长上下文、推理预算分档、长程Agent推理轨迹保留和快速指令机制,使复杂任务从演示走向可规模部署,进而提升国内模型应用渗透率。1)国产AI算力与超节点。V4Day0适配昇腾、寒武纪等国产算力,对1M上下文、MoE专家并行和低精度推理提出持续硬件需求。且据DeepSeek官方信息,Pro吞吐受高端算力约束,昇腾950超节点后续放量有望改善供给、降低价格。相关标的:寒武纪、昇腾生态相关产业链公司。2)国内模型与Agent应用生态。V4未改变大模型向各行业渗透趋势,且国内开源模型算法可互通,理论上国产大模型生态会相互受益。相关标的:智谱、MiniMax。我们认为,随着长上下文成本下降、国产算力适配推进和多模态/Engram后续迭代,行业景气度与估值扩张空间有望逐步体现。风险提示:宏观经济波动,技术进步不及预期,中美竞争加剧。研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。科技计算机研究员SACNo.S0570515060003guoyali@SFCNo.BQB164+(86)2138476016研究员SACNo.S0570524090001yuanzeshi@+(86)2128972228行业走势图科技科技计算机沪深300Aug-25Dec-25Apr-26(%)745537(1)Apr-25资料来源:Wind,华泰研究免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。DeepSeek-V4发布:长上下文从能力展示走向成本竞争 3核心变化:1M上下文进入低成本实用化阶段 3模型能力:开源推理能力向闭源靠近,但并非全面超越 3价格体系:Flash普及长上下文,Pro承接高端推理与Agent任务 4算法与模型架构:Attention精细化驱动单位成本下降 6CSA/HCA:V4实现低成本长上下文的核心算法 6低精度部署:FP4、FP8与混合KV存储提升推理效率 8预训练体系:32T+tokens、多阶段上下文扩展与稳定性挑战 8后训练范式:从混合强化学习转向多教师同策略蒸馏 9基础设施与硬件映射:模型降本背后是系统工程升级 11MoE专家并行:细粒度通信-计算重叠降低互联瓶颈 推理框架:TileLang与HostCodegen提升工程效率 12存储结构:On-DiskKVCache提升SSD侧缓存价值 12产业影响与投资逻辑:降本不等于需求下降,杰文斯悖论仍适用 13需求弹性:单位token成本下降打开长程Agent应用空间 13竞争格局:国内开源算法互通,智谱、MiniMax等仍有迭代空间 13未来路线:Engram、多模态、在线学习和长程Agent值得跟踪 14投资结论 风险提示 图表1:ArtificialAnalysis模型智能排行榜(截至26年4月25日) 3图表2:国内外主流模型厂商旗舰模型对比 5图表3:DeepSeek-V4系列的整体架构 6图表4:CSA(CompressedSparseAttention)的核心架构 6图表5:HCA(HeavilyCompressedAttention)的核心架构 7图表6:DeepSeek-V4系列相比V3.2实现了显著降低的推理FLOPs和KVcache大小 7图表7:DeepSeek-V4三种推理模式的比较 9图表8:DeepSeek-V4系列的历史推理内容管理思路 10图表9:辅助任务的快速指令特殊标记 10图表10:DeepSeek-V4专家并行方案示意图 图表11:DeepSeek-V4的KVcache布局示意图。 12图表12:大模型的杰文斯悖论 13图表13:部分DeepSeek离职人员的去向 14图表14:Engram架构图 14免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。DeepSeek-V4的主线是1M上下文实用化。4月24日DeepSeek发布V4系列模型及论文(《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,后文统一简称DeepSeek-V4论文核心并不是单纯追求模型更大或benchmark更高,而是围绕百万token上下文、推理成本下降、Agent长程任务和test-timescaling搭建一套模型架构与系统工程方案。随着复杂Agent工作流、大规模跨文档分析、长周期推理任务发展,模型不仅需要具备更长上下文窗口,也需要以更低成本、更高效率处理超长序列。我们认为,V4的产业意义在于把长上下文从功能参数推进到成本参数,后续影响将体现在推理价格、Agent任务可用性、存储结构和国产算力适配多个环节。1M上下文正在成为头部模型竞争门槛。OpenAIGPT-5.4/GPT-5.4Pro为1.05M上下文,GPT-4.1系列主打1M上下文;GoogleGemini3.1ProPreview、Gemini3.1Flash-LitePreview、Gemini3ProPreview均为1,048,576输入限制,Gemini2.5系列仍列为1M级上下文;AnthropicClaudeOpus4.7、Opus4.6和Sonnet4.6均列入full1Mtokencontextwindow。国内方面,DeepSeek-V4-Pro/V4-Flash、Qwen3.6-Plus、小米MiMo-V2-Pro及MiMo-V2.5/MiMoOmni系列均支持1M上下文,智谱也曾发布GLM-4-9B-Chat-1M。我们认为,市场共识是“1M已成为能力标配”,预期差在于谁能以更低单位成本支撑高频使用。V4缩小了开源与闭源模型差距。DeepSeek-V4论文显示,DeepSeek-V4-Pro-Max在通用世界知识评测中位居开源大语言模型前列,但仍落后Gemini-3.1-Pro等领先专有模型。在推理能力方面,V4-Pro-Max超越此前开源模型,并在多项推理基准上匹敌头部闭源模型;V4-Flash-Max在代码和数学推理任务上超越此前开源模型K2.6-Thinking。DeepSeek-V4论文还强调,V4系列在编程竞赛中表现突出,通过推理token扩展,V4-Pro-Max在部分标准推理基准中优于GPT-5.2和Gemini-3.0-Pro,但仍略逊于GPT-5.4和Gemini-3.1-Pro。我们认为,V4的合理定位是“开源阵营明显进步,闭源差距收窄”。Agent能力是V4的重要应用方向。DeepSeek-V4论文显示,DeepSeek-V4系列在多项评估中展现出较强Agent能力,在代码智能体任务中,V4-Pro取得与K2.6和GLM-5.1相当的成果;与此同时,DeepSeek-V4论文也指出这些开源模型在部分Agent能力上仍落后于闭源竞品。我们认为,代码Agent的竞争不是单一模型参数竞争,而是数据、工具调用、反馈闭环和工程系统共同驱动;V4的意义在于提供了长上下文和较低成本的底座,使代码Agent、多轮调试和工程任务更容易形成规模化闭环。资料来源:ArtificialAnalysis、华泰研究免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。价格体系:Flash普及长上下文,Pro承接高端推理与Agent任务V4在国内模型价格带中具备性价比的辨识度。DeepSeek-V4-Flash采用MoE、CSA/HCA上下文256K,输入约6.9元、输出约29元;GLM-5.1上下文约200K,0-32K输入6元、输出24元,32K-200K输入8元、输出28元;MiniMax-M2.输出8.4元;Qwen3.6-Plus在256K-1M分档输入8元、输出48元;MiMo-V2-Pro在256K-1M分档输入约14.5元、输出约43.5元。我们认为,V4以较高参数规模提供相对低价长上下文,可能对国内模型价格体系形成牵引。Flash与Pro体现能力和成本分层。DeepSeek-V4论文指出,在基于知识的任务上,DeepSeek-V4-Flash与DeepSeek-V4-Pro之间存在明显性能差距,原因在于更大的参数量有助于模型在预训练阶段保留更多知识。V4-Flash总参数284B、激活参数13B,更强调低成本长上下文;V4-Pro总参数1.6T、激活参数49B,更面向复杂reasoning、Agent和长上下文高端任务。这种分层与海外模型的Pro、Flash、Lite结构一致,体现模型厂商对成能否将1M上下文带入高频场景。Pro吞吐约束反映高端国产算力仍稀缺。据DeepSeek官方信息,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。这一表述说明,模型侧降本并不等于算力需求消失,反而暴露高端推理资源仍是供给约束。V4-Pro拥有1.6T总参数、49B激活参数,服务端需要在长上下文、推理预算、并发吞吐和响应延迟之间做权衡。我们认为,若昇腾950超节点放量带来供给改善,Pro价格下降可能进一步刺激长上下文和Agent任务调用,国产算力链条仍是V4产业映射中的重要方向。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。地区厂商最新主力模型架构/定位总参数激活参数上下文输入价缓存命中输出价海外OpenAIGPT-5.5最新frontier;coding/professionalwork;文本+图像输入,文本输出未公开未公开1M/128Kout$5;长上下文$10$0.5;长上下文$1$30;长上下文$45海外OpenAIGPT-5.5Pro更高推理算力;复杂任务高精度档未公开未公开1M/128Kout$30;长上下文$60—$180;长上下文$270海外OpenAIGPT-5.4旗舰级coding/professionalwork;比5.5便宜未公开未公开1.05M/128Kout$2.5;长上下文$5$0.25;长上下文$0.5$15;长上下文$22.5海外GoogleGemini3.1ProPreview多模态reasoning;文本、图Agent/coding未公开未公开1M/64Kout≤200ĸ$2;>200K$4≤200ĸ$0.2;>200K$0.4≤200ĸ$12;>200K$18海外GoogleGemini3FlashPreviewGemini3系列Flash档;速度/成本更低未公开未公开1M/64Kout$0.5—$3海外GoogleGemini3.1Flash-LitePreview高吞吐低成本;多模态轻量档未公开未公开1M/64Kout文本/图像/视频$0.25;音频$0.5文本/图像/视频$0.025$1.5海外AnthropicClaudeOpus4.7最新Opus;复杂推理/agenticcoding高端档未公开未公开1M/128Kout$5$0.5;5mincachewrite$6.25$25海外AnthropicClaudeSonnet4.6速度与智能平衡;coding/agent主力档未公开未公开1M/64Kout$3$0.3;5mincachewrite$3.75$15海外AnthropicClaudeHaiku4.5快速低价小模型未公开未公开200K/64Kout$1$0.1;5mincachewrite$1.25$5DeepSeekV4-FlashMoE;CSA/HCA;1M长上下文;低成本主力284B1M/384Kout0.2元2元DeepSeekV4-ProMoE;更强reasoning/Agent/长上下文高端档1.6T49B1M/384Kout24元KimiKimiK2.6MoE;原生多模态;coding/Agent/swarmorchestration32B256K约6.9元约29元智谱/Z.AIGLM-5.1MoE;长程Agent/codingengineering744B40B约200K0-32K6元;32K-200K8元有缓存折扣0-32K24元;32K-200K28元MiniMaxMiniMax-M2.7MoE;softwareengineering/Agent;小激活参数230B204.8K2.1元命中缓存10%折扣8.4元QwenQwen3.6-Plus通用/Agent/1M长上下文;效果、速度、成本均衡未公开未公开≤256ĸ2元;256K-1M8元支持上下文缓存折扣≤256ĸ12元;256K-1M48元小米MiMo-V2-ProMoE;Agent/coding;1M上下文>1T42B1M/131Kout≤256ĸ约7.25元;256K-1M约14.5元≤256ĸ约1.45元;256K-1M约2.9元≤256ĸ约21.75元;256K-1M约43.5元资料来源:各公司官网、华泰研究免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。V4架构是在V3基础上的系统升级。与DeepSeek-V3相比,V4系列保留DeepSeekMoE框架和MTP多token预测策略,并引入多项关键升级:CSA/HCA混合注意力用于提升长上下文效率,mHC用于增强传统残差连接并提升深层训练稳定性,Muonoptimizer用于加速收敛并改善训练稳定性。概括来说,DeepSeekMoE负责模型容量,MTP延续预测效率设计,CSA/HCA负责长上下文效率,mHC负责深层信号传播稳定性,Muon负责训练收敛与稳定。我们认为,V4并非单点算法创新,而是模型结构、训练稳定性与推理效率的组合优化。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究CSA承担压缩加检索功能。CSA即CompressedSparseAttention,会先沿序列维度压缩KVcache,再执行DeepSeekSparseAttention。具体而言,CSA将每m个token的KVcache压缩为一个条目,再让每个querytoken关注前k个压缩后的KV条目;相较DeepSeek-V3.2,V4选择更小的attentiontop-k值,以提升短文本和中等长度文本效率。直观上,CSA不是让每个token直接查看完整百万token历史,而是先把长上下文压缩为块状表示,再通过稀疏选择机制挑选相关KV条目。我们认为,CSA类似为长文档建立压缩索引,是V4实现低成本长上下文的关键环节。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。HCA承担低成本全局记忆功能。HCA即HeavilyCompressedAttention,目标是实现更高压缩率。它将每m'个token的KVcache合并为一个条目,且m'远大于m,但HCA并不采用稀疏注意力,而是在重度压缩后的KV条目上继续做denseattention。由此看,CSA更像“压缩+检索”,用于从长上下文中定位关键信息;HCA更像“高压缩全局记忆”,用于以较低成本保留远距离背景信息。CSA与HCA交错使用,使模型既能在百万token中定位重要内容,也能维持全局上下文感知。我们认为,混合注意力是V4将长上下文可用性与成本约束同时纳入的核心设计。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究V4显著降低1M上下文单位开销。通过混合CSA/HCA以及计算和存储精度优化,V4系列相比DeepSeek-V3.2显著降低推理FLOPs并压缩KVcache规模。DeepSeek-V4论文显示,在1Mtoken上下文场景中,即使V4-Pro激活参数更多,其单tokenFLOPs按等效FP8FLOPs衡量也仅为DeepSeek-V3.2的27%,KVcache大小仅为V3.2的10%;V4-Flash效率进一步提升,单tokenFLOPs仅为V3.2的10%,KVcache仅为V3.2的7%。我们认为,V4的重点不是能否支持1M,而是能否以相对可负担成本支持1M。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。低精度部署提升推理效率。为实现推理加速和内存节省,V4在后训练阶段引入量化感知训练QAT,使模型适应量化带来的精度损失。对于V4系列,路由专家参数采用FP4精度,专家权重是GPU内存占用的重要来源,因此FP4量化有助于减少内存占用。DeepSeek-V4论文指出,虽然FP4×FP8运算在当前硬件上的峰值FLOPs与FP8×FP8相同,但在未来硬件上,FP4×FP8理论上可以实现约1/3效率提升。Lightningindexer内部注意力计算在FP4精度下执行,RL训练推理和部署阶段在不涉及反向传播时直接使用真实FP4量化权重。我们认为,FP4原生支持将成为未来AI芯片竞争的观察点。混合KV存储兼顾精度与容量。V4在KV条目存储方面采用混合格式:旋转位置编码RoPE相关维度使用BF16精度,其余维度使用FP8精度。相较纯BF16存储,这种混合表示法将KVcache大小减少近一半。该设计说明,V4在工程上并未无差别压低所有精度,而是对位置信息和普通维度进行区分,以在精度稳定性和存储效率之间取得平衡。我们认为,低精度不仅是芯片算力问题,也涉及模型训练、推理框架、编译器和算子库协同,相关软硬件生态成熟度将影响V4类模型的真实部署效果。V4预训练数据规模超过32Ttokens。DeepSeek-V4训练分为预训练和后训练两部分,且两部分均被强化。预训练语料库包含超过32Ttokens,涵盖数学内容、代码、网页、长文档以及其他高质量类别;其中V4-Flash使用约32Ttokens训练,V4-Pro使用约33Ttokens训练。V4-Flash强调低成本长上下文。DeepSeek-V4-Flash的Transformer层数为43,hiddendimension为4096。前两层使用纯slidingwindowattention,后续层中CSA和HCA交错使用;attentiontop-k选择512个KV条目,HCA压缩率m'设置为128。每个MoE层包含1个共享专家和256个路由专家,每个专家中间hiddendimension为2048,每个token激活6个专家。MTP深度设为1,SWA附加分支窗口nwin为128。V4-Flash总计284B参数,每个token激活13B参数,训练从4K序列长度开始,逐步扩展到16K、64K和1M,并在前1Ttokens使用denseattention预热,64K时引入sparseattention。我们认为,Flash是V4长上下文普及的成本锚。V4-Pro面向高端推理与Agent任务。DeepSeek-V4-Pro的Transformer层数为61,hiddendimension为7168;前两层使用HCA,后续层CSA与HCA交错使用。attentiontop-k设置为1024,HCA压缩率m'为128,SWA附加分支窗口nwin为128。每个MoE层包含1个共享专家和384个路由专家,每个专家中间hiddendimension为3072,每个token激活6个专家。V4-Pro总参数1.6T,每个token激活49B参数,训练同样从4K序列长度逐步扩展到16K、64K和1M;相比Flash,Pro的denseattention阶段起始更长,稀疏注意力引入策略与Flash相同。我们认为,Pro定位更适合高价值推理、Agent和长任务场景。训练稳定性本身构成技术壁垒。DeepSeek-V4论文明确提到,训练万亿参数MoE模型存在显著稳定性挑战,V4在训练过程中也遇到明显稳定性问题。简单回滚可以暂时恢复训练状态,但无法防止lossspike再次出现。经验表明,lossspike始终与MoE层中的异常值相关,而routing机制本身似乎加剧这些异常值产生。V4试图从两个维度解决问题:1)打破routing引起的恶性循环。2)直接抑制异常值。DeepSeek-V4论文发现两种实用技巧能够维持训练稳定性,但其完整理论理解仍是开放问题。我们认为,这种工程化经验正是大模型训练的重要壁垒之一。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。V4后训练采用专家训练加OPD。DeepSeek-V4系列后训练流程采用两阶段范式:先独立培育领域专家模型,再通过同策略蒸馏进行统一模型整合。尽管训练流程在较大程度上沿用V3.2模式,但V4进行了关键方法替换,即混合强化学习阶段被策略蒸馏替代。领域专家模型通过调整V3.2训练流程开发,每个模型依次经历初始微调阶段,以及后续由领域特定提示和奖励信号引导的强化学习优化。我们认为,这一路径比简单模型合并更适合整合多能力,也更符合Agent任务对多技能统一调用的需求。领域专家覆盖数学、编程和Agent。初始阶段,V4针对数学、编程、智能体及指令遵循等目标领域,分别独立训练专家模型。基础模型先在高质量、领域特定数据上进行监督微调SFT,以建立基础能力;随后采用GRPO,即GroupRelativePolicyOptimization分组相对策略优化,进行强化学习。该方法由DeepSeek-R1提出,并保持与先前研究高度一致的超参数;奖励模型根据特定成功标准定制,引导模型向领域期望行为优化。该阶段产生一组多样化专业专家模型,可理解为一系列擅长不同领域的R1模型。我们认为,领域专家是V4统一模型能力提升的中间资产。推理预算分档增强商业化灵活性。DeepSeek-V4论文指出,模型在推理任务上的表现根本取决于投入的计算量。因此,V4在不同强化学习配置下训练不同专家模型,以促进开发针对不同推理能力进行优化的模型。V4-Pro和V4-Flash均支持三种特定推理投入模式;每种模式在训练中应用不同长度惩罚和上下文窗口,导致推理输出token长度存在差异。我们认为,推理预算分档有助于模型服务在成本和效果之间进行产品化定价,也便于面向普通问答、复杂推理和长程Agent提供不同服务层级。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究多教师同策略蒸馏OPD整合十余个教师模型。通过专门微调与强化学习训练出多个领域专家模型后,V4采用多教师同策略蒸馏OPD作为主要技术,将专家能力整合进统一模型。OPD的实现方式是让学生模型从自身生成轨迹上,学习教师模型输出分布,使统一策略能选择性学习与当前任务上下文相关的专家,例如数学推理任务对齐数学专家,编程任务对齐编程专家。V4采用涵盖多个领域的十余个教师模型蒸馏单个学生模型,并支持全词汇表策略内蒸馏,可处理教师模型数量近乎无上限的场景,每个教师模型可能包含万亿级参数。我们认为,OPD是V4后训练方法中的关键产业信号。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。长程Agent保留推理历史。与DeepSeek-V3.2不同,V3.2在每次新用户轮次中丢弃思考轨迹;V4系列在工具调用场景中保留所有轮次的完整推理历史,包括跨越用户消息边界的内容,使模型能够在长周期Agent任务中维持连贯、累积的思维链。在通用对话场景中,V4仍保留原始策略:当新用户消息到来时,先前轮次推理内容会被丢弃,以保持上下文简洁。我们认为,V4并非在所有场景中无差别保留推理轨迹,而是区分长程Agent和普通聊天,体现出对成本与效果的动态平衡。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究快速指令降低聊天场景冗余开销。在聊天机器人场景中,生成回复前通常需要执行判断是否触发网络搜索、意图识别等辅助任务,传统方式多由独立小模型处理。但小模型无法复用现有KVcache,因此需要冗余prefill。V4引入快速指令,将一组专用特殊token直接附加到输入序列中,每个token对应一个辅助任务。通过直接复用已经计算的KVcache,该机制避免冗余prefill,并允许生成搜索查询、判断权威性和领域等任务并行执行。我们认为,快速指令体现出V4对真实产品延迟的关注,对高频AI应用的用户体验改善具有意义。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究V4能力依赖模型与Infra协同。DeepSeek-V4论文强调,DeepSeek-V4的能力并不只来自模型结构,也来自广泛的基础设施优化。基础设施方面,V4设计并实现了针对MoE模块的单一融合kernel,用于完全重叠计算、通信和内存访问;同时采用TileLang这一领域特定语言DSL,在开发生产力与运行效率之间取得平衡。推理框架方面,V4设计异构KVcache结构,并结合磁盘存储策略,实现共享前缀复用。我们认为,V4体现出AI模型竞争从“算法论文”向“算法+系统工程+硬件适配”的综合竞争迁移。细粒度EP隐藏MoE通信瓶颈。混合专家模型MoE可以通过专家并行EP加速,但EP需要复杂节点间通信,并对互连带宽和延迟提出较高要求。V4提出细粒度EP方案,将通信与计算融合到单个流水线kernel中。每个MoE层主要分为两个通信密集阶段Dispatch和Combine,以及两个计算密集阶段Linear-1和Linear-2。DeepSeek-V4论文性能分析显示,单个MoE层内通信总时间少于计算总时间,因此在通信与计算融合后,计算仍是主要瓶颈,系统可容忍较低互连带宽。我们认为,该设计降低了对单纯高带宽互连的依赖,有利于国产超节点和互连系统参与推理部署。Wave调度放大通信计算重叠收益。为进一步降低互连带宽需求并放大重叠计算收益,V4引入更细粒度的专家分区方案,将专家分割并调度为多个wave。每个wave包含一小部分专家,一旦某个wave内的所有专家完成通信,计算即可立即开始,无需等待其他专家。在稳定状态下,当前wave计算、下一个wave的token传输,以及已完成专家的结果发送可以并行。我们认为,这一方案本质上是通过更细粒度调度把等待时间切碎并隐藏在计算下方,对推理服务的端到端吞吐和延迟均有现实意义。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究此外,V4提出关注计算-通信比率。DeepSeek-V4论文向硬件供应商提出建议,核心是关注计算-通信比率,而非仅关注带宽。其逻辑是,实现计算与通信完全重叠,取决于C/B是否低于计算量与通信量之比。(C=Computethroughput,峰值计算吞吐。B=Interconnectbandwidth,互联带宽)对于V4-Pro,每个token-expertpair需要6hdFLOPs(其中h=hiddensize,也就是模型隐状态维度。d=expertFFN的中间维度包括SwiGLUgate、upprojection和downprojection;但仅需3hbytes通信,包括FP8dispatch和BF16combine。因此该关系可简化为C/B≤2d=6144FLOPs/Byte,即每GB/s互连带宽足以支撑约6.1TFLOP/s计算通信需求。我们认为,这一指标为评估国产AI芯片MoE推理适配提供了更细化框架。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。TileLang提高kernel开发效率。V4采用TileLang开发融合kernel,以取代大量细粒度算子,并以较小工程投入实现较高性能。TileLang由北大团队主导发起并与MSRA等机构合作发展,主要用于开发GEMM、DequantGEMM、FlashAttention、LinearAttention、MLAdecode等kernel,使工程师不必完全手写复杂CUDA,也能写出接近底层性能的kernel。在NVIDIAGPU上,TileLang仍依赖CUDA生态,但其编译流程可从DSL降至IR,再生成C、CUDA、HIP、LLVM等目标代码,并支持多GPU后端扩展。我们认为,TileLang降低了高性能算子开发门槛,有助于模型迭代速度提升。HostCodegen缓解CPU编排开销。随着加速器性能提升,CPU侧编排开销变得更加突出。对于小而高度优化的kernel,固定主机开销容易成为利用率和吞吐瓶颈,其中一个常见来源是主机端逻辑如运行时合约检查为保持灵活性通常由Python编写,从而产生每次调用固定成本。V4通过HostCodegen将大部分主机端逻辑移至生成的主机代码中,减少Python路径上的固定调用成本。训练框架方面,V4在V3基础设施上继续优化,包括Muon高效实现、混合ZeRObucket分配,以及mHC的低成本、内存高效实现。我们认为,推理系统优化将成为大模型降本的重要变量。存储结构:On-DiskKVCache提升SSD侧缓存V4采用异构KVcache管理。DeepSeek-V4推理框架很大程度继承V3设计,但在KVcache管理方面存在差异。由于V4混合注意力机制产生多种类型KV条目,且这些条目具有不同KVcache大小和更新规则,不同层之间KVcache大小也并不相同,因此V4设计了定制KVcache布局,并采用替代式cache管理机制。我们认为,长上下文推理已不再是单纯显存容量问题,而是涉及分层存储、缓存复用、数据布局和请求调度的系统工程问题。On-DiskKVCache用于消除重复prefill。V4采用基于磁盘的KVcache存储机制,以消除共享前缀请求中的重复prefill计算。针对CSA/HCA中的压缩KV条目,以及slidingwindowattention即SWA中的未压缩KV条目,DeepSeek-V4论文设计了独立存储管理方案。对于CSA和HCA,系统会直接将所有压缩KV条目存储到磁盘,当请求命中已存储前缀时,系统读取并复用对应压缩KV条目,直到后一个完整压缩块。对于SWAKV条目,由于未经压缩且存在于每一层,数据量约为压缩CSA/HCAKV条目的8倍,V4提出三种策略管理磁盘上的SWAKV条目。我们认为,SSD在长上下文推理服务中的价值有望提升。资料来源:《DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》,DeepSeek(2026)、华泰研究磁盘KV缓存不是单位存储需求上升。On-DiskKVCache会增加SSD侧缓存重要性,但不意味着V4单位KV存储需求上升。相反,V4通过CSA/HCA已经大幅压缩单位1M上下文下的KVcache,更准确的理解是将重复prefill计算转化为磁盘KV缓存,用SSD空间换GPU计算和首token延迟。这一区别对产业链判断很重要:V4降低单位KV占用,但引入更复杂的缓存层级和复用需求。我们认为,未来推理系统可能更重视GPU显存、HBM、SSD、网络和调度软件的协同,而非单点硬件堆叠。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。单位token成本下降是需求扩张前提。DeepSeek-V4论文指出,单token计算量和存储量有较多优化,但我们认为杰文斯悖论依然适用,即单价下降乘以用量提升带来总量提升。V4的CSA/HCA、FP4、混合KV存储和On-DiskKVCache降低了长上下文单位成本,这可能促使过去因成本过高而难以高频使用的Agent长任务、跨文档分析、长周期推理和在线学习进入可用区间。我们认为,市场若只看到单位成本下降,容易低估需求弹性;真正需要关注的是长上下文成本曲线下降后,新任务形态是否加速出现。资料来源:华泰研究预测国内模型厂商短期承压但长期仍有空间。对于智谱、MiniMax等国内模型厂商,V4发布可能带来价格和能力对标压力,短期市场情绪偏弱;但大模型渗透各行各业趋势没有改变,国内开源模型算法可以互通,均有较大进步空间。我们认为,国内模型竞争将从单一通用能力转向长上下文、Agent、垂直数据、推理成本和应用闭环竞争;具备行业场景、数据飞轮和工程服务能力的厂商,仍有机会在细分市场形成差异化。国内开源算法能够互通,实现开源生态共同繁荣。V4在Muon配置上参考了Kimi相关工作,这说明中国开源模型之间算法可以互相借鉴和进步;智谱GLM-5也使用了DeepSeek的DSA稀疏算法,来提升推理效率;智谱、MiniMax等国内厂商后续也有可能跟进DeepSeek算法,取得更好的模型效果。V4发布后,智谱、MiniMax短期股价或情绪承压,但大模型渗透各行各业趋势并未改变。我们认为,国内模型竞争不应简单理解为零和格局,开源算法扩散会压低行业边际研发成本,并推动模型能力整体进步,后续有利于应用渗透与算力需求。人员流动未改变DeepSeek研发连续性。DeepSeek-V4论文中的Research&Engineering名单共列269个名字或条目,其中10人已离开团队,离开比例约10/269≈3.7%,并没有“大批离职”。离开人员包括BingxuanWang、ChongRuan、DayaGuo、HaoranWei、HaoweiZhang、JunRan、JunlongLi、KezhaoHuang、Y.Q.Wang、ZipengZhang。我们认为,人员流动在AI行业属于常态,更重要的是团队是否仍能持续产出系统性模型和工程能力;从DeepSeek-V4论文看,DeepSeek仍具备较强组织化研发能力。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。人名公开报道里的去向说明DayaGuo/郭达雅字节跳动Seed加入ByteDanceSeed,偏Agent/大模型方向。ChongRuan/阮翀元戎启行DeepRoute.ai为DeepSeek前核心多模态研究员,加入智能驾驶方案公司DeepRoute.ai元戎启行。BingxuanWang/王炳宣腾讯被腾讯姚顺雨团队挖走。资料来源:晚点LatePost、36氪、华泰研究Engram代表以存代算方向。DeepSeek-V4论文在未来规划中提到,除MoE和稀疏注意力架构外,DeepSeek还将积极探索模型在新维度上的稀疏性,例如更稀疏的嵌入模块,以在不损害能力的前提下进一步提高计算和内存效率。“更稀疏的嵌入模块”对应为今年DeepSeek提出的Engram,即以存代算路线:通过更稀疏、更可检索的记忆或嵌入机制,把部分知识或记忆从高成本计算路径中拆出,从而提升计算和内存效率。我们认为,Engram虽未在V4中落地,但若后续实现,将进一步改变算力、存储和模型记忆之间的分工。资料来源:《ConditionalMemoryviaScalableLookup》,DeepSeek(2026)、华泰研究多模态缺席低于部分预期。V4此次没有推出多模态能力,但DeepSeek-V4论文提到DeepSeek正在致力于为模型引入多模态能力,因此多模态后续仍可期待。考虑到KimiK2.6、GoogleGemini系列、小米MiMo等模型均将多模态、Agent和长上下文作为重要方向,V4当前更像是先解决长上下文和推理效率底座,再补齐多模态输入输出能力。我们认为,V4的阶段性缺口不会改变多模态长期方向,但可能给国内其他多模态模型留下竞争窗口。在线学习与长任务是长上下文延伸。DeepSeek-V4论文提出,高效处理超长序列的能力将解锁test-timescaling的下一个前沿,为深入研究长期任务铺平道路,并为未来在线学习等范式奠定基础。同时,DeepSeek将持续研究低延迟架构和系统技术,使长上下文部署与交互更具响应性;DeepSeek-V4论文也强调长视野、多轮次代理任务的重要性和实际价值,并表示将在这一方向持续迭代探索。我们认为,1M上下文不是终点,而是长程Agent、在线学习和持续记忆系统的基础设施入口。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。基于以上分析,建议关注以下投资主线:1)国产AI算力与超节点方向。DeepSeek-V4在1M上下文、MoE专家并行、低精度推理和Pro吞吐约束上均指向高端推理算力需求,且据DeepSeek官方信息,昇腾950超节点批量上市后Pro价格有望下降。相关标的:寒武纪、海光信息、昇腾生态相关产业链公司(华丰科技、航天电器、卡莱特、杰华特、泰嘉股份、深圳华强、盛合晶微、恒铭达等)。2)国内模型与Agent应用生态方向。V4未改变大模型向各行业渗透趋势,且开源模型算法可互通,国产模型之间将共同繁荣。相关标的:智谱、MiniMax。宏观经济波动。若宏观经济波动,可能对AI产业资本投入产生负面影响,导致AI产业变革、新技术落地节奏、整体行业增长不及预期。技术进步不及预期。若AI技术、大模型技术、AI应用进展不及预期,或对行业落地情况产生不利影响。中美竞争加剧。中美竞争加剧,或影响国内算力基础设施布局,导致国内AI大模型技术迭代速度放缓。研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。分析师声明本人,郭雅丽、袁泽世,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。请注意,标*的人员并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。一般声明及披露本报告由华泰证券股份有限公司或其关联机构制作,华泰证券股份有限公司和其关联机构统称为“华泰证券”(华泰证券股份有限公司已具备中国证监会批准的证券投资咨询业务资格)。本报告所载资料是仅供接收人的严格保密资料。本报告仅供华泰证券及其客户和其关联机构使用。华泰证券不因接收人收到本报告而视其为客户。本报告基于华泰证券认为可靠的、已公开的信息编制,但华泰证券对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰证券可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰证券不保证本报告所含信息保持在最新状态。华泰证券对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。华泰证券(华泰证券(美国)有限公司除外)不是FINRA的注册会员,其研究分析师亦没有注册为FINRA的研究分析师/不具有FINRA分析师的注册资格。华泰证券力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰证券及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰证券不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰证券及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰证券可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰证券的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰证券没有将此意见及建议向报告所有接收者进行更新的义务。华泰证券的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰证券及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰证券违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为华泰证券所有。未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯华泰证券版权。如征得华泰证券同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。华泰证券保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为华泰证券的商标、服务标记及标记。中国香港本报告由华泰证券股份有限公司或其关联机构制作,在香港由华泰金融控股(香港)有限公司向符合《证券及期货条例》及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。香港-重要监管披露•华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。•寒武纪(688256CH)、海光信息(688041CH)、MiniMax(100HK)、智谱(2513HK华泰金融控股(香港)有限公司、其子公司和/或其关联公司在本报告发布日担任标的公司证券做市商或者证券流动性提供者。•有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页.hk/stock_disclosure其他信息请参见下方“美国-重要监管披露”。在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据《1934年证券交易法》(修订版)第15a-6条规定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论