DS-V4长上下文降本带来需求扩张

上传人：b*** IP属地：北京上传时间：2026-05-24 格式：DOCX 页数：14 大小：792.03KB 积分：15 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

正文目录DeepSeek-V4发布：长上下文从能力展示走向成本竞争 3核心变化：1M上下文进入低成本实用化阶段 3模型能力：开源推理能力向闭源靠近，但并非全面超越 3价格体系：Flash普及长上下文，Pro承接高端推理与Agent任务 4算法与模型架构：Attention精细化驱动单位成本下降 6CSA/HCA：V4实现低成本长上下文的核心算法 6低精度部署：FP4、FP8与混合KV存储提升推理效率 8预训练体系：32T+tokens、多阶段上下文扩展与稳定性挑战 8后训练范式：从混合强化学习转向多教师同策略蒸馏 9基础设施与硬件映射：模型降本背后是系统工程升级 MoE专家并行：细粒度通信-计算重叠降低互联瓶颈推理框架：TileLang与HostCodegen提升工程效率 12存储结构：On-DiskKVCache提升SSD侧缓存价值 12产业影响与投资逻辑：降本不等于需求下降，杰文斯悖论仍适用 13需求弹性：单位token成本下降打开长程Agent应用空间 13竞争格局：国内开源算法互通，智谱、MiniMax等仍有迭代空间 13未来路线：Engram、多模态、在线学习和长程Agent值得跟踪 14投资结论 15风险提示 15图表目录图表1：ArtificialAnalysis模型智能排行榜（截至26年4月25日） 3图表2：国内外主流模型厂商旗舰模型对比 5图表3：DeepSeek-V4系列的整体架构 6图表4：CSA（CompressedSparseAttention）的核心架构 6图表5：HCA（HeavilyCompressedAttention）的核心架构 7图表6：DeepSeek-V4系列相比V3.2实现了显著降低的推理FLOPs和KVcache大小 7图表7：DeepSeek-V4三种推理模式的比较 9图表8：DeepSeek-V4系列的历史推理内容管理思路 10图表9：辅助任务的快速指令特殊标记 10图表10：DeepSeek-V4专家并行方案示意图图表11：DeepSeek-V4的KVcache布局示意图。 12图表12：大模型的杰文斯悖论 13图表13：部分DeepSeek离职人员的去向 14图表14：Engram架构图 14DeepSeek-V4发布：长上下文从能力展示走向成本竞争核心变化：1M上下文进入低成本实用化阶段DeepSeek-V41M424DeepSeekV4系列模型及论文（《DeepSeek-V4:HighlyEfficientMillion-TokenContextIntelligence》，后文统DeepSeek-V4论文）benchmark更高，而是围tokenAgenttest-timescaling搭建一套模型架Agent模型不仅需要具备更长上下文窗口，也需要以更低成本、更高效率处理超长序列。我们认为，V4格、Agent任务可用性、存储结构和国产算力适配多个环节。1M上下文正在成为头部模型竞争门槛。OpenAIGPT-5.4/GPT-5.4Pro1.05M上下文，GPT-4.11M上下文；GoogleGemini3.1ProPreview、Gemini3.1Flash-LitePreview、Gemini3ProPreview1,048,576输入限制，Gemini2.51M级ClaudeOpus4.7Opus4.6Sonnet4.6full1Mtokencontextow。国内方面，DeepSeek-V4-Pro/V4-Flash、Qwen3.6-PlusMiMo-V2-Pro及MiMo-V2.5/MiMoOmni1MGLM-4-9B-Chat-1M。我们1M模型能力：开源推理能力向闭源靠近，但并非全面超越V4DeepSeek-V4论文显示，DeepSeek-V4-Pro-MaxGemini-3.1-Pro等领先专有模型。在推理能力方面，V4-Pro-Max超越此前开源模型，并在多项推理基准上匹敌头部闭源模型；V4-Flash-MaxK2.6-Thinking。DeepSeek-V4论文还强调，V4token扩展，V4-Pro-Max在部分标准推理基准中优于G-2和Gmn--rG-4和Gmn--r。我们认为，V4的合理定位是“开源阵营明显进步，闭源差距收窄”。AgentV4DeepSeek-V4系列在多项评Agent能力，在代码智能体任务中，V4-ProK2.6GLM-5.1相当DeepSeek-V4Agent能力上仍落后于Agent的竞争不是单一模型参数竞争，而是数据、工具调用、反馈闭环和工程系统共同驱动；V4图表1：ArtificialAnalysis模型智能排行榜（截至26年4月25日）ArtificialAnalysis、华泰研究价格体系：Flash普及长上下文，Pro承接高端推理与Agent任务V4DeepSeek-V4-FlashMoECSA/HCA1M10.22reasoning、gent214mi2.6256K6.929元；GLM-5.1200K，0-32K6元、248282.1元、输出4Qen3.-Pus在-M分档输入88MM-V-ro在26-14.543.5元。我们认为，V4以较高参数规模提供相对低价长上下文，可能对国内模型价格体系形成牵引。Flash与Pro体现能力和成本分层。DeepSeek-V4论文指出，在基于知识的任务上，DeepSeek-V4-FlashDeepSeek-V4-ProV4-Flash284B1.6T49Breasoning、Agent和长Pro、Flash、Lite结构一致，体现模型厂商对成4系列的商业化价值不只在roFash1M上下文带入高频场景。Pro吞吐约束反映高端国产算力仍稀缺。DeepSeek官方信息，受限于高端算力，目前Pro950超节点批量上市后，Pro价格会大幅下调。1.6T49B950超节点放量带来供给改善，Pro价格下降可AgentV4产业映射中的重要方向。图表2：国内外主流模型厂商旗舰模型对比地区厂商最新主力模型架构/定位总参数激活参数上下文输入价缓存命中输出价海外OpenAIGPT-5.5最新frontier；coding/professionalwork；文本+图像输入，文本输出未公开未公开1M/128K10$0.5；长上下文$1$30；长上下文$45海外OpenAIGPT-5.5Pro度档未公开未公开1M/128K$30；长上下文—$180；长上下文$270海外OpenAIGPT-5.4旗舰级coding/professionalwork；比5.5便宜未公开未公开1.05M/128K$0.25；长上下文$0.5$15；长上下文$22.5海外GoogleGemini3.1ProPreviewreasoningPDF输入；Agent/coding未公开未公开1M/64K≤200K≤200K$0.2；>200K≤200K$12；>200K海外GoogleGemini3FlashPreviewGemini3系列Flash档；速度/成本更低未公开未公开1M/64K$0.5—$3海外GoogleGemini 3.1Flash-LitePreview未公开未公开1M/64K文本/图像/视频$0.5文本/图像/视频$0.025$1.5海外AnthropicClaudeOpus4.7最新Opus；复杂推理/agenticcoding高端档未公开未公开1M/128K$5$0.5；5mincachewrite$25海外AnthropicClaudeSonnet4.6速度与智能平衡；coding/agent主力档未公开未公开1M/64K$3$0.3；5mincachewrite$15海外AnthropicClaudeHaiku4.5快速低价小模型未公开未公开200K/$1$0.1；5mincachewrite$5国内DeepSeekV4-FlashMoE；CSA/HCA；1M长上下文；低成本主力284B13B1M/384K1元0.2元2元国内DeepSeekV4-ProEesoing/Aet/长上下文高端档1.6T49B1M/384K12元1元24元国内KimiKimiK2.6MoE；原生多模态；coding/Agent/swarmorchestration1T32B256K约6.9元约1.16元约29元国内智谱/Z.AIGLM-5.1MoE；长程Agent/codingengineering744B40B约200K0-32K6元；32K-200K8元有缓存折扣0-32K2428元国内MiniMaxMiniMax-M2.7MoE；softwareengineering/Agent；小激活参数230B10B204.8K2.1元命中缓存10%折扣8.4元国内阿里 QwenQwen3.6-Plus/Agent/1M长上下文；效果、速度、成本均衡未公开未公开1M≤256K2元；256K-1M8元支持上下文缓存折扣≤256K1248元国内小米MiMo-V2-Pro/上下文>1T42B1M/131K≤256K7.25元；256K-1M约14.5元≤256K约1.45256K-1M约2.9≤256K约21.75元；256K-1M约43.5元各公司官网、华泰研究算法与模型架构：Attention精细化驱动单位成本下降V4V3基础上的系统升级。DeepSeek-V3相比，V4DeepSeekMoEMTPtoken预测策略，并引入多项关键升级：CSA/HCA混合注意力用于提升长optimizer速收敛并改善训练稳定性。概括来说，DeepSeekMoE负责模型容量，MTP延续预测效率设计，CSA/HCA负责长上下文效率，mHC负责深层信号传播稳定性，Muon负责训练收V4图表3：DeepSeek-V4系列的整体架构DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究CSA/HCA：V4实现低成本长上下文的核心算法CSA承担压缩加检索功能。CSACompressedSparseAttention，会先沿序列维度压缩KVcacheDeepSeekSparseAttention。具体而言，CSAmtokenKVcache压缩为一个条目，再让每个querytoken关注前k个压缩后的KV条目；相较DeepSeek-V3.2，V4attentiontop-k值，以提升短文本和中等长度文本效率。直观上，CSAtokentoken历史，而是先把长上下文压缩为KV条目。我们认为，CSA类似为长文档建立压V4实现低成本长上下文的关键环节。图表4CSA（CompressedSparseAttention）的核心架构DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究HCA承担低成本全局记忆功能。HCAHeavilyCompressedAttention，目标是实现更高m'tokenKVcachem'mHCA并不KVdenseattention。由此看，CSA更像“压缩+检索”，用于从长上下文中定位关键信息；HCA更像“高压缩全局记忆”，用于以较低成本保留远距离背景信息。CSAHCAV4将长上下文可用性与成本约束同时纳入的核心设计。图表5：HCA（HeavilyCompressedAttention）的核心架构DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究V41MCSA/HCA系列DeepSeek-V3.2FLOPsKVcache规模。DeepSeek-V4论文显1MtokenV4-ProtokenFLOPsFP8FLOPsDeepSeek-V3.227%，KVcacheV3.210%；V4-FlashtokenFLOPsV3.210%，KVcacheV3.27%。我们认为，V41M1M。图表6：DeepSeek-V4系列相比V3.2实现了显著降低的推理FLOPs和KVcache大小DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究低精度部署：FP4、FP8与混合KV存储提升推理效率在后训练阶段引入量化感知训V4FP4精度，GPUFP4DeepSeek-V4FP4×FP8FLOPsFP8×FP8相同，但在未1/3Lightningindexer内部注意力计算FP4精度下执行，RLFP4量化权重。我们认为，FP4AI芯片竞争的观察点。KVV4KVRoPEBF16FP8BF16存储，这种混合表示法KVcache大小减少近一半。该设计说明，V4在工程上并未无差别压低所有精度，而是对位置信息和普通维度进行区分，以在精度稳定性和存储效率之间取得平衡。我们认为，低精度不仅是芯片算力问题，也涉及模型训练、推理框架、编译器和算子库协同，相关软V4类模型的真实部署效果。预训练体系：32T+tokens、多阶段上下文扩展与稳定性挑战V432Ttokens。DeepSeek-V4训练分为预训练和后训练两部分，且32Ttokens，涵盖数学内容、代码、网页、长文-Fash使用约3Ttkes-ro使用约3Ttkes训练。V4-Flash强调低成本长上下文。DeepSeek-V4-Flash的Transformer层数为43，hiddendimension为4096。前两层使用纯sliding owattention，后续层中CSA和HCA交错使用；attentiontop-k选择512个KV条目压缩率m'设置为128每个MoE层包含1个共享专家和256个路由专家每个专家中间hiddendimension为每个token激活6个专家。MTP深度设为1，SWA附加分支窗口nwin为128。V4-Flash总计284B参数，每个token激活13B参数，训练从4K序列长度开始，逐步扩展到16K、64K和1M，并在前Ttkes使用dnseatention预热K时引入sprseatetion我们认为Fash是V4长上下文普及的成本锚。-Po面向高端推理与gentDeeek--ro的rafomer层数为hddendimension7168HCACSAHCA交错使用。attentiontop-k设1024，HCAm'128，SWAnwin128MoE1384hiddendimension3072token激6V4-Protoken49B4K序列长度逐16K64K1MFlash，ProdenseattentionFlash相同。我们认为，Pro定位更适合高价值推理、Agent和长任务场景。训练稳定性本身构成技术壁垒。DeepSeek-V4MoE模型存在显著稳定性挑战，V4lossspike再次出现。经验表明，lossspikeMoE层中的异常值routingV4routingDeepSeek-V4论文发现两种实用技巧能够维持训练稳定性，但其完整理论理解仍是开放问题。我们认为，这种工程化经验正是大模型训练的重要壁垒之一。后训练范式：从混合强化学习转向多教师同策略蒸馏V4OPD。DeepSeek-V4系列后训练流程采用两阶段范式：先独立培育领域专家模型，再通过同策略蒸馏进行统一模型整合。尽管训练流程在较大程度上沿V3.2V4V3.2定提示和奖励信号引导的强化学习优化。我们认为，这一路径比简单模型合并更适合整合Agent任务对多技能统一调用的需求。Agent。初始阶段，V4目标领域，分别独立训练专家模型。基础模型先在高质量、领域特定数据上进行监督微调SFTGRPOGroupRelativePolicyOptimization分组相DeepSeek-R1超参数；奖励模型根据特定成功标准定制，引导模型向领域期望行为优化。该阶段产生一R1V4统一模型能力提升的中间资产。DeepSeek-V4V4V4-ProV4-Flashtoken认为，推理预算分档有助于模型服务在成本和效果之间进行产品化定价，也便于面向普通Agent提供不同服务层级。图表7：DeepSeek-V4三种推理模式的比较DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究OPD通过专门微调与强化学习训练出多个领域专家模型后，V4OPDOPD选择性学习与当前任务上下文相关的专家，例如数学推理任务对齐数学专家，编程任务对齐编程专家。V4我们认为，OPDV4后训练方法中的关键产业信号。Agent保留推理历史。DeepSeek-V3.2不同，V3.2在每次新用户轮次中丢弃思考轨迹；V4AgentV4Agent天，体现出对成本与效果的动态平衡。图表8：DeepSeek-V4系列的历史推理内容管理思路DeepSeek-V4TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究快速指令降低聊天场景冗余开销。在聊天机器人场景中，生成回复前通常需要执行判断是否触发网络搜索、意图识别等辅助任务，传统方式多由独立小模型处理。但小模型无法复KVcacheprefillV4token直接附tokenKVcache，该机制避免冗余prfV4AI应用的用户体验改善具有意义。图表9：辅助任务的快速指令特殊标记DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究基础设施与硬件映射：模型降本背后是系统工程升级MoE专家并行：细粒度通信-计算重叠降低互联瓶颈V4Infra协同。DeepSeek-V4论文强调，DeepSeek-V4的能力并不只来自模型结构，也来自广泛的基础设施优化。基础设施方面，V4MoE模kernelTileLang这一领域DSL，在开发生产力与运行效率之间取得平衡。推理框架方面，V4KVcacheAI模型竞争从“算法论文”向“算法系统工程+硬件适配”的综合竞争迁移。EPMoEMoEEPEP需要复杂节点间通信，并对互连带宽和延迟提出较高要求。V4EPkernelMoEDispatch和CombneLnar-1和Lnear-2DeeSek-4论文性能分析显示，MoE系统可容忍较低互连带宽。我们认为，该设计降低了对单纯高带宽互连的依赖，有利于国产超节点和互连系统参与推理部署。Wave调度放大通信计算重叠收益。为进一步降低互连带宽需求并放大重叠计算收益，V4wavewave包含一小部分wavewavewavetoken以并行。我们认为，这一方案本质上是通过更细粒度调度把等待时间切碎并隐藏在计算下方，对推理服务的端到端吞吐和延迟均有现实意义。图表10：DeepSeek-V4专家并行方案示意图DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究此外，V4提出关注计算-通信比率。DeepSeek-V4论文向硬件供应商提出建议，核心是关注计算-C/B是（CComputeBInterconnectbandwidth，互联带宽）V4-Protoken-expertpair6hdFLOPs（h=hiddendexpertFFN的中间维度SwiGLUgate、upprojectiondownprojection3hbytesFP8dispatchBF16combineC/B≤2d=6144FLOPs/ByteGB/s互连带宽足以支6.1TFLOP/sAIMoE推理适配提供了更细化框架。推理框架：TileLang与HostCodegen提升工程效率TileLangkernelV4TileLangkernel，以取代大量细粒度算TileLangMSRA等机构合GEMMDequantGEMMFlashAttentionLinearAttentionMLAdecodekernelCUDAkernelNVIDIAGPU上，TileLangCUDADSLIR，再生C、CUDA、HIP、GPU后端扩展。我们认为，TileLang降低了高性能算子开发门槛，有助于模型迭代速度提升。HostCodegenCPU编排开销。随着加速器性能提升，CPU侧编排开销变得更加突出。对于小而高度优化的kernel，固定主机开销容易成为利用率和吞吐瓶颈，其中一个常PythonV4通过HostCodegen将大部分主机端逻辑移至生成的主机代码中，减少PythonV3MuonZeRObucketmHC的低成本、内存高效实现。我们认为，推理系统优化将成为大模型降本的重要变量。存储结构：On-DiskKVCache提升SSD侧缓存价值V4采用异构KVcacheDeepSeek-V4推理框架很大程度继承V3KVcacheV4KVcacheKVcacheV4设计了定制KVcachecacheOn-DiskKVCacheprefill。V4KVcache存储机制，以消prefillCSA/HCAKVslidingowattentionSWAKV论文设计了独立存储管理方CSAKVKVSWAKV条目，CSA/HCAKV8倍，V4提出三种策略管理磁盘上的WAVD在长上下文推理服务中的价值有望提升。图表11：DeepSeek-V4的KVcache布局示意图。DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence》，DeepSeek（2026）、华泰研究KV缓存不是单位存储需求上升。On-DiskKVCacheSSD侧缓存重要性，但V4KVCSA/HCA1M上下KVprefillKVSSD空间换GPUtokenKVGPU显存、HBM、SSD、网络和调度软件的协同，而非单点硬件堆叠。产业影响与投资逻辑：降本不等于需求下降，杰文斯悖论仍适用需求弹性：单位token成本下降打开长程Agent应用空间tokenDeepSeek-V4token计算量和存储量有较多优化，但我们认为杰文斯悖论依然适用，即单价下降乘以用量提升带来总量提升。V4CSA/HCAFP4KVOn-DiskKVCacheAgent线学习进入可用区间。我们认为，市场若只看到单位成本下降，容易低估需求弹性；真正需要关注的是长上下文成本曲线下降后，新任务形态是否加速出现。图表12：大模型的杰文斯悖论华泰研究预测竞争格局：国内开源算法互通，智谱、MiniMax等仍有迭代空间国内模型厂商短期承压但长期仍有空间。MiniMax发布可能带来价格和能力对标压力，短期市场情绪偏弱；但大模型渗透各行各业趋势没有改变，国内开源模型算法可以互通，均有较大进步空间。我们认为，国内模型竞争将从单一通用Agent国内开源算法能够互通，实现开源生态共同繁荣。V4MuonKimi相关工GLM-5DeepSeek的DSA稀疏算法，来提升推理效率；智谱、MiniMax等国内厂商后续也有可能跟进DeepSeekV4MiniMax短期股价或情绪承压，开源算法扩散会压低行业边际研发成本，并推动模型能力整体进步，后续有利于应用渗透与算力需求。DeepSeekDeepSeek-V4Research&Engineering

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

DS-V4长上下文降本带来需求扩张

文档简介

温馨提示

最新文档

评论

DS-V4长上下文降本带来需求扩张

文档简介

温馨提示

最新文档

评论

相关文档