版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
得低比特方案不只是理论节省显存,而是真正进入了可训练、可rollout、可部署的主干流程。后训练专家独立训练+on-policydistillationRL,agentinstruction-followingon-policydistillationspecializationconsolidation。基础设施层面创新:MoEkernelexpertwaveMoEDeepSeekNVIDIAGPUsHUAWEIAscendNPUsEP1.50-1.73RL)1.96DeepSeek-V432tokenDeepSeek-V4-Pro-Max(DeepSeek-V4-Pro的最高推理强度模式在核心任务上重新定义了开SOTA,性能超越其前代模型。DeepSeek-V4token的上下文设置中,DeepSeek-V4-Pro的单token推理计算量(FLOPs)仅为DeepSeek-V3.2的27,KV缓存仅为其10。这使得模型能够常规性支持百万token的上下文,从而让长时序任务更加可行。图1:DeepSeek-V4通过更少计算量实现开源SOTADeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligenceCSA+HCA:Transformer100tokentoken。因为每个tokentokenKVcacheattention的二次复杂度是超长上下文和长推理过程的核心瓶颈。CSA(CompressedSparseAttention,压缩稀疏注意力)主要有以下效果:CopreseKV100tokntoknKCSA100万KVtokenKVCSAmtokenKVcacheentry1/m;Sprs(稀疏选择:压缩后当前toeninexe,top-kattentionindexerKVtop-kselector选择一部分压缩KV进入后续核心attentionLightningIndexerforSparseSelection。但是单纯压缩会丢失细节模型如果只看压缩摘要可能看不到精细的局部关系DeepSeek额外加了一个sliding ow滑动窗口注意力它会让当前token仍然直接看最近的一小段未压缩token。语言模型生成时,最近几个token往往特别重要,例如ThecapitalofFranceis...,生成下一个词时最近的“Franceis”非常关键,不能只靠压缩摘要。HCAHeailyComresedAttntintoknKV块。HCA使mCSAm′≫mHCAmtokenKVentry,attention。CSAtop-kindexertop-kHCAKVcache,而且可以保留很长范围的全局信息,但压缩DeepSeek-V4CSAHCAHCACSA图2:CSA以及HCA架构DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence通过压缩的架构,模型不再受困于计算资源的限制,在长上下文任务方面展现出极强的可用性。在CodeforcesV4-Pro-Max3206RatingOpenAIGPT-5.4MRCRDeepSeek-V4-ProGemini-3.1-Pro,但仍落ClaudeOpus4.6128K128K100tokenDeepSeek-V4-Pro图3:DeepSeek-V4长上下文任务的表现DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligencemHC:大模型层数很深时,每一层都在不断改写信息,如果层与层之间的信息传递太随意,信号可能越传越乱、越传越多,训练就不稳定。Transformer果。而通常是下一层输入=原来的输入+当前层算出来的新信息(x_l+1}=x_l+F_lx_l),如果模型很深,信息一层一层传下去容易丢失。Residualconnectionresidual一点旧信息+少加一点新信息、不同信息内容重新混合或让前面某些层的信息绕过中间层传得更远,此residual(x_l)的模式难以满足模型需求。Hyper-ConnectionsresidualstreamHCresidualstreamdn_hc×dTransformerattention/MoEhiddensize,而是在层与层之间额外维护residualresidualHCHCmHCManfol-CostrinedHypr-Cnnetio(HCreidul信mHCB_ldoublystochasticmatrix(双随机矩阵1、每一列1mHCTransformerblockresidualconnectionsblockCSA/HCAattentionDeepSeekMoEmHCresidual(residualB_l(residualC_l(决定当前层输出的新信residual。HCX_{l+1B_lX_lC_lF_l(A_lX_lresidualresidualTransformermHCresidualresidualresidualmixingmatrixDeepSeek-V4MoEtokenmHC图4:DeepSeek-V4长上下文任务的表现DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligenceMuonoptimizer:Muonoptimizeroptimizer(优化器。AdamWMuonMoEMuonorthogonalization,将模型整理成更均衡、更稳定的更新方向。Muon1G_t=2momntuM_t=μM_{-1}+G_3用Neserovtrck加上当前梯度趋势(μM_t+G_t,不只看现在的位置,还预判一下按当前惯性继续走会怎么样;4)做HybidNewon-chuzO'_t=HybidNwtoSchlz(...)5)(O_t=O'_t×sqr(ma(n,))×所以要把它缩放到合适的尺度;6)真正更新权重(W_t=W_t-1}×(1-ηλ)-ηO_t,包含防止参数越来越大(权重衰减、沿着优化后的方向推进(按学习率更新。Muon里的正交化不是直接做SVD(奇异值分解,把一个矩阵强行变成正交矩阵、做正交归一化,因为大TransformerSVD,训练计算量指数级增长,显存、算力崩溃,导致无法训练。DeepSeekNewton-Schulziterations,近似把矩阵变成更正交的形式,用多轮快速计算,快速把奇异值(矩阵在各个方向上的缩放强度)1。DeepSeek-V4embeddingpredictionheadmHCstaticbiasesgatingfactorsRMSNormAdamWMuonMoE这些参数更适合做正交化更新。但有些参数比较敏感,这些参数如果用Muon会导致不稳定,因此DeepSeek-V4V4-Pro1.6T49BV4-Flash284B13Btoken32T1Mtrillion-parameterMoE图5:Muon以更低成本体现出更好训练效果DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligenceFP4量化感知训练(QAT:DeepSeek-V4FP4FP4FP4,也不容易掉性能,同时还能省显存、提速度。FP44bitQAT全称是Quatiztio-AwreTranin(/后训练过程中就加入FP4量化模拟,使模型适应误差,部署时性能更稳。DeepSeek-V4DeepSeek-V4MoECSAKVQuery-KeyFP4,目的在于,DeepSeek-V4MoEtokenexpertweightsGPUmemoryoccupancyFP4CSAKVindexertokencompressedkeytop-kQK100tokenKVIndexerQKDeepSeek-V4CSAindexerQKactivationsFP4attentionscorecomputation。Indxer算完QKDeeSek把这些indxscrs从FP32降到BF1topkselctr达到2×speedup,同时还能保留99.7的KVentriesrecall,即基本不影响计算结果。对MoEexpertweightsoptimizerFP32masterweightsFP32。之FP32masterweightsFP4FP8FP8DeepSeek-V4FP8trainingframeworkFP4FP8FP8forwardlossbackwardpassforwardpassFP8weightsFP2materweihtFP2maserweihtsFP4FP8做forard,backwardFP32masterweightsFP4FP32inferenceRLrolloutbackwardFP4quantizedweights。FP32masterweights,但推理时不需要更新参数,所以可以直FP4后训练专家独立训练+on-policydistillationDeepSeek-V4Agent练通常先进行pretranin(预训练pos-trinig后训练,后训练的目标是把基础模型变成真正可用的助手模型,提升模型的回答问题、遵守指令、AgentDeepSeek-V3.2mixedRLOn-PolicyDistillation,简OPD。传统做法是拿一个基础模型,然后把所有任务混在一起训练,训练数据里同时放数学、编程、Agent(SF(RRLDeepSeek-V4expertmodelexpertmodelMoESFTrewardRLRLDeepSeek-V4GRPO(轻量化RL算法,用特定领域的rewrdmodl或成功标准来优化模型,使每个专家在自己的领域更强。在后续阶段,DeepSeek-V4distillation(蒸馏on-oliydisilltionuniiedmodlstdenteahermodelsreverseKLlossteachermodelsstudenton-policydistillationlogits图6:DeepSeek-V4-Pro-Max与闭源、开源模型的综合对比DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence系统与基础设施层面的创新:DeepSeek-V4tokenAgent/RL1Mtoken、MoERLMoEtokenrouterGPU上,系统就要先把tokn发送到对应GPU(Disatc,专家算完后把结果发回来进行Comine。普通做法中是一步一步做,Dispatch(token、Linear-1(专家第一段矩阵计算、ActvatoSwiLLinar-Cobin时,通信的时候计算单元空闲,计算的时候网络闲置,GPU/NPUDeepSeek-V4pipelinekernel,让通信、计算、访存尽量同时发生。DeepSeek-V4expertwaveMoEwavesWave1Wave1Wave2Wave0wavewavetoken这MoEDeepSeekNVIDIAGPUsHUAWEIAscendNPUsEP1.50-1.73RL)1.96图7:MegaMoE与其他MoE优化的比较DeepSeek-V4:TowardsHighlyEfficientMillion-TokenContextIntelligence模型表现与国产算力适配:DeepSeek-V4ArtificialAnalysis10GDPval-AA(工作任务评测Terminal-BenchHard(终端操作智能体评测、SciCode(科学计算代码评测、AA-LCR(长上下文推理评测、Humanity'sLastExam(前沿学术能力测评)等。DeepSeek-V4ProMaxArtificialAnalysisIntelligenceIndex52GLM、MiniMax60图8:DeepSeek-V4智能测评结果ArtificialAnalysis在当前主流应用场景测评中,DeepSeek-V4达到全球顶尖表现。在ArtificialAnalysisCodingIndex中,DeepSeek-V4ProMax47Terminal-BenchHardSciCodeDeepSeek-V4SOTAClaudeDeepSeek-V4ArtificialAnalysisAgenticIndex67GPT-5.5Thinking74、ClaudeOpus4.7Max71、GPT-5.4Thinking68,其在智能体任务表现上处于全球第一梯队,尤其是在真实工作任务和多轮交互任务中表现较强。图9:DeepSeek-V4编程、智能体测评结果ArtificialAnalysis推理算力需求明显提升,有望刺激国产算力用量。DeepSeek-V4tokenArtficalAnaysisIntllienceInexDeeSee-V4FlshMax消耗约240Mtokns,DeepSeek-V4ProMax190Mtokens,均较之前版本有大幅提升。DeepSeek-V4下属于明显的高计算投入型模型,有望大幅提升推理部署的算力资源用量。DeepSeekPro950图10:DeepSeek-V4编程、智能体测评结果ArtificialAnalysis同时,DeepSeek-V4仍具备极高的性价比,从API/输出单价来看,DeepSeek-V4FlashMaxFlashHightokens0.140.28DeepSeek-V3.2的约50与海外旗舰模型相比,DeepSeek-V4系列的价格优势非常明显调用价格仅为OpenAI和Claude1/181/100GPT-5.5ThinkingClaudeOpus4.7Ma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年年终护理工作计划
- 2026年幼儿园国庆节主题计划方案设计
- 2026年幼儿园国庆节计划方案设计
- 基于成本效益分析的绩效评价
- 2026年安徽省省史知识考试试卷及答案(二)
- 基于影像学特征的心源性脑卒中抗栓方案
- 2026年食堂年终工作报告
- 基于博弈论的医院与药企采购成本策略
- 2026年规划下半年工作计划
- 护理人文关怀:提升患者体验的方法
- AIB(2022版)统一检查标准-前提方案与食品安全程序
- 桥梁墩身施工安全注意事项模版
- 防汛知识培训内容
- 激素调节身体多种机能 高二上学期生物浙科版选择性必修1
- 《工程伦理》课后习题及答案
- 地灾防治工程设计中应注意的问题
- GB/T 24356-2023测绘成果质量检查与验收
- 化工机械与设备专业人才培养方案
- 医学免疫学英文版课件:Complement system补体系统
- GB/T 629-1997化学试剂氢氧化钠
- GB/T 23722-2009起重机司机(操作员)、吊装工、指挥人员和评审员的资格要求
评论
0/150
提交评论