电子行业DeepSeekV4发布国产算力乘风起航

上传人：b*** IP属地：广西上传时间：2026-06-04 格式：DOCX 页数：13 大小：1.45MB 积分：15 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录TOC\o"1-2"\h\z\uDeepSeek发布V4新版本 4DeepSeek发展史梳理 4DeepSeek模型架构创新 5DeepSeekV4Pro性能比肩顶级闭源模型 7国产算力厂商相继完成DeepSeek-V4系列模型的部署 9寒武纪 10摩尔线程 10沐曦股份 12海光信息 13风险提示 14图表目录图表1：DeepSeek发展史梳理 4图表2：DeepSeekV4包含Pro、Flash系列 5图表3：DeepSeekV4采取CSA/HCA新架构 5图表4：DeepSeekV4CSA核心架构 6图表5：DeepSeekV4HCA核心架构 6图表6：DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化 7图表7：DeepSeekV4系列性能卓越 8图表8：DeepSeek输入价格优势明显 8图表9：DeepSeek输出价格优势明显 8图表10：DeepSeekEP方案示意图 9图表11：昇腾Day0支持DeepSeek-V4 9图表12：2020-2026Q1寒武纪营业收入及同比 10图表13：2020-2026Q1寒武纪毛利率情况 10图表14：2022-2026Q1摩尔线程营业收入及同比 11图表15：2022-2026Q1摩尔线程毛利率情况 11图表16：摩尔线程产品线梳理 11图表17：2022-2026Q1沐曦股份营业收入及同比 12图表18：2022-2026Q1沐曦股份毛利率情况 12图表19：沐曦股份主要产品分类 12图表20：海光信息主要产品 13图表21：2020-2026Q1海光信息营业收入及同比 14图表22：2020-2026Q1海光信息毛利率情况 14DeepSeekV4新版本2026年4月4pSek发布并同步开源了其全新大模型产品epSkV41MAgentDeepSeek202311DeepSeek主要包括：DeepSeek代码大模型，支持多语言生成与调试，且性能超越CodeLlama，奠定了技术口碑。DeepSeekLLM67BLLaMA270B，中英文任务表现领先。20241-5MoEDeepSeekMoEDeepSeek-V2，完成细粒度专家共享架构、MLA核心突破，LLaMA31/4、APIGPT-41/70，AI20246-8GPT-4DeepSeekCoderV2、覆盖初等数学至研究生水平的DeepSeek-Prover-V1.5图表1：DeepSeek发展史梳理DeepSeekGithub，DeepSeek微信公众号202412DeepSeekDeepSeek-V35503DeepSeek-VL2（2024年12月）：多模态MoE模型，视觉能力显著提升。2025年1月20日，DeepSeek正式发布第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。20258DeepSeekDeepSeek-V3.1，采用混合推理架构，原生支持智能体工具调用，实现向AIAgent方向的关键技术突破；同年12月发布2026424DeepSeekV4DeepSeekDeepSeekV4DeepSeek-V4-Pro1.649B，聚焦尖端复杂任务，整体性能对标行业顶级闭源大模型；DeepSeek-V4-Flash284013B，主打高性价比部署。两款模型均原生1MDeepSeek图表2：DeepSeekV4包含Pro、Flash系列DeepSeek微信公众号DeepSeekV4创新性地融合了CSA（CompressedSparseAttention）与HCA（HeavilyCompressedAttention）两种技术，构建了高效的混合注意力架构。在显著降低长上下文推理显存占用的同时，大幅提升了模型的推理吞吐量。图表3：DeepSeekV4采取CSA/HCA新架构DeepSeekTowardsHighlyEfficientMillion-TokenContextIntelligence，爱建证券研究所CSA结合了压缩和稀疏注意力策略，它首先将每个Token的KV压缩成一个条目，然后应用DeepSeekSparseAttention（DSA），其中每个查询Token只关注注意力打分最高的Top-k个压缩KV条目，从而降低计算复杂度。图表4：DeepSeekV4CSA核心架构DeepSeekTowardsHighlyEfficientMillion-TokenContextIntelligence，爱建证券研究所HCA采用与CSA同源的压缩思路，通过对KVCache进行块级聚合，将每m'个连续Token的KV缓存合并为单个紧凑条目，进一步提升了压缩比。这种CSA+HCA的混合注意力架构，大幅优化了DeepSeek-V4系列的长上下文推理效率与显存占用。图表5：DeepSeekV4HCA核心架构DeepSeekHighlyEfficientContextIntelligence，爱建证券研究所从实测数据来看，在1M上下文长度下，DeepSeek-V4-Pro的单Token计算量仅为上一代V3.2的25%，累计KV缓存占用更是仅为后者的10%。正是依托这一突破性的效率提升，DeepSeek首次将1M超长上下文能力从高端付费功能降维为全系列产品的标配，为大模型的规模化商用奠定了核心技术基础。图表6：DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化DeepSeek微信公众号DeepSeekV4ProDeepSeekV4ProAgent能力显著升级，兼具完备世界知识与世界级推理能力，综合性能已比肩行业顶级闭源大模型。相较于前代模型，DeepSeek-V4-Pro的Agent能力明显增强。在AgenticCoding评测中位列开源模型第一梯队；目前已成为DeepSeek内部主力开发模型。据官方评测，其使用体验优于ClaudeSonnet4.5，代码交付质量接近ClaudeOpus4.6非思考模式，但与Opus4.6思考模式仍存在一定差距。DeepSeek-V4-Pro拥有完备的世界知识储备，在专项测评中大幅领先同类开源模型，整体表现仅稍逊于Gemini-Pro-3.1顶尖闭源模型。模型聚焦自主编程、工具调用、数学及STEM等高阶复杂任务，依托超大参数量与高效激活推理机制，基准测试表现突出，可为复杂智能任务提供高性能求解方案。图表7：DeepSeekV4系列性能卓越DeepSeek微信公众号通过上图，我们发现：编程能力是本次DeepSeek-V4迭代提升的亮点。DeepSeek-V4-Pro在SWE-benchVerified、LiveCodeBench、TerminalBench2.0评测中分别取得80.6、93.5、67.9的成绩，整体位居开源模型前列。DeepSeek系列API据DevTk.AI数据，DeepSeek-V4-Pro输入、输出原价分别为1.74美元/百万Tokens3.48美元/百万当前DeepSeek-V4-Pro模型开启限时2.5折优惠，优惠期至2026/05/31；为客观反映长期定价竞争力，本次采用原价进行测算），价格显著优于同定位1M上下文商用模型ClaudeSonnet4.6；V4-Flash系列主打高性价比、高吞吐场景，输入、输出价格分别为0.14美元/百万Tokens、0.28美元/百万Tokens。图表8：DeepSeek输入价格优势明显图表9：DeepSeek输出价格优势明显DevTK.AI DevTK.AI国产算力厂商相继完成DeepSeek-V4系列模型的部署相较于过往仅依托NVIDIACUDA框架的运行模式，DeepSeek-V4本次已在NVIDIAGPU与华为昇腾NPU双硬件平台，完成细粒度专家并行（EP）方案的落地验证。根据DeepSeek-V4报告，在通用推理场景下，相较传统非融合基线方案，推理性能实现显著提升；针对强化学习推演、高并发智能体服务等延迟敏感型业务场景，最高可达成1.92倍推理加速，适配性与工程落地性能优势显著。图表10：DeepSeekEP方案示意图DeepSeekTowardsHighlyEfficientMillion-TokenContextIntelligence，爱建证券研究所其中，昇腾平台的适配落地尤为亮眼：4月24日DeepSeek-V4发布当日，昇腾即完成全系列Day0适配。依托CANN架构，950PR/DT系列面向低时延场景实现10-20ms级推理，Atlas-A3系列面向高吞吐场景实现30ms级推理，标志国产芯模协同实现里程碑突破。图表11：昇腾Day0支持DeepSeek-V4昇腾CANN除华为昇腾外，寒武纪、摩尔线程、沐曦股份、海光信息等国产算力厂商也相继完成DeepSeek-V4系列模型的适配与推理部署，多平台兼容生态持续完善，为模型规模化落地提供了多元国产算力支撑。寒武纪是国内领先的人工智能芯片研发设计企业专注于AI核心芯片的研发、设计与销售，产品覆盖云服务器、边缘计算及终端设备，主要布局云端、边缘产品线与IP授权及软件业务。受人工智能行业算力需求的持续攀升2025年公司实现营业收入64.97亿元，同比+453.21%。值得注意的是，2026Q1公司实现营收28.85亿元，同比+159.56%。2025年公司毛利率达55.15%，同比去年下降1.56%，整体保持稳定。图表12：2020-2026Q1寒武纪营业收入及同比图表13：2020-2026Q1寒武纪毛利率情况公司公告公司公告公司持续加强研发投入，聚焦人工智能芯片产品研发，持续强化产品核心竞争力。2025年公司研发投入11.69亿元，研发投入占营收比例17.99%。在硬件端，公司新一代智能处理器微架构和指令集持续研发。同时公司持续迭代训练平台和推理软件。针对DeepSeek-V4全新架构，寒武纪已完成即时适配。公司依托自研Torch-MLU-Ops算子库对Compressor、mHC核心模块专项加速，通过BangC语言深度优化稀疏/压缩Attention、GroupGemm等热点算子，充分释放硬件底层算力。在vLLM推理框架中全面支持5D混合并行、通信计算并行、低精度量化及PD分离部署，在时延约束下实现最优token吞吐，显著提升端到端推理效率；同时借助MLU访存与排序加速能力、高互联带宽，有效加速稀疏attention等结构，降低通信开销，最大化分布式推理资源利用率。摩尔线程成立于2020年，以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持。2025年，摩尔线程实现营业收入15.06（同比+243.37%，2022-2025年复合增长率达219.912025年公司毛利率为65.57比下滑5.14pct。图表14：2022-2026Q1摩尔线程营业收入及同比图表15：2022-2026Q1摩尔线程毛利率情况公司公告公司公告摩尔线程产品矩阵呈现多元化特征，覆盖多场景需求。公司基于自主研发的MUSA架构，实现了单芯片架构同时支持AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码的技术突破。截至2025年年报，公司主要产品线包括云端产品线、边缘与终端产品线。图表16：摩尔线程产品线梳理公司公告2026年4月24日，公司携手智源众智及FlagOS社区宣布，已在旗舰级AI训推一体GPU——MTTS5000上完成DeepSeek-V4-Flash大模型的发布当日极速适配，全面支持全量核心算子深度优化与部署。2026年5月，公司进一步宣布，依托MTTS5000+MUSA软件栈+SGLang框架，已完成DeepSeek-V4完整运行验证，具备从底层硬件、热点算子支持到端到端部署验证的全链路工程化适配能力。值得注意的是，DeepSeek-V4首次采用“FP4+FP8”混合精度策略，而国内主流AI芯片仍以BF16为主。MTTS5000作为国内率先原生支持FP8的全功能GPU，搭载硬件级FP8TensorCore，相比BF16/FP16可降低50%显存带宽压力，理论算力翻倍，高效适配模型前沿精度设计。沐曦集成电路（上海）股份有限公司于2020年在上海成立，聚焦异构计算领域，打造全栈GPU芯片及解决方案。2025年，沐曦股份实现营业收入16.44亿元（同比+121.26%）；2025年公司毛利率为56.51%，同比提高3.08pct。图表17：2022-2026Q1沐曦股份营业收入及同比图表18：2022-2026Q1沐曦股份毛利率情况公司公告公司公告公司旗下拥有曦思N系列（智算推理）、曦云C系列（通用计算）、曦彩G系列（图形渲染）等产品。就各产品性能来看，曦思N系列聚焦云端智算推理，凭借高带宽内存、强劲视频编解码能力及大显存与高算力，支撑大规模数据推理和超高清视频流处理，配套完整软件栈可高效部署智算任务；曦云C系列为自研架构通用GPU，具备高精度算力与MetaXLink片间互联技术，支持多GPU无缝协同，依托自研MXMACA软件栈覆盖智算研发、数据分析等复杂场景；曦彩G系列专攻图形渲染加速，自研架构拥有出色的图形图像渲染与视频处理能力，作为国产全功能显卡兼容主GPU生态，可为云游戏、元宇宙提供高画质低延迟算力支撑。图表19：沐曦股份主要产品分类芯片名介绍产品特点应用场景芯片名介绍产品特点应用场景NN码能力。曦云C系列曦云C系列通用GPU(GPGPU)芯片是针对智算及通用计算的完美解决方案曦彩G系列GPUG染与视频处理能力公司官网

高速显存；澎湃算力；完整的软件栈自主知识产权GPGPU;片间互联MetaXLink无缝连接多GPU系统；自主软件栈MXMACA提供全面生态解决方案卓越的图形图像渲染与视频处理能力；国产全功能显卡；采取沐曦自主知识产权；兼容主流GPU生态的完整软件栈

智算智算；云游戏与元宇宙2026年4月24日，沐曦股份宣布携手FlagOS已完成对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day0适配。双方通过高性能通用大模型算子库FlagGems、独立并行策略、FP4→BF16全链路精度转换三大核心技术，实现了该模型在多类主流国产芯片上的全量适配与开箱即用的推理部署方案。同日，沐曦股份还联合上海人工智能实验室KernelSwift智能算子迁移系统，率先完成DeepSeek-V4核心算子的Day0适配。公司实测数据显示，算子平均通过率约80%；在21个核心算子上性能较TileLang提升1.2倍以上，国产芯片端平均正确性75%+、推理加速3.4倍，人工修正后可达100%正确性，显著缩短适配周期。海光信息是国内领先的高端处理器设计企业，坚持CPU+DCU双芯协同发展战略，持续推进产品迭代与技术升级。公司核心产品包括海光通用处理器（CPU）和海光协处理器（DCU）。海光CPU全面兼容x86指令集及全球主流操作系统与应用软件，已实现电信、金融、互联网、教育、交通等关键行业的规模化应用；海光DCU采用GPGPU通用计算架构，广泛应用于大数据处理、人工智能、大模型训练与推理、高性能科学计算等领域。图表20：海光信息主要产品2025

2025年公司实现营业收入143.7亿元，同比+56.92%。2025年公司毛利率为57.83%。归母净利润

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

电子行业DeepSeekV4发布国产算力乘风起航

文档简介

温馨提示

最新文档

评论

电子行业DeepSeekV4发布国产算力乘风起航

文档简介

温馨提示

最新文档

评论

相关文档