DeepSeek对国产芯片的影响报告_第1页
DeepSeek对国产芯片的影响报告_第2页
DeepSeek对国产芯片的影响报告_第3页
DeepSeek对国产芯片的影响报告_第4页
DeepSeek对国产芯片的影响报告_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DeepSeek对国产芯片的影响科智咨询云网研究事业部苏长飞2025年4月01

DeepSeek技术创新02DeepSeek对国产芯片的影响03国产芯片面临的挑战和发展机遇目录2DeepSeek出现的影响DeepSeek的出现标志着我国在生成式AI领域达到世界领先级别DeepSeek与ChatGPT移动端全球DAU对比情况全球APP增长1亿用户所需时间©2025科智咨询.Allrightsreserved.数据来源:

公开信息3•

无辅助损失负载平衡的DeepSeekMoEDeepSeek-V3提出了一种无辅助损失的负载均衡策略(Loss-FreeBalancing),

通过动态调整每个专家的偏差来控制负载平衡,

而不引入干扰梯度。

减少因鼓励负载均衡而对模型性能产生的负面影响。•Multi-Head

LatentAttention(MLA)MLA的核心在于通过低秩联合压缩来减少注意力键(keys)

和值(values)

在推理过程中的缓存,

从而提高推理效率数据来源:

DeepSeek论文

©2025科智咨询.All

rights

reserved.DeepSeek主要技术创新点架构创新4•多

to

ke

n

(M

u

lti-To

ke

nP

redictio

n

,

MT

P

)主流大模型token-by-token生成序列,

而每次token生成需要频繁与访存交互,

从而因为访存效率形成训练或推理的瓶颈。MTP方法主要将单token

的生成,

变成多token

的生成,

提升训练和推理的性能

DeepSeek主要对传统MTP算法

进行了一定优化,

顺序预测额外token,

并在每个预测深度保持完整的因果链。•

FP8混合精度训练框架

在DeepSeek的训练过程中,

绝大多数核心计算核(即通用矩阵乘法GEMM操

作)

均以FP8精度实现

。这些GEMM操作接受FP8张量作为输入,

并输出BF16

或FP32格式的结果。

如下图所示,

与线性算子(Linearoperator)

相关的三个

GEMM运算——前向传播(Fprop)

激活梯度反向传播(Dgrad)

和权重梯

度反向传播(Wgrad)——都采用FP8精度执行。

对以下模块维持原有精度(如BF16或FP32):

嵌入模块(embeddingmodule

)、

输出头(

output

head)

混合专家门控模块(MoEgating

modules)

标准化算子(normalizationoperators)

以及注意力算子(

attentionoperators

)

。(尽管FP8格式具有计算效率优势,

但由于部分算子对低精度计算较为敏

感,

仍需保持更高计算精度)DeepSeek主要技术创新点软硬协同工程优化1/2数据来源:

DeepSeek论文

©2025科智咨询.All

rights

reserved.5•

计算-通信重叠(DualPipe调度策略)DeepSeek-V3设计了DualPipe算法,

用于高效的流水线并行计算。

该算法通过重

叠计算和通信,

减少了流水线气泡,

并在跨节点的专家并行训练中实现了近乎完

全的计算-通信重叠,

显著提升了训练效率。•

通过PTX手动优化跨芯片通信

英伟达

H800

芯片互联带宽相比

H100被阉割,为弥补这一缺陷,

DeepSeek

借助PTX手动优化跨芯片通信,

保障数据传输效率。

PTX是CUDA编译的中间代码,

处于高级编程语言(如CUDAC/C++)

和底层

机器码(SASS)

之间,

起到在CUDA和最终机器码之间的桥梁作用。

借助PTX,

开发者能够直接对GPU

的寄存器分配

线程调度等硬件级操作进行控制,

实现细粒度的性能优化

在多GPU

协同训练场景中,

可通过

PTX

手动调整跨芯片通信效率,

提升整体训练效能。DeepSeek主要技术创新点软硬协同工程优化2/2数据来源:

DeepSeek论文

、公开信息

©2025科智咨询.All

rights

reserved.601

DeepSeek技术创新02DeepSeek对国产芯片的影响03国产芯片面临的挑战和发展机遇目录7刺激算力总需求持续增长•算力总需求持续增长:

根据科智咨询发布的中国智能算力市场规

模研究报告,

2024-2028年,中国智能算力规模仍将保持近40%的

高速增长•推理侧需求爆发:

推理侧需求占比将爆发式增长,

至2027年将从

目前的65%增长至72%/

2020-2028年中国AIDC算力供给规模

(PFLOPS)市场影响开源生态打开国产算力需求空间•“

杰文斯悖论”指出

,技术进步导致资源使用效率的

提高

,反而可能增加资源

的总体消费量。•

在图中

成本下降

20%(从100美元到80美

元),旅行量增加了40%

(从10单位到14单位)65%

67%

70%

72%35%

33%

30%

28%数据来源:

科智咨询

、公开信息

©2025科智咨询.Allrightsreserved.41%

58%59%

42%/中国人工智能服务器工作负载及预测2022

2023

2024

2025

2026

2027

推理

训练杰文斯悖论8算法创新驱动算力效率提升:通过MLA

MOE

无模型轻量化降低算力门槛:

通过轻量化模型和知识蒸辅助损失负载均衡等技术,

显著优化模型训练效率,馏技术,

DeepSeek能够在国产芯片上实现高性能推理。在同等模型效果的基础上,

训练成本仅为海外领先例如,

天数

沐曦等众多国产厂商在极短的时间内完模型成本的1/10成模型适配DeepSeek-V3和R1模型不仅性能出

色,

训练成本也极低

V3模型仅用

2048块H800

GPU训练2个月,消耗278

.8万GPU小时

相比之下,Llama3-405B消耗了3080万GPU小时,

是V3的11倍

按H800GPU每小

时2美金计算,

V3的训练成本仅为557.6万美金,而同等性能的模型通常

需要0.6-1亿美金

R1模型在V3基础上,

通过引入大规模强化学习和多

阶段训练,

进一步提升了推理能力,

成本可能更低。蒸馏DeepSeek模型训练仅需要557.6万美元技术突破降低算力依赖,

激活国产芯片潜力DeepSeek

R1(671B)数据来源:

DeepSeek论文

、公开信息©2025科智咨询.Allrightsreserved.9关键技术突破进度实现难度FP8混合精度运算目前200多家芯片企业中仅有的2-3家支持FP8精度的均为初创企业

,对于大型芯片企

业来说需要从算子、架构等底层做出大量改动

,其决策、研发周期会很久,

需要等到下一代、下下一代的产品PTX指令集优化大

使

PT

X

Mira指

(Me

mory

AccessOptimizationforRemoteAccess

,一种远端内存访问优化技术),这需要对芯片底层指令集有非常深刻的认知,对于大部分国产芯片厂商来说都是非常困难的PD分离一种在大规模推理场景中将Prefill阶段和Decode阶段分别在不同的资源上运行的技术,目前国产厂商普遍支持效果一般MTP(Multi-TokenPrediction)多Token预测技术会快速在推理场景得到普及

,理论上性能可以提升50%以上,

多款国产芯片已经可以支持该技术DualPipe算法是一种更细粒度的计算过程划分,

实现难度相对小,但只适用于DeepSeek一种类型

的模型

,不适用于其他类型的大模型技术突破倒逼国产芯片在关键技术上进行突破与创新©2025科智咨询.Allrightsreserved.数据来源:

科智咨询10持续增长适配企业达到25家首批15家适配R1发布•DeepSeek采用宽松的MIT协议和强可复现性,

得到广泛的应用•DeepSeek

的开源策略吸引众多开发者和企业的参与。

国产算力

芯片厂商可以围绕DeepSeek建立相关的软件生态,

开发适配的

驱动程序

开发工具

优化库等,

吸引更多开发者基于国产芯

片和DeepSeek进行应用开发,

丰富软件生态资源,

提升国产算

力芯片的易用性和竞争力产业链协同构建自主AI生态闭环:促进国产芯片硬件的适配落地和软件生态的繁荣芯片厂商加速适配与落地

繁荣国产软件生态开源平台数据来源:

科智咨询

中国开放指令生态联盟

©

2025

科智咨询.

All

rights

reserved.开源开放国产芯片生态开源IP与SoC设计芯片及系统EDA工具系统软件与开发环境开

验证

台4035302520151050/国产芯片厂商与DeepSeek适配情况2

5

.12

5

.

22

5

.

3未

来推动ASIC的芯片技术路线发展DeepSeek的算法优化创新

带动模型成本急速降低

软硬件协同成为下

一步发展的关键

未来ASIC将成为行业主导

逐步取代或替代类似于CPU的通用器件

,GPU的需求会缩量

,ASIC的需求会增多/

不同架构AI芯片的区别形成模型-芯片-系统的完整闭环国产模型

极致国产生态国产芯片统

纳管和调度异构算力AI芯片种类GPU

FPGAASIC•

全定制(专为特定算法设计)•

算法迭代期/边缘计算•

开发成本:低•

量产成本:

中等•

能效比极高•

量产成本极低•

灵活性差•

研发周期长典型企业产业链协同构建自主AI生态闭环:推动ASIC技术实质性发展,

形成模型-芯片-系统的全国产闭环•

算法稳定的大规模

特定推理场景•

半定制(可编程重构硬件)•

开发成本:

中等•

量产成本

:高•

开发成本:极高•

量产成本:极低•

硬件可重构•

低延迟•

开发门槛高•

量产门槛高•

生态成熟•

通用性强•

通用芯片(无定制)功耗高冗余计算多适用场景

通用计算©2025科智咨询.Allrightsreserved.数据来源:

科智咨询定制程度国产系统优点缺点成本12••01

DeepSeek技术创新02DeepSeek对国产芯片的影响03国产芯片面临的挑战和发展机遇目录13技术壁垒短时间内难突破•受限于光刻机等的限制,中国大陆7nm以下制程工

艺迟迟无法

突破、

7nm规格的芯片良品率也有待提升•作为中国大陆典型的晶圆厂商,中芯国际(SMIC)

市占率仅

为6%,

不及台积电的1/10,

供货量紧缺/全球主要晶圆厂商芯片制程工

艺迭代路线图2019202020212022202320242025CUDA生态壁垒需要多方协同、

长期攻克•英伟达CUDA生态开发者基数是国产方案的6.5倍:

CUDA生态

并非简单的软件工具集,

而是“

开发者—工具链—AI开发框

架—企业利益

”的闭环系统•国产AI生态需要从“

开发者-工具链-主流AI框架

等多个角度

努力补功课/

Github上全球软件开发者数量对比

(万)Intel10nm10nm+

10nm++7nm4nm3nm3nm+Samsung7nm5nm4nm3nm2nmTSMC7nm+5nm5nm+4nm3nm3nm+2nmSMIC14nm12nm8-10nm7nm面临的挑战国芯在制程技术、

国产开发生态等领域面临严峻挑战others,31%数据来源:

各公司官网

、Github、科智咨询制图

©

2025

科智咨询.

All

rights

reserved./国际/国内典型晶圆厂商市占比

(收入)国

态CUDA

态6

5XTSMC,63%

SMIC,6%

4006214国产AI芯片在工业质检领域表现出色

,如基于国产存算一体芯片的类脑计算技术在图像识别能效比上有

显著提升,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论