电子行业AI系列之NPU：专为端侧AI而生的神经网络加速器

上传人：b*** IP属地：海南上传时间：2025-04-30 格式：PPTX 页数：57 大小：4.01MB 积分：25 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目

录一、专为端侧AI而生的神经网络加速器、与GPU定位云端AI不同，NPU是端侧AI时代新需求、NPU是专用加速芯片，适用于乘法累加运算、NPU显著提升AI模型运行效率二、卡位端侧下游，迎需求爆发三、产业趋势：近存计算大趋势，3D

DRAM+NPU方案有望受益四、海外大厂持续迭代推动端侧AI布局，国产厂商加速布局五、投资建议及风险提示23来源：《AI芯片：前沿技术与创新未来》，中泰证券研究所人工智能的发展主要依赖两个领域的创新和演进：一是模仿人脑建立起来的数学模型和算法，其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进，1989年贝尔实验室的杨立昆（Yann

LeCun）等人一起开发了可以通过训练来识别手写邮政编码的神经网络，但那个时期训练一个深度学习卷积神经网络（Convolutional

Neural

Network，CNN）需要长达3天，因此无法实际使用。硬件计算能力的不足，导致了当时AI科技泡沫的破灭。更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU，但直到2009年斯坦福大学才发表论文介绍了如何利用现代GPU实现远超过多核CPU的计算能力（超过70倍），把AI训练时间从几周缩短到了几小时。算力、模型一直是AI发展的要素，而芯片所代表的算力则是人工智能的底层基石。图表：AI人工智能与半导体计算芯片发展历程19401960198020002020突破模型“学习”的心理研究视觉皮层海马位置细胞的时间编码第一个晶体管感知器第一块芯片第一块CPU

(MCU)Hopfield网络第一块FPGA新的DNN算法第一块GPU 类脑芯片神经网络芯片基于深度学习的AI芯片4来源：《Competition

and

innovation

the

microprocessor

industry:

Does

AMD

spur

Intel

innovate

more》，JPR，Gartner，IDC，中泰证券研究所时间1970s-1980s1990s2000s2010s2020s阶段性能提升初期竞争加剧，应用拓展至个人/家用进入多核时代，云服务兴起异构兴起，数据中心需求增长架构创新，ARM进军PC和服务器技术/供给端CPU由4位发展至32位，晶体管数量发展至120万，传统处理器架构基本完善。1971-Intel4004-CPU诞生；1978-Intel8086-奠定X86指令集架构；1989-Intel80486实现了5级标量流水线-CPU初步成熟。增至64位，晶体管数量发展至千万级；高速缓存技术取得突破。1993年Intel

推出Pentium系列采用了超标量架构，能够同时执行多条指令，显著提高了处理速度；1996年Intel增加MMX技术以增强对多媒体数据的处理能力；首次采用超标量指令流水结构，被后续AMD锐龙和Intel酷睿等沿用；多家厂商加入竞争；1995年AMD推出支持X86的K5处理器，1994年IBM推出PowerPC

601

处理器被应用于苹果电脑，95年起PowerPC

603e被广泛应用于笔电。进入多核时代，工艺制程进步至纳米级（最高至32nm），主频突破1Ghz，采用多级缓存、超线程等技术，计算性能大幅提升。2000年Intel发布Pentium

4，AMD

发布Athlon，突破1GHz；2001年IBM发布首款多核处理器；2002年我国发布首枚通用CPU；05-06年AMD/Intel

陆续推出双核/多核处理器；07-10年，从双核发展至八核乃至更多。工艺制程由32nm进步至2020年的10nm；CPU

主频突破3GHz，提升至16核心、32线程；CPU趋于模块化的设计理念；CPU与GPU走向集成。2010年Intel推出首款桌面级6核处理器2011年AMD推出Bulldozer架构FX系列，采用模块化设计；2016年左右多核技术走向普及（Intel/AMD堆核心数）；2017年AMD推出了Ryzen系列处理器，采用全新Zen架构（chiplet设计），在高性能市场与Intel激烈竞争——AMD市占率触底。架构继续优化，ARM应用至PC，工艺制程进步至5nm；2020年Intel工艺瓶颈（7nm延期），导致Tick-Tock放缓，推动行业转向架构优化；2020年苹果M1发布，5nm工艺，采用ARM架构，能效超越同期Intel笔记本CPU；2021年Arm发布Cortex-X2/A710架构，支持v9指令集，性能提升30%；2022年龙芯中科发布3A6000系列，基于LoongArch自主指令集，国产CPU摆脱X86/ARM依赖；2024年，高通发布骁龙X

Elite，应用ARM架构，能效优势显著。应用/需求端PC-B端为主，少数走向小型企业乃至消费者PC在家庭与办公场景广泛使用Windows

操作系统普及，办公软件和游戏高速发展云服务兴起（06年诞生，09年起步入快速发展阶段）促进服务器需求并行计算软件发展人工智能、深度学习等需求带动数据中心高增长。AI端侧加速发展AI服务器需求爆发出货量CAGR*/• +22%（1993-2000）• +8%2010-2016：-2.4%2016-2020：+7.5%-8.9%（2020-2023）*出货量数据口径：2016年以前为PC-based

CPU，2016年以后为PC+服务器

CPUCPU（Central

Processing

Unit）中央处理器：是计算机的运算和控制核心（Control

Unit)，是信息处理、程序运行的最终执行单元，主要功能是完成计算机的数据运算以及系统控制功能。CPU早期的高增长主要源自技术进步以及由此带来的应用拓展，2010年后则由需求端整体带动。CPU历史上增速最高的时期是1990s，出货量CAGR达到22%。供给端：AMD、IBM等芯片大厂加入竞争，多项核心技术取得重要突破；应用端：PC由商用为主，向家庭场景普及，生产力（办公软件）与娱乐（游戏）应用均蓬勃发展。2000s时代亦有良好增长，CAGR

8%，技术的加速迭代带来应用场景突破，云服务兴起。2010年以后，CPU的增长主要在2020-2021年，疫情期间远程办公场景带来的PC和服务器需求增加。图表：CPU发展脉络梳理5来源：《The

history

GPU——Eras

andEnvironment》，中泰证券研究所◼

与CPU串行计算不同，GPU侧重并行计算。GPU（Graphics

Processing

Unit）最初是为了满足计算机游戏等图形处理需求而开发的，但凭借高并行计算和大规模数据处理能力，逐渐开始用于通用计算；GPGPU

（通用GPU）减弱了GPU图形显示部分的能力，将其余部分全部投入到通用计算中，同时增加了专用向量、张量、矩阵运算指令，提升了浮点运算的精度和性能，以实现人工智能、专业计算等加速应用。早期传统图形处理器阶段（1980s-1990s中期以前）：内置了一系列专用运算模块，如视频编解码加速引擎、2D加速引擎、图像渲染等；固定功能阶段（1999年）：NV发布GeForce

256，

首次提出GPU概念，接管CPU的坐标变换和光照计算功能；可编程shader阶段（2000-2005）：NV率先引入了可编程的顶点和像素shader，标志着

GPU

从固定功能向可编程转变；通用转型阶段（2006-2009）：2006年NV推出CUDA平台，支持GPU通用编程，

开启GPGPU时代，Tesla架构首次采用统一shader模型，标志着GPU从独立功能单元转变为通用浮点处理器，能执行更广泛的任务；计算shader阶段（2009-2015）：GPU突破传统图形处理的范畴，在非图形任务中发挥作用，如流处理和物理加速，采用SIMD架构与多线程管理；GPU在科学计算等领域得到应用，软件生态蓬勃发展，GPU成为一种重要的通用计算设备；光线追踪与AI阶段（2015-2020）：光线追踪是一种高质量渲染方法，随着

GPU

性能的大幅提升和硬件架构的改进，得以在实时渲染中得到应用，能呈现更逼真的图像，以

NV为代表的公司将深度学习超级采样（DLSS）技术引入

GPU，通过AI

技术实现了在保持高质量图像的同时提高渲染速度，厂商在

GPU

中增加了专门的光线追踪加速器核心（如

NV的

核心）和AI

处理核心（如

NV的

Tensor核心）；Mesh

shader阶段（2020-2023）：GPU算力提升至新台阶，Mesh使

GPU

能够更高效地处理复杂的几何图形，通过线程协作生成紧凑的网格（meshlets），减少了传统方法中的冗余计算和数据的传输，在游戏、VR、AR等方面有重要应用前景。6来源：《The

history

GPU——Eras

and

Environment》，中泰证券研究所图表：GPU演变的六阶段划分图表：Mesh

shader开启时的帧率（FPS）提升730%来源：53AI，OneFlow公众号，中泰证券研究所7◼

传统CPU及GPU架构在处理AI任务时面临的瓶颈包括：算力、功耗、成本、内存/带宽瓶颈等。CPU的主要局限在于计算并行能力不足：传统的

CPU

架构在设计上更侧重于顺序执行和复杂逻辑控制，其核心数量和并行处理能力相对有限，在处理

相关任务时速度较慢，无法满足AI

应用的需求。GPU的主要局限在于功耗和成本：GPU擅长云端的大数据集计算，端侧的计算数据量相对云端更小，同时对功耗有严格限制，叠加成本因素，端侧应用受限。CPU与GPU均有内存及批处理限制问题：CPU和GPU计算过程均存在内存瓶颈，需要采用批处理方式加载数据和权重进行计算，难以同时满足高吞吐量和低延迟的需求。特性NPUGPU设计初衷专用于神经网络计算最初用于图形渲染，现广泛用于通用计算计算能力高效的神经网络推理强大的并行计算能力，主要用于云端灵活性专用硬件，较低的灵活性通用性高，可以编程实现各种计算任务能效比高相对较低典型应用深度学习推理，边缘计算，实时处理图形渲染，深度学习训练和推理，科学计算图表：NPU与GPU区别来源：IDC，中泰证券研究所8NPU是专门的神经网络加速器，主要用于AI相关计算加速。NPU（Neural

Processing

Unit）即神经网络处理单元，采用专门优化的神经网络计算架构，来处理特定的任务，主要被用于加速计算。通过对NPU硬件层面优化，能高效处理神经网络算法中矩阵乘法、卷积等数学运算。相较于GPU和CPU，NPU在AI计算上性能和能效有了明显提升，用来提高AI算法运行效率。NPU最早来自FPGA，大厂持续更新迭代。早期NPU主要基于高度灵活性和可编程性的FPGA实现。2010年，斯坦福大学研究人员提出了一种基于FPGA的神经网络加速器，可以实现高效的神经网络计算，随后使用FPGA设计NPU成为趋势。2013年，谷歌论文中介绍一款名为“Tensor

Processing

Unit”（TPU）的定制ASIC芯片，推动NPU发展。2018年，华为随后也推出了AscendNPU，其独特的“达芬奇架构”支持广泛的AI应用场景。后续苹果于2017年发布首款端侧NPU芯片A11。图表：CPU与NPU架构来源：高通官网，

chipsandcheese，中泰证券研究所9◼

NPU泛指专门用于加速神经网络计算的处理器，主要用于推理场景，以高通NPU举例，主要架构资源包括：1）处理器执行的三种指令集（

Scalar

、

Vector

、

Tensor

）、2）紧密耦合内存（TCM）

、3）

DMA/BUS

和

缓存：标量指令集（Scalar）：用于控制流和通用计算；32

位标量单元，每线程上下文

个寄存器，功能强大，能够独立处理轻量级DSP任务向量指令集（Vector）：用于通用数据并行计算，应用于DNN工作负载；有

个

1024

位向量寄存器和对应执行管道，线程需请求访问，减少寄存器文件需求和功耗张量指令集（Tensor）：用于矩阵乘法和卷积层计算，为优化机器学习矩阵乘法，加入张量协处理器，每秒可完成

16K

乘累加（MAC）操作，通过优化数据局部性提升计算效率，如输出固定、卷积激活重用等，软件负责组织数据。紧密耦合内存（TCM）：位于多线程区域和张量计算区域之间，用于数据快速交互，带宽高、可避免

DDR

延迟。DMA/BUS

和

缓存：位于左侧，用于数据的传输和存储。图表：

Hexagon

NPU经典架构来源：《基于多块卷积变分信息瓶颈的多变量动态过程故障诊断》，中泰证券研究所图表：CNN网络结构图10NPU专用于AI运算，核心是矩阵乘法运算，CNN是主要算法之一，本质上由大量的乘法累加计算组成。CNN是一种专门用于处理具有网格状结构数据的深度学习算法，广泛应用于图像分类、目标检测和语义分割等，包含卷积层、池化层和全连接层。以图像处理为例，卷积神经网络需要将大数据量的图片降维成小数据量。神经网络卷积层通过卷积核扫描图片，提取图片局部特征。再通过池化层对数据进行降维和防止过拟合，最后在全连接层输出。如图所示，卷积的本质就是简单乘积和运算，小矩阵（卷积核）上的元素和输入矩阵对应数据相乘并求和，输出矩阵单个值，这个过程在输入的矩阵上移动进行，从而生成整个更低维的输出矩阵。相应处理这种运算的单元被称为乘积累加器，MAC运算的操作就是计算两个数的乘积并将该乘积添加到累加器中，即a

←

)。图表：卷积层运算步骤，由5*5转换成3*3矩阵来源：百度智能云千帆社区，Easyai，中泰证券研究所11NPU指令集（ISA）契合神经网络任务。NPU指令集经过了专门的优化，包含ADD加法、MULT矩阵乘法、DOT矩阵点乘、CONV卷积操作等指令，适合神经网络任务，指令的执行效率和吞吐量更高。卷积神经网络本质是MAC计算。卷积神经网络需要将大数据量的图片降维成小数据量。神经网络卷积层通过卷积核扫描图片，提取图片局部特征。再通过池化层对数据进行降维和防止过拟合，最后在全连接层输出。如下图所示，卷积的本质就是简单乘积和运算，小矩阵（卷积核）上的元素和输入矩阵对应数据相乘并求和，输出矩阵单个值，这个过程在输入的矩阵上移动进行，从而生成整个更低维的输出矩阵。相应处理这种运算的单元被称为乘积累加器，MAC运算的操作就是计算两个数的乘积并将该乘积添加到累加器中。图表：输入矩阵和小矩阵相乘，生成输出矩阵图表：CNN的矩阵乘加运算示意来源：《基于多块卷积变分信息瓶颈的多变量动态过程故障诊断》，中泰证券研究所图表：矩阵相乘示意图12MAC（Multiply-Accumulate）是NPU中的基本单元，主要反应NPU的算力水平，占芯片主要面积。MAC是相乘和相加的两个过程（即a

←

(

），在硬件电路单元中称为“乘数累加器”，因此可以通过一个MAC指令完成乘加两个指令操作，适用于卷积运算、点积运算、矩阵运算等，广泛使用于神经网络加速以及其他需要高效数学计算的领域，本质上MAC的运算能力即反应NPU的算力水平。一个典型的MAC阵列由多个MAC单元组成，每个MAC单元会独立进行乘法累加运算，通过并行及流水线技术提升整体性能。假设一个4*4的MAC阵列，则表示4行4列共计16个MAC单元，如昇腾310包含64*64阵列即4096

MACs矩阵，特斯拉FSD为96*96阵列即9216

MACs。NPU使用MAC阵列做神经网络加速时，如卷积运算、矩阵运算、点积运算等均可分解成数个MAC指令从而提升效率。图表：特斯拉Dojo

Core架构来源：CSDN，中泰证券研究所13FLOPS（Floating

Point

Operations

Per

Second）即每秒浮点运算次数，代表浮点运算速度。浮点计数是利用浮动小数点的方式，使用不同长度的二进制来表示一个数字，一般采用4个字节即32位二进制来表达一个数字，因此FP32/FP64/FP16分别代表单精度、双精度、半精度。FP64常用于对精度要求高的科学计算或超算，AI深度学习主要用FP32或FP16。算力（Tops）是衡量NPU性能的常见指标，理论峰值=MAC矩阵行*MAC矩阵列*主频*2。MAC直接反映NPU算力水平：假设NPU内置一个N*Y的MAC矩阵，则算力理论峰值=MAC矩阵行*MAC矩阵列*主频*2，其中2为两次运算，即一次乘法加一次加法，主频决定NPU及其MAC单元运算的时钟速度。以特斯拉FSD为例，每个NPU拥有96x96

MAC，主频为2GHz，则单个NPU的TOPs为96

*96*

36.86TOPS。图表：不同数据格式的构成与应用

图表：不同格式浮点表示数据格式构成用途FP64 1位符号、11位指数、52位尾数常用于对精度要求高的科学计算FP32 1位符号、8位指数、23位尾数深度学习模型训练的常见格式TF321位符号、8位指数、10位尾数替代FP32数据格式实现深度学习和HPC计算加速FP161位符号、5位指数、10位尾数深度学习越来越偏向使用FP16BF161位符号、5位指数、7位尾数提升AI模型的推理速度和布置零后续INT88个bit表示一个字INT8精度相对较低，常用于AI模型的端侧推理*图中VGG/VocNet/YOLO

均为DNN（深度学习模型），分别用于人脸识别/多目标识别/检测图像中的物体。来源：Efficient

Execution

ofDeep

Neural

Networks

MobileDevices

with

NPU，中泰证券研究所14图表：对比CPU和NPU运行3种DNN模型*的表现对于部分DNN模型，NPU单独运行即可在保持精度几乎无损的同时显著减少处理时间；三星NPU案例：运行3种DNN模型，NPU

运行速度比

CPU

快

95%甚至以上。但不同模型在

NPU

上的精度损失不同，VGG模型几乎没有损失，VocNet

精度损失

30%，YOLO

损失50%以上。精度损失一是因为NPU特性，二也取决于模型种类。NPU

仅支持

FP16

运算，并使用

FP16

存储每一层的中间结果，浮点溢出或下溢会引起使用FP16

时的数值不稳定性；VocNet

模型和

Yolo

模型比

VGG

模型更复杂，VGG

模型是比较从人脸图像中提取的两个特征向量之间的相似度，NPU

引入的小误差可能会改变特征向量中的值，但绝大多数情况下不会影响结果，但VocNet

和

Yolo

特征向量中的每个值都代表一个物体的类别、位置或大小，NPU

引入的一个小误差就可能完全改变预测结果。来源：

Efficient

Execution

Deep

Neural

Networks

Mobile

Devices

with

NPU，中泰证券研究所15图表：NPU在YOLO模型各层上运行的表现图表：利用MLMP算法分区运行YOLO模型可兼容效率与精度Min-TimeMax-Accuracy◼

对于精度影响较大的模型，采用分区运行方案，仍能控制精度且减少处理时间：将NPU运行精度较差的YOLO模型拆解至各层，NPU在其中很多层上的运行仍具备较高性价比（时间大幅减少的同时精度影响很小）。采用MLMP（Machine

Learningbased

Model

Partition）算法将不同层分区在CPU和NPU上分别运行，无论是对精度要求较高的应用（

Max-Accuracy，如安全识别类应用），还是对处理时间敏感的应用（

Min-Time，如实时视频处理），都能提供较好的支持。Min-Time场景：算法从所有层均从CPU上运行开始，逐渐将处理时间长的层移到NPU

上以减少整体处理时间，NPU

承担的负载会逐渐增加，直到达到精度要求的边界；Max-Accuracy场景：算法从所有层在

NPU

上运行开始，随着时间约束的变化，将部分对精度影响较大且在

NPU

上运行精度损失不可接受的层移到

CPU

上。目

录一、专为端侧AI而生的神经网络加速器二、卡位端侧下游，迎需求爆发Al端侧爆发在即，NPU有望快速上量GenAI手机：AI算力提升带来需求端爆发AI

PC：个人大模型最佳载体之一，NPU渗透率望快速提升汽车：智驾渗透率提升+GenAI模型应用，驱动更高算力需求机器人：技术创新与需求共振迎爆发三、产业趋势：近存计算大趋势，3D

DRAM+NPU方案有望受益

四、海外大厂持续迭代推动端侧AI布局，国产厂商加速布局

五、投资建议及风险提示16来源：高通官网，中泰证券研究所17◼

NPU专为实现以低功耗加速AI推理而设计，伴随新AI应用、模型与需求的发展，NPU有望快速上量。早期（2015年前）NPU面向音频和语音AI，基于简单卷积神经网络（CNN），主要需要标量和向量数学运算；

2016

年起，顺应图像和视频AI

需求，出现基于Transformer、循环神经网络（RNN）、长短期记忆网络（LSTM）和更高维度CNN

等复杂新模型，工作负载需大量张量数学运算，NPU

增加张量加速器和卷积加速，配置大共享内存和专用硬件提升性能，降低内存带宽占用和能耗；2023年后，LLM和LVM（大视觉）模型提升至百亿级参数以上，除计算需求外，NPU还需考虑内存和系统设计，提高性能和能效。图表：NPU迭代伴随AI应用场景的持续演进来源：《基于多块卷积变分信息瓶颈的多变量动态过程故障诊断》，IDC，Counterpoint，中泰证券研究所18363.6%73.1%69.8%20.1%-50%10.3%

0%50%100%150%200%250%300%350%400%020040060080010001200140020232024E2025E2026E2027E2028EGenAIsmartphoneyoy-GenAI（右轴）Basicsmartphoneyoy-Basic（右轴）◼

在智能手机上运行端侧生成式AI（如Stable

Diffusion和部分LLM）的AI

算力门槛约为30TOPS，旗舰智能机在2021-22年逐步达到这一标准、且仍在进步，预计2025年将达到60TOPS以上。根据IDC预测，全球生成式AI智能手机的出货量在2023-2028的CAGR将达到78%，2028年出货量将增长至9.1亿部；2024年是GenAI手机爆发元年（yoy：364%）。生成式AI应用的繁荣，将驱动所需算力的实质性增长。根据高通白皮书，每天基于生成式AI的搜索查询超过100亿次，其中移动端占比超过60%；智能手机基于精准的端侧用户画像，与大模型结合，伴随对话功能的不断改进，将逐步成为真正的个人助手。据Counterpoint预测，2027年GenAI手机端侧整体AI算力将会达到50000EOPS以上。图表：GenAI/Basic

smartphone出货量（百万台）图表：旗舰智能手机AI峰值算力（TOPS）来源：Oppo官网，中国三星公众号，OriginOS原系统，安第斯智能云，IT之家，新浪财经，中国基金报，上海证券报，澎湃新闻，中泰证券研究所2023年起，国内外手机厂商均逐步开始测试接入AI大模型。2024年端侧内嵌的大模型参数多数在30亿左右，最高可跑通百亿级以上。19图表：手机厂商已普遍内嵌AI大模型。202320242025OriginOS4搭载蓝心大模型ColorOS14搭载AndesGPT大模型MagicOS

9.0支持30亿参数的端侧大语言模型iOS18发布AppleIntelligence大模型（端侧30亿），并积极与OPENAI和谷歌接触YOYO智能体商店上线DeepSeek-R1尝鲜版宣布折叠旗舰

OPPO

FindN5

接入

DeepSeek-R1Origin

OS5搭载全新蓝心大模型矩阵（最高端侧跑通130亿参数）OriginOS官宣将深度融合满血版DeepSeekGalaxy

系列首次引入谷歌Gemini

Nano大模型（端侧约30亿）推出自有生成式多模态AI模型Gauss2；Bixby接入智谱智能AI宣布年内国行机引入通义大模型自研大模型Gauss与中国多厂商测试大模型大模型升级为AndesGPT-2.0（端侧70亿）逐步开始引入Harmony

OS4接入盘古大模型小艺接入DeepSeekHarmonyOS

NEXT搭载盘古大模型5.0（端侧15-70亿）来源：高通官网，中泰证券研究所20◼

如何分配工作负载：1、高通传感器中枢：用户与

助手交谈时，语音通过

OpenAI

的自动语音识别（ASR）生成式

模型

Whisper

转化为文本。2、NPU：AI

助手使用大语言模型

Llama

生成文本回复。3、CPU

：运行的开源TTS

模型，将文本转化为语音。4、NPU：虚拟化身渲染须与语音输出同步以实现真实用户交互界面，借助音频创建融合变形动画（blendshape）为嘴形和面部表情带来合适动画效果。5、GPU：最终的虚拟化身渲染。图表：AI助手如何利用高通AI引擎的多样化处理器来源：高通官网，中泰证券研究所21生成式AI用例分三类，且新应用场景在不断迭代出现：1、按需型，由用户触发、需立即响应，如拍照、图像编辑、代码生成、文本创作等；2、持续型，运行时间较长，如语音识别、实时翻译、视频通话的音视频处理等；3、泛化型，后台持续运行，如始终开启的预测性AI助手等。不同处理器的优势：CPU：顺序控制和即时性-小模型GPU：并行数据流处理NPU：标量、向量、和张量的数学运算，可用于核心AI工作负载。◼

叠加考虑手机、PC等终端的功耗和散热限制，支持处理多样性的异构计算架构能发挥不同处理器的优势。图表：NPU主要承接低功耗下需要高峰值性能的AI功能*新款芯片部分数据来自访谈口径来源：IDC，高通/苹果官网，中泰证券研究所22图表：主流智能手机的NPU芯片参数公司型号SOCNPU发布年份制程核心数峰值算力(TOPS)所用内存

内存容量(GB)峰值内存带宽(GB/s)---高通骁龙

8Gen5骁龙

8Gen4骁龙

8Gen3骁龙

888骁龙

8Gen2骁龙

865HexagonTensorNPUHexagon8thGenHexagon

780Hexagon

698暂未正式发布202420222021202120193nm3nm7nm5nm7nm7nm8 60（AI综合算力：90）8 40（AI综合算力：80）

LPDDR5x8 30（AI综合算力：78）

LPDDR4X88815157LPDDR5LPDDR4XLPDDR524/32243224161696516844骁龙

855Hexagon

6907nm831634骁龙

820Hexagon

6802018201514nm40.5LPDDR4XLPDDR4826苹果A18

ProA18A17

ProA16A15A14A13A12A112024202420232022202120202019201820173nm3nm3nm4nm5nm5nm7nm7nm10nm1616161616168823535351715.811650.6LPDDR5XLPDDR5XLPDDR5LPDDR5LPDDR4XLPDDR4XLPDDR4XLPDDR4XLPDDR4X888644432606051513434343434开始支持端侧百亿以上参数模型以顺畅运行GenAI模型的算力门槛30TOPS计，高通/苹果分别自2022/2023年起发布的芯片达到这一标准。2024年推出的Apple

Intelligence，有望成为苹果AI创新大周期起点。1）大模型研发持续推进：从Core

ML架构到MM1大模型再到端侧OpenELM；2）芯片：A/M芯片均采用CPU+GPU+NPU架构，AI算力提升为端侧AI提供硬件支持；3）强大AI技术体系：2010年以来收购了30+家AI初创公司。Apple

Intelligence元年，望成苹果AI大周期起点来源：IDC，《AI

PC产业（中国）白皮书》，中泰证券研究所23AI

PC加速渗透。随大模型计算负载部分下沉至本地，个人大模型的需求日益增长，其普惠要求正契合PC端优势。

PC是包含AI模型、应用以及硬件设备的混合体，能为用户提供通用场景下的个性化服务，提升生产力，同时降低大模型使用成本，并提升隐私保障度，据IDC预测，至28年预计AI

PC渗透率98%，当年出货量达到2.67亿台。NPU在AI

PC中的渗透率预计快速提升：根据IDC预测，

23-28年

PC的CAGR

为42%，按搭载AI的加速器品种分类，同时搭载NPU和GPU的AI

PC的CAGR将达156%，仅搭载NPU的CAGR为58%，到2028年，将仅有5.2%的PC不配备NPU，NPU在PC中的渗透率达到94.8%。图表：AI

PC出货量（百万台）预测-按加速器分类05020015010025030020232024E2025E2026E2027E2028ENPUOnly GPU

Only NPU+

GPUNPU+GPU

CAGR：156%NPUonly

CAGR：58%GPUonlyCAGR：-17%图表：个人大模型助推PC产业生态迭代来源：IDC，高通/苹果/intel官网，中泰证券研究所24公司型号SOCNPU发布年份制程

核心数NPU峰值算力(TOPS)所用内存内存容量(GB)峰值内存带宽

NPU在SOC中(GB/s) 的面积占比高通骁龙

Plus骁龙

EliteHexagon8th

GenHexagon8th

Gen202420244nm4nm8/10124545LPDDR5xLPDDR5x64GB64GB136136苹果M4

Max20243nm1638LPDDR5X128546M4

Pro20243nm1638LPDDR5X64273M420243nm1638LPDDR5X24120M3

Pro202320233nm3nm16161818LPDDR5LPDDR512836410154M320233nm1618LPDDR5241023%M2

Ultra20235nm3231.6LPDDR5192800M2Max20235nm1615.8LPDDR596410M2

Pro20235nm1615.8LPDDR532205M220225nm1615.8LPDDR5241024%M1

Ultra20225nm3222LPDDR5128819M1Max20215nm1611LPDDR564410M1

Pro20215nm1611LPDDR532200M120205nm1611LPDDR4X16686%第四代npu 20243nm2248LPDDR5x32136Intellunar

lakemeteor

lake第三代npu20237nm1411.5LPDDR5/5x64/96120"Strix

Point"AMDXDNA

220244nm1250LPDDR5x6451.2AMD"Hawk

Point"

锐龙804020234nm816LPDDR56451.2"Phoenix"

锐龙704020234nm810LPDDR5/5x6451.2图表：主流PC

NPU芯片参数AI算力增加的同时，

MaxNPU面积占比缩小算力：AI

PC算力至少40TOPS，PC芯片算力提升趋势明确。根据微软定义，AI

PC（

Copilot+能本地运行）的AI

算力至少要达到40

TOPS。高通骁龙X

Elite总算力高达75TOPS，NPU算力45TOPS，可在端侧运行130亿参数模型；AMD

锐龙8040总算力39TOPS，基本符合微软要求，NPU算力16TOPS；苹果最新发布的M4芯片NPU算力已提升至38TOPS；24年英特尔Lunar

Lake、AMD

Strix

Point算力突破40TOPS。来源：高通官网，黑芝麻智能招股书，中泰证券研究所25◼

智驾渗透率快速攀升。全球/中国智能驾驶乘用车渗透率预计2028年达到88%/94%，销量在23-28年间CAGR6.4%/6.9%。智驾：以高通智驾系统为例，其感知软件栈和驾驶策略软件栈需始终于本地运行，因为智驾对时延的要求极其严苛，云端无法针对此类工作负载发挥任何作用，随着智驾解决方案支持GenAI模型，汽车对端侧算力的要求还会进一步提升（传统视觉模型如特斯拉Transformer模型仅10亿参数，而生成式大模型参数规模在1000亿以上）。AI驱动座舱：类似AI手机或PC内的个人助手，车内数字助手通过访问用户数据及车辆传感器数据，为用户提供对应定制化的驾乘和娱乐体验。图表：全球及中国智能驾驶乘用车销量及渗透率100%90%80%70%60%50%40%30%20%10%0%010203040506070802019 2020 2021 2022 2023 2024E2025E2026E

2027E2028E全球销量（百万）全球渗透率（右轴）中国销量（百万）中国渗透率（右轴）图表：GenAI用于ADAS/AD，预测轨迹/行为以改进驾驶策略来源：高通官网，中泰证券研究所*新款芯片部分数据来自访谈口径26高通在2024年末发布的座舱与智驾芯片，应用了增强的

Hexagon

NPU，较此前一代AI算力有大幅提升，且后期可继续通过外挂NPU的方式继续扩展算力。Ride

Elite不再需要额外配备加速芯片，算力可以支持多达40个传感器，包括20多个具有360º视野的16MP摄像头和面向乘客的红外摄像头，确保了标志、车道、物体以及手势识别的精确性；支持从视觉感知到路径规划、定位和车辆控制在内的完整端到端自动驾驶系统，这些功能可以同时且独立地运行。NPU

中集成的

Transformer

加速器和矢量引擎保证了低延迟和高精度的同时，实现了功耗的优化。Cockpit

Elite作为座舱芯片，可以在车辆本地处理具有数十亿个参数的大型语言模型

(LLM)，与Ride

Elite配对使用。图表：高通车载NPU

芯片参数公司类别型号发布年份制程核心数场景骁龙Cockpit

Elite（8397）20244nm-配对Ride

Elite座舱骁龙

SA829520235nm8骁龙

SA815520217nm8高通智驾骁龙Ride

Elite（8797）（舱驾一体）20244nm-骁龙865020234nm骁龙854020235nm16针对L2+L3已应用于零跑、大疆车载“成行8 平台”，本田、通用、大众、宝马等预计25-26年逐步搭载。未量产来源：各公司官网，中泰证券研究所。机器人产业进入快速发展期，技术创新与市场需求共振驱动行业爆发。国产机器人发展迅速，宇树科技在机器狗方面全球领先，据智研瞻产业研究院的数据，2024

年前三个季度，我国机器狗的销量达到

2.33

万台，同比增长

72.22%，关注国产供应链发展机遇。NPU是机器人AI加速计算的重要芯片。NPU在机器人使用广泛，有加速计算、降低系统功耗、实现实时交互和决策等优势在机器人进行深度学习任务，如语音识别、图像分类、目标跟踪时，NPU

能显著加快计算速度，比传统

CPU

和

GPU

更高效地处理大量数据。以家庭清洁机器人为例，通过

NPU

快速处理摄像头采集的图像数据，识别家具、障碍物等物体，实现自主避障和路径规划。如宇树科技在Go2中就使用一颗“国产6T芯片”。27图表：宇树科技机器人机器狗图表：Go2机器狗内置“国产6T芯片”目

录一、专为端侧AI而生的神经网络加速器二、卡位端侧下游，迎需求爆发三、产业趋势：近存计算大趋势，3D

DRAM+NPU方案有望受益存算一体是NPU打破计算瓶颈的主要方式存内计算难度大，近存计算和存内处理是重要方向WOW

3D堆叠DRAM：AI低算力+超高宽带存储解决方案四、海外大厂持续迭代推动端侧AI布局，国产厂商加速布局五、投资建议及风险提示28来源：中泰证券研究所29除算力指标外，内存墙、功耗墙也影响NPU实际利用率。内存墙是指在实际应用中，NPU堆MAC单元能够拉高算力指标，但会受内存带宽限制，导致数据的传输速率不足，MAC单元不断等待，实际处理性能下降的现象；功耗墙是指计算单元存算分离设计导致数据重复搬移，共享困难，数据在多级存储间传输，能耗大。随着AI发展，端侧数据量逐步提升，数据的传输速度不足以及能耗高也逐步成为限制NPU性能的瓶颈。存算一体及混合精度是解决NPU在AI计算瓶颈的主要方式。混合精度是通过软件技术，将不同精度的浮点数进行数值计算，从而减少数据搬运，可以一定程度提高NPU效率。而存算一体则是从底层架构上，彻底解决NPU的算力瓶颈，其核心是将计算和存储融合，降低“内存墙”问题，实现计算能效的数量级提升。谷歌基于边缘设备运行神经网络模型，发现1）62.7%的系统能耗是花费在数据移动上；2）数据移动主要来自内存中的简单函数，如乘累加等，因此解决内存墙，核心是要将计算函数搬移到数据存储的地方，而非把数据搬移到处理器中进行计算。来源：知存科技，中泰证券研究所30◼

存储速度滞后于计算器速度，AI时代存储带宽制约算力芯片性能发挥。在过去二十年，处理器性能以每年大约55%的速度提升，内存性能的提升速度每年只有10%左右。结果长期下来，不均衡的发展速度造成了当前的存储速度严重滞后于处理器的计算速度。虽然多核（例如CPU）/众核（例如GPU）并行加速技术提升算力，AI时代处理器计算技术能力大幅提升，同时大型

Transformer模型的参数数量呈指数级增长，每两年增加

410

倍，而单个

GPU

内存仅以每两年

倍的速度扩展，存储带宽制约了计算系统的有效带宽，限制算力芯片性能发挥。图表：处理器和存储器速度失衡图表：AI时代计算能力大幅提升图表：每单元算力使用的带宽和内存均处于下降趋势来源：知存科技，中泰证券研究所31◼

传统存算分离架构带来存储墙问题。上世纪40年代开始计算机使用冯诺伊曼架构——存算分离，即处理器和存储器相互独立，两者通过总线连接。1）存算分离，数

据存算间传输造成延迟。处理器从外部存储中调取数据，计算完成后再传输到内存中，一来一回都会造成延迟。2）数据在多级

存储间传输。为了提升速度，冯诺依曼架构对存储进行分级，越往外的存储介质密度越大、速度越慢，越往内的存储密度越小，速度越快，因此数据需要在多级存储之间搬运，能耗大。通常第一级存储是速度最快、容量低，主要是SRAM片上缓存，第二级是传统DDR。

3）存储制程推进慢于逻辑。目前DRAM制程最先进仍在10-15nm左右，而逻辑制程已进入3nm，主要是因存储器制程缩小难度更大。随着近几年云计算和AI应用发展，面对计算中心的数据洪流，存算分离架构下数据搬运慢、搬运能耗大等问题成为了计算的关键瓶颈，“存储墙”问题更加显著。图表：数据的传输速度慢图表：数据的传输功耗大图表：存算分离架构来源：中国移动研究院，中泰证券研究所32◼

存算一体可有效克服冯诺依曼架构，可有效提升带宽、缓解存储墙问题，迎合AI时代需求。存算一体是一种新的架构，其核心理念是将计算和存储融合，降低“存储墙”问题，实现计算能效的数量级提升。从广义而言，存算一体可分为三种：近存计算（PNM）、存内处理（PIM）、存内计算（CIM），狭义的存算一体主要指存内计算。目前近存计算和存内处理已开始商业化应用，但存内计算因设计等难度大，目前暂未商业化大规模使用。

近存计算：存算分离，通过封装拉近存储和计算单元的距离。

存内计算：在存储单元内加了部分计算单元，存储芯片有部分计算能力。

存内计算：真正的存算一体，存储单元和计算单位完全融合。图表：存算一体三个类别来源：Rambus，中泰证券研究所33◼

近存计算：通过封装工艺拉近存储单元和计算单元距离，目前已大规模使用。近存计算不改变计算单元和存储单元本身设计功能，通过采用先进的封装方式及合理的硬件布局和结构优化，通过芯片封装和板卡组装的方式，将存储和计算单元集成，增强二者间通信宽带，增大传输速率，近存计算本质上属于传统冯诺依曼的存算分离架构，通过拉近存储单元和计算单元的距离，对“存储墙”进行优化。典型产品：HBM、3D堆叠DRAM和华邦CUBE产品均属于近存计算。图表：HBM是近存计算图表：HBM

GDDR34◼

WOW

3D堆叠DRAM与逻辑芯片是3D结构，属于近存计算。

结构：属于近存计算，DRAM与逻辑芯片采用3D堆叠工艺封装在一起，在1片逻辑芯片上堆叠多层DRAM芯片，逻辑芯片指GPU、CPU、NPU等计算芯片、右图中为紫色的Logic

Die，DRAM芯片图中仅只有1层，实际可堆叠多层。

技术：使用TSV硅通孔技术、Wafer

Wafer的混合键合工艺（Hybrid

Bonding）实现多层芯片之间的电气连接。

性能特点：以紫光国芯的WOW

3D堆叠DRAM产品

SeDRAM为例，通孔间距（Pitch）达到10μm以内的级别，HBM的Pitch目前为几十微米，因此WoW

3D堆叠DRAM的带宽更高，另外功耗更低，属于定制化产品，容量拓展性一般。图表：紫光国芯的WOW

3D堆叠DRAM图表：紫光国芯的WOW

3D堆叠DRAM性能特点相关内容详见中泰电子团队2025/2/20发布的报告《AI系列之存储：近存计算3D

DRAM，AI应用星辰大海》来源：紫光国芯，中泰证券研究所目

录一、专为端侧AI而生的神经网络加速器

二、卡位端侧下游，迎需求爆发三、产业趋势：近存计算大趋势，3D

DRAM+NPU方案有望受益四、海外大厂持续迭代推动端侧AI布局，国产厂商加速布局NPU发展历程：算力攀升，场景突破高通经典架构：增加并行，加速特定硬件三星NPU迭代：算法优化+更多MAC集成Intel

NPU迭代：增加计算引擎数和内存带宽多数端侧NPU应用集成SOC方案分立NPU：易于扩展，适用汽车和工业端侧AI工作负载华为昇腾NPU：自研达芬奇架构瑞芯微：

RKNPU端侧算力龙头国产

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

电子行业AI系列之NPU：专为端侧AI而生的神经网络加速器

文档简介

温馨提示

最新文档

评论

电子行业AI系列之NPU：专为端侧AI而生的神经网络加速器

文档简介

温馨提示

最新文档

评论

相关文档