第3章智能驾驶计算芯片

上传人：h*** IP属地：山东上传时间：2026-06-29 格式：PPTX 页数：16 大小：16.83MB 积分：15 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

智能驾驶与计算架构

第3章

智能驾驶计算芯片

1芯片技术的演化与发展

2计算芯片分类3计算芯片架构4计算芯片设计智能驾驶计算芯片计算芯片是智能汽车的"数字发动机"，其架构直接决定了智能驾驶硬件和软件的性能上限。本章聚焦智能驾驶计算芯片，介绍芯片技术演化、分类、架构及设计方法学。智能算法演进周期（约14个月计算效率翻倍）与芯片开发周期（3年）之间的矛盾，要求芯片架构必须根据算法特点进行特定优化。学习目标：了解芯片制造的基本流程及相关制程使用场景。了解芯处制造的基本流程、芯片分类的基本逻辑，特别是CPU与GPU的架构异同点。理解SoC的架构演进及其与智能驾驶的关系。理解智能驾驶软硬协同设计的基本概念及相关案例。掌握智能驾驶计算芯片的典型架构，及其对应的基本计算单元、编程模型及指令集概念。芯片技术的演化与发展芯片制造包含设计、晶圆生产、封装和测试四大流程，车载计算芯片已超越手机芯片成为半导体技术的引领者。芯片制造流程：芯片设计（GDSII版图）→晶圆生产（光刻、离子注入）→芯片封装（切Die、基板安装）→芯片测试（FT流程）。摩尔定律：晶体管集成度每18个月增加1倍，但进入后摩尔时代。芯片技术的演化与发展芯片制造包含设计、晶圆生产、封装和测试四大流程，车载计算芯片已超越手机芯片成为半导体技术的引领者。制程选择：车规级芯片一般选择最先进工艺（如7nm/5nm），以满足高算力需求。芯片开发模式：IDM（整合器件制造商）→Fabless+Foundry+OSAT→IP+Fabless+Foundry+OSAT。计算芯片分类——GPU与SoCGPU擅长大规模并行计算，适合深度学习训练与推理；SoC将多种处理器集成在一颗芯片上，成为智能驾驶主流计算芯片形态。CPUvsGPU：CPU擅长复杂逻辑控制（延迟敏感），GPU擅长大规模并发计算（吞吐量敏感）。GPU包含CUDACore、TensorCore（深度学习加速）、RTCore（光线追踪）。SoC（片上系统）：将CPU、GPU、DSP、NPU、调制解调器等集成在一颗芯片上，基于IP设计模式，软硬件协同设计。常见混淆概念：MPU（增强版CPU）、MCU（单片机）、DSP（数字信号处理器）、FPGA（现场可编程门阵列）。典型SoC架构典型智能驾驶SoC采用异构多核架构，包含CPU（逻辑计算）、NPU（智能计算）、GPU（图形处理）、ISP（图像处理）等组件。CPU：大小核设计，运行操作系统、调度任务和处理逻辑控制。NPU：执行深度学习推理，是实现智能驾驶核心算法的关键。GPU：处理图形和图像相关计算，也可用于深度学习推理。ISP：处理图像原始数据（预处理、色彩增强、格式转换），对智能驾驶至关重要。其他组件：SafetyIsland（安全岛）、HSM（硬件安全模块）、NoC（片上网络）。向量计算单元与MAC阵列矩阵计算占据神经网络90%以上的计算量，MAC阵列是NPU加速矩阵运算的核心单元。计算精度裁剪：神经网络鲁棒性高，可通过量化（INT8/INT4）降低计算精度，减少成本。MAC阵列：一个MAC对应一个乘加单元。算力计算公式：TOPS=Freq×MAC_Count×2/1000。存储瓶颈：算力提升后，DDR带宽可能成为瓶颈，需采用多级存储结构（L0/L1缓存）缓解。编程模型与指令集统一编程模型（如CUDA）能高效支撑上层算法开发，而指令集的可扩展性决定了芯片对算法演进的适应能力。编程模型：连接算法和处理器架构，逼近性能极限。英伟达CUDA是最知名的编程模型，拥有400万开发者。编程模型与指令集特斯拉FSD指令集：仅8条指令（DMARead/Write、Convolution、Deconvolution、Inner-product、Scale、Eltwidth、Stop），针对神经网络操作极致优化。开源指令集RISC-V：模块化设计、开放免费，适用于碎片化和可定制化场景（如智能驾驶）。特斯拉Dojo和MobileyeEyeQUltra均采用RISC-V。编程模型与指令集开源指令集RISC-V：模块化设计、开放免费，适用于碎片化和可定制化场景（如智能驾驶）。特斯拉Dojo和MobileyeEyeQUltra均采用RISC-V。英伟达GPU与地平线BPU计算芯片架构在应用场景和算法需求的驱动下不断演进，英伟达GPU从Kepler到Blackwell，地平线BPU从伯努利到纳什。英伟达GPU演进：Kepler（2012）→Maxwell（2014）→Pascal（2016，首个考虑深度学习的架构）→Turing（2018，引入RTCore）→Ampere（2020，TensorCore升级）→Blackwell（2024，引入FP4/FP6）。地平线BPU演进：伯努利（Bernoulli，针对MobileNet/Depthwise优化）→贝叶斯（Bayes，针对Transformer/BEV/LSTM优化）→纳什（Nash，针对端到端/大规模Transformer/交互博弈优化）。存算一体架构存算一体技术将计算单元与存储单元融合，从根本上缓解冯·诺依曼架构的"存储墙"和"功耗墙"问题。冯·诺依曼瓶颈：处理器和存储器之间频繁数据搬运，消耗大量功耗和延迟（智能计算超过50%的功耗来自数据搬运）。存算一体原理：将运算器和存储器集成在一起，数据在存储位置直接计算，能效比相比GPU提升一至两个数量级。产业进展：特斯拉Dojo、后摩智能（鸿途H30，256TOPS，35W）等已推出存算一体芯片。计算芯片设计面向智能驾驶的计算芯片设计需在高性能、异构计算、高能效比、软硬协同和安全可靠性之间取得平衡。软硬协同设计（以Transformer优化为例）：乘加单元（MAC）设计、FC层优化（利用稀疏特性）、卷积设计（针对ViT的Conv4×4优化）、Integer-Only逼近计算。计算芯片设计面向智能驾驶的计算芯片设计需在高性能、异构计算、高能效比、软硬协同和安全可靠性之间取得平衡。互联与存储设计：内存带宽是制约有效算力的关键因素，NVLink（最高900GB/s）和HB

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第3章智能驾驶计算芯片

文档简介

温馨提示

最新文档

评论

第3章 智能驾驶计算芯片

文档简介

温馨提示

最新文档

评论

相关文档

第3章智能驾驶计算芯片