芯片处理器怎么在深度学习中发挥作用_第1页
芯片处理器怎么在深度学习中发挥作用_第2页
芯片处理器怎么在深度学习中发挥作用_第3页
芯片处理器怎么在深度学习中发挥作用_第4页
芯片处理器怎么在深度学习中发挥作用_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

芯片处理器怎么在深度学习中发挥作用随着AI的广泛应用,深度学习已成为当前AI研究和运用的主流方式。面对海量数据的并行运算,AI对于算力的要求不断提升,对硬件的运算速度及功耗提出了更高的要求。目前,除通用CPU外,作为硬件加速的GPU、NPU、FPGA等一些芯片处理器在深度学习的不同应用中发挥着各自的优势,但孰优孰劣?以人脸识别为例,其处理基本流程及对应功能模块所需的算力分布如下:为什么会有这样的应用区分?意义在哪里?想要知道其中的答案,需要我们先从CPU、GPU、NPU、FPGA它们各自的原理、架构及性能特点来了解。首先,我们先来了解一下通用CPU的架构。CPUCPU(CentralProcessingUnit)中央处理器,是一块超大规模的集成电路,主要逻辑架构包括控制单元Control,运算单元ALU和高速缓冲存储器(Cache)及实现它们之间联系的数据(Data)、控制及状态的总线(Bus)。简单说,就是计算单元、控制单元和存储单元。架构图如下所示:CPU遵循的是冯诺依曼架构,其核心是存储程序、顺序执行。CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(Control),相比之下计算单元(ALU)只占据了很小的一部分,所以它在大规模并行计算能力上极受限制,而更擅长于逻辑控制。CPU无法做到大量矩阵数据并行计算的能力,但GPU可以。GPUGPU(GraphicsProcessingUnit),即图形处理器,是一种由大量运算单元组成的大规模并行计算架构,专为同时处理多重任务而设计。为什么GPU可以做到并行计算的能力?GPU中也包含基本的计算单元、控制单元和存储单元,但GPU的架构与CPU有所不同,如下图所示:与CPU相比,CPU芯片空间的不到20%是ALU,而GPU芯片空间的80%以上是ALU。即GPU拥有更多的ALU用于数据并行处理。以Darknet构建的神经网络模型AlexNet、VGG-16及Restnet152在GPUTitanX,CPUInteli7-4790K(4GHz)进行ImageNet分类任务预测的结果:由此可见,GPU处理神经网络数据远远高效于CPU。总结GPU具有如下特点:1、多线程,提供了多核并行计算的基础结构,且核心数非常多,可以支撑大量数据的并行计算。2、拥有更高的访存速度。3、更高的浮点运算能力。因此,GPU比CPU更适合深度学习中的大量训练数据、大量矩阵、卷积运算。GPU虽然在并行计算能力上尽显优势,但并不能单独工作,需要CPU的协同处理,对于神经网络模型的构建和数据流的传递还是在CPU上进行。同时存在功耗高,体积大的问题。性能越高的GPU体积越大,功耗越高,价格也昂贵,对于一些小型设备、移动设备来说将无法使用。因此,一种体积小、功耗低、计算性能高、计算效率高的专用芯片NPU诞生了。NPUNPU(NeuralNetworksProcessUnits)神经网络处理单元。NPU工作原理是在电路层模拟人类神经元和突触,并且用深度学习指令集直接处理大规模的神经元和突触,一条指令完成一组神经元的处理。相比于CPU和GPU,NPU通过突触权重实现存储和计算一体化,从而提高运行效率。NPU是模仿生物神经网络而构建的,CPU、GPU处理器需要用数千条指令完成的神经元处理,NPU只要一条或几条就能完成,因此在深度学习的处理效率方面优势明显。实验结果显示,同等功耗下NPU的性能是GPU的118倍。与GPU一样,NPU同样需要CPU的协同处理才能完成特定的任务。下面,我们可以看一下GPU和NPU是如何与CPU协同工作的。GPU的加速GPU当前只是单纯的并行矩阵的乘法和加法运算,对于神经网络模型的构建和数据流的传递还是在CPU上进行。CPU加载权重数据,按照代码构建神经网络模型,将每层的矩阵运算通过CUDA或OpenCL等类库接口传送到GPU上实现并行计算,输出结果;CPU接着调度下层神经元组矩阵数据计算,直至神经网络输出层计算完成,得到最终结果。CPU与GPU的交互流程:1获取GPU信息,配置GPUid2加载神经元参数到GPU3GPU加速神经网络计算4接收GPU计算结果NPU的加速NPU与GPU加速不同,主要体现为每层神经元计算结果不用输出到主内存,而是按照神经网络的连接传递到下层神经元继续计算,因此其在运算性能和功耗上都有很大的提升。CPU将编译好的神经网络模型文件和权重文件交由专用芯片加载,完成硬件编程。CPU在整个运行过程中,主要是实现数据的加载和业务流程的控制,其交互流程为:1打开NPU专用芯片设备2传入模型文件,得到模型task3获取task的输入输出信息4拷贝输入数据到模型内存中5运行模型,得到输出数据除NPU外,在功耗及计算能力上有一拼的还有FPGA。FPGAFPGA(Field-ProgrammableGateArray)称为现场可编程门阵列,用户可以根据自身的需求进行重复编程。与CPU、GPU相比,具有性能高、功耗低、可硬件编程的特点。FPGA基本原理是在芯片内集成大量的数字电路基本门电路以及存储器,而用户可以通过烧入FPGA配置文件来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的,可重复编写定义,重复配置。FPGA的内部结构如下图所示:FPGA的编程逻辑块(ProgramableLogicBlocks)中包含很多功能单元,由LUT(Look-upTable)、触发器组成。FPGA是直接通过这些门电路来实现用户的算法,没有通过指令系统的翻译,执行效率更高。我们可以对比一下CPU/GPU/NPU/FPGA各自的特点各芯片架构特点总结【CPU】70%晶体管用来构建Cache,还有一部分控制单元,计算单元少,适合逻辑控制运算。【GPU】晶体管大部分构建计算单元,运算复杂度低,适合大规模并行计算。主要应用于大数据、后台服务器、图像处理。【NPU】在电路层模拟神经元,通过突触权重实现存储和计算一体化,一条指令完成一组神经元的处理,提高运行效率。主要应用于通信领域、大数据、图像处理。【FPGA】可编程逻辑,计算效率高,更接近底层IO,通过冗余晶体管和连线实现逻辑可编辑。本质上是无指令、无需共享内存,计算效率比CPU、GPU高。主要应用于智能手机、便携式移动设备、汽车。CPU作为最通用的部分,协同其他处理器完成着不同的任务。GPU适合深度学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论