[GPU计算]CUDA基本介绍.ppt

上传人：奇*** IP属地：河北上传时间：2020-03-14 格式：PPT 页数：72 大小：4.03MB 积分：15 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

CUDA基本介绍基于NvidiaGPU的通用计算开发 GPU的优势强大的处理能力GPU接近1Tflops s高带宽140GB s低成本Gflop 和Gflops w高于CPU当前世界超级计算机五百强的入门门槛为12Tflops s一个三节点每节点4GPU的集群总处理能力就超过12Tflops s 如果使用GTX280只需10万元左右使用专用的Tesla也只需20万左右 1 GPU高性能计算 GPUVSCPU 计算能力 8xdoubleprecisionECCL1 L2Caches 1TFSinglePrecision4GBMemory GPU CPU架构比较延迟与吞吐量 CPU 通过大的缓存保证线程访问内存的低延迟但内存带宽小执行单元太少数据吞吐量小需要硬件机制保证缓存命中率和数据一致性GPU 高显存带宽和很强的处理能力提供了很大的数据吞吐量缓存不检查数据一致性直接访问显存延时可达数百乃至上千时钟周期单核CPU已经走到了尽头频率提高遇到了瓶颈从p4时代至今主流处理器频率一直在2GHz 3GHz左右架构上已无潜力可挖超线程多流水线复杂的分支预测大缓存等技术已经将性能发挥到了极致但是通用计算中的指令级并行仍然偏低上述技术占用了芯片上的绝大多数晶体管和面积目的却只是让极少数的执行单元能够满负荷工作 GPU能够更好的利用摩尔定律提供的晶体管图形渲染过程高度并行因此硬件也是高度并行的少量的控制单元大量的执行单元显存被固化在了PCB上拥有更好的EMI性能因此运行频率高于内存通过更大的位宽实现了高带宽当前的单核并行计算产品 IBMCell应用主要见于PS3SUNNiarragaNPUNV ATIGPU大规模应用GPU最为常见受市场牵引发展最快性价比最高架构比较 CPUGPUFPGA实现比较 CPUGPUFPGA实现比较当前的GPU开发环境 Cg 优秀的图形学开发环境但不适合GPU通用计算开发ATIstream 硬件上已经有了基础但只有低层次汇编能够使用所有资源高层次抽象Brook本质上是基于上一代GPU的缺乏良好的编程模型OpenCL 联合制定的标准抽象层次较低对硬件直接操作更多代码需要根据不同硬件优化CUDA 目前最佳选择未来的发展趋势 GPU通用计算进一步发展更高版本的CUDA OpenCL新产品涌现 Nvidia和AMD的下一代产品 Intel的LarraBeeCPU GPU产品减少了CPU GPU通信成本但存储器带宽和功耗面积等可能将制约集成度在较低端的应用中将有用武之地 CUDA的硬件架构适合通用计算 G8x系G9x系GT200系列标量机架构提高了处理效率更加适合通用计算增加了sharedmemory和同步机制实现线程间通信以通用的处理器矩阵为主辅以专用图形单元 GTX280性能 933Gflops MAD 单精度116Gflops双精度 MAD 512bit位宽ddr3显存提供了140GB s的带宽1G的显存 GT200框图 TPC 3SMInstructionandconstantcacheTextureLoad store SM ROP ROP 对DRAM进行访问TEXTURE机制对global的atomic操作微架构比较执行流水线工作在通用计算模式下的GT200 SM架构 DUAL Issue并发每二周期可以发射一次指令FPU和SFU指令延迟是四周期某些情况下可以让FPU和SFU并发执行实现超标量理论处理能力峰值没有计算dual issue双精度浮点计算不能dual issue CUDA架构GPU硬件特点硬件资源模块化根据市场定位裁减高度并行存在TPCSM两层每个SM又有8SPSM内存在高速的sharedmemory和同步机制原子操作有利于实现通用计算中的数据顺序一致性sharedmemoryTexturecacheconstantcache等高速片内存储器有助于提高数据访问速度节省带宽如何选购硬件目前 2008 12 只有CUDA能够完全发挥新一代GPU的全部计算能力 Nvidia的G80以上的GPU能够支持CUDA GT200系列不仅性能更强而且具有很多实用的新特性Tesla专用流处理器拥有更大的显存和更高的核心频率通过降低显存频率屏蔽不需要的图形单元和改善散热获得了更好的稳定性适合服务器或者集群使用适合的应用 GPU只有在计算高度数据并行任务时才能发挥作用在这类任务中需要处理大量的数据数据的储存形式类似于规则的网格而对这写数据的进行的处理则基本相同这类数据并行问题的经典例子有图像处理物理模型模拟如计算流体力学工程和金融模拟与分析搜索排序在很多应用中取得了1 2个数量级的加速不适合的应用需要复杂数据结构的计算如树相关矩阵链表空间细分结构等则不适用于使用GPU进行计算串行和事务性处理较多的程序并行规模很小的应用如只有数个并行线程需要ms量级实时性的程序需要重新设计算法和数据结构或者打包处理 CUDA执行模型重点是将CPU做为终端 Host 而GPU做为服务器 Server 或协处理器 Coprocessor 或者设备 Device 从而让GPU来运行一些能够被高度线程化的程序 CUDA的基本思想是尽量得开发线程级并行 ThreadLevelParallel 这些线程能够在硬件中被动态的调度和执行 CUDA执行模型调用核程序时CPU调用API将显卡端程序的二进制代码传到GPUgrid运行在SPA上block运行在SM上thread运行在SP上 gridblockthread Kernel不是一个完整的程序而只是其中的一个关键并行计算步Kernel以一个网格 Grid 的形式执行每个网格由若干个线程块 block 组成每一个线程块又由最多512个线程 thread 组成 gridblockthread 一个grid最多可以有65535 65535个block一个block总共最多可以有512个thread 在三个维度上的最大值分别为512 512和64 gridblockthread grid之间通过globalmemory交换数据block之间不能相互通信只能通过globalmemory共享数据不要让多个block写同一区段内容不保证数据一致性和顺序一致性同一block内的thread可以通过sharedmemory和同步实现通信block间粗粒度并行 block内thread细粒度并行 warp Warp是硬件特性带来的概念在CUDAC语言中是透明的除vote函数但应用中不能忽略一个warp中有32个线程这是因为SM中有8个SP 执行一条指令的延迟是4个周期使用了流水线技术一个halfwarp中有16个线程这是因为执行单元的频率是其他单元的两倍每两个周期才进行一次数据传输 SIMT编程模型 SIMT是对SIMD SingleInstruction MultipleData 单指令多数据的一种变形两者的区别在于 SIMD的向量宽度是显式的固定的数据必须打包成向量才能进行处理而SIMT中执行宽度则完全由硬件自动处理了每个block中的thread数量不一定是32 而SIMT中的warp中的每个线程的寄存器都是私有的它们只能通过sharedmemory来进行通信分支性能与现代的微处理器不同 Nvidia的SM没有预测执行机制没有分支预测单元 BranchPredicator 在需要分支时只有当warp中所有的线程都计算出各自的分支的地址并且完成取指以后 warp才能继续往下执行如果一个warp内需要执行N个分支那么SM就需要把每一个分支的指令发射到每一个SP上再由SP根据线程的逻辑决定需不需要执行这是一个串行过程此时SIMT完成分支的时间是多个分支时间之和存储器模型 RegisterLocalsharedGlobalConstantTextureHostmemoryPinnedhostmemory 寄存器与localmemory 对每个线程来说寄存器都是线程私有的这与CPU中一样如果寄存器被消耗完数据将被存储在本地存储器 localmemory Localmemory对每个线程也是私有的但是localmemory中的数据是被保存在显存中而不是片内的寄存器或者缓存中速度很慢线程的输入和中间输出变量将被保存在寄存器或者本地存储器中 Sharedmemory 用于线程间通信的共享存储器共享存储器是一块可以被同一block中的所有thread访问的可读写存储器访问共享存储器几乎和访问寄存器一样快是实现线程间通信的延迟最小的方法共享存储器可以实现许多不同的功能如用于保存共用的计数器例如计算循环次数或者block的公用结果例如计算512个数的平均值并用于以后的计算 constantmemory texturememory 利用GPU用于图形计算的专用单元发展而来的高速只读缓存速度与命中率有关不命中时将进行对显存的访问常数存储器空间较小只有64k 支持随机访问从host端只写从device端只读纹理存储器尺寸则大得多并且支持二维寻址一个数据的上下左右的数据都能被读入缓存适合实现图像处理算法和查找表全局存储器使用的是普通的显存无缓存可读写速度慢整个网格中的任意线程都能读写全局存储器的任意位置并且既可以从CPU访问也可以从CPU访问各种存储器的延迟 register 1周期sharedmemory 1周期无bankconflict 16周期发生16路bankconflict texturememory 1 命中数百周期不命中 constantmemory 1 命中数百周期不命中 globallocalmemory 数百周期各存储器大小每个SM中有64K GT200 或者32K G8x G9x 寄存器寄存器的最小单位是32bit的registerfile每个SM中有16Ksharedmemory一共可以声明64K的constantmemory 但每个SM的cache序列只有8K可以声明很大的texturememory 但是实际上的texturecache序列为每SM6 8K 使用存储器时可能出现的问题致命问题无法产生正确结果多个block访问global同一块以及block内thread间线程通信时的数据一致性问题Texture的工作模式设置错误效率问题大大增加访存延迟Sharedbankconflict问题Global合并访问问题 Bankconflict Sharedmemory被分为了16个bank 单位是32 bit 相邻数据在不同bank中对16余数相同的数据在同一bankHalfwarp中的16个线程访问sharedmemory时最好一一对应如果多个thread同时访问属于同一bank的数据将发生bankconflict16个线程读同一数据时会发生一次广播只用一个cycle 没有bankconflict 合并访问访问显存时要遵守严格的合并访问规则将halfwarp访问global的起始位置严格的对齐到16的整数倍在G8x G9x硬件上thread访问显存的位置必须逐一递增GT200有了很大的改进对齐和次序比较灵活好的合并访问可以将存储器访问次数减少十几倍 CUDAAPI CUDAC语言由Nvidia的CUDA编译器 nvcc 编译CUDAC不是C语言而是对C语言进行扩展形成的变种 CUDA对C的扩展函数限定符对函数有了限定符用来规定函数是在host还是在device上执行以及这个函数是从host调用还是从device调用这些限定符是 device host 和 global CUDA对C的扩展函数限定符 device 函数在device端执行并且也只能从device端调用即作为device端的子函数来使用 global 函数即kernel函数它在设备上执行但是要从host端调用 host 函数在host端执行也只能从host端调用与一般的C函数相同 CUDA对C的扩展变量限定符对变量类型的限定符用来规定变量被存储在哪一种存储器上传统的在CPU上运行的程序中编译器就能自动决定将变量存储在CPU的寄存器还是在计算机的内存中而在CUDA中不仅要使用host端的内存而且也要使用显卡上的显存和GPU上的几种寄存器和缓存在CUDA编程模型中一共抽象出来了多达8种不同的存储器 CUDA对C的扩展变量限定符 device device 限定符声明的变量存在于device端其他的变量限定符声明的变量虽然存在于不同的存储器里但总体来说也都在device端所以 device 限定符可以与其他的限定符联用当单独使用 device 限定符修饰变量时这个变量存在于globalmemory中变量生命周期与整个程序一样长可以被grid中所有的线程都可以访问也可以从host端通过运行时库中的函数访问 CUDA对C的扩展变量限定符 constant constant 限定符可以与 device 联用即 device constant 此时等同于单独使用 constant 使用 constant 限定符修饰的变量存在于constantmemory中访问时速度一般比使用globalmemory略快变量生命周期与整个程序一样长可以被grid中所有的线程读从host端通过运行时库中的函数写 CUDA对C的扩展变量限定符 shared shared 限定符可以与 device 联用即 device shared 此时等同于单独使用 shared 使用 shared 限定符修饰的变量存在于block中的sharedmemory中变量生命周期与block相同只有同一block内的thread才能访问 CUDA对C的扩展 kernel执行参数运算符用来传递一些kernel执行参数Grid的大小和维度Block的大小和维度外部声明的sharedmemory大小stream编号 CUDA对C的扩展内建变量 Dim3ThreadIdx 三维 Dim3ThreadDim 三维 Dim3BlockIdx 二维 Dim3BlockDim 三维执行参数与内建变量的作用各个thread和block之间的唯一不同就是threadID和BlockID 通过内建变量控制各个线程处理的指令和数据CPU运行核函数时的执行参数确定GPU在SPA上分配多少个block 在SM上分配多少个thread CUDAAPI CUDAAPI需要CUDAdriverAPI才能运行新版本的Nvidia驱动已经包含了CUDAdriverAPICUDAruntimeAPI是CUDAAPI的可选组件它是一种动态编译器 JIT 能够直接访问实际中的底层硬件架构 CUDAAPI功能设备管理 Devicemanagement 上下文管理 Contextmanagement 存储器管理 Memorymanagement 代码块管理 CodeModulemanagement 执行控制 ExcutionControl 纹理索引管理 TextureReferencemanagement 与OpenGL和Direct3D的互操作 InteroperitywithOpenGLandDirect3D NVCC编译器生成三种不同的输出 PTX CUDA二进制序列和标准C NVCC编译器PTX PTX ParallelThreadeXecution 作用类似于汇编是为动态编译器包含在标准的Nvidia驱动中设计的输入指令序列这样不同的显卡使用不同的机器语言而动态编译器却可以运行相同的PTX 这样做使PTX成为了一个稳定的接口带来了很多好处后向兼容性更长的寿命更好的可扩展性和更高的性能但在一定程度上也限制了工程上的自由发挥这种技术保证了兼容型但也使新一代的产品必须拥有上代产品的所有能力这样才能让今天的PTX代码在未来的系统上仍然可以运行 NVCC编译器CUBIN 虽然PTX和JIT编译器提供了很高的性能但也不是在所有的场合都适用某些独立软件开发商倾向于牺牲性能以获得更好的可确定性和可验证性 JIT编译器的输出随着目标硬件和一些其他因素会发生变化对于需要能够确定的代码的独立软件开发商比如很多财经软件开发商它们可以将代码直接编译成CUDA二进制代码这样就能避免JIT过程的不确定性直接编译得到的CUDA二进制代码是与特定的硬件和驱动相关的 NVCC编译器C Nvcc的输出还包括标准C 由nvcc生成的C代码将被重定向到其他编译器进行编译比如ICC GCC或者其他合适的高性能编译器 CUDA中明确的表示了程序中的并行度没不仅在用于编写运行在NvidiaGPU上的代码时非常有效而且为多核CPU生成高性能代码在某些应用中 CUDA生成的代码比标准的x86编译器生成的代码的性能提高了4倍 CUDAAPI库函数 CUFFTGPU进行傅立叶变换的函数库提供了与广泛使用的FFTW库相似的接口 CUBLAS CUDABasicLinearAlgorithmSubprogrammes 库是一个基本的矩阵与向量的运算库提供了与BLAS相似的接口可以用于简单的矩阵计算也可以作为基础构建更加复杂的函数包如LAPACK等 CUDPP CUDADataparallelprimitives 库提供了很多基本的常用并行操作函数如排序搜索等可以作为基本组件快速的搭建出并行计算程序如何编写CUDA程序硬件实现不完全透明需要掌握硬件实现的原理并行度高适合CPU的小规模并行算法不一定适用需要重新设计算法或者参考在集群上使用的并行算法如何编写CUDA程序确定适合GPU的算法找出算法中的并行部分根据需

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

[GPU计算]CUDA基本介绍.ppt

文档简介

温馨提示

最新文档

评论

[GPU计算]CUDA基本介绍.ppt

文档简介

温馨提示

最新文档

评论

相关文档