浅谈GPU编程PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-03-20 格式：PPT 页数：42 大小：4.71MB 积分：35 举报 版权申诉

已阅读5页，还剩37页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

CUDA略谈 1 引言逻辑线程拓扑CUDA存储器类型设备端存储器主机端存储器参考书 2 CUDA 统一计算设备架构它是一种将GPU作为数据并行计算设备的软硬件体系开发GPU通用计算程序需掌握并行算法和GPU架构方面的知识支持CUDA的GPU可有效利用原用于图形渲染的计算资源进行通用计算此处就基于GPU的CUDA编程谈一些认识 3 线程逻辑拓扑结构 4 线程逻辑拓扑结构线程拓扑分两个层次顶层是2维网格平面以块为单位块为3维立方结构以线程为单位故称线程块 grid 4 4 block 4 4 4 thread block 5 CUDA程序结构内核函数即设备端代码形如 global kernel 形参主机端代码voidmain dim3block 4 4 4 dim3grid 4 4 1 kernel 实参 6 存储器层次结构 7 存储器类型 8 设备端存储器结构寄存器共享存储器局部存储器常数存储器全局存储器纹理存储器板载显存 GPU片上 9 寄存器 GPU片上高速存储器每个寄存器32bit 每个SM有大量寄存器但由块内线程共享故平均到每个线程的寄存器就很有限了在内核函数中声明的少量变量是寄存器变量每个线程都维护各自的寄存器变量它们是线程私有的 global kernel intbx blockIdx x intby blockIdx y inttx threadIdx x intty threadIdx y inttz threadIdx z 10 局部存储器板载显存如果每个线程使用了过多的寄存器或声明了大型结构体或数组或者编译器无法确定数组的大小线程的私有变量就有可能会被分配到局部存储器中例见P46 11 共享存储器 SM 线程块内共享片上高速存储器静态分配动态分配 global kernel 形参 shared intsm static 16 extern shared intsm dynamic voidmain intsm dynamic size 32 kernel 实参 12 共享存储器 SM SM的组织方式在1 x计算能力的设备中 sm共16KB 被划分为16个bank 每个bank的宽度为32位 32bit bank0 0 16 32bit banki i 16 i 32bit bank15 15 31 32bit bank1 1 17 13 共享存储器 SM SM访问的bank冲突每个warp为32个线程一个warp对sm的访问被分成两个half warp的访问只有同一个half warp内的线程才可能发生bank冲突前half warp的线程与后half warp的线程之间则不会发生bank冲突 14 共享存储器 SM bank half warp bank half warp 顺序访问随机访问无bank冲突 bank half warp 3间隔访问 15 共享存储器 SM bank half warp bank half warp 2间隔访问 8间隔访问 2路bank冲突 bank half warp 广播机制 8路bank冲突无bank冲突 16 常数存储器只读存储器数据位于显存但拥有缓存加速空间较小只有64KB 每个SM拥有8KB的常数存储器缓存在函数外定义作用范围为文件域主机端和设备端函数均可见使用方法方法1 定义时初始化内核函数中直接使用方法2 先定义后在主机端用函数赋值 17 常数存储器 constant charp HelloCUDA 11 定义 constant intt HelloCUDA 11 0 1 2 3 4 5 6 7 8 9 10 定义并初始化 constant intnum 11 定义并初始化 global staticvoidHelloCUDA char result inti 0 for i 0 i num i result i p HelloCUDA i t HelloCUDA i intmain charhelloCUDA HelloCUDA cudaMemcpyToSymbol p HelloCUDA helloCUDA sizeof char 11 直接使用函数赋值 18 全局存储器位于板载显存占据显存的绝大部分没有缓存也称线性内存可定义两种数据结构线性存储器用于存放主机端传过来的数据或存放将要回传给主机的数据 CUDA数组用于纹理绑定为有效利用带宽必须遵循合并访问要求并避免分区冲突 19 全局存储器分区 partition 冲突在中高端GPU中一般有多个存储器控制器每个存储器控制器对应的地址空间称为一个分区连续的256Byte数据存储于同一分区中相邻的另一组256Byte数据则存储在相邻的分区中 GTX280中有8个分区一个512个元素的浮点数组布局如下在访问数据时应均匀分布在不同的分区中 256byte partition0 0 63 448 511 64 127 256byte 256byte 256byte partition1 partitioni partition7 20 全局存储器合并访问按段长对齐可满足合并访问的要求结构体数组的对齐定义P157一维线性数组至少按256Byte对齐二三维线性数组采用填充 P49 进行对齐满足对齐要求的数组分配函数及赋值函数见下表 21 纹理存储器 GPU芯片全局存储器用于纹理的两种数据形式普通线性存储器CUDA数组纹理存储器 HOST 显卡纹理参照系纹理拾取绑定 22 纹理存储器有关术语及描述只读存储器容量比常数存储器大纹理拾取在内核函数中访问纹理存储器的操作纹理拾取使用的坐标与数据在显存中的位置可以不同通过纹理参照系约定二者的映射方式将数据与纹理绑定将显存中的数据与纹理参照系关联的操作 23 纹理存储器有关术语及描述显存中可绑定到纹理的数据形式普通线性存储器非对齐只能与一维或者二维纹理绑定采用整型纹理拾取坐标坐标与数据在存储器中的位置相同 CUDA数组可以与一维二维或者三维纹理绑定纹理拾取坐标为归一化或者非归一化的浮点型像元绑定到纹理的线性存储器或CUDA数组中的元素 24 纹理存储器有关术语及描述像元的数据类型不支持三元组 25 纹理存储器有关术语及描述纹理存储器有缓存机制纹理缓存一次预取拾取坐标对应位置附近的几个像元绑定到纹理的数据修改后应重启内核函数且纹理缓存刷新后才能拾取到被修改的数据 26 纹理存储器纹理存储器的特殊功能浮点型纹理拾取坐标归一化 0 0 1 0 非归一化 0 0 N N为该维度上的像元数寻址模式输入坐标超范围时的处理方式钳位模式 clamp 按上下限坐标拾取像元循环模式 wrap 也称回绕只用于归一化坐标类型转换对8位或16位整型像元数据其拾取的返回值可转换为归一化浮点型滤波对CUDA数组绑定的纹理拾取返回值为浮点型则可对返回值进行滤波最近点取样适用于查找表线性滤波适用于图像处理 27 纹理存储器使用步骤1 在主机端声明显存中需要绑定到纹理的线性存储器或CUDA数组 CUDA数组元素的数据类型用结构体cudaChannelFormatDesc来描述structcudaChannelFormatDesc intx y z w 多元组数据中每个分量二进制位数enumcudaChannelFormatKindf f取值 cudaChannelFormatKindSigned 有符号整型 cudaChannelFormatKindUnsigned 无符号整型 cudaChannelFormatKindFloat 浮点型 28 纹理存储器使用步骤1 在主机端声明显存中需要绑定到纹理的线性存储器或CUDA数组 CUDA数组元素的数据类型如uchar2 则x y z w分别是8 8 0 0 而f取值为cudaChannelFormatKindUnsigned又如float4 则x y z w分别是32 32 32 32 而f取值为cudaChannelFormatKindFloat 29 纹理存储器使用步骤1 在主机端声明显存中需要绑定到纹理的线性存储器或CUDA数组 CUDA数组的维度CUDA数组空间分配函数 cudaMalloc3DArray 分配一维二维或三维数组cudaMallocArray 一般用于二维数组CUDA数组空间释放函数 cudaFreeArray CUDA数组与其他CUDA数组或线性存储器的数据传输 cudaMemcpyToArray 或cudaMemcpy3D 30 纹理存储器使用步骤1 在主机端声明显存中需要绑定到纹理的线性存储器或CUDA数组 CUDA数组尺寸用结构体cudaExtent描述数组三个维度的大小cudaExtentextent make cudaextent 1 8192 0 0 cudaExtentextent make cudaextent 1 65535 1 32768 0 cudaExtentextent make cudaextent 1 2048 1 2048 1 2048 31 纹理存储器使用步骤1 在主机端声明显存中需要绑定到纹理的线性存储器或CUDA数组例声明一个数据类型为uchar2 64 32 16的CUDA3D数组 cudaArray cuArray 0 cudaExtentextent make cudaExtent 64 32 16 cudaChannelFormatDescdesc cudaCreateChannelDesc 8 8 0 0 cudaChannelFormatKindUnsigned cudaMalloc3DArray 32 纹理存储器使用步骤1 在主机端声明显存中需要绑定到纹理的线性存储器或CUDA数组 CUDA数组声明完毕后还需赋值可用以下函数完成CUDA数组赋值 CUDA数组之间赋值cudaMemcpyToArray CUDA数组与线性存储器之间赋值cudaMemcpy3D 33 纹理存储器使用步骤2 声明纹理参照系纹理参照系属性编译时属性编译前显式声明编译时确定一旦确定不能修改运行时属性运行时设定只适用于与CUDA数组绑定的纹理参照系在所有函数体外声明文件域的texture型变量最好放在头文件中形如下示 texturetexRef 34 纹理存储器使用步骤2 声明纹理参照系texturetexRef 编译时属性 Type 纹理拾取返回的数据类型即CUDA像元Dim 确定纹理参照系的维度默认为1 可取值分别为1 2 3ReadMode 确定返回值是否进行类型转换cudaReadModeNormalizedFloat 转换为浮点型cudaReadModeElementType 不转换此为默认值 35 纹理存储器使用步骤2 声明纹理参照系运行时属性通过结构体textureReference描述structtextureReference intnormalized 坐标是否归一化非零值表示归一化enumcudaTextureFilterModefilterMode 滤波模式enumcudaTextureAddressModeaddressMode 3 structcudaChannelFormatDescchannelDesc 纹理拾取返回的数据类型要与CUDA数组声明时的类型一致前已述及滤波模式有以下两种取值 cudaFilterModePoint表示最近点取样cudaFilterModeLinear表示线性滤波寻址模式它是一个大小为3的数组对应3个维度可取以下两种值 cudaAddressModeClamp 表示钳位模式 cudaAddressModeWrap 表示循环模式 36 纹理存储器使用步骤3 纹理绑定将纹理与数组按纹理参照系绑定实现数组到纹理的映射绑定函数 cudaBindTexture 用于纹理与线性存储器绑定cudaBindTextureToArray 用于纹理与CUDA数组绑定解除绑定 cudaUnbindTexture 37 纹理存储器使用步骤4 纹理拾取函数见下表 38 主机端内存在CUDA编程模型中可申请使用的内存有如下两类可分页内存 pageablememory 通过操作系统API来分配如malloc 页锁定内存 page locked pinnedmemory 始终在物理内存中并以DMA与设备通信分配函数 cudaHostAlloc 释放函数 cudaFreeHost 39 主机端内存页锁定内存的标志 cudaHostAllocDefault 分配页锁定内存cudaHostAllocPortable 可在线程间共享cudaHostAllocWriteCombined 此类内存在CPU访问时不缓存仅适用于CPU写 GPU读的模式cudaHo

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

浅谈GPU编程PPT课件.ppt

文档简介

温馨提示

最新文档

评论

浅谈GPU编程PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档