版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、栏目编辑韩汝水 D esign设计天地FieldG P U并行化处理可编程图形处理器(P r o g r a m m a b l eGraphicProcessUnit,PGPU是目前计算机上普遍采用的图形图像处理专用器件,具有单指令流多数据流(SIMD的并行处理特性,而且提供了完全支持向量操作指令和符合IEEE32位浮点格式的顶点处理能力和像素处理能力,已经成为了一个强大的并行计算单元。研究人员将其应用于加速科学计算和可视化应用程序,取得了令人鼓舞的研究成果。与CPU相比,GPU具有以下优势:强大的并行处理能力和高效率的数据传输能力127。其中,并行性主要体现了指令级、数据级和任务级三个层次
2、。高效率的数据传输主要体现在两个方面:GPU与显存之间的带宽为:16GB/s;系统内存到显存的带宽为:4GB/s。总上所述,GPU比较适合处理具有下面特性的应用程序:1、大数据量;2、高并行性;3、低数据耦合;4、高计算密度;5、与CPU交互比较少。数字图像处理的并行化分析数字图像处理算法多种多样,但从数据处理的层面来考虑,可以分为:像素级处理、特征级处理和目标级处理三个层次34。像素级图像处理像素级处理,即由一幅像素图像产生另一幅像素图像,处理数据大部分是几何的、规则的和局部的。根据处理过程中的数据相关性,像素级处理又可进一步分为点运算、局部运算和全局运算。特征级图像处理特征级处理是在像素图
3、像产生的一系列特征上进行的操作。常用的特征包括:形状特征、纹理特征、梯度特征和三维特征等,一般采用统一的测度,如:均值、方差等来进行描述和处理,具有在特征域内进行并行处理的可能性。但是,由于其特征具有象征意义和非局部特性,在局部区域并行的基础上,需要对总体进行处理。利用GPU实现并行化处理的难度比较大。目标级图像处理目标级处理是对由一系列特征产生的目标进行操作。由于目标信息具有象征意义和复杂性,通常是利用相关知识进行推理,得到对图像的描述、理解、解释以及识别。由于其数据之间相关性强,且算法涉及到较多的知识和人工干预,并行处理的难度也比较大。由此可见,整个图像处理的结构可以利用一个金字塔模型来表
4、示。在底层,虽然处基于GPU的数字图像并行处理方法* ParallelImageProcessingBasedonGPU盖素丽河北省应用数学研究所(河北石家庄0500812008年12月9日收到本文。*河北省自然科学基金项目(200710096057栏目编辑韩汝水 Design 设计天地Field理的数据量巨大,但由于局部数据之间的相关性小,且较少的涉及知识推理和人工干预,因此大多数算法的并行化程度比较高。当沿着这个金字塔结构向高层移动时,随着抽象程度的提高,大量原始数据减少,所需的知识和算法的复杂性逐层提高,并行化处理的难度也逐渐加大。由于绝大部分的图像处理算法是在像素级进行的,且GPU 的
5、SIMD 并行流式处理在进行像素级的图像处理时具有明显的优势,而特征级和目标级处理无论是从数据的表达还是从算法自身的实现来说,都很难实现GPU 并行化。因此,本文重点研究各种像素级图像处理操作的GPU 并行化实现方法。数字图像G P U 并行化处理的基本流程与关键技术现代GPU 提供了顶点处理器和片段处理器两个可编程并行处理部件。在利用GPU 执行图像处理等通用计算任务时,要做的主要工作是把待求解的任务映射到GPU 支持的图形绘制流水线上。通常的方法是把计算任务的输入数据用顶点的位置、颜色、法向量等属性或者纹理等图形绘制要素来表达,而相应的处理算法则被分解为一系列的执行步骤,并改写为GPU的顶
6、点处理程序或片段处理程序,然后,调用3DAPI 执行图形绘制操作,调用片段程序进行处理;最后,保存在帧缓存中的绘制结果就是算法的输出数据,如图1所示56。虽然数字图像处理算法多种多样,具体实现过程也很不相同,但是在利用GPU进行并行化处理时,有一些共性的关键技术问题需要解决,如:数据的加载,计算结果的反馈、保存等。下面对这些共性的问题进行分析,并提出相应的解决思路。数据加载在GPU 的流式编程模型中,所有的数据都必须以“流”的形式进行加载处理,并通过抽象的3DAPI 进行访问。在利用GPU 进行图像处理时,最直接有效的数据加载方法是把待处理的图像打包为纹理,在绘制四边形时进行加载、处理。同时为
7、了保证GPU上片段程序能够逐像素的对纹理图像进行处理,必须将投影变换设置为正交投影,视点变换的视区与纹理大小相同,使得光栅化后的每个片段(fragment和每个纹理单元(texel一一对应。对于图像处理算法中的其他参数,如果数据量很小,则可以直接通过接口函数进行设置;如果参数比较多,也应该将其打包为纹理的形式传输给GPU。在打包的过程中应充分利用纹理图像所具有的R、G、B、A 四个通道。计算结果的反馈、保存应用程序是通过调用3DAPI 绘制带纹理的四边形,激活GPU上的片段程序进行图像处理的,而GPU片段着色器的直接渲染输出是一个帧缓冲区,它对应着计算机屏幕上的一个窗口,传统上用来容纳要显示到
8、屏幕的像素,但是在GPU流式计算中可以用来保存计算结果。虽然CPU 可以通过3DAPI 直接读写这个帧缓冲区,将渲染处理的结果从帧缓存中复制到系统内存进行保存,但是帧缓存的大小受窗口大小限制,而且由于AGP 总线的带宽限制(2.1GB/s,从显存到系统图1遥感影像GPU 并行化处理基本流程内存的数据回读操作效率低下。对于大幅影像的处理应用是显然不适合的,特别是在中间计算结果的保存反馈时,采用帧缓存方式将成为制约GPU 性能发挥的最主要瓶颈。针对以上问题,笔者利用离线渲染缓存P b u f f e r 作为输出缓存。P b u f f e r 是OpenGL1.3版本的WGL_ARB_pbuff
9、er 扩展提供的输出缓存,它通过在显存中开辟一个不可见的数据缓冲区,取代帧缓存来保存片段处理器的输出结果。如果这个结果只是中间计算数据,还可以采用渲染到纹理的技术,把Pbuffer中的数据绑定到一个纹理,供下一遍绘制的片段程序取用,减少数据在显存和系统内存之间的传输,实现整个数据流在GPU芯片内部的流转,显著提高数据的反馈速度。特别是在需要GPU反复执行的情况下,可以构造两个Pbuffer,交替的作为输入或输出纹理使用,产生所谓的“Ping-Pong”方法,有效避免中间计算结果的回读操作。图像卷积运算的G P U 并行化试验卷积运算是一种常见的数字图像处理局部运算,通过选择不同的卷积核,可以实
10、现不同的图像处理效果。图像卷积运算定义为:l =0I'i ,j (,0i M,0j N 为卷积运算以后的图像;I i ,j (,0i M,0j N 为待处理的图像;h k ,l (,0k p,0l q 为卷积核;T 为常数,当卷积核中所有系数之和不为零时,T 等于所有系数之和,否则等于1。试验平台与数据硬件平台为:IntelCore22.0GHzCPU,1GB 系统内存,NVIDIA 公司的GeForceG07400GPU,512MB 显存。软件平台:W i n d o w s X P 操作系统,CPU 程序开发环境为MicrosoftVisual C+2005,三维绘制接口为Open
11、GL 及其扩展库WGL_ARB_pbuffer,GPU 程序开发语言为Cg。所采用的试验数据有两组,如图2所示:第一组为:截取的新加坡部分地区QucikBird卫星影像,大小为2048×2048(像素;第二组为:截取的黄河小浪底部分地区Spot4卫星影像,大小为2048×2048(像素。试验步骤与数据记录为了进行多组数据的对比试验,首先对原始图像数据进行预处理,通过裁减获得大小分别为2048×2048、1024×1024、521×512、256×256、128×128的试验数据。以经过预处理的10幅不同大小的图像进行卷积运算
12、对比试验,分别运行卷积平滑和卷积锐化的CPU 和GPU 程序,并记录处理时间。试验所用的平滑卷积核h 1为式(2,锐化卷积核h 2为式(3:h 1=1111111111111111111111111 (2h 2=111191111 (3试验结果与分析图3所示为图像数据二512×512的平滑和锐化试验的处理结果,图4为GPU 加速效图2卷积运算试验数据(a试验数据一(b试验数据二下转48 是独立的。实验显示瞬态功率对一些传输系统仍然比较大,然而通过对控制信道功率的电路控制与EDFA 增益和输出功率来对响应时间进行优化,此方案可提供一个可靠E D F A 操作使我们能使用O A D M
13、或O X C 来构建W D M 网络。参考文献:1杨智.EDFA瞬态增益特性控制方法J,光通信研究,第2期,2007年,63662廖先炳.EDFA及其发展动向J,光纤光缆传输技术,第1期,2003年,30333丁炜.EDFA光线放大原理及应用J,有限电视技术,第16期,2005年,21244黄红斌.抑制EDFA瞬态效应方法的研究J,激光与光电子学进展,第7期,2005年,31345于岭.EDFA 增益控制技术J,光器件,第6期,2004年,2830率对比图。从图4可以看出:随着图像的增大,特别是卷积核的变大,GPU的加速效果更加明显,例如:对2048×2048大小的图像进行5
14、5;5的卷积运算,最高加速比达到了8倍多。但是,在图像数据较小时,由于OpenGL 的初始化和纹理数据的加载耗费了大量的时间,使得GPU 并行处理的优势消失,甚至还没有CPU 处理的速度快。结语本文对GPU 的并行性和数字图像处理算法的并行层次进行了简要的介绍,提出了像素级图像处理的GPU并行化实现方法,并对其基本流程和关键技术:数据的加载,计算结果的反馈与保存等问题进行了详细论述,最后通过图像的平滑和锐化的卷积运算证明了GPU 在数字图像并行化处理方面的强大优势。参考文献:1柳有权.基于物理的计算机动画及其加速技术的研究D.北京:中国科学院研究生院博士论文,2005.2谭久宏,周维超,吴钦章.基于GPU的数字图像处理J.科教文汇,2006,4:178-179.3卢丽君,廖明生,张路.分布式并行计算技术在遥感数据处理中的应用J.测绘信息与工程,2005,30(3:1-3.4D O W N T O N A ,C R O O K E S D .P a r a l l e l ArchitecturesforImageProcessingJ.Electronics andCommunicationEngineeringJourna
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030绿色建筑趋势下免漆门市场机遇与挑战报告
- 2025-2030绿色建筑节能技术应用现状及未来发展潜力研究报告
- 2025-2030绿色建材认证体系下免漆门产品技术标准与市场准入分析
- 2025-2030绿色会展理念在中国实践与推广策略研究报告
- 2025-2030纳米药物递送系统创新与靶向治疗技术突破报告
- 2025-2030结构均为领域+研究维度+报告类型
- 银行从业资格证考试照相及答案解析
- 2025-2030纳米结构费托蜡在柔性电子中的创新应用实验室成果转化研究
- 2025-2030纳米材料在购物袋领域的应用前景分析报告
- 信托从业资格考试及答案解析
- 2025年农村农业科技技术基础知识试题与答案
- 代理合伙人协议书范本
- 运动素质知到课后答案智慧树章节测试答案2025年春浙江大学
- YY 0594-2006外科纱布敷料通用要求
- 个人学习-1 .华美企业文化培训
- 高考英语衡水体字帖电子书
- 《当代中国经济》第一章中国经济体制改革
- 《自强不息的人格修养》-课件1
- DB4403-T 54-2020 停车库(场)交通设施建设与管理规范-(高清现行)
- 2022年宝信软件发展现状及竞争优势分析
- 《聚合物基复合材料成型工艺》PPT课件(完整版)
评论
0/150
提交评论