版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 中图分类号:T N957文献标识码:A文章编号:1009-2552(200911- 0062-04 利用CUDA实现的基于GPU的SAR成像算法 柳彬,王开志,刘兴钊,郁文贤 (上海交通大学电子工程系,上海200240 摘 要:高速发展的图形处理器(G raphics Processing Unit,G PU为高效合成孔径 雷达(Sy nthetic Aperture Radar,S AR成像算法提供了具有发展前景的新型运算平 台。与CPU相比利用G PU进行通用计算具有成本低、性能高的特点。提出利用 C UDA实现的基于G PU的S AR成像算法,与传统的基于CPU的成像算法相比,有 两位
2、数以上的效率提升,为应对SAR信号处理领域新的挑战提供具有前景的研究方 向。 关键词:合成孔径雷达;成像算法;图形处理器;C UDA Im aging algorithm of syn thetic aperture radar based on GPU via CU DA LI U Bin, WANG K ai2zhi,LI U X in g2zhao,Y U Wen 2xian (Dep artme nt of E lectro nic E ngin eeri ng,Sh angh ai Jiaot ong U n iversity,Sh angh ai200240,Ch ina Abst
3、ract:Rece ntly,graphics process ing un it(G PUis develop ing at top speed,which is a novel and promising com putation platform for highly efficient synthetic aperture radar(S ARimagi ng alg orithms. C om pared to CPU,ge neral purpose com putati ons based on G PU show higher performa nee with lower c
4、ost.A S AR imagi ng alg orithm based on G PU via C UDA is in troduced in this paper.This imaging alg orithm via C UDA is m ore than ten times as fast as traditional CPU2based S AR imaging alg orithms.It provides a promising way to s olve the problems of S AR sig nal process ing in the future. K ey w
5、 ords:s yn thetic aperture radar(S AR;imagi ng alg orithm;graphics process ing uni t(G PU;C UDA 随着合成孔径雷达(S ynthetic A perture Radar,S AR系统应用领域的拓广,要 求S AR系统可以在更加灵活多样的模式下工作,具有更高的分辨率,在更为严酷的 条件下仍然可以获得较为满意的图像结果等,这些都为SAR信号处理提出了新的挑 战1。 要应对这些挑战,势必既要增加S AR成像算法的复杂程度,但同时又要降低成 像算法的运行时间,保证图像的实时性。因此,需要探索新的S AR成像算
6、法的运算 平台并且研究与之相适应的更为高效高性能的 SAR成像算法。 高速发展的图形处理器(G raphics Processing Unit,G PU为高效S AR成像算法 提供了具有发展前景的新型运算平台。 G PU是为了应对3D时代高复杂的图形图 像处理运算而诞生的,与CPU相比,利用G PU进行通用计算具有成本低、性能高的 特点。 G PU通用计算性能高的特点主要体现在浮点数的计算速度和内存带宽上。G PU在浮点数的计算速度和内存带宽上不但已经远远超过了CPU,而且其发展速度也 超过了 CPU。以浮点数的计算速度为例,图1比较了两大主流G PU(NVI DI A与 ATI与In tel
7、 CPU的发展情况2。G PU通用计算还具有成本低廉的特点,在达到相 同的浮点数计算能力和内存 收稿日期:2009-05-19 作者简介:柳彬(1985-,男,硕士研究生,研究方向为雷达成像算法与 G PU通用计 算。 带宽的情况下,G P U在价格和耗电量两方面都低于 CP U 2002 2004 2006 Year coftrKKr IMtSVIO 图1 NVIDIA与ATI的G PU和Intel的CPU浮点数计算能力比较 最初,开发人员需要用汇编语言对 G PU进行编程,这是非常难于学习和掌握 的。随着G PU的发展,开发人员可以利用以Cg、H LS L和G LS L为代表的着色 器语言
8、对G PU进行编程,进行G PU通用计算的开发,不过这需要开发人员非常熟 悉 G PU 硬件架构和应用编程接口 (Application Programmi ng In terface ,API。C UDA 的产生就是为了解决这一问题,C UDA 对图形硬件和API进行封装,让开发人员把G PU看成一个具有超多核超多线 程的处理器,并在类似于CPU的编程环境下对G PU进行编程,开发G PU通用 计算系统。 本文的目的在于研究并提出基于 G PU的S AR成像算法,该成像算法并非简单 地把原有运行在CPU的成像算法移植到G PU上,而是对原有算法进 行改进,让它与G PU的架构和编程模型相适应
9、,充分利用G PU的运算资源,提 高计算效率。本文提出的算法是用 C UDA实现的,利用了最新的G PU编程环境,可 以提高开发进度,尽可能地发挥出G PU的计算性能。 通过仿真实验表明,本文提出的基于G PU的S AR成像算法的结果与理论值吻 合,具有较好的成 像效果。通过处理真实的S AR数据表明,本文提出的基于G PU的S AR成像 算法比传统的基于CPU的成像算法有两位数以上的效率提升。因此,本文提出的基 于G PU的S AR成像算法具有高效高性能的特点,为应对S AR信号处理领域新的 挑战提供具有前景的研究方向。 1编程模型 C UDA的核心概念就是,它是一个超多线程的 编程环境,本
10、文介绍C UDA编程模型中最重要的几个概念 3 。1.1主机和设备 在C UDA编程环境中,把CPU称为主机,把运行C UDA的G PU称为设备。由 主机调用的,在设备上运行的函数称为内核函数,内核函数一般由超多线程执行。本 文提出的S AR成像算法的实现主要就是依靠内核函数的设计。1.2线程层次结构 C UDA可以运行和管理超多线程,是通过三层 层次结构来管理这些线程的。一定数量的线程组成线程块,而一定数量的线程 块又组织为一维或者二 维的线程块网格。同一个块内的线程可彼此协作,通过共享存储器来共享数据, 并同步其执行来协调对存储器的访问。一个块中的所有线程都必须位于同一个处理 器核心中,因
11、而,一个处理器核心的有限存储资源制约了每个块的线程数量。以本文 实验中所使用NVI DI A Quadro FX3700为例,在一个线程块中最多可以包含 512个 线程。 一个内核函数可能由多个大小相同的线程块执行,因而执行内核函数的线程总 数应等于每个块的线程数乘以块的数量,这些块组织为线程块网格。线程块需要独 立执行,必须能够以任意顺序执行、能够并行或顺序执行。一个网格内的线程块数 量通常是由所处理的数据大小限定的,而不是由硬件上处理器数量决定的,前者可能 远远超过后者的数量。以本文实验中所使用NVI DI A Quadro FX3700为例硬件中 流处理器的数目是112个,而在一个线程块
12、网格中最多可以包含65535个线程块。 1.3存储器层次结构 C UDA线程在执行过程中可以访问多种存储器 空间的数据,开发人员必须根据存储器空间大小、速度以及只读性等各方面因 素,选择合适的存储器。表1概述了 C UDA内部所有存储器的基本属性 4 表1 CUDA编程模型中各种存储器的基本属性 存储器名称层次 空间 速度是否只读寄存器 每个线程单独拥有非常有限 快否本地存储器每个线程单独拥有 有限 慢,不缓冲 否共享存储器每个线程块内共有非常有限快否全局存储器所有线程共有大慢 不缓冲否固定存储器所有线程共有有限慢,缓冲是纹理存储器 所有线程共有 大 慢緩冲 是 1.4 C UFFT 库 C
13、UFFT是一个基于 C UDA编程环境的FFT的 库。C UFFT能够达到很高的运算性能 5-6 ,在本文 中利用C UFFT来实现S AR成像算法中的FFT与IFFT计算。 2算法实现 图2给出的是利用C UDA实现的,基于G PU的S AR成像算法实现的流程 图,S AR的原始数据经过 以下几个步骤的处理: 第一,把原始数据从CPU传输到G PU。第二,距离向的压缩。具体描述为:首先 沿距离向做FFT ,然后执行距离向匹配滤波的内核函数,再利用距离向IFFT完成距 离向压缩。 FjcquHijt bnpjiTjinift H41 0 第三,通过方位向FFT把数据变换到距离2D oppier
14、域,距离徙动校正和方位向 匹配滤波都在该 域进行。 第四,在距离2D oppier域进行距离徙动校正,在该域同一距离门的一组目标轨 迹相互重合,距离徙动校正将徙动曲线拉直到与方位频率轴相平行 第五,通过每一距离门上的方位向频率匹配滤波实现方位向压缩。 第六,通过方位向IFFT将数据变回时域,得到压缩后的图像。 第七, 将处理好的图像从G PU传输回CPU 图2利用CUDA实现的基于G PU的S AR成像算法实现流程 3仿真实验与结果 为了测试本文提出的SAR成像算法的成像效果,本部分介绍仿真实验与结果, 对三点目标A、B、C进行仿真,其中B点位于场景中心处即斜距为20km处,A点 和C点分别位
15、于斜距为15km和25km 处,仿真参数如表2所示。如图3所示,图3(a ,3(b和3(c分别为A ,B和C三个 点目标的成像结果。表2 L波段机载SAR仿真参数参数名称值 雷达工作频率1.27G H z 发射脉冲时宽2.5卩距离脉冲调频率8MH z ns 信号带宽20MH z距离采样率30.8MH z多普勒带宽250H z方位采样率 469.5H z 图3三个点目标成像结果 三点目标仿真的结果如表3所示,理论上距离向分辨率为1.34个距离采样,而三 目标所在位置的方位分辨率不同,在表3中所罗列的方位分辨率定义为: R az =R sim n R th其中,R az为表中所罗列的分辨率,R s
16、im为仿真所得分辨 率,R th为理论分辨率。 表3三点目标仿真结果距离分辨率(距离采样方位分辨率(比值距离向 PS LR (dB 方位向 PS LR (dB 近端点目标(A 1.393 1.035-13.98-14.12中心点目标(B 1.390 1.027- 13.89-13.98远端点目标(C 1.392 1.032 -13.92 -14.10 考虑到在成像过程中数值计算不可避免的会产生误差,所以测得的分辨率 比理论分辨率略差,是可以理解的,因此认为,本文提出的利用C UDA实现的,基于G PU的S AR成像算法的结果与理论值 吻合。 4效率测试 在上文提到G PU通用计算具有性能高的优
17、点,在这一部分利用多块真实的S AR数据测试本文提出的基于 G PU的S AR成像算法的效率,并与传统的基于CPU 的S AR成像算法的效率相对比。测试结果如表 4所示。 测试中使用的CPU是In tel X eon E5140,使用的G PU是NVI DI A Quadro FX3700,分别测试了七块不 同尺寸的数据,由于In tel X eon E5140是四核的CPU对基于CPU的S AR成像 算法,既测试了单线程情况下的运行时间,也测试了利用OpenMP使用四线程下的运 行时间,而对于基于G PU的S AR成像算法,分别测试了考虑读写显存和不考虑读写 显存的运行时间。 表4 基于G
18、PU的与基于CPU的S AR成像算法的运行时间对比(单位:秒 数据尺寸 2048X20482048X40964096X20484096X4096 CPU(单线程 9.29619.02119.47139.089 CPU四 线程 2.652 4.986 5.48410.296 G PU考 虑读写显存 0.0650.1580.1240.636 G PU(不考虑读写显存 0.0130.0310.0240.392 数据尺寸 4096X81928192X40968192X8192 CPU(单线程 80.16181.056164.997 CPU(四线程 21.86123.85147.908 G PU(考虑读
19、写显存 1.274 1.299 2.556 G PU(不考虑读写显存 0.7910.813 1.566 由测试结果可知,本文提出的利用C UDA实现的基于G PU的S AR成像 算法具有极高的效率,相比传统的基于CPU的S AR成像算法,效率得到了两位数以 上的提升。不过通过观察表4可以发现,在读写显存上花费了许多时间,目前,CPU与 G PU之间数据传输带宽有限,G PU显示存储空间有限成为进一步提高 G PU通用计 算效率的瓶颈。 5结束语 本文主要研究了基于G PU的S AR成像算法的实现与系统解决方案。本文提 出了利用C UDA实现的,适用于G PU的S AR成像算法。该成像算法利用了
20、全新 的G PU通用计算的开发理念和编程模型,极大地发挥出了 G PU通用计算的潜能。 通过仿真实验表明:本文提出的基于G PU的S AR成像算法的结果与理论值吻 合,具有较好的成像效果。 通过处理真实的S AR数据表明:本文提出的基于G PU的S AR成像算法比传 统的基于CPU的成像算法有两位数以上的效率提升。 对基于G PU的S AR成像算法的研究以及本文的意义在于,通过对传统的基于 CPU的成像算法进行改进,使其不但能够在G PU上运行,而且能够适合于G PU的 框架和编程模型,从而能够充分地利用G PU强大的计算能力和低廉的计算成本,开 发出新型的S AR信号处理系统,应对S AR信
21、号处理领域目前面临的新的挑战。 未来的研究将专注于以下几方面,以使目前的研究结果更加完善: 第一,进一步提高计算效率。可以从以下两个方面考虑提高计算效率:其一,进一 步减少CPU与G PU之间的数据传输。其二,让CPU与G PU之间实现负载平衡,把 原有的基于G PU的S AR成像算法改进为同时利用 G PU和CPU计算资源的异质 成像算法。 第二,开发高效S AR成像算法的应用。要解决S AR信号处理领域的新挑战的 关键就在于提出更加高效的成像算法,而本文正是基于这个需求而产生的。本文提 出和实现了基于G PU的成像算法,并通过实验证实了该算法的准确性和高效性,为 解决S AR信号处理的难题提供了具有前景的解决方案,不过,要进行进一步的研究 才能把该算法系统化、集成化、实用化,开发出高性能的新一代S AR成像系统,用 于提供分辨率更高的,范围更大的实时S AR图像。 参考文献: 1 王开志斜视条件下高分辨率合成孔径雷达成像技术D.上 海:上海交通大学,2006
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年下半年湖北荆州公安县事业单位面向在荆普通高校应届毕业生招聘考试笔试易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年湖北恩施巴东县事业单位考试选调32人重点基础提升(共500题)附带答案详解
- 2025年下半年湖北宜昌市西陵区专项招聘事业单位工作人员63人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年湖北孝感安陆市事业单位统一招聘工作人员98人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年湖北咸宁市住房和城乡建设委员会招考5名工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 池州市中医院药物治疗方案评估考核
- 2025年下半年深圳市龙华新区消防安全管理委员会招聘普通雇员招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年深圳市属事业单位招考及易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年深圳市光明新区规划土地监察大队招考临聘人员易考易错模拟试题(共500题)试卷后附参考答案
- 抚州市中医院急诊心脏超声考核
- 幼儿园教育指导纲要(试行)
- 2023中华护理学会团体标准-老年人误吸的预防
- 门球比赛记录表
- 肌内效贴应用
- 光伏发电项目招标文件
- 12路基轻质填料EPS工法
- 美容师中级评分记录表
- 袋式除尘器日常点检表
- 人音版小学音乐三年级上册测试题(音乐理论)及答案
- 油田生产调度管理与人员素质提升
- Aspen 中文培训资料
评论
0/150
提交评论