利用CUDA实现的基于GPU的SAR成像算法概要

上传人：w*** IP属地：天津上传时间：2021-05-28 格式：DOCX 页数：14 大小：63.11KB 积分：20 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、中图分类号:T N957文献标识码:A文章编号：1009-2552(200911- 0062-04 利用CUDA实现的基于GPU的SAR成像算法柳彬,王开志，刘兴钊,郁文贤 (上海交通大学电子工程系，上海200240 摘要:高速发展的图形处理器(G raphics Processing Unit,G PU为高效合成孔径雷达(Sy nthetic Aperture Radar,S AR成像算法提供了具有发展前景的新型运算平台。与CPU相比利用G PU进行通用计算具有成本低、性能高的特点。提出利用 C UDA实现的基于G PU的S AR成像算法，与传统的基于CPU的成像算法相比，有两位

2、数以上的效率提升，为应对SAR信号处理领域新的挑战提供具有前景的研究方向。关键词:合成孔径雷达；成像算法；图形处理器;C UDA Im aging algorithm of syn thetic aperture radar based on GPU via CU DA LI U Bin, WANG K ai2zhi,LI U X in g2zhao,Y U Wen 2xian (Dep artme nt of E lectro nic E ngin eeri ng,Sh angh ai Jiaot ong U n iversity,Sh angh ai200240,Ch ina Abst

3、ract:Rece ntly,graphics process ing un it(G PUis develop ing at top speed,which is a novel and promising com putation platform for highly efficient synthetic aperture radar(S ARimagi ng alg orithms. C om pared to CPU,ge neral purpose com putati ons based on G PU show higher performa nee with lower c

4、ost.A S AR imagi ng alg orithm based on G PU via C UDA is in troduced in this paper.This imaging alg orithm via C UDA is m ore than ten times as fast as traditional CPU2based S AR imaging alg orithms.It provides a promising way to s olve the problems of S AR sig nal process ing in the future. K ey w

5、 ords:s yn thetic aperture radar(S AR;imagi ng alg orithm;graphics process ing uni t(G PU;C UDA 随着合成孔径雷达(S ynthetic A perture Radar,S AR系统应用领域的拓广，要求S AR系统可以在更加灵活多样的模式下工作，具有更高的分辨率，在更为严酷的条件下仍然可以获得较为满意的图像结果等，这些都为SAR信号处理提出了新的挑战1。要应对这些挑战，势必既要增加S AR成像算法的复杂程度，但同时又要降低成像算法的运行时间，保证图像的实时性。因此，需要探索新的S AR成像算

6、法的运算平台并且研究与之相适应的更为高效高性能的 SAR成像算法。高速发展的图形处理器(G raphics Processing Unit,G PU为高效S AR成像算法提供了具有发展前景的新型运算平台。 G PU是为了应对3D时代高复杂的图形图像处理运算而诞生的，与CPU相比,利用G PU进行通用计算具有成本低、性能高的特点。 G PU通用计算性能高的特点主要体现在浮点数的计算速度和内存带宽上。G PU在浮点数的计算速度和内存带宽上不但已经远远超过了CPU,而且其发展速度也超过了 CPU。以浮点数的计算速度为例，图1比较了两大主流G PU(NVI DI A与 ATI与In tel

7、 CPU的发展情况2。G PU通用计算还具有成本低廉的特点，在达到相同的浮点数计算能力和内存收稿日期：2009-05-19 作者简介：柳彬(1985-,男，硕士研究生，研究方向为雷达成像算法与 G PU通用计算。带宽的情况下,G P U在价格和耗电量两方面都低于 CP U 2002 2004 2006 Year coftrKKr IMtSVIO 图1 NVIDIA与ATI的G PU和Intel的CPU浮点数计算能力比较最初,开发人员需要用汇编语言对 G PU进行编程，这是非常难于学习和掌握的。随着G PU的发展，开发人员可以利用以Cg、H LS L和G LS L为代表的着色器语言

8、对G PU进行编程，进行G PU通用计算的开发，不过这需要开发人员非常熟悉 G PU 硬件架构和应用编程接口 (Application Programmi ng In terface ,API。C UDA 的产生就是为了解决这一问题，C UDA 对图形硬件和API进行封装，让开发人员把G PU看成一个具有超多核超多线程的处理器，并在类似于CPU的编程环境下对G PU进行编程，开发G PU通用计算系统。本文的目的在于研究并提出基于 G PU的S AR成像算法,该成像算法并非简单地把原有运行在CPU的成像算法移植到G PU上，而是对原有算法进行改进，让它与G PU的架构和编程模型相适应

9、，充分利用G PU的运算资源，提高计算效率。本文提出的算法是用 C UDA实现的，利用了最新的G PU编程环境，可以提高开发进度，尽可能地发挥出G PU的计算性能。通过仿真实验表明，本文提出的基于G PU的S AR成像算法的结果与理论值吻合,具有较好的成像效果。通过处理真实的S AR数据表明，本文提出的基于G PU的S AR成像算法比传统的基于CPU的成像算法有两位数以上的效率提升。因此，本文提出的基于G PU的S AR成像算法具有高效高性能的特点，为应对S AR信号处理领域新的挑战提供具有前景的研究方向。 1编程模型 C UDA的核心概念就是，它是一个超多线程的编程环境，本

10、文介绍C UDA编程模型中最重要的几个概念 3 。1.1主机和设备在C UDA编程环境中，把CPU称为主机,把运行C UDA的G PU称为设备。由主机调用的，在设备上运行的函数称为内核函数，内核函数一般由超多线程执行。本文提出的S AR成像算法的实现主要就是依靠内核函数的设计。1.2线程层次结构 C UDA可以运行和管理超多线程，是通过三层层次结构来管理这些线程的。一定数量的线程组成线程块，而一定数量的线程块又组织为一维或者二维的线程块网格。同一个块内的线程可彼此协作，通过共享存储器来共享数据, 并同步其执行来协调对存储器的访问。一个块中的所有线程都必须位于同一个处理器核心中，因

11、而，一个处理器核心的有限存储资源制约了每个块的线程数量。以本文实验中所使用NVI DI A Quadro FX3700为例，在一个线程块中最多可以包含 512个线程。一个内核函数可能由多个大小相同的线程块执行，因而执行内核函数的线程总数应等于每个块的线程数乘以块的数量，这些块组织为线程块网格。线程块需要独立执行，必须能够以任意顺序执行、能够并行或顺序执行。一个网格内的线程块数量通常是由所处理的数据大小限定的，而不是由硬件上处理器数量决定的，前者可能远远超过后者的数量。以本文实验中所使用NVI DI A Quadro FX3700为例硬件中流处理器的数目是112个，而在一个线程块

12、网格中最多可以包含65535个线程块。 1.3存储器层次结构 C UDA线程在执行过程中可以访问多种存储器空间的数据，开发人员必须根据存储器空间大小、速度以及只读性等各方面因素，选择合适的存储器。表1概述了 C UDA内部所有存储器的基本属性 4 表1 CUDA编程模型中各种存储器的基本属性存储器名称层次空间速度是否只读寄存器每个线程单独拥有非常有限快否本地存储器每个线程单独拥有有限慢,不缓冲否共享存储器每个线程块内共有非常有限快否全局存储器所有线程共有大慢不缓冲否固定存储器所有线程共有有限慢，缓冲是纹理存储器所有线程共有大慢緩冲是 1.4 C UFFT 库 C

13、UFFT是一个基于 C UDA编程环境的FFT的库。C UFFT能够达到很高的运算性能 5-6 ，在本文中利用C UFFT来实现S AR成像算法中的FFT与IFFT计算。 2算法实现图2给出的是利用C UDA实现的，基于G PU的S AR成像算法实现的流程图,S AR的原始数据经过以下几个步骤的处理：第一,把原始数据从CPU传输到G PU。第二，距离向的压缩。具体描述为：首先沿距离向做FFT ,然后执行距离向匹配滤波的内核函数，再利用距离向IFFT完成距离向压缩。 FjcquHijt bnpjiTjinift H41 0 第三，通过方位向FFT把数据变换到距离2D oppier

14、域，距离徙动校正和方位向匹配滤波都在该域进行。第四,在距离2D oppier域进行距离徙动校正，在该域同一距离门的一组目标轨迹相互重合，距离徙动校正将徙动曲线拉直到与方位频率轴相平行第五，通过每一距离门上的方位向频率匹配滤波实现方位向压缩。第六，通过方位向IFFT将数据变回时域，得到压缩后的图像。第七, 将处理好的图像从G PU传输回CPU 图2利用CUDA实现的基于G PU的S AR成像算法实现流程 3仿真实验与结果为了测试本文提出的SAR成像算法的成像效果，本部分介绍仿真实验与结果，对三点目标A、B、C进行仿真，其中B点位于场景中心处即斜距为20km处,A点和C点分别位

15、于斜距为15km和25km 处,仿真参数如表2所示。如图3所示，图3(a ,3(b和3(c分别为A ,B和C三个点目标的成像结果。表2 L波段机载SAR仿真参数参数名称值雷达工作频率1.27G H z 发射脉冲时宽2.5卩距离脉冲调频率8MH z ns 信号带宽20MH z距离采样率30.8MH z多普勒带宽250H z方位采样率 469.5H z 图3三个点目标成像结果三点目标仿真的结果如表3所示，理论上距离向分辨率为1.34个距离采样，而三目标所在位置的方位分辨率不同，在表3中所罗列的方位分辨率定义为： R az =R sim n R th其中,R az为表中所罗列的分辨率,R s

16、im为仿真所得分辨率,R th为理论分辨率。表3三点目标仿真结果距离分辨率（距离采样方位分辨率（比值距离向 PS LR （dB 方位向 PS LR （dB 近端点目标（A 1.393 1.035-13.98-14.12中心点目标（B 1.390 1.027- 13.89-13.98远端点目标（C 1.392 1.032 -13.92 -14.10 考虑到在成像过程中数值计算不可避免的会产生误差，所以测得的分辨率比理论分辨率略差，是可以理解的，因此认为，本文提出的利用C UDA实现的，基于G PU的S AR成像算法的结果与理论值吻合。 4效率测试在上文提到G PU通用计算具有性能高的优

17、点，在这一部分利用多块真实的S AR数据测试本文提出的基于 G PU的S AR成像算法的效率,并与传统的基于CPU 的S AR成像算法的效率相对比。测试结果如表 4所示。测试中使用的CPU是In tel X eon E5140,使用的G PU是NVI DI A Quadro FX3700,分别测试了七块不同尺寸的数据，由于In tel X eon E5140是四核的CPU对基于CPU的S AR成像算法,既测试了单线程情况下的运行时间，也测试了利用OpenMP使用四线程下的运行时间，而对于基于G PU的S AR成像算法，分别测试了考虑读写显存和不考虑读写显存的运行时间。表4 基于G

18、PU的与基于CPU的S AR成像算法的运行时间对比（单位:秒数据尺寸 2048X20482048X40964096X20484096X4096 CPU（单线程 9.29619.02119.47139.089 CPU四线程 2.652 4.986 5.48410.296 G PU考虑读写显存 0.0650.1580.1240.636 G PU（不考虑读写显存 0.0130.0310.0240.392 数据尺寸 4096X81928192X40968192X8192 CPU（单线程 80.16181.056164.997 CPU（四线程 21.86123.85147.908 G PU（考虑读

19、写显存 1.274 1.299 2.556 G PU（不考虑读写显存 0.7910.813 1.566 由测试结果可知，本文提出的利用C UDA实现的基于G PU的S AR成像算法具有极高的效率，相比传统的基于CPU的S AR成像算法,效率得到了两位数以上的提升。不过通过观察表4可以发现，在读写显存上花费了许多时间，目前,CPU与 G PU之间数据传输带宽有限,G PU显示存储空间有限成为进一步提高 G PU通用计算效率的瓶颈。 5结束语本文主要研究了基于G PU的S AR成像算法的实现与系统解决方案。本文提出了利用C UDA实现的，适用于G PU的S AR成像算法。该成像算法利用了

20、全新的G PU通用计算的开发理念和编程模型,极大地发挥出了 G PU通用计算的潜能。通过仿真实验表明：本文提出的基于G PU的S AR成像算法的结果与理论值吻合，具有较好的成像效果。通过处理真实的S AR数据表明：本文提出的基于G PU的S AR成像算法比传统的基于CPU的成像算法有两位数以上的效率提升。对基于G PU的S AR成像算法的研究以及本文的意义在于，通过对传统的基于 CPU的成像算法进行改进，使其不但能够在G PU上运行，而且能够适合于G PU的框架和编程模型，从而能够充分地利用G PU强大的计算能力和低廉的计算成本，开发出新型的S AR信号处理系统，应对S AR信

21、号处理领域目前面临的新的挑战。未来的研究将专注于以下几方面，以使目前的研究结果更加完善：第一,进一步提高计算效率。可以从以下两个方面考虑提高计算效率：其一，进一步减少CPU与G PU之间的数据传输。其二,让CPU与G PU之间实现负载平衡，把原有的基于G PU的S AR成像算法改进为同时利用 G PU和CPU计算资源的异质成像算法。第二，开发高效S AR成像算法的应用。要解决S AR信号处理领域的新挑战的关键就在于提出更加高效的成像算法，而本文正是基于这个需求而产生的。本文提出和实现了基于G PU的成像算法，并通过实验证实了该算法的准确性和高效性，为解决S AR信号处理的难题提供了具有前景的解决方案，不过，要进行进一步的研究才能把该算法系统化、集成化、实用化，开发出高性能的新一代S AR成像系统，用于提供分辨率更高的，范围更大的实时S AR图像。参考文献： 1 王开志斜视条件下高分辨率合成孔径雷达成像技术D.上海:上海交通大学，2006

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

利用CUDA实现的基于GPU的SAR成像算法概要

文档简介

温馨提示

最新文档

评论

利用CUDA实现的基于GPU的SAR成像算法概要

文档简介

温馨提示

最新文档

评论

相关文档