已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于修剪策略的遥感图像目标检测方法研究 分分类号TP391单位代码10183研究生学号xx532038密级公开吉林大学硕士学位论文(学术学位)基于修剪策略的遥感图像目标检测方法研究Research onTarget DetectionMethod Basedon Pruning Strategy for Remote Sensing Image作者姓名王萌专专业计算机软件与理论研究方向计算机视觉指导教师王生生教授培养单位计算机科学与技术学院2019年年5月基于修剪策略的遥感图像目标检测方法研究Research onTarget DetectionMethod Basedon PruningStrategy forRemote SensingImage作者姓名王萌专业名称计算机软件与理论指导教师王生生教授学位类别工学硕士答辩日期年月日吉林大学硕士学位论文原创性声明本人郑重声明所呈交学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。 除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名日期年月日关于学位论文使用授权的声明本人完全了解吉林大学有关保留、使用学位论文的规定,同意吉林大学保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权吉林大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 (保密论文在解密后应遵守此规定)论文级别?硕士博士学科专业计算机软件与理论论文题目基于修剪策略的遥感图像目标检测方法研究作者签名指导教师签名年月日作者联系地址(邮编)吉林省长春市吉林大学前进大街2699号南苑五公寓C区464室邮编130012作者联系电摘摘要基于修剪策略的遥感图像目标检测方法研究近年来随着相关技术的发展,遥感图像的分辨率大大提高,图像中包含更多的细节信息,这对目标检测模型的检测能力提出要求。 目标检测后的信息,可为如城市规划、环境保护、农作物监测、洪水和防火等任务提供帮助。 由于高分辨率遥感图像中复杂的背景信息、噪声干扰、天气影响、照明强度等因素,使目标检测工作面临更多挑战。 目标检测是图像解译中最基础的任务。 近年来,卷积神经网络N(Convolutional NeuralNetwork)在视觉领域表现优秀。 卷积神经网络在设计之初,是受图像处理中的卷积操作启发,因此相比其他领域,N在处理图像问题时,表现更加优异。 深度学习技术的一个特点是需要大量的训练数据,而遥感技术的进步使高分辨率遥感图像更易得,这为将N应用于遥感图像目标检测提供可能。 与地面拍摄图像相比,高分辨率图像具有不同特征 (1)背景复杂,图像包含的地域广阔,会有各种各样的地物背景; (2)物体通常较小,对于一张几千乘几千的图像来说,目标可能就是十几乘十几像素,而背景占比大; (3)由于拍摄角度单一导致目标外观变化小、旋转多; (4)地面采样距离(ground sample distance,GSD)不同导致物体具有不同尺度。 当前许多遥感图像的检测工作开始使用深度特征,但将N用于遥感图像检测时没有全面考虑上文提到的图像特有特征,以及N在处理遥感图像时的缺陷 (1)N不具有旋转不变性,其池化层可使目标的轻微旋转对检测结果无影响,对于大角度的旋转不能保持结果不变,而遥感图像中目标旋转性强; (2)从低层到高层,特征图将会逐渐减小,并丢失精确的位置信息,而遥感图像中都是小目标,定位时更依赖于低层特征图中位置信息; (3)N参数量大,并具有计算密集的特点,虽然高分辨率图像数量随着相关技术的发展有所增加,但遥感图像训练集相对于地面拍摄图像训练集仍然较小,因此需要考虑如何匹配网络与训练集大小以及计算量的问题。 此外,当前遥感领域许多工作在提取候选区域阶段,仍在使用Edge Boxes、选择搜索等方式,其缺点是 (1)使用手工特征,表达能力较弱; (2)模型要提取大量的候选区域,耗费的时间是惊人的。 II针对以上问题,我们提出基于修剪策略的遥感图像目标检测PSTD(PruningStrategy based Target Detection forRemote SensingImage)方法。 为提高计算效率,本文提出采用自主学习的方式构建网络架构,具体采用修剪策略对网络进行修剪,然后将这种稀疏网络的方法用于目标检测网络,从而构建稀疏的网络架构,加速网络的运算速度。 同时我们对原训练集进行处理,让网络能平衡学习目标与背景信息。 本文主要由以下几部分工作构成 (1)遥感图像和目标检测的背景综述。 首先对目标检测模型近年的发展状况进行阐述,介绍了从两阶段到端到端的典型目标检测模型及每种模型的优缺点。 然后对遥感图像的成像及处理技术进行简介。 (2)提出Sparse N算法。 我们首先阐述卷积神经网络具有的冗余性缺点,冗余是由于网络参数量和数据集中图片数量不匹配造成的,针对此缺点我们提出稀疏卷积神经网络(Sparse N)算法。 (3)提出PSTD方法。 针对遥感图像训练集相对较小的特征,利用稀疏卷积神经网络算法,设计训练目标检测网络的算法,从而使网络与遥感数据更匹配,运算速度更快。 然后使用多层特征图的方式解决遥感图像的目标小、尺度不同的问题。 对于遥感图像背景占图像比例大的特征,使用平衡采样,难分负样本挖掘(hard negative mining),来增加网络的表达力。 最后,对于遥感图像的旋转特性,使用数据增强的方式解决。 (4)为验证提出的遥感图像目标检测方法的性能,设计实验从精确度-召回率曲线、平均运行时间、平均精确度和mAP,来定量评估模型,并设计实验评估Sparse N算法的修剪能力。 实验结果表明Sparse N算法可较大程度修剪网络,PSTD在遥感数据上具有较强的检测能力。 关键词目标检测,深度学习,遥感图像,修剪策略III AbstractResearch onTarget DetectionMethod Basedon PruningStrategy forRemote SensingImage In recent years,with the development ofrelated technologies,remote sensing images havehigher resolutionand moredetails,which putsrequirement onthe detectioncapability of target detectionmodel.The outputoftarget detection facilitatestasks suchas urbanplanning,environmental protection,crop monitoring,flooding andfire prevention.While theplex background,noise,weather andillumination intensitymake the target detectionface morechallenges Targetdetection isthe mostbasic taskof imageinterpretation.Inrecent years,Convolutional NeuralNetwork(N)performs wellin putervision.Convolutional neuralwork isinspired byconvolution operationsin imageprocessing atthe beginningof design,so Nperforms betterwhen dealingwith imageproblems.One of the characteristics of deep learning technologyis thatit requiresa largeamount oftraining data,and thedevelopment of remote sensingtechnology bringsus manyhigh-resolution images,which makesit possibleto applydeep learningto target detection for remote sensing image.However,high-resolution remote sensing imageshave differentcharacteristics paredwith ground-shot images: (1)the backgroundis plexbecause the image containsa widearea withvarious objects. (2)the targetis usuallysmall and the backgroundis large.For animage thathas millionsof pixels,the targetmay behas hundredsof pixels. (3)due to the singleshooting anglethere aresmall changesin theappearance of targets whichusually rotatein largeangle. (4)the differenceof ground sampledistancemakes thedifferent scalesoftargets.At present,many worksused deepfeatures intarget detectionof remote sensing imagewhile theydid notfully considerthe specifiharacteristics mentionedabove and the defectsof Nin detectingremote sensing image: (1)N doesnot haverotation invariance.The poolinglayer canmake slightrotation of thetarget has noeffect onthe detectionresult,while largeangle rotationcan affectthe result.However,the IVtargethasstrong rotationon remote sensing image. (2)From thelower layerto upperlayer,the size of feature map willgradually decreaseand wewill loseaurate localizationinformation.While targetsin remote sensing imagesare reallysmall,locating targetsis moredependent onthe informationin thelower layer featuremap. (3)N haslarge parametersand isputationally intensive.Although thenumber ofhigh-resolution images is increasingwith thedevelopment ofrelated technologies,the training set of remote sensing imagesisstill relatively small paredtotheground shootingimages.Therefore,it isnecessary toconsider howto matchthe sizeof the work andthe trainingset,and howto reducethe amountof calculation.In addition,in thestage ofextracting candidateregions,many worksin remotessensing filedstill useEdge Boxes,selective searchand soon.The disadvantagesof thesemethods are: (1)use hand-craft features,while hand-craft featuresare lessexpressive. (2)it takestoo muchtime toextrac candidateregions.To solve the aboveproblems,we proposea PruningStrategybasedTargetDetectionforRemoteSensingImage(PSTD)method.In orderto improvethe putationalefficiency,in thispaper wepropose tobuild awork architectureusing autonomouslearning.Specifically,we usepruning strategyto prune the workand thenuse the pruning workmethod totarget detectionwork forspeeding upthe putingof the work.At thesame time,we processthe originaltrainingsetso thattheworkcan keepthe balancebetween learningthe informationof thetargets andbackground.This paperis mainlyposed of the followingparts: (1)Background reviewof remote sensingimageand target detection.Firstly,we expoundthedevelopmentof thetarget detectionmodel inrecentyears,and introducethe typicaltarget detectionmodel fromtwo-stage toend-to-end andthe advantagesand disadvantagesof eachmodel.Then weanalyze theimaging technologyofremote sensing imagesand introducethe monmethods ofprocessing remotesensingimages. (2)We proposeSparse Nalgorithm.We firstexplain theredundancy ofV convolutional neural worksandtheredundancy iscaused bythe mismatchof thenumber ofwork parametersandthesizeofdatasets,so wepropose sparseconvolution neuralwork(Sparse N)algorithm. (3)We proposePSTD method.Considering thecharacteristicsofrelativelysmalltraining datasetofremotesensingimage,the sparseconvolutionalneuralwork algorithmis usedto designthe trainingalgorithm totrain thetargetdetectionwork,so asto obtaina fastertargetdetectionwork whichis morematched withremotesensingdataset.Then usethe multi-layerfeaturemap to solvethe problem ofsmall targetand differentscale ofremotesensingimage.For thecharacteristic thatthe backgroundof theremotesensingimage oupiesa largepart oftheimage,we usebalance samplingand hardnegativeminingto increasethe expressivepower ofthework.Finally,we usedata augmentationtosolvetheproblemofthestrong rotationofthetarget inremotesensingimage. 许多深度学习的核心概念是在80年代或90年代提出的,但是当时受限于各种因素所以并未发展起来。 随着两个关键的因素(大规模标记数据集和GPU并行计算能力)的发展,深度学习才发挥了其能力。 深度神经网络其实由大量的可并行的浮点运算组成,GPU非常善于处理这类运算。 从基于CPU的训练到基于GPU的训练为这些深度神经网络模型带来了巨大的速度提升,这就允许我们可以用更大更深的模型和更多的数据,来提升网络学习的能力。 随着遥感技术的进步,如何利用大量的遥感图像挖掘有效信息并将信息用于相关实际领域变得相当重要。 其中,遥感图像目标检测是通过检测遥感图像来识别出图像中有哪些目标物体,定位出目标所在位置,以及确认目标物体具有哪些特征的过程。 遥感图像的目标检测始于第一次世界大战期间,当时为了侦察目的,而检查从飞机上拍摄的照片。 在近百年的历史中,遥感图像目标检测已经被应用到许多不同领域,包括城市规划,农作物和森林管理,救灾和气候模拟等。 首次使用计算机进行自动检测可以追溯到20世纪70年代左右1-2。 虽然在过去的三十年中遥感图像目标检测取得了重大进展,但目前只有少数几个在特定领域工作的半自动化系统正在使用,还没有完全自动化的系统3-4。 最近传感器与卫星技术的进步,使高分辨率图像数量发生了增长,这对遥感图像的自动检测工作提出了要求。 最近将深度学习应用于这种高分辨率图像的研究已经成为热点,并产生了相当优秀的自动检测算法5-8,这表明自动遥感图像检测系统已经变得触手可及。 在深度学习应用中,目标检测通常指为像素组成的块进行分类,如图1.1,给定一张遥感图像,我们对其检测的结果要么是将图像中像素块分类为建筑物,道路,树木,草地和水等类别,要么将图像中的像素块分为背景或目标两个类别。 遥感图像成像设备的迅速发展,使高空间分辨率图像剧增,但因此带来了数据规模过大,图像尺度不同,单张图像总像素过高等问题,因此需要考虑在第1章绪论2图1.1波士顿城市遥感图像目标检测过程中如何解决这类问题。 而遥感图像固有的一些特征也影响检测精度。 遥感图像分辨率变高会导致图像中出现更多的小物体,这些物体占图像总像素比例很小,并且经常密集地聚集在一起,而不是像ImageNet数据中目标都是大而突出的物体。 在遥感领域,分辨率通常被定义为地面采样距离(groundsampledistance,GSD)。 商业上可用的遥感图像从数字地球图像的30厘米GSD到卫星图像的3至4米GSD不等。 这意味着对于像汽车这样的小物体,即使在最高分辨率下,每个物体的在图像中也只有15像素。 在用深层神经网络提取高层特征时,小目标引起的激活值很容易被淹没。 遥感图像中,背景一般占总像素比例更大,这会让训练任务变得困难。 拍摄时变化的间距、角度、光照等,会使相同类别的物体呈现出多样性,不同类别之间的物体呈现出相似性,从而增加类内距离,使类间可分性变差,并且卫星拍摄时角度不同会导致物体发生旋转。 此外,通常遥感图像数据集中图像数量相比于ImageNet更小,因此直接使用一些经典模型时数据集和模型不匹配,容易过拟合。 因此在本文中,我们首先会对遥感图像进行预处理,然后利用修剪策略训练卷积神经网络,得到运算速度更快的目标检测模型,从而解决以上问题。 1.2国内外研究现状早期遥感图像目标检测中的候选区域是由滑动窗口算法产生,具体用窗口在第1章绪论3整个图像上水平或者横向滑动,将窗口经过的所有图像块作为候选区域。 这种做法的缺点显而易见,它没有利用图像的任何信息,完全无信息的搜索方式是低效的,会产生大量无用的框。 当后续识别算法利用这些框分类目标时,会很耗时、不精确。 后来出现的算法在提取候选区域时利用底层特征,例如使用形状、上下文、局部图像特征,以及SIFT(scale-invariant featuretransform),HOG(histogram oforiented gradients)等9-12。 Tuermer13等使用具有HOG特征的滑动窗口和SVM分类器法来寻找静止和移动的车辆,为了减少搜索空间,他们建议参考道路地图。 然而这种方法受到道路地图的可用性的限制,并且通常需要地理参考图像,此外,可能会错过不在道路上的车辆。 Liu等15提出了一种方法,可以在没有任何地理参考信息的情况下使用类型和方向属性检测大尺寸遥感图像上的车辆,具体来说,首先采用整体通道特征(ICF)和AdaBoost来定位车辆位置,然后使用HOG特征来进一步分类车辆的方向和类型,从而产生快速和有效的检测性能。 该种方法虽然运算速度很快,但是存在一些缺点首先手工特征或者基于浅层学习的特征会影响特征表达能力,进而影响车辆检测的有效性;其次滑动窗口导致大量的计算成本。 Liu和Shi14开发了一种算法,为了使算法具有旋转不变的特征,他们将稀疏编码与径向梯度变换相结合,并以支持向量机(SVM)为分类器。 Cheng等16使用HOG特征和latent SVM为每个类别训练一个可形变的基于部分的混合模型。 受限制于底层特征的表现能力,基于底层特征的目标检测效果并不好。 传统的遥感图像目标检测方法主要基于人工特征,因此问题的焦点在于如何选择合适的特征来达到较好的识别精度。 而遥感图像与地面拍摄图像存在很大的区别,例如遥感图像中目标旋转性强,在使用HOG进行遥感图像目标识别时,无法很好地处理旋转变换。 针对此问题Cheng等17提出一种旋转不变HOG特征(RIHOG),通过共享训练数据集旋转前后的相似特征来解决HOG无法提取旋转不变特征的问题。 航天、航空、卫星等不同搭载系统产生的图像的尺度并不统一,尺度变换为目标识别带来一定的难度。 Lin等18针对遥感图像的旋转变换和尺度变换提出一种基于姿态一致性表决的遥感图像目标识别,具体定义了一个目标姿态来描述方向和尺度信息,从而解决尺度和旋转变换带来的问题。 第1章绪论4在处理大规模数据上,人工提取的特征不能快速、有效地学习数据集的特性,而深度学习在日常所见图片集上表现出了优秀的特征提取能力,并且深度学习自动提取特征并根据数据集来调整特征。 Salberg19针对以往人工识别海豹耗费时间并且使用人工特征导致识别精度不高的问题,提出了一种基于N的遥感图像目标识别,来识别海豹。 因遥感图像中目标旋转多,不能直接使用N,Cheng等20针对此问题提出了RIN,即一种具有旋转不变性的N网络结构,其在现有的N结构上添加了一个旋转不变层,从而解决了N不具有旋转不变性问题。 在船舶识别领域中图像容易受到噪音污染,例如易受到天气条件(例如云和海浪)影响而在图像中引入噪音,此外高分辨率遥感图像的分辨率高、体积大,使识别过程更加困难。 针对以上问题,Tang等21提出一种能够同时解决上述问题的算法,该算法从JPEG2000压缩域中提取小波系数,并与深度神经网络(DNN)结合,此外利用极限学习机(ELM)有效率地池化特征和做决策,从而提高了识别速度和精度。 遥感图像数据集稀少,而手工标注训练集耗费人力与物力,针对此问题,Zhang等22提出一种改进弱监督学习的框架,使其在遥感图像领域更高效地识别目标,在保证精度的前提下降低手工标注的繁琐性。 在传统的弱监督学习的框架中,负样本是随机采样得到,因而在训练迭代的过程中负样本会干扰分类器的效果,针对此问题Zhou等23将负引导(Negative Bootstrapping)集成到弱监督学习模式中,来实现遥感图像的目标识别,具体是在每一步的迭代过程中,利用最容易被误分类的负样本,来改善目标检测模型。 随后Zhou等24提出一种基于迁移深度特征和负引导的弱监督目标识别的框架来解决数据集稀少问题。 Han等25提出了一种结合弱监督学习和高级特征学习的遥感图像目标识别的框架,为了更高效地描述特征,Han等采用了深度玻尔兹曼机来预估低级和中级特征,而为了解决图像集稀少的问题,Han等采用了一种新型的弱监督学习方法,该方法的训练集的标签仅为布尔值(是否包含目标)。 遥感领域目前比较流行的目标检测方式是利用BING,selective search,Edge Box及其他基于底层特征的算法来提取候选区域,而分类候选区域时则用N等高层特征。 Wu等26用Lecun等提出的经典N27创建一个用于飞机检测的模型,文中使用BING获得候选区域。 Zhang等28使用训练好的N模型提取与局部特征(HOG)相结合的周围环境特征来描述油罐,然后使用梯度方向从遥第1章绪论5感图像中选择候选区域。 Jiang等29使用基于图形的超像素分割来提取一组图像块,然后训练N将这些图像块分类为车辆和非车辆。 Long等30使用选择搜索(selective search,SS)方法生成区域提名。 Selective Search31基于人工设计的底层特征融合超像素,获得候选区域。 然而SS速度很慢,在CPU中处理ImageNet中的一张图像需要大概2s,并且其使用底层特征,从而导致目标定位时精度并不高。 虽然Long等在候选区域进行分类后又使用USB-BBR,但其用在提取候选区域和分类过程之后,因而对检测精度的贡献并不大。 随着GPU计算能力的进步,深度学习技术的发展,及大量标注数据的出现,计算机视觉领域涌现了很多优秀的研究成果。 目标检测是定位和分类两个任务的结合,目前表现优秀的模型分为端到端和两阶段模型。 两阶段目标检测模型包括提取候选区域阶段以及分类阶段,第一阶段对输入图像提取特征,分类为前景和背景;在第二阶段对前景区域进行具体类别的分类,例如图1.1中,具体分类为建筑物,道路,树木,草地和水等。 而端到端模型对输入进行预处理,提取特征,最后直接得到目标所在位置及目标具体类别。 检测领域中R-N32非常具有开创性,后续Fast R-N33,Faster R-N34,Mask R-N35,Yolo36,SSD37等模型针对R-N模型的缺点进行了不同程度的改进,在速度越来越快的同时,精度也越来越好。 综上所述,随着遥感技术、成像设备的发展,以及计算机视觉领域的优秀研究成果的出现,使遥感领域的目标检测成为热门的研究领域。 遥感图像的目标检测发展迅速,从使用滑动窗口提取候选区域,发展为SIFT、HOG等手工特征提取候选区域以及SVM作为分类器,到如今Selective Search、Edge Box等作为提取候选区域的方法结合N作为分类器。 虽然以上工作具有显著地进步,但是遥感领域的目标检测仍然面临检测精度低,运算速度慢的问题。 而随着计算机视觉领域目标检测的发展,推进遥感领域的目标检测研究工作更加具有可行性和必要性。 1.3本文主要研究内容遥感图像目标检测面临的一个问题是遥感图像数据量小,导致直接使用经典网络时,网络和训练集不匹配。 遥感图像目标检测面临的另一个问题是遥感图像第1章绪论6目标小,在图像为几千乘几千像素情况下,目标可能就十几乘以十几像素,这对目标识别提出了挑战。 高层的特征能更好地映射到语义信息,而低层的特征则能更好地定位目标,若能将两种特征结合,则可能会出现令人期待的结果。 针对以上问题,本文开展如下研究内容 (1)面对网络参数量大导致的网络运算慢以及网络参数量与训练集数据量不匹配的问题,除使用具有共享权值的N网络,另外提出稀疏N算法,并将其用于设计训练算法训练目标检测网络,获得稀疏性强的目标检测网络,从而使网络速度更快,并保持精度不会下降。 (2)小目标的识别。 大部分N网络在越深的层,特征图的尺寸会越小,高层特征图中每个像素代表的感受野区域很大,这样对小目标识别很不利。 而低层特征图中包含目标位置的更多局部细节信息,对定位有帮助,因而我们研究使用多层特征图的方式,同时在多个尺度的特征图上进行定位与类别的预测。 (3)从低层到高层,目标的特征图尺度由大到小,本文采用多尺度特征图的方式,解决遥感图像中目标尺度不同的问题。 (4)因遥感图像中目标小,在训练时如果将图像整个输入网络进行训练,将会导致网络预测时更偏向背景,因为背景在图像中占主导地位,这也是很多直接将N用于遥感图像的目标检测中得到的精度不高的原因。 因而,在本文中选择训练集时,将正负样例进行平衡,并且在训练中采用难分负样本挖掘,从而使其能够有效学习到目标和背景的特征。 (5)对于遥感图像数据集中目标旋转性强等问题,本文采用数据增强的方式,使网络从数据集中直接学习到目标的多种姿态下的特征。 1.4本文组织结构论文分为5个章节,分别为绪论,目标检测及遥感图像背景知识,本文的基于修剪策略的目标检测方法,实验,及最后对文章进行总结以及对遥感图像领域的目标检测进行展望。 具体为第一章介绍了本文的研究背景以及研究意义,并对国内相关工作进行了综述。 最后说明了本文的主要研究内容和论文的组织结构。 第二章描述了目标检测近年的发展状况,介绍了经典的目标检测模型,并对第1章绪论7遥感图像的成像以及图像处理相关知识进行了阐述。 第三章详细描述了论文提出基于修剪策略的遥感图像目标检测方法,包括提出的修剪方法以及训练目标检测网络的方法。 第四章介绍了实验所用的遥感数据集,实验所用的测评标准,对比实验所用的目标检测方法,以及对实验结果进行了分析。 第五章总结本文,以及对未来工作进行展望。 第2章遥感图像与目标检测8第第2章遥感图像与目标检测2.1目标检测2.1.1目标检测基本概念图像分类是指对一张图片进行预测并给出图片中目标的类别。 当图像中只包含单一的目标时,分类器只需要输出该目标的类别。 如果图像中包含多种类别的目标,分类器的预测结果就不可知了。 为了解决这个问题,可以训练一个输出多标签的分类器,但是我们仍不知道图像中哪个位置是哪种目标。 在一张图像中确定一个给定类别目标的位置的任务被称为定位。 然而,如果目标的类别没有给出,则不只需要预测出目标的位置,也要预测出目标的类别。 在预测出目标位置的同时预测目标的类别的任务叫做目标检测。 一般来说,目标检测任务有两种不同的方法第一种是利用区域提名方法寻找目标,然后在其后级联一个分类网络对区域提名进行预测并输出类别结果(两阶段);另一种是在每个划分的网格上进行固定数量的预测(端到端)。 在本节中,将首先讨论目标检测的两阶段方法,然后将讨论端到端方法。 通常,两阶段目标检测模型中有三个步骤第一步,使用模型来生成感兴趣区域或区域提名(region proposal)。 这些区域提名是在整个图像上生成的大量边界框。 第二步,对每个边界框提取视觉特征并评估它们,并且基于视觉特征确定提名中目标是否存在以及哪种类别目标存在。 第三步,将重叠的边界框组合成单个边界框(非极大抑制算法)。 与两阶段的目标检测相比,端到端没有中间任务,直接从输入图片中预测目标位置及类别。 因此端到端的目检测模型更简单、更快速。 2.1.2目标检测模型在计算力以及数据规模的双重提高下,深度学习在视觉领域展现了其优秀的第2章遥感图像与目标检测9特征提取能力。 R-N是目标检测领域一个非常重要的转折点,其实在R-N(Region-based ConvolutionalNeural Networks)之前已经有很多研究者尝试将深度学习用于目标检测了,如OverFeat38,其在在ILSVRCxx测试集的mAP为24.3%。 但R-N是第一个可以用于工业级的目标检测解决方案,其在ILSVRCxx测试集上的mAP为31.4%。 R-N诞生于xx年,是结合区域提名和卷积神经网络的目标检测方法,R-N奠定了这个子领域的基础,很多优秀的研究成果如SPP-39、Fast R-N33、Faster R-N34、Mask R-N35、YOLO36、SSD37等均属于这个子领域。 如图2.1为R-N检测流程,R-N由3个简单步骤组成 (1)使用选择搜索算法扫描输入图像,以获得2000个区域提名(region proposals); (2)将区域提名进行伸缩处理,获得相同长、宽的块,然后N从中提取特征; (3)对每一个类别,将N输出的特征输入到该类别SVM。 若分类的结果表明区域提名中包含目标,则将卷积神经网络的最后一层特征图输入线性回归器中,以调整目标的边界框。 图2.1R-N算法流程图作为R-N系列的开山之作,R-N具有很多改进的余地 (1)N要对每个区域提名单独提取特征,因而存在着很多的重复计算。 (2)选择搜索算法速度太慢,而且定位能力不够强,选择好的区域提名算法可提高检测速度和精度。 (3)训练网络需要很大空间开销。 R-N在训练分类器和边界框回归器时需要从每个候选区域提取特征并将特征存储起来,这些特征会高达几百GB。 (4)将目标检测转化成对图像局部区域的分类处理后,分类器每次只对单一的局部区域进行分类,没有充分利用背景中的信息。 第2章遥感图像与目标检测10 (5)训练时采用多级训练方式,因而训练步骤繁琐并且训练方式不能使参数统一更新。 由于全连接层的特性,R-N的弊端是输入需要统一大小,并且为每个候选区域计算特征,SPP39的提出解决了这两个问题,其解决方式是在最后一层卷积层输出的特征图上提取固定长度的特征向量,从而只需要对输入图片提取一次特征。 如果SPP采用四级池化,那么对于最后一层共享的特征图,在第 一、 二、 三、四级池化时分别把特征图分为 1、 4、 9、36份,从而提取固定50维度的特征。 如图2.2为SPP-检测流程图,SPP-简单来说有4个步骤 (1)和R-N一样,SPP-使用的区域提名算法也为选择搜索算法。 (2)候选区域不再统一到相同大小,而是缩放候选区域,使其具有六种尺度,具体使长宽中的较短边缩放为 480、 576、 688、 864、1200以及保持自身长度。 (3)六种尺度对应六种候选区域,从中选择候选区域边界框最接近224*224的那个尺度,从该尺度对应的最后一层特征图中提取固定长度特征。 (4)用SVM、回归器对固定长度特征进行分类、回归。 SPP-只解决了R-N中的重复计算问题,仍然有很多待改进的地方 (1)SPP-仍然是一个多级训练流程。 图2.2SPP-目标检测网络结构 (2)特征要存储在硬盘上,占据大量存储空间。 (3)和R-N不同的是SPP-的微调神经网络阶段是不能更新卷积层的权重的。 如图2.3,Fast R-N则借助于SPP的思想,在N中加入ROI池化来改第2章遥感图像与目标检测11进在R-N和SPP-训练和检测中存在的重复计算的问题。 ROI池化是SPP层的简化版,只有一级最大池化。 Fast R-N将从R-N开始的多阶段训练方法改为使用多任务损失函数的单阶段训练方法,在训练时不用额外开辟空间存储特征,测试时也不再分多步。 Fast R-N相较于R-N和SPP-有以下优点 (1)比SPP-和R-N的mAP更高; (2)用多任务损失函数,训练过程是单阶段的; (3)训练过程能够更新网络中所有的参数; (4)特征不用存储在硬盘上。 图2.3Fast R-N框架Fast R-N的区域提名算法为选择搜索算法,因而其区域提名算法是检测的速度瓶颈。 而Faster R-N则使用RPN(Region ProposalNetwork)网络产生候选区域。 如图2.4,RPN输出候选区域的前景/背景得分以及边界框偏移量。 Faster R-N提出一种训练模式,能够训练出一个统一的网络,使区域提名和分类两个任务分享同样的卷积特征。 RPN用s*s的空间滑动窗口,将特征图中的s*s*n大小的区域映射为n维的向量,此向量将被输入两个全连接(1*1的卷积层)里,一个全连接给出该候选区域的前景/背景类别得分,另一个给出该候选区域的偏移量。 所有空间位置的n维向量共享两个全连接。 Faster R-N的检测过程为 (1)将图片最短边伸缩为600像素,输入卷积层,获取共享的特征图(H*W*D); (2)从共享特征图提取k*H*W个锚(anchor),并给每个锚计算一个前景置信度和偏移量; (3)将区域提名输入Fast R-N进行分类、回归; (4)对每一类别分别使用NMS算法。 Faster R-N通过引入RPN网络,进一步加速了检测过程。 以上R-N系列的目标检测是两阶段的,即先判断候选区域是否为目标,再进行分类。 以下介绍的目标检测方法则为一阶段的,即没有区域提名阶段。 YOLO将检测问题看为回归问题,即直接从图片中预测边界框和分类概率,第2章遥感图像与目标检测12图2.4Faster R-N目标检测结构把区域提名和分类合二为一,从而使检测性能获得了很大的提升。 YOLO将图片分为S*S的网格,如果一个目标的中心落在某一格子中,这个格子就负责预测该目标。 YOLO的检测步骤为 (1)将输入图片伸缩为448*448; (2)将图片输入单个卷积神经网络; (3)输出相应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年6月广西来宾市妇幼保健院招聘7人考试参考题库及答案详解
- 2026年成都高新区面向社会公开招聘员额教师考试模拟试题及答案详解
- 造口护理的人工智能辅助决策
- 2026江西吉安职业技术学院智能建造学院兼职教师招聘考试参考题库及答案详解
- 2026南方医科大学第三附属医院部分科室招聘2人(广东)笔试模拟试题及答案详解
- 第21练《《作酢法》二则》课前预习-语文拓展模块下册(高教版)山东省版《一课一练》答案
- 2026年河北省地方病防治所医护人员招聘笔试参考试题及答案详解
- 2026陕西宝鸡宝石花产业运营服务有限公司招聘43人笔试模拟试题及答案详解
- 焊接设备操作工安全意识强化模拟考核试卷含答案
- 防水工班组评比知识考核试卷含答案
- 2023-2024学年广东省江门市小学数学五年级下册期末提升试卷
- 仪器设备管理登记本
- YY/T 1142-2013医用超声设备与探头频率特性的测试方法
- GB/T 9237-2017制冷系统及热泵安全与环境要求
- 3.5《夏季星空》教学课件
- 六年级下册音乐《保卫黄河》教案
- 博士后出站研究报告
- T∕CSTM 00632.4-2022 建筑涂饰工程用涂料产品技术要求 第4部分:地坪涂料体
- 成交价改进换手率因子
- 作文指导PPT_(我的家乡)
- 编译原理课后习习题答案(陈火旺+第三版)
评论
0/150
提交评论