【《目前目标检测领域主流的检测算法概述》3600字】_第1页
【《目前目标检测领域主流的检测算法概述》3600字】_第2页
【《目前目标检测领域主流的检测算法概述》3600字】_第3页
【《目前目标检测领域主流的检测算法概述》3600字】_第4页
【《目前目标检测领域主流的检测算法概述》3600字】_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

I目前目标检测领域主流的检测算法概述目录TOC\o"1-3"\h\u30654目前目标检测领域主流的检测算法概述 1236141.1基于候选区域的目标检测算法 187261.1.1R-CNN目标检测算法 161291.1.2FastR-CNN目标检测算法 3153361.1.3FasterR-CNN 3277421.2基于直接回归的目标检测算法 4161501.1.1RetinaNet目标检测算法 4120481.1.2SSD目标检测算法 5106091.3YOLO系列目标检测算法原理 649501.4小结 101.1基于候选区域的目标检测算法基于候选区域的目标检测算法就是我们常说的“两步法”,该类算法检测思想是,通过不同尺寸的窗口在图像上进行滑动,并定位不同区域中的目标。判定不同区域内的目标类别并产生包围框。对利用滑动窗口产生候选区域的目标检测算法来讲,虽然输入图像可能包含多种检测目标,但一般情况下,滑动窗口所生成的包围框只有一个目标。因此,我们可以对不同窗口内的目标分别进行处理,这一思路与目标定位相像。但是,由于该方法要采用不同尺寸的滑动窗口将输入图像全部覆盖,这会使得计算量大大增加。1.1.1R-CNN目标检测算法R-CNN算法有力地增强了运用卷积神经网络进行目标检测的能力。特征提取和目标分类是卷积神经网络的两大功能,采用RegionProposal(区域建议)的方法进行目标检测。算法大致上有三个步骤:(1)生成候选区域。(2)卷积网络提取特征。(3)目标分类。2014年,R-CNN出现,对于目标检测尤其是行人检测方面相较之前得到了极大提升,但是由于检测速度不够,R-CNN并没有在目标检测领域得到大面积的普及,R-CNN存在许多缺陷,例如需要提取并存储候选区域中的图像,这会导致内存空间不足;对于传统卷积神经网络,输入的特征图尺寸要固定,而R-CNN归一化的过程会改变图像尺寸,这令CNN的特征提取变的极为困难;所生成的每一个候选区域都需要输入到特征提取网络中,从而造成许多相同的特征被重复提取,使得计算量无谓的增加。FastR-CNN对相应问题进行了改进。1.1.2FastR-CNN目标检测算法FastR-CNN相对于R-CNN的提升主要体现在三个方面:1.检测速度得到了提升。R-CNN算法会造成候选区域的重叠,导致产生大量不必要的参数量与计算量。FastR-CNN改进了算法避免了这一问题的产生。1.训练速度得到了提升。3.更充足的训练空间。RCNN需要存储大量特征,占用大量内存。而FastR-CNN算法改进了这一问题。FastR-CNN的工作流程如下:首先选择性地搜索输入图像中的目标,在输入图像上总共产生两千到三千个候选区域。这一步骤与RCNN相同,使用的方法都是选择性搜索。具体是通过过分割的方式在输入图像上划分出不同颜色、不同纹理的区域。之后,观察这些不同区域,合并相似的区域。不断的重复,一直到图像中合并的只剩下最后一个区域。合并所遵循的原则与RCNN相同,即颜色相似、纹理相近、合并后面积最小。之后进行特征提取,类似于RCNN,是图片通过卷积层,进行卷积运算,来获得所提取的特征。经过卷积运算后,网络会输出featuremap(特征图),之后将featuremap映射回原图像,在卷积运算结束之前,使用RoI(RegionofInterest)池化层将其变为相同尺寸。而在RCNN算法中,输入特征图像之前必须要先将图片进行处理,变为固定尺寸,十分的繁琐且处理过程容易出错,还会造成一定量的特征丢失,从而影响之后的特征提取,降低检测精度。FastRCNN与RCNN不同之处在于FastRCNN可以输入任意尺寸特征图,而不是固定尺寸,而实现不同尺寸特征图的输入所依靠的正是ROI池化层。1.1.3FasterR-CNNFastR-CNN是对R-CNN的改进,而FasterR-CNN在此基础上继续优化了模型算法,检测效率进一步升高,然而与RCNN、FastR-CNN不同的是,FasterR-CNN使用GPU,通过深度神经网络来完成传统目标检测所需的各种步骤,不仅提升了检测精度,还加快了检测速度。FasterR-CNN的两个主要模块是RPN生成模块与目标检测模块。RPN候选区域网络属于全卷积神经网络,RPN与传统目标检测神经网络的主要区别是用卷积层替换了传统网络中的全连接层。FasterR-CNN首先由RPN来产生候选区域,接着所产生的候选区域被输送到主干网络中进行识别分类。检测流程大致如下:输入特征图、通过RPN产生候选区域、主干网络特征提取、分类器分类、回归器回归最终调整识别目标位置。RPN通过3×3与1×1两种不同尺寸的卷积输出两个不同的分支。其中一个分支作用是判定各包围盒是否含有识别对象,另一个分支针对不同的包围盒,输出候选区域x,y,w,h4个表示坐标的参数。先产生候选区域再输入网络进行识别的这一思想实际上与通过滑动窗口定位目标的思想相似,区别在于候选区域的产生并不是在输入图像上滑动,而是在首个卷积层的输出特征图上进行滑动。由于输出特征图具有空间较小、感受野较大的特点,即使使用小面积的滑动窗口,映射到原图上时范围也可以很大。FasterR-CNN使用了九种不同尺寸大小的锚盒,大小分别为128×128、256×256、512×512,长宽比采用1:2、2:1、1:1,其中锚盒的尺寸已经比特征图感受野的尺寸还要更大。1.2基于直接回归的目标检测算法以上提到的算法采用两步操作,虽然精度还不错,但检测速度并不理想。而基于直接回归的目标检测方法可以直接得到检测分类结果。这类方法去掉了候选区域的产生这一参数量与计算量较多的阶段,因此检测速度通常更快,可以满足一些需要具备实时性的场合的需求。由于完成检测只需要一步,因此与两步法相对应,称之为一步法。1.1.1RetinaNet目标检测算法因为分类不平衡的现象很可能发生于基于直接回归的目标检测算法,所以RetinaNet认为这种检测算法性能与基于候选区域的目标检测算法相比要差一些。提前生成候选区域可以帮助基于候选区域的算法过滤掉没有识别目标的多余区域,而由于省去了生成候选区域这一步骤,基于直接回归的算法就会产生类别不平衡的问题。因此,RetinaNet提出了焦点(focal)损失函数这一理念,是对传统的交叉熵损失函数进行了优化改进,降低不重要的背景目标在识别时所占比重,提高识别更困难的目标样例在训练中所占权重。RetinaNet依靠这一理论,使得模型检测精度可以与两步法的模型所媲美的同时,检测速度又不低于其他的一步法。1.1.2SSD目标检测算法为了节约存储,SSD在卷积特征之后,添加了一系列的卷积层,同时通过融合不同层卷积层的特征来提升对多尺度目标的检测表现。与FasterR-CNN的RPN原理类似,SSD同样使用卷积层替换了原始YOLO模型中的全连接层,这有利于SSD分类回归不同尺寸形状的锚盒。SSD的检测速度超过了YOLO,接近于FasterR-CNN的速度。研究调查证明,与其他检测算法相比,SSD算法模型检测效果与基础模型的性能如何相关性不大。1.3YOLO系列目标检测算法原理YOLO也是基于直接回归的目标检测算法的一种,属于一步法,同时也是本文改进所基于的算法。YOLO系列算法检测原理大都相似,首先为了得到固定尺寸的特征图(featuremap)(例如n×n)而采用特征提取网络提取所输入特定图像的特征,,之后,将输入图像按照得到的特征图的尺寸划分成网格形式,例如n×n个单元格,由不同单元格预测不同目标,不同的目标具体由哪个单元格预测取决于GroundTruth中目标的中心坐标落在哪个单元格(gridcell)内。不同的单元格预测不同数量的边界框(boundingbox),其中和GroundTruth的交并比数值最大的那个边界框产生最终对目标的预测。输出的特征图共有三个维度,分别是宽、高、通道数,通道数也就是常说的深度,比如B*(5+C),公式中的B代表任意一个方块所对应预测的先验框的个数,C代表先验框内目标的种类个数[22-26]。式中的数字5代表4个坐标信息和1个先验框置信度(ObjectnessScore)。YOLOv3所采用的训练方式依然是YOLO系列传统使用的的变尺度训练方式。由于卷积运算是卷积核以一定的步长(stride)在输入图像上滑动,因此当特征图通过3×3的卷积运算后,可以增加自身通道数,而进行了3×3卷积运算后的特征图再通过1×1的卷积可以压缩自身。因此我们可以发现,YOLOV3网络中存在许多3×3与1×1大小的卷积层。YOLOv3目标检测网络的完整结构如图1.1所示,其中backbone主干网络部分为Darknet-53图1.1YOLOv3网络结构YOLOV3的主干网络采用了特征提取网络Darknet-53,详细结构见图1.2。图1.2Darknet53结构图YOLOv4中,对Darknet53做了一点改进,借鉴了CSPNet,CSPNet全称是CrossStagePartialNetworks,也就是跨阶段局部网络。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题,将梯度的变化从头到尾地集成到特征图中,因此减少了模型的参数量和FLOPS数值,既保证了推理速度和准确率,也减小了网络尺寸。CSPNet就是基于Densnet的思想,复制基础层的特征映射图,通过denseblock发送副本到下一个阶段,从而将基础层的特征映射图分离出来。这样可以有效缓解梯度消失问题,支持特征传播,鼓励网络重用特征,从而减少网络参数数量。最终的CSPDarknet53结构如图1.3。

图1.3CSPDarknet53结构图而本文所改进的YOLOv4-tiny网络是简化版的YOLOv4网络,是YOLOv4的压缩版本。它是基于YOLOv4,但使网络结构更加简单,并降低参数,使之在移动和嵌入式设备的开发更为方便。使用YOLOv4-tiny,可以进行更快的训练和更快的检测。它只有两个YOLO头,而YOLOv4中有三个。并且已经从29个预训练的卷积层中进行了训练,而YOLOv4从137个预训练的卷积层中进行了训练。Yolov4-tiny使用特征金字塔网络提取不同尺度的特征图,进而提高目标检测速度,而没有使用Yolov4方法中使用的空间金字塔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论