【《两阶段和单阶段目标检测算法概述》2000字】_第1页
【《两阶段和单阶段目标检测算法概述》2000字】_第2页
【《两阶段和单阶段目标检测算法概述》2000字】_第3页
【《两阶段和单阶段目标检测算法概述》2000字】_第4页
【《两阶段和单阶段目标检测算法概述》2000字】_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两阶段和单阶段目标检测算法概述近几年来,各种新颖的目标检测算法不断出现,根据实现时是否存在待选框(Proposal)产生阶段,可以被分为两类:一类是存在待选框产生阶段的,如R-CNN,FastR-CNN,FasterR-CNN,这些被归类为两阶段算法;另一类是无待选框产生阶段的单阶段的算法,如SSD,YOLO。下面对这些算法做一下简单的介绍。两阶段目标检测算法传统的基于滑动窗口的目标检测算法的思路是:用不同规格的窗口在图像上按一定的间隔移动,每次都对窗口内的图像使用CNN进行分类处理。这样做的缺点显而易见,需要的不同大小的窗口太多,计算量太大。为了解决这个问题,诞生了基于候选区域的算法。2014年,GirshickR等人[13]设计并发表了R-CNN模型。R-CNN首先会寻找物体的所在,这一步的实现方式是将图像划分为若干个小的子区域,然后依据定义的相似度(主要考虑颜色,纹理等)进行区域合并,得到最终的待选框。R-CNN的算法流程如图2-10所示,首先使用前述的步骤来得到待选区域,接着将所有经过一定处理后的待选区域送入AlexNet进行特征提取,最后采用SVM算法进行分类。图2-10R-CNN算法流程图[13]R-CNN相对于传统算法有了相当出色的提升,但是依然有着不足:一是得到待选框的步骤中,往往会得到一些有重合的结果,这就造成了计算上的冗余;二是使用AlexNet时,由于AlexNet对输入的要求是217×217,因此有时需要对输入图像进行一些导致图像变形严重的操作,影响分类结果。2015年,何凯明等人[15]设计并发表了SPP-Net。SPP-Net在CNN中引入了空间金字塔池化的思想。在空间金字塔池化概念的启发下,GirshickR等人[14]设计并发表了FastR-CNN模型。FastR-CNN进行了2个方面的优化,一是借鉴金字塔池化构思了一种简化版本的感兴趣区域池化(ROIPooling),解决R-CNN的失真问题;二是采用softmax分类取代了SVM分类器,在分类能力上也获得了提升。FastR-CNN算法流程如图2-11所示。FastR-CNN同样采用与R-CNN相同的方法提取待选框,与R-CNN不同的是,不再采取先得到待选框再逐个将其输入CNN中来获得特征的方式,而是先将整个图像输入到CNN中进行特征的获得,再结合感兴趣区域映射得到各个待选框的特征。这样,各个待选框共用了卷积层,加快了速度。图2-11FastR-CNN算法流程图[14]R-CNN和FastR-CNN最大的制约在于得到待选框时采用的方法,对此,RenS等人[16]设计并发表了FasterR-CNN模型来克服这一问题。FasterR-CNN将提取待选框的步骤加入到了神经网络中,替代这一步骤的网络结构被称为RPN(英文全称为RegionProposalNetwork,区域待选网络)。如图2-12所示,FasterR-CNN的流程为:首先完整地输入图片,进行特征提取,然后将提取到的信息结合RPN获得的待选框信息进行最终的分类以及回归。图2-12FasterR-CNN算法流程图[16]单阶段目标检测算法2016年,LiuW等人[18]设计并发表了SSD目标检测算法,如图2-13所示。SSD算法的主体网络是改进后的VGG-Net[10],在CNN中,通过提取不同层次的特征图得到不同的边界框,然后进行预测和回归。SSD算法是一个典型的单阶段目标检测算法,也就是说,不再是先通过某种算法得到待选框,而是直接将图片输入到CNN中,在图片上进行密集取样,取样后提取特征,进行分类和回归。图2-13SSD算法网络结构图[18]2015年,RedmonJ等人[17]设计了YOLO算法,其网络结构如图2-14所示。YOLO算法也同样是单阶段的,其设计思路是将目标检测的任务看作一种回归任务,定位边界框并预测该框内物体的类别。图2-14YOLO算法网络结构图[17]YOLO网络首先会把图像调整为统一的大小(448×448),然后将输入划分为多个单元格(gridcell)。单元格的意义在于,如果目标的几何中心落在单元格内,则就由该单元格承担起对该目标的检测工作。对于单元格内的n个目标,单元格会预测出n个框和该框的置信度,置信度计算公式如式(2-9)所示: 式中:——框中目标存在的概率;——预测框与实际框的交并比;上式中IOU的计算公式如式(2-10)所示: 式中:——预测框与实际框交集的面积;——预测框与实际框并集的面积;显然,置信度是俩个方面度量的总和:目标可能性和框的准确性。然后,进入预测阶段,YOLO预测的不是类别的概率,而是其条件概率,该条件概率表述为在单元格内有目标的条件下目标属于某一类别的概率,其计算公式如式(2-11)所示。在最后的预测阶段,YOLO会根据计算出的条件概率,结合非最大值抑制(NMS)方法来得到框和类别。 式中:——物体类别在框中有目标的条件下的条件概率;——框中存在目标的概率;——类别的概率;——预测框与实际框交集的面积;2015年,RedmonJ等人[20]在YOLO的基础上设计并发表了YOLOv2模型。YOLOv2模型在YOLO模型的胚子上引入了一些措施来进行优化。首先,YOLOv2设计了Darknet-19来取代VGG16进行特征提取的工作,DarkNet-19网络的构成如图2-15所示。其次,CNN在传递时由于各层的输入分布有差别,会造成内部协方差的出现,YOLOv2在处理每层的输入时采纳了归一化的方案,通过归一化操作可以将这种现象带来的不良后果消弭,提升模型性能[23]。然后,YOLOv2还引入了先验框等举措来提升模型的整体性能。图2-15DarkNet-19网络结构图2018年,RedmonJ等人[21]继续在YOLO系列上改进,设计并发表了YOLOv3模型。YOLOv3在YOLOv2的基础上,使用了比Darknet-19更优秀的Darknet-53网络来完成提取工作,该网络的主体结构如图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论