【《Two-stage目标检测算法概述》1800字】_第1页
【《Two-stage目标检测算法概述》1800字】_第2页
【《Two-stage目标检测算法概述》1800字】_第3页
【《Two-stage目标检测算法概述》1800字】_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Two-stage目标检测算法概述Two-stage目标检测算法的基本思想是将目标定位和目标分类分为两步进行,即先使用设计好的RPN(RegionProposalNetwork,区域生成网络)生成矩形候选区域,再使用卷积神经网络对生成的候选区域进行分类,整体分为两个步骤进行。其网络的准确度相对较高,但速度相对较慢。Two-stage算法的代表为R-CNN系列,包括R-CNN、FastR-CNN和FasterR-CNN,本节将对R-CNN系列算法原理的核心思想进行介绍,并对本选题搭建无人机目标检测模型时使用的同属于Two-stage的FGFA算法的关键原理进行详细说明。1R-CNNR-CNN(RegionConvolutionalNeuralNetworks,区域卷积神经网络)是R-CNN系列最早提出的目标检测算法,也是第一个在目标检测领域成功使用深度学习框架的算法。它遵循传统目标检测算法中穷举所有可能出现的候选框,再对候选框进行特征提取及分类,最终通过非极大值抑制输出结果的思路,将整体流程划分为候选框生成、特征提取、图像分类、非极大值抑制四步,使用SS(SelectiveSearch,选择性搜索)的方法生成候选区域,使用卷积神经网络进行特征提取并得到每张图的特征向量,再利用SVM(SupportVectorMachine,支持向量机)进行回归,最终输出经过非极大值抑制和使用另一个边界框回归模型修正位置后的结果,得到相对精确的检测结果。算法的结构框架如图2-3所示。图2-3R-CNN算法结构框架2FastR-CNN由于最初的R-CNN算法需要对每一个候选区域进行特征提取,巨大的计算量导致R-CNN算法的耗时长、成本高,因此,为了提高训练和测试的速度,使用VGG-19网络结构的FastR-CNN算法被提出,它的创新点在于摒弃了原先的R-CNN需要对每个候选区域进行卷积计算的过程,加入了RoIPooling,使用一个神经网络将该步骤简化为对整个图像进行卷积运算。同时,FastR-CNN将候选区域分类和边框拟合步骤放到一个环节中进行,同步使用两个全连接的输出层完成类别和边框的预测,提高了模型整体的训练和测试速度。算法的结构框架如图2-4所示。图2-4FastR-CNN算法结构框架3FasterR-CNN在R-CNN算法中,对于计算资源耗费较大的步骤分别是候选区域生成和特征提取,FastR-CNN算法通过对特征提取部分进行优化提高了计算速度,而候选区域生成环节的耗时问题仍未彻底解决。基于上述思路,FasterR-CNN算法被提出,它使用一个RPN网络代替了原先依赖选择性搜索生成候选区域的方式,并将RPN网络与用于提取图像特征的卷积神经网络相连接,使它们在同样需要进行卷积运算的前几层中共享参数,在后续的其它层中完成各自的任务,即可通过对共享的卷积层进行前向卷积计算的方式一次性获得候选区域和分类及定位结果,使得算法的整体性能尤其是计算速度方面有显著的提高。算法的结构框架如图2-5所示。图2-5FasterR-CNN算法结构框架4FGFA在目标检测领域,除了针对图像的目标检测外,针对视频的目标检测也有着广泛的应用场景。然而,与图像的目标检测不同的是,视频的动态特性使得目标的特征会出现多种形式的退化,如运动模糊、姿态变换等。视频由一帧帧图像组成,而连续图像的变化规律则能在图像本身之外提供更多的信息,因此,在目标检测算法中加入对时序信息的处理成为了视频目标检测的重要思路。2017年,微软亚洲研究院视觉计算组提出了FGFA(Flow-GuidedFeatureAggregation,光流法)REF_Ref71984757\r\h[12]实现目标检测的方案,它是一种属于Two-stage类别的目标检测算法。FGFA基于上述思路,将相邻帧的时序特征聚合到了当前帧的特征中,在图像原有的信息基础上利用相邻帧之间相似的特征图来增强小目标的特征,加入了更加丰富的信息以提高检测的精度,可达到更加准确、稳定的输出。算法主要由光流提取、特征融合两个模块构成。在光流提取模块,使用FlowNet网络提取当前帧与相邻帧之间的光流,并将其与当前帧、相邻帧的特征组合,再使用元素权值求和的方式进行特征融合。算法的整体架构如图2-6所示:图2-6FGFA算法架构如图所示,特征提取网络在当前帧上提取出单帧特征,同时用光流网络估计相邻帧和当前帧的运动,将相邻帧的特征根据光流运动中的信息变换到当前帧,以加强当前帧的特征。变换后特征图一起通过适应权重网络进行聚合,聚合得到的特征图最终用于输出当前帧的检测结果。下面介绍该算法中的核心计算模块。1.光流提取对于某一帧和其相邻帧,FGFA算法使用光流网络FlowNet来得到它们的光流场MIf式(2-1)其中,W是对特征图上所有位置的每个通道应用的双线性函数, ℱI1.特征融合在光流提取的基础上,为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论