【《基于Faster R-CNN的视频目标检测案例分析》2900字】_第1页
【《基于Faster R-CNN的视频目标检测案例分析》2900字】_第2页
【《基于Faster R-CNN的视频目标检测案例分析》2900字】_第3页
【《基于Faster R-CNN的视频目标检测案例分析》2900字】_第4页
【《基于Faster R-CNN的视频目标检测案例分析》2900字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于FasterR-CNN的视频目标检测案例分析目录TOC\o"1-3"\h\u4318基于FasterR-CNN的视频目标检测案例分析 [14]。这种退化并不是由于过拟合(overfit)引起的,因为过拟合的情况下训练集的准确率应该很高,但如果为一个合适的深度模型添加层数同样会导致训练误差增加。因此在2015年,何凯明等人针对这个问题提出了一种全新的网络,也就是深度残差网络(Deepresidualnetwork,ResNet),该网络可以有效提高网络深度,其中引入了全新的结构架构,在ILSVRC2015图像分类和定位比赛中取得第一名。区别于AlexNet、VGGNet与GoogLeNet等的串行结构,ResNet网络模型通过引入残差(residual)块,在层间建立跨层的数据通道,使得梯度可以跨层向前传播,有效地改善了梯度消失的问题。图1.220层与56层网络在CIFAR-10上的误差ResNet的核心设计是残差模块,使用了一种叫做短路连接(shortcutconnection)的连接方式:当输入为x时,其学习到的特征记为H(x),现在将残差记为F(x)=H(x)−x,所以原始的学习特征是H(x)=F(x)+x。当残差为0时,此时堆积层仅仅做了恒等映射(identitymapping),至少网络性能不会下降,实际上残差不会为0,这也会使得堆积层在输入特征基础上学习到新的特征,从而拥有更好的性能,这有点类似与电路中的“短路”,因此叫做短路连接。具体的结构如图1.3所示。图1.3残差学习单元结构图在ResNet网络结构中会用到两种残差模块,一种是以两个3*3的卷积网络串接在一起作为一个残差模块,另外一种是1*1、3*3、1*1的3个卷积网络串接在一起作为一个残差模块,他们如图1.4所示。本文所使用的ResNet101结构为图右侧。图1.4两种不同的残差模块区别于GoogLeNet等,ResNet的设计中不仅提出并使用了残差块,而且延用了VGG的设计思想使用3*3的卷积层提取特征。由于结构单元简单,修改也较为方便,因此ResNet被迅速地研究与使用,并深刻影响了后来的卷积神经网络设计。1.1.3候选区域提取网络RPN整个RPN网络的结构如图1.5所示,在得到图像的特征图之后,RPN网络对特征图上的每个点进行锚点操作,并以该点为中心,输出k个窗口作为目标候选区(anchor),通常k=9,分别包含1:1、2:1、1:2三种不同的长宽比例和642,2562,5122三种不同的面积大小,这样就能检测出不同大小的目标物体。通常每个特征点都会融合周围的特征,也就是邻近窗口的特征(slidingwindow),大小通常为3*3,同时使用一定大小卷积核对特征图进行卷积运算,最终特征图上的每个点大小都为256维。分类层生成2k个得分,因为每个目标候选区需要2个得分,分别标记其包含真实目标的概率(foreground)和属于背景的概率(background),总有k个目标候选区,所有共有2k个得分。同理,每个目标候选区需要4个参数来进行边框回归,故定位层共生成4k个坐标。图1.5RPN网络结构示意图对于RPN网络的计算流程,则如图1.6所示。卷积层得到的特征图进入RPN网络后会进入两条分支:分类网络和定位网络。通过分类网络可以对真实目标出现于候选区域的可能进行判断,而通过定位网络可以设置边框回归的参数,参数的数量为4个。综合运用两种网络能够将超出大小以及背景等的候选区域剔除,最终输出的候选区域必然会存在所需检测的目标。图1.6RPN网络计算流程RPN网络的训练损失包含两部分:分类损失和定位损失。损失函数L的计算公式如公式1.1所示。其中中i为目标候选区的索引,pi为预测概率,pi∗为对应真实框GT的概率,其值要么是0,要么是1,t∗为真实的边框回归参数,ti为预测的边框回归参数,两项误差用λ调节,防止单一误差项贡献过大。NLpi,1.2实验部分1.2.1实验设计本文模型首先在ImageNet分类数据集上进行预训练,整个FasterR-CNN检测模型在ImageNetVID训练集以及ImageNetDET训练集上训练,训练一共经历4个时期(epoch),前两个epoch的学习率为5*10-4,第三个epoch的学习率为5*10-5,第四个epoch的学习率为5*10-6,最后在ImageNetVID测试集上进行测试,得到定量结果;使用训练好的模型对样例视频进行检测,得到定性结果。1.2.2公开数据集实验结果本实验使用的数据集是ImageNetVID训练集以及ImageNetDET训练集中和VID相同的30个类这个子集,使用的评价标准mAP在本章已经介绍,使用的算法是FasterR-CNN。算法最终得到的定量结果如表1.1所示,其中Time为单帧检测时间。定性结果如图1.7所示。由表1.1和图1.7可知算法的平均准确率mAP为69.72%,单帧检测时间Time为108ms。表1.1使用FasterR-CNN算法在公开数据集上的定量结果FasterR-CNNmAP69.72%Time108msa示例一b示例二c示例三图1.7使用FasterR-CNN算法在公开数据集上的定性结果1.3小结本章主要介绍了本文主要研究的FasterR-CNN算法。它针对FastR-CNN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论