【《基于R-FCN的视频目标检测分析案例》2600字】

上传人：E*** IP属地：湖北上传时间：2026-05-11 格式：DOCX 页数：10 大小：3.94MB 积分：13 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

[15]，其网络结构大致如图1.2所示。图1.2位置敏感得分图R-FCN算法的具体流程如下：（1）输入一张图片到已加载预训练权重的分类网络；（2）经过预训练网络后，在最后一个卷积层存在有3个分支，见图1.1和图1.2。第一个是在特征图上面做RPN网络，得到相应的感兴趣区域RoI。第二分支就是得到该特征图上的一个k2(C+1)维的位置敏感得分图，用做分类。相同的方式同时得到第三分支为一个4k2维的位置敏感得分图，用于边框回归。（3）在1.1.2位置敏感得分图如图1.2所示，特征图后就是位置敏感卷积层，它的卷积核个数是k2（C+1）个，其中k是超参数，在论文用的比较多的是k=3，k2是Grid的个数，这个个数与位置敏感池化操作后的尺寸相关联的。1.1.3位置敏感池化操作位置敏感池化是在分值图上的一种池化操作，它是RoI池化的变种，之前说分值图的通道是k2（C+1），每一个类别有k2个通道，换句话说，分值图上就有k^2个C+1的通道的组合。那么假设k=3的话，这种情况就像上面图示的那样，每一个颜色都有C+1个通道，RPN的区域建议扣在分值图上后，位置敏感池化会把这个区域在每一个通道上平均分为k2份，然后在每一份内做MaxPooling，其中k∗k的格子的位置是和通道是一一对应的，如上图中深黄色的通道数有C+1这种对应关系就是从左到右，从上到下。这样的话，会得到一个k∗k的格子，厚度是C+1，也就是每一个通道代表一个类别。位置敏感池化层之后，再做一步全局平均池化，就得到了1×1×C+1的特征，刚好是C+11.2实验部分1.2.1实验设计本文模型首先在ImageNet分类数据集上进行预训练，整个R-FCN检测模型在ImageNetVID训练集和ImageNetDET训练集上训练，训练一共经历4个时期（epoch），前两个epoch的学习率为5*10-4,第三个epoch的学习率为5*10-5，第四个epoch的学习率为5*10-6，然后在ImageNetVID测试集上进行测试，得到定量结果；使用训练好的模型对样例视频进行检测，得到定性结果。最后使用训练好的模型对给定视频进行检测，但效果不好。因此针对这种现象，使用R-FCN检测模型在自建数据集上重新进行训练和测试，训练一共经历200个epoch，前100个epoch的学习率为2.5*10-4，后100个epoch的学习率为2.5*10-5，最后得出结果。1.2.2自建数据集将给定的高速公路数据视频转换成图像集，从图像集中抽出部分，用LabelImg进行标注，整理成ImageNetDET数据格式的文件作为自建数据集。如图1.3、图1.4所示。图1.3图片标注软件LabelImg操作界面图1.4生成的pascalVOC格式文件内容1.2.3公开数据集实验结果本实验使用的数据集是ImageNetVID训练集以及ImageNetDET训练集中和VID相同的30个类这个子集，使用的评价标准mAP在本章已经介绍，使用的算法是R-FCN。算法最终得到的定量结果如表1.1所示，其中Time为单帧检测时间。定性结果如图1.5所示。由表1.1和图1.5可知算法的平均准确率mAP为70.85%，单帧检测时间Time为119ms。a示例一b示例二c示例三图1.5使用R-FCN算法在公开数据集上的定性结果表1.1使用R-FCN算法在公开数据集上的定量结果R-FCNmAP70.85%Time119ms1.2.4自制数据集实验结果因为使用R-FCN算法与公开数据集的模型在给定视频上的检测效果非常差，如图1.6a、图1.7a所示。所以为了获得更好的识别效果，本文从给定的视频中抽出部分帧并使用LabelImg打标签自制了一个小型数据集，并在该数据集上对使用R-FCN方法的模型进行训练和测试，实验结果如图1.6b、图1.7b所示。a用公开数据集训练模型的检测结果b用自制数据集训练模型的检测结果图1.6R-FCN方法在高速公路视频1上的检测结果a用公开数据集训练模型的检测结果b用自制数据集训练模型的检测结果图1.7R-FCN方法在高速公路视频2上的检测结果1.3实验结果分析由表3.1、表1.1和图3.7、图1.5可知，在数据集与骨干网络均相同的情况下，R-FCN算法可能因为增加了位置敏感得分图，来解决了图像分类平移不变性与对象检测平移变化之间的矛盾。生成的位置敏感得分图用于保存目标的空间位置信息，然后再添加ROIPooling层，该层后面不再跟卷积层或全连接层。这样整个网络不仅可以实现端到端训练，而且所有层的计算都是在整个图像上共享，所以准确率比FasterR-CNN算法高；但由于操作步骤增多，操作复杂，所以单帧检测速度稍低于FasterR-CNN算法。由于在使用标准数据集和R-FCN算法的情况下对给定视频1和2的检测效果并不好，可能是因为公开数据集目标种类太多太杂，没有针对性，且视频帧比静态图像质量差，直接扩展到视频领域性能不是很高，常常需要进一步融合时间信息。因此使用自建数据集对给定视频1和2进行训练和检测，效果大大提高。如图1.6、图1.7所示。但是视频2的效果比视频1差很多，可能是由于视频2场景复杂，目标众多，识别效果较差。针对这种情况，可以对以下几点进行深入研究：（1）在单帧检测的基础上添加后处理，利用相邻帧的一些信息来改善检测结果；（2）针对这种场景复杂、目标众多的特定情况，采用增强数据集的方式；（3）改变思路，可以尝试融合高低层特征信息以适应多尺度目标如特征金字塔网络（Featurepyramidnetworks，FPN），也可以采用一些针对小目标的算

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于R-FCN的视频目标检测分析案例》2600字】

文档简介

温馨提示

最新文档

评论

【《基于R-FCN的视频目标检测分析案例》2600字】

文档简介

温馨提示

最新文档

评论

相关文档