快速多目标检测(20210317074820)

上传人：s*** IP属地：天津上传时间：2021-05-21 格式：DOCX 页数：7 大小：14.72KB 积分：18 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、快速多目标检测 Introduction Better Faster Stronger Conclusion 本次介绍一篇有关快速目标检测的文章 YOLO9000: Better, Faster, Stronger 。该方法记作 YOLOv2 ，相比 v1 除了在性能上有所提升之外，更是在速度上表现惊人。项目主页： http:/ Introduction 通用的目标检测不但要够快够准，还要能够检测多类的目标。但实际情况是，目标检测数据集包含的类别数都太少，远远小于图像分类数据集所包含的类别数（比如 ImageNet）。于是，本文提出了一种联合训练的方法，可以同时利用检测数据集

2、和分类数据集来训练目标检测器。具体思路是，利用目标检测数据集来学习目标的准确定位，用分类数据集来增加检测的目标类别数以及检测器的鲁棒性。通过采用上述策略，本文利用 COCO 目标检测数据集和 ImageNet 图像分类数据集训练得到了 YOLO9000 ，可以实时地检测超过 9000 类的目标。 Better YOLOv1 同 Fast RCNN 相比存在定位不准以及召回率不如 Region Proposal 方法等问题。因此， V2 的主要目标就是在保持分类准确率的同时提高召回率和定位准确度。为了做到又快又好，所以文章在简化的网络上采用了很多策略来提高性能，具体用的技术如下表：

3、 (1) Batch Normalization BN 可以加速收敛，同时 BN 也可以替代 Dropout 等正则化手段来防止网络过拟合。 (2) High Resolution Classifier YOLOv1 是在 ImageNet 预训练了一个输入为 224x224 大小的模型，当想要检测小目标时需要把图像 resize 到 448x448, 同时网络也要相应地进行调整。为了适应较大的分辨率， YOLOv2 以 448x448 的分辨率在 ImageNet 上预训练了 10 个 epoch ，然后将该预训练模型在检测数据上 finetune ，最终得到了 4% mAP 的提升

4、。 (3) Convolutional With Anchor Boxes YOLOv1 直接通过全连接层来预测 bounding box 的坐标，与 Fast-RCNN 相比有两个缺点：一是只能预测 98 个框，数量太少，而 Fast-RCNN 在 conv-map 上每一个位置都可以预测 9 个框；二是预测坐标不如预测坐标相对偏移量有效， Fast-RCNN 预测的是偏移量和置信度。因此， YOLOv2 移除了全连接层，并将网络输入由 448 调整为 416 ，使得最后输出的 feature map 大小为 13x13( 416/32 ) 之所以要调整输入为 416 ，是为了

5、使得最后的输出 size 是一个奇数，这样就可以保证 feature map 只有一个中心。由于目标(特别是大目标)往往位于图像中心，因此一个正中心来预测位置要比 4 个要好。通过在卷积层使用 anchor boxes ，网络可以预测超过 1000 个窗口，虽然这导致了准确率降低了 0.3mAP ，但是召回率却足足提高了 7% 。 (4) Dimension Clusters Fast-RCNN 中使用 3 种 scales 和 3 中 aspect ratios ( 1:1,1:2,2:1 )在每个位置产生了 9 个 anchor boxes 。作者认为这种手动选取的 ancho

6、r 不够好，虽然网络最终可以学出来，但如果我们可以给出更好的 anchor ，那么网络肯定更加容易训练而且效果更好。作者通过 K-Means 聚类的方式在训练集中聚出好的 anchor 模板。需要注意的是，在使用 K-Means 中如果使用传统的欧式距离度量，那么大的框肯定会产生更大的误差，因此作者更换为基于 IOU 的度量方式： d(box,centroid)=1?IOU(box,centroid) 。下表表明，基于 K-Means 的 anchor box 选取比手动选取效果好：通过权衡速度与性能，作者最终选则聚 5 类时得到的 anchor boxes 。 (5) D

7、irect Location Prediction 作者在训练中发现模型不稳定，特别是训练早期。这主要是由 anchor box 回归引起的，因为预测的是偏移量，这可能导致前期预测得到的框偏移到图像任何位置。因此，作者采用了一种较强约束的定位方法，参见下图：如上图，每个 cell 会预测 5 个 bounding box ，每个 bounding box 预测 tx,ty,tw,th,to 这 5 个参数。其中 tx,ty 经过 sigmoid 约束到 01, 因此预测出来的 bounding box 的中心点 bx,by 一定位于以 cx,cy 为左顶点的 cell 内。 (其

8、中， pw,ph 为 anchor box 的宽高 ) (6) Fine-Grained Features Faster F-CNN 、SSD 通过使用不同尺寸的 feature map 来取得不同范围的分辨率 , YOLOv2 则通过添加一个 passthrough layer 来取得上一层 26x26 的特征，并将该特征同最后输出特征相结合，以此来提高对小目标的检测能力。具体的做法是将相邻的特征堆积到不同 channel 中，从而将 26 x 26 x 512的 feature map 变为 13 x 13 x 2048 的 feature map 。 (7) Multi-Scale

9、 Training 由于网络只有卷积和 pooling 层，因此实际上可以接受任意尺寸的输入，作者也希望 YOLOv2 对各种尺度的图片都足够鲁棒。因此，训练过程中每迭代 10 个 batch ，都会随机的调整一下输入尺度，具体尺度列表为320,352，,608。当输入图片尺寸比较小的时候检测速度比较快，当输入图片尺寸比较大的时候则精度较高，所以 YOLOv2 可以在速度和精度上进行权衡。 Faster (1) DarkNet-19 为了提高性能同时加快速度，作者设计了一个带有 19 个卷积核 5 个 max-pooling 的网络，命名为 Darknet-19 。设计该

10、网络时主要参考了 VGG 使用大量 3x3 卷积，参考 NIN 使用 1x1 卷积和 avg-pooling ，使用 BN 等。具体网络如下图： (2) Training for classification 先在 Imagenet (1000 分类)上以 224x224 输入训练 160 epochs ，然后再更改输入为 448x448 继续 finetune 10 epochs 。(训练的具体设置参见原文) (3) Training for detection 修改(2)预训练的网络的最后几层，然后在检测数据集上 finetune 。 (具体怎么修改还是要参看原文和相关代码)。以 VOC

11、的 20 类目标检测为例，最后的输出应该是 13X 13X 125 , 13 x 是3 feature map 尺寸；125=5 x (20+5)表示每个位置预测 5 个框，每个框有 20 个分类概率和 5 个 boundingbox 参数。 Stronger 前面提到过，作者同时使用检测数据集和分类数据集来训练多目标检测器。具体做法是，将两个数据集混合，训练时如果遇到来自检测集的图片则计算完整的 Loss ，如果遇到来自分类集的图片则只计算分类的 Loss 。上面的想法实现起来会有一点问题，因为通常使用的 softmax 假定类间独立，而 Imagenet( 分类集 )包含了 1

12、00 多种狗， COCO( 检测集 )就只有狗这一类。为了解决这个无法融合的问题，作者使用了 multi-label 模型，即假定一张图片可以有多个 label ，并且不要求 label 间独立。 (1) Hierarchical Classification Imagenet 中的类别是从 WordNet( 描述对象关系的一个语言集合 )中选取的。 WordNet 是一种比较庞大的直线图结构，作者使用分层树的结构来对其进行简化。具体地，遍历 Imagenet 的 label ，然后在 WordNet 中寻找该 label 到根节点 (指向一个物理对象 )的路径，如果路径只有一条，那么就将该路径直接加入到分层树结构中。然后处理剩余的具有多条路径的 label ，并将最短路径加入。最终可以得到下图所示的分类树：至于分类时的概率计算，大家应该可以很容易看出需要采用条件概率，即某个节点的概率值应当等于该节点到根节点的所有条件概率之积。而且， softmax 操作也同时应该采用分组操作，如下图： (2) Dataset Combination With WordTree 通过 WordTree 可以将不同的数据集合并使用。 (3) Joint Classificat

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

快速多目标检测(20210317074820)

文档简介

温馨提示

最新文档

评论

快速多目标检测(20210317074820)

文档简介

温馨提示

最新文档

评论

相关文档