【交通标志识别的YOLO系的目标检测算法分析案例2600字】_第1页
【交通标志识别的YOLO系的目标检测算法分析案例2600字】_第2页
【交通标志识别的YOLO系的目标检测算法分析案例2600字】_第3页
【交通标志识别的YOLO系的目标检测算法分析案例2600字】_第4页
【交通标志识别的YOLO系的目标检测算法分析案例2600字】_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

交通标志识别的YOLO系的目标检测算法分析案例目录TOC\o"1-3"\h\u7757交通标志识别的YOLO系的目标检测算法分析案例 1139251.1YOLOv1 1145371.2YOLOv2 2144711.3YOLOv3 41.1YOLOv1YOLOv1出自CVPR2016中发表的论文《YouOnlyLookOnce:Unified,Real-Time物体Detection》,是经典的One-Stage算法,它有着简洁的网络结构和简单的复现过程,因此受到很多开发人员的追捧。YOLOv1目标检测算法是一种端到端的网络,它的优点是不需要提取候选框区域。YOLOv1核心思想是直接选用整幅图像来训练模型,直接在输出层对Bbox的位置和类别进行回归,可以更好的区分目标和背景区域。YOLOv1目标检测算法实现思路如下,首先将原始的图片大小调整为448*448,接着将输入的图像划分为SS个网格。如果某一个object的中心落在了网格之中,这个网格就负责预测出这个object的结果。其次,每个网格均需要预测出B个Box的置信度信息以及位置信息,一个Bbox对应着一个置信度信息以及四个位置信息。置信度信息就可以表示是否包含了目标检测物体,以及包含目标检测物体位置的准确性。公式(4-1)给出了置信度的计算公式: (4-1) 公式中,如果有object落在一个gridcell中,第一项取1,否则就取0。第二项是预测boundingbox和实际的groundtruth之间的IOU值。 YOLOv1的原理图如图(4-1)所示。图4-1YOLOv1原理图 YOLOv1的主干网络借鉴了GoogleNet网络的思想,卷积核使用113的卷积核,可以减少网络模型的参数量。全连接层输出为SS(B5+C),B表示每个网格预测的检测框的数目,C表示需要预测的目标物体类别数目。YOLOv1网络的网络总数包括了24个卷积层,2个全连接层,结构如图(4-2)所示。图4-2YOLOv1结构图 YOLOv1网络的损失函数如公式(4-2)所示: (4-2) 公式(4-2)中,表示第i个网格中的第j个box是否负责这个目标物体,表示第i个网格是否包含目标物体。 YOLOv1网络主要存在三个方面的问题:(1)在YOLO检测图像时输入图像是固定的尺寸,没有采用多尺度特征来检测尺寸;(2)当同一个网格包含多个目标物体时,仅预测一个IOU最高的目标物体,可能会造成小目标物体的漏检;(3)在实际目标检测过程中小物体IOU误差会对网络的优化过程造成更大的影响,然而YOLOv1网络损失函数没有区分大目标物体和小目标物体IOU误差对于网络训练贡献值的影响,从而导致目标定位准确性降低。1.2YOLOv2YOLOv2在YOLO系列中是做了“折中”的实现,检测速度和准确率均可调控。在60帧率以下,YOLOv2在VOC2007数据集中的平均准确率可以达到77%;而在40帧率的情况下,平均准确率可以达到78.6%。因此,可以说YOLOv2可以适应各种场景的需求,对于准确率需求不大的情况下,可以做到很快;对于检测时间需求不大的时候,可以做到准确率很不错。在结构方面则是引入了一种比较新的主干网络结构Darknet-19,Darknet-19的网络结构包括了19个卷积层和5个最大池化层,这种网络结构有点类似VGGNet。Darknet-19主要采用33大小的卷积核,每次的最大池化操作之后,都会使得网络的特征图数目翻倍,将11卷积核放在33卷积核中间来压缩网络模型的特征。YOLOv2使用全局平均池化和批处理规范化来让训练在稳定的前提下加速损失函数的收敛,经过测试后可以得出,YOLOv2处理一张图片只需要5.58billion次运算,在ImageNet上可以达到72.9%top-1的精确度,达到91.2%top-5的精确度。YOLOv2的主干网络参数如表4-1所示。表4-1YOLOv2主干网络参数网络层核大小步长特征图Conv133122422432Maxpool122211211232Conv233111211232Maxpool2222565664Conv33315656128Conv4111565664Conv53315656128Maxpool32222828128Conv63312828256Conv71112828128Conv83312828256Maxpool42221414256Conv93311414512Conv101111414256Conv113311414512Conv121111414256Conv133311414512Maxpool522277512Cononv1511177512Conv16331771024Conv1711177512Cononv19111771000GlobalAvgpool YOLOv2网络相较YOLOv1网络做了如下的改进:⑴在YOLO层的所有卷积层加入批量归一化来规范化网络模型,批处理规范化可以对每个batch后的训练参数进行正则化处理,在每个卷积层后加入BN,各层的输入分布可以控制在(0,-1)范围内,这样可以加速损失函数的收敛,降低过拟合现象的产生;⑵传统的目标检测算法分类器基本都在256*256的图片样本上运行,按照传统目标检测算法这样的低分辨率的检测并不能满足如今高分辨率下的检测需求。YOLOv2的分类网络用448*448的分辨率进行微调训练,训练周期定在10个epochs,调整特征提取网络,用来调整ResultingNetwork的目标检测训练,通过高分辨率下的目标检测,YOLOv2的平均准确率可以提升5%左右;⑶YOLOv2网络则使用了卷积层代替了YOLOv1网络中的全连接层,使用anchorboxes来预测boundingboxes。因为anchorboxes大小并不是随机的,不需要进行logistic回归来接近检测目标的大小,更符合训练对象的特征,同时也可以加快训练收敛的速度;⑷YOLOv2每迭代几次就会微调网络模型的输入尺寸,用来对网络模型进行多尺度的训练,因此可以进行多尺寸下的目标检测,根据YOLOv2下采样的参数是32,网络会随机选取32倍数的尺寸继续训练,这样网络就可以对不同的输入尺寸进行相应的预测。模型对于分辨率不同的图片采取策略也不同,分辨率低的处理速度就相对比较快,分辨率高的检测精度就会高。值得一提的是,YOLOv2的分辨性能要优于SSD,分辨速度更是快于FastR-CNN。⑸将浅层的特征图连接到深层特征图,用来增加网络模型的细粒度特征。1.3YOLOv3 YOLOv3在YOLOv2的基础上加大了神经网络的层数,引进了残差连接算法,用来加深网络层次,更深地提取对象特征,主干网络共有53层卷积层,被称为Darknet-53。虽然加深了网络层次,但是YOLOv3的速度依然很快。残差连接算法主要由卷积层和卷积核为33和11的残差连接块组成。 Darknet-53作为骨干网络用于提取图像的特征,它是全卷积网络。给YOLOv3输入图像的尺寸大小为416416时,Darknet-53特征提取网络可以输出三个尺度的特征图,大小分别为1313、2626、5252。在每个尺寸的特征图上预测了一个3-d张量信息编码,包括了边界框、目标评价和类别预测。每个边界框包含4个坐标参数,1个目标评及参数,类别数为80个,所以输出的三维张量可以描述的维度是N*N[3*(4+1+80)],对应图中的13*13*255、26*26*255、52*52*255。之后将三个尺度不同的特征图通过FPN进行融合,利用多尺度策略帮助网络模型同时学习不同层次的特征信息,之后将融合后的特征输入YOLO层进行类别的预测和边界框的回归[47]。 在上一节中介绍的YOLOv2使用了anchorbox实现预测框的预测,YOLOv3依旧使用了这种方法,和YOLOv2不同的是,YOLOv3采用了9个尺度不同的anchorbox来实现边界框坐标预测。这9个anchorboxes均分为3组,对应着3种不同尺度的特征图。如果输入图片的分辨率为512*512时,YOLOv3总共输出(64*64+32*32+16*16)=16128个anchorboxes。 YOLOv3网络结构示意图如图4-3所示。图4-3YOLOv3网络结构示意图根据YOLOv3的主干网络结构示意图,发现YOLOv3是没有池化层和全连接层的。张量的尺寸变换就是通过改变卷积核的步长来实现的,YOLOv2和YOLOv3在网络结构中最大的不同点在于darknet-19没有采用ResNet的连接方式,也就是没有采用残差结构,但是darknet-53借鉴了ResNet的残差结构。YOLOv

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论