版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于YOLOv3的行人检测算法的设计案例目录基于YOLOv3的行人检测算法的设计案例 1 1 21.2.1YOLOv1算法 21.2.2YOLOv2算法 31.3YOLOv3算法 51.1.1检测原理 51.1.2Darknet-53网络结构 7 8目前常用于目标检测的数据及有ImageNet数据集、COCO数据集以及年,时根据WordNet层次结构组织的图像数据库。目前,该数据集包合1400多万张图片和2万个Synset索引。ImageNet数据集因其数据量庞大,种类包含范图像数据集,包含了高达91类的目标,可以让模型更好地模拟训练不同种类在不同场景下的识别能力,但COCO数据集图片收集年代较早,且PASCALVOC数据集主要用来图像检测和分类,目前目标检测常用的是VOC2007和VOC2012数据集。其中,VOC07包含9900多张图片,23000多物体,VOC2012数据集包含24000多张图片,总共54000多物体。数据集数据量的比对数据如图1.1所示。求和VOC数据集包含人、动物、交通工具和常见物品等20类监测目标,还引入1.2.1YOLOv1算法YOLO方法是Redmon等发表在CVPR6上基于回归的经典目标识别方法,网络架构的检测原理相对比较简单,YOLOv1目标检测的原理图如图1.2所示。进行预测,最后通过非极大值抑制(Non-maxsuppression)输出最终预测结果。YOLO由24个卷积层和2个全连接层组成,主要通过建立一个CNN的网络来预测张量,首先使用CNN网络将空间维度减小到7×7,其次,使用两个全连接层执行线性回归,以进行7×7×2边界框预测;最终将具有高的框置信度得分 (大于0.25)的结果作为最终预测,YOLO的网络框架如图1.3所示。络进行特征提取,YOLO将图像划分为S×S的网格,每个网格单元负责对落入信度得分,网格单元预测参数如图1.4所示。端到端训练实现了模型的高准确性,但YOLOv1算法对于小目标以及邻近目标1.2.2YOLOv2算法随着CNN的广泛运用以及对于各种网络结构的优化演变,现有的目标检测YOLOv2是YOLO的第二个版本,使用了一系列方法对YOLOv1进行了改进,YOLOv2算法在原有的算法基础上进行了多种优化,比第二,使用了高分辨率(High-resolution)分类器进行训练,YOLOv1使用224×224的分辨率来训练分类网络,而YOLOv2以224×224图片开始用于分类了将近4%的mAP。思想,移除了全连接层,取代了原始的YOLOv1利用全连接层来预测边界框的第四,使用维度聚类(DimensionClusters),学习了统计学习中的K-means聚类方法,通过对数据集的GT框做聚类,找到GT框的统计规律,使得生成的框更具有代表性,检测任务更容易学习。在聚类分析时选用了box与聚类中心box之间的IOU值作为距离指标,有效地提高了召回率,减少了模型的漏检;第五,引入了Sigmoid函数预测边界框的偏移量,解决了锚定框的预测位置间的相对偏移量参数,使用Sigmoid函数处理偏移值,使得预测的偏移值固定在 (0,1)这一区间内,一定程度上提高了5%的mAP;第六,YOLOv2采用了多尺度输入训练策略,在训练过程中,每相隔10个器Darknet-19,包括19个卷积层和5个最大值池化层,特征提取模型结构如图conv.conv.3c由图1.6可知,该网络主要由1×1、3×3卷积以及最大值池化等组成,该提升。虽然YOLOv2做出了很多改进,但很多部分都是借鉴了其他深度学习的YOLOv3算法的网络结构分为Darknet-53检测网络和yolo层两部分。其中,Darknet-53网络负责特征提取,yolo层用于多尺度预测。主干网络Darknet-53结构借鉴了ResNet(残差结构进行网络搭建,全卷积网络使用了大量的残差结构,由53层卷积组成,使用步长为2的卷积操作取代了原有的池化层,网络结构更深。张量尺寸通过改变卷积核的步长来实现,特征图通过网络最终缩小五次,特征图的尺寸变换为原始输入尺寸的1/2⁵,即1/32,YOLOv3检测网络如图1.7所示。YOLO输入图像被分为S×S均匀网格,每个网格预测(x,y,w,h)和置信度C(Object)五个参数。其中坐标(x,y)表示检测边框中心相对网格的位置,(w,h)是检测边界框的宽度和高度24]。预测框的具体参数如图1.8所示。网格单元的宽度设定为cx,高度设定为c,每个网格单元中预测B个边界框,输出参数为边界框的中心点相对于网格单元左上角坐标的偏移量,通过偏移量参数可以计算出边界框在特征图中的实际位置以及大小。在图1.8中,c和c,表示距离图像左上目标边界框,P和ph表示目标边界框先验维度的宽度和高度,蓝色实线矩形方框表示预测结果,b和b,表示最终预测结果边界框中心点距离图像左上角的位化层,每个尺度最终生成3个界限值(boundingbox),最后由与groudtruth的交并比(IOU)最大的界限值来预测物体。YOLOv3的具体网络架构如图1.9所示。具体来说,YOLOv3从主干网络的8倍、16倍和32倍的下采样处提取出三个不同尺度进行预测。对于8倍与16倍DBLres1res2res8DBLYOLOv3网络的基本结构单元如图1.10所示。其中,“DBL”是卷积层、批归一化层和非线性激活层的叠加,conv表示卷积层,BN表示批归一化层,Relu表示非线性激活层,共同构成了网络结构中的最小组件。YOLOv3使用LeakyReLU作为激活函数。而YOLOv3网络的残差模块结构如图1.11所示。其中,“resN”中的N表示一个res_block中含有N个res_unit,这是YOLOv3中的大组件,使用这种结构可以让网络结构更深。而“res_unit”也是由基本组件“DBL”构成的。1.1.2Darknet-53网络结构对于YOLOv3网络架构,一个新的53层Darknet-53用于取代Darknet-19作为特征提取器。Darknet-53主要由3×3和1×1滤波器组成,具有residual连接,如ResNet中的残差网络,其网络结构更深,Darknet-53特征提取模型如图1.12 Darknet-53特征提取模型相比于原始的YOLOv1和YOLOv2网络架构虽然网络层数增多,但检测速度依旧高于其他网络结构。不同的特征提取模型的实验模型由表1.1可知,Darknet-53特征提取模型在输入相同分辨率大小的图片情况下,检测速度经GPU加速后仍高达每秒78帧,高于ResNet-101特征提取模型的每秒53帧以及ResNet-152特征提取模型的每秒37帧。由于网络结构的加深,检测速度低于YOLOv2使用的Darknet-19特征提取模型每秒171帧的提取速度,但Darknet-53模型的浮点运算数相对其他模型较高,这意味着Darknet-53特征提取模型可以很好地利用GPU进行加速。1.4注意力机制注意力机制是一种资源分配的机制,可以理解为对于原本平均分配的资源根积神经网络结构,由通道注意力和空间注意力模块两部分组成,CBAM模块示求和后经过sigmoid函数,得到通道注意力加权系数MC。对于一个中间层的特F'=M(F)⊗F,F"=M₃(F)⊗F其中⊗表示逐元素相乘,将通道注意力特征图与输入的特征图相乘的到F’,输入特征图F分别经过空间维度的全局最大池化和全局平均池化之后联结起来进入多层感知器;将多层感知器输出的两个特征相加;经过sigmoid激活操作之后生成最终的通道注意力特征图M通道注意力模块如图1.14所示。通道通道注意力图M.平均池化共享全连接层Favg输入特征图F+经过通道维度的全局最大池化和平均池化之后,联结起来组成两个通道的特征图经过一个卷积层合二为一,输出一个单通道的特征图28。最后经过sigmoid激活操作之后生成空间注意力特征图Mg;将该权重矩阵和输入特征图进行点乘运算,得到最终需要的特征图,空间注意力模块如图1.15所示。输入特征图F激活函数空间注意力图M,在YOLOV3网络中增加CBAM结构,并且指定池化的channel值为卷积层输出的特征图通道数。对于生成的特征图,CBAM从通道和空间两个维度计算特征图的注意力图,将注意力图与输入的特征图相乘,用于特征的自适应学习。本文不对YOLOv3的主干网络Darknet-53进行修
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电力系统集成业务行业发展趋势分析
- 消防安全专项整治行动记录
- 医院用药安全警示教育记录表
- 2025年新疆石河子市政府采购评审专家考试真题含标准答案
- 第09课 十六年前的回忆(练习)六年级语文下册(部编五四制)
- 2026年生产效率提升专项方案
- 电低压器安装分项工程质量检验评定表
- 2025年新疆昌吉自治州政府采购评审专家考试真题(附含答案)
- 2025年体育教师专业知识考试试题及答案
- 海底捞服务场景创新设计
- 建筑给排水计算书(范本)
- 中国葡萄酒产区和企业-9
- 供应商声明书(REACH)
- 库房的管理制度
- GB/T 9797-2022金属及其他无机覆盖层镍、镍+铬、铜+镍和铜+镍+铬电镀层
- LY/T 1369-2011次加工原木
- GB/T 8642-2002热喷涂抗拉结合强度的测定
- GB/T 35010.3-2018半导体芯片产品第3部分:操作、包装和贮存指南
- GB/T 33365-2016钢筋混凝土用钢筋焊接网试验方法
- 毫秒脉冲星及X-射线双星某些重要性质的理论解释课件
- 统编版下册《青蒿素:人类征服疾病的一小步》课件
评论
0/150
提交评论