版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于Yolov3的车辆目标检测算法设计案例目录TOC\o"1-3"\h\u28146基于Yolov3的车辆目标检测算法设计案例 152651.1单级目标检测算法原理 1173411.2yolov3检测原理 1165891.2.1候选区域产生 237931.2.2特征提取网络 4262071.2.3损失函数建立 5100751.3小结 61.1单级目标检测算法原理基于单级目标检测的车辆检测方法是基于锚框直接进行分类以及调整边界框。其优点是检测速度快,缺点是检测精度低,特别是在小目标检测中检测效果差。1.2yolov3检测原理JosephRedmon等人在2015年提出YOLO算法,通常也被称为YOLOv1;2016年,他们又提出YOLOv2版本;2018年发展出YOLOv3版本ADDINEN.CITE<EndNote><Cite><Author>Redmon</Author><Year>2018</Year><RecNum>7</RecNum><DisplayText><styleface="superscript">[14]</style></DisplayText><record><rec-number>7</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1615392690">7</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Redmon,Joseph</author><author>Farhadi,Ali</author></authors></contributors><titles><title>YOLOv3:AnIncrementalImprovement</title><secondary-title>arXive-prints</secondary-title></titles><periodical><full-title>arXive-prints</full-title></periodical><dates><year>2018</year></dates><urls></urls></record></Cite></EndNote>[14]。YOLOv3算法思想可分为两个部分:(1)按一定规则在图片上产生一系列的候选区域,然后根据这些候选区域与图片上物体真实框之间的位置关系对候选区域进行标注。跟真实框足够接近的那些候选区域会被标注为正样本,同时将真实框的位置作为正样本的位置目标。偏离真实框较大的那些候选区域则会被标注为负样本,负样本不需要预测位置或者类别。(2)使用卷积神经网络提取图片特征并对候选区域的位置和类别进行预测。这样每个预测框就可以看成一个样本,根据真实框相对它的位置和类别进行了标注而获得标签值,通过网络模型预测其位置和类别,将网络预测值和标签值进行比较,就可以建立起损失函数。而预测时直接通过特征提取网络与预测框比较,通过NMS输出分类以及回归结果。YOLOv3训练以及检测模型见4-1。图4-1YOLOv3训练以及检测1.2.1候选区域产生对输入图片(H*W)进行下采样(采样数为k,一般为大中小三个采样),将图片分割成H/k,W/k形式。在每个区域中心(这里的区域中心是一个点,下面以C表示),生成一系列对应于大中小感受野不同的锚框。见图4-2所示。图4-2划分网络不同的锚框基本上不可能刚好与物体边界框重合,所以需要在锚框的基础上进行位置的微调以生成预测框。通过中心点偏移:宽高拉伸:实现从锚框到预测框的过程。其中由将点按真实框位置带入求解所得。见图4-3所示。图4-3锚框到预测框调整在完成上述后,需要对候选区域进行标注。首先是标注锚框是否含有物体。每个区域可以产生3种不同形状的锚框,每个锚框都是一个可能的候选区域,对这些候选区域首先计算锚框与真实框的IOU,从一组9个锚框中选出IoU最大的锚框,将它所对应的预测框的Pobj标签设置为1,其所包括的物体类别就是真实框里面的物体所属类别。由于每个真实框只对应一个Pobj标签为正的预测框,如果有些预测框跟真实框之间的IoU很大,但并不是最大的那个,那么直接将其Pobj标签设置为0当作负样本,可能并不妥当。为了避免这种情况,YOLOv3算法设置了一个IoU阈值iou_threshold,当预测框的Pobj不为1,但是其与某个真实框的IoU大于iou_threshold时,就将其Pobj标签设置为-1,不参与损失函数的计算。所有其他的预测框,其Pobj标签均设置为0,表示负类。对于Pobj=1的预测框,需要进一步确定其位置和包含物体的具体分类标签,但是对于Pobj=0或者-1的预测框,则不用管他们的位置和类别。其次是标注预测框的位置坐标标签,当锚框objectness=1时,需要确定预测框位置相对于它微调的幅度,也就是锚框的位置标签。同时还需要判断出锚框所属物体类别,YOLOv3使用one-hot向量来表示类别标签label。比如一共有10个分类,而真实框里面包含的物体类别是第2类,则label为(0,1,0,0,0,0,0,0,0,0)。由此,真实框信息得以标注。所以,每个区域中心C含有多个信息:具体见图4-4所示。图4-4特征图中的信息数1.2.2特征提取网络整个特征提取网络见图4-5。其中YOLOv3采用了Darknet53网络作为其主要特征提取部分。该网络有两个特点。一是参考了残差网络的理念,使用了许多尺寸为3*3和1*1的卷积层,去掉了池化层和全连接层,因此在网络前向传播的过程中,特征的尺寸变化是通过改变卷积核的卷积步长实现的。ADDINEN.CITE<EndNote><Cite><Author>郑佳卉</Author><Year>2019</Year><RecNum>6</RecNum><DisplayText><styleface="superscript">[15]</style></DisplayText><record><rec-number>6</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1615392271">6</key></foreign-keys><ref-typename="Thesis">32</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">郑佳卉</style></author></authors><tertiary-authors><author><styleface="normal"font="default"charset="134"size="100%">郭杰</style><styleface="normal"font="default"size="100%">,</style></author><author><styleface="normal"font="default"charset="134"size="100%">李郜伟</style><styleface="normal"font="default"size="100%">,</style></author></tertiary-authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">基于</style><styleface="normal"font="default"size="100%">YOLOv3</style><styleface="normal"font="default"charset="134"size="100%">的行人视频目标检测方法</style></title></titles><keywords><keyword>行人检测</keyword><keyword>YOLOv3</keyword><keyword>k-means</keyword><keyword>多尺度检测</keyword><keyword>视频标注</keyword></keywords><dates><year>2019</year></dates><publisher><styleface="normal"font="default"charset="134"size="100%">西安电子科技大学</style></publisher><work-type><styleface="normal"font="default"charset="134"size="100%">硕士</style></work-type><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[15]二是网络不再使用softmax进行分类,而是使用逻辑分类,这使得每个候选框中可以用多标记分类来预测其中含有的物体类别。如果仅仅使用softmax来分类,只会预测加强一种物体的推论,这显然是有缺陷的。同时,在Darknet53之外的其他网络,还采用了多尺度预测,也就是几个上采样后产生的特征图。如果只产生一个32采样特征图,这个特征图的尺寸比较小,像素点数目比较少,每个像素点的感受野很大,具有非常丰富的高层级语义信息,可能比较容易检测到较大的目标。但为了检测尺寸较小的目标,就需要在尺寸较大的特征图上面建立预测输出。通过将高层级的特征图尺寸放大之后(上采样)跟低层级的特征图进行融合,得到的新特征图既能包含丰富的语义信息,又具有较多的像素点,能够描述更加精细的结构。图4-5YOLOv3网络结构示意图1.2.3损失函数建立以32采样图为例,其他16采样、8采样过程与之一样。经过多次卷积核池化之后,特征图变为大小(H/k,W/k),这恰好与通过32采样分割成的小方块数目(H/k)*(W/k)一一对应,也就是说特征图上每个像素点分别跟原图上一个小方块区域对应。见图4-6所示。图4-6特征图与小方块区域形状对比为了将像素点(i,j)与第i行第j列的小方块区域所需要的预测值关联起来,每个小方块区域产生K个预测框,每个预测框需要(5+C)个实数预测值,则每个像素点相对应的要有K(5+C)个实数。为了解决这一问题,对特征图进行多次卷积,并将最终地输出通道数设置为K(5+C),即可将生成的特征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 通风与空调工程施工方案
- 2026年河北省南宫市高二化学下册期末考试模拟卷附参考答案(考试直接用)
- 2026年湖南省韶山市高二化学下册期末考试模拟测试卷(含答案)
- 2026年吉林省双辽市高二化学下册期末考试模拟试卷含完整答案【各地真题】
- 2026年湖北省钟祥市高二化学下册期末考试模拟考试卷附答案【培优】
- 2026年辽宁省灯塔市高二化学下册期末考试模拟卷含完整答案【各地真题】
- 2026年江苏省泰兴市高二化学下册期末考试模拟试卷含答案【基础题】
- 2026年江苏省昆山市高二化学下册期末考试模拟测试卷及参考答案【夺分金卷】
- 2026年辽宁省兴城市高二化学下册期末考试模拟检测卷含答案(B卷)
- 2025-2026学年ai图片编辑教学设计
- 2025年保密观考试题库及答案(真题版)
- 【真题】人教版八年级下学期期末考试数学试题(含解析)广西南宁市南宁二中初中大学区2024-2025学年
- 学堂在线 日语与日本文化 章节测试答案
- 福建省福州第八中学2025届高一下化学期末教学质量检测试题含解析
- 心理健康服务行业深度报告-压力时代的心理突围-科技赋能破局疗愈赛道-中邮证券
- DB11∕T 510-2024 公共建筑节能工程施工质量验收规程
- T/CCMA 0164-2023工程机械电气线路布局规范
- QGDW12505-2025电化学储能电站安全风险评估规范
- 中国近代外交史课件
- 九年级道德与法治上册 第二单元 民主与法治 第四课 建设法治中国教学设计 新人教版
- 主旋律叙事策略:影视剧创作中的价值引领与艺术表达
评论
0/150
提交评论