【《YOLO系列目标检测算法实现过程概述》4300字】

上传人：E*** IP属地：湖北上传时间：2026-04-11 格式：DOCX 页数：11 大小：2.06MB 积分：13 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

YOLO系列目标检测算法实现过程概述目录TOC\o"1-3"\h\u29991YOLO系列目标检测算法实现过程概述 1102101.1引言 121561.2YOLO算法概述 1190871.2.1YOLOv1目标检测算法 1120531.2.2YOLOv2目标检测算法 3159041.2.3YOLOv3目标检测算法 4253011.2.4YOLOv4目标检测算法 5102801.3YOLOv5目标检测算法 67841.3.1算法原理 6251241.3.2算法流程 10引言YOLO是One-stage目标检测算法，从图片输入到网络输出只需要对网络进行一次推理，是端到端的目标检测与识别的算法，能够一次性预测多个边界框位置与类别的深度学习训练模型。采用候选区域训练方式的Fast-R-CNN时常把背景部分错误检测为某一特定目标，而YOLO没有选用提取候选框与滑动窗口的方式进行网络训练，而是直接选用输入的整张图片训练模型，这样可以实现更好的区分目标和背景区域的检测效果。因此，YOLO模型训练速度显著提升，计算成本大大降低，因此性能有所提高。YOLO算法概述YOLOv1目标检测算法YOLOv1主干网络模型包含了24个卷积层与2个全连接层，其核心思想为通过卷积层提取输入图片特征，利用全连接层预测置信框坐标和类别种类REF_Ref24876\r\h[21]。算法的实现流程如下：1、在YOLOv1网络中，设置了2个全连接层，因为网络中设置好的全连接层所连接的参数量为固定的，因此全连接层则要求输入图像是固定尺寸，所以把网络输入也将图像尺寸缩放成固定尺寸。2、调整尺寸后将图片分割为S×S的网格，每个网格分别预测出B个boundingbox，每个boundingbox信息包含预测框中心点相对划分网格左上角的坐标（x，y）、预测框的宽高信息（w，h）、Confidence值以及类别信息。被检测物体的中心如果落在这个网格中就由此网格负责预测这个物体，输出的7×7张量代表着图片被划分成7×7的网格。其中Confidence的计算公式为：(2.1)3、将图像输入网络中，该网络的输出层表示为一个(7×7)×30维度的向量。其中30维向量所表达的信息为每个网格预测的2个boundingbox包含的10个数据，以及该网格对20个类别的条件预测概率，如图2.1所示。图2.1输出张量4、每个网格预测的置信度和其对应20个类别的条件预测概率相乘，就得到每个预测框的对应类别概率。即在框内有物体的条件下，计算框中每种类别的概率。各类别概率的计算公式为：(2.2)(2.3)其中，class-specificconfidencescores表示各个类别的概率，表示预测框包含物体的条件概率，公式既表示出了分类精度，又表示出了定位精度。5、在每个框都有对象类别概率后，会产生98预测框，个对每个框进行阈值筛选，去除掉低置信度框，即小概率包含物体的预测框。再通过非极大值抑制进行处理，使得一个物体由一个预测框预测，去除多余预测框，得到最终检测结果。由上所述，YOLOv1的训练与预测都采用端对端的策略，通过一个卷积神经网络实现对输入图片的检测，并且YOLOv1是对整张图片做卷积，所以不会将图片背景检误判。另外，YOLOv1的泛化能力强，在进行迁移训练时，模型鲁棒性高。但YOLOv1各网格只生成两个预测框，并且两个预测框的类别相同，所以对于小物体YOLOv1的检测效果不好。另外，YOLOv1检测物体的宽高比的泛化率较低，不寻常比例的物体的定位能力低，同时识别物体位置精准性差。YOLOv2目标检测算法YOLOv2相较于YOLOv1在mAP、定位准确度和召回率等方面有了较大提升，其改进策略遵循为保持模型检测速度，这同时也是YOLO模型的一大特点REF_Ref24961\r\h[22]。YOLOv2改进方法包括以下几个方面：batchnormalization（批归一化）batchnormalization使神经网络各层的输入分布不断变化，规范上层的输出，平衡输入数据的分布，提高训练速度。通过归一化输入，可以降低激活函数在特定输入区间内达到饱和状态的概率，使反向传播过程中的梯度消失和梯度爆炸问题，降低对某些超参数的敏感性。输入归一化对应于样本正则化，以获得更好的收敛速度和收敛效果。采用Finetune高精度分类器YOLOv2对分类网络进行了finetune，分辨率改成448×448，在ImageNet数据集上训练10轮，训练后的网络就可以适应高分辨率的输入。引入先验框（AnchorBoxes）借鉴Faster-R-CNN的做法，YOLOv2也采用了先验框。预选为每个网格设置不同大小和宽高比的边框，以覆盖整个图像的不同位置和比例，这些先验框作为预定义的候选区在神经网络中将检测其中是否存在目标，以及检测目标是否位于边界位置。聚类提取先验框之前是手动设置先验框，但是在YOLOv2使用的先验框更接近样本的对象大小，降低了将先验框微调到其在网络中的实际位置的难度。YOLOv2的做法是对训练集中显示的boundingbox进行聚类分析，找到与样本最匹配的boundingbox大小。passthrough层检测细粒度特征YOLOv2引入passthrough的方法保留了Featuremap的一些细节信息。它重新排列上一层的特征，然后连接到下一层。网络前面的层越高，感受野越小，这有助于检测小目标。提出Darknet-19结构为了进一步提高检测速度，YOLOv2提出了Darknet-19网络结构。Darknet-19模型比VGG-16模型小，但准确率不逊色于VGG-16，其减少了大约1/5的浮点运算量，从而提高了运算速度。多尺度训练因为去掉了全连接层，YOLOv2可以输入任意大小的图像。整个网络的下采样倍数为32，并使用了10个输入图像尺寸，例如{320,352,...,640}。在模型训练时，每10个批次随机更改一个图片尺寸大小，以允许网络适应检测各种大小的图像。YOLOv3目标检测算法YOLOv3REF_Ref68597859\r\h[23]是YOLO系列算法的第三个版本，主要内容则是在YOLOv1和YOLOv2的基础上做进一步的改进，提升物体检测的速度和精度，同时也优化了对小物体的检测性能。YOLOv3改进主要包括以下几个方面：使用Darknet-53作为backbone网络。YOLOv3基于金字塔特征图的思想，小尺寸特征图用于检测大尺寸物体，大尺寸特征图用于检测小尺寸物体。一共输出3个Featuremap，第一个Featuremap下采样32倍，第二个Featuremap下采样16倍，第三个Featuremap下采样8倍。其网络结构是一个全卷积网络，只有卷积层，使用了大量的残差连接，并且放弃了池化的使用，以减少池化对梯度的负面影响，输出特征图的大小通过调整卷积步长的大小来控制，输入图像大小没有特殊限制。使用多尺度特征进行对象检测低层特征语义信息比较少，但目标位置信息准确，高层特征语义信息比较丰富，但目标位置信息比较粗略。YOLOv3采用上采样操作和特征融合的方法，融合了三个尺度（13×13、26×26、52×52），对融合后的多个尺度的特征图进行独立检测，使小目标的检测效果大大改善。用logistic取代了softmaxYOLOv3在预测对象类别时没有使用softmax，而是采用logistic的输出进行预测，这样能够支持多标签对象。YOLOv4目标检测算法与之前的YOLO算法相比，YOLOv4REF_Ref28067\r\h[24]算法是在对YOLOv3算法进行多方面的优化而提出的，相比于YOLOv3，YOLOv4算法在检测速度和精度方面都有所提高。YOLOv4改进主要有以下几个方面：采用Mosaic数据增强方法。Mosaic数据增强是YOLOv4中率先引入的数据增强方法。其核心内容是通过图像重组而获得更加丰富的图像背景信息。Mosaic数据增强是通过随机缩放、随机裁剪与随机排布的方式将四张图像结合在一起，可以解决数据集内目标大小不均匀所产生的检测精度的问题，一般目标检测算法对小目标的检测精度比较低，但是小目标在数据集内的分布情况非常不均匀，这会影响算法总的精度，Mosaic数据增强可以很好地缓解这一问题。特征提取网络在YOLOv4中，Darknet53通过借鉴CSPNet做了一些改进。CSPNet解决了其他大规模卷积神经网络框架骨干网络优化中梯度信息重复的问题，通过将从始至终的梯度变化融入特征图中，提高了卷积神经网络的学习能力，保证了检测精度。CSPDarknet53中，采用Mish激活函数代替Leaky_relu激活函数。特征加强网络YOLOv4算法的特征增强模块位于特征提取网络和检测模块之间，主要作用是提高算法的融合特征提取能力。该模块是YOLOv4算法中非常重要的一部分。增强模块主要由SPP模块和FPN+PAN模块组成。SPP模块主要由四个最大池化层组成：1×1、5×5、9×9和13×13，其主要作用是进行图像特征融合，提高特征图的特征算法的检测精度。FPN+PAN模块的组合形式可以进一步提高网络特征提取功能，核心内容是重复提取图像特征。YOLOv5目标检测算法算法原理YOLOv5系列共有四种网络结构，包括YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x其中YOLOv5s深度最小，特征图的宽度最小的网络，而后面的3种都是在此基础上不断加深，不断加宽。YOLOv5s网络结构图如图2.2与图2.3所示。它主要由四个部分组成：输入端、Backbone、Neck和Prediction。图2.2YOLOv5网络结构（a）CBL模块（b）Focus模块（c）CSP1_X模块（d）残差模块（e）CSP2_X模块（f）SPP模块图2.3各模块结构输入端YOLOv5同YOLOv4一样采用Mosaic数据增强的方式，随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果有不错的效。Mosaic实现步骤为：每一次读取四张图片；之后，分别对四张图片随机进行不同的处理，如平移与缩放尺寸；对处理后的数据进行组合，并送入网络中进行预测，其输出结果如图2.4所示。Mosaic数据增强方法通过对四张图片随机缩放、随机排布、随机次裁剪方式进行图像的拼接，极大丰富了数据集，并且通过随机缩放，使数据集增加了很多小目标，让网络的鲁棒性变得更好。此外，检测训练器训练一般需要多GPU来进行多批次的训练，Mosaic数据增强训练时可以同时计算4张图片的数据，使得Mini-batch大小并不需要很大，训练速度得到很大提升，一个GPU就可以达到比较好的训练效果。图2.4Mosaic数据增强在训练阶段，YOLOv5网络采用自适应图片缩放，如图2.5所示。将输入图片直接同一缩放到标准尺寸，然后填充黑边，流程如表2.1所示。自适应图片算法流程Input：原始输入图片尺寸(x1,y1),网络输入(x2,y2)1:R=min(x2/x1,y2/y1)//计算缩放比例2:unpad=(int(x1×R),(int(y1×R))//计算图片宽高3:dw,dh=x2-unpad[0],y2-unpad[1]//计算填充像素4：Resize图片并填充图片表2.1自适应图片处理图2.5自适应图片缩放在YOLO算法中，对不同数据集会有初始长度和宽度的锚框。在网络训练中，网络根据初始锚框输出预测框，将其与真实框进行比较，计算两者之间的差异，然后反向更新并迭代网络参数。但是YOLOv5在代码中包含了这个功能，并且在每次训练时自适应地计算不同训练集中的最优锚框值。BackboneFocus结构在图片传入网络中对图片进行切片操作，如图2.3（b）所示。具体实现如图2.6所示，将w-h平面上的信息转换成维度信息，得到一个12×2×2的特征图。采用Focus结构可以减少下采样过程带来的损失，降低计算量，同时增加局部感受野。图2.6Focus结构YOLOv5在Backbone增加了两种CSP结构，在YOLOv5s中：CSP1_X结构应用于Backbone主干网络中，如图2.3（c）所示。CSP2_X结构应用于Neck网络中如图2.3（e）所示。在分类问题中，使用CSPNet可以减少计算量，但是准确率提升很小；在目标检测问题中，使用CSP结构为Backbone带来较大提升，可以有效增强CNN的学习能力并降低计算量。NeckYOLOv5的Neck采用了FPN+PAN结构，在YOLOv4的Neck结构中，采用的都是普通的卷积操作，而YOLOv5的Neck中，采用CSPNet设计的CSP2结构，因此加强了网络特征融合能力。Prediction损失函数的选取对于评估的准确性至关重要，检测精度主要与置

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《YOLO系列目标检测算法实现过程概述》4300字】

文档简介

温馨提示

最新文档

评论

【《YOLO系列目标检测算法实现过程概述》4300字】

文档简介

温馨提示

最新文档

评论

相关文档