版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于YOLOV4的目标检测算法和实验探究报告目录TOC\o"1-3"\h\u8044基于YOLOV4的目标检测算法和实验探究报告 1113711.1YOLOV4的网络结构 199921.2数据收集 5182611.3数据集的制作 559311.4构建基于YOLOV4的仪表检测模型 6127731.4.1环境准备 6117021.4.2模型训练 6220701.5实验结果与分析 6187041.6本章小结 10要对数字仪表进行检测和识别,首先需要对图像中的仪表区域进行检测,做到在复杂的自然环境背景下准确定位和提取表盘区域。基于对深度学习在图像处理方面的研究,本章节中提出了一种基于YOLOV4的仪表表盘检测方法。该方法可对自然环境下的仪表图像进行检测和识别,且检测速度快效果好,为数字仪表的检测与识别提供技术支撑。本章首先介绍YOLOV4的网络结构,然后介绍图像的收集和数据集的制作,最后介绍识别和分割表盘区域的算法。本章中涉及的数据集使用PASCALVOC数据集的目录结构。图2-1:PASCALVOC数据集的目录结构。YOLOV4的网络结构目标检测是计算机视觉的主要任务之一,同时也是各种高层次应用的基础。目标检测的主要工作有两个:目标定位和目标识别。目标定位是指模型需检测图像中所有待识别目标的位置信息,并以被矩形检测框包围的形式显示出来。目标识别是指对所有检测到的目标进行分类。下图为目标检测的一个实例,矩形框展示了目标定位的结果,不同颜色的矩形框则表示了检测出的不同目标,并且于每个矩形框上都显示了目标所属的类别和置信度。图2-2:目标检测实例YOLOV4是一个优秀的深度学习目标检测算法,它于2020年4月首次提出,与前一个版本的YOLOV3相比,它的检测精度、检测速度均有明显提升,AP和FPS分别提高了10%和12%。其详细网络结构如下。图2-3:YOLOV4网络结构YOLOV4的检测模式与YOLOV3相同,都是将基于残差模块结构的卷积神经网络和多尺度预测相结合合,实现了高性能的检测效果。网络结构由输入图像、骨干网、颈网和头部网四部分组成。其中,主干网为CSPDarknet53网络,颈网络为SPP和PANet的结合,头网络则依然使用YOLOV3。在该网络模型中,输入图像的尺寸大小设置为608*608。由于结合了SSD的多尺度思想,最终生成的特征图有三个尺度,分别为19*19、38*38和76*76,网络分辨率的提高大大提升了模型的检测精度。在经过K-means聚类处理后,每个网格会产生3个最佳预测框,每个预选框都包含了(class,x,y,w,h)五个信息及每个目标的概率,预选框总数为22743个。此外,YOLOV4采用多逻辑分类器对多类目标进行检测和识别,并通过融合多尺度特征映射的方法,增强了模型对不同尺度大小的目标的检测能力。具体来说,浅层特征图的感受野小,有利于检测小目标,深层特征图感受野大,对大目标有较好的检测能力;同时,对于不同尺度的特征图,YOLOV4设置了不同尺寸的预选框,小预选框用于浅层特征图使,而大预选框用于深层特征图。YOLOV4的模型训练和检测的流程如下:获得的原始图像需符合深度学习训练集的要求,需要做到标注准确真实;通过数据增强,环境模拟和噪声模拟等,对所有图像进行增强;根据标注原理对数据集中的图像进行标注,将数据集以7:3或8:2划分为训练集和测试集,并将其输入YOLOV4网络训练模型;经过卷积、合并、下采样、上采样等一系列操作,提取目标特征;输出特征图,其包括三个尺寸:19*19、38*38和76*76,并对三个尺度的特征进行融合;检测模型的生成;输入待检测图像,通过YOLOV4检测网络输出三个尺度特征图,分别预测每个网格单元。预测框信息包括位置坐标t_x、t_y,预测框大小t_w、t_h,类别预测概率p_0和置信度C;当模型判断某个网格单元的预测框内目标为仪表表盘时,采用最大值抑制方法记录预测框信息,直到完成对整个图像的检测;最后输出完成检测的图像,显示每个预测框的位置和对应的置信度。下图为YOLOV4的网络模型和流程图。图2-5:YOLOV4网络模型简图图2-6:YOLOV4目标检测流程图YOLOV4在YOLOV3的基础做出了许多改进,而正是这些改进,大大提升了模型的精度和速度,具体表现在以下几个方面:(1)主干网络为CSPDarknet53网络,不再是YOLOV3的DarkNet53。CSPDarknet53网络的感受野更大,参数更多,因此对小物体的检测准确率越高,检测单图多尺寸目标的能力更好。在残差模块上,一层的特征图分为了两部分,而其中一部分经过残差网络结构后与另一部分结合,从而形成了新的残差模块;(2)使用SPP和PANet结构,提高了检测速度和多特征融合性能。SPP能够显著地改善感受野大小,而且速度几乎没有什么下降;使用PANet替换FPN,能够更有效地进行多尺度特征融合。(3)在激活函数上,YOLOV4采用Mish函数,不再使用YOLOV3的leakyRelu函数。(4)YOLOV4在细节上也有许多改进,如:提出新的数据增强方法Mosaic和Self-AdversarialTraining(SAT),使用遗传算法选择最优的超参数,采用了改进的SAM,改进的PAN以及CmBN。Mosaic是新的数据增强方法,同时融合4张训练图片,这能显著地减少对大mini-batch的需。而SAT分为两个前向反向阶段。在第一阶段,先对图片进行前向计算,然后通过反向传播修改图片的像素,这其中不修改网络的权重,通过这种方式,网络进行了一次对抗式训练,制造出没有目标的假象。在第二阶段,对修改后的图片进行正常的训练。CmBN是改进版的CBN,仅统计single-batch中的mini-batch。YOLOV3作为最热门的检测算法之一,已有广泛的应用,比Chen将YOLOV3与机器人技术结合,提出了基于YOLOv3和传感器融合的机器人定位建图系统;Su等针对煤矿井下钻孔图像,提出一种基于YOLOv3的深度卷积神经网络检测识别数字钻孔图像裂隙自动识别方法;Shi等将YOLOV3应用于室内场景的人体检测方法研究中;Cai等提出了一种基于改进YOLOv3的小目标检测方法。YOLOV4虽然问世时间较短,但其应用研究探索十分迅速。Shu等进行了工地安全帽佩戴监测系统的研究;Guo等将YOLOV4应用在交通领域,提出了基于YOLOv4的复杂路口下人车混行检测算法;Hou等利用YOLOv4-TIA提出了一种对林业害虫实时检测方法。本文将探索YOLOV4在仪表检测中的性能。数据收集为了获取满足深度学习训练要求的训练集,本次于网上收集了200张图片作为本次实验的数据集。其中,为了增强泛化能力,图像中的仪器包括但不限于万用表、电流源、电压源、温度计和分贝仪,仪表的表盘颜色和数码管颜色各异,仪表的背景也不尽相同。对于保存下来的图像文件,由于其文件名都是由数字和字母组成的乱码,所以需要编写脚本实现批量改名功能,按顺序将每张图像以“img_xxx.jpg”的格式保存下来,并放置于JPEGImages文件夹下。数据集的制作图像标注工具选择LabelImg,标注原则为:忽略熄灭的数码管位,以数码管亮起的第一个数字为起始位置拉取矩形框,以标注表盘中的数字区域。对其余情况如用数码管显示计量单位的位置不做标注。保存下来的XML数据文件名称与图像名称一一对应,并将其放置在Annotations文件夹下由于YOLOV4的标注文件格式为(class,x,y,w,h),其中class为目标类别,x为目标的中心点的归一化横向坐标,y为目标的中心点的归一化纵向坐标,w为目标框的归一化宽度,h为目标框的归一化高度,而保存下来的数据信息格式为XML,其中的主要信息为(width,height,class,xmin,ymin,xmax,ymax),与YOLOV4不符,因此需要编写用python代码实现两种标记格式的转换。将处理后的TXT格式的YOLOV4标注文件放置在labels文件夹下。图2-4:标记格式转换最后采用产生0到100内的随机数的方法,以7:3的比例分割数据集,其中70%用于训练,30%用于测试。同时在darknet下生成了两个文件2007_train.txt和2007_test.txt。2007_train.txt和2007_test.txt分别给出了训练图像文件和测试图像文件的列表,含有每个图片的路径和文件名。另外,在ImageSets\Main目录下生产了两个文件test.txt和train.txt,分别给出了训练图片文件和测试图片文件的列表,但只含有每个图片的文件名,不含路径和扩展名。最终训练只需要用到2007_train.txt,2007_test.txt,labels下的标注文件和JPEGImages下的图像文件。构建基于YOLOV4的仪表检测模型环境准备本次实验采用电脑配置如下:CPU采用i7-7700HQ,显卡采用NVIDIAGeForceGTX10603G,内存8G*2,WIN10系统。其中模型迭代次数选择4000-5000次。除此之外,本文中主要涉及三个超参数batch/batchsize、subdivision和random,batch/batchsize表示模型每次传输图像个数,设置取值为16,32,64,subdivision表示每次分批次数,取值为8,16但不超过batch/batchsize值,random设为0表示训练过程中保持输入图像尺寸不变,设为1则表示训练每迭代10次,随机调整输入图像的尺寸。在Win10系统下,搭建Darknet环境的YOLOV4基础模型。搭建完成后使用COCO数据集尝试训练,经测试,该模型搭建无误能正常运行,在COCO数据集上能良好地完成多目标检测任务,mAP达到80%。模型训练将数据集改为本次实验的仪表数据集来训练模型。首先需要设置迭代次数,迭代次数过大会导致过拟合和耗时过长等问题,过小会导致欠拟合,一般设置为检测目标种类数*2000,因此在本次实验中设置为4000次。在训练时发现batch及subdivision过大会影响模型的训练速度,甚至出现显存溢出的现象。超参数batch设置为16,subdivision设置为16,同时random设为0,其他参数采用默认值。实验结果与分析本文以loss和mAP作为模型检测的性能评价指标。其中,loss表示损失函数,其值越小,模型的收敛程度和越高,与真实标注值拟合得越好;mAP表示平均准确率均值,用来衡量目标检测中的识别精度,mAP越高表示模型的识别准确率越高。YOLO算法的损失函数由三部分组成,分别为回归损失、IoU损失和分类损失。IoU的全称为交并比,它是指产生的候选框与原标记框的交叠率,即它们的交集与并集的比值。通常IoU阈值设定为大于或等于0.5,即只有IoU大于0.5的预测框才判定为检测到目标。其公式如下:L式(2-1)其中,L式(2-2)L式(2-3)L式(2-4)具体来说,L表示loss函数值,Lloc表示locationloss,LIoU表示IoU损失,Lconf表示confidenceloss。更进一步来说,i表示第i个网格,j表示第j个候选框,λcoord和λcoord表示权重,S2表示网格的个数,B表示每个网格中预测的候选框个数,lijobj或lijnoobj表示第i个网格中的第j个候选框是否有目标且是否匹配最大IoU,匹配为1不匹配则为0,xi、yi、wi、hi、Ci而mAP是指平均准确率均值,是评价模型性能的最重要的指标之一。mAP的取值在[0,1]之间,其值越大,模型的检测效果越好。在计算mAP之前要先要理解混淆矩阵,矩阵中包含4个值,分别为TP,FN,FP,TN。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。以二元分类问题为例,数据集存在肯定类别和否定类别两类记录,而分类模型对记录分类可能作出阳性判断(判断记录属于肯定类别)或阴性判断(判断记录属于否定类别)两种判断。混淆矩阵是一个2×2的情形分析表,显示以下四组记录的数目:作出正确判断的肯定记录(真阳性)、作出错误判断的肯定记录(假阴性)、作出正确判断的否定记录(真阴性)以及作出错误判断的否定记录(假阳性)。下图给出了混淆矩阵的结构。图2-5:混淆矩阵的结构召回率recall=TPTP+FN,又称查全率,表示对于该目标是否检测完全;精度precision=TPTP+FP,又称查准率,表示对于该目标检测的准不准;准确率accuracy=图2-6:此次训练模型的loss和mAP曲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 近视防控黄红橙预警制度
- 机器学习技术在医疗健康领域的应用前景展望
- 车间环保自律制度
- 财务部会计工作交接制度
- 语言文字持证上岗制度
- 2025年青岛国企公司招聘笔试及答案
- 2025年三甲护士笔试常考知识点及答案
- 2025年大足事业单位招聘考试题及答案
- 2025年封丘县人事考试及答案
- 2025年平安信用卡银行笔试及答案
- 手术室感染课件
- 06MS201-3排水检查井规范
- T-CACM 1362-2021 中药饮片临床应用规范
- 《常用办公用品》课件
- 四川省南充市2024-2025学年高一上学期期末质量检测英语试题(含答案无听力原文及音频)
- 山东省淄博市2023-2024学年高二上学期期末教学质量检测数学试题(解析版)
- 数据中心安全生产管理制度
- 2024至2030年中国纸类香袋数据监测研究报告
- 面向工业智能化时代的新一代工业控制体系架构白皮书
- 2024年四川省成都市青羊区中考数学二诊试卷(含答案)
- 左心导管检查及造影操作技术规范
评论
0/150
提交评论