【基于YOLOv5网络模型的口罩佩戴检测系统设计7800字（论文）】

上传人：E*** IP属地：湖北上传时间：2026-06-30 格式：DOCX 页数：15 大小：1.09MB 积分：15 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于YOLOv5网络模型的口罩佩戴检测系统设计摘要随着国内疫情的控制，在各个人群聚集地均需要佩戴口罩，针对检测人员人力资源的浪费，检测的效率低下等问题，提出了一种基于YOLOv5网络模型的口罩佩戴检测系统的设计与实现，对人群进行实时的检测。经过试验后可以得出，该系统检测在检测的速度上符合使用要求，能实时性的检测，在检测的准确率上极佳，满足人们在社会上的正常使用。关键词：YOLOv5,口罩检测,目标检测目录TOC\o"1-3"\h\u248201引言 254131.1课题背景 2101341.2国内外研究现状 234301.3研究意义 3179192软件分析 3229792.1功能分析 3129872.2需求分析 3174632.3技术可行性 4284292.4经济可行性 4295352.5发展前景 4122492.6操作可行性 4220903YOLOv5概要 5263123.1YOLOv5介绍 590953.2YOLOv5的优势 6300993.3YOLOv5模型网络结构 7117173.3.1Input端 7257523.3.2Backbone 888563.3.3Neck 9325483.3.4Prediction 10112754实验与结果分析 1128494.1数据集及实验环境 11297444.2指标参数 11161264.3系统实现流程 12245505结束语 141200参考文献 15

1引言1.1课题背景新冠病毒的出现至今才一年多的时间，在武汉爆发之初因为没有进行有效的预防，传播非常的迅猛，政府当机立断进行封城，并在全国各地进行严防死守。当时虽然是过年期间，但是并没有出现万人空巷的情景。往年熙熙攘攘的返回家乡的车站也只有零零散散的几人。中国的经济几乎停滞不前，每个人唯一能做的事就是在家好好呆着，如果出门必须戴口罩。由于新冠疫情突然爆发和疯狂传播，对人们的生命安全造成了非常大的威胁，对人们现在每日的正常生活造成很多方面的不便。随着新冠疫情的肆虐，严重的危害着全球70亿人口的生命。目前在国内由于国家积极的开发疫苗，努力的救治病人，严格的进行日常管控等方式，有效的控制了疫情在国内的传播，使居民生活正常化。即便如此我们依然不能松懈，仍要要坚持对于疫情的防控。在日常的生活中，全国各地居民无论是交通出行还是去人群聚集的场所都需要佩戴口罩，口罩佩戴检测已经成为了一种标准一种必要操作。目前在各个很多的场所对于进入客户口罩检测的方法大多是通过工作人员进行检测，每个场所入口至少两人进行检查，不仅效率低下，浪费人力资源而且当客流量大的时候就容易出现漏检的情况，对疫情的防控制造了阻碍，使人们日常出行的生命安全面临了严重的威胁。随着现如今人工智能多层次很大程度的发展，人工智能的许多方向日渐成熟，深度学习在目标识别和检测方向取得了越来越多的实际应用。为了解决这些问题，开发出一款用于智能检测出是否佩戴口罩的系统就显得尤为重要。只需通过屏幕就能快速监测出未戴口罩者，既可以提升检测的效率，又能解放人力资源，减少疫情传播的风险。1.2国内外研究现状目前国内外对于口罩佩戴检测系统的研究并不多。国内外使用最对的应用是人脸检测。在我国内这些应用目前主要应用的地点是在车站的入站口，通过人脸识别检测入站的乘客的信息进行核对。目前国内一些学者对口罩佩戴检测系统进行了研究。余阿祥等[1]使用多注意力机制的口罩检测网络，通过多注意力机制，实现了增加网络特征挖掘能力的效果，使用柔性非极大抑制方法，减少多余目标检测框图以提升检测的平均进度。王兵等[2]研究的改进YOLO轻量化网络的口罩检测算法，在YOLO模型的基础上通过增加MaxModule结构而获取了更多的主要特征，提高检测的精准率；并提出自下而上的多尺度融合，结合低层信息丰富网络的特征层次，提高特征的利用率。基于以上学者的研究，通过最新发布的YOLOv5网络模型以实现口罩佩戴检测系统。该模型相比于以上的方法在识别的精度、识别的速度和识别的准确度上都有更好效果，在实际应中也有更优的可操作性。1.3研究意义新冠病毒的肆虐目前虽然已经在国内给遏制，但是对于新冠的危害回想起来依然触目惊心。正是因为我们经历过新冠病毒爆发传播的时期，所以我们知道现在国内安全的不易。虽然我国实施了严格的防控措施，但是国内依然时不时的在某些地方和某些城市会零星的出现新冠病毒爆发和传播的情景。每当出现这样的情况时，政府都会动员当地的医护人员对当地的所有居民进行检测新冠的检测，造成了大量的人力物力的损失，但是谁能想到预防新冠病毒传播的最简单最有效的方法就是一张小小的薄薄的口罩呢。口罩佩戴检测系统的实现，可以准确快速的进行的检测，有效便捷的应用于车站、超市、医院等各处人群聚集的地方。只需在各个入口处安装进行监控的安装，即可通过屏幕观察出进入人员是否佩戴口罩，方便工作人员对于没有佩戴口罩者进行迅速的识别发现以便进行后续的提醒和防控。这种方法方便快捷有效的减少了人力资源的浪费，降低了疫情传播的影响，增强了人们出行的安全。2软件分析2.1功能分析口罩佩戴检测系统的功能为对人们到达需要佩戴口罩的场所进行一个检测和示警。口罩佩戴检测系统是一个在检测上具有实时性的系统，通过对摄像头拍摄的画面进行一系列处理，以不同的方式标注出视频中佩戴口罩者和未佩戴口罩者，以视频的方式展示在屏幕中，可以让使用者简单的通过看屏幕去找到没有佩戴口罩的人，以便去进行提醒。防止了因客流量太大，工作人员不能及时发现没有佩戴口罩的人，出现漏检和错检的情况。使工作人员只需通过屏幕就能迅速的发现没有佩戴口罩的人去进行下一步的处理。2.2需求分析目前，新冠病毒还正在疯狂的肆虐，在国外每日新增感染者高达60万。在国内通过党的全盘的指挥和人们的不懈努力奋斗，使国内许多不慎感染新冠病毒的患者得到了痊愈，并且有效的控制了新冠疫情在国内的传播，创造了世界的奇迹。目前国内的新冠疫情进行了有效的防控，但由于我们经历过那样黑暗的时期，对于疫情的防备更不能松懈。现在对于国内的人群聚集地如车站、商场、医院、旅游景点等地，如果要进入都必须检测是否佩戴口罩。而且每个入口都需要设置至少两个工作人员进行检测，他们需要认真的去扫视每一个，不能有丝毫的放松，不但使工作人员压力过大而且造成了人力资源的浪费，并且当进入的人员过多时总是会出现没有佩戴口罩的人混进去的情况，对于疫情的防控造成了阻碍。口罩佩戴检测系统只需要在入口处安置几个摄像头即可通过屏幕快速的看到没有佩戴口罩者。通过口罩佩戴检测系统减少了人力资源的浪费，减少了工作人员在检测时的压力，很大程度上增加了我们对于疫情防控的能力。2.3技术可行性随着人工智能的发展，深度学习方向的很多技术都较为成熟[3]，口罩佩戴检测系统使用的是YOLOv5模型，是YOLO模型的第五代版本，通过不断的改进在各个方面都变得非常优秀，无论是检测速度还是推理速度都非常的快。YOLO模型是通过Python语言完成的。Python编程语言拥有封装了大量的函数库，很多复杂的功能可以通过简单的函数调用即可实现。在硬件方面通过摄像头进行监控，屏幕进行展示实时检测结果。本文所设计系统的功能均可通过现有的技术进行实现。2.4经济可行性软件开发成本并不大，对于用户的体验取决于硬件的选择，选用何种的摄像头和何种的屏幕进行展示，所以对于产品的价格会取决于客户对于硬件的选择，所以在经济上会根据不同的硬件产品设置不同的价格，提高系统的经济可行性。2.5发展前景随着我国人工智能各个方向在不同方向更深层次的发展和5G的普及，越来越多的人工智能应用被我们所熟知和使用，智能语音、智能播报、智能分析、智能推荐、图像处理等应用，越来越被人们所熟知和使用，人脸识别在被应用在支付和和个人信息认证等各个方面，针对人脸区域的目标检测也在逐步广泛使用到各个相关领域。目前PC端用户占用了大量的比例的。只需在电脑上链接一个摄像头即可进行该系统的使用。这个系统可面向全社的各个场所，让人们在生活上能更方便，更安全，让人们能够真实的体验到人工智能带给人们生活的改变。2.6操作可行性本系统操作相对简单，在完成后本系统的部署工作后，用户只需通过点击运行即可进入口罩佩戴检测系统，不会对使用人群造成困难。同时本系统具有较好的自动化，使用场景较为广泛，在启动系统后，系统可自动对所捕捉到的人群图像进行目标检测，用户可通过屏幕直观地发现未佩戴口罩的人。3YOLOv5概要3.1YOLOv5介绍YOLO模型的作用是用来做为一个于目标检测的网络，它将对对象做的复杂的目标检测任务，转换成一个线性回归问题，通过简单的线性回归检测出我们需要检测的对象。当图片输入后，将图片传入YOLO的下采样网络，将图片处理成形状和大小相同的区域划分，通过对特征图谱多尺度卷积、池化和激活操作，剔除掉IOU值小的边界框，并进一步回归置信度高的边界框，输出预测目标的类别信息和边界框位置信息。YOLO模型经过不断的发展和创新已经发展至YOLOv5。YOLOv5最重要的就是将图片整个的作为输入源，完全的输入到神经卷积网络中实现了端到端的目标检测，，在输出层进行线性回归，通过线性回归得到boundingbox的位置和类别。目标检测的框架目前主要被我们所熟知有这么两种，一种类别是单阶段(one-stage)目标检测算法，如图1所示，另一种类别是双阶段(two-stage)目标检测算法，如图2所示。双阶段是指我们首先通个CNN[4]会得到一些预选框，然后我们对于得到的这些框进行一个筛选得出最符合情况的一种，是一个两阶段级联的网络，主要为R-CNN、Fast-RCNN等典型两阶段识别算法[5,6,7]。单阶段是指将图像经过CNN后直接得到检测目标的框主要有SSD、YOLO等经典一阶段识别算法[8,9]。图1two-stage图2two-stage3.2YOLOv5的优势YOLOv5是我们上述所说的单阶段的网络，它的核心优势是模型处理速度非常快，识别速度高达140FPS，且模型相对轻量级，适合做实时性检测任务。YOLOv5融合了大量当前深度学习模型的组建技术，使得网络模型在目标检测方面速率较高，通过训练能够快速得出系统所需的收敛模型。模型在处理数据方面使用了批操作处理，通过这种并发操作实现处理的实时性，也可以实现对多样性数据的处理，例如图片、视频等。同时在对背景进行检测时模型错误检测率较低，对于整张图像的信息，模型都可以通过主干网络中的残差学习模块获得，较大程度上保留了原始对象的特征。YOLO[10]的适用范围非常的广，不但能用于一般实体类的目标检测，而且可以用在抽象类目标检测中。YOLOv5相比于前面的几个版本，在很多地方进行了改进，能够简单的通过一些操作完成数据集的训练，对比效果如见1。表1YOLOv5的各项指标ModelSize(pixels)mAPval0.5:0.95mAPtest0.5:0.95Mapval0.5SpeedV100(ms)Params(M)FLOPS640(B)YOLOv5s64036.736.755.42.07.317.0YOLOv5m64044.544.563.12.721.451.3YOLOv5l64048.248.266.93.847.0115.4YOLOv5x64050.450.468.86.187.7218.8YOLOv5s6128043.343.361.94.312.717.4YOLOv5m6128050.550.568.78.435.952.4YOLOv5l6120853.453.471.112.377.2117.7YOLOv5x6128054.454.472.022.4141.8222.9YOLOv5x6TTA128055.055.072.070.8--YOLOv5在进行数据集训练时能够较快提取图像的特征图谱，在这方面所使用的时间远胜过YOLOv4，YOLOv5各版本性能测试图如图3所示。YOLOv5通过批处理的方式处理图片，平均对每个图片处理的时间只有7ms。YOLOv5在数据处理的方面还使用马赛克数据增强，通过对随机4张图片的剪裁和拼接，让每次检测对象的数量和原来相比有大量的增加，使检测效率有了大幅的提升。YOLOv5在对数据进行处理这方面还使用Dropout的方法，通过随机的减少一些神经元，减少了全连接层和卷积层后面的权重需要发生改变的数量。图3算法性能测试图3.3YOLOv5模型网络结构YOLOv5模型的网络结构主要有4个部分组成，第一个部分是Input端的网络；第二个部分是Backbone的网络；第三个部分是Neck的网络；第四个部分是Prediction的网络，模型结构如图4所示。图4YOLOv5模型的网络结构3.3.1Input端Input端的功能是进行图片等数据的输入，然后对数据进行处理。文中的数据预处理方式分为数据增强和批量正则化。数据增强[11]主要是通过对8000张原图进行中心裁剪，裁剪成1024*1024大小的图像，再将其从中心点分割成四个512*512大小的图像，同时将图像左右和上下进行翻转，最后得到目标数据集。数据的批量正则化可以使得训练过程模型快速收敛，迭代次数减少。目标数据集的批量正则化是根据每个批量的样本，计算出批量的均值和方差，设置批量样本的均值为0，方差为1。均值的计算公式为：其中，为每个批次加载到模型中的样本，n为每个批次的大小。方差的计算公式为：其中，为每个批次加载到模型中的样本，为每个批次的大小，为批次中的样本均值。在本网络使用的算法中，对于相异的数据集，锚框根据图像的大小都会有初始长宽的设定，同时形成多尺度锚框，并进行尺度自适应。在网络训练中，网络结合置信度最高的锚框，进行边界框的回归，进而输出包括图像中目标的分类信息和位置信息的预测框，然后和真实框进行比对，通过损失函数的计算，进行返向传播，同时更新网络参数，使得模型检测效果更好。在常用的目标检测算法中，一般输入的图片的长宽各异，常用的方法是设置一个长宽相同的标准尺寸，可通过缩放和裁剪等方式构建模型训练所需图像样本，然后将获得的图像样本作为新的输入再传输进检测网络进行训练，模型的自适应图片缩放是保证了推理速度有了较大提升。3.3.2Backbone主干网络的作用主要是对网络特征进行抽取。此处经过的网络为Darknet-53[12],它有53个卷积层，见表2。表2Darknet-53TypeFiltersSizeOutputConv323*3256*256Conv643*3/2128*1281*Conv321*1Conv643*3Residual128*128Conv1283*3/264*642*Conv641*1Conv1283*3Residual64*64Conv2563*3/232*32续表2TypeFiltersSizeOutput8*Conv1281*1Conv2563*3Residual32*32Conv5123*3/216*168*Conv2561*1Conv5123*3Residual16*16Conv10243*3/28*84*Conv5121*1Conv10243*3Residual8*8Darknet-53的性能与最先进的分类器不相上下，但浮点操作更少，速度更快。Darknet-53是ResNet-101速度的1.5倍。Darknet-53的性能与ResNet-152相似，速度比他快2倍。Darknet-53还获得了每秒最高的浮点运算量。这意味着网络结构更好地利用GPU，使其更有效地评估，从而更快。ResNet慢的主要原因是有太多的卷积层层，效率不高。我们在训练图像的时候使用标准的Darknet神经网络框架进行多尺度训练，大量数据增强，批量归一化的训练和测试。3.3.3NeckNeck网络结构的作用是通过PAN结构和FPN[13]结构从不同的骨干层对不同的检测器层进行参数聚合，以此获得对目标预测的特征图。感受野是指输入的图片经过CNN神经网络[14]后，特征图上的点映射在原始图像中的区域，感受野的工作原理如图5所示。当我们在增大感受野以覆盖输入网络时，会增加网络进行检测的规模，如图6所示，以此结构在增加不会降低网络的对特征图分离的速度。图5感受野图6FPN+PAN结构3.3.4PredictionPrediction包含非极大值抑制（Non-MaximumSuppression简称NMS)操作[15]和Boundingbox损失函数。当我们对目标进行处理后会出现很多的边界框，我们要做的是对这些边界框进行进一步的挑选，此时我们常常进行的操作是NMS操作，通过这种操作以获得最佳目标框。目标检测的一个重要衡量指标为交并比（IntersectionoverUnion，简称IOU），指的是预测框和真实框的重合比例，若真实框为X，预测框为Y，则它的计算公式为：IOU=其中分子为预测框和真实框的一个交集，分母为预测款和真实框的并集，得出的结果即为IoU的值。通过这个式子，可以看出当预测框和真实框的重合度增加的时候，他们的交集会增大，并集会减小，IoU的结果会增大，当真实框和预测框完全重合的时候我们可以得出IoU此时为最大值，最大值为1。所以目标检测任务中常把IoU作为一种指标，通过计算IoU的值与1的差距来判断目标检测效果的优劣，即损失函数IOULoss：IOULoss=1−IoUYOLOv5使用的损失函数为GIOU_Loss，与IOULoss相比，在训练过程中，当预测框和真实框不重叠时，不仅可以计算两者的误差值，还可以为边界框回归提供移动方向。若此时令包真实框和预测框的最小框为Z，则GIoU的公式为：GIoU=IoU−=IOU+易知当X和Y重合时GIoU为最大值1，当X和Y重合的面积趋近于0时为最小值-1，所以我们可以计算出GIoU的损失函数GIOU_Loss为：GIOU_Loss=1−GIoU4实验与结果分析4.1数据集及实验环境对于本次实验做如下准备：建立了包括部分公开数据的人脸口罩佩戴数据集，数据样本涵盖了不同职业、不同国家、不同性别、不同年龄、不同环境、不同动作共计8000张图片。操作系统window10，Python版本3.7.0，使用的深度学习框架为PyTorch。在实验中，将两个数据集分为训练集（数据集的80%）和测试集（数据集的20%），训练过程中初始学习率设为1×10e-4，批量大小设置为60，迭代100次，优化器的选择是自适应矩阵估计优化策略，即Adam优化算法。图7部分数据集展示4.2指标参数在机器学习领域中，用于评价一个模型的性能有多种指标，其中几项就是FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)FN：他的含义是指没有被检测出来的结果中，应该被检测出来的样本数量。FP：他的含义是指被检测出来的结果中，错误检测出来的样本数量。TN：他的含义是指没有被检测出来的结果中，不是目标样本的数量。TP：他的含义是指被检测出来的结果中，正确检测出来的数量。表3TP、FP、TN、FN真实情况预测情况正例反例正例TP（真正例）FN（假反例）反例FP（假正例）TN（真反例）当结果输出后，输出的结果中正确的预测数量占所有预测出来数量的比例。精准率的计算公式为：P=TP+FP:也就是检测出的目标的数量当结果输出后，输出的结果中正确检测目标的数量占输入的检索对象中所有的正确的目标的数量的比例。召回率的计算公式为：R=TP+FN:也就是实际上目标应有的数量对于一次检测结果的效果我们常用准确率来描述，准确率是指对于输入样本进行检测后，对于检测的结果中正确检测出来的样本数量除以我们所输入的样本数量的全体总和，当我们计算所得的准确率越高的时候，证明我们所采用的分类器越正确，准确率的计算公式为：ACC=4.3系统实现流程对于本系统的实现，首先配置好本地电脑需要运行程序时所使用的环境，之后收集我们所需的数据集，不同国家、不同地区、不同职业、不同性别，形形色色的人的图片，对于这些图片有戴口罩的有不佩戴的口罩的，共收集图片八千张。然后我们把所使用的网络模型下载下来，进行参数的修改和一些环境的配置。准备好这些工作后开始启动训练的程序对我们所使用的数据集进行训练，得出我们所需的特征图，当训练完成无误后我们通过一些程序进行本地摄像头的调用。在完成这些操作后我们即可运行程序，进行检测和识别。对于摄像头所检测到的画面，以数据流的方式传输到Python的程序中，将这些画面一个个的传送进CNN神经卷积网络中进行卷积操作，将卷积的结果送入非线性激活层，将得到的结果通过非线性函数去作非线性激活，使得到的数据结果进行处理，筛选出我们所需要的卷积值，之后将经过非线性激活层得到的结果送入池化层，在池化层中将卷积依据步长进行滑动，取出每个滑动窗口中的池化值。然后对于池化层输出的结果进行全连接，然后把结果根据概率和类别选出概率最高的类别。若得到的概率大于我们所设置的阈值，即可得到所检测的目标。5结束语由于疫情的影响，在各个场所都贴有标志佩戴口罩后进入，每个场所的入口都需要多名工作人员进行检查，不但工作压力大，而且有时会出现漏检的情况。造成人力资源的极大浪费，以及对疫情防控造成了障碍。对于上述问题，设计和实现的口罩佩戴检测系统。该系统针对于目前社会所面临的问题进行了分析，确定了本系统的功能。本系统采用YOLO模型，经过训练集训练后，只需进行启动即可运行。YOLO的多种网络使用灵活，检测速度快，操作简单，能较为完美的达到需求。系统仍存在一些不足，摄像头需连接电脑上，不能对摄像头进行远程调用，且目前并不支持多摄像调用，需进一步开发，以便适应更多的需求。参考文献[1]余阿祥,李承润,于书仪,李洪均.多注意力机制的口罩检测网络[J].南京师范大学学报(工程技术版),2021,21(01):23-29.[2]王兵,乐红霞,李文璟,张孟涵.改进YOLO轻量化网络的口罩检测算法[J].计算机工程与应用,2021,57(08):62-69.[3]张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(08):1289-1305.[4]蓝金辉,王迪,申小盼.卷积神经网络在视觉图像检测的研究进展[J].仪

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【基于YOLOv5网络模型的口罩佩戴检测系统设计7800字（论文）】

文档简介

温馨提示

最新文档

评论

【基于YOLOv5网络模型的口罩佩戴检测系统设计7800字（论文）】

文档简介

温馨提示

最新文档

评论

相关文档