版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
存在地势高低错落、施工背景颜色杂乱、施工工人扎堆聚集、施工设备易遮挡工人等问题。无人机巡检时,高度往往在100~120m。在此高度获取的影像画面中,地面上的工人以及安全帽的分辨率小,目标的特征信息少,容易受到周围背景环境的干扰和机械设备的遮挡,可以将该类目标定义为小目标。根据现有小目标检测数据集中对小目标的定义分为2类,即基于相对尺度的定义与基于绝对尺度的定义。基于绝对尺度定义时,通常将像素小于32×32的目标定义为小目标,因为输入图像在神经网络中,特征张量会经过5次最大池化层,映射成向量上的一个点;基于相对尺度定义时,当目标的尺寸占比小于整幅画面的10%时,可以被认定为小目标。试验中,把像素点1920×1080像素点作为标准尺寸,将像素点尺寸小于192×108的定义为小目标。目前,在计算机视觉领域,随着深度学习的普遍应用,目标检测的精度和速度都有显著提升。当下流行的目标检测算法包括R-CNN YOLOv8等。但主流目标检测模型在利用无人机对施工工地复杂场景中人员和安全帽之类小目标进行识别时,存在大量漏检、误检的情况。此外,无人机巡检的实时画面还要同步展示在高铁长大桥梁AI识别管理平台中,需兼顾高精度(平均精度均值:mAP50≥90%)与实时性 (模型推理速度:FPS≥10f/s)的平衡,以确保画面的实时性和流畅性。因此,针对以上场景,选取目前比较先进的YOLOv8和RT-DETR参数化(RepConv)代替普通的卷积。这样的设计不仅能增强模型的(2)借助级联分组注意力模块,将完整特征的不同切分输入到的目的。(3)设计一套标准的小目标检测系统,实现了系统快速判断检(4)通过在真实场景下的试验结果表明,改进的方法既能兼顾相比,mAP50提升0.233,FPS提升9f/s。1研究现状与算法选型1.1目标检测算法研究现状学习框架的目标检测算法基本上分为2种方式:基于候选区域和基于He等对该算法进行改进,提出减少计算量而增快检测速度的Spp(SpatialPyramidRCNN系列算法由于其结构的限制,在应用于一些对识别实时性的训练和实时检测,并开创了YOLO系列的开端。此后,YOLOv2至SSD算法同样传承了YOLO系列的模型特点,引入锚点(anchor)1.2小目标检测算法选型目前的目标检测框架大致可以分为CNNbased和Transfor和RT-DETR作为2个基础网络模型。YOLOv8(YouOnlyLookOnceVersioYOLOv8采用新的无锚点(Ancher-Free)检测头,以提供更精确的目RT-DETR(Real-TimeDetectionwith端检测思想和解码器(Trans-former)的训练时长(75~80轮)和较少的数据增强(没有马赛克增强)的策略,在同等测试条件下(像素640×640)展现出更强的性能和更好1.2.3算法选型结果2小目标检测算法的优化Encoder)和带有辅助预测头的Transformer解码器组成(见图1)。AIFI一基于注意力的尺度内特征交互;S3、S4、S5网络层级逐渐加深的特征层:CCEM一基于卷积神经网络(CNN)的跨尺度特征融合模块;Fusion一特征融合:基于交并比感知的查询选择;Conv—卷积核;BN—批量归一化处理;SiLU—S型线性单元。构和性能直接影响模型的总体表现。通过改进Backbone,可以提高型在小目标密集的场景有更好的表现,利用切片辅助超推理(SAHI)切图方法通过将大图像切割成若干小块,使每个小块中小目标的相对尺寸变大,从而更容易被检测到。2.1Backbone轻量化Backbone模块即为主干网络,是模型的核心,影响着模型的速度和精度。RT-DETR的Backbone模块使用了HGNet-v2主干构见图2。输入输入dddAlFI—基于注意力的尺度内特征交互;S3、S4、S5—网络层级逐渐加深的特征层。Block用于进行初始的特征提取,随后的每个阶段都是2种操作的不同组合:(1)DWConv:深度可分离卷积模块,用于下采样(LDSLayer),为了进一步提高精度和速度,重点对HGBlock进行优化,在HGNet-v2的第2和第4阶段中,用Rep-Conv代替原有HGBlock的普使用多分支结构(3×3卷积+1×1卷积+恒等映射),以借助其良好构,以借助简单结构极致的速度。RepConv重参数化结构见图3。十+十(a)RepConv训练结构命名为Rep-HGBlock,改进后的Backbone模块见图4。阶段3阶段4阶段1阶段2图4改进后的Backbone模块相比于原先的网络,改进后的Backbone模块部分由于引入了优势,在相同数据集下,选取经典轻量化网络MobileNetV3、MobileNetV3:通过深度可分离卷积与神经架构搜索实现高效计EfficientNet-B0:基于复合缩放策略均衡网络深度、宽度与分升4.2%,验证了RepConv结构的有效性。2.2自注意力模块改进在颈部网络中,RT-DETR采用1层Transforme处理主干网络输出的S5特征,即基于注意力尺寸内特征交互 块。将二维的S5特征拉成向量,交给AIFI模块处理,其数学过程就是多头自注意力与前馈神经网络。再将输出调整回二维,记作F5,以便去完成后续的“跨尺度特征融合”,详细见原文。整个级联分组注意力模块见图5。头部2K令牌交互连接与投影输出头部n令牌交互头部1图5整个级联分组注意力模块如图5所示,每个头部的输出都会添加到后续头部中,逐步优化特征表示。级联设计具有2个优势:将不同的特征切分输入到每个头部可以提高注意力图的多样性。级联注意力头允许增加网络的深度,从而进一步提高模型的容量,而不引入任何额外的参数。每个头部中的注意力图计算使用了更小的Q、K通道维度,因此只会带来轻微的延迟开销。借助级联分组注意力模块,使得模型在保证轻量化的同时,更加关注目标的重点信息,忽略无关信息。在COCO小目标子集上,对比提升注意力多样性并减少计算冗余。注意力机制对比见表1。表1注意力机制对比参数量/(10⁶个)无注意力级联分组注意力提升2.8%,优于主流注意力方法,更适合小目标密集场景。2.3基于SAHI切图的数据增强方法行尝试,这也属于数据增强的一种方法(见图6)。质网大小[PPPPPP5一预训练数据集中图像;其切图的处理过程分为训练阶段和推理阶段2部分。如图6(a)所示,在训练阶段SAHI算法在微调过程中从数据集中抽取片段(patch)以扩充数据集。每张图片都会被切割成重叠的片段。接下来,在微调过程中,通过保持纵横比来调整片段的大小,使得图片的宽度介于像素800~1333,从而得到扩充后的图片,这样相对于原图,对象的大小变得更大。在微调过程中,将会利用这些扩充后的图片和原始图片以方便大对象的检测。如图6(b)所示,在推理阶段,图像被细分为多个小的子区域,并将这些区域调整大小后输入模型以进行预测。通过非极大值抑制 (NMS),预测结果被映射回初始图像坐标。值得注意的是,它还可纳入来自原始图像的预测数据。在进行推理时,同样使用了图像切割技术。原图被分为多个重叠的patch。保持宽高比的同时调整每个部分的尺寸,并对它们进行单独预测。原图的预测结果也被纳入,有助于探测更大的目标。最终运用NMS合并重复的预测和原图的推理结果,并将其调整回原始尺寸。利用SAHI数据增强后的YOLOv8模型在实测中的表现(见图7),可以看到经过SAHI增强之后,训练出的模型检测率得到很大提升。时发现,其推理速度仅能达到0.77f/s,距离期望的最小推理速度2f/s仍有不小差距,并且由于在训练时对原始图片的切图会一定程而针对SAHI主要的2个问题,在试验中得出对应的优化方案。2.3.1对SAHI检测大目标时存在重识别问题的优化(1)从之前用SAHI训练的模型中获取层。(2)冻结这些层,以避免在后续训练轮次中破坏它们包含的任何信息。(3)在已冻结层的顶部添加一些新的可训练层。这些层会学习(4)在带有所有标签(label)的数据集上训练新层(不使用征图来实现对大目标的检测而有效减少重识别的概率(2个物体非常接近,落在特征图的同1个单元中,那么模型在训练过程中就会预测特征图检测到,在这种情况下,2个物体不会共用1个单元)。3小目标检测系统的设计与实现3.1检测模式与数据结构即Predict+Track,其中Track选用了BotSort多目标跟踪模型。因用流模式(stream)处理方式。使用流模式处理的好处就是,可以在每1帧都生成1个节省内存的结果(Results)对象生成器,便于对大的可能性。在处理视频流时,模型会逐帧返回1个Results对象,Results包含的部分参数见图8。plot绘制图8中,orig_img是视频数据的某1帧原图,可以对其进行二(1)conf:某1帧所有检测框的置信度集合;(2)cls:某1帧所有检测框对应的类别;(3)id:每个检测框对应的编号;(4)xyxy/xywh:个数据来进行。3.2检测和预警逻辑设计工地上小目标检测的最终目的是为了保证人员安全和现场秩序。报,从而起到工地指挥官的作用。检测和预警流程见图9。是否否否是当前帧id集合是否为空?是是否检测出异常情况?是图9检测和预警流程值,只有超过了该阈值才能进行1次预警。但是尽管有些帧检测出了3.3定位异常情况从图9中可知,对于异常情况的判断通常是根据Re-sults返回当获取到boxes之后,接下来就主要针对人类和安全帽类的检测框,进行交并比(IoU)的计算,若person框与所有的helmet框IoU值均为0,则可以断定该工人未戴安全帽。详细见原文。小目标无人机航拍实时检测见图10。可以看到,在定位到违规情况后,通过二次绘制,系统赋予未戴安全帽的工人特别的标签“personwithouthelmet”,并被着重标记出,保存入数据库。图10无人机航拍实时检测3.4无人机端-云协同系统架构端-云协同无人机巡检图像传输系统见图11。图11端-云协同无人机巡检图像传输系统获取数据,数据将以实时视频流的形式通过大疆上云接口(API)传法进行实时视频流分析,推理结果上传至云平台,以在网页端的无人机智能巡检系统中展示。4试验结果与应用4.1数据集在Win系统的GPU上进行训练,使用开源的py-thon开发工具Anaconda。使用的数据集是由从6段不同的工地无人机拍摄视频中所截取的1911张图片构成,训练集、验证集、测试集的比例为8:1:对于数据集的标注,初步将类别分为9类,包括人、安全帽、救生衣以及各种重载车辆,对不同大小目标的标注见图12。图12对不同大小目标的标注试验中,把1920×1080像素点作为标准尺寸,将像素点尺寸小于192×108的定义为小目标。根据工地实际情况,选取数据集中无人机在次计算它们的平均像素宽高占比(见表3)。表3各类目标的宽高占比类别宽占比高占比是否√安全帽√√××××××不同类别目标的数量占比见图13。据图可知,人、安全帽等小目标的占比达到了将近70%。而大型重载车辆由于特征明显,较容易图13不同类别目标数量占比4.2对比试验试验分为2组,一组是在原始的工地数据集上进行训练,另一组验的思想,将不同的改进模型与基线模型(baseline)进行对别为:(1)未改进的YO-LOv8;(2)未改进的RT-DETR;(3)进行力模块改进的RT-DETR(RT-DETR-2);(5)综合3和4这2种改进均为4,图像尺寸(imgsize)均为1280×1280,2组训练模型的数据对比见原文。4.3模型训练采用迁移学习的方法,选用YOLOv8-1和RT-DE-TR-1作为预训练模型。由于是初次训练,主要目的是分析2种网络的优缺性,因此暂时未对网络结构做任何修改。详细见原文。从3个方面分析训练得到的4个模型。详细见原文。4.5初次试验总结在Precision、Recall、mAP50这3个指标以及实测效果上,RT-DETR-1(img_size为1280×1280)的表现最佳。另外,在初次试验中发现,RTDETR的收敛速度相对更快,在100轮次以内就能达到最优,然而其计算量相对较大,推理速度也不如YO-LOv8-1。因此主要对RT-DETR模型的网络结构进行优化,优化的目的主要在于2点:一是进一步提高小目标检测率;二是减少参数量和计算量,加快推理速度。4.6结果分析由以上2组对比试验可知,2种针对RT-DETR网络结构的改进方法能有效提升模型的检测精度和检测速度,采用SAHI方式的数据增强尽管能进一步提升智能检测准确率(无论是从训练数据还是实测观察的角度来看),但会牺牲一定的检测速度。但SAH
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 46841-2025资产管理数字化参考架构
- 75个樱桃番茄杂交组合的综合评价
- 2025年中职眼镜验光(眼镜验光实操)试题及答案
- 高职第三学年(商务管理)企业运营管理2026年综合测试题及答案
- 2025年高职工程造价(工程结算编制)试题及答案
- 2025年大学畜牧业机械安装(畜牧业机械安装)试题及答案
- 2025-2026年高二化学(有机合成)上学期期末检测卷
- 2025年大学第二学年(口腔医学)口腔颌面影像学综合测试试题及答案
- 2026年医学检验(医学检验)综合测试题及答案
- 大学(文化产业管理)文化项目策划2026年综合测试题
- 数学-吉林省2026届高三九校11月联合模拟考
- 行政管理毕业论文(乡镇行政管理)
- 酒店成本控制知识培训课件
- 透析中肌肉痉挛的课件
- 汽车充电站生产安全事故检查清单-附依据
- 厂里吸烟安全培训
- 化工安全知识培训竞赛课件
- 人际传播教程 课件 第6周 建构主义与信息生成理论
- DBJT15-101-2022 建筑结构荷载规范
- 四川佰思格新材料科技有限公司钠离子电池硬碳负极材料生产项目环评报告
- 2025冷冻食品运输合同(肉类)
评论
0/150
提交评论