基于无人机航拍的高铁长大桥梁施工场景小目标智能检测方法

上传人：共*** IP属地：河北上传时间：2025-11-04 格式：DOCX 页数：30 大小：919.74KB 积分：10.8 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

存在地势高低错落、施工背景颜色杂乱、施工工人扎堆聚集、施工设备易遮挡工人等问题。无人机巡检时，高度往往在100~120m。在此高度获取的影像画面中，地面上的工人以及安全帽的分辨率小，目标的特征信息少，容易受到周围背景环境的干扰和机械设备的遮挡，可以将该类目标定义为小目标。根据现有小目标检测数据集中对小目标的定义分为2类，即基于相对尺度的定义与基于绝对尺度的定义。基于绝对尺度定义时，通常将像素小于32×32的目标定义为小目标，因为输入图像在神经网络中，特征张量会经过5次最大池化层，映射成向量上的一个点；基于相对尺度定义时，当目标的尺寸占比小于整幅画面的10%时，可以被认定为小目标。试验中，把像素点1920×1080像素点作为标准尺寸，将像素点尺寸小于192×108的定义为小目标。目前，在计算机视觉领域，随着深度学习的普遍应用，目标检测的精度和速度都有显著提升。当下流行的目标检测算法包括R-CNN YOLOv8等。但主流目标检测模型在利用无人机对施工工地复杂场景中人员和安全帽之类小目标进行识别时，存在大量漏检、误检的情况。此外，无人机巡检的实时画面还要同步展示在高铁长大桥梁AI识别管理平台中，需兼顾高精度(平均精度均值：mAP50≥90%)与实时性 (模型推理速度：FPS≥10f/s)的平衡，以确保画面的实时性和流畅性。因此，针对以上场景，选取目前比较先进的YOLOv8和RT-DETR模型为基础模型，在此基础上展开研究，以改进算法。在算法研究方面的主要贡献有：(1)针对RT-DETR模型在高铁长大桥梁复杂施工场景中对小目标检测速度难以满足实时推理需求的问题，提出基于RT-DETR模型的改进算法。为了提高模型的特征表示能力，改进方法通过引入模型重参数化(RepConv)代替普通的卷积。这样的设计不仅能增强模型的检测性能，还能构建一个更加鲁棒性的模型。(2)借助级联分组注意力模块，将完整特征的不同切分输入到不同的注意力头部，从而达到既节省计算成本，又提高注意力多样性(3)设计一套标准的小目标检测系统，实现了系统快速判断检测异常情况、检测到之后实施警报，从而起到工地指挥官的作用。(4)通过在真实场景下的试验结果表明，改进的方法既能兼顾实时性，又能提升小目标检测的性能。与最近的先进方法(YOLOv8)1研究现状与算法选型1.1目标检测算法研究现状目前，深度学习是计算机视觉等人工智能算法的主流，基于深度学习框架的目标检测算法基本上分为2种方式：基于候选区域和基于回归方式。前者的代表算法有R-CNN、Fast-RCNN、Faster-RCNN等。R-CNN算法率先使用卷积网络，但由于其训练步骤间断且训练时间长，He等对该算法进行改进，提出减少计算量而增快检测速度的Spp(SpatialPyramidPooling)-Net网络。随后，Girshick等结合种算法通过对先进算法的进一步改进，有效缓解了小目标检测的性能，且提升了检测效率。RCNN系列算法由于其结构的限制，在应用于一些对识别实时性要求较高的场景时，往往难以达到预想的效果。因此，基于回归的目标检测算法便应运而生。这种方法利用回归思想预测目标的类别和位置，以达到减少计算量从而节约时间成本的目的。基于回归的代表算的训练和实时检测，并开创了YOLO系列的开端。此后，YOLOv2至YOLOv5陆续被提出，后续的算法均在之前算法的基础上，向着网络结构更轻量化，目标检测精度更高的方向改进，随着超分辨率系列算SSD算法同样传承了YOLO系列的模型特点，引入锚点(anchor)机制，利用多层级特征图预测目标的类别和位置。但SSD算法也存在局限性：卷积神经网络在结构上存在固有问题，那就是高层网络感受野比较大，语义信息表征能力强，但是分辨率低，几何细节信息表征能力弱；底层网络感受野比较小，几何细节信息表征能力强，虽然分辨率高，但语义信息表征能力弱。1.2小目标检测算法选型目前的目标检测框架大致可以分为CNNbased和Transformer和RT-DETR作为2个基础网络模型。YOLOv8采用新的无锚点(Ancher-Free)检测头，以提供更精确的目RT-DETR(Real-TimeDetectionwith端检测思想和解码器(Trans-former)的优点，旨在的训练时长(75~80轮)和较少的数据增强(没有马赛克增强)的策略，在同等测试条件下(像素640×640)展现出更强的性能和更好1.2.3算法选型结果当下主流的目标检测框架YOLOv8和RT-DETR都能够在非垂直领域的目标检测场景中有较好表现，但以无人机视角识别极小目标时，原始框架仍存在大量漏检、误检的情况。此外，为了在确保推理准确率的同时，还要求较高的推理速度，选取更为轻量的RT-DETR为基础模型，在此基础上结合高铁长大桥梁无人机航拍小目标检测任务展开算法优化研究。2小目标检测算法的优化RT-DETR网络由主干网络(Backbone)、混合编码器(HybridEncoder)和带有辅助预测头的Transformer解码器组成(见图1)。AIFI一基于注意力的尺度内特征交互；CCEM一基于卷积神经网络(CNN)的跨尺度特征融合模块；基于交并比感知的查询选择；Conv—卷积核：BN一批量归一化处理；SiLU—S型线性单元。RT-DETR的Backbone模块即主干网络是特征提取的基础，其结构和性能直接影响模型的总体表现。通过改进Backbone,可以提高网络对图像细节和小目标特征的捕捉能力；在Encoder模块中加入自注意力模块，能够有效地减少在特征提取过程中可能出现的信息丢失，特别是在处理复杂场景和小目标时，这种机制显得尤为重要；为了模型在小目标密集的场景有更好的表现，利用切片辅助超推理(SAHI)切图方法通过将大图像切割成若干小块，使每个小块中小目标的相对尺寸变大，从而更容易被检测到。2.1Backbone轻量化Backbone模块即为主干网络，是模型的核心，影响着模型的速度和精度。RT-DETR的Backbone模块使用了HGNet-v2主干网络，其基本结构见图2。输入输入ddAIFI—基于注意力的尺度内特征交互；S3、S4、S5—网络层级逐渐加深的特征层。同组合：(1)DWConv:深度可分离卷积模块，用于下采样(LDSLayer),HGNet模块，其中第3阶段的HGBlock会启用轻量化(light)和捷然而原HGBlock内采用的是普通的卷积(Conv)模为了进一步提高精度和速度，重点对HGBlock进行优化，在HGNet-v2的第2和第4阶段中，用Rep-Conv代替原有HGBlock的普使用多分支结构(3×3卷积+1×1卷积+恒等映射),以借助其良好(b)RepConv推理结构十+十图3RepConv结构阶段3阶段1阶段2图4改进后的Backbone模块的HGNet网络命名为Mobile-HGNet,为验证MobileHGNet的轻量化优势，在相同数据集下，选取经典轻量化网络MobileNetV3、MobileNetV3:通过深度可分离卷积与神经架构搜索实现高效计EfficientNet-B0:基于复合缩放策略均衡网络深度、宽度与分升4.2%,验证了RepConv结构的有效性。2.2自注意力模块改进在颈部网络中，RT-DETR采用1层Transforme处理主干网络输出的S5特征，即基于注意力尺寸内特征交互块。将二维的S5特征拉成向量，交给AIFI模块处理，是多头自注意力与前馈神经网络。再将输出调整回二维，记作F5,以便去完成后续的“跨尺度特征融合”,详细见原文。整个级联分组注意力模块见图5。头部2K令牌交互连接与投影输出令牌交互头部1图5整个级联分组注意力模块如图5所示，每个头部的输出都会添加到后续头部中，逐步优化特征表示。级联设计具有2个优势：将不同的特征切分输入到每个头部可以提高注意力图的多样性。级联注意力头允许增加网络的深度，从而进一步提高模型的容量，而不引入任何额外的参数。每个头部中的注意力图计算使用了更小的Q、K通道维度，因此只会带来轻微的延迟开销。借助级联分组注意力模块，使得模型在保证轻量化的同时，更加关注目标的重点信息，忽略无关信息。在COCO小目标子集上，对比提升注意力多样性并减少计算冗余。注意力机制对比见表1。表1注意力机制对比参数量/(10⁶个)无注意力级联分组注意力提升2.8%,优于主流注意力方法，更适合小目标密集场景。2.3基于SAHI切图的数据增强方法行尝试，这也属于数据增强的一种方法(见图6)。预u5楼起PP其切图的处理过程分为训练阶段和推理阶段2部分。如图6(a)所示，在训练阶段SAHI算法在微调过程中从数据集中抽取片段(patch)以扩充数据集。每张图片都会被切割成重叠的片段。接下来，在微调过程中，通过保持纵横比来调整片段的大小，使得图片的宽度介于像素800~1333,从而得到扩充后的图片，这样相对于原图，对象的大小变得更大。在微调过程中，将会利用这些扩充后的图片和原始图片以方便大对象的检测。如图6(b)所示，在推理阶段，图像被细分为多个小的子区域，并将这些区域调整大小后输入模型以进行预测。通过非极大值抑制 (NMS),预测结果被映射回初始图像坐标。值得注意的是，它还可纳入来自原始图像的预测数据。在进行推理时，同样使用了图像切割技术。原图被分为多个重叠的patch。保持宽高比的同时调整每个部分的尺寸，并对它们进行单独预测。原图的预测结果也被纳入，有助于探测更大的目标。最终运用NMS合并重复的预测和原图的推理结果，并将其调整回原始尺寸。利用SAHI数据增强后的YOLOv8模型在实测中的表现(见图7),可以看到经过SAHI增强之后，训练出的模型检测率得到很大提升。时发现，其推理速度仅能达到0.77f/s,距离期望的最小推理速度2f/s仍有不小差距，并且由于在训练时对原始图片的切图会一定程而针对SAHI主要的2个问题，在试验中得出对应的优化方案。2.3.1对SAHI检测大目标时存在重识别问题的优化(1)从之前用SAHI训练的模型中获取层。(2)冻结这些层，以避免在后续训练轮次中破坏它们包含的任(3)在已冻结层的顶部添加一些新的可训练层。这些层会学习将旧特征转换为对新数据集的预测。(4)在带有所有标签(label)的数据集上训练新层(不使用这样既能保留SAHI对小目标检测的提升，又能通过更精细的特征图来实现对大目标的检测而有效减少重识别的概率(2个物体非常接近，落在特征图的同1个单元中，那么模型在训练过程中就会预测较大的物体，在多尺度方法中，较小的邻近物体可能会被更细粒度的特征图检测到，在这种情况下，2个物体不会共用1个单元)。2.3.2对SAHI检测速度过慢的优化通过仅在训练阶段使用SAHI算法进行切割，而在推理阶段不进行任何处理的方式来增大推理速度，这在使用SAHI切割大小与训练时参数大小相同时格外有用，可以有效减少大图在训练时的压缩损失，也可以减少推理模块因帧切割推理后再合并而占用的较多时间。3小目标检测系统的设计与实现3.1检测模式与数据结构无论是使用YOLOv8还是RT-DETR模型，都采用预测+追踪的模式，即Predict+Track,其中Track选用了BotSort多目标跟踪模型。因为本模型最终要用到无人机实拍视频的检测上，所以追踪阶段一律采用流模式(stream)处理方式。使用流模式处理的好处就是，可以在每1帧都生成1个节省内存的结果(Results)对象生成器，便于对大的可能性。在处理视频流时，模型会逐帧返回1个Results对象，Results包含的部分参数见图8。用于plot绘制图8中，orig_img是视频数据的某1帧原图，可以对其进行二(1)conf:某1帧所有检测框的置信度集合；(2)cls:某1帧所个数据来进行。3.2检测和预警逻辑设计报，从而起到工地指挥官的作用。检测和预警流程见图9。是否否否fpermitAlarm=True?是否检测出是当前帧id集合是开始异是图9检测和预警流程值，只有超过了该阈值才能进行1次预警。但是尽管有些帧检测出了3.3定位异常情况从图9中可知，对于异常情况的判断通常是根据Re-sults返回进行交并比(IoU)的计算，若person框与所有的helmet框IoU值均为0,则可以断定该工人未戴安全帽。详细见原文。小目标无人机航拍实时检测见图10。可以看到，在定位到违规情况后，通过二次绘制，系统赋予未戴安全帽的工人特别的标签“personwithouthelmet”,并被着重标记出，保存入数据库。图10无人机航拍实时检测3.4无人机端-云协同系统架构端-云协同无人机巡检图像传输系统见图11。图11端-云协同无人机巡检图像传输系统获取数据，数据将以实时视频流的形式通过大疆上云接口(API)传法进行实时视频流分析，推理结果上传至云平台，以在网页端的无人机智能巡检系统中展示。4试验结果与应用4.1数据集在Win系统的GPU上进行训练，使用开源的py-thon开发工具Anaconda。使用的数据集是由从6段不同的工地无人机拍摄视频中所截取的1911张图片构成，训练集、验证集、测试集的比例为8:1:对于数据集的标注，初步将类别分为9类，包括人、安全帽、救生衣以及各种重载车辆，对不同大小目标的标注见图12。图12对不同大小目标的标注当目标的尺寸占比小于整幅画面的1%时，可以被认定为小目标。试验中，把1920×1080像素点作为标准尺寸，将像素点尺寸小于192×108的定义为小目标。根据工地实际情况，选取数据集中无人机在100~120m高空，以45°~75°的倾斜角拍摄的不同目标的画面，并依次计算它们的平均像素宽高占比(见表3)。表3各类目标的宽高占比类别平均平均宽度/像素高度/像素宽占比高占比是否是小目标人安全帽√救生衣√卡车××汽车吊轨×履带吊轨×旋挖钻机×水泥车×不同类别目标的数量占比见图13。据图可知，人、安全帽等小目标的占比达到了将近70%。而大型重载车辆由于特征明显，较容易识别，主要的工作在于对人、安全帽等小目标的识别。图13不同类别目标数量占比4.2对比试验试验分为2组，一组是在原始的工地数据集上进行训练，另一组验的思想，将不同的改进模型与基线模型(baselin别为：(1)未改进的YO-LOv8;(2)未改进的RT-DETR;(3)进行力模块改进的RT-DETR(RT-DETR-2);(5)综合3和4这2种改进均为4,图像尺寸(imgsize)均为1280×1280,2组训练模型的数据对比见原文。4.3模型训练采用迁移学习的方法，选用YOLOv8-1和RT-DE-TR-1作为预训练模型。由于是初次训练，主要目的是分析2种网络的优缺性，因此暂时未对网络结构做任何修改。详细见原文。4.4初次实验结果分析从3个方面分析训练得到的4个模型。详细见原文。4.5初次试验总结RT-DETR-1(img_size为1280×1280)的表现最佳。另外，在初次试验中发现，RTDETR的收敛速度相对更快，在100轮次以内就能达到最优，然而其计算量相对较大，推理速度也不如YO-LOv8-1。因此主要对RT-DETR模型的网络结构进行优化，优化的目

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于无人机航拍的高铁长大桥梁施工场景小目标智能检测方法

文档简介

温馨提示

最新文档

评论

基于无人机航拍的高铁长大桥梁施工场景小目标智能检测方法

文档简介

温馨提示

最新文档

评论

相关文档