【《基于目标识别算法的反无人机系统设计》17000字(论文)】_第1页
【《基于目标识别算法的反无人机系统设计》17000字(论文)】_第2页
【《基于目标识别算法的反无人机系统设计》17000字(论文)】_第3页
【《基于目标识别算法的反无人机系统设计》17000字(论文)】_第4页
【《基于目标识别算法的反无人机系统设计》17000字(论文)】_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于目标识别算法的反无人机系统设计摘要随着民用无人机的普及,违规飞行的案例越来越多,对于无人机的识别侦察的重要性愈发得到凸显。但由于工作环境、检测精度与检测速度的限制,传统反无人机检测技术不能很好的完成对无人机的检测任务。采用深度学习的检测方法由于具有检测精度高、检测速度快、原理简单、成本低、鲁棒性好等优点,已经被广泛应用于目标检测领域。本文主要依据目标检测的思想,基于卷积神经网络,研究对无人机等其他目标的识别,并利用深度学习原理对其进行改进。YOLOV4-tiny目标检测神经网络是一种简化版YOLOV4网络,具有更好的实时性。在YOLOV4-tiny目标检测算法的基础上,充分考虑了干扰物体对检测的影响,构建了鸟、风筝与无人机的训练用数据集。利用改进的k-means聚类算法从所用数据集生成新的anchorboxes,从而提升检测效率与检测精度。利用ResBlock-D模块替换掉了原始网络中的CSPBlock模块,使得模型更加的轻量快速。加入辅助残差模块,提取更多的物体特征信息,来减少检测误差,从而弥补损失掉的精度。训练基于5910张图片的训练集,最终改进模型平均检测精度可达78.7.%,检测速度可达每秒65帧,证明所采取的算法改进使得模型性能相较于未改动有了明显提升。关键词:反无人机:k-means;YOLOV4-tiny;ResBlock模块;注意力机制TOC\o"1-3"\h\u22725摘要 绪论1.1研究背景自从1978年改革开放至今,人民群众的生活水平,在我国社会经济发展的强劲动力推动之中,也在不断提高。我国无人机领域也在蓬勃发展。众所周知,无人机有着结构简略、成本低廉、灵活度高和可垂直起落等特点,同时伴随着5G、互联网技术的高速进步,社会生活的各个方面都有着无人机的身影。对国家而言,无人机不仅可以作为国防力量,同时还可以进行环境保护、资源勘察、水环境监测、农业作业、自然灾害的监测与救援、代替各行业工作人员执行高危任务等。而随着制造成本的下降和智能水平的进步,无人机也在民用方面得到了迅速推广,其在航拍、侦察、监控、搜索方面的优势也是无法比拟的,各种工作强度大而且重复度高的空中任务都可以交由无人机来进行,无人机现在已经普遍应用于各个范畴。所以,对人民大众而言,无人机也是为生活提供便利的重要工具。虽然无人机的相关科技在飞速发展,为增加国防力量、提高人民生活质量和维护社会秩序等方面做出了巨大贡献,但是,在无人机科技向前发展给人们带来巨大便利的同时,也带来了许多不良影响,要解决的问题仍然有很多。比如,相关的法律法规仍有待完善,无人机操纵者的水平参差不齐,而且有许多人非法使用无人机来侵犯公民的隐私和扰乱公共秩序,诸如扰乱民航,或者影响交通轨道上列车的正常运行,甚至还会有恐怖分子通过无人机来携带炸药从而引发安全问题,给国家安宁和社会稳定造成了威胁。无人机安全威胁可以分为两种:被动非合作式和主动非合作式。这是从无人机是否收到人为的有意识的控制这一层面所进行的分类。对于被动非合作无人机,由于通信错误容易使得无人机失控,从而带来安全威胁。这种类型的无人机对社会危害极大,因为飞行线路的不可预知,也就难以进行提前干预,等到撞击障碍物坠毁后就会造成生命财产的损失。相比于被动非合无人机,主动非合目标顾名思义是指控制者控制无人机主动地进行侵入,无人机的一系列行为举动完全是由控制者决定。相对于被动非合作无人机来说,主动非合无人机对于公共安全甚至是国防安全的危害更大[1]。因此,通过完善相关法律以形成约束,并通过无人机目标识别和捕获系统对无人机进行识别和捕获,从而遏制无人机“乱飞”“黑飞”等各种乱象、提高对无人机的监管能力尤为重要。所以,在规范无人机相关法律的同时,人们对于如何应用目标检测算法对无人机目标进行更好的识别和捕获的研究也日益增多。在众多无人机目标识别的难点问题中,算法对小目标物体识别能力以及精度与实时性等一系列性能指标在人们眼中变得越来越重要,也愈发被被科研人员所重视。根据是否在目标检测算法中应用深度学习可将其分为传统算法和基于深度学习的目标检测算法。传统算法多是一些通过滑动窗口检测或者匹配特征点的框架,虽然传统的目标检测方法在不断进步,但也存在着许多不足,如特征提取太依赖于经验,不能自适应提取特征,其灵活性和精度不够高,所提取的低层次、有针对性设计的特征也不能够很好的表达其他元素的作用。而深度学习的应用,使算法的检测精度和检测速度都获得了改善,算法内部的卷积神经网络不仅能够提取更高层、表达能力更好的特征,还能在同一个模型中对特征进行的提取和选择。但一般来说,基于深度学习的目标检测算法对小目标物体的检测性能不高且检测较慢,所以提出一种新的基于深度学习的无人机识别算法,对算法的检测速度和检测精度进行平衡并提高算法对小目标的识别能力,从而对无人机更好的监管的行动势在必行。1.2研究意义无人机目标检测和捕获的目的是从各种各样的背景中识别出无人机这类目标,并定位出无人机在图像中的位置信息,并对其进行捕获,然后将检测出的信息反馈给下一级,从而能够使有关单位和工作人员作出反应,完成危险防控等后续任务。因此,无人机目标检测是对图像高层信息理解的重要基础,并广泛应用于人民生活领域、军事国防领域和维护社会秩序领域。在人民生活领域,无人机的应用愈发广泛。在马路上和花园里就经常能看见小型无人机的身影,也许是它的主人在练习技巧,又或是可能在航拍风景等等,这已经是人们眼中习以为常的事情,也是可以给人们带来实实在在的乐趣和便利的事情。而且无人机也给我们带来了更为震撼的视觉享受。无人机还可以拍出比过去更为震撼的电影和电视画面,特别是空中镜头基本都是靠无人机来拍摄的。不仅如此,疫情期间也有相关部门选择用无人机来进行航拍监控,必要时可通过无人机直接进行喊话传递信息,规范人们行为以降低疫情传播风险。但无人机的广泛应用也给人民生活带来巨大隐患,例如因操作者水平过低或缺少法律意识而引发的安全问题时有发生,一些侵犯人们隐私、影响人们的日常生活的“黑飞”的无人机经常进入大众的视野,甚至还会有非法分子通过无人机携带危险物品来实施恐怖袭击[2]。在军事国防领域,具备自主意识、能大体分析战局并进行火力打击的无人机对于未来科技战争和无人战争上有一锤定音的杀伤效果,所以对无人机目标进行检测和捕获可以为当代的军事斗争提供重要支持。现代化武器的发展趋势是灵活性强、隐蔽性好,军事行动中,侦察和打击的重要目标就是飞行器、舰船等,所以通过基于深度学习的目标检测对无人机目标进行检测和监管意义重大。在维持社会秩序方面,无人机也起着重要作用。无人机帮助追捕逃犯:经常会看到警察使用警用无人机的新闻,使那些自认为可以逍遥法外的小偷、寄希望于与“大隐隐于市”的犯罪分子都被无人机所发现;无人机可以检测桥梁等建筑的质量以保证公众安全:无人机可以用来保证桥梁安全,过去想查看桥底,往往用望远镜和桥检车,费时费力还有许多盲区,而无人机则可以飞到桥底勘查传统手段无法到达的位置来对桥底画面进行实时传输,保证桥梁不出现质量问题;无人机守护交通与治安:无人机因可以帮忙疏散交通、快速发现事故和可以对交通环境进行实时监控的优点而在基层公安与交警单位中快速普及。虽然无人机的相关科技在飞速发展,为增加国防力量、提高人民生活质量和维护社会秩序等方面做出巨大贡献,但从全球范围内来看,无人机不遵守相关法律法规,随意飞行、胡乱飞行的案例每年都在上涨,无人机发生事故可谓是屡见不鲜。在海外关于无人机的安全事故经常发生。美国联邦航空局的最新报告中显示,从2015年中到2016年初,一共发生了接近六百起无人机事故。虽然很大一部分都是小事故,但是,该报告也披露了很多非常惊险的事情。例如,在2015年,曾有一架无人机在纽约机场上方的高空飞行,差点与客机相撞,两者仅相距20英尺远。这份报告还列出了很多无人机违规乱飞的事列,其中包括无人机靠近机场,或飞行高度超出了法律规定的限高;2017年1月,如图1.1所示,莫桑比克LAM航空公司的一架B737-700在接近Tete市时与一架无人机相撞,虽然飞机上的乘客并无大碍,但雷达罩却严重受损。图SEQ图\*ARABIC1.1B737-700受损图在我国无人机事故和危害公众安全甚至泄露军事秘密的事情也时有发生。2017年5月,黄某在白云区登山期间,因心生好奇,就利用自己携带的无人机航拍军营内的管制设施,随即被抓获,并被当场扣押了无人机以及违法拍摄的影视资料。不过好在航拍资料没有外传,未造成严重后果;如图1.2所示,2019年云南昆明,一架挂载警灯与喊话器的交警执勤用的警用无人机在执行巡逻任务的返航过程中发生坠落。随后官方在网络上对此事进行了道歉,并保证以后会加强操控者的培训以及设备的维修以杜绝类似现象的发生。图1.2事故现场图如图1.3是青岛某企业研发的无人机反制系统,目的就是为了控制无人机随便乱飞等现象。由于现在的新型无人机更加科技化,具有人脸识别、跟踪定位等功能,很可能会对人民生命财产安全造成损失。而类似的无人机反制系统,都需要对无人机目标的精准识别和跟踪,才能顺利完成后续的诱导、控制等功能,从而保障公共安全。

图1.3反无人机系统所以,在规范无人机相关法律的同时,人们对于如何应用目标检测算法对无人机目标进行更好的检测和捕获的研究也日益增多。本课题在理论研究和实践上都具有一定的创新意义,有利于实现对无人机进行高精度的识别和捕获,从而保护公民的隐私以及公共财产安全,具有一定的学术价值和应用价值。1.3国内外研究现状综述目前,非合作无人机目标探测的偏传统技术包括声、光、雷达、无线电探测等。采用单一技术的测探设备各有优缺点,无线电侦测设备对被侦测目标的配合与否要求较高,对于有意隐藏自己的目标并不有效;雷达探测设备由于先天劣势,并不能很好地对低空空域的无人机进行探测,如果低空空域存在一些不可知的干扰波段,则会影响检测效果;光电探测设备的优点是目标可视性高,直观清晰,与之前几种方式相比应用时间最长。而最近兴起的视觉检测具备原理简单、成本低廉、不易受外界环境干扰、能在环境较为复杂的场景下应用等特点,已经在工业、农业、医学等多领域取得了显著成果,未来将会是反无人机检测的主要技术。目标检测算法,以前多是一些通过滑动窗口检测或者匹配特征点的框架。而2014年的AlexNet[3]将图像分类的准度提升了很多,学者们就把视线转移到了基于深度学习的目标检测算法的训练中,涌现出了R-CNN[4]系列、YOLO[5]、SSD[6]等经典框架,这些框架相比于传统算法有着更为优良的检测性能。表1为两种算法研究现状的文献概述[7],来源于文献[7]。表中早期的文献[2-12]和近期文献[13-15]主要是针对行人检测或者面部检测等目标实例检测;文献[16-19]对基于深度学习的目标检测技术进行了较为全面的阐述、分析与整理。深度学习的使用和发展,使算法对无人机的识别,无论从快速性和准确性来说,都得到了实质性的飞跃。表SEQ表\*ARABIC1目标检测综述性文献列表

1.3.1传统算法传统算法中通常使用的特征分为方向梯度直方图[8]、尺度不变特征[9]、哈尔特征[10]三种。在图像识别中HOG特征和SVM[11]分类器的组合应用广泛。与其他算法相比,HOG能够对图形几何和光学形变都能维持优秀的不变性,并允许人有一些轻微动作,这些轻微的动作会被忽视,而不影响检测效果。该组合孙皓[12]等人在行人检测训练中中获得了极大的成功。当前也有许多新颖且优秀的行人检测算法被不断提出,HOG+SVM组合仍然有着重要的地位。SIFT[13]算法通建立检测目标间的对应关系进行检测,它所查找到的关键点是一些如边缘点和角点,一般不会受噪音和光照影响的十分突出的点,其庞大的信息量适合在大型数据库中快速准确匹配,但它计算过于复杂、速率低下。相比之下,SURF[14]则通过减少降采样过程来提高目标的检测速度,几个简单的加减运算便能完成滤波,并且通过实验证明,SURF算法的计算速度可达到SIFT算法的3倍左右,不过该算法有十分依靠主方向的选取准确度的缺陷。Haar-like特征最早是由Papageorgiou等应用于人脸表示,是一种只遍历一次图像就可以求出图像中所有区域像素和的快速算法。后Haar特征被成功应用于Viola-Jones[15]-[16]检测算法中,用以描述窗口,表明局部的明暗变化,并使用积分图的思想处理Haar特征提取时计算复杂的缺点。虽然首次实现了对人脸进行实时检测,但有着准确率一般、鲁棒性不足的缺点。可见,虽然传统的目标检测方法也在不断进步,但也存在着许多不足,主要问题是传统算法的特征提取太依赖于设计者的经验经验,不能自适应提取特征,而且其所提取的低层次、有针对性设计的特征的提取不能够很好的表达其他元素的作用,迁移到其他场景的能力差,计算过程也过于繁琐复杂。1.3.2基于深度学习的目标检测算法2014年之后,目标检测进入深度学习时代。根据检测方法的不同,大致的分为“两阶段”和“单阶段”两类检测方法。两阶段也称为two-stage,检测模型将检测任务划分成了两个阶段:第一阶段是由算法产生一系列候选区域,第二阶段是通过卷积神经网络进行候选区域的分类和定位后得到目标检测的结果。这类方法的典型模型是RCNN,FastR-CNN,FasterR-CNN等。(1)2014年,Girshick等人首次提出的一种两阶段区域卷积神经网络目标检测器R-CNN,可用来识别目标类别并对每个区域内目标的存在进行预测。RCNN在抽取每张图片上的每个候选区域并进行变换和修整后更利于神经网络读取特征,然后用SVM进行类别的识别,并产生分数。针对于候选区域有产生的重叠现象,对每个类通过计算IoU指标,采取非极大性抑制,以最高分的区域为基础,剔除掉那些重叠位置的区域。但R-CNN花费了大量时间在分类上,而且在R-CNN网络结构模型中,由于卷积神经网络的全连接层对于输入的图像尺寸有限制,所以在特征提取时无法完整保留原始图像的信息。(2)2015年,R.Girshick通过改进R-CNN和SPP-Net[17]后提出了FastR-CNN,可以在输入图像中得到建议候选区域并获取到目标特征后经过池化层得到固定大小的特征向量作为后续分类。在对卷积特征层上的各候选区域进行池化操作,得到固定维度的特征后,将最后提取的特征输入所有连接层,用Softmax进行分类,回归候选区域的位置。但是,虽然与RCNN相比,FastR-CNN的速度和精度都有了较大提高,但是仍旧没有实现端到端(end-to-end)的检测训练。(3)之后Ren等人提出了FasterR-CNN[18],它是一种有效定位目标区域的方法,按区域在特征图上进行特征索引的方式大大降低了卷积计算的时间消耗,所以速度上有了非常大的提升,并利用区域建议网络(RPN)实现了模型端到端的训练。在RPN网络生成区域候选图像块之后,通过softmax判断锚点属于前景或者背景。接着目标区池化层收集输入的特征图和候选的目标区域,再将这些信息综合分析后后进行目标区域的特征图的提取,利用目标区域特征图对目标区域的类别的类别进行计算,同时为最终获得检测框的精确位置而再次进行边界框回归。但Faster-RCNN所采用的的池化方式仍会导致之后的网络特征失去平移不变性,影响最终定位准确性,而且存在着较多的重复计算;其锚点框经过多次下采样操作的特征图对应原图一块较大的区域,所以Faster-RCNN并不具备优良的小目标检测性能。可见,虽然不断发展和改进基于区域分类的两阶段网络使得“两阶段”算法的检测精度越来越高,但是计算量较大导致其实时性较差,难以满足实际应用。因此,研究者便提出了一种基于回归目标检测方法,该方法直接利用单个卷积神经网络直接对目标进行分类和定位便可得到检测结果,虽然检测速度很快但定位精度较差。典型的单阶段检测有YOLO系列,SSD系列等。(1)YOLOv1(YouOnlyLookOnce):从R-CNN到FasterR-CNN设计者们所采用的思路一直是通过生成候选区域以提供位置信息和分类以提供类别信息来进行训练,并且已经达到较高的精度,但由于two-stage生成候选区域所耗费时间过多,其处理速度不行达不到real-time效果。Redmon等人将目标检测统一在一个卷积神经网络中提出了一种实时检测器YOLO。YOLO所选用的是较R-CNN系列更为直接的思路:在网络中输入整张图,同时把ObjectDetection的问题转化成一个Regression问题。即在读取输入图像并将图像的大小调整到固定的分辨率后,在特征提取网络中进行图像的检测,最后利用非极大值抑制(NMS)算法对检测结果进行阈值筛选后得到实验结果。但由于算法的一个网格中只预测了两个框,YOLOv1对相互靠的很近的物体,如挨在一起且中点都落在同一个格子上的物体和很小的群体检测效果并不好,而且对于同一类物体在测试图像中出现的不常见的长宽比和其他情况时的泛化能力较弱,在大小物体问题的处理上也有很大的提升空间。(2)YOLO9000:YOLO9000是Redmon等人提出的一种改进的YOLO版本。作者采用了一系列如anchor先验信息、损失函数、批标准化等不同的优化策略对原来的YOLO多目标检测框架进行了改进,在保持速度有事的同时提升了精度,而且实现了多于9000种物体的实时检测。YOLO9000选取的是类似FasterR-CNN中的anchor思想而不是如YOLOv1一般利用全连接层直接预测boundingbox的坐标,采用的是卷积和anchorboxes而不是YOLOv1中的全连接层来预测边界框。在检测模型中,YOLO9000采用的也不是418×418的输入图片,而采用的是416×416大小的图片,因为YOLO9000模型下采样的总步长为32,对于416×416大小的图片进行处理后最终得到的特征图大小才能为13×13,维度是奇数,这样特征图恰好只有一个中心位置。对于一些大物体,它们中心点往往落入图片中心位置,此时使用特征图的一个中心点去预测这些物体的边界框相对容易些。虽然在训练过程中YOLO9000可以通过改变模型的输入图片大小进行多尺度训练,在提升模型鲁棒性的同时也获得了较高的检测精度,但还是未能很好地解决小目标的问题。(3)SSD方法:2016年,针对YOLO的局限性,LiuWei等人提出了SSD算法。通过放大操作和缩小操作进行数据增强,并通过在同一个特征图上设置多个anchor以检测不同尺度的目标,但先验框设置和调试过程比较依赖经验,很容易发生对低级特征卷积层特征提取不充分的问题。而且SSD对小目标的检测效果一般,作者认为在高层并没有足够的小目标信息。(4)YOLOv3[19]:YOLOv3是目前最常用的网络模型,它提出了一个更深和更强的特征提取主干网络Darknet53,大量使用残差的跳层连接,并且为了降低池化带来的梯度负面效果,作者直接摒弃了POOLing,用conv的stride来实现降采样。在这个网络结构中,降采样是通过步长为2的卷积来实现的。实验表明,当输入图像的大小为320×320时,YOLOv3可以保证在检测准确率与SSD一致的前提下,检测速度比SSD快3倍。在类别预测方面,将原来的单标签分类替换为多标签分类来适应包含许多重叠标签的更复杂数据集;在锚框设置方面采用了对图像中的目标采用k-means聚类以生成anchor值的方法,在三个尺度上使用三种不同比例的锚框大小来预测边界框;在检测策略方面采用三个尺度融合的方式来替代两个尺度进行预测,弥补了YOLO系列一直对小目标检测率低的缺陷。而且许多研究者基于该算法做了很多改进实现了很好的速度和检测精度,并将许多代码开源,更使得其在学术界和工业界得到了十分广泛的应用。(5)YOLOv4[20]:在原有的YOLOv3的基础上,出现了YOLOv4算法,采用了近些年来CNN领域中十分优秀的优化策略,从Data处理、主干网络、模型训练、激活函数、损失函数等各个方面都有着不同程度的优化。这是一个平衡了精度和速度的算法。大的模型,在比赛中可以拥有名列前茅的成绩,但速度太慢;小模型虽然速度快,但准确率又不够高。另外,当今有很多模型因为尺寸大的原因,需要很多GPU进行并行训练,而YOLOv4可以在一块普通的GPU上完成训练,并且能兼顾实时性,所以能够在更多样化的环境中运行。此外,近几年来,许多最新的方法被应用于目标检测。可以看出,各类算法还没有很满意的小目标识别性能。而且,虽然构建深层卷积神经网络可以获得更高的目标检测精度,但计算复杂度的提高和内存占用的增加会导致检测速度大幅下降,故如何使算法具备良好的小目标识别能力以及平衡算法的精度和实时性始终是重点难点问题。1.3.3反无人机系统国内的反无人机系统研究开发刚刚起步,而从国外来讲,如图1.5DroneTracker系统是由德国的Dedrone公司开发的,是目前最著名的无人机检测系统。如图1.6是空客公司开发的一款反无人机系统。国内产品包括北斗开放实验室研制的ADS2000系统,该系统是通过模拟出一个与无人机控制信号相似的信号来获得无人机的控制权,从而对无人机进行反制[21]。图1.5DroneTracker系统图1.6反无人机系统根据不同的反制措施,目前国内的反无人机系统大体可以分为干扰阻断、毁伤抓捕和监测控制[1]三个种类。干扰阻断类反无人机系统由于体积轻便因此大多可以随身携带,并且它还具有操作简便、成本低廉的优点,但是存在对使用环境要求高的缺点。因为该种类反无人机系统基本原理是通过电磁手段干扰无人机的正常飞行,这就不可避免的会影响居民区居民的日常生活,因此在使用时应该注意避开人多地区;直接摧毁类系统优点是反制效果简单粗暴,对于充满干扰的环境,可以免去复杂的设备探测步骤,但是这类系统大多价格昂贵,使用性价比不高。在实际使用时,由于对目标直接采用火力打击,无人机坠毁后的残骸可能对地面的安全造成危害,这项危害目前普遍得不到充分考虑,因此并不适用于民用领域。此外,对于警方等执法机关来说,有时需要获取无人机中的情报,因此不能使用毁伤抓捕的方式,因为该方式会将无人机彻底摧毁。监测控制类系统一般使用的方法是电磁干扰和无线电操控,该方式首先对无人机进行定位,从而对无人机目标进行制服与捕获。但该类系统存在缺点,比如假设无人机目标自身具有智能控制系统,不需要依靠控制人员操控,而是可以实现自我控制,则该类系统无法有效对其进行打击。而基于计算机视觉的检测,具备原理简单、价格便宜、抗干扰能力强、能在较为复杂的场景下应用等特点,已经在工、农、医等多个领域取得了明显成果,未来将会是反无人机检测与捕获的主要技术手段。1.4本文研究内容及方法本文提出了一种新的轻量化网络模型结构,用于对无人机及干扰目标进行检测识别,并在服务器进行训练测试。服务器操作系统为Ubuntu操作系统,GPU为NVIDIAGTX1080TI,深度学习训练框架采用pytorch。主要工作如下:(1)先建立数据库。充足的数据是保证基于深度学习目标检测算法性能的关键。针对通用目标检测,目前存在许多开源的检测数据集,虽然在此数据集上可以检验模型的设计性能,但针对实际应用中的特定场景,需要研究者首先根据实际需求建立特定的样本数据库。(2)设计目标检测算法。在YOLOV4-tiny模型的基础上进行改进,提升模型在检测目标时的检测精度与检测速度。改进包括三方面要素,分别是使用残差模块,再在其中添加辅助残差模块,同时使用注意力机制改进性能。(3)使用改进的k-mean算法对其生成特定的anchorsbox尺寸,将YOLO模型中的默认尺寸全部替换为了样本数据库中样本所对应尺寸。(4)将数据集分为训练集、测试集、检测集,并分别使用它们对模型进行训练、测试、检测,最终记录数据与原始模型进行对比。目标检测算法原理2.1基于候选区域的目标检测算法基于候选区域的目标检测算法就是我们常说的“两步法”,该类算法检测思想是,通过不同尺寸的窗口在图像上进行滑动,并定位不同区域中的目标。判定不同区域内的目标类别并产生包围框。对利用滑动窗口产生候选区域的目标检测算法来讲,虽然输入图像可能包含多种检测目标,但一般情况下,滑动窗口所生成的包围框只有一个目标。因此,我们可以对不同窗口内的目标分别进行处理,这一思路与目标定位相像。但是,由于该方法要采用不同尺寸的滑动窗口将输入图像全部覆盖,这会使得计算量大大增加。2.1.1R-CNN目标检测算法R-CNN算法有力地增强了运用卷积神经网络进行目标检测的能力。特征提取和目标分类是卷积神经网络的两大功能,采用RegionProposal(区域建议)的方法进行目标检测。算法大致上有三个步骤:(1)生成候选区域。(2)卷积网络提取特征。(3)目标分类。2014年,R-CNN出现,对于目标检测尤其是行人检测方面相较之前得到了极大提升,但是由于检测速度不够,R-CNN并没有在目标检测领域得到大面积的普及,R-CNN存在许多缺陷,例如需要提取并存储候选区域中的图像,这会导致内存空间不足;对于传统卷积神经网络,输入的特征图尺寸要固定,而R-CNN归一化的过程会改变图像尺寸,这令CNN的特征提取变的极为困难;所生成的每一个候选区域都需要输入到特征提取网络中,从而造成许多相同的特征被重复提取,使得计算量无谓的增加。FastR-CNN对相应问题进行了改进。

2.1.2FastR-CNN目标检测算法FastR-CNN相对于R-CNN的提升主要体现在三个方面:1.检测速度得到了提升。R-CNN算法会造成候选区域的重叠,导致产生大量不必要的参数量与计算量。FastR-CNN改进了算法避免了这一问题的产生。2.训练速度得到了提升。3.更充足的训练空间。RCNN需要存储大量特征,占用大量内存。而FastR-CNN算法改进了这一问题。FastR-CNN的工作流程如下:首先选择性地搜索输入图像中的目标,在输入图像上总共产生两千到三千个候选区域。这一步骤与RCNN相同,使用的方法都是选择性搜索。具体是通过过分割的方式在输入图像上划分出不同颜色、不同纹理的区域。之后,观察这些不同区域,合并相似的区域。不断的重复,一直到图像中合并的只剩下最后一个区域。合并所遵循的原则与RCNN相同,即颜色相似、纹理相近、合并后面积最小。之后进行特征提取,类似于RCNN,是图片通过卷积层,进行卷积运算,来获得所提取的特征。经过卷积运算后,网络会输出featuremap(特征图),之后将featuremap映射回原图像,在卷积运算结束之前,使用RoI(RegionofInterest)池化层将其变为相同尺寸。而在RCNN算法中,输入特征图像之前必须要先将图片进行处理,变为固定尺寸,十分的繁琐且处理过程容易出错,还会造成一定量的特征丢失,从而影响之后的特征提取,降低检测精度。FastRCNN与RCNN不同之处在于FastRCNN可以输入任意尺寸特征图,而不是固定尺寸,而实现不同尺寸特征图的输入所依靠的正是ROI池化层。2.1.3FasterR-CNNFastR-CNN是对R-CNN的改进,而FasterR-CNN在此基础上继续优化了模型算法,检测效率进一步升高,然而与RCNN、FastR-CNN不同的是,FasterR-CNN使用GPU,通过深度神经网络来完成传统目标检测所需的各种步骤,不仅提升了检测精度,还加快了检测速度。FasterR-CNN的两个主要模块是RPN生成模块与目标检测模块。RPN候选区域网络属于全卷积神经网络,RPN与传统目标检测神经网络的主要区别是用卷积层替换了传统网络中的全连接层。FasterR-CNN首先由RPN来产生候选区域,接着所产生的候选区域被输送到主干网络中进行识别分类。检测流程大致如下:输入特征图、通过RPN产生候选区域、主干网络特征提取、分类器分类、回归器回归最终调整识别目标位置。RPN通过3×3与1×1两种不同尺寸的卷积输出两个不同的分支。其中一个分支作用是判定各包围盒是否含有识别对象,另一个分支针对不同的包围盒,输出候选区域x,y,w,h4个表示坐标的参数。先产生候选区域再输入网络进行识别的这一思想实际上与通过滑动窗口定位目标的思想相似,区别在于候选区域的产生并不是在输入图像上滑动,而是在首个卷积层的输出特征图上进行滑动。由于输出特征图具有空间较小、感受野较大的特点,即使使用小面积的滑动窗口,映射到原图上时范围也可以很大。FasterR-CNN使用了九种不同尺寸大小的锚盒,大小分别为128×128、256×256、512×512,长宽比采用1:2、2:1、1:1,其中锚盒的尺寸已经比特征图感受野的尺寸还要更大。2.2基于直接回归的目标检测算法以上提到的算法采用两步操作,虽然精度还不错,但检测速度并不理想。而基于直接回归的目标检测方法可以直接得到检测分类结果。这类方法去掉了候选区域的产生这一参数量与计算量较多的阶段,因此检测速度通常更快,可以满足一些需要具备实时性的场合的需求。由于完成检测只需要一步,因此与两步法相对应,称之为一步法。2.2.1RetinaNet目标检测算法因为分类不平衡的现象很可能发生于基于直接回归的目标检测算法,所以RetinaNet认为这种检测算法性能与基于候选区域的目标检测算法相比要差一些。提前生成候选区域可以帮助基于候选区域的算法过滤掉没有识别目标的多余区域,而由于省去了生成候选区域这一步骤,基于直接回归的算法就会产生类别不平衡的问题。因此,RetinaNet提出了焦点(focal)损失函数这一理念,是对传统的交叉熵损失函数进行了优化改进,降低不重要的背景目标在识别时所占比重,提高识别更困难的目标样例在训练中所占权重。RetinaNet依靠这一理论,使得模型检测精度可以与两步法的模型所媲美的同时,检测速度又不低于其他的一步法。2.2.2SSD目标检测算法为了节约存储,SSD在卷积特征之后,添加了一系列的卷积层,同时通过融合不同层卷积层的特征来提升对多尺度目标的检测表现。与FasterR-CNN的RPN原理类似,SSD同样使用卷积层替换了原始YOLO模型中的全连接层,这有利于SSD分类回归不同尺寸形状的锚盒。SSD的检测速度超过了YOLO,接近于FasterR-CNN的速度。研究调查证明,与其他检测算法相比,SSD算法模型检测效果与基础模型的性能如何相关性不大。2.3YOLO系列目标检测算法原理YOLO也是基于直接回归的目标检测算法的一种,属于一步法,同时也是本文改进所基于的算法。YOLO系列算法检测原理大都相似,首先为了得到固定尺寸的特征图(featuremap)(例如n×n)而采用特征提取网络提取所输入特定图像的特征,,之后,将输入图像按照得到的特征图的尺寸划分成网格形式,例如n×n个单元格,由不同单元格预测不同目标,不同的目标具体由哪个单元格预测取决于GroundTruth中目标的中心坐标落在哪个单元格(gridcell)内。不同的单元格预测不同数量的边界框(boundingbox),其中和GroundTruth的交并比数值最大的那个边界框产生最终对目标的预测。输出的特征图共有三个维度,分别是宽、高、通道数,通道数也就是常说的深度,比如B*(5+C),公式中的B代表任意一个方块所对应预测的先验框的个数,C代表先验框内目标的种类个数[22-26]。式中的数字5代表4个坐标信息和1个先验框置信度(ObjectnessScore)。YOLOv3所采用的训练方式依然是YOLO系列传统使用的的变尺度训练方式。由于卷积运算是卷积核以一定的步长(stride)在输入图像上滑动,因此当特征图通过3×3的卷积运算后,可以增加自身通道数,而进行了3×3卷积运算后的特征图再通过1×1的卷积可以压缩自身。因此我们可以发现,YOLOV3网络中存在许多3×3与1×1大小的卷积层。YOLOv3目标检测网络的完整结构如图2.1所示,其中backbone主干网络部分为Darknet-53图2.1YOLOv3网络结构YOLOV3的主干网络采用了特征提取网络Darknet-53,详细结构见图2.2。图2.2Darknet53结构图YOLOv4中,对Darknet53做了一点改进,借鉴了CSPNet,CSPNet全称是CrossStagePartialNetworks,也就是跨阶段局部网络。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题,将梯度的变化从头到尾地集成到特征图中,因此减少了模型的参数量和FLOPS数值,既保证了推理速度和准确率,也减小了网络尺寸。CSPNet就是基于Densnet的思想,复制基础层的特征映射图,通过denseblock发送副本到下一个阶段,从而将基础层的特征映射图分离出来。这样可以有效缓解梯度消失问题,支持特征传播,鼓励网络重用特征,从而减少网络参数数量。最终的CSPDarknet53结构如图2.3。

图2.3CSPDarknet53结构图而本文所改进的YOLOv4-tiny网络是简化版的YOLOv4网络,是YOLOv4的压缩版本。它是基于YOLOv4,但使网络结构更加简单,并降低参数,使之在移动和嵌入式设备的开发更为方便。使用YOLOv4-tiny,可以进行更快的训练和更快的检测。它只有两个YOLO头,而YOLOv4中有三个。并且已经从29个预训练的卷积层中进行了训练,而YOLOv4从137个预训练的卷积层中进行了训练。Yolov4-tiny使用特征金字塔网络提取不同尺度的特征图,进而提高目标检测速度,而没有使用Yolov4方法中使用的空间金字塔池和路径聚合网络。Yolov4-tiny的结构图如图2.4。

图2.4YOLOv4-tiny结构2.4本章小结本章首先对目前目标检测领域主流的检测算法进行了简单介绍,大致可以分为两类:基于候选区域的算法(两步法)与基于直接回归的算法(一步法)。本文所进行改进的YOLOv4-tiny算法就属于一步法中YOLO算法的一种变形;之后又详细介绍了YOLOv4算法及其简化算法YOLOv4-tiny的网络结构以及工作原理,并分析各自优缺点,为接下来的改进内容进行了铺垫。精度轻量化的目标检测网络模型Pytorch简介Pytorch包含自动求导系统的深度神经网络并支持动态图,是一种符合人们的逻辑想法、让用户可以尽可能地聚焦于实现自己的创意的软件。所以本课题选择该软件来进行实验和训练。3.2优化算法思想3.2.1残差模块ResBlock是构成ResNet(残差网络)的基础模块,它在深度学习的发展中发挥了很重要的作用。我们自然地希望能够通过不断加深网络来取得算法性能上的提升,但更深的网络同时也意味着更低的计算效率。一般来说,相较于浅层模型,深度模型更难以优化。ResBlock的原始研究动机就是设计特定的网络结构来解决深度模型难以优化的问题。原作者使用ResNet进行训练时,具有34层的网络的训练误差与测试误差都低于具有18层的网络。这表明ResBlock的确能有效解决深度模型优化困难的问题。因此自然地希望能通过Resblock来优化网络,从而取得算法性能上的提升。所以,为了进一步提升速度,使用ResBlock-D模块代替了部分CSPBlock模块,降低了计算的复杂度。

FPS计算:其中D为所有卷积层的和,Ml2为第l个卷积层的输出特征映射大小,Kl2为核大小的个数,CCSPBlock的FLOPs为:ResBlock-D的FLOPs为:通过计算可以得知,CSPBlock和ResBlock-D的计算复杂度比率约为10:1。这意味着ResBlock-D的计算复杂度远小于CSPBlock。因此在改进模型的时候使用ResBlock-D代替了CSPBlock模块。如图3.2。图3.2CSPBlock模块于ResBlock-D模块3.2.2注意力机制深度学习中的注意力机制可以按照人类的注意力机制进行理解。就是把注意力在各种信息上进行分配,信息的重要程度不同,所分配注意力也不同,其目的就是在众多信息中选出核心的信息。在提出CBAM(ConvolutionalBlockAttentionModule)的原论文中,作者希望可以通过使用注意机制来增加重要特征的权重并抑制不必要的特征。为了把空间和通道这两个维度上的有意义的特征更好强调出来,使学习可以在通道和空间两个维度上进行,作者已经做过了相关实验并且证明了先使用通道注意力机制然后再使用空间注意力机制这样的组合效果是比较好的,这是CBAM的通用组合模式,也是Z-NET网络所采取的的顺序。本文所选取的CBAM整体结构如图3.3所示,将一个特征先后通过通道注意力模块(ChannelAttentionModule)和空间注意力模块(SpatialAttentionModule)后得到新的特征矩阵,可以提高算法的识别精度。图3.3CBAM结构图通道注意力模块(ChannelAttentionMoudle):通道注意力模块对在进行卷积运算的过程中对信息传递的通道进行过滤优化,通过降低无效通道的权重、提高有效通道权重以增大计算的准确率。空间注意力模块(SpatialAttentionMoudle):将通道注意力模块所得到特征图通过最大池化[27]和平均池化[27],将结果拼接后经过一个7×7的卷积计算后降维为1个通道,最后生成spatialattentionfeature达到提取特征的目的。3.3模型结构虽然使用ResBlock-D模块来代替CSPBlock模块能够一定程度上提高目标检测的速度,但是它降低了目标检测的准确性。因此为了保持精度和速度的平衡,再两个相同的ResidualNetworkblocks作为辅助残差模块,并将其添加到ResBlock-D模块中以提高精度。这里辅助残差模块利用两个卷积网络提取全局特征,同时使用通道注意力和空间注意力提取更有效的特征信息。采用级联操作将第1个卷积网络的输出特征与空间注意力机制的输出特征进行组合。组合后的特征作为辅助残差模块的输出特征。如图3.4所示。图3.4辅助残差模块最后,将最终的辅助残差模块输出特征与Backbone中Residual网络的输出特征相结合,作为下一个骨干网中Residual网络的输入特征。使改进后的骨干网能够提取出检测对象的全局和局部特征,进一步提高了检测的准确性。如图3.5所示。

图3.5改进后结构综上,我们根据YOLOv4-tiny网络进行改进,构建了改进后的网络模型Z-net,如图3-6所示。我们采用ResBlock-D模块替换掉了原始网络中的CSPBlock模块,这一步操作可以提升模型的检测速度,但是会损失掉一部分精度,因此我们加入辅助残差网络模块以提取更多的物体特征信息,来减少检测误差。从而弥补损失掉的精度。

图3.6Z-net模型结构最后,输入数据集,加载Z-net模型进行训练测试。3.4检测步骤第一步:输入图像划分为n×n个方块,根据聚类算法得出的anchorsbox尺寸生成6个包围盒。第二步:输入图像进入到Z-net卷积神经网络中进行特征提取、特征融合、目标检测、目标定位、目标分类。第三步:采用非极大值抑制(NMS)方法抑制冗余锚框,并输出预测概率最高的锚盒作为最终的检测分类结果。3.5非极大值抑制算法目标检测有时会出现一种增加多余计算量情况,就是产生多余锚盒,这是由于重复预测了相同的目标。非极大值抑制[28-30]的目的是抑制其余多余锚盒的输出,而只留下最有可能的那个锚盒。对于这个问题,非极大值抑制方式提出了解决思路:首先,针对不同类别,NMS将不同锚盒对于这一类别所得到的的概率按照从高到低进行排列。其次,NMS将概率极低,关键指标,数值上等于目标预测框和真值框的交集比上它们的并集。3.6本章小结本章主要介绍了根据本课题对无人机目标识别的高精度、实时性的需求,针对YOLOV4-tiny算法所存在的不足进行的优化改进,并简要介绍了检测步骤以及非极大值抑制算法的原理。改进主要为以下三方面:1.采用ResBlock-D模块替换掉了原始网络中的CSPBlock模块。可以提升模型的检测速度,但是会损失掉一部分精度。2.加入辅助残差模块,提取更多的物体特征信息,用来减少检测误差。从而弥补损失掉的精度。3.在辅助残差模块中,同时使用通道注意力和空间注意力提取更有效的特征信息。基于Z-net的反无人机目标检测4.1课题采用技术路线拟采用的技术路线为:通过高精度神经网络的构建优化算法,降低“低慢小”目标的干扰,同时并提高算法的精度和实时性。根据研究内容实现无人机检测系统用以解决两个对应的关键问题,最终测试该系统是否满足预期性能指标,如果满足则形成最终的无人机目标识别系统,如果不满足则继续分析影响性能的关键因素直到满足性能指标为止,模型构建形式如图4.1所示。图4.1技术模型的构建目标检测的核心问题是网络模型的搭建与训练。首先数据样本库中的原始图像不能直接输入到网络中,我们需要将它们调整到任何特定的大小并使它们更清晰;然后用聚类方法代替人工选取的先验值生成预设的锚框大小并对网络训练参数进行设置;接着加载目标检测模型对网络进行初始化并根据构造损失函数进行迭代更新使损失函数收敛得到性能满足要求的目标检测的模型。具体详细的数据库的构建、模型训练和目标检测等三个部分的流程图如图4.2所示。图4.2模型构建具体详细流程图

4.2制作数据集如果要客观地验证改进网络检测效果如何,我们就需要用自己的数据集对其进行训练测试,(VOC数据集、COCO数据集)。4-1。图4.3数据集LabelImgxml4.4。图4.4lambelImg标注示意图

Labelimgx、y、w、h中心点坐标与目标框宽高),并产生一个xml文件,图片的标注信息保存在xml格式的文件中,每张图片都会生成一个相对应的xml格式文件说明如图4.5所示:图4.5xml文件格式说明4.3k-means聚类K-Means算法是广泛应用于深度学习实验。该算法原理通俗易懂,实现起来操作简便,实验效果表现优异。是一种无监督算法。对于任意数据集,K-Means算法根据各样本之间不同距离的原则,将其分类为不同的簇,簇数用K表示。其中同一个簇的样本点密集一些,而不同簇的样本点分散一些。若用公式来表示,假设K个簇分别是(C1,C2,...Ck),我们的最终目的是将平方误差E得到最小值:E=∑i=1k∑x∈Ci||x−μi||22E=∑i=1k∑x∈Ci||x−μi||22 (4.1)其中μi代表第Ci个簇的均值向量(质心),用如下公式表示:μi=1|Ci|∑x∈Cixμi=1|Ci|∑x∈Cix (4.2)由于以上公式的最小值很难直接求得,K-Means采用的启发式迭代方法进行计算,原理如图4.6,可以很形象的看出。图4.6k-means效果图上图a代表初始样本,暂且令簇数为2。在图b中,我们首先任意选择红蓝两点作为质心,紧接着求其余绿点到红蓝两点各自的距离,离哪个颜色的点更近,就将其标注为该颜色,到此为止,我们已经算是求出所有的样本在经过了一轮的迭代之后各自的类别。接下来我再对新得到的不同颜色的点求各自新的质心点,原先的红点与蓝点的位置就发生了改变,新的红点与蓝点代表两个新的质心。之后不断重复以上过程,直到形成如图f所示的分类效果。但是在实验应用中,我们通常需要多次进行试验的三、四两步,才能得到较好的分类结果。

综上,K-Means聚类算法运行步骤大致如下:1.随机选择K个聚类的初始质心;2.对于样本中的任意一个点,分别求它与质心的间隔,之后将它归类于离它最近的那个质心的类别;3.在重复以上步骤进行迭代的过程中,利用求均值或其余方法来获得各个簇新的质心;如果质心在不断重复以上过程中,位置的变化低于某个设定值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论