【《基于感受野模块的目标检测算法分析案例》6900字】

上传人：E*** IP属地：湖北上传时间：2026-03-25 格式：DOCX 页数：14 大小：1.08MB 积分：15 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于感受野模块的目标检测算法分析案例目录TOC\o"1-3"\h\u7142基于感受野模块的目标检测算法分析案例 1134081.1感受野模块原理 225791.2参考的网络结构 451881.2.1FasterR-CNN 5229811.2.2SSD 728651.2.3FPN 998751.3基于感受野模块的目标检测算法 10259041.4实验及分析 15225251.4.1实验数据集 1543091.4.2实验环境与参数设置 1569121.4.3实验及结果 16本章通过所提的算法解决了目前小目标的检测效果差的问题，在目标检测领域中，通常将尺寸小于32×32像素的目标或者在原图像数据比例小于0.1的目标认定是小目标。由于卷积神经网络的步深大都大于32像素，因此对小目标的检测是目标检测领域中的难点。本章采用了一种新的检测结构改进了特征提取的方式，通过感受野模块改进了RefineDet算法，使用多尺度特征以及特征融合操作，解决了小目标特征经过多次卷积特征消失的问题，进而提升对小目标的检测效果。1.1感受野模块原理为了提升算法的检测效果，只是加深算法的层数，会使得模型越来越繁重，较合理的方案是使用人工设计机制来获得更好的特征表示。根据神经科学的研究发现，在人类视觉皮层中，人类视觉感受野的大小与视网膜中的离心率有着线性函数关系，左图中展示了人类视觉系统的感受野大小随着离心率的增大而增大，右图中展示了基于不同参数下左图中对应感受野的空间矩阵。感受野和离心率关系[39]如图1.1所示。图1.1人类视觉感受野和离心率关系图Fig.1.1ThediagramofhumanvisualReceptiveFieldandEccentricity通过该图可以看出靠近中心区域在识别物体时具有更高的比重和作用，且大脑对于小空间变化具有不敏感性，基于人类视觉感受野与离心率的关系提出的感受野模块，利用不同尺寸下的感受野对应的不同卷积核的多尺寸分支，并使用膨胀卷积层控制离心率，通过以上这种方式设计出的感受野模块，可以提取出多尺度的特征，提升了对小目标的检测效果，进而提高了算法的检测精度。感受野模块通过将多种不同分支的卷积核（其中包括1×1卷积核，3×3卷积核以及5×5的卷积核）和膨胀卷积层来构建。在该结构中将多个不同尺寸的卷积核视为不同大小的感受野，使用膨胀卷积层中对不同的感受野设置不同的离心率，来模拟了人类视觉系统中感受野与离心率间的关系，再使用1×1卷积变换对所有分支进行合并，生成最终的空间矩阵，该空间矩阵包含了多个分支的特征图提取到的特征，集成了不同尺度的区域特征，得以使算法获得更优的检测精度，同时由于该模块的低耦合高内聚的特性，可以作为一种通用模块，用于大部分网络中。感受野模块模块的卷积过程如图1.2所示。图1.2感受野模块处理过程图Fig.1.2ThediagramofReceptiveFieldBlockprocessingprocess1.2参考的网络结构在基于深度学习的目标检测领域中，目标检测算法可以分为两类：一类是一阶段的目标检测算法，另一类是二阶段的目标检测算法。本章算法为了在保证检测速度基础上提升检测准确度，参考了二阶段目标检测算法的FasterR-CNN以及一阶段的目标检测算法SSD。1.2.1FasterR-CNNFasterR-CNN算法是何凯明在2015年提出的目标检测算法。在FasterR-CNN提出之前，还有一些相关算法。首先是2013年Ross提出的R-CNN算法，该算法在经典的AlexNet网络结构上使用了选择性搜索算法（SelectiveSearch）选取候选区域。之后的SPP-Net算法提出了空间金字塔池化（SpatialPyramidPooling）的方法解决了R-CNN输入的候选区大小不同的问题。FastR-CNN使用了兴趣区域池化层将获取到的特征划分为单一尺度，替代了SPP-Net中的空间金字塔池化层，简化了训练方式。除此之外，还利用Softmax损失函数和SmoothL1损失函数进行联合训练，即将目标分类功能和目标边框回归功能融合到一起，提高了模块的内聚性。在FasterR-CNN算法之前，尽管在候选区域选取的步骤上有了巨大的改进，但由于生成大量的候选区且没有对这些区域进行筛选，会导致正负样本不均衡，影响算法检测效果。因此FasterR-CNN提出了一种新的网络即区域生成网络（RegionProposalNetwork，RPN）。RPN使用一个全卷积网络实现，可以通过该网络共享整幅图像的卷积特征，降低生成候选区的代价。当经过FasterR-CNN的13层卷积层、激活函数以及4层池化层处理后会获得特征图，再将该特征图输入给区域生成网络，该网络结构包含3×3的卷积层和Relu激活函数，以及两个1×1卷积层的分支，通过上层的分支对目标进行分类，通过下层分支计算相对于原图坐标的偏移量。候选区域生成网络的结构如图1.3所示。图1.3候选区域生成网络结构Fig.1.3ThediagramofRegionProposalNetworkstructure候选区域生成网络通过3×3的卷积层处理所获得的特征图，然后通过不同的分支执行1×1的卷积操作，通过上面的1×1的卷积层判断目标是物体还是背景，为了实现该目标，使用了非极大值抑制（NonMaximumSuppression，NMS）的方法[40]，同时使用先验知识设定IoU阈值为0.7，经过比较仅保留不低于IoU的局部最大分数，经过筛选留下2000个左右的候选框，首先根据分类器的类别分类概率进行排序，再按概率顺序使用极大值抑制方法选取其中的前K个传递给后续网络，第二个分支计算了针对原锚框与真实边界框的映射关系，通过平移和缩放等一系列的线性变换并进行回归计算，将得到每一个候选区域的锚框偏移量，通过偏移量的调整可获得精确的锚框，之后使用NMS，获取前N个锚框，作为候选区域，输出给兴趣区域池化层。候选区域网络的处理过程如图1.4所示。图1.4候选区域生成网络处理过程图Fig.1.4ThediagramofRegionProposalNetworkprocess图1.4使用了3×3大小的锚框执行的滑窗法，该方式也可以看做是对特征图执行了一次3×3的卷积操作，最后得到了一个256维的H×W向量，一维对应的是其中的一个向量，通过对每个特征向量执行两次全连接操作。会获得2个分数以及4个坐标，因为需要对每个向量执行全连接操作，最终获得2×H×W个分数和一个4×H×W大小的特征图。非极大值抑制方法是二阶段类目标检测算法中，对目标定位过程使用较广泛的方法。在目标定位的过程中，有很多方法可以生产大量的候选区域，比如滑窗法或选择性搜索算法，之后要使用非极大抑制方法根据置信度进行计算，选取最可能包含目标的区域进行后续检测。通过这种处理，使得FasterR-CNN检测效果有了更大的提升。1.2.2SSD尽管二阶段类的检测算法FastR-CNN以及FasterR-CNN已经实现了较高的准确度，但检测速度还存在一定问题。而一阶段的Yolo算法虽然检测速度较快，但由于每个网格仅能检测一个物体，容易遗漏对目标的检测，为了解决以上问题，SSD算法进行了优化。SSD模型分为SSD300以及SSD512，对应不同尺寸的图像。SSD300指处理图像的尺寸为300×300，SSD512指处理图像的尺寸为512×512，在特征提取部分使用了VGG16的卷积层，并将VGG16中两个全连接层转换成普通的卷积层，在之后拼接了多个卷积层，最后使用一个全局平均池化将结果变成1×1的输出。SSD设计有3个重要的特点，第一在检测时采用了多尺度特征图，第二设置了一些默认先验框，第三对不同的特征图进行卷积提取结果。SSD为了提高识别的准确度，用大特征图检测小目标，并用小的特征图检测大目标，通过这种多尺度的方式提升对不同大小的目标检测。同时对每个单元设置了多个先验框，来减少训练难度。对先验框的设置规则是：先验框尺度与特征图的大小成反比[41]，具体公式如下：s(1.1)其中smin代表最底层的尺度，smax代表最高层的尺度，w(1.2)h(1.3)在上述公式中使用到了ar，ar表示的是先验框的纵横比，有五种取值，即arS(1.4)SSD算法的损失函数包含分类和回归两部分，如下所示：L(x,c,l,g)=(1.5)其中x表示对应类别中第i个先验框与与真实框的交并比系数，对于不匹配的情况下，交并比默认为0，c表示分类的置信值，l表示预测框的参数，g表示真实框的参数，N表示匹配值大于0.5的先验框的个数，𝛼表示权重项，默认为1，可根据不同的处理问题进行调整，Lconf表示用于分类的Softmax损失函数，1.2.3FPNFasterR-CNN经常出现小目标识别不准确的问题，是因为算法中最后一层使用了兴趣区域池化层。这种处理方式适更适用小目标，因为当卷积池化到最后一层时，小目标已经没有实际的语义信息了，为了更好地检测小目标，提出了特征金字塔网络（FeaturePyramidNetwork，FPN）。在目标检测应用中，有4种利用特征的形式，第一种将图像划分成不同的大小，然后针对不同大小的图像提取出不同的特征。第二种对单层特征图进行卷积，仅使用网络最后一层提取出特征图。第三种利用卷积神经网络的层级特征金字塔结构，获取到包含强语义结构的特征金字塔信息，对每层特征进行独立预测。第四种在特征金字塔的基础上，将特征金字塔获取的特征图拼接起来，增加通道数量。特征金字塔网络使用的是第三种方式，将得到的特征图采用至上而下的方式，对顶层特征上采样并且与底层特征融合，再独立预测每层特征。FPN处理过程如图1.5所示。图1.5FPN处理过程图Fig.1.5ThediagramofFeaturePyramidNetworkprocess从图1.5中可以看到，首先把获取到的最高层特征进行2倍的上采样，然后和经过1×1卷积处理的前一层特征图执行像素间加法操作，加法操作会再次进行3×3卷积操作，以此去除上采样混叠效应所产生影响，保证最终获得较精细的特征图。1.3基于感受野模块的目标检测算法本节介绍的基于感受野模块的目标检测算法参考RefineDet算法，并结合了SSD网络，RPN网络，FPN网络的优点，实现了对RefineDet算法的改进。改进内容包括两部分：（1）第一通过感受野模块改进特征提取的方式，确保小目标的特征不会在卷积过程中丢失。（2）第二通过改进锚框过滤机制，减少对于负样本类锚框的检测，保证正负样本均衡。该算法是一种基于前馈卷积网络结构，并使用了NMS方法筛选出最终的目标位置以及对应的分数。该检测结构可以分为3个部分，即ARM模块，ODM模块以及TCB模块。算法整体的结构图如图1.6所示。图1.6基于感受野模块的目标检测算法结构图Fig.1.6ThediagramoftargetdetectionalgorithmbasedonReceptiveFieldBlockstructure首先通过算法中的锚框细化模块（AnchorRefinedModule，ARM），设计该模块的最初目的是减少负样本类的锚框数量，减少分类器的搜索，并提供粗略的锚框位置及大小，方便进行后续处理。ARM的内部结构类似于RPN，主要目的是调整候选框的位置及尺度，便于为ODM模块提供正确的锚框。对参与预测的特征图中，通过密级采样获取n个锚框，且所有的锚框的大小，位置及纵横比都是固定的，通过RPN网络的处理方式获得每个锚框预测相对位置的偏移量，以及每个锚框的二分类得分，最后根据偏移量调整目标框的位置。在ARM模块中使用了改进后的负样本类锚框的过滤机制。在训练阶段，会预先设置阈值θ，若修正后锚框的置信分数大于这个阈值，ODM模块会删除掉该锚框，在检测阶段也同样，对于修正后锚框大于阈值的部分直接删除。之后会进入转移连接模块（TransferConnectionBlock，TCB），TCB模块作用是将ARM模块和ODM模块进行连接完成特征传输和特征转换，并将ARM输出的锚框转换成ODM所需的格式，TCB为了匹配ARM模块及ODM模块的尺寸，通过反卷积运算来放大高层特征图并对其求和，提升检测效果，之后还使用了一个卷积层来确保特征的可分辨性。为了提升该算法对于小目标的检测，在TCB模块中使用了3次感受野模块，且在每层感受野模块后都使用了Relu线性激活函数，公式如下：f(1.6)在TCB模块中使用了改进后的感受野模块，替代单层卷积操作，帮助算法提取多尺度特征，再结合特征融合操作，提升了检测准确度。而且感受野模块的设计适用于轻量的网络结构，不会给算法带来过重的计算负担。使用由1×1，3×3以及5×5大小的卷积核以及1×1，3×3大小的膨胀卷积层组成的感受野模块，通过反卷积操作来增大特征图，最后在第二次感受野模块提取特征之后先进行上采样，然后使用上采样的结果进行特征融合，这样解决了小目标特征在卷积过程中特征消失的问题。最后会进入目标检测模块（ObjectDetectionModule，ODM），该模块目的是获取到更准确的位置并预测出修正锚框位置的类别。将TCB模块得到新的特征作为输入传给预测层，再以SSD网络的处理方式预测边界框修正后的坐标位置及具体类别。除此之外还使用了二阶段检测算法的锚框调整，因为经过ARM模块的过滤，过滤掉没有预测和调整必要的锚框，提升了检测速度。为了处理不同尺寸的输入，感受野模块中设计了多核心卷积层，该结构可以有效地提取出不同尺度的特征并且使用膨胀卷积层确保提取特征的整体完整性。最上层的感受野模块由1×1的卷积层组成，底层依赖于膨胀卷积层去模拟感受野和离心率间的映射关系，通过这种方式可以保证在算法轻量结构的基础上让感受野模块提取出更深层次的特征。为了减少训练参数，用两个3×3的卷积层替换为原来的5×5的卷积层结构。感受野模块具体的结构如图1.7所示。图1.7感受野模块结构图Fig.1.7Thestructureofreceptivefieldmodule对于当前的一阶段类算法，会使用多种不同大小特征层来直接预测目标的位置及大小，对小目标的检测较差。因此本算法采用两步级联回归方式去修正目标的坐标，在ARM模块中初步调整了候选框的坐标及大小，以便于在后续的ODM模块中进行更好的处理。首先将特征图划分成对应的单元，在每个单元中设置对应的n个锚框。对于每个特征图单元，生成锚框的四个坐标偏移量的值及两个目标的置信分数。在获得调整后的锚框后，将对应特征图传递给ODM模块。在ODM模块中会计算出调整后锚框对应的c个类别的分数及每个类别对应的4个锚框的偏移量，最终对调整后的锚框输出对应的c+4个结果。损失函数的公式如下：&L(1.7)公式中的i代表的是第i个锚框，li代表的是第i个锚框的类，gi代表的真实目标的位置和锚框的大小，pi代表的是ARM模块中第i个锚框的预测分数，xi代表的是ARM模块中第i个锚框的调整后的坐标。ci代表ODM模块中第i个锚框的预测类别，ti代表的是ODM模块中第i个锚框的坐标位置，Narm1.4实验及分析1.4.1实验数据集PASCALVOC是以识别、分类及检测视觉对象为目标的竞赛，提供了标准的检测算法评估系统及图像注释数据集。实验中用到的数据集为PASCALVOC2007数据集以及PASCALVOC2012数据集，PASCALVOC2007数据集是2007年PASCALVOC竞赛任务中使用到的一部分数据集，其中包含9963张图片，24640个目标共计20种，其中训练集包含5011幅图片，测试集包含4952幅图片。PASCALVOC2012数据集是2012年PASCALVOC竞赛任务使用到的一部分数据集，其中包含11530张图片，27450个目标共计20个种类，包含人物，交通汽车，室内家具等。本文在训练过程中使用了PASCALVOC2007训练集以及PASCALVOC2012训练集，并分别使用了PASCALVOC2007及PASCALVOC2012测试集来验证算法准确性，由于PASCALVOC2012数据集在数量和范围要高于PASCALVOC2007数据集上，故PASCALVOC2012数据集的检测难度要略高于PASCALVOC2007数据集。1.4.2实验环境与参数设置本文实验是在实验室环境中进行的，实验室的软硬件环境如表1.1所示。表1.1实验软硬件环境Table1.1Theexperimentenvironmentofsoftwareandhardware实验软硬件环境设备参数CPUGPU内存硬盘IntelCorei7-8700(1.2GHz)RTX207016GB500G操作系统Ubuntu16.04开发环境Tensorflow1.12、Python1.6、CUDA9.0、cuDNN7在算法训练中使用到一些权重参数如表1.2所示，在初始训练时，学习率设置10−3，批处理大小设置为32，动量设置为0.9，权重衰减设置为5∗10−4，gamma值设置为0.1。由于在60K轮训练后损失值变为NAN，因此降低了学习率，调整为10−5时训练了20K轮，调整为表1.2实验参数Table1.2Theexperimentparameters参数名称参数值MomentumWeightDecay0.95×10-4GammaValue0.1LearningRate10-7Mini-BatchSize321.4.3实验及结果为了更好地对比实验效果，体现本文方案的有效性。本文随机从PASACLVOC2007测试集中选取了部分测试图片A.1及B.1，选用图片的大小均为500×375，且为了突出对比效果，A.1中的图片中包含了大量的小目标，可以充分验证算法的改进效果，B.1中的图片包含了一些常规目标，可以证明算法在常规检测中的效果。在A.2及B.2是未改进算法检测后的结果图，A.3及B.3是改进后的算法检测后的效果图。通过1.8中的对比图，可以看到在A系列图片中，A.3图片中显示了一个被局部遮挡在汽车目标后较小的人类目标，而在A.2图片中并未检测到该目标，同时对于其它目标的检测准确度也有所提升。在B系列图片中，也存在一个人类目标的下半身被遮挡在汽车目标后，B.3更好的检测出了该目标，通过上述结果图的对比，可以证明通过1.3中所述的改进方法有效地提升了对于图像中小目标的检测效果。改进后的算法检测对比结果如图1.8。（A.1）（B.1）（A.2）（B.2）（A.3）（B.3）图1.8不同模型检测结果对比图Fig.1.8Thediagramofcomparsionresultondifferentmodels为了更好的比较模型的检测效果以及判断出在哪些类别的目标上提升明显，对PASCALVOC2012和PASCALVOC2007数据集中的

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于感受野模块的目标检测算法分析案例》6900字】

文档简介

温馨提示

最新文档

评论

【《基于感受野模块的目标检测算法分析案例》6900字】

文档简介

温馨提示

最新文档

评论

相关文档