【《改进SSD的车辆行人检测方法案例》7400字】_第1页
【《改进SSD的车辆行人检测方法案例》7400字】_第2页
【《改进SSD的车辆行人检测方法案例》7400字】_第3页
【《改进SSD的车辆行人检测方法案例》7400字】_第4页
【《改进SSD的车辆行人检测方法案例》7400字】_第5页
已阅读5页,还剩9页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XXXV改进SSD的车辆行人检测方法案例目录TOC\o"1-3"\h\u26336改进SSD的车辆行人检测方法案例 129651.1SSD目标检测算法 122221.1.1SSD网络结构 115151.1.2SSD默认框 2199761.1.3SSD损失函数 376471.1.4SSD存在的问题 3160661.2双向特征金字塔特征融合 3204991.2.1反卷积 342591.2.2特征融合方式 4164091.3改进的双注意力模块 5128561.1.1自编码的空间注意力 678101.1.2通道注意力 713151.4优化损失函数 8134311.4.1分类损失函数FocalLoss 830141.4.2使用CIoU作边界框损失 8269191.5实验结果与分析 10116561.5.1实验数据集 10306011.5.2实验环境及参数设置 1135901.5.3实验结果与分析 111.1SSD目标检测算法1.1.1SSD网络结构SSD算法是直接在输入的整张图像进行卷积,利用金字塔结构的多尺度特征层来预测目标边框的坐标位置和目标所属类别。SSD算法使用VGG作为基础特征提取网络,之后使用一组卷积进行多尺度特征图预测,可以检测出大小不同的目标。输入图像的大小为300×300或者512×512。SSD网络结构如图3-1所示,VGG网络模型总共16层,包括5组卷积(前两组卷积分别是2个卷积层,后面的3组卷积分别是3个卷积层)和3个全连接层。SSD模型去掉了VGG网络的全连接层FC6和FC7,换用卷积层Conv6和Conv7。在特征提取后额外加入Conv8_2、Conv9_2、Conv10_2和Conv11_2卷积,SSD网络检测层是通过1×1的卷积核降维,3×3的卷积核提取特征,与前面的特征层构成特征金字塔进行多尺度特征预测目标的边框和类别。最后,在非极大抑制算法NMS处理下输出结果。每一组卷积之后都跟着一个最大池化层,作用是使特征图的尺寸缩小,降低特征图的维数,减少模型的计算量。SSD模型中的卷积层比较多,每一层中的卷积核数量不一样,随着提取的特征越来越深入,后面卷积层的卷积核数量增多,卷积核的数量依次是64,128,256,512,512。卷积层和池化层的使用降低了参数量,非线性变换次数也变多,模型学习到的特征更明显。图3-1SSD网络结构Fig.3-1SSDnetworkstructure1.1.2SSD默认框SSD算法选择了6个特征输出层,不同尺度的特征图来预测目标,SSD默认框从Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2这6层特征图生成。Conv4_3这一层的特征图的大小是38×38,Conv7这一层特征图的大小是19×19,Conv8_2这一层的特征图的大小是10×10,Conv9_2、Conv10_2和Conv11_2的特征图依次是5×5、3×3、1×1。每个特征图上的特征像素中心点生成k个默认框,SSD在每个中心点上生成4个或6个默认框,在SSD300中生成默认边界框个数是8732。这些默认框具有不同的尺度与不同的长宽比。每个默认框都会预测出c个类别的分数和4个坐标的位置偏移值。SSD目标检测算法采用了anchors机制,设置一些尺度和长宽比不同的默认框。每一层特征层都需要计算,对SSD产生的默认框的尺寸大小计算如式(3-1)所示,m表示的是特征图的数量,和表示的是默认框的最大最小尺度的参数。表示第k个用于预测的特征图的默认框和原来图像尺寸的比例。(3-1)一般是设置了6种不同长宽比的默认框,比例分别为(1:1)、(2:1)、(1:2)、(1:1)、(1:3)和(3:1),其中有两个大小不同但是长宽比都是1的默认框。特征图的默认框的尺寸和宽高的计算公式如式(3-2)所示。,(3-2)1.1.3SSD损失函数SSD算法在不同的特征图上生成默认框后分别输出预测结果,完成目标分类和边框回归。所以损失函数有两部分组成,类别置信度损失和边框回归损失。SSD的损失函数表示成二者的加权和,计算公式如式(3-3)所示。(3-3)边框回归损失用的是SmoothL1损失函数,代表预测框和真实框位置的误差,SmoothL1损失函数公式如式(3-4)所示。(3-4)SSD中类别置信度损失,用的是交叉熵损失函数,具体公式如式(3-5)所示。(3-5)1.1.4SSD存在的问题SSD模型的基础特征提取网络是VGG,在不同的特征层上多尺度检测,但是特征层之间是相互没有联系的,特征没有互相补充。低层的特征提取不全面,图像的语义表达不丰富,所以不利于小目标的检测,效果不好。高层的特征图在多次卷积下特征提取充分,但是丢失了一些细节信息,对目标检测结果有影响。而且在模型中,非极大抑制算法是通过IoU计算,IoU存在缺点,不能真实反映预测框和真实框相交的关系,无法解决两框不相交的问题。所以,在以下章节详细讲述改进SSD的方法。1.2双向特征金字塔特征融合1.2.1反卷积反卷积[38-39]是指可以改变图像分辨率的操作,它的作用是放大特征图像。反卷积过程如图3-2所示。反卷积和卷积不同,反卷积对输入的特征图经过零填充操作,在反卷积核的作用下得到放大后的特征图。卷积神经网络中,上采样有多种方法,本文用到的是反卷积。图3-2反卷积示意图Fig.3-2DeconvolutionSchematicDiagram反卷积之后的特征图保留输入的特征信息,特征图的尺寸被放大,不同的特征图进行融合需要保证特征图尺寸一样。反卷积操作为之后的特征融合做好准备工作。1.2.2特征融合方式(1)特征金字塔网络(FeaturePyramidNetwork,FPN)FPN[40]是2017年提出的多尺度目标检测算法,通过反向传播跨层连接的方式,自顶向下进行多尺度特征融合,FPN的网络结构示意图如图3-3所示,FPN模型通过自上而下的路径和横向连接,将低层语义丰富的特征和高层语义上较弱的特征融合,在多个不同尺度的融合特征上进行预测。图3-3特征金字塔示意图Fig.3-3SchematicdiagramofFeaturePyramidNetworkFPN存在的缺点是在特征融合过程中,不同尺度特征不一致,而且很多对目标检测没有用的信息也会融合进来。在FPN中浅层特征提取不充分,也没有被充分利用起来,浅层特征对小目标的检测十分重要。(2)双向特征金字塔网络为了解决FPN的问题,高效地进行特征的融合,保留有用的特征,增强特征的表达,去掉冗余的特征[41]。使用双向特征金字塔,对FPN做了改进,如图3-4所示,它有两个自底向上路径和一个自上向下路径。它有以下几个改进:在原来的FPN上增加了自底向上的路径,解决了FPN对浅层特征不能充分利用的问题,应用自顶向下,自下向上双向的多尺度特征融合成一个模块,特征在传递同时增强了信息的融合。在双向特征金字塔网络结构中,C1,C2,C3表示各层上不同分辨率的特征,在自顶向下的路径中,对高层特征通过上采样,然后利用自底向上路径将浅层的细节信息传递到高层,对S1,S2,S3进行上采样,对特征进行增强。使用卷积核为1×1的卷积层的横向连接来使得特征维数相同,以便进行特征融合。图3-4双向特征金字塔示意图Fig.3-4Bi-directionalfeaturepyramid1.3改进的双注意力模块注意机制的应用,使得特征图中的每个元素可以自适应地学习其相应的权重,这可以充分增强算法模型对目标特征的充分表达,可以获取特征图更丰富的语义信息。受注意力机制的启发,针对原来SSD特征融合过程中没有考虑特征图在不同路径下产生的影响不同。传统的注意力机制通常只注意特征在空间上的权重,根据权重判别特征中哪些是关键部分,但是特征图中不同通道之间的联系不被关注。为了解决这个问题,本章在前一节的特征融合过程中将引入双注意力模块,如图3-5所示,双注意力由空间注意力和通道注意力组成,在自顶向下和自上而下的路径中加入通道注意力,在横向路径中加入空间注意力,二者通过简单加法获得的特征图可以通过特征图中元素权重的学习来获得语义信息显著增强的特征图。提高了原始特征图的语义表示能力,特征图的重要程度更加明显,更多有用的信息来增强生成的特征,生成的特征更加具有表达能力,尤其是对小目标很重要,可以提升小目标检测的准确性。采用双向特征金字塔网络为构架,结合通道注意力和空间注意力做融合。双注意力模型作为各个基本特征之间融合的桥梁,穿插在双向的特征金字塔网络上。最后将由深到浅和由浅到深两个方向上生成的特征图做特征融合,获得语义更加准确的特征。图3-5双注意力模块网络结构Fig.3-5Networkstructureofdualattentionmodel1.1.1自编码的空间注意力空间注意力[42]模块的目的是在提取的各层特征上,进一步获得不同区域特征的上下文联系,得到各区域的重要性权重,可以增强区域之间的相关性。空间注意力通过获取空间内各像素之间的关联性,形成一个空间上下文关联的关系,特征图的每个像素位置的分配的权重是不同的,用于突出空间内的有效特征、抑制无效特征,从而达到对特征进行选择和融合的作用。空间注意力模块,本文使用自编码器的操作来实现空间注意力,自编码网络结构由两部分构成,一个是编码层,一个是解码层。网络结构中用到简单的卷积和反卷积。具体实现过程如图3-6所示:首先使用1×1的卷积核(padding=0,stride=1)的卷积层将C维的原始特征映射到1维。在进入自动编码器之前,需要将特征图转换为单通道的特征图,以聚合通道信息。通过ReLu激活函数后,我们使用3×3的卷积核(padding=1,stride=2)的卷积层,将特征图在空间上缩小。之后再通过反卷积的卷积层来把特征映射恢复到之前的大小。特征映射的权重通过Sigmoid的对应区域,通过瓶颈的结构得到空间层次上的特征图的相关性。图3-6自编码空间注意力Fig.3-6Autocodedspatialattention1.1.2通道注意力卷积神经网络中,不同通道的特征不同。通道注意力[43]就是基于原始提取的特征,利用不同通道维度的重要性,然后对特征进行重新加权标定,获得通道之间的相互关系。不同通道的特征所提取到的信息是不同的,通道注意力机制关注重要的通道特征,过滤无用的通道特征,是一个对特征进行重新标定的过程,添加通道注意力模块来加权特征图的每个通道。本文的通道注意力的输入为特征图F,表示为H×W×C,C、H和W分别是特征图的通道数、高度和宽度,如图3-7所示,我们首先对输入的特征图使用全局池化(Globalpooling)来聚合所有特征通道的全局信息,在空间层面将原始特征映射压缩到1×1的大小,通道数还是C,得到大小为1×1×C的特征图。为了生成通道注意力的权重,经过大小为1×1的卷积层和一个ReLu激活层,生成新的特征图,通道数变为C/r。然后,通过1×1卷积核的卷积层(padding=0,stride=1),将特征图的维数从C/r恢复到C。网络最终经过Sigmoid归一化操作得到每个特征图通道间的权重,从而获得特征图在特征通道的相关性。通道注意力机制的计算公式如式(3-6)所示。(3-6)是表示1×1卷积的权重,表示全局池化(Globalpooling),表示激活函数,激活函数。图3-7通道注意力示意图Fig.3-7Schematicdiagramofchannelattention1.4优化损失函数1.4.1分类损失函数FocalLossSSD目标检测算法分类损失使用的是交叉熵损失函数,应用在行人车辆检测方面,正负样本分布严重不平衡,负样本目标远多于正样本目标,负样本的损失较小,易分类的负样本太多,在训练过程中会影响损失,数量少的正样本在损失函数发挥的作用不大,所以会导致模型训练的效果不好。FocalLoss[44]这种新的损失函数的提出,对交叉熵损失增加权重,用它来代替原网络中分类的交叉熵损失函数。为了解决数据集中正负样本非平衡问题,FocalLoss损失函数在交叉熵损失中改进,加入修正系数,该系数与概率是反比的关系,计算公式如式(3-7)所示。正样本虽然数量少,但是权重系数也大,对模型来说有效的信息也多,相反负样本数量较多,但它的权重系数较小,对模型的贡献度少,因而,训练模型的损失函数更好。加入权重系数后的交叉熵损失函数中,y为类别标签,是输出概率。(3-7)为了模型能更好地训练困难的样本,在FocalLoss计算中,引入了一个新的参数γ,FocalLoss的计算公式如式(3-8)所示。(3-8)FocalLoss函数中新加入的参数α以及γ,目的是可以调节正负样本占的权重和难易分类样本占的权重,FocalLoss通过增强难分类样本的损失值,易分类样本的损失值降低,这样模型就可以有效训练难分类样本,对难分类样本的检测效果更好,因而能够提高模型的整个检测准确率。损失函数如式(3-9)所示。(3-9)1.4.2使用CIoU作边界框损失原SSD计算边界框回归损失时,使用的预测框主要是通过交并比(IoU)回归得到的。IoU计算公式如式(3-10)所示,交并比(IoU)在目标检测中是常用的评价目标位置准确性的指标,用来表示真实框和预测框的重合度,表示两个框的交集和并集的比值。比较IoU的值,可以得到重合程度。但IoU只关注目标真实边框和预测框的重叠部分。当两个框互相包含或者没有重叠的部分,IoU就看不到效果。IoU只有在边界框有重叠时才有效果,在没有重叠部分的情况下,不能向任何梯度反向传播。所以,当两个框没有相交时,不管距离是多少,IoU值都是零,梯度也是0,网络不能继续学习和训练,影响后面参数的更新。(3-10)而广义交叉并交比(GIoU)[45]损失考虑两个边界框的最小外接矩形,解决了IoU无法优化预测框和真实框在不相交时的方向问题,尤其是没有重叠部分下梯度消失的问题得以解决。GIoU有一个优点就是它作为损失,能够在两个框所有可能出现的情况下都有梯度,可以提高检测精度和训练模型的收敛速度,但还是存在收敛慢以及回归不够精确的问题。GIoU通过扩展预测框直到与真实框相交,当两个框相交时,GIoU也就变成了IoU。因此,GIoU不能准确表示预测框和真实框之间的重叠部分,也不能给出一个框被另一个框包围时的方向该如何优化。距离交叉比(DIoU)[46]可以考虑目标与中心点之间的距离,重叠部分和比例,然后避免诸如IoU和GIoU等训练过程中发散的问题。DIoU损失最大程度地缩短了两个框中心点之间的距离,从而加速收敛。DIoU可以很好地实现预测位置的回归,但是当预测框的中心与真实框的中心重合时,不能继续优化。为了实现更全面的优化,提出了Complete-IoU[47]损失函数,CIoU损失函数的计算公式如式(3-11)所示,该函数综合考虑了两个框的重叠部分,CIoU损失引入了预测框与真实框的长宽比,可以进一步加速收敛并提高性能。CIoU函数直接使得预测框与真实框之间的归一化距离达到最小,加快收敛,且对尺度具有不变形,解决了IoU不能准确反映两个框的重叠度的问题,使回归在真实框与目标框有重叠甚至包含时更准确、更快。本文使用CIoU代替原始的边界框损失函数IoU来直接优化,以使边界框检测更加准确,加快了回归的速度。因此,把CIoU损失函数应用在本文改进的方法中。(3-11)l表示预测框和真实框的中心点之间的欧几里得距离,和表示真实框和预测框的中心,α是平衡因子参数,C表示预测框和真实框的最小外围矩形的对角线距离,υ是形状惩罚,用于测量长宽比比例的相似度参数,是用来衡量真实框和预测框。α和v的计算方法如式(3-12)和(3-13)所示。(3-12)(3-13)1.5实验结果与分析1.5.1实验数据集因为本文是对交通场景下的车辆行人检测,在数据集的选择上要考虑交通场景及应用。数据图像也广泛多样化。因此,选择了KITTI数据集作为训练数据,该数据集是由德国的卡尔斯鲁厄理工学院和丰田美国技术研究院共同创建的,是基于智能自动驾驶领域的数据集,计算机视觉技术如目标检测、目标跟踪和目标分割都用该数据集测评[48]。而且数据集中的图片提供了各种真实的驾驶场景,如图3-8所示,包括了街道、高速公路、乡村和市区等不同场景。数据集图片中汽车车辆的数量较多且车辆目标的尺寸比较大,而行人目标的尺寸比较小,检测存在的问题是车辆行人目标的在图片中占的比重较小,目标多尺度变化、目标间容易互相遮挡,难检测。图3-8KITTI数据集图片示例图Fig.3-8SamplePictureofKITTIDataSet本文实验使用的是用于目标检测的KITTI2D数据集,含有标注信息的有7481张训练图片,每张图片里面包含车辆,行人,还有骑行者,图片的尺寸大小通常是1242×375。数据集中一共8个类别,有Car,Van,Truck,Pedestrian等,本文研究车辆行人检测,所以对数据集进行筛选,将Van、Truck、Tram标记为Car,与Car类进行合并。不考虑骑行者,忽略其他无关因素。将KITTI数据集按照VOC数据集的格式转化,最后的实验数据集有2个目标类别,车辆和行人。数据集中的7481张有标注的图片分为5000张的训练数据,2481张图片作为测试数据。1.5.2实验环境及参数设置本文的实验环境如表3-1所示。表3-1实验环境Table3-1Experimentalenvironment实验环境配置操作系统Windows10CPUIntel(R)Core(TM)i7-6100GPUNVIDIAGeForceGTX1080Ti内存64GB深度学习框架PyTorch编程语言Python1.6实验的参数设置:输入图片的大小是300×300,批处理大小设置为8,使用随机梯度下降方法进行优化参数,权重衰减设为0.0005,动量设置成0.9;训练的初始学习率设为0.001,在KITTI数据集上总迭代10000次,模型训练迭代到5000次时,将学习率降为0.0005,模型继续收敛,迭代到8000次时,将学习率设置为0.0001,继续迭代直到学习率衰减成0.00001,迭代到10000次训练结束。1.5.3实验结果与分析(1)本文算法与其他算法对比为了进一步验证本文方法的性能,将其他的方法FSSD[49],YOLOV3[50]与本文算法在KITTI数据集进行对比,对比的结果如表3-2所示。表3-2各种算法性能比较Table3-2Performancecomparisonofvariousalgorithms模型Precision%Recall%mAP%FPSSSD88.566.175.541FSSD87.367.475.830YOLOV388.169.178.437本章方法89.269.678.844通过表3-2可以看出,本章改进SSD的方法,模型中加入双注意力模块的双向特征金字塔,发现模型的准确率是89.2%,召回率是69.6%。相对于SSD模型的88.5%和66.1%,准确率上升了0.7%,召回率也上升了1.5%。本文方法和FSSD模型对比,准确率上升了1.9%,召回率上升了2.2%。这表明本章改进的方法能有效提升车辆行人目标检测的准确率,通过改变特征融合的方式,本章改进的方法的mAP平均精度达到了78.8%,检测精度对比其他方法都提高了。与YOLOV3模型相比,本文方法准确率也从88.1%提升到了89.2%了,由于使用了CIoU损失函数和引入了FocalLoss损失函数,检测精度也明显提高了,比YOLOV3提升了0.4个百分点。从速度上看,原SSD的速度为41帧每秒,本文的检测速度达到了43帧每秒。通过本章改进的双注意力模块的双向特征金字塔特征融合方法有效的增强了特征的表达,证明了改进方法在车辆行人检测上的性能良好。(2)消融实验结果本章改进的方法添加了双注意力模块的双向特征金字塔特征融合策略,和改进的损失函数,进一步讨论分析二者对车辆行人检测的结果的影响。在KITTI数据集上进行测试,将本章方法分为4组实验进行。实验结果如表3-3所示。表3-3消融实验结果Table3-3Ablationtest

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论