【基于卷积神经网络的单阶段目标检测分析概述5500字】

上传人：E*** IP属地：湖北上传时间：2026-07-05 格式：DOCX 页数：9 大小：1.60MB 积分：13 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于卷积神经网络的单阶段目标检测分析概述1.1卷积神经网络卷积神经网络（CNN）是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。对CNN的研究始于20世纪80至90年代，时间延迟网络[118]和LeNet-5[119]是最早出现的CNN。由于受限于训练时庞大的计算量与羸弱的计算机硬件算力，CNN的发展一直比较缓慢。近年来，随着计算机硬件技术的进步，CNN得到快速发展，尤其在计算机视觉和自然语言处理等领域取得了丰富的成果，大有取代传统算法的趋势。CNN中最具代表性是AlexNet[16]网络，其网络结构如图2-1所示。图2-1AlexNet网络结构示意图[16]典型的CNN可被划分成输入层（InputLayer）、卷积层（ConvolutionalLayer）、池化层（PoolingLayer）、激活函数（ActivationFunction）、批归一化层（BatchNormalizationLayer，BN层）[120]、全连接层（Fully-ConnectedLayer）和输出层（OutputLayer）。输入层可以看成是CNN与数据之间的接口，其主要作用是将数据批量化、规则化地输入CNN。输入层可接受一维、二维、三维或多维的数据。一维输入层主要针对语音信号、电压信号等一维时变数据。二维输入层主要针对单通道黑白图像和二维矩阵式数据。由于彩色图片多由（红绿蓝）三通道数据构成，所以彩色图片的输入常采用三维输入层。在将原始数据输入CNN前，需在通道或时间/频率维对输入数据进行归一化。若输入数据为像素，也可将分布于[0,255]的原始像素值归一化至[0,1]区间。卷积层由若干个卷积单元组成，每个卷积单元的参数可通过反向传播算法[121]训练得到。在深度学习中，常见的卷积形式有普通卷积、空洞卷积、深度可分离卷积和反卷积等。空洞卷积[122]（也称扩张卷积）（Atrous/DilatedConvolution）是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积。利用添加空洞扩大感受野，让原3×3的卷积核，在相同参数量和计算量下拥有更大的感受野，从而无需下采样。扩张卷积向卷积层引入了一个称为扩张率（Dilationrate）的新参数，该参数定义了卷积核处理数据时各值的间距。深度可分离卷积[123]（Depthwiseseparableconvolution）先对每一个通道进行卷积操作，有多少个通道就有多少个滤波器。得到新的通道特征图（Featuremaps）之后，再对这批新的通道特征图进行标准的1×1跨通道卷积操作，即可得到最终结果。转置卷积[124]（Transposedconvolution）与原有的卷积操作在计算方法上没有差别，而区别是在于，转置卷积是卷积的反向过程，即卷积操作的输入作为转置卷积的输出，卷积操作的输出作为转置卷积的输入。池化层一般紧跟在卷积层之后，它的作用是选择特征，减少特征数量，进而减少网络参数的数量。池化层没有卷积运算，只是在滤波器算子滑动区域内进行取值运算。池化层最大的缺点在于信息丢失，尤其是对图像分割、目标检测和图像超分辨等领域而言，池化层的加入会降低检测的精度。所以最新一些研究更倾向于去掉池化层，完全使用卷积网络进行下采样。常见的池化层有平均池化（Averagepooling）和最大池化（Maxpooling）。最大池化是选取滑动窗口中的最大值作为该区域的输出值，平均池化是指将滑动窗口中所有值的算术平均作为该区域的输出值。激活函数是在人工神经网络的神经元上运行的、负责将神经元的输入映射到输出端的函数。激活函数的作用主要是为了增加神经网络模型中的非线性，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。常用的激活函数有Sigmoid函数、Tanh函数、ReLU函数和LeakyReLU函数等。批归一化（BN）层是通过一定的规范化手段，使CNN的输出值符合均值为0、方差为1的标准正态分布的一层网络。在神经网络训练过程中，每层网络的输入数据分布都会随着模型参数的更新发生变化，后层网络不断去适应这种分布变化，导致整个网络的学习速度变慢。此外，由于在CNN中引入了激活函数，因此网络有陷入饱和区的风险。BN层可以极大地提升网络的训练速度，加快收敛速度，同时降低网络的初始化要求，减少调参过程。全连接层一般位于整个CNN的最后，负责将卷积输出的二维特征图转化成一维向量，由此实现端到端的学习过程（即：输入一段语音或一张图像，输出一个一维向量）。卷积层、池化层和激活函数等操作可将原始数据映射到隐层特征空间，而全连接层的作用是将学到的特征表示映射到样本的标记空间。全连接层的缺点是参数量较大，在特征图比较多的情况下使用全连接层会降低网络的训练速度，且容易使网络过拟合。输出层是CNN最后一层的统称，针对不同的问题网络会采用不同的输出层。例如，对于分类问题常采用Softmax函数对分类标签进行置信度估计，所以分类问题的输出层多为Softmax层；对于语义分割任务而言，输出层则为包含语义信息的特征图；而对于热图回归任务而言，输出层为包含热图的多维张量。由此可见，输出层作为卷积网络的最后一层，其设计往往与任务紧密结合，同时也需要配合不同的损失函数。1.2损失函数损失函数（LossFunction）是机器学习、统计学、概率论等涉及到数理知识研究中的基础概念。监督学习本质上是给定一系列训练样本（xi，yi），尝试学习的映射关系，使得给定一个x，即便这个x不在训练样本中，也能够输出与真实值y尽量接近的预测值。损失函数是用来估量模型的输出预测值与真实值y的不一致程度，是一个非负实值函数，损失函数值越小，模型的鲁棒性就越好。常见的损失函数主要是有LMSE损失函数、LMAE损失函数和LCEL损失函数。LMSE损失函数又称之为均方误差（MSE），是回归损失函数中最常用的误差，它是真实值与预测值之间差值的平方和，其表达方式如下：（2-1）式中，n为样本数量；yi为第i个样本的真实值；为网络对第i个样本的预测值。LMAE损失函数又称之为平均绝对误差（MAE），也是一种常用的回归损失函数，它是目标值与预测值之差绝对值的和，表示了预测值的平均误差幅度，其表达方式如下：（2-2）式中，n为样本数量；yi为第i个样本的真实值；为网络对第i个样本的预测值。图2-2不同预测值时LMSE和LMAE损失函数的变化曲线图2-2为图2-2不同预测值时LMSE和LMAE损失函数的变化曲线由图2-2可知，LMSE各点都连续光滑，方便求导，具有较为稳定的解；而LMAE无论对于什么样的输入值，都有着稳定的梯度，但在中心点是折点，不能求导，不方便求解。LMSE和LMAE都是针对回归问题的损失函数，但LMSE相对于LMAE更容易收敛，这是因为当使用梯度下降法时，LMSE的梯度随误差的变化而变化；而LMAE的梯度始终为±1。当误差较大时，LMSE容易导致模型发散，降低了模型的鲁棒性。在大多数情况下，LMSE的收敛速度都优于LMAE，这使得LMSE的应用更为广泛。交叉熵损失函数LCEL常用于分类问题的损失，分类问题可分为二分类问题和多分类问题两种。在二分类问题中，通常使用Sigmoid函数对模型的输出进行处理，并压缩到(0,1)区间内，即使得∈（0,1）。假设P（yi=1）代表给定输入xi的模型判断为正类的概率，P（yi=0）代表给定输入xi，模型判断为负类的概率。由此可得：（2-3）假设数据点之间独立同分布，则二分类交叉熵损失函数LBCEL为：（2-4）由式（2-4）可看出，LBCEL损失在越接近目标值时损失越小，当远离目标值时，损失呈指数级增长。在面临多分类任务时，可将二分类问题中的Sigmoid函数替换为Softmax函数。Softmax函数是一种可将多维输出限定在(0,1)区间内的函数，同时可令所有维度的输出和为1。此时，模型对每个分类的概率分布表达式为：（2-5）式中，K为总类别数；k为K个类别中的一类，k∈K。则多分类交叉熵损失函数LCEL为：（2-6）多分类交叉熵损失函数常用于多分类问题及语义分割问题的求解，但是当样本不均衡时会使模型偏向于数量多的样本，从而导致效果下降。1.3神经网络训练及优化利用CNN解决问题的目标是做到端到端训练，在训练网络时主要采用反向传播算法。反向传播算法是一种与最优化方法（如梯度下降法）结合使用的用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。优化器就是在深度学习反向传播过程中，指引损失函数的各个参数往正确的方向更新，使得更新后的各个参数让损失函数值不断逼近全局最小。常用的优化器算法有随机梯度下降(StochasticGradientDescent,SGD)[125]、动量优化算法（Momentum）[126]、自适应学习率优化算法RMSprop和Adam[127]等。优化器算法一般都在一个统一的框架进行设计，在t时刻，对给定待优化的模型参数θt、损失函数L(θ)和学习率η，其参数更新的步骤为：计算损失函数关于当前参数的梯度gt：（2-7）根据历史梯度计算一阶动量mt和二阶动量Vt：（2-8）（2-9）计算当前时刻的下降梯度△θ：（2-10）根据下降梯度更新模型参数θt+1：（2-11）其中，一阶动量和二阶动量分别是历史梯度的一阶函数和二阶函数。本文主要采用随机梯度下降SGD算法，由于SGD没有动量概念，即不考虑历史梯度，所以t时刻的一阶动量即为当前时刻的梯度mt=gt，Vt=E2（E为单位矩阵），故SGD的更新公式为：（2-12）SGD只考虑当前时刻的梯度，在局部最优点的当前梯度为0，参数不再进行更新，故SGD容易进入局部最优的状态。1.4单阶段目标检测网络传统的目标检测方法通常受限于特征提取的单一性和目标建模的局限性，随着2012年深度学习在ImageNet[16]图像分类上的取得的成功，研究人员发现深度学习在计算机视觉领域的巨大潜力，随之投入到基于深度学习的目标检测方法的研究中。目前的深度学习目标检测方法可大致分为两类：一类是单阶段方法（Onestage），另一类是两阶段（Twostage）方法。前者将整个目标检测流程统一在一起，可直接输出检测结果，主要包含YOLO[128]（YouOnlyLookOnce）、SSD[129]（SingleShotMultiBoxDetector）系列。后者将生成后的候选框和识别框内物体相独立，需要分别实现，主要包括R-CNN[130]、FastR-CNN[131]、MaskRCNN[132]等。本文在第3章中主要借鉴了YOLO系列方法的思想检测VP，所以在此介绍YOLO网络。YOLOV1是首次采用单阶段方法目标检测的网络，其流程如图2-3所示。该网络将原始图像缩放为448×448尺度的3通道图像输入网络，输出一个N×N×（B×5+K）的张量。其中N代表将图片划分为N×N个栅格，每个栅格预测B个目标。如果一个物体的中心在某个栅格的内部，则这个栅格负责预测该目标。首先，预测栅格中的目标所属的K个类别的概率值，然后，对于每个被预测的目标，栅格需要给出5个预测值（x，y，w，h，confidence），x，y∈[0,1]表示目标的中心点相对于栅格左上角坐标的偏移量；（w，h）∈[0,1]表示边界框相对于原图尺寸上的宽高比。置信度是待检测目标的概率P(Object)乘上预测到的目标边界框和标定的边界框真值的交并比（框之间的交集除以并集）IOU的积：（2-13）在测试阶段，可利用非极大值抑制方法对每个边界框是否保留做出判断：（2-14）每个栅格的目标分类置信度等于预测为属于该类别概率P(Classi|Object)和预图2-3YOLOV1网络预测流程[128]图2-3YOLOV1网络预测流程[128]YOLOV2[133]在V1的基础上做了诸多改进，如在卷积层后加入BN层；给每个预设边界框分配单独的物体类别预测；提出了Darknet-19网络含有19个卷积层和5个最大池化层等；加快了网络的收敛速度，进一步提升了检测精度和速度。YOLOV3[134]兼顾了速度和精度，同时也解决了不擅长小物体检测的弊病。其主要改进如下：（1）引入多尺度检测。此前两个网络均使用单一尺度进行检测，此网络在13×13尺度特征图上进行检测的基础上增加了26×26和52×52两个尺度，从而提升了网络对小物体的检测精度。（2）更改了分类的损失函数，使用逻辑回归损失函数替代V2网络中的Softmax损失函数，提升了分类的准确率。（3）提出了新的骨干网络结构Darknet-53，使网络的特征提取能力得到加强。YOLOV3使用的Darknet-53网络参数如表2-1所示。该网络主要包括52个卷积层和1个全连接层，在进行目标检测任务时不使用全连接层。网络主要由一系列的1×1和3×3卷积层组成，在每个卷积层后都会接一个BN层和一个LeakyReLu激活函数。Darknet-53网络采用了类似ResNet的残差连接方式，受益于更合理的卷积层组合形式，Darknet-53在目标检测的性能上超过ResNet-101和ResNet-152两种深层网络。此外，Darknet-53还去掉了池化层，使用卷积层进行降维，这使得网络在反向传播时的信息损失得到了降低。表2-1Darknet-53网络参数[134]TimesTypeFiltersSize/StrideOutputConvolutional323×3416×416Convolutional642×2/2208×2081×Convolutional321×1Convolutional643×3Residual208×208Convolutional128104×1042×Convolutional641×1Convolutional1283×3Residual104×104Convolutional2563×3/252×528×Convolutional1281×1Convolutional2563×3Residual52×52Convolutional5123×3/226×268×Convolutional2561×1Convolutional5123×3Residual26×26Convolutional10243×3/213×134×Convolutional5121×1Convolutional10243×3Residual13×13AvagepoolGlobalConnected1000Softmax在特征提取后，YOLOV3分别在输入图像的32倍下采样、16倍下采样和8倍下采样的特征图上对目标进行检测。YOLOV3在上述3个特征图中分别通过（4+1+K）×B个大小为1×1的卷积核进行预测。其中，4代表4个预测边界框偏移量参数（tx，ty，tw，th），1代表1个预测边界框内包含目标的置信度参数，K代表预测目标的类别数，B代表每个栅格预测的目标数。图2-4边界框

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【基于卷积神经网络的单阶段目标检测分析概述5500字】

文档简介

温馨提示

最新文档

评论

【基于卷积神经网络的单阶段目标检测分析概述5500字】

文档简介

温馨提示

最新文档

评论

相关文档