【《目标检测技术基础综述》8600字】

上传人：E*** IP属地：湖北上传时间：2026-03-20 格式：DOCX 页数：15 大小：200.49KB 积分：15 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目标检测技术基础综述目录TOC\o"1-3"\h\u17056目标检测技术基础综述 1102731.1卷积神经网络 1194121.1.1卷积层 2147261.1.2池化层 396611.1.3全连接层 5169341.1.4激活函数 617791.2目标检测技术基础及评价标准 10294131.1.1感受野 1099041.1.2候选区域生成技术 11287621.1.3模型评价标准 12164941.3数据预处理 14297971.3.1数据增强 14106461.3.2正则化 15随着计算机硬件的进步、海量数据的支撑以及一些AI产品的落地，掀起了基于深度学习项目的研究热潮。在深度学习的大方向下，根据训练集图像中是否有标签，可分为强监督学习和弱监督学习。强监督学习指通过包含标签的数据集进行训练，再使用分析类模型获得较优的映射关系，然后根据获取到的映射关系，对未知数据进行分类或者回归。弱监督学习使用的数据集中不包含标签，通过机器算法的学习，根据特定的规则进行计算，根据多种指标对样本数据进行聚类，进而完成对未知数据的分类[22]。本文的研究是基于强监督下的深度学习技术，首先对训练样本的数据进行一些简单处理，以便于对海量数据更好的进行训练，然后通过训练得到深层次的特征，再通过学到的特征对图像进行预测，根据图片标签结果进行回归计算，不断的调整学习到的权重文件。通过大批量的数据训练，最终实现目标检测的任务。1.1卷积神经网络卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种模仿人类神经系统的前馈神经网络，在多个领域上均有极大的研究价值，尤其在图像处理任务上表现更是十分出色。卷积神经网络的基本结构包括：输入层、卷积层、池化层，全连接层以及输出层。其中卷积层的主要任务是提取图像特征，池化层的主要任务是进行特征抽象，减少训练参数，并且有效的防止模型过拟合，全连接层负责将提取到的特征图连接起来，输出给分类器，最终由分类器输出最终分类结果。卷积神经网络中卷积层和池化层一般交替设置，一个卷积层之后连接一个池化层，之后再连接一个卷积层[23]。局部的卷积过程如下：将卷积层中的局部输入通过对应神经元的连接权值进行加权求和再加上偏置值，即获得神经元的输出，结果为特征图。卷积神经网络包含的特点有：局部区域连接、权值共享以及降采样。其中局部区域连接是指将n-1层与n层的部分神经元连接，而在传统的神经网络结构中n-1层需要与n层全部的神经元进行连接。权值共享是指对一张图片使用内权系数不变的卷积核进行卷积处理，当然一个卷积层中也会包含多个卷积核。降采样也被称为池化，可以降低图像分辨率，使网络不易过拟合。池化的种类包括：最大值池化，最小值池化，平均值池化[24]。正是基于卷积神经网络的特点，才减少了权值的数量，降低网络结构的复杂度。1.1.1卷积层卷积层中通用的卷积网络结构是二维卷积，一般使用卷积核与二维图像进行卷积操作，即使用卷积核在二维图像上的所有位置滑动，并且与每个位置上的像素点做内积，获得的结果是通过激活函数输出的最终特征图[25]。卷积过程如图1.1所示。图1.1卷积过程Fig.1.1Theprocessofconvolution卷积操作使用的公式如下：a(1.1)对于公式1.1中ajl表示的第l层卷积层中第j个单元的输出值，Mjl表示输入特征图的集合，k1.1.2池化层池化层通常用于对卷积层提取到的特征图进行特征提取，防止算法过拟合。池化层包含了一种类下采样的操作，采样操作包含上采样和下采样，其中上采样可以认为是放大图像，主要任务是适配于高分辨率的模型处理。下采样可被认为是缩小图像，主要任务是获取生成图像的缩略图以及适配于低分辨率的模型处理。下采样操作的原理：即将一张M×N大小的图像进行o倍的下采样，可以获得（M/o）×（N/o）大小的图像，当然下采样操作的前提是o为M，N的公约数。池化层中激活值的计算公式如下：a(1.2)在该公式中down函数表示池化函数，bjl表示第l层中第j个单元的偏置量。βjl表示第l层中第j个单元的乘数残差，Ml表示第l最小池化，平均池化以及随机池化的处理方式如图1.2所示。图1.2三种池化方式Fig.1.2Threewaysofpoollayers图1.2展示了最小池化，平均池化和随机池化的处理方式，其中最大池化和最小池化的处理方式正好相反，最小池化是取同一个颜色方格内的最小值，而最大池化是取同一个颜色方格内的最大值。平均池化是求得同一个颜色方格内的数值之和再除以方格的个数。而随机池化较为复杂，首先需要获取到池化输入图像的最小单元个数（即同一个颜色的方格个数），然后根据同一个颜色内的方格个数生成一个随机的矩阵图，确保同一个颜色的概率之和为1，最后基于概率矩阵选取出方格对应的数值，生成最后的采样结果图。而L2池化需要对池化框中所有像素值取均方值作为结果。1.1.3全连接层全连接层的任务是，在整个卷积神经网络中起到分类器的作用，即把分布式特征整合到一起输出为一个值，这样可以极大的减少特征位置对分类带来的影响，增强了模型的鲁棒性[28]。为了使训练过程更好的拟合训练函数，通常使用两层或者两层以上的全连接层。由于全连接层的参数较多，这将耗费了大量的算力，并极大的影响模型的性能，因此为了提升模型的性能，常使用全局平局池化等方式替代全连接层。全连接层和卷积层实际上是等价的，不过全连接层可以转化为卷积层，可以认为全连接层为一种特殊的卷积层。全连接层的原理如图1.3所示。图1.3全连接层的原理Fig.1.3Theprincipleoffullyconnectedlayers假定获得卷积层处理后的特征图X，X是一个2×2×1的矩阵，Y是要获得的四维输出向量，W是全连接层代表的权重矩阵。首先要将特征矩阵转换为特征向量X'，然后输出结果中每个的yi都是通过权重矩阵的第i行和其它特征向量1.1.4激活函数由于神经网络拟合的是线性函数，为了更好地拟合曲线函数，因此需要加入激活函数。激活函数能极大的提高模型的鲁棒性，非线性表达能力以及缓解梯度消失的问题，十分有利于训练，并且对模型加速收敛有很大的帮助[29]。因此为了学习识别图像，语音，文本等类别信息中复杂的非线性映射关系，常使用这一类的激活函数。激活函数一般具有以下几个特点：可微性，单调性，输出值有限。可微性及单调性是高等函数中的基本定义，输出值有限是指激活函数的输出值在一个范围内，这样会使基于梯度的优化方法更为稳定，因此经典的激活函数多为分段函数或者指数函数。接下来介绍一些经典的激活函数如：Sigmoid函数，ReLU函数，P-ReLU函数以及Tanh函数。Sigmoid函数公式如下：Sigmoid(1.3)Sigmoid函数图像如图1.4。图1.4Sigmoid函数图像Fig.1.4ThegraphofSigmoidfunctionSigmoid函数是使用最多的一类激活函数，属于指数类型的激活函数，输出范围在0，1之间。Sigmoid函数的优点是：输出范围有限，较稳定，同时函数连续，便于求导。Sigmoid函数的缺点是：饱和性，偏移现象，复杂度高。饱和性是指Sigmoid函数在x趋于正无穷或者负无穷的情况下，会出现梯度下降的情况，即Sigmoid的斜率会变得接近于0，使得无法更新网络参数，降低训练效果。偏移现象是指由于sigmoid函数的输出均值大于0，使得后一层的神经元将得到上一层非0均值作为输入，这种方式会使Sigmoid函数输出范围逐渐缩小。在目标检测领域中，Sigmoid函数不用来做多分类，而是用来做二分类，根据图像可知Sigmoid函数的输出结果在0到1之间，当输出结果大于设定的阀值时，认定该结果属于某个类别，否则认为它不是。但在图像的多分类训练任务中，使用的是Softmax函数。Softmax函数也被称为归一化指数函数，是二分类函数Sigmoid的一种推广，可以将多分类的结果以概率形式展示出来。Softmax函数通过指数函数增大了向量元素间的差异，通过归一化为一个概率分布，即多分类的概率之和为1。这种方式可以较好的比较各个类别的概率差异，使得分布的形式更接近真实分布。Softmax函数公式如下：Softmax⁡(1.4)Tanh函数是非常经典的激活函数，相比于Sigmoid函数，它的输出均值为0，这种方式类似于幅度增大的Sigmoid函数，确保输出值在-1到1之间，导数取值范围在0到1之间，使得收敛速度比sigmoid快很多，并减少了迭代更新的次数，在一定程度上缓解了梯度消失的问题。但Tanh函数在x趋于正无穷或者负无穷时，还是会出现函数斜率为0的情况，即出现梯度消失的情况。由于Tanh的输入和输出能够保持非线性的关系，较符合反向传播网络的梯度求解，在算法训练的容错性较好。Tanh函数相较于Sigmoid函数的变化敏感区间较宽，较符合神经饱和规律，可以延迟进入饱和期，且由于函数激活值较低，可以用于矩阵运算，便于训练。Tanh函数公式如下：Tanh⁡(x)=(1.5)Tanh函数图像如图1.5。图1.5Tanh函数图像Fig.1.5ThegraphofTanhfunctionReLU函数是一种针对Tanh函数和Sigmoid函数饱和性缺点提出的新激活函数，根据图1.6可以很明显的看出来ReLU是一种经典的分段函数，x=0时即为函数的分界点，当x>0，函数结果与x为线性关系，趋于无穷，解决了随着x增大，函数斜率为0的情况。但当x<0时，可以看到输出结果一直为0，这部分也会使模型进入一种饱和状态，使权重无法更新。ReLU函数公式如下：ReLU(x)=max⁡(1.6)ReLU函数图像如图1.6。图1.6ReLU函数图像Fig.1.6ThegraphofReLUfunctionP-ReLU函数针对ReLU函数遇到的x<0情况下使模型进入饱和状态的问题。P-ReLU函数在x<0的情况下添加了一个参数α，一般情况将α设置为0.25。P-ReLU函数公式如下：P−ReLU(x)=(1.7)P-ReLU函数图像如图1.7。图1.7P-ReLU函数图像Fig.1.7ThegraphofP-ReLUfunction激活函数的选择一般没有指定的选取规则，对于不同的应用，不同的训练集，适合的激活函数也不同，但在隐藏层中使用较多的是ReLU函数，如果ReLU函数不能很好地解决问题，可以考虑使用Tanh函数，对于输出层是二分类可以考虑使用Sigmoid函数，如果输出层为多分类可以考虑使用Softmax函数。1.2目标检测技术基础及评价标准1.1.1感受野对于理解和诊断卷积神经网络是否能正常工作，感受野的概念尤其重要。在进行图像检测时，一个较大的感受野可以保证输出的图像更准确且图像中的关键信息不会遗漏。感受野是指神经网络中神经元所识别区域的大小，在卷积神经网络中，特征图中某个单元格的计算值受输入图像的某个区域的影响，那么该区域即为该单元格的感受野[30]。为了确保感受野的大小足够覆盖住有效的信息，经过训练后能获得好的训练效果。有3种可以增加感受野的操作，第一种是增加网络的层数，增加的层数和感受野的大小之间有线性关系。第二种是采用下采样处理，下采样操作可以理解为缩小图像的操作，相当于反向增大了感受野。第三种是采用空洞卷积，空洞卷积是在原本正常的卷积图的边界中添加一层空洞，以此来增加感受野。感受野大小的计算，可以参考如下公式：l(1.8)公式1.8表示了计算第k层感受野的大小。lk代表第k层的感受野大小，lk−1表示的是第k-1层感受野的大小，fk表示当前卷积层的卷积核大小，si表示该层的步长。从公式中可以看到k层感受野和k-1层感受野的差是fk−1×i=1k−11.1.2候选区域生成技术候选区域生成是以高精度检测为目标的算法的一个关键步骤，也是二阶段类算法得以实现高准确率的基础。这里介绍三种经典的候选区域生成方法，分别是滑窗法、候选区域生成算法及选择性搜索算法。滑窗法是使用指定大小的框在整幅图像上执行遍历操作，通过穷举的方式遍历图片中可能的目标位置[31]。这种方式很适合对固定比例大小的目标进行选取，但当检测图像中存在较复杂的内容且目标的比例不同时，固定大小的框无法满足检测的需要，若是将所有目标的比例都考虑进去，针对不同的目标设计不同比例的框对整张图像执行遍历操作，采用这种穷举法将花费巨大的时间成本，极大的影响算法的性能。候选区域生成算法是通过特定的算法输出图像可能包含待检测目标的局部图像区域。这种方法主要是为了解决滑窗法低效且不普遍适用于大部分目标的问题，候选区域提取算法将原图像作为输入，输出一个大致的边界框，尽管生成的边界框可能包含噪声，重叠内容，甚至框取的范围已经偏离了中心目标，但是大多数候选区域已经可以很好的包含目标，后续直接对这些候选区域识别即可，这种方式极大的缩短了算法的训练时间[32]。选择性搜索算法是通过图像的大小，颜色，形状以及纹理对输入的图像进行分割，使得分割后的区域尽可能的覆盖原图像中的部分物体，再将处理后的区域作为候选区域[33]。具体的处理过程是，先对分割后的图像进行框取，将所有框取后的图像放入一个列表A中，根据分割图像的因素（如：大小、颜色、形状、纹理等）区分框与框之间的相似度，把相似度较大的框共同放入到一个新列表B。在B中找出相似度较高的框B1，B2进行合并，再将合并后的框重新放入列表A中，再从列表B中删除B1，B2，通过这种不断比较和筛选的方式，直到列表B中为空。通过这种方式可以极大的减少了候选框的数量，同时通过这种比较及筛选的方式，也可以提升了算法的识别准确度。1.1.3模型评价标准为了评判训练后得到的模型，需要使用具体的标准进行量化和评估。评价的标准包括目标分类的精度，目标定位的精度以及运行的速度。其中衡量目标分类的精度的标准包括：准确度，精度，召回率，PR曲线，AP值以及mAP值等。目标定位的精度使用IoU进行衡量。运行的速度使用FPS，来度量一秒钟可以处理的图像数量。为了更好的了解如何计算目标分类的结果，首先需要对模型检测的各类结果进行分类。分类结果的混淆矩阵如表1.1所示。一共包含四种情况，第一种是结果为正的正样本（TruePositives，TP），第二种是结果为负的正样本（FalsePositives，FP），第三种是结果为正的负样本（TrueNegative，TN），第四种是结果为负的负样本（FalseNegative，FN）。表1.1混淆矩阵Table1.1Confusionmatrix正样本（P）负样本（N）真（T）TPTN假（F）FPFN为了详细的解释这四种情况，假定需要识别以飞机为目标的图片，结果为正的正样本指的是在一张包含飞机的图片中正确识别出了飞机，结果为负的正样本是指在一张包含飞机的图片中未正确识别出飞机，结果为正的负样本是指在一张不包含飞机的图片中错误的识别出飞机，结果为负的负样本是指在一张不包含飞机的图片中并未识别出飞机。根据以上四种数据的值，可以计算一些评判目标分类精度的标准。准确度（Accuracy，Acc）是表示预测图像中预测正确的概率，准确度公式如下：Acc=(1.9)精确度（Precision）也被称为查准率，是表示所检测的目标中检测正确的概率，精确度公式如下：Precision=(1.10)召回率（Recall）也被称为查全率，用于表示所有正样本中正确识别的概率，查全率的公式如下：Recall=(1.11)平均准确率（AveragePrecision，AP）因为查全率和查准率互相影响，当查全率高，那么查准率就降低，若查全率低，则准率率就升高，因此若单一的考虑其中一方面，势必会对模型的评价造成错误，因此为了全面性的评价模型，采用了一种更准确的衡量机制AP。AP是对准确率召回曲线（Precision-Recall，PR）与x轴的面积计算出来的。假定在一个阈值标准下，模型可以正确的识别定量的图像，当精确度上升，则召回率下降，根据这两类数据作为横纵坐标在坐标轴第一象限画出的曲线被称为PR曲线。平均准确率的公式如下：AP=(1.12)其中Pri指的是在召回率ri下对应的P值，∑AP值用于表示模型对于一种类别的识别效果，但要验证模型的全部检测类别的识别效果需要使用mAP（meanAveragePrecision），mAP会计算所有类别的平均准确率的平均值，这种方式可以很好的表现模型的精度，通常mAP的结果处于0，1之间，mAP值越大的模型，检测的效果自然也就越好。mAP公式如下：mAP=(1.13)交并比（IntersectionoverUnion，IoU）可以很好的表现出模型定位的精度，想要获取到目标的预测框和真实框的位置和面积，通过计算获得预测框和真实框的交集面积除以预测预测框和真实框的并集面积，即可获得交并比。交并比如图1.8所示。图1.8交并比Fig.1.8ThegraphofIoU交并比公式如下：IoU=(1.14)每秒传输帧数（FramesPerSecond，FPS）可以用来比较模型检测的速度，通过获得每张图片的处理时长，以1秒为单位除以该时长，即可获得FPS。1.3数据预处理为了使算法达到一个较好的效果，不仅要调整算法结构，使结构更加合理，还要使用合适的数据集，除此之外掌握一定的预处理方式也是必要的，合理的使用这些技巧可以有效解决训练中出现的问题，即使训练过程中没有出现问题，合理的使用这些训练技巧也能够优化算法的效果。接下来将介绍两种经典的预处理方式分别是数据增强和正则化。1.3.1数据增强对于一些样本数量较少的目标检测任务，为了实现指定的识别任务，必须获取到足够数量的训练数据，这里就可以使用数据增强方式，除了可以直接增加训练数据，还可以提升算法在不同检测环境下的鲁棒性，使模型更加稳健，使模型不易出现过拟合的问题。数据增强方法包括物理上的几何畸变，如反转图像，裁剪图像，扩增图像，翻转图像，旋转图像，拉伸图像及缩放图像，还可以采取一些光度畸变，如随机调整图像的亮度，对比度，色度，饱和度以及在图像中增加部分噪点[34]。除了上述比较常见的几何畸变和光度畸变，还有随机檫除，随机剪切，Mosaic数据增强以及Mixup数据增强。随机檫除和随机剪切即将图像分为指定大小的矩形区域，随机选取图像中的矩形区域，将该区域填充为0或者填充为对应的互补值。而Mosaic数据增强方法是YoloV4论文中提出的一种特殊的数据增强方法[35]。该方法将训练集中包含的4张图片作为一组，对这四张图片按照指定的方式进行随机裁剪，之后执行拼接操作，拼接后作为一张新的图片，交给算法进行重新训练。这种方式相当于一次训练4张图片，相当于变相的提高了批处理大小。Mixup是非常有效的数据增强方法，除此之外还可以用于解决对抗扰动。Mixup数据增强方法会每次随机选取两个样本点，然后按照一定比例进行混合生成一个新的样本点。Mixup的公式如下：y(1.15)x(1.16)μ(1.17)在上述公式中xi，xj都是原始输入向量，yi1.3.2正则化过拟合是在训练模型时常见的一类问题。正则化方法可以有效地解决这类问题，根据使用策略的不同，可以分为经验正则化方法，参数正则化方法以及隐式正则化方法。经验正则

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《目标检测技术基础综述》8600字】

文档简介

温馨提示

最新文档

评论

【《目标检测技术基础综述》8600字】

文档简介

温馨提示

最新文档

评论

相关文档