【《基于深度学习的单阶段目标检测算法研究国内外文献综述》3600字】

上传人：E*** IP属地：湖北上传时间：2026-04-28 格式：DOCX 页数：6 大小：406.18KB 积分：10.8 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于深度学习的单阶段目标检测算法研究国内外文献综述1.1目标检测算法目标检测的技术已经发展了很久，早期的目标检测还是依赖于人工提取目标特征REF_Ref73465712\r\h[1]，例如：尺度不变特征变换法（Scaleinvariantfeaturetransform,SIFT）REF_Ref73909329\r\h[3]具有旋转不变性与尺度不变性、方向梯度直方图（Histogramoforientedgridients,HOG）REF_Ref73909413\r\h[4]通过对图像局部区域的梯度方向直方图进行计算和统计来实现特征描述、局部二值模式（Localbinarypatterns,LBP）REF_Ref73909575\r\h[9]具有旋转不变性与灰度不变性等。但手工提取特征受限于人脸识别等简单的对象或场景，无法满足复杂场景下视频目标检测的需求，且识别精度较低。现阶段应用较为广泛的以深度学习技术为基础的目标检测算法大致可以分为两种类型，一类是单阶段（one-stage）目标检测算法，另一类是两阶段（two-stage）目标检测算法REF_Ref73465729\r\h[5]。前者不用产生候选框，直接将目标边框定位的问题转化为回归问题处理，单次检测后，即可得到最终的测试结果，因此有着更快的检测速度，这类算法的典型代表包括：YouOnlyLookOnce（YOLO）、YOLOv2、YOLOv3、SingleShotMultiBoxDetector（SSD）等；后者先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本分类，因此这类算法识别正确率高，漏识别率低，但速度较慢，不能满足实时应用场景。在此类算法中，最具典型性的主要有FasterR-CNN、R-CNN以及MaskR-CNN等。正是由于两种方法的差异，在性能上也有不同，前者在算法速度上占优，后者在检测准确率和定位精度上占优。1.2基于深度学习的单阶段目标检测算法单阶段视频目标检测算法的发展：2016年，YOLOREF_Ref73908340\r\h[16]和SSDREF_Ref73908348\r\h[7]分别由JosephRedmon和刘伟相继提出，用一个网络同时进行区域检测和分类，识别准确率不如两阶段视频目标检测算法，但速度大大提高，且仍可以保持一定的准确率，让实时目标检测成为了可能。鉴于两阶段目标检测算法往往存在运行速度较慢的缺点，YOLO创造性地提出了单阶段目标检测，也就是在一个步骤中完成物体分类和物体定位。YOLO利用整张图片作为网络的输入，在输出层直接输出边界的位置和类别，从而实现单阶段目标检测。这样，YOLO可以达到每秒45帧的运算速度，完全可以满足实时目标检测的要求（达到24帧每秒，人眼就认为是连续的）。YOLO算法主要采用一个单独的CNN模型来实现端到端的目标检测，整个过程如下：（1）首先调整图像大小（resize），并将图片分割成S*S个小格；（2）其次在每个格子上运行CNN网络，输出物体位置和类别的输出；（3）最后进行非极大值抑制，剔除多余的边框。如图1.2所示。图1.2YOLO系统结构图YOLO算法虽然运行速度很快，但其检测准确度较低，如果在实际应用中对检测结果的精度具有较高的要求，那么该算法便不具有良好的适用性。而且因为该算法需要划分网格，假如网格划分过多，那么在检测的过程中也可能会出现漏检小目标的问题。因而，之后又有学者以该算法为基础提出了SSD算法，该算法属于YOLO算法的改进版本，同样也以回归为基础，在对网格特征进行提取时选择了多层卷积进行提取，能够有效提高特征提取的准确率，因而相比于YOLO算法的一层卷积特征提取，SSD算法对于小目标的检测具有更好的适用性。除此之外，SSD算法与YOLO算法的改进还体现在两方面，一方面是该算法可以检测多种尺度下的图像，对于大物体以及小物体的检测都具有良好的适应性，另一方面是该算法的先验框适用范围更大，可以提高算法模型的学习效果，同时该算法也不会出现定位不准的问题，能够对小目标进行有效的检测。1.3基于深度学习的两阶段目标检测算法两阶段目标检测算法的发展：基于区域的卷积神经网络（RegionwithCNN,R-CNN）由Girshick等人于2014年提出，相对于传统方法，R-CNN显著地提高了识别精度。2015年，Girshick等人又提出了FastR-CNN，与R-CNN相比，FastR-CNN大大提高了训练和检测速度。2016年，FasterR-CNN又由任少卿等人提出，相比FastR-CNN，FasterR-CNN将目标检测所需要的四个步骤，即候选区域生成，特征提取，分类器分类，回归器回归，这四步全都交给深度神经网络来做，并且全部运行在GPU上，大大提高了操作的效率。R-CNNREF_Ref73909166\r\h[8]算法是两阶段视频目标检测算法的开山鼻祖，该算法首先需要区域搜索图像，以确定若干感兴趣的候选区域（Regionofinterest,ROI），接下来会以一定的标准对候选区域完成分类。R-CNN算法具体可以分为四个步骤：（1）以选择性搜索（Selectivesearch,SS）方法为基础，在目标图像内获得约2000个的候选区域；（2）以深度神经网络技术为基础，提取所有候选区当中的特征；（3）向每类的SVM分类器提供提取的特征，并以此为基础得出某个候选框是某类目标对象的得分；（4）通过非极大值抑制的方法将出现重叠的框去除，接下来以回归的方式对边框的位置进行细化。选择性搜索生成候选区域的主要步骤如下：（1）基于分割技术对目标图像进行分割，获得若干小的部分；（2）对所有部分的相似性进行计算与确定，计算相似性时主要以大小、纹理以及颜色等作为标准，然后合并相似度满足阈值要求的两个部分；（3）持续进行以上处理，最终便能够获得一个部分；（4）采取外切矩形的方式处理合并后所获得的区域，然后便可以获得若干候选区。相较于之前传统的目标检测方法，R-CNN的改进主要体现在了应用了候选区域，以及利用CNN来提取候选框的特征。但是R-CNN的缺点也很明显，就是对每一个使用选择性搜索方法提取的候选框都要通过卷积神经网络来提取特征，因而使计算的复杂程度较高，同时计算量也相对较大且存在许多冗余计算。加之因为存在全链接层，因此需要进行标准化处理才可以使所有候选区的尺度相同，在处理的过程中可能会遇到图像畸变以及失真等方面的问题。而SPP-NET算法能够有效弥补以上不足，有利于提高结果的准确性。由于需要将具有相同尺寸的图片提供给卷积神经网的全连接层，所以算法在进行处理时便需使用大小相同的图片，不过在实际处理时所有图片的大小都可能存在着一定的差异。早期在解决这一问题时一般会采用缩放或是剪裁的方式，不过该方式也有着一定的不足，比如前者可能会引发畸变等方面的问题，而后者可能会降低图片的完整性。SPP-NETREF_Ref73909348\r\h[2]的改进主要在于算法无需经历缩放以及裁剪等环节，采用空间金字塔池化层（Spatialpyramidpooling,SPP），基于此能够仅提取一次卷积神经网络特征便满足算法的要求，因此，相较于R-CNN，能够有效提高模型的处理效率。在使用SPP-NET算法时，首先也应通过选择性搜索法搜索出大约2000个候选区域，接下来需要向卷积神经网络输入整张图像，此时仅需要提取一次特征便可以获得所需的特征图。然后需要对候选框中特征图的位置进行计算，接下来向SPP层提供所得结果。该层处于首个全连接层和末位卷积层当中。在通过末层获得特征图之后需要对其进行划分，获得若干区域，区域的大小可以是4*4、2*2或是1*1，然后要利用池化操作获得大小相同的特征向量，并提供给模型的全连接层。后续便可以采用和R-CNN算法相同的操作进行处理。总体来讲，该算法有效提高了处理的效率，不过其也存在着一定的局限，比如算法需要采取多阶段的方式对图像进行处理，而分类器和提取特征两个过程具有独立性，因此在训练分类器时无法通过反向传播的方式对提取特征的卷积神经网络进行参数更新。FastR-CNNREF_Ref73905364\r\h[10]算法无需对所有候选区域进行特征提取，只需要向卷积神经网络输入原始图像即可，接下来也可以利用最后的卷积层获得相应的特征图，这一点类似于SPP-NET。对感兴趣区域进行池化（ROIpooling），也就是通过池化操作的手段，确保可以获得大小相同的特征图，然后在向全连接层提供所得的数据，采取这种方式能够有效避免重复操作，因而有利于算法效率的提高。而且ROIpooling也比SPP-NET的SPP层更加高效。除此之外，因为FastR-CNN算法在检测过程中采取了端到端（end-to-end）的方式，可以向网络提供分类以及回归损失，可以在训练的同时更新网络参数，因此也有效改进了分段训练的性能。FastR-CNN算法的主要过程包括：（1）向卷积神经网络提供原始图像并提取特征，得到特征图；（2）使用选择性搜索的方法从输入图像上提取候选框，然后通过投影整合所有候选框到第一步得到的特征图上；（3）采取ROIpooling的方式处理所有候选区域，采取这种方式能够使特征具有固定的维度；（4）分别向两个全连接层输入前一步所取得的结果，两层分别需要进行Softmax分类与边框位置大小微调的操作。参考文献路齐硕.基于深度学习的目标检测方法研究[D].北京邮电大学,2020.HeK,ZhangX,RenS,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2015,37(9):1904-1916.LoweDG.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].Internationaljournalofcomputervision,2004,60(2):91-110.DalalN,TriggsB.HistogramsofOrientedGradientsforHumanDetection[C]//IEEEComputerSocietyConferenceonComputerVision&PatternRecognition.IEEE,2005.LiLiu,WanliOuyang,XiaogangWang,PaulFieguth,JieChen,XinwangLiu,MattiPietikäinen.DeepLearningforGenericObjectDetection:ASurvey[J].InternationalJournalofComputerVision,2020,128(2).RedmonJ,DivvalaS,GirshickR,etal.YouOnlyLookOnce:Unified,Real-TimeObjectDetection[J].IEEE,2016.LiuW,AnguelovD,ErhanD,etal.SSD:SingleShotMultiBoxDetector[J].EuropeanConferenceonComputerVision,2016.GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2014:580-587.OjalaT,PietikainenM,HarwoodD.PerformanceevaluationoftexturemeasureswithclassificationbasedonKullbackdiscriminationofdistributions[C]//PatternRecognition,1994.Vol.1-ConferenceA:ComputerVision&ImageProcessing.Proceedingsofthe12thIAPRInternationalConferenceon.IEEE,1994.R.Girshick,"FastR-CNN,"2015IEEEInternationalConferenceonComputerVision(ICCV),2015,pp.1440-1448,doi:10.1109/ICCV.2015.169.RedmonJ,DivvalaS,GirshickR,etal.YouOnlyLoo

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于深度学习的单阶段目标检测算法研究国内外文献综述》3600字】

文档简介

温馨提示

最新文档

评论

【《基于深度学习的单阶段目标检测算法研究国内外文献综述》3600字】

文档简介

温馨提示

最新文档

评论

相关文档