【《深度学习目标检测算法综述》5300字】_第1页
【《深度学习目标检测算法综述》5300字】_第2页
【《深度学习目标检测算法综述》5300字】_第3页
【《深度学习目标检测算法综述》5300字】_第4页
【《深度学习目标检测算法综述》5300字】_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习目标检测算法综述目录TOC\o"1-3"\h\u2429深度学习目标检测算法综述 1231101.1深度学习概述 1291791.2经典卷积神经网络 3242891.3深度学习目标检测算法分类 6178121.4评价指标 81.1深度学习概述深度学习是机器学习的技术分支之一,主要是通过搭建深层的人工神经网络(ArtificialNeuralNetwork)来进行知识的学习,输入数据通常较为复杂、规模大、维度高。深度学习可以说是机器学习问世以来最大的突破之一。深度学习的发展历程经历了一番波折,具体历程如图2-3所示。图2-3深度学习发展历程Figure2-3Thedevelopmentprocessofdeeplearning最早的神经网络可以追溯到1943年的MCP(McCullochandPitts)人工神经元网络,希望使用简单的加权求和与激活函数来模拟人类的神经元过程。在此基础上,1958年的感知器(Perception)模型使用了梯度下降算法来学习多维的训练数据,成功地实现了二分类问题,也掀起了深度学习的第一次热潮。图2-4代表了一个最简单的单层感知器,输入有3个量,通过简单的权重相加,再作用于一个激活函数,最后得到了输出y。图2-4单层感知器Figure2-4Single-layerperceptron然而,1969年,Minsky证明了感知器仅仅是一种线性模型,对简单的异或判断都无能为力,而生活中的大部分问题都是非线性的,这直接让学者研究神经网络的热情难以持续,造成了深度学习长达20年的停滞不前。1986年,深度学习领域“三驾马车”之一的GeoffreyHinton创造性地将非线性的Sigmoid函数应用到了多层感知器中,并利用反向传播(Backpropagation)算法进行模型学习,使得模型能够有效地处理非线性问题。1998年,“三驾马车”中的卷积神经网络之父YannLeCun发明了卷积神经网络LeNet模型,可有效解决图像数字识别问题,被认为是卷积神经网络的鼻祖。然而在此之后的多年时间里,深度学习并没有代表性的算法问世,并且神经网络存在两个致命问题:一是Sigmoid在函数两端具有饱和效应,会带来梯度消失问题;另一个是随着神经网络的加深,训练时参数容易陷入局部最优解。这两个弊端导致深度学习陷入了第二次低谷。在这段时间内,反倒是传统的机器学习算法,如支持向量机、随机森林等算法获得了快速的发展。2006年,Hinton又提出了利用无监督的初始化与有监督的微调缓解了局部最优解问题,再次挽救了深度学习,这一年也被称为深度学习元年。2011年诞生的ReLU激活函数有效地缓解了梯度消失现象。真正让深度学习迎来爆发式发展的当属2012年的AlexNet网络,其在ImageNet图像分类任务中以“碾压”第二名算法的姿态取得了冠军。深度学习从此一发不可收拾,VGGNet、ResNet等优秀的网络接连问世,并且在分类、目标检测、图像分割等领域渐渐地展现出深度学习的实力,大大超过了传统算法的水平。当然,深度学习的发展离不开大数据、GPU及模型这3个因素:·大数据:当前大部分的深度学习模型是有监督学习,依赖于数据的有效标注。例如,要做一个高性能的物体检测模型,通常需要使用上万甚至是几十万的标注数据。数据的积累也是一个公司深度学习能力雄厚的标志之一,没有数据,再优秀的模型也会面对无米之炊的尴尬。·GPU:当前深度学习如此“火热”的一个很重要的原因就是硬件的发展,尤其是GPU为深度学习模型的快速训练提供了可能。深度学习模型通常有数以千万计的参数,存在大规模的并行计算,传统的以逻辑运算能力著称的CPU面对这种并行计算会异常缓慢,GPU以及CUDA计算库专注于数据的并行计算,为模型训练提供了强有力的工具。·模型:在大数据与GPU的强有力支撑下,无数研究学者的奇思妙想,催生出了VGGNet、ResNet和FPN等一系列优秀的深度学习模型,并且在学习任务的精度、速度等指标上取得了显著的进步。1.2经典卷积神经网络卷积神经网络是计算机视觉领域最常用的深度学习模型,其通过多层次的网络结构组合图像的各种低层特征,能够很好地提取特征。本节中将介绍部分典型的卷积神经网络模型,简述他们的主要特点和设计思想。1989年,YannLeCun等人提出了LeNet,这是一个用于手写数字识别的卷积神经网络。其网络结构如图2-6所示,在网络中卷积层和池化层交替出现,使用卷积层提取图像特征,使用池化层进行降维和特征聚合,最后将得到的16张尺寸为5×5的特征图展开为一维向量,通过全连接层进一步抽取特征并使用归一化指数函数(softmax函数)进行分类。受限于当时计算机的计算能力,LeNet中使用了较大的卷积核(5×5,7×7等),并且会随着输入图像尺寸的加大,使用大于1的步长。图2-5LeNet网络结构Figure2-5LeNetnetworkstructure2012年,Hinton等人提出了AlexNet。AlexNet使用了非线性激活函数ReLU函数替代传统的sigmoid型函数,使得训练速度大幅度提升;采用了随机失活(Dropout)策略,每一轮训练时随机使模型中部分神经元暂时断开,降低节点间的依赖性,实现神经网络的正则化,有效的抑制了模型的过拟合;使用了大量图片数据并进行了数据增强,使模型训练效果更优;采用GPU加速了模型的训练。这些方法对于之后的深度卷积神经网络结构的发展起到了深远的影响。随着AlexNet在2012年ImageNet大赛上大放异彩后,卷积网络进入了飞速的发展阶段,而2014年的ImageNet亚军结构VGGNet(VisualGeometryGroupNetwork)则将卷积网络进行了改良,探索了网络深度与性能的关系,用更小的卷积核与更深的网络结构,取得了较好的效果,成为卷积结构发展史上较为重要的一个网络。VGGNet网络由Simonyan等人提出,主要贡献是使用多个较小的卷积核来代替较大的卷积核降低运算量。例如,两个3×3卷积核的感受野等于一个5×5卷积核,但是两个3×3卷积核只需计算2×3×3=18个权值参数,而一个5×5卷积核需要计算5×5=25个权值参数,这样的替代可以降低运算量。同时,两个3×3卷积核可以提供比一个5×5卷积核更强大的非线性表示能力。VGGNet的常用代表有VGG16和VGG19。其中,VGG16中16是指网络中所有可训练的卷积层和全连接层的总数为16层,不包括池化层和将二维特征图展开为一维向量的Flatten层。VGG网络中往往经过2-4层卷积层后,再做一次最大池化操作,通过加深网络层数提升模型的非线性表达能力。初此VGGNet简单灵活,拓展性很强,并且迁移到其他数据集上的泛化能力野很好。GoogLeNet是Google公司Szegedy等人提出的一系列CNN模型,其名字是Google以及LeNet的组合。GoogLeNet中提出了Inception结构的概念,其结构如图2-6所示。先使用1×1卷积核实现跨通道信息融合和特征层降维,极大的减少了之后特征提取的运算量,然后使用不同尺度的卷积核(3×3,5×5等)或是步长为1的最大池化进行特征提取,采用不同的填充策略,将这些提取得到的相同维度的特征进行融合,即直接拼接堆叠输入到接下来的网络中。这样的设计极大的减少了网络中所需训练的参数个数,GoogLeNet的网络参数个数仅为AlexNet的1/16,VGG16的1/35。之后,Szegedy等人还提出了批归一化(BatchNormalization,BN),改善了梯度消失问题,使得训练更深层的神经网络成为可能。图2-6Inception网络结构Figure2-6InceptionnetworkstructureVGGNet与GoogLeNet出现后,学者们将卷积网络不断加深以寻求更优越的性能。然而随着网络的加深,网络却越发难以训练。一方面会产生梯度消失现象;另一方面越深的网络返回的梯度相关性会越来越差,接近于白噪声,导致梯度更新也接近于随机扰动。2015年,KaimingHe等人使用ResNet(ResidualNetwork)网络在ImageNet图像分类竞赛中取得第一的成绩,残差网络是深度卷积神经网络发展史上的重大突破。ResNet引入了旁路连接(shortcut)结构,如图2-7所示,将输入信号通过两条路线进行传播,一条线路让输入经过复杂的卷积神经网路后输出,另一条线路将输入直达输出。这样的结构设计考虑到了传统卷积神经网络在信息传递中或多或少存在信息损耗丢失以及梯度消失或爆炸等问题,导致无法训练层数很深的网络,通过将输入信息直接传递到输出,保护了信息的完整性。网络只需学习输出和输入之间的差别,即残差,这一设计解决了卷积神经网络随着深度的增加,性能开始饱和然后迅速下降的问题,这一思想被后来的DenseNet、LadderNet和ResNeXt等网络借鉴,发展出更多层数更深,特征提取能力更强的卷积神经网络。图2-7ResNet网络结构Figure2-7ResNetnetworkstructure1.3深度学习目标检测算法分类基于深度学习框架下的目标检测以大量的训练数据为基础,从大量的数据中逐层学习特征,特征提取网络能够自动学习图像各层特征,从而将图像中高级语义信息充分表达,所得特征的表达能力较强,因此极大地提升了检测精确度,改善了传统目标检测算法的效果,提升了在多类复杂任务中的适用性,在复杂任务中表现较好。目前基于深度学习框架下的目标检测算法主要分为了基于候选区域的算法以及基于回归的算法两类。基于候选区域的算法检测精度较高,但是检测速度较慢。基于回归的算法直接在图像中进行回归,相比于基于候选区域的算法从而极大地提升了检测的速度,但是检测的准确率较低。下面将介绍两类算法中的经典算法及其发展。基于候选区域的目标检测算法代表算法有RCNN(RegionswithConvolutionalNeuralNetworkFeatures)、Fast-RCNN、Faster-RCNN等。RCNN算法前期候选框使用了选择性搜索算法,将样本中的每一幅图像提取的候选区域均输入到卷积神经网络中,对每个候选区域的特征进行单独提取,接着使用SVM对所得候选区域特征分别识别,最后利用线性回归微调所得目标位置。RCNN将算法使用了深度学习中的卷积神经网络自动学习提取样本图像的特征,因而这一算法的准确度在当时获得了极大的提升,但缺点也是显而易见的,对每一个候选框都进行特征提取的操作,导致耗费了大量时间学习特征和大量的空间存储特征,目标检测与识别时速度较慢,并利用了很多无关信息,但是RCNN算法为后续检测算法奠定了基础,Fast-RCNN与Faster-RCNN算法应运而生,这两种算法均是在前人的基础上对其进行改进,弥补了前者的缺点,对目标进行更精确的检测。考虑到RCNN是将每一个候选区域均经过卷积神经网络,Fast-RCNN依然采用选择性搜索算法,但不同的是将一整幅样本图像输入到卷积神经网络中进行学习,得到每一张图像完整的特征图后,将前一步获得的候选区域进行相应缩放映射至特征图中,从而获得每一个候选区域的特征,采用感兴趣区域池化层对特征进行规格化,最后利用Softmax进行分类。Fast-RCNN在精度上获得了提升,在速度上也获得了极大的进步,但该方法仍然采用了选择性搜索的方式,冗余信息较多,在一定程度上限制了速度的提升。为了改善这种情况,Faster-RCNN算法相比于Fast-RCNN算法更加完全地用卷积神经网络,在前期对图像进行候选区域的提取时使用区域建议网络(RegionProposalNetwork,RPN)直接预测出候选框,使得该方法在速度和精度方面都获得了较大的提升。基于候选区域方法随后又出现了一系列优秀的算法,如R-FCN,FPN等一些具有代表性的算法,速度精度不断提升,但检测流程大都是从候选区域提取到卷积神经网络进行特征提取的串行检测步骤,检测速度仍被限制。基于回归方法的具有代表性的目标检测与识别算法主要有YOLO、SSD,以及YOLO的改进等。YOLO(YouLookOnlyOnce)算法将输入样本图像首先进行分割,得到N*N大小的网格,对于中心点落在某个网格中的目标,由该网格对该目标进行预测。由此可见YOLO将检测的流程简化,使用全局特征,速度有明显提升,算法的实时性好。但其缺点也是显而易见的,为了追求速度的提升将很多有用信息过滤掉,使其精度在一定程度上有所降低。SSD(SingleShotmultiboxDetector)算法沿用了YOLO的模型特点,引入anchor机制,利用多层级特征图预测目标类别和位置偏移量,与YOLO算法不同的是该算法采用局部特征,但SSD算法不能很好地突出小目标,一直局限于小目标的检测,检测准确率难以提升。基于回归与基于候选区域目标检测算法的主要区别是,基于回归方法的目标检测算法在图片中利用回归的思想直接预测目标的所属类别和具体位置,从而减少了计算量并节约了时间成本,满足实时要求,该类算法能够用于对目标检测识别速度要求比较高的环境中。但是也因为直接预测目标的类别和位置不能较好的回归出预测框,牺牲了对精度要求。1.4评价指标对于一个目标检测算法,都需要制定一定的评价指标来衡量其好坏,从而选择合适的算法。对于图像分类任务来讲,由于其输出是很简单的图像类别,因此很容易通过判断分类正确的图像数量来进行衡量。目标检测模型的输出是非结构化的,事先并无法得知输出物体的数量、位置、大小等,因此关于目标检测的评价算法就稍微复杂一些。对于具体的某个物体来讲,可以从预测框与真实框的贴合程度来判断检测的质量,通常使用IoU(IntersectionofUnion)来量化贴合程度。IoU的计算方式如图2-8所示,使用两个边框的交集与并集的比值,就可以得到IoU。显而易见,IoU的取值区间是[0,1],IoU值越大,表明两个框重合越好。图2-8IoU的计算过程Figure2-8ThecalculationprocessofIoU对于IoU而言,通常会选取一个阈值,如0.5,来确定预测框是正确的还是错误的。当两个框的IoU大于0.5时,则认为是一个有效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论