深度学习:智能网络目标识别技术 课件 ch01 智能网络目标识别发展概述_第1页
深度学习:智能网络目标识别技术 课件 ch01 智能网络目标识别发展概述_第2页
深度学习:智能网络目标识别技术 课件 ch01 智能网络目标识别发展概述_第3页
深度学习:智能网络目标识别技术 课件 ch01 智能网络目标识别发展概述_第4页
深度学习:智能网络目标识别技术 课件 ch01 智能网络目标识别发展概述_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章深度学习:智能网络目标识别技术智能网络目标识别发展概述01目标识别技术目标识别的基本概念与原理目标识别是指将一个特殊目标(或一种类型的目标)从其他目标(或其他类型的目标)中区分出来的过程。它既包括两个同类型相似目标的识别,也包括不同类型目标的识别。在计算机视觉领域,它被大量用于识别图像或视频中的目标,是深度学习和机器学习算法的关键应用之一。当人们看照片或视频时,很容易就能识别出人、物体、场景等。目标识别的目的是教会计算机去做对人类而言自然而然的事情,对图像所含内容获得一定程度的理解。目标识别是无人驾驶汽车背后的关键技术,使它们能够识别停车标志或区分行人与路灯等。目标识别在生物成像中的疾病鉴定、工业检测和机器人视觉等诸多应用中也发挥重要作用。在计算机视觉领域,目标识别是目标分类和目标检测两个任务的合体,首先需要对图像进行目标检测(如人脸),找出目标的位置及类别,然后在确定类别的基础上进一步识别目标(是谁的人脸)。若不区分细粒度类别信息,则目标识别和目标检测在一定程度上表示的任务是一致的。目标识别的基本概念与原理目标识别的工作流程通常分为训练和分类/测试。基于给定有限训练数据(TrainingData)集合,假设数据独立同分布,待学习模型属于某个假设空间(HypothesisSpace)。模型学习定义为基于特定评价准则(EvaluationCriterion),从假设空间中训练学习得到一个最优模型,使它在给定的评价准则下对已知的训练数据及未知的测试数据(TestData)有最优预测性能。目标识别包含了以下三个基本过程(见图1-1):(1)数据采集与预处理,主要目的在于移除噪声干扰,统一数据格式输入;(2)特征提取,主要目的在于挖掘数据的显著性特征,供后续分类器学习与预测;(3)分类,设计有效的分类器,对提取的特征进行有效训练与预测,判断出数据所属的类别和模式。目标识别的基本概念与原理目标识别的基本概念与原理目标识别最早出现在1966年,人工智能先驱MarvinMinsky带着一位本科生GeraldJaySussman,花了一个暑假时间将几块砖放在相机下让计算机识别,这是目标识别的雏形。到了1973年,Fischler和Elschlager提出构建人脸模板[1],并提出了一种模板匹配模型,用于检测人脸。基于此模型,大量的论文相继发表。20世纪80年代,人工智能的“寒冬”来临,计算机视觉研究转向基础理论。在此阶段,人工神经网络(ArtificialNeuralNetwork,ANN,简称神经网络)的“连接主义”学习反而取得了巨大进展,特别是著名的反向传播(BackPropagation,BP)算法的提出及1989年LeNet网络在手写体字符识别领域的应用[2]。20世纪90年代,大量边缘检测算子相继被提出,特别是局部二值模式算子(LocalBinaryPattern,LBP)[3]及SIFT[4]的提出大大促进了目标识别乃至计算机视觉领域的发展。与此同时,统计学习理论兴起,特别是SVM相关理论研究为目标识别分类器设计奠定了坚实的基础。21世纪初期,人工设计特征得到了跨越式发展。目标识别的基本概念与原理提出了大量对特定目标极其有效的特征,包括Haar[5]、HOG[6]、DPM[7]等,将这些特征应用于人脸、行人检测,取得了巨大突破。与此同时,也大量出现通用多目标数据集,例如VOC2007数据集、ImageNet大规模图像数据集,为后期智能网络目标识别的发展奠定了坚实的数据基础。2012年,大量研究工作表明,传统目标识别方法应用于ImageNet数据集时,识别效果提升有限。为此,Hinton等人于2012年提出了AlexNet[8],大幅提高了目标识别性能,从此打开了智能目标识别的大门,并进入深度学习时代。2014年,R-CNN目标检测框架[9]被提出,多阶段智能目标检测技术崭露头角,并涌现出了多样化的目标检测框架。直到现在,该类研究依然是行业研究热点。深度网络目标识别将在后面章节中重点介绍,这里不再赘述。02传统目标识别技术经典的特征提取原理01Haar特征与积分图Haar特征是一种较为简单的矩形特征,非常适合用于提取人脸相关结构特征。文献[5]中定义了4种不同模板的Haar特征提取。如图1-2所示,在图像任意位置上计算矩形框中白色区域像素和减去黑色区域像素和,输出一个整数结果。这样的简单操作能很好地捕捉图像边缘、线条、颜色及一些简单的图像模式。另外,各个模板会缩放到各个可能的尺寸依次滑动窗口求特征,从而产生大量的特征。在大小为24像素×24像素的图像块中,就能提取出16万多个整数特征,其量级远远大于原始像素个数(原始像素个数为576)。经典的特征提取原理01Haar特征与积分图如图1-3所示,我们很直观地看出Haar特征非常适合人脸结构。例如,眼睛这块区域有着显著的对比度差异,利用Haar特征模板,模型很容易学会眼睛这块区域的特征,从而有效区分是否存在人脸。经典的特征提取原理01Haar特征与积分图若直接计算数量如此庞大的Haar特征,将会严重影响计算速度。为了更快速计算Haar特征,文献[5]提出了积分图(IntegralImage)。首先定义图像中(x,y)位置的积分图为该点(包括该点)整个左上区域的像素和,具体公式如下:式中,i、ii分别表示原图的像素和积分图;(x′,y′)为左上区域各点的坐标。在实际计算过程中,使用了动态规划的思想,引入中间量s(x,y)作为行的累计积分结果。按以下公式在原图上迭代一遍,即可得到积分图ii:式中,初始化s(x,−1)=ii(−1,y)=0。经典的特征提取原理02SIFT特征①尺度空间的生成尺度空间的主要作用是提取具有尺度不变特性的图像特征,主要手段是利用一个带参数的尺度函数对原始图像进行变换,从而得到不同尺度下的图像空间。在SIFT特征提取的过程中,尺度空间的生成是利用高斯平滑滤波和降采样的操作来实现的。假设一张图像的尺度空间用函数L(x,y,σ)来表示,利用不同的高斯核函数G(x,y,σ)与图像I(x,y)进行卷积可得到:经典的特征提取原理02SIFT特征①尺度空间的生成式中,⊗表示高斯核函数与图像在x与y两个方向上进行卷积操作。高斯核函数G(x,y,σ)的定义如下:式中,σ表示尺度因子,其值决定了卷积操作中高斯核函数作用域的大小。σ值越大,高斯平滑滤波后得到的图像越模糊。因此,较小的σ值对应着图像的细节特征,较大的σ值对应着图像的概貌特征。经典的特征提取原理02SIFT特征①尺度空间的生成如图1-5所示,首先建立高斯拉普拉斯(LaplacianofGaussian,LoG)空间,在此基础上建立高斯差分(DifferenceofGaussian,DoG)空间。在LoG空间,对图像I(x,y)建立不同尺度下的图像,取名为子八度(octave)。其中,最下面一层子八度的尺度为原图的大小,上面每层子八度的尺度均为下一层子八度降采样的结果。在第l层子八度的内部,σ值逐渐增大,从下至上分别取值为lσ、lkσ、lk2σ、lk3σ、lk4σ。然后,通过将LoG空间中相邻的两个尺度空间L(x,y,kσ)与L(x,y,σ)进行差分,可以得到DoG空间D(x,y,σ),在此空间中更适合寻找图像的特征点。DoG空间的具体计算公式为①尺度空间的生成经典的特征提取原理02SIFT特征经典的特征提取原理02SIFT特征②特征点搜索在生成DoG空间后,需要在此空间中搜索特征点。如图1-6所示,首先寻找DoG空间中的极大值和极小值像素点。扫描每个像素点,检测其在3像素×3像素×3像素的空间邻域内是否为极值点。如果像素点X的像素值在该空间邻域内最大或最小,则X被标记为极值点。以同样的方式遍历DoG空间中所有具有3像素×3像素×3像素空间邻域的像素点,即可以标记好所有极值点的位置。经典的特征提取原理02SIFT特征②特征点搜索然后,寻找子像素级的极大值和极小值像素点,通过拟合三维二次函数来精确确定特征点的位置。具体可分为以下两个步骤。计算空间尺度函数的泰勒展开式对D(x)求导并令其等于0,可解得极值点b.利用空间尺度函数的泰勒展开式,可得DoG空间中极值点处的取值为若D(xˆ)≥0.03,则保留该极值点,记为特征点。经典的特征提取原理02SIFT特征③边界与低对比度特征点的消除对上一步骤中存在的边界特征点和对比度较低的特征点进行消除。DoG空间中亮度较小的点即为LoG空间中对比度较低的点,去除DoG空间中亮度较小的点即可消除LoG空间中对比度较低的点。此外,边界特征点的消除操作需要计算特征点和附近模糊图像的梯度,依据梯度的大小将特征点分为三类:平坦特征点、边界特征点和直角特征点,从中去除平坦特征点和边界特征点。经典的特征提取原理02SIFT特征④特征点方向的建立经过上述步骤的处理,已经得到了所有稳定特征点的位置。为了使特征点具有旋转不变性,可以利用特征点邻域像素的梯度方向分布特性为每个特征点指定方向。首先计算特征点在(x,y)处梯度的模值:然后计算特征点在(x,y)处梯度的方向:经典的特征提取原理02SIFT特征⑤SIFT特征描述子的建立如图1-7所示,以特征点所处的位置为中心,取8像素×8像素的邻域,接着将该邻域分为4个4像素×4像素的小块,在4个4像素×4像素的小块中分别计算梯度大小和方向,并利用4个方向的HOG来统计子窗口的平均方向。经典的特征提取原理03HOG特征HOG特征由Dalal等人[6]在CVPR2005中首次提出,通过计算图像局部梯度的方向和梯度幅值对行人特征进行有效提取。HOG特征的提取步骤如图1-8所示。经典目标检测器01VJ检测器该检测器的主要检测步骤包括图像预处理、Haar特征提取及预处理、滑动窗口检测、利用级联结构进行图像检测、对多个正窗口进行合并,消除错误结果。该检测器采用滑动窗口方式检查目标是否存在于窗口之中,看起来似乎很简单稳定,但由于计算量庞大,其时间复杂度极高。为了解决该问题,VJ检测器通过合并三项技术,极大提高了检测速度。这三项技术分别是特征的快速计算方法—积分图、有效的分类器学习方法—AdaBoost、高效的分类策略—级联结构的设计。如图1-12所示,利用级联结构进行图像检测的核心思想是对于明显不是目标的子窗口(Sub-Windows)立即拒绝(Reject),即将其标记为F,将可能是目的子窗口标记为T,分配更多层级和资源进行检测与处理(Processing)。经典目标检测器02HOG检测器SVM的核心原理是通过寻找一个最优超平面来分割不同类别的数据,并最大化分类间隔,从而提高模型的泛化能力。基于HOG特征的行人检测流程如图1-13所示。经典目标检测器03DPM检测器作为VOC2007—2009目标检测挑战赛的冠军,DPM是传统目标检测算法中当之无愧的最先进(StateOfTheArt,SOTA)算法。该算法于2008年被提出,相比于HOG算法,DPM进行了许多改进,因此该算法可以看作HOG算法的延伸算法。DPM检测器采用传统的滑动窗口检测方式,通过构建尺度金字塔来实现各个尺度的搜索。图1-14所示为某一尺度下的行人检测流程,即行人模型的匹配过程。根模型/部件模型在坐标(x,y)处的响应得分为该模型与以该坐标为针点(左上角坐标)的子窗口区域内的特征的内积。可以将模型看作一个滤波算子,响应得分为特征与模型的相似程度,相似程度越高,则响应得分越高。图1-14的左半部分为根模型的检测流程,在滤波后得到的图中,越亮的区域代表响应得分越高。图1-14的右半部分为各部件模型的检测流程。首先计算模型和特征图的相似性,使用模型对特征图进行滤波得到响应图;然后进行响应变换,以针点为参考位置,综合部件模型与特征图的相似性和部件模型相对其理想位置的偏离损失,得到最优的部件模型位置和响应得分。经典目标检测器03DPM检测器03智能网络目标识别技术基于锚框的智能网络目标识别技术01双阶段目标检测器包括区域候选框的生成和深度卷积目标检测网络两部分。卷积神经网络(ConvolutionalNeuralNetwork,CNN)负责提取图像特征,一系列区域候选框用以对图像中待检测目标的位置进行更好的确定与回归。双阶段目标检测器相较于单阶段目标检测器,精度较高但速度较慢,如R-CNN[16]、SPP-Net[17]、FastR-CNN[18]、FasterR-CNN[19]等。作为多阶段目标检测器的开山之作,R-CNN首先从图像中选取若干候选区域,然后通过CNN提取特征,利用SVM等分类器基于特征进行分类,基于区域候选框利用线性回归的方式对目标进行定位,从而分别实现分类和定位的要求;SPP-Net则提出了空间金字塔池化层,从而可以很好地关注到图像中不同大小的区域;FastR-CNN对R-CNN结构进行了改进,用ROI(RegionOfInterest,感兴趣区)池化层替代了区域候选框的选择过程,使得区域的分类与回归过程可以同时进行,且压缩全连接层规模,提升模型效率;FasterR-CNN引入了区域候选网络(RegionProposalNetwork,RPN)直接生成候选区域,可进一步提高模型精度与运行效率。为了使RPN更好地收敛,FasterR-CNN提出了锚框的概念。基于锚框的智能网络目标识别技术01双阶段目标检测器锚框是根据数据集的先验知识而人工设计的一组具有不同形状和大小的矩形框。骨干网络生成的特征图上的每一个像素点都被赋予一组锚框,当这些锚框和被标记的目标重合度较高时,该像素点被认为是正例,其位置参与损失函数的计算;重合度较低的像素点被认为是背景,其类别参与损失函数的计算。FasterR-CNN不论是在速度上还是在精度上,都大大超越了FastR-CNN,成为多阶段目标检测器的基石。自此之后,基于深度学习的目标检测器几乎都摒弃了用传统算法提取特征的方法,转而用CNN来提取特征。在此基础上,CascadeR-CNN[20]提出了一个多阶段的目标检测模型,在FasterR-CNN的基础上进行了多次迭代。其核心是利用不断提高的阈值,在保证样本数不减少的情况下训练出高质量的目标检测器,通过级联检测网络来达到优于预测结果的目的,大幅提高了目标检测的精度。基于锚框的智能网络目标识别技术02单阶段目标检测器直接对目标框的类别概率和位置坐标进行回归,而不需要事先生成区域候选框。与双阶段目标检测器相比,单阶段目标检测器的精度相对较低,但速度和效率大大提升。较为经典的单阶段目标检测器包括SSD[21]、YOLOv1[22]、YOLOv2[23]、YOLOv3[24]、Retina-Net[25]等。其中,YOLOv1将输入图像划分为一定数量的网格,直接对网格中的目标框进行类别概率与位置坐标的回归,使得每个网格最终分别输出一个边界框;YOLOv2则在YOLOv1的基础上进行改进,采用ImageNet数据集进行预训练,提高模型的收敛能力,引入批归一化[26](BatchNormalization,BN)及图像尺寸随机调整等数据处理方法,提升检测效果;YOLOv3则将网络中的所有池化层和全连接层用一定步长的卷积层进行替换,从而减少了特征提取过程中的信息损失,其还从不同层级的网络结构中输出特征,因此其对不同尺度的物体具有更优的检测性能;SSD也从不同尺度的卷积层中提取特征,并且将锚框的思想引入检测过程,进一步提高了检测精度。基于锚框的智能网络目标识别技术上述智能网络目标识别技术主要采用了基于锚框的方法,具有以下局限性。①②锚框的大小、数量、长宽比对检测性能的影响很大,因此基于锚框的智能网络目标识别技术的检测性能对锚框的大小、数量和长宽比都非常敏感。固定的锚框极大地损害了目标检测器的普适性,导致对于不同任务,其锚框都必须重新设置大小和长宽比。③④为了匹配真实框,需要生成大量的锚框,但是大部分的锚框在训练时被标记为负样本,容易造成样本极度不均衡。在训练中,深度卷积目标检测网络需要计算所有锚框与真实框的IoU,这样会消耗大量内存和时间。无锚框的智能网络目标识别技术基于锚框的目标识别问题通常被建模成对一些候选区域进行分类和回归的问题。在单阶段目标检测器中,这些候选区域就是通过滑动窗口方式产生的锚框;而在多阶段目标检测器中,候选区域是RPN生成的区域候选框,但是RPN本身仍然是对滑动窗口方式产生的锚框进行分类和回归。基于锚框的目标检测算法由于锚框太多而计算复杂,其带来的大量超参数也会影响模型性能。近年来,无锚框的智能网络目标识别技术摒弃了锚框,通过确定关键点的方式来完成检测,大大减少了超参数的数量。CornerNet[31]和ExtremeNet[32]直接采用自底向上的方法来完成目标检测任务。它们首先预测所有关于关键点的热力图,选出关键点,然后根据嵌入向量的距离或几何关系来进行配对,最终得出多个物体的检测结果。而另一类方法,如FCOS[33]、ATSS[34]等,与基于锚框的目标检测方法的思路一样,是从训练集中的标注框出发,直接从物体角度来进行预测。因为没有了锚框,它们直接选择标注框中一定区域内的像素点作为正样本进行回归。04数据集及模型评估指标目标分类任务的公开数据集和模型评估指标01目标分类任务的公开数据集MNIST数据集是手写字符分类任务中广泛使用的数据集,如图1-15所示。1998年,该数据集被公开,作为字符识别算法评测的公共数据集。该数据集中包含来自10个类别(手写数字0~9)、大小为28像素×28像素的手写字符灰度图,总计有60k张训练图像和10k张测试图像。①MNIST数据集目标分类任务的公开数据集和模型评估指标01目标分类任务的公开数据集CIFAR数据集是用于分类小图像的数据集,它是80MTinyImage数据集的子集。2009年,该数据集被公开,作为分类小型彩色图像算法评测的公共数据集。CIFAR数据集有两个版本,分别为CIFAR-10数据集(图像示例见图1-16)和CIFAR-100数据集,包含了大小为32像素×32像素的自然彩色图像。CIFAR-10数据集中的图像有10个类别,总计有50k张训练图像(每类5k张)和10k张测试图像(每类1k张)。CIFAR-100数据集中包含100个类别的图像,总计有50k张训练图像(每类500张)和10k张测试图像(每类100张)。②CIFAR-10/100数据集目标分类任务的公开数据集和模型评估指标01目标分类任务的公开数据集如图1-17所示,ImageNetILSVRC2012数据集是一个大尺度图像数据集。其于2009年首次被提出,并在2012年得到稳定使用。该数据集包含1000个类别的彩色图像,且一般先缩放至256像素×256像素大小。不同于以上两种数据集,该数据集的类别标签可用字网络(WordNet)表示,即由主类别标签词表示并包含相同目标的近义词,相当于词汇的分层结构。该数据集总计约有1.3M张训练图像(每个类别的图像数量在732张到1300张之间)、100k张测试图像(每类100张)和50k张验证图像(每类50张)。由于测试集标签未公开,因此一般情况下,测试模型在该数据集上的性能时,以验证集上的性能为依据。③ImageNetILSVRC2012数据集目标分类任务的公开数据集和模型评估指标02目标分类任务的模型评估指标①Top-1分类准确率Top-1指的是得分最高的类别刚好是标签类别时,分类正确。作为评估指标,Top-1分类准确率广泛应用于所有目标识别任务。②Top-5分类准确率Top-5指的是得分前5的类别中包含正确标签时,分类正确,通常只用于评测ImageNet数据集上模型的性能。0102目标检测任务的公开数据集和模型评估指标01目标检测任务的公开数据集①VOC数据集VOC数据集的全称为PatternAnalysis,StatisticalmodellingandComputAtionalLearning(PASCAL)VisualObjectClasses(VOC)数据集,简称VOC数据集,从2005年到2012年,国际上每年都会举办关于该数据集的比赛,包括分类、检测和分割等。现如今,VOC数据集已成为目标检测领域一个重要的基准。VOC数据集中包含20个物体类别,如人、鸟、汽车、椅子等生活中常见的物体。每一个目标都有目标检测任务需要的标注,即检测框位置和物体类别,且其中有一部分物体有分割标注。目前,业界最常用的VOC数据集是VOC2007和VOC2012。其中,VOC2007数据集包含9963张图像,每张图像都有标注,共有24640个目标物体。这些图像被分成训练集、验证集和测试集,测试集的标签已经公布。VOC2007数据集的图像示例如图1-18所示。VOC2012数据集相较于VOC2007数据集拥有更多的图像,共11540张,包含27450个目标物体。对于目标检测任务,它包含VOC2008~VOC2011数据集的所有图像。目标检测任务的公开数据集和模型评估指标01目标检测任务的公开数据集②SUN数据集目标类别最丰富的数据集是SUN数据集,其一共包含131067张图像、908个场景类别、313844个分割实例及4479个物体类别。目标检测任务的公开数据集和模型评估指标01目标检测任务的公开数据集③MSCOCO数据集该数据集被认为是当前最复杂的数据集,共包含约328000张图像,且由于数据集中每张图像包含的平均物体数量较多、数据集拥有80个类别,因此为目标检测器正确检测物体带来了较大的挑战,但该数据集为研究图像中目标对象的上下文关系提供了帮助。图1-19所示为MSCOCO数据集的图像示例。目标检测任务的公开数据集和模型评估指标02目标检测任务的模型评估指标针对目标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论