基于区域的图像语义分割分析研究_第1页
基于区域的图像语义分割分析研究_第2页
基于区域的图像语义分割分析研究_第3页
基于区域的图像语义分割分析研究_第4页
基于区域的图像语义分割分析研究_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

引言本课题研究背景和意义自二十一世纪以来,计算机的使用得到了广泛普及,极大程度上提高了人们的工作效率,方便了人们的生活。但是,随着社会的不断进步和发展,人们所面临的工作和任务也变得越来越复杂多样,这就使得我们对计算机功能的要求也越来越高。人们期望计算机能够像“人”一样通过不断的学习从而具备逻辑推理和决策的能力,能够在一些特殊下代替人完成繁重的任务。这就衍生了一系列研究“智能机器”的学科领域。其中,计算机视觉就是一门研究如何用机器来模拟人和生物的视觉系统功能的学科。具体而言,就是用摄像机代替人眼收集视觉信息,利用计算机代替大脑对信息进行处理和分析,从而完成对目标的检测、识别和跟踪等任务。计算机视觉的研究目的就是让计算机能够感知周围世界,了解它的空间组成和变化规律,最终具备对周围场景的理解和认知能力。目前,在医学图像处理、工业自动化、无人机探测以及卫星导航等等应用中都涉及到计算机视觉领域的相关技术。图像分割是图像处理中最重要的部分之一,也是计算机视觉领域中有关场景目标提取的一项关键技术。它是依据图像的特定性质和特征,如颜色、纹理和梯度等,把图像划分为多个具有特殊含义的区域并提取出感兴趣目标的技术和过程。图像分割所提取出的目标可以用于后续的图像语义识别、图像检索和目标跟踪等任务。其中,图像语义识别就是指让计算机判别出图像中目标的类别,使计算机能够理解图像所包含的“语义”信息,做到图像场景分析和理解。图像语义分割技术是一项将图像分割和图像语义识别相结合的图像处理方法。它在图像分割的基础上融入了目标识别技术,不仅可以完成目标的提取,还可以判断目标的种类。图像语义分割的主要方法就是将图像中的每个像素按照其所属种类进行分类,最后得到包含“语义”信息的分割图像(如图1.1所示)。目前,图像语义分割技术的主要研究和应用有智能家居机器人和无人驾驶汽车等。智能家居机器人通过摄像机捕获室内场景图像,利用计算机分析场景内容,识别出哪些是家具、哪些是电器以及哪些是垃圾,然后进行卫生清理工作。在无人驾驶系统中计算机通过车前摄像头捕获街道场景图像,通过电脑分析识别出场景中的车辆、行人、街道和障碍物等等,然后利用雷达探测出行车与其他物体间的距离,最后做出前进、减速和停车避让等决策。此外,在医学、工业、军事等领域都有图像语义分割技术的相关研究和应用。文本工作内容随着计算机硬件的发展和大规模图像数据的出现,深度学习再一次掀起了新的浪潮。由斯坦福大学李飞飞教授等人发起的图像网络大规模视觉识别挑战(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)[1],为深度学习的研究提供了大量带标注图像数据,极大推进了深度学习的研究进程。2012年,Hinton的学生Krizhevsky等人在ILSVRC的比赛中使用8层的深度卷积神经网络(DeepConvolutionalNeuralNetwork,DCNN)[2],以比传统的基于人工特征提取方法高出接近10%的优势摘得冠军。自此之后,深度学习不但在图像识别领域得到了突飞猛进的发展,还不断冲击着其他图像工程中的研究。RossGirshick等人将DCNN应用到目标检测中提出了区域卷积神经网络(RegionConvolutionalNeuralNetwork,RCNN)[3];HyeonseobNam等人将DCNN应用到目标跟踪任务中提出了树形结构卷积网络(CNNsinaTreeStructure,TCNN)[4];JonathanLong等人将DCNN应用到图像语义分割任务中提出了全卷积网络(FullyConvolutionalNetwork,FCN)[5]。本文也致力于研究如何使用DCNN提高图像语义分割的效果。本文的主要工作是研究一个有效的图像语义分割算法,并将其应用到街道场景识别任务中。具体而言,本文的研究思路是利用深度卷积神经网络进行图像语义分割,并结合当前机器学习领域的相关算法,将多尺度特征提取方法引入到卷积神经网络中,提出了基于多尺度池化(Multi-scalePooling,MSP)卷积神经网络的图像语义分割算法。其次,为了增强目标边缘轮廓定位的准确性,本文提出了基于边界点重定义方法的目标边缘轮廓增强算法,在基于深度学习的语义分割基础上,采用超像素聚类算法对目标边缘像素重新分类。本文在标准测试集PASCALVOC2012数据集上验证了算法的有效性,并将其应用到了城市街道场景识别任务中,通过对道路交通图像中的场景物体识别和检测,为后续无人驾驶或辅助驾驶技术提供支持。总体来说,本文的主要工作概述如下:在充分调研了现阶段图像语义分割算法的相关文献和资料之后,本文就基于深度学习的图像语义分割算法展开研究。结合机器学习相关算法,本文在FCN结构基础上提出改进。针对FCN结构中缺少对图像全局特征提取的问题,本文提出了多尺度池化的方法,通过融合图像多个局部特征和全局特征,增强了网络对目标特征提取的能力。针对FCN对于目标边缘像素识别准确率低的问题,本文提出了边界点重定义算法,利用超像素聚类的方法对目标边缘像素从新分类,提高了目标分割的准确度。搭建实验平台,在标准数据集上验证了算法的可行性和有效性。收集数据集并将算法应用到城市街道场景识别任务中,证明了算法的实用性。文本结构组织本文分六个章节对课题研究进行详述。第一章是引言部分,概述了课题的研究背景和意义,本文的主要工作内容以及章节安排。第二章是本课题的相关工作,主要介绍了图像分割、卷积神经网络和图像语义分割等方向的发展状况以及现有问题。第三章是本课题的主要研究工作之一,详细阐述了基于深度卷积神经网络的图像语义分割方法,包含了问题描述,改进策略,相关技术,构建的深度卷积神经网络模型,网络训练方法以及算法的实验仿真结果。第四章是本课题的另一个重点研究方向,基于边界点重定义方法的目标边缘轮廓增强算法,在神经网络的分割基础之上通过边界点重定义方法进一步提高目标边界像素的识别率。第五章是本文算法的应用描述,主要说明了本文算法在城市街道场景识别任务中的可行性,证明了算法的实际应用价值。第六章是全文的总结,对本文算法的优劣处进行分析,并展望了未来的研究方向。

本课题相关技术研究本章是对本课题所涉及的相关内容的介绍。首先,概述了卷积神经网络的发展历程,描述了卷积神经网络的基本结构,并对部分经典的卷积神经网络进行了介绍。然后,综述了传统的图像分割方法的发展情况。最后,介绍了现有的图像语义分割方法的研究现状。2.1卷积神经网络2.1.1概述近年来,卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为一种高效的目标识别技术,在众多学科领域引起了人们的广泛关注。CNN的起源最早可以追溯到20世纪60年代,Hubel和Wiesel在研究猫脑视觉皮层时,发现了一种构造复杂的细胞,这种细胞会对视觉信息中的局部区域产生响应,继而提出了感受野的概念[6]。1984年,Fukushima等人在此基础上提出了神经认知机(Neocognitron)[7],通过采用局部特征提取层和特征变换层相交替结构,在物体发生位移或者形变时依旧能够保持对其识别的能力。神经认知机模型虽然没有采用误差反向传播(BackPropagation,BP)[8]的方法进行有监督的学习,但仍然被认为是CNN的第一次实现。随后,Y.LeCun等人在神经认知机基础上使用误差反向传播方法设计了卷积神经网络模型,即经典的LeNet-5[9],如图2.1所示,后续大量的卷积神经网络模型都是基于它进行改进。2.1.2卷积神经网络的基本结构一般来说,CNN的基本结构包含以下几个部分:卷积层、池化层、非线性变换层和全连接层。CNN是一个多层的神经网络,它的每一层都由多个特征图(FeatureMap)组成,而每个特征图中的点代表一个神经元。卷积(Convolutions):在每个卷积层中,输入特征图通过与该层的卷积核进行卷积操作得到输出特征图。如图2.1中C1所示,输入尺度大小为32*32的图像经由6个模板大小为5*5的卷积核卷积之后,得到6个尺度大小为28*28的特征图。该过程可以看作是一种图像滤波,输入特征图中的局部神经元通过卷积模板中的参数进行加权求和,再加偏置得到输出特征图中神经元数值。相比于全连接网络,卷积神经网络中每个特征图上的神经元共享同一组权值,因而大大减少了网络参数,降低了网络模型的复杂度。池化(Pooling,也称降采样,Subsampling):池化层连接在卷积层之后,它的特征图个数与上一层的特征图个数保持一致,并且一一对应。如图2.1中S2所示,由C1层输出的6个尺度大小为28*28的特征图,经过2*2大小的池化模板进行降采样,得到6个14*14大小的特征图。常用的降采样方法有最大值池化(maxpooling)和均值池化(meanpooling)。最大值池化保留局部区域中神经元数值最大的点,而均值池化取局部区域的平均值。此外,还有随机池化[11]和金字塔池化[12]等池化方法。池化层通过降采样操作不仅提取了空间不变性特征[13],达到了二次学习的效果,而且减少神经元数量,降低了网络模型的计算量。非线性变换:卷积操作是多项式加权求和的计算方法,属于线性变换,而复杂的分类识别任务都需要非线性函数拟合,所以卷积神经网络在每个卷积层之后都要加入非线性变换函数,也称激活函数。传统的CNN中所使用的激活函数是饱和非线性函数sigmoid函数和tanh函数。然而,相较于饱和非线性函数,不饱的非线性函数,如softplus函数和ReLU函数等能够避免网络训练时梯度消失的问题,加快网络训练速度[14]。因此,目前大多数卷积神经网络都是采用ReLU函数作为激活函数(如图2.2)。全连接(Fullconnection):在许多图像分类识别任务中,网络经过多个卷积层和池化层之后都会加入1个或多个全连接层。如图2.1中F6所示,由C5输出的120维的特征向量,经过F6中84组权值向量进行加权求和,得到84维的输出特征。全连接层中的每个神经元与上一层的所有神经元进行连接,以此学习出图像中具有类别区分性的特征[15]。在最后一个全连接层之后连接一个输出层,完成图像分类识别任务。此外,随着卷积神经网络的发展,不断有更多的处理方法融入到网络结构中。其中,本文将要使用的两种处理方法是批规则化(Batchnormalization,BN)[16]和反卷积(Deconvolution)。批规则化(Batchnormalization,BN):对于卷积神经网络进行训练通常采用mini-batch方式的随机梯度下降算法[17],即每次输入批量图像到网络中。由于训练样本分布和测试样本分布之间存在差异,我们一般会对输入样本进行归一化处理,使其满足标准正态分布。但是,随着网络的不断加深,每一层的输入会不断偏离标准分布,影响最终的预测结果。而Batchnormalization的思想就是对每一层的输入都进行归一化处理,算法流程如图2.3所示。然而,如果把每个层的输出都限制在均值为0方差为1的分布会使得网络的表达能力变弱,所以文献[16]增加了两个可学习的参数β和γ,对数据进行平移和缩放。反卷积(Deconvolution):反卷积的概念第一次出现在Zeiler等人于2010年发表的论文[18]中,主要用于神经网络可视化。他们在后续的工作中提出了转置卷积(transposedconvolution)的方法[19],是目前较为常用的反卷积方法。主要原理如图2.4所示,在3*3的特征图周围插入0值得到7*7的特征图,然后由3*3的卷积核卷积之后得到5*5的输出特征图,以此不断将特征图扩大到输入图像大小。2.1.3经典卷积神经网络模型近几年,CNN在图像工程中得到广泛应用,特别是在图像识别领域中取得了大量研究成果。2012年,Krizhevsky等人第一次将CNN运用到LSVRC比赛中,以令人瞩目的成绩获得了当时图像分类比赛的冠军,该卷积神经网络也被称为AlexNet[2]。AlexNet共有8层,包括5个卷积层、2个全连接层和一个输出层。与LeNet-5相比:AlexNet采用了ReLU函数代替饱和非线性函数,解决了因网络过深而产生的梯度消失问题,并且提高了网络的训练速度;其次,AlexNet使用一种名为dropout的技术,该方法的思想是在训练过程中将中间层的部分神经元随机置为零,减小神经元之间的共同性和依赖性,使模型更加具有稀疏性和鲁棒性,从而提高了模型的泛化能力,防止过拟合。2014年,Szegedy等人训练了一个更加深的卷积神经网络,称为GoogLeNet[19]。他们设计了一种名为inception的结构,这种结构使用3种不同尺度的卷积核(1*1、3*3、5*5)对图像进行多尺度特征提取和融合,增强了网络特征提取能力。此外,他们借鉴了NIN[20]结构,使用1*1的卷积核对特征图进行降维,提高了计算效率。GoogLeNet在LSVRC-14中获得了图像分类比赛的第一名。同年,Simonyan等人研究了“网络深度”对于CNN性能的影响。他们在文章[21]中指出,使用小尺度卷积核(3*3)不断加深网络可以有效地提升模型的性能。但是,当网络达到一定深度时会带来严重的过拟合问题,网络训练效率大幅度降低。他们通过实验证明当网络层数达到16-19层时性能最佳,该网络也被称为VGG16和VGG19。VGG模型在LSVRC-14竞赛中,获得了目标检测比赛的第一名以及图像分类比赛的第二名。随着网络深度的不断增加,网络性能达到饱和之后反而会急速下降。出现这种问题的原因不是因为模型过拟合,而是由于增加网络深度的同时导致训练误差也随之增加[22]。为了解决这一问题,何凯明等人设计了一种跨层连接的网络,残差网络(ResidualNetworks,ResNet)[23]。通过跨层连接的方式,深层的训练误差能够快速的反传回来,使网络训练变得更加容易。ResNet使得底层的网络能够得到充分训练,准确率也随着深度的加深而得到显著提升。ResNet-152网络在2015年的LSVRC多个比赛项目中(分类、检测、定位)均斩获第一名。2.1.4卷积神经网络小结目前,卷积神经网络已在众多科学领域中成为了一大研究热点,特别是在计算机视觉和人工智能领域,由于网络不仅带来了高精确度的识别率,而且避免了传统方法中复杂的特征提取过程,因而得到了广泛的研究和应用。虽然CNN所具有的独特性质使其已被广泛应用于各种领域中,但是CNN仍有许多工作需要进一步研究:尽管CNN在许多领域如计算机视觉上已经取得了令人满意的成果,但是仍然不能够很好地理解其基本理论[26]。对于一个具体的任务,仍很难确定哪种网络结构,使用多少层,每一层使用多少个神经元等才是合适的。仍然需要详细的知识来选择合理的值如学习率、正则化的强度等[27]。一般而言,CNN层数越深,功能就越强,但是计算速度也会越慢。然而,在实际应用中往往对算法有实时性的要求,而深层网络目前很难满足这一点。所以,简化网络结构,减少网络参数,优化训练方法等等都是有待进一步研究的方向。从Hubel-Wiesel模型到DCNN模型,深度学习在视觉处理领域有着质的飞跃,形成了一系列经典的基于卷积的特征学习方式。但是这种学习方法也限制了我们的思维,我们不应该仅仅局限于通过卷积的方法来提取目标特征,需要更加深度地探讨和研究其他的计算方法来对网络进行学习训练。2.2图像分割图像分割是图像处理中的主要问题,也是计算机视觉中有关图像识别和分析的一大难题。它的目的就是把图像分成若干个特定的、具有独特性质的区域并提取出感兴趣的目标[28]。但是,由于图像场景的复杂性以及目标的多样性,迄今为止依旧没有一个通用的方法来完成对所有类型的图像进行分割。关于图像分割技术,从上世纪七十年代至今已有大量研究结果和方法,本节主要介绍部分经典图像分割算法和近几年较新颖的方法。2.2.1阈值分割阈值分割是一种传统的最常用的图像分割方法,主要过程是用一个或多个灰度阈值将图像中的像素划分为多个类,处于同一灰度范围内的像素属于同一类别。因其只考虑图像的灰度特征,所示算法实现简单、计算量小,成为了应用最为广泛的图像分割技术。在实际场景中图像的灰度特征易受噪声和亮度影响,所以如何有效的选取一个合适的阈值成为了阈值分割方法的关键和难题。目前,基于阈值的分割方法主要有以下几种,Yan等人提出的用最大相关性原则选择阈值的方法[29]。Pikaz等人提出的基于图像拓扑稳定状态的方法[30]。Huang等人提出的通过极小化图像的模糊测度来决定灰度阈值的方法[31]。还有最小均方误差法和最大类间方差法[32]。阈值分割的优点是实现简单、运算效率高,它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,是进行图像分析和特征提取必要的图像预处理过程。该方法对于灰度相差很大的目标和背景能够进行有效的分割,当图像的灰度差异不明显或不同目标的灰度值范围有重叠时,应采用局部阈值或动态阈值分割法。此外,阈值分割方法只考虑像素本身的灰度值,一般不考虑空间特征,因而对噪声很敏感。2.2.2边缘检测基于边缘检测的分割方法通过定位目标的边界轮廓来达到分割的目的。通常,不同的区域之间边缘上像素灰度值的变化往往比较剧烈,这是边缘检测得以实现的主要假设之一。常用的边缘检测方法有:=1\*GB3①基于查找的方法,依据图像灰度变化寻找梯度方向的一阶导数最大值点来检测边界,一般使用的一阶微分算子有Sobel算子[33],Robert算子[34]等;=2\*GB3②基于零穿越的方法,通过寻找图像灰度二阶导数的过零点来定位边界,常用的二阶微分算子有Laplacian算子[35],Canny算子[36]等。基于边缘检测的分割方法主要通过滤波的方式检测图像中梯度变化比较大的像素点,因而对噪声比较敏感。所以,如何在提高抗造性的同时不影响检测精度成为了边缘检测的关键。如果提高检测精度,则会因为噪声而产生过多的伪边缘;如果提高抗噪性,则会导致边缘漏检和位置偏差等问题。为此,人们提出各种多尺度边缘检测方法[37-38],根据实际问题设计多尺度边缘信息的结合方案,以较好的兼顾抗噪性和检测精度。2.2.3区域分割区域分割是一种常用的图像分割技术,它的目的就是把图像中所有具有相似性质的像素点连通起来构成分割区域。该方法通常采用像素点聚类的方式划分图像区域,一般分为区域生长法[39]和分裂合并法[40]。区域生长法的思路就是从初始种子点开始,将相邻的具有同样性质(灰度、颜色、纹理等特征)的像素点归并到该种子点所在区域,从而逐步增长区域直到没有可以合并的像素点或者其他较小的区域为止。分裂合并法的基本思想是先确定一个特征一致性条件,当图像中的某个区域不满足一致性条件时就将该区域划分为多个相等的子区域,直到所有子区域都满足一致性条件时分裂停止,然后它将具有相似特征的相邻区域进行合并,最终达到图像分割的目的。与边缘检测方法相比,区域分割对噪声相对不敏感,对复杂的自然图像有较好的分割效果,但算法复杂,计算量大,运算效率低。基于区域的分割方法往往会造成图像的过度分割,而单纯的基于边缘检测方法有时不能提供较好的区域结构,为此可将基于区域的方法和边缘检测的方法结合起来,发挥各自的优势以获得更好的分割效果。2.2.4结合特定理论的分割方法图像分割本身是极具困难和挑战的,而随着图像分割技术的不断发展,研究也渐渐陷入了瓶颈。研究者们发现仅仅用纯粹的图像处理方法已很难取得突破,因此他们将注意力转移到了学科融合中,不断把其他学科的新方法和新理论引入到图像分割领域,出现了许多基于特定理论的图像分割方法。基于图论的分割:图割(Graphcuts)的基本思想就是将图像映射为带权无向图,把像素视为节点,节点之间的边的权重对应于两个像素的相似性度量,割的容量对应能量函数,运用最大流和最小割算法对图像进行切割,得到的最小割对应于提取的目标边界。1998年,Roy等人首次运用图的最大流和最小割算法分割非二值图像[41]。2001年,Boykov等人提出了新的基于能量最小化的图割算法[42]。2004年,Rother等人在图割的理论基础上,引入迭代学习模型参数的方法提出了Grabcut算法[43]。基于图论的分割技术是近年来图像分割领域的一个研究热点,该方法具有快速、鲁棒、全局最优、抗噪性强、可扩展性好的优点。基于能量泛函的分割:该类方法主要指的是活动轮廓模型(activecontourmodel)[43]以及在其基础上发展出来的算法。其基本思想是使用连续曲线来表达目标边缘,并定义一个能量泛函使得其自变量包括边缘曲线,因此分割过程就转变为求解能量泛函的最小值的过程。按照模型中曲线表达形式的不同,活动轮廓模型可以分为两大类:参数活动轮廓模型(parametricactivecontourmodel)和几何活动轮廓模型(geometricactivecontourmodel)。参数活动轮廓模型直接以曲线的参数化形式来表达曲线的演化,具代表性的算法是由Kasset等人所提出的Snake模型[44]。参数活动轮廓模型受初始演化曲线设置的影响,曲线拓扑结构变化难以处理。几何活动轮廓模型的曲线演化过程是基于曲线的几何特性如曲率而非曲线的表达参数,避免了重复地参数化曲线过程,因此可以较好地处理曲线拓扑结构的变化,主要的方法有Malladi等人提出的基于边缘的曲线演化算法[45]以及Chan等人提出的C-V模型[46]等。2.3图像语义分割图像语义分割最初的目的是为了使计算机能够理解图像内容,贴近用户感知,从而提高图像检索准确度。近几年,随着机器学习和人工智能等领域突飞猛进的发展,将该领域方法与图像分割技术相结合成为了当下最热门的研究方向。在此过程中,诞生了一系列图像语义分割方法,而主要的研究方向可以分为两种,基于区域的图像语义分割和基于深度学习的图像语义分割。2.3.1基于区域的图像语义分割图像语义分割在图像分割的基础上提出了更高的要求,不仅需要精确的勾勒出目标的边缘轮廓,而且需要准确的判断出目标类别。因此,将分割和识别分为两部分完成的语义分割方法就是基于区域的图像语义分割。主要流程如图2.5所示:区域划分:该步骤主要运用传统的图像分割技术,将图像划分为多个待分类识别的区域,比较常用的方法有区域生长法,超像素分割和图割等。区域特征提取:对生成的每个区域进行特征描述和提取特征,依据图像的颜色、纹理、形状以及空间位置关系等表达区域特征。主要方法有颜色直方图、颜色矩、灰度共生矩、小波变换、马尔科夫随机场等。区域分类识别:利用提取到的区域特征对每个区域进行分类判别,主要采用机器学习的方法,包括朴素贝叶斯、决策树、Adaboost和支持向量机等。基于区域的图像语义分割方法有很多,比较突出的方法是P.Arbelaez等人提出的基于区域的目标检测器[45],该方法融合目标局部特征和全局外观特征,利用SVM分类器输出语义分割图。该算法具体流程如图2.6所示:Section3:生成候选区域,文章利用多尺度低层次的特征信息进行边缘检测,以这种简单而通用的方法获得高质量的候选区域。Section4:获得区域特征描述,文章提出了一种利用滑动窗口机制获得局部特征信息并融合全局外观特征得到多尺度高层次特征的方法。Section5:区域检测,文章训练了一个SVM分类器对每个区域的类别进行打分。Section6:像素分类,将区域得分转为像素得分,每个像素的类别打分由它所属区域的类别打分决定。近年来,深度学习成为了计算机、自动化以及图像处理等各大学科领域的研究热门。在计算机视觉领域中,也被广泛应用到目标检测、识别和跟踪等任务中。hariharan等人利用深度学习提出了一个协调检测和分割(Simultaneousdetectionandsegmentation,SDS)的方法[46]。文章利用似物性推存框技术(Multi-scalecombinatorialgrouping,MCG)[47]获得多个候选区域,然后利用RCNN(Regionswithconvolutionalneuralnetworkfeatures)对每个候选区域的进行分类打分。SDS在当时的目标检测和语义分割任务中都达到了国际领先水平,在常用数据PASCALVOC2012上的mIoU为51.6%。基于区域特征提取的图像语义分割方法虽然有很多,但是依旧存在许多问题。首先,算法流程比较复杂,需要经过区域划分、区域特征提取、区域类别打分和像素分类等过程;其次,传统的特征提取方法得到的特征对于目标的语义信息表达不强;另外,如SDS等方法,虽然用深度学习的方法代替区域特征提取和区域类别打分,极大提高了分割效果,但缺点是算法依赖于候选区域提取的准确性,增加了运算时间。2.3.2基于深度学习的图像语义分割2014年,J.Long等人提出了基于全卷积网络(FullyConvolutionalNetwork,FCN)的图像语义分割方法[5]。该算法的主要步骤如图2.7所示:数据处理:归一化训练数据集,利用平移、旋转、翻转和加噪等方法增强数据集,将图像分辨率调整到统一尺度。网络模型:使用VGG16模型作为预训练网络结构,然后将全连接层替换为卷积层以此保留图像的结构特征,最后利用双线性插值的方法将类别得分图还原到原始图像大小。网络训练:将像素预测结果(pixelwiseprediction)和真实分割结果(groundtruth)之间的交叉熵函数作为损失函数,利用反向传播算法训练神经网络。FCN利用深度卷积神经网络的分类能力,将图像分割问题转化为了像素点分类问题,去除了传统方法中区域划分的步骤,做到由输入原始图像到输出语义分割图像的“端到端”系统,大大简化了运算步骤。FCN在PASCALVOC2012测试集上取得了62.2%的mIoU,相比SDS高出了近10个百分点。随后,大量基于FCN的图像语义分割算法被相继提出,进一步推进了图像语义分割的发展。Badrinarayanan等人提出了基于编码-解码的语义分割网络(SegNet)[48],该方法在FCN的基础上利用反卷积方法代替双线性插值,逐层还原特征图像。Chen等人在FCN模型的基础上提出了带孔的卷积[49],在不改变VGG16网络参数前提下减少了网络池化层个数,更大程度上保留了目标特征信息,并且该算法在分割的结果后引入了条件随机场进一步提高了分割效果,在PASCALVOC2012测试集上达到了66.4%的分割效果。在此之后,更加强大的深度卷积神经网络残差网(ResNet)的出现再一次提高了语义分割的性能。表2.1展示了近年来基于深度学习的图像语义分割算法在PASCALVOC2012测试集上的性能。虽然,深度卷积神经网络已成为当下图像语义分割的主流方法,但是目前仍然存在许多难点和挑战。首先,DCNN模型复杂,计算量大,对硬件平台要求极高,不适合实时性要求高的工程应用;其次,针对尺度较小的目标,DCNN方法依旧很难达到较好的语义分割效果。另外,基于DCNN的语义分割方法对目标边界周围像素识别的准确率还不够高。为此,本文针对这些问题进行了深入探讨和研究,将多尺度特征提取的方法引入到DCNN模型中,提高对小尺度目标的分割效果,并结合传统的超像素分割方法增强目标边界定位的精确度。2.4本章小结本章是对本课题相关工作的综述,主要分为三个部分。第一部分介绍了卷积神经网络的发展历程以及网络模型的主要结构,探讨了一些经典DCNN模型的优劣处。第二部分是对传统的图像分割方法进行综述,重点介绍了阈值分割、边缘检测、区域分割和基于特定理论的分割方法。第三部分主要从传统的基于区域的图像语义分割方法和基于DCNN的方法等方面讲述了图像语义分割算法的发展现状,论述了现有的基于DCNN的图像语义分割方法的不足,并指出了本文的工作重点。语义分割需要对图像中的每个像素做出分类识别,输出的预测图像尺度应与输入图像保持一致。因此,我们需要对7*7的特征图像进行上采样操作,使其扩展到输入图像大小。通常采用的上采样方法有转置卷积,该方法在本文第二章已做介绍。而Long等人在FCN模型中采用双线性插值的方法。如图3.6,假设已知点Q11,Q12,Q21,Q22的像素值,首先在X方向进行线性插值得到R1和R2的像素值,然后在Y方向进行线性插值得到点P的像素值。通过这种双线性插值的方式可以将被多次池化的特征图填充到原始图像大小。找出置信度低的点之后,我们需要对这些点划分区域,依据每个区域的不同特性对这些点进行分类识别。本文采用超像素分割方法中的简单线性迭代聚类算法(simplelineariterativeclustering,SLIC)[56]对图像进行区域划分。SLIC是Achanta等人于2010年提出的一种思想简单、实现方便的分割算法。它将彩色图像转化为Lab颜色空间和xy坐标下的5维特征向量,然后利用5维特征向量构造距离度量标准对图像像素进行局部聚类。SLIC算法能生成紧凑、近似均匀的超像素,在运算速度,物体轮廓保持、超像素形状方面具有较高的综合评价,比较符合期望的分割效果。具体实现步骤如下:初始化种子点(聚类中心):按照设定的超像素个数,在图像内均匀的分配种子点。假设图片总共有N个像素点,预分割为K个相同尺寸的超像素,那么每个超像素区域的大小为N/K,则相邻种子点的距离(步长)近似为S=N在种子点的n*n邻域内重新选择种子点(一般取n=3):计算该邻域内所有像素点的梯度值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论