深度学习与计算机视觉实战-图像分割_第1页
深度学习与计算机视觉实战-图像分割_第2页
深度学习与计算机视觉实战-图像分割_第3页
深度学习与计算机视觉实战-图像分割_第4页
深度学习与计算机视觉实战-图像分割_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图像分割1图像分割经典算法目录图像分割简介2训练图像分割网络3图像分割算法的分类基础不统一。在选择分割算法时,很大程度上取决于待分割图像的形状、像素分布特征和是否含有特定区域或其他影响分割的因素(如噪声和纹理)。国内外广泛使用的图像分割方法主要分为阈值分割、聚类分割、深度学习分割等,阈值分割如Otsu大津法,聚类分割如Meanshift聚类法,深度学习分割如Deeplabv3、U-Net、MaskR-CNN等方法。深度学习分割法可以细分为:语义分割:指将分属不同物体类别的像素区域分开,并分类出每一块区域的语义实例分割:指在语义分割的基础上,对每个物体编号图像分割简介语义分割是对一幅图像中同一个类别的像素进行分割,如下图(b)所示,而实例分割是对一幅图像中同类像素的不同实例对象进行分割,如下图(c)所示,原图如下图(a)所示。图像分割简介基于深度学习图像语义分割的卷积神经网络可以简化为编码器-解码器的网络结构。编码器是一个分类网络,通常用来进行训练;解码器在编码器之后,将编码器训练学习到的特征进行映射,以便得到相对应的分类。实例分割则是在语义分割和目标检测的基础上对每个物体进行具体的分割。图像分割简介常用的语义分割包括:基于区域的语义分割全卷积神经网络语义分割弱监督语义分割实例分割包括:基于语义分割的方法基于目标检测的方法图像分割简介对从图像中提取的区域进行描述和分类。首先通过选择性搜索提取目标区域。然后用分类器对每个区域的特征进行划分,达到对每个区域进行分类的目的。与传统图像分割相比,基于区域的语义分割方法把全区域特征和前景特征连接在一起,因此能够应对更复杂的分割任务,获得更好的性能。但是由于基于区域的语义分割算法提取的特征包含的空间信息不足,导致分割边界精度受到极大影响,同时算法耗时较长,降低了语义分割的效率。图像分割简介1.基于区域的语义分割全卷积神经网络语义分割与基于区域的语义分割的区别:它没有对区域特征进行提取和分类,而是创建像素到像素的映射。卷积神经网络的全连接层决定网络只能接收固定尺寸的输入,以及输出固定尺寸的预测结果。而全卷积神经网络是经典卷积神经网络的延伸和扩展,用卷积层替换全连接层,使网络可以接收任意尺寸的输入并实现像素级预测。全卷积神经网络的连续卷积和池化使得输出特征分辨率较低,同时像素与像素之间联系不够紧密,导致空间一致性弱。空间一致性是指图像中的某个点有较大的概率与周围邻域中的点具有相同类别属性。图像分割简介2.全卷积神经网络语义分割语义分割通常需要大量的数据,包括原始图像和相对应的像素级标签。手动对图像进行标注耗时长、成本高,导致某些场景的语义分割难以实现。弱监督语义分割同样通过使用带标注的边界框进行训练,但是这种标注无须达到像素级,因此比对原始图像进行像素级标注更容易。弱监督语义分割的应用场景更广阔,但是由于弱监督语义分割的理论还不够完善,和通常所说的语义分割还具有一定的差距。图像分割简介3.弱监督语义分割实例分割兼具语义分割和目标检测的特点,按照解决思路分为:基于语义分割的Bottom-Up基于目标检测的Top-Down方法基于语义分割的Bottom-Up方法是通过阶段语义分割实现分割对象的实例化。DeepMask实例分割算法如下图所示,总共有3个阶段,第1个阶段实现图像前景和背景的分割,第2个阶段实现前景的语义分割,第3个阶段实现前景的实例分割和目标识别。图像分割简介4.实例分割基于目标检测的Top-Down方法则是先通过目标检测找出具体的实例对象,然后将具体的对象区域进行图像分割,从而实现图像分割,如MaskR-CNN、SOLO等方法。目前比较主流的实例分割算法为基于目标检测的Top-Down方法。相比较而言,不论是精度还是速度,基于目标检测的Top-Down方法普遍比基于语义分割的Bottom-Up方法表现更好。图像分割简介1图像分割经典算法目录图像分割简介2训练图像分割网络3图像分割算法发展至今已有许多经典方法,语义分割领域有FCN、U-Net、Deeplabv3等方法,实例分割有DeepMask、MaskR-CNN、SOLO等方法。本节选取其中比较有代表性的Deeplabv3+和MaskR-CNN进行深入讲解。卷积神经网络通过卷积不断降采样,对图像进行特征编码,然后通过转置卷积对卷积生成的特征图进行上采样,对特征图实现特征解码,再经过编码-解码的过程后,得到一幅新的分割图像,如下图所示。图像分割经典算法其中转置卷积也称为反卷积,是使用较多的一种特征图尺寸恢复技术,其前向运算过程也是卷积操作的反向运算过程。需要注意的是,转置卷积并不是卷积的完全逆运算。反卷积技术能够像卷积运算一样自主学习网络模型的参数值,训练过程中也会消除一些冗余信息,能够弥补上采样或插值算法无法自主学习的缺点。正常卷积过程如下图(a)所示,转置卷积过程如下图(b)所示。图像分割经典算法在语义分割的领域,网络结构的模式都是大同小异的,基本遵循编码-解码的思路。首先通过卷积操作获取语义特征信息,图像分辨率越来越小;然后使用反卷积操作将图像分辨率放大到原图大小。Deeplabv3+主要的创新点:编码过程中实现图像下采样时为了提高卷积核的感受野采用了空洞卷积的方式。传统的卷积神经网络针对的任务是图像分类,而应用到语义分割这种密集预测问题,效果并没有显著提高。因为在分割任务中,需要具体分析出图像中每一个像素点所属类别,往往需要考虑图像局部区域的上下文信息,而单纯增大卷积核会使整个网络运算量大增。图像分割经典算法1.语义分割DeepLabv3+费希尔(Fisher)等人在2016年提出了空洞卷积的方法,空洞卷积的结构如下图所示,下图(a)对应3×3的1阶空洞卷积,和普通的卷积操作一样;下图(b)对应3×3的2阶空洞卷积,其感受野相当于7×7的普通卷积,但是卷积核参数依然是3×3;下图(c)对应3×3的4阶空洞卷积,其感受野相当于15×15的普通卷积。图像分割经典算法为了解决图像目标中的多尺度问题,Deeplabv3+使用空洞空间金字塔池化(AtrousSpatialPyramidPooling,ASPP)。ASPP首先应用带有不同扩张率的空洞卷积和图像特征得到不同尺度的丰富的语义信息。然后将ASPP模块的输出与编码器输出进行特征融合,二者能够发挥不同的作用,ASPP模块的输出主要用于获取多尺度的上下文信息,编码器输出则基于重构空间信息的方式来捕捉物体边缘。图像分割经典算法DeepLabv3+的网络结构如下图所示。图像分割经典算法对于DeepLabv3+解码模块,首先需要将编码特征进行双线性上采样,然后与主干网络输出的浅层特征进行连接。由于对应的浅层特征往往通道数较多,如256、512,可能会超过输出编码特征而导致训练困难,因此在连接操作前,采用1×1卷积,对浅层特征进行通道降维操作以减少通道数。特征融合后需要进行进一步处理,处理时选用的是3×3的4阶空洞卷积实现上采样,得到最终的分割图像。相较于DeepLabv3,DeepLabv3+改善了图像分割的效果,提升了图像边缘处理的能力。这与DeepLabv3+中加入的解码模块直接相关。另外通过编码-解码结构能够实现对空洞卷积的灵活控制,从而有效地获得编码特征分辨率,使得DeepLabv3+在精度和效率之间达到了平衡。图像分割经典算法MaskR-CNN是一种实例分割算法。该算法对FasterR-CNN进行扩展,在图像中每个感兴趣区域(RegionofInterest,ROI)上添加一个用于预测分割掩码的分支,与FasterR-CNN原有的分类和回归分支并行。MaskR-CNN的基本结构如下图所示。与FasterR-CNN不同的是,MaskR-CNN算法对ROI使用ROIAlign矫正。ROIAlign是为了修正偏差而提出的一个简单、量化的自由层,以保留精确的空间位置。图像分割经典算法2.实例分割MaskR-CNNFasterR-CNN使用ROIPooling实现了ROI从原图区域到卷积区域的映射,并将特征池化到固定大小,最终将输入区域的尺寸归一化成卷积网络的输入尺寸。在归一化的过程中,会出现ROI和提取特征不重合的现象,从而导致特征丢失。为了解决这一问题,在MaskR-CNN中提出了ROIAlign的概念,使用ROIAlign层对提取的特征和输入的感兴趣区域进行校准。采用双线性内插法计算在ROI中固定的4个采样位置得到的输入特征值;并对结果进行融合得到矫正后的ROI;然后对每一个ROI通过全卷积神经网络预测不同实例所属的分类;最终得到兴趣目标实例分割的结果。图像分割经典算法MaskR-CNN的网络结构如下图所示,可以分为2个分支。第1个分支是原始FasterR-CNN,第2个分支是FCN。FCN作为第2分支,作用是将FasterR-CNN检测到的候选区域先进行像素矫正,然后添加掩模并对其进行分割。FCN的输入为经过像素矫正后的ROI特征图,输出目标的掩模矩阵。图像分割经典算法1图像分割经典算法目录图像分割简介2训练图像分割网络3本节使用COCO2017数据集训练Deeplabv3+和MaskR-CNN。MSCOCO(MicrosoftCommonObjectsinContext)由微软在2014年出资标注而成,COCO竞赛与ImageNet国际计算机视觉挑战赛一同被视为计算机视觉领域比较受关注和权威的比赛。COCO2017数据集是一个评估计算机视觉模型性能的数据集。数据集以场景理解为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置的标定。图像包括328000影像和2500000个标注。目前为止,COCO2017数据集是语义分割的最大数据集,提供的类别有80类,有超过33万张图片,其中20万张有标注,整个数据集中个体的数目超过150万个。训练图像分割网络COCO2017数据集的图像分类、目标检测、语义分割、实例分割标注结果如下图所示。训练图像分割网络相较ImageNet数据集而言,COCO2017数据集分类较少,但是每个分类的实例对象比ImageNet数据集多。COCO2017数据集有91个分类,其中82个分类都有超过5000个实例对象,有助于更好地学习每个对象的位置信息,在每个类别的对象数目上也是远远超过PASCALVOC数据集。与其他数据集相比,COCO2017数据集有更多的对象场景图像,有助于显著提升模型学习细节的能力。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论