【基于深度学习的图像语义分割方法及实验探究8200字】

上传人：E*** IP属地：湖北上传时间：2026-07-03 格式：DOC 页数：15 大小：1.39MB 积分：15 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

附录PAGE25基于深度学习的图像语义分割方法及实验探究目录TOC\o"1-3"\h\u271581.1深度学习基础 126791.1.1前馈网络 1180411.1.2卷积神经网络 585031.2基于深度学习的图像语义分割方法 8292161.1.1基于FCN网络的图像语义分割方法 8296141.1.2基于DeepLap网络的图像语义分割方法 928391.1.3基于U-net网络的图像语义分割方法 10178721.1.4基于GAN网络的图像分割 11213021.3方法比选实验 12289311.3.1评价指标 1224451.3.2数据集介绍 13241441.3.3数据预处理 14267061.3.4实验结果与分析 15本章主要讨论了基于深度学习的图像语义分割方法。首先介绍了全连接神经网络（MLP）、卷积神经网络（CNN）的计算概念；接着简要概述了基于深度学习的图像语义分割方法，包括全卷积神经网络（FCN）、U-net网络、Deeplab网络和生成对抗（GAN）网络；对比各个网络的网络结构和语义分割结果，分析各个网络的优缺点，为本文的GAN网络设计提供基础。1.1深度学习基础数据的抽象高维特征可以很好的表达数据的本质属性，而以神经网络为基础的深度学习同样关注于这样的数据特征。深度学习在特征工程的良好变现，使得深度学习被广泛应用于各个领域，吸引了众多研究人员关注。在本节主要介绍了深度学习的基础，以及用于图像语义分割的经典网络。1.1.1前馈网络神经元和激活函数是神经网络的两个重要概念。自然神经元作为高级动物神经系统的基本组成单位[41]，其结构如图1.1所示。自然神经元主要由细胞体和神经树突两个部分共同组成，对信息起着传递和整合的作用。人工神经元（以下简称神经元）是根据自然神经元的信息处理能力建立的数学模型[42]。图1.1自然神经元如图1.2所示，蓝色圆圈表示一个神经元，这个神经元可以看作是一个只有一个神经元的神经网络。图1.2人工神经元图1.2中X(𝑥i，𝑦𝑖)表示输入信息，（x1,x2,x3,x4）表示输入的4个特征，其输出H可以由公式（1.1）表示。其中W为权重参数，经由网络训练而得，f为激活函数可自行定义，b为网络得偏置参数，由训练得到。（1.1）激活函数是深度学习的基础概念，其作用是改变网络的线性结构，非线性单元的引入，可以提高网络处理数据的能力。在实际应用领域的数据集中，大多数问题都是非线性模型。如果只简单的使用线性模型处理这些数据，是无法达到预期的处理目的。非线性单元的引入可以极大的提高网络处理数据的能力。sigmoid函数因为其导数的特殊性常被当作激活函数使用，relu函数以及relu函数的多种变体因为计算简单也常作为激活函数使用，另一个常用于激活函数的是tanh函数，此外还有其他激活函数不在此一一列举。作为最早被作为激活函数使用的sigmoid函数应用广泛，这得益于其特殊的函数性质。sigmoid函数的表达式如公式（1.2）所示，其函数图像如图1.3所示。图1.3激活函数sigmoid函数图像（1.2）sigmoid函数可以被用于激活函数的主要有两个方面的原因。第一，sigmoid函数的输出范围为[0,1]，第二，sigmoid函数非常简单的求导方式。Sigmoid的导数可以用公式（1.4）表示。（1.3）正如公式（1.4）所示，sigmoid的倒数可以直接由原函数表示。在神经网络的训练过程中，sigmoid函数特殊的求导结果可以简化网络计算。但是从图1.3可以看出sigmoid函数具有软饱和性的缺点。图1.3中显示，sigmoid函数在两个无穷大区域，其导数值都趋近于0，这对于网络的参数更新是极其不利的。训练网络时，一旦进入该区域，那么网络的训练极有可能面临梯度弥散的问题，使得网络参数无法更新，网络模型难以训练。另一个经常使用的激活函数是tanh函数，函数图像如图1.5所示，函数表达式为公式（1.4）。图1.4激活函数tanh函数图像（1.4）正如图1.4所示，tanh函数同样具有软饱和的缺点，也会使得神经网络面临梯度弥散的难题；tanh函数也有其他优点，第一，tanh函数的输出是对称的，第二，从图中可以看出在非饱和区域，tanh函数的梯度较大，这可以加快网络参数更新的速度。ReLu函数的是神经网络常用的另一激活函数，其函数图像如图1.6所示，其函数表达式为公式（1.5）。图1.5激活函数ReLU函数图像（1.5）与tanh函数与sigmoid函数不同，使用ReLU函数为激活函数，神经网络在训练时可以更快的更新参数并快速的收敛。同时ReLU函数的计算简单，降低模型的计算复杂度。此外还有ReLU的衍生函数LeakyReLU、PReLU作为神经网络的激活函数，其表达式和函数图像如表1.1所示，它们都具有ReLU函数的优点，能在神经网络的参数更新过程中快速收敛，而具有不饱和的特点，计算简单。表1.1ReLU的衍生函数表达式和函数图像函数名LeakyReLUPReLU表达式，k为常数，图中k=0.5k取自连续性均匀分布概率模型的随机变量，其中l<u，且0≤l，u<1函数图像——前馈神经网络是神经网络的前向过程，是某个函数的数学模型[43]。对于分类模型来说，前馈网络可以定义为y=f(x;W)，其中y为输出类别，f为网络的抽象函数，W为网络学习而得的权重参数。网络模型设计完成后，使用足够的数据进行训练，不断更新网络参数，直到网络具有较好的分类结果和泛化能力，这时就可以获得满足条件的权重参数。图1.6为前馈神经网络的结构示意图，正如图中所示，网络的输入经过网络中各个神经元，经过计算获得最终输出。在这一过程中，输出与输入之间没有连接，前馈网络与反馈连接常常共同使用组成完整的神经网络。图1.6前馈网络示意图图中的网络结构可以用𝑓1,𝑓2,𝑓3三个抽象函数表示，𝑓(x)是𝑓1,𝑓2,𝑓3的复合函数，x为网络的输入经过输入层输入神经网络，𝑓1和𝑓2是网络的隐藏层，用于提取输入的抽象特征，𝑓3作为网络的输入层，用于输出网络的计算结果。神经网络经过训练，权重参数会不断更新，最终网络的输出不断接近真实值。1.1.2卷积神经网络传统的神经网络以感知机和分类器为基础，使用感知机网络的特征提取功能，提取输入数据的高级特征信息，再经过分类器网络输出结果。与传统的神经网络不同卷积神经网络包含卷积层和采样层，用以特征提取[44]，可以更加有效的得到原始数据的特征表达。卷积神经网络有两个明显的特点，第一是数据交互的稀疏性，第二是卷积层的参数共享[45]。传统的神经网络使用的全连接结构，如图1.7所示。正如图中所示，全连接结构的神经网络，每个参数都对应了所有输入之间的关系，每个参数都包含了一定的全局信息。这样的网络结构会带来巨大的参数量，随着需要处理的数据量的增加，全连接层数增加，网络需要更新的参数激增，这对于训练是极其不利的。卷积神经网络通过数据交互的稀疏性很好的避免了这一问题，卷积核的尺寸远小于输入数据的尺寸，每个参数仅仅记录局部信息。使用卷积神经网络处理图像、视频以及语音数据时，仅需要训练较少的参数用以提取特征信息。这样可以减少训练的参数量，加快模型的训练。图1.7全连接网络示意图参数共享作为卷积的另一重要特点，卷积的参数共享如图1.8所示。传统的全连接神经网络每次更新权重矩阵时，仅单次使用矩阵中的参数，带来了大量的参数冗余。而在参数共享的卷积神经网络中，并没有过多的冗余，而是训练一个参数集合，将这个参数集合在特征图上进行卷积运算，计算各个位置的结果，并非对于每个位置都有一个独立的参数与之对应。权重共享的卷积网络可以极大的减少模型训练的参数量，降低存储需求，同时也能减少参数更新所需的计算空间。图1.8参数共享示意图图1.8表示的是卷积核尺寸为3×3的卷积运算，可以看出只有x1，x2，x3与s2直接相关，并对其产生直接影响，而在图1.7中是全连接形式的矩阵乘法运算，其中能影响输出单元s2的是每一个输入单元。从图中可以看出，全连接的神经网络感受野远大于稀疏连接的神经网络感受野。但是这对整个卷积神经网络的感受野影响并不大，如图1.9所示，在深层卷积中的神经元间接的与多个输入单元相连，这等同于扩大了感受野。位于深层卷积的神经元间接的与浅层多个神经元连接，深层网络提取的特征图在一定程度上可以代表输入的全局信息。图1.9感受野示意图典型的卷积神经网络由三级组成[46]，分别为卷积仿射变换、探测级的非线性变化和批量正则化。卷积仿射变换主要是通过不同的卷积核产生线性激活响应；引入非线性激活的探测级，增加网络的非线性能力；最后为批量正则化，加快网络模型训练的速度。图1.10卷积网络三级结构图池化函数通过特征图某一位置的临近信息来表示这一位置的特征信息。常见的池化方式有平均池化、线性插值法、最大池化。虽然池化具有平移不变性，并且至占用较小的计算资源，但是池化具有的缺点也时明显的。池化只能根据定义好的计算方式进行数据更新，不能像卷积层或者全连接层具有自我学习的能力。同时池化在进行数据处理的时候会丢失特征信息，特别是当该池化层具有较大量的平移不变性时，池化会极大的丢失特征。池化层是特征图局部统计的结果，可以减小特征图的尺寸，从而减少网络的训练参数，提高网络的训练速度。1.2基于深度学习的图像语义分割方法基于深度学习的图像语义分割方法在图像分割领域占有重要的地位，基于深度学习的图像语义分割方法以CNN为基础，发展出了FCN网络、Deeplab网络系、U-net网络，本节研究了各个网络的结构，分析其优缺点，为后续研究奠定基础。1.1.1基于FCN网络的图像语义分割方法卷积神经网络（Convolutionalneuralnetwork，即CNN）因其独特的特征提取功能，常作为一种视觉模型使用于各类图像任务中[47]。CNN在全图类的图像分类任务中取得了优异的结果，同时也在关注图像局部特征的目标追踪等任务上变量出强大的潜力。经典卷积网络主要由卷积层，池化层和全连接层组成；卷积层用来提取图像的高维特征信息，池化层用于压缩高维特征，全连接层将高维特征映射为输出。与CNN不同的FCN网络没有全连接层，被用于图像语义分割任务，并且取得了成功。与普通的CNN不同，FCN网络没有全连接层，而是用卷积层代替原有的全连接层[32、48]。这样做的目的有两个，第一，FCN网络不再固定输入图像的尺寸；含有全连接层的普通CNN网络，需要确定全连接层参数矩阵的形状，卷积层则不用。第二、FCN网络可以保留图像空间特征信息；使用全连接作为出的神经网络，实际上是统计高维空间的特征信息用以输出，这会丢失原有的空间特征。而FCN网络则不会出现这样的情况，FCN网络通过上采样拟合高维数据特征，从而完成像素级别的密集分类。如图1.11所示，FCN使用了反卷积和跳跃结构。从图1.11中可以看出，在Alexnet的基础上设计的FCN的卷积层不会改变特征图的尺寸。每个卷积层紧接着一个池化层，池化层会将特征图进行压缩，将输出尺寸压缩为原特征图的1/2。例如输入图像的尺寸为c×c，经过5次卷积和池化后特征图的尺寸为c/32×c/32，在经过上采样就可以得到与原图像相同尺寸的分割结果。FCN网络的输出结合了第三次、第四次和第五次卷积的共同结果，分别对当前卷积结果所得的特征图上采样，得到相同尺寸的特征图，最后得到更好的分割结果。图1.11网络结构示意图总体来说，FCN网络是首个用于图像语义分割的网络模型，提出了像素级别的分类思想。其全卷积的思想使得网络输入的图像尺寸不再固定，采用跳跃结构从不同的网络层提取不同尺寸的特征信息，可以丰富分割细节。这样的做法在后续的网络模型中均有应用，但是FCN网络的设计没有足够的上采样，上下文信息缺失，这样的设计缺陷，限制了FCN的分割精度提高。1.1.2基于DeepLap网络的图像语义分割方法Deeplab网络作为另一个在图像语义分割领域的主要网络，在图像分割领域占有重要地位。Deeplab发展出了Deeplab-v1、Deeplab-v2、Deeplab-v3、Deeplab-v3+网络模型。Deeplab-v1主要分析了网络中存在的两个问题，第一、下采样和池化降低特征图的分辨率，并且丢失位置信息；第二、特征图细节丢失导致精度下降。针对这两个问题Deeplab-v1的解决办法是使用空洞卷积的同时，引入全连接条件随机场（Fully-connectedConditionalRandomField，即CRF）[34]。加入CRF可以有效提高分割精度。从感受野特点出发的空洞卷积，分析了感受野的特点，使用不同的空洞率来缓解特征图分辨率下降的问题。Deeplab-v2是在Deeplab-v1的基础上发展出来的网络，Deeplab-v2网络的分割任务与Deeplab-v1相比在图像中存在多尺度的分割目标，在Deeplab-v2网络中利用不同膨胀因子的空洞卷积融合多尺度信息，用以完成多尺度目标的分割任务[35]。Deeplab-v3网络分析了多尺度目标的分割方法，将解决方法分为四类，如图1.15所示。图1.12中（a）使用图像金字塔将图像按照一定的方法缩放为不同的尺寸，经过网络训练获得多尺度的特征信息；（b）则是使用Encoder-Decoder结构融合不同尺度的特征信息，（c）使用串行的空间金字塔提取不同尺寸的特征，（d）使用并行的空间金字塔结构融合多尺度的特征。通过这些分析，Deeplab-v3仍然使用空洞卷积防止分辨率过低，同时使用串行或者并行的空洞卷积提取上下文特征。Deeplab-v3摒弃了Deeplab-v1和Deeplab-v2的CRF结构，而是优化了并行的空洞卷积模块和深层网络的空洞卷积[36]。图1.12不同尺寸目标的分类方式对比图Deeplab-v3+作为Deeplab系列的最新成果，其分割精度具有很大的提升，Deeplab-v3+的网络结构如图1.13所示。Deeplab-v3+网络是将原DeepLabv3当作Encoder模块，添加Decoder模块而得到的新模型[37]。图1.13Deeplabv3+网络结构示意图Deeplab-v3+同时使用空间金字塔模块和Encoder-Decoder模块，如图1.14所示。空间金字塔结构用以提取不同尺度的特征信息，Encoder-Decoder结构用来恢复分割目标的边缘特征。图1.14Deeplab-v3+中的Encoder-Decoder结构图Deeplab系列从开始使用神经网络和全连接条件随机结合的方法到最新摒弃条件随机场。网络的设计一直保持从卷积的感受野出发的空洞卷积，获取不同尺度的特征信息。为了提高精度恢复边缘信息从Deeplab-v1的全连接条件随机场到最新的Encoder-Decoder结构，一直都关注与多尺度信息的提取与融合，如何恢复目标的边缘信息。Deeplab系列的这些做法都在一定程度上提高了分割精度，促进了语义分割研究的发展。1.1.3基于U-net网络的图像语义分割方法基于Encoder-Decoder的另一个网络是U-net网络[38]，其网络结构如图1.15所示。U-net网络的上采样操作使得输出图像更加精细化，这也使U-net网络在较小的医学数据集上有优异的表现，常常被用于医学图像的分割。图1.15U-net网络结构U-net网络主要由两个部分构成，左边部分是由卷积和下采样组成的Encoder过程，Encoder过程主要起到提取图像的高维特征和减小特征图的作用；右边部分是由反卷积和上采样组成的Decoder过程，Decoder过程的作用是拟合Decoder过程提取的高维特征，同时使得获得的特征图变大获得与原图相同尺寸的分割结果。U-net网络将Encoder过程中产生的低级特征传入Decoder过程，在Decoder过程中进行低级特征和高级特征的融合。后续的U-net++借鉴了稠密网络的思想，将每次下采样Encoder过程中所得的特征信息经过处理都传递至Decoder的每次解码过程[49]。1.1.4基于GAN网络的图像分割基于GAN网络的图像语义分割[39、50]为图像语义分割提供一个新的思路。以分割网络作为生成器，获得原图像的分割图像；使用判别器进一步提高分割精度。基于GAN网络的图像语义分割网络结构如下图1.16所示，这个网络由分割网络和判别网络两个部分组成。生成器是一个以CNN网络为基础的分割网络，右半部分是判别网络。分割网络的输入是原图像，输出是分割图像；判别网络的输入有两种情况，分割标签和原图像、分割结果和原图像，输出是判断判断类别。图1.16基于GAN网络的图像语义分割网络结构示意图基于GAN网络的图像语义分割在训练时，首先训练判别网络，接着训练生成网络，再训练判别网络，依次循环，最终达到纳什均衡，获得训练结果。通过上文的研究发现，基于深度学习的图像语义分割算法都舍弃了全连接层，都以全卷积网络为基础设计网络。这样的网络模型不但可以减少模型训练的参数，而且不在约束原图像的尺寸，同时可以避免全连接层带来的空间信息丢失。其次，基于深度学习的图像语义分割算法都将分割问题描述为像素分类问题，关注于网络结构的改进。网络的改进又集中体现在以下几点，第一，提取不同尺度的特征信息，不论是FCN的跳跃结构还是Deeplab的空洞卷积以及U-net网络都是在提取不同尺度的特征信息；第二，提取上下文信息，FCN、U-net和Deeplab都使用不同的方法，提取上下文信息；第三，边缘信息的恢复，FCN网络处理边缘信息相对粗糙，而U-net和Deeplab-v3网络则是都使用Encoder-Decoder结构解决这一问题。基于Encoder-Decoder结构的U-net网络，网络在向下的Encoder过程和向上的Decoder过程中产生了大量不同尺度的特征信息，而Encoder-Decoder结构又能解决分割目标边缘模糊的问题。U-net网络结构简单，网络改进方向多样，以U-net网络作为GAN网络的生成模型是及其合适的，本文由此选定使用U-net网络作为GAN网络的分割网络（生成模型）。1.3方法比选实验1.3.1评价指标图像语义分割的常用指标有执行时间、内存占用、像素精度、平均交并比。网络的执行时间是有价值的度量，有些系统需要保证计算速度满足实时的需求。内存占用是衡量分割方法的另一个因素。内存占用是网络性能的另一指标，尤其是在内有限得平台内存就显得非常重要。本文关注图像语义分割的结果，选用像素精度度（Pixelaccuracy，PA）为被正确分来的像素占图像总像素的比例，平均交并比（MeanIntersectionoverUnion，mIoU）作为图像语义分割重要的评价指标，是真实值和预测值两个集合的交际和并集的比值，是类内交并比的均值。PA的计算公式如公1.6所示，mIoU的计算公式如公式1.7所示（1.6）（1.7）假定图像语义分割的结果有k+1类（包括k个目标类和1个背景类），表示本属i类却预测为j类的像素点，具体地，表示属于。类预测为i类的像素点，表示本属j类却预测为i类的像素点。1.3.2数据集介绍PascalVOC2012数据集是一个在图像处理领域被广泛使用的公开数据集，在图像分类，图像检测和图像的分割的对比实验与模型评估中被频频使用。VOC2012数据集用于分割任务时，训练集为2007-2011年的图像，测试集为2008-2011年的图像，包含有2913张图片共6929个物体。其中人物1类，包含有鸟等6类动物，包括自行车等7类交通工具，包括餐桌等室内物品共6类，数据集分割目标共计20类，图像背景为第21类。语义图总共有21种，颜色类别与颜色的对应关系如图1.17所示。图1.17VOC2012图像分割类别和对应的颜色在VOC2012数据集的文件加中有5个文件夹，如图1.18所示。图1.18VOC2012数据集的文件夹组成其中ImageSet包含了4个文件夹，如图1.19所示，本文关注Segmentatio文件夹，其中存放的是可用于分割的图像数据，train.txt包含用于训练的1416张图想、val.txt包含用于测试的1449张图图像，以及trainval.txt的2913张图像。图1.19ImageSet文件夹的组成JPEGImages文件夹包含了VOC2012数据集的所有17125张图像，图像形状不同。SegmentationClass保存了图像语义分割后的标签图（png格式）。1.3.3数据预处理VOC2012数据集中包含大量的图像数据，这些图像数据形状大小不一，数据格式不通，不能直接作为神经网络的训练数据，需要进行图像预处理。首先将原图的训练集和测试集从原数据集中分离开来，其次由于JPEGImages文件夹中的图片大小不一，无法直接传入神经网络，需要对图像进行处理，最后语义分割后的标签图与原图的文件格式不同，也需要转换成相同的文件格式。在VOC2012数据集的文件结构中发现，用于语义分割的图像信息存放在Segmentatio文件夹中，通过读取train.txt，val.txt中的文件名将训练集和测试集分开，使其没有重叠部分。读取到图片以后，针对图像尺寸不一的问题，本文首先将图像较长的一边缩放为256，接着以此比例为准，等比例缩放较短的边，将图像统一处理为256×256的形式，处理后的结果如图1.20所示。这样的处理方式避免带来形变，从而影响实验结果。图1.20预处理后的图像经过预处理的图像，仍然保留了原图像的数据特征，没有发生形变，并且形状都是256×256，通道为3的RGB图像，都是以PNG的格式存储。处理后的图像具有相同的维度特征，且保留了原有的数据特征，可以作为网络的输入图像，用以训练网络模型。1.3.4实验结果与分

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【基于深度学习的图像语义分割方法及实验探究8200字】

文档简介

温馨提示

最新文档

评论

【基于深度学习的图像语义分割方法及实验探究8200字】

文档简介

温馨提示

最新文档

评论

相关文档