第 12 章智能图像语义分割技术

上传人：长*** IP属地：湖南上传时间：2025-11-19 格式：PPT 页数：98 大小：21.56MB 积分：15 举报 版权申诉

已阅读5页，还剩93页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第12章智能图像语义分割技术本次课程内容2.语义分割概念基础4.ALEXNET网络基础1.知识回顾3.语义分割类型5.基于全卷积网络分割6.其它常见分割算法机器学习概念1.知识回顾3发展历史4/slides/20175/slides/2017神经网络的结构6/slides/2017卷积层全连接层卷积神经网络CNN-ConvolutionalNeuralNetworks7/slides/2017卷积层8/slides/2017卷积层9/slides/2017卷积层10/slides/2017卷积层11/slides/2017卷积层12/slides/2017卷积层13/slides/2017卷积层14/slides/2017卷积层15/slides/2017卷积层16/slides/2017参数个数17/slides/2017参数个数18/slides/2017参数个数19/slides/2017参数个数20/slides/2017参数个数21/slides/2017全连接层22/slides/2017多层CNN23/slides/2017软件架构24/slides/2017计算图25/slides/2017计算图26/slides/2017计算图27/slides/2017计算图代码28/slides/2017典型的网络结构/slides/2017典型的网络结构/slides/2017典型的网络结构/slides/20172.语义分割概念基础语义分割（semanticsegmentation）是计算机视觉中十分重要的领域。图像语义分割：根据图像的语义（蕴含的含义）来进行分割，即指定图像中每个像素的类别，即实现像素级别的分类像素级分割也就是根据语义标注出图像中每个像素所属的对象类别查文献的关键词：pixel-wisesegmentation语义分割实例图像语义涉及理解：每幅图像中都蕴含一些信息每幅图像就是一个”故事场景”(Animageisastory)图像语义举例某图像语义分割实例ClementFarabet,CouprieC,NajmanL,etal.LearningHierarchicalFeaturesforSceneLabeling[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013.图像中含有语义语义分割的应用自动驾驶医学影像诊断面部分割，用于表情分析精准农业目标对象分割/watch?v=ATlcEDSPWXY自动驾驶动态分割实例36/watch?v=ATlcEDSPWXY图像语义分割与目标检测的区别分割精度有区别语义分割：像素级分割，将每个像素指定类别目标检测：只需给定包含目标的最小区域即可，窗口级图像语义的本质

分割目标是将一张RGB图像（height*width*3）或是灰度图（height*width*1）作为输入，输出的是分割图输出图像的每一个像素的类别标签（height*width*1）图像语义的本质常使用使用低分辨率的预测图表示分割结果分割图的分辨率应与原始输入的分辨率相匹配图像语义的本质使用独热编码（onehotencoding）编码对类标签进行处理，实质上是为每个可能的类创建相应的输出通道one-hotcode---就是有多少个状态就有多少比特

通过argmax将每个深度方向像素矢量折叠成分割图单目标实例及分割结果多目标实例及分割结果（1）单实例与多实例分割

/slides/20173.语义分割类型实例分割：对图像中的每个像素划分出对应的实例类别实例分割关键：区别开不同的实例

（2）语义分割与实例分割的区别分割的数据集43http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html4.ALEXNET网络基础常见分割技术应用类别：

自然图像分割（naturalimage）：方法趋于成熟，目前算法及数据集多数针对自然图像

医学图像分割语义分割技术的演化传统的基于学习的策略：使用TextonForest和随机森林分类器进行语义分割基于深度学习的方法，最初出现了图像块（patch）分类方法，即利用像素邻域块对每一个像素进行独立的分类。网络通常含全连接层（full

connected

layer），且要求固定尺寸图像。例如Imagenet（AlexNet）

：KrizhevskyA,SutskeverI,HintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C]//InternationalConferenceonNeuralInformationProcessingSystems.2012.46基于图像块（patch）分类的实例/slides/2017滑动窗口取patchAlexNet47Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.AlexNet以准确率84.6%赢得了ILSVRC-2012，由Krizhevsky等人提出。AlexNet包含5个卷积层，3个全连接层，结构如下图所示：48AlexNet工作的主要原理第1层—第2层—Maxpooling—第3层—Maxpooling—45层—Maxpooling—全连接Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.5个卷积层，3个全连接层，结构如下图所示：AlexNet的网络框架Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.第一层为输入层，就是一幅224X224X3的image，第一个卷积层，kernel是11X11X3每个11X11X3的图像区域卷积操作成为一个新的像素点的一个信道。卷积的步长(stride)为4，说明224X224被卷积成为是55X55的大小50Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.51第一层Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.第1层Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.第2层的输入特征及卷积核53Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.第2层的一个核的卷积计算54进行Maxpooling池化操作，目的是：在尽量不丢失图像特征前提下，对图像进行下采样（downsampling）Maxpooling55Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.56第2层卷积核形状为5X5X48共256个，每个GPU利用128个Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.第2层的128个核卷积后的结果57Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.58Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.第2层双GPU结果Thethirdconvolutionallayerhas384kernelsofsize3×3×256connectedtothe(normalized,pooled)outputsofthesecondconvolutionallayer.每个核执行一半卷积，即为192个第3层59Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.选择了4096个全尺寸的卷积核对最后一层卷积层（13*13*256）输出的图像做卷积，每一个全尺寸卷积之后，其实都只得到1个数，4096个核就得到了4096个数，有两个GPU一起完成，每个2048个神经元三个全连接层60Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.AlexNet最后使用全连接层，将原来二维特征图转换成一维的固定长度的特征向量，表示输入图像属于每一类的概率，以此作为分类的标签例如，如果得到一个长度为1000的输出向量,表示输入图像中涵盖每个类别的概率,其中在“tabbycat”这一类统计概率最高，所以分类标签为“tabbycat”。缺点：丢失了空间信息，输出结果仅仅是一个类别，与输入图像像素不对应AlexNet全连接层主要原理61Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.网络结构中具有：

六千万的参数以及65万个神经元

五个卷积层（其中一些卷积层后面跟着最大池化层)和3个全连接层

利用softmax函数实现了1000个类别的分类

AlexNet的优点62Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.Sutskever和GeoffreyHinton训练了一个大规模深度卷积神经网络模型收集更大的数据集，采用了Dropout的正则化方法避免过拟合将ImageNet

LSVRC-2010数据集中的120万张高清图片分类到1000个不同类别利用高效的GPU实现卷积操作进一步通过该模型的变体在ILSVRC-2012的竞赛中取得了优异的成绩

AlexNet的优点63Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.ILSVRC（

LargeScaleVisualRecognitionChallenge）即ImageNet比赛：/challenges/LSVRC/ILSVRC（ImageNetLargeScaleVisualRecognitionChallenge）是计算机视觉领域具权威的学术竞赛之一，代表了图像领域的最高水平。由斯坦福大学李飞飞教授主导，ImageNet数据集包含了超过1400万幅全尺寸的有标记图像。每年从ImageNet数据集中抽出部分样本，例如，2012年比赛的训练集包含1281167幅图像，验证集包含50000张，测试集为100000张。ILSVRC竞赛的项目主要包括：图像分类与目标定位、目标检测、视频目标检测、场景分类建立ImageNet数据集为ILSVRC竞赛提供资源64建立ImageNet数据集为ILSVRC竞赛提供资源65/slides/2017数据集构建ImageNet中高分辨率图像约1500万张，类别约22000个，带标签（监督）通过对图片的采样，获得固定分辨率256X256

AlexNet工作的优点66Krizhevsky,Alex,I.Sutskever,andG.E.Hinton."ImageNetclassificationwithdeepconvolutionalneuralnetworks."InternationalConferenceonNeuralInformationProcessingSystems2012.AlexNet存在的主要问题出现的问题

采用全链接网络（FullConnectedLayers—FCN）进行处理要求：输入图像分辨率是固定尺度的

改进措施：全链接层换为全卷积层/hjptriplebee/AlexNet_with_tensorflow/stephen-v/tensorflow_alexnet_classify68

基于tensorflow的AlexNet功能实现[1]Imagenet:KrizhevskyA,SutskeverI,HintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C]//InternationalConferenceonNeuralInformationProcessingSystems.2012.[2]LeNet:LecunY,BoserB,DenkerJS,etal.BackpropagationAppliedtoHandwrittenZipCodeRecognition[J].NeuralComputation,1989,1(4):541-551.[3]SimonyanK,ZissermanA.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition[J].ComputerScience,2014.[4]SzegedyC,LiuW,JiaY,etal.GoingDeeperwithConvolutions[C]//2015IEEEConferenceonComputerVisionandPatternRecognition(CVPR).IEEE,2015.其它典型工作69ReLU非线性处理ReLUs不需要再对输入进行泛化来防止饱和，加入局部归一化可以帮助提升模型的泛化能力，无需对输入数据进行归一化来避免饱和。这种反应归一化通过一种模仿生物神经元的横向抑制使用Nair和Hinton的ReLUs神经网络，快速处理,效率很高，比标准的神经网络要快3到5倍多GPU并行训练由于训练样本过大，将神经网络分布在两个GPU上，每个GPU上执行一半的网络核，比单GPU网络所需的训练时间要少。数据增强AlexNet使用了两种形式进行数据扩充，在GPU训练前，由CPU上的Python代码产生的，代价很小其它典型工作[1]的主要原理702014年，加州大学伯克利分校的Long等人提出FCN分割方法，在不带有全连接层的情况下能进行密集预测。分割图像可以是任意大小，FCN提高了处理速度FCN为语义分割技术的发展奠定基础5.基于FCN的语义分割71提出的FCN是一种端对端（end-to-end）分割结构利用真实数据（groundtruth）及标签作监督FCN实现像素级（pixelwise）的预测（prediction），得到预测的labelmap。5.基于FCN的语义分割72CNN适合图像级的分类和回归任务通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(featuremap)映射成一个固定长度的特征向量。例如：AlexNetAlexNet期望得到输入图像的一个数值描述（概率），输出一个1000维的向量表示输入图像属于每一类（例如猫、狗等）的概率(借助softmax归一化得到)CNN与FCN区别（1）73FCN可以实现对图像进行像素级的分类，解决语义分割问题FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的featuremap进行逐级上采样,恢复到输入图像的尺寸FCN通过逐级下采样、上采样过程，利用标签数据作监督，建立由原始输入图像与每个像素预测标签（分类类别）之间的多层映像关系CNN与FCN区别（2）74将现有的CNN网络（如AlexNet）作为网络的编码模块，用转置卷积层作为解码模块，将低分辨率特征图上采样至全分辨率（与输入图像分辨率相同），从而得到分割图由于像素级（pixe-wise)语义分割需要输出整幅图像每个像素的分类，要求网络输出的特征图应该是二维的在CNN（ALEX）基础上需要替换掉全连接层，改换为卷积层，即将最后三个全连接层替换为卷积层FCN设计的主要思想75全连接层和卷积层两类层的神经元都是计算点积，它们的函数形式是一样的。因此，将此两者相互转化是可能的。把全连接层转换为卷积层，实际上是用一个和输入的图像一样大小的卷积核去做这个操作假设一个输出为4096的全连接层，输入数据体的尺寸是7∗7∗512，这个全连接层可以被等效地看做一个Kernel=7,P=0,S=1,numout=4096的卷积层。

即将滤波器的尺寸设置为和输入数据体尺寸一致，结果就和全连接层作用是一样的把全连接层转换为卷积层的路线76设计卷积层用于像素的类别的预测如果卷积特征尺度与输入图像一致，复杂度很高FCN设计的主要思想77/slides/2017设计中采用卷积层：包括下采样upsampling和上采样downsamplingFCN设计的主要思想78/slides/2017Long,Shelhamer,andDarrell,“FullyConvolutionalNetworksforSemanticSegmentation”,CVPR2015池化操作通过局部区域的采样（平均池化或最大池化）获得下采样分辨率上池化（Unpooling）操作通过较低分辨率的局部信息，重新采样，分配给高分辨率的邻域空间上采样的措施79/slides/2017MaxUnpooling上采样的措施80/slides/2017Typical3x3convolution,stride1pad13x3convolution,stride2pad1卷积概念的回顾81转置卷积（transposeconvolutions）是最常用的上采样方法与转置卷积相反，传统的卷积运算会将卷积核权重与当前值进行点积，并为相应输出位置产生单个值。转置卷积会先从低分辨率的特征映射中得到单个值，再用该值与卷积核中所有权重相乘，然后将这些加权值映射到输出特征图中转置卷积:1DExample利用转置卷积进行上采样82采样FCN分割的工作原理83对原图像进行卷积conv1、pool1后原图像缩小为1/2对图像进行第二次conv2、pool2后图像缩小为1/4进行第三次卷积操作conv3、pool3缩小为原图像的1/8，此时保留pool3的featureMap再对图像进行第四次卷积操作conv4、pool4，缩小为原图像的1/16，保留pool4的featureMap最后对图像进行第五次卷积操作conv5、pool5，缩小为原图像的1/32FCN的层次卷积结构(1)84Long,Shelhamer,andDarrell,“FullyConvolutionalNetworksforSemanticSegmentation”,CVPR2015把的全连接变成卷积操作conv6、conv7，图像featureMap数量改变，图像大小依然为原图的1/32，此时featureMap成为热图heatMap根据精度要求，需要跨层连接：把conv4中的卷积核对上一次upsampling之后的图像进行反卷积补充细节（相当于插值），最后把conv3中的卷积核对刚才upsampling之后的图像进行再次反卷积补充细节，最后就完成了整个图像的还原FCN的层次卷积结构(2)85Long,Shelhamer,andDarrell,“FullyConvolutionalNetworksforSemanticSegmentation”,CVPR2015限于精度问题，由于不能够很好地还原图像当中的特征，向前迭代，借助低层细节特征还原跨层融合粗细语义，能学习得到较好的语义特征，得到满意的空间预测结果FCN设计中的跨层连接86损失函数是最后一层空域中的损失和，可以利用各层梯度损失的和计算求得：FCN设计中的损失函数87利用已经训练好的supervisedpre-training的网络，无需从头训练，只需要微调fine-tuning即可，训练效率高In-networkupsamplinglayer：对中间得到的featuremap做bilinear上采样，就是反卷积层，实现把卷积与转置卷积结合考虑，conv的前传和反传过程对调一下即可采用skiplayer（跨层）的方法，在浅层处减小upsampling的步长，得到浅层精细特征fine-layer和高层得到的coarse-layer作融合，然后再upsampling可以得到准确的预测FCN方法优点88得到的结果不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。对像素进行分类，没有充分考虑像素与像素之间的关系。忽略了像素类别的空域一致性规则FCN语义分割方法缺点89现有主流方法中的问题：AlexNet：全连接层结构，在分割问题中很难实现像素精准分类，适用于图像级别分类FCN：分类结果的精细不够，对像素级类别分割精确有待于提高，池化层中所舍弃的位置信息需要保留人们提出了两个不同形式的结构来解决这个问题编码器-解码器(encoder-decoder)结构空洞卷积的结构6.

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第 12 章智能图像语义分割技术

文档简介

温馨提示

最新文档

评论

第 12 章 智能图像语义分割技术

文档简介

温馨提示

最新文档

评论

相关文档

第 12 章智能图像语义分割技术