第7章 图像分类_第1页
第7章 图像分类_第2页
第7章 图像分类_第3页
第7章 图像分类_第4页
第7章 图像分类_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图像分类主要内容学习目标理解图像分类概念;掌握卷积神经网络特性及组件;掌握经典卷积神经网络框架。学习目标图像分类任务指的是将输入图像划分到不同的类别当中,使得产生的分类误差达到最小。图像分类是计算机视觉的核心任务,实际应用范围广泛,是许多下游任务的基础。实际上,深度学习的发展史就是人们沿着图像分类这条道路不断探索的过程。1图像分类介绍ILSVRC竞赛ILSVRC(ImageNetLargeScaleVisualRecognitionChallenge)是计算机视觉领域最具权威的学术竞赛之一。各个研究团队在给定的数据集上评估其算法,并在几项视觉识别任务中争夺更低的错误率。从2010至2017年,ILSVRC每次举办都会引起计算机视觉领域的广泛关注。ILSVRC竞赛主要包含六项任务:图像分类(Classification)、目标定位(Objectlocalization)、目标检测(Objectdetection)、视频目标检测(Objectdetectionfromvideo)、场景分类(Sceneclassification)、场景解析(Sceneparsing)。从2018年起,由WebVision竞赛接棒。其中的数据不再是人工标注的数据集,而是从网络中直接抓取,尽管难度远超从前,但更加贴近实际应用场景。ILSVRC图像分类任务图像分类任务指的是将输入图像划分到不同的类别当中,使得产生的分类误差达到最小。图像分类是计算机视觉的核心任务,实际应用范围广泛,是许多下游任务的基础。实际上,深度学习的发展史就是人们沿着图像分类这条道路不断探索的过程。常用数据集ImageNet是目前世界上图像识别领域最大的公开数据集,也是最常用的数据集,ILSVRC中所用的数据集也仅仅是ImageNet的子集。ImageNetMINISTCIFAR-10CIFAR-100Fashion-MNIST在计算机视觉图像分类算法的发展中,MNIST是一个非常经典的数据集,可以看作是数据集中的“HelloWorld”,是首个具有通用学术意义的数据集基准。CIFAR-10数据集由60000个32x32彩色图像组成,不同类别相互独立,无任何重叠情况。CIFAR-100和CIFAR-10类似,由60000张32x32尺寸的彩色图片组成,与CIFAR-10不同的是,CIFAR-100中100种类别实际是由20个类(每个类又包含5个子类)构成。Fashion-MNIST数据集是一个用于替代MNIST手写数字集的图像数据集。它是由一家德国的公司制作,完全对标原始MNIST数据集,无论是大小、格式和训练集、测试集划分都与原始MNIST一致。评价指标混淆矩阵混淆矩阵是衡量分类模型准确度中最基本,最直观,计算最简单的方法。通过混淆矩阵我们可以得到最基本的四个指标。真实标签为正样本,预测结果为正样本的数目为TruePositive,简称TP。真实标签为正样本,预测结果为负样本的数目为FalseNegative,简称FN。真实标签为负样本,预测结果为正样本的数目为FalsePositive,简称FP。真实标签为负样本,预测结果为负样本的数目为TrueNegative,简称TN。1评价指标One-errorOne-error:计算预测结果中概率最大的标签不属于真实标签的次数。值越小,性能越好。具体公式如下式::HamminglossHammingloss:被误分类的样本的个数。例如,不属于这个样本的标签被预测,或者属于这个样本的标签没有被预测。值越小,性能越好。具体公式如下式:23

图像分类任务指的是将输入图像划分到不同的类别当中,使得产生的分类误差达到最小。图像分类是计算机视觉的核心任务,实际应用范围广泛,是许多下游任务的基础。实际上,深度学习的发展史就是人们沿着图像分类这条道路不断探索的过程。2全连接网络缺陷全连接网络缺陷使用三层全连接网络在迭代3次后,模型的准确率已经达到了86%。随着迭代次数的增多,准确率还将得到进一步提升,一切看起来似乎如我们预想的那么顺利,但是真的是这样吗?表象实际即使输入的图片仅仅是28*28的单通道灰度图像,参数量仍然高达21万,如此巨大的参数量严重影响了计算速度。当使用高分辨率的三通道图像来说来说,计算量更加庞大。此外全连接网络反向传播的有效层数也只有4-6层,更多的层数会导致反向传播的修正值越来越小,无法训练,导致即使是最简单的手写数字识别任务,准确率也无法符合实际需求。图像分类任务指的是将输入图像划分到不同的类别当中,使得产生的分类误差达到最小。图像分类是计算机视觉的核心任务,实际应用范围广泛,是许多下游任务的基础。实际上,深度学习的发展史就是人们沿着图像分类这条道路不断探索的过程。3卷积神经网络原理卷积神经网络感受野感知机模型实现网络热点随后,日本学者Kunihiko在此基础之上提出了感知机模型,提出使用卷积层来模拟视觉细胞对特定图案的反应、使用池化层模拟感受野的方法。早在20世纪60年代,神经生物学家DavidHubel和TorstenWiese在对动物的脑皮层神经元进行研究时受到启发,提出了感受野这一概念。这被人们认为是卷积神经网络的第一个实现网络,此后越来越多的科研人员加入到了对卷积神经网络的研究当中。至今,卷积神经网络已经成为众多科研领域的研究热点之一。相较于传统的神经网络,卷积神经网络最大的优势是其采用了局部连接和权值共享的思想。1324局部连接局部连接指的是卷积层的节点仅与前一层的部分节点相连接,这块局部区域被称作感受野。局部感知结构的设计思想来源于科学家对动物视觉系统的研究,研究者发现在感知过程中动物的神经元并非全部生效,这一机制启发了研究者:在计算机视觉中,图像由若干像素点组成,这些像素点之间的联系并不统一,像素点只会与它周围的像素点产生较为紧密的联系,这种联系与像素之间的距离呈正相关。基于这一思想,在提取特征时并不需要图像中所有像素,只在不同的区域内分别进行特征提取更贴合大脑的感知过程。如图所示,局部连接的思想减少了网络中的参数量,加快了训练速度。尽管在参数量方面相较于全连接网络有一定下降,但剩余的参数量仍然巨大,我们仍然需要更高效的方法进一步降低参数量。局部连接示意图权值共享每个10*10的区域都要有一个对应的权重矩阵W,在1000*1000的图像中会产生10000个这样的权重矩阵,每个矩阵包含100个参数。这就是庞大参数量的来源。但对于同一个权重矩阵W来说,它不仅可以在一个区域内提取特征,在其他区域也适用,因此我们可以让这100个权重矩阵之间的参数共享,那么我们只需要训练一个共享的权重矩阵W即可,这就是权重共享。通过权重共享的方法我们可以将参数量降至100。当然还有一个问题,一个共享的权重矩阵只能提取某一种特征,所以我们需要设置多个权重矩阵来获取不同方面的特征。即使设置多个共享的权重矩阵,参数量也远小于不适用权重共享的情况。权值共享示意图图像分类任务指的是将输入图像划分到不同的类别当中,使得产生的分类误差达到最小。图像分类是计算机视觉的核心任务,实际应用范围广泛,是许多下游任务的基础。实际上,深度学习的发展史就是人们沿着图像分类这条道路不断探索的过程。4卷积神经网络组件卷积层在图中,卷积核与输入图像转化成的数字矩阵对齐,从左上角开始滑动,在滑动过程中数字矩阵与卷积核中元素进行卷积运算(1*0+0*1+5*2+3*3=19)。以此类推,我们就可以得到新的特征图。所谓步长,就是指卷积核每步所移动的距离。设置步长就是控制感受野的常用手段。但是有些时候我们希望卷积后图像尺寸不变。此时我们可以在图像外围填充一些0像素,拓宽原始图像的尺寸,抵消卷积操作造成的尺寸上的缩减。卷积示例步长示例填充示例卷积层了解上述概念后,可以通过一个简单的公式计算出输出特征图的尺寸。假设输入图像为一个W×W的矩阵,卷积核的大小设置为F×F,步长为S,填充像素数为P,则输出特征图的尺寸公式如下:激活函数激活函数(Activationfunctions)对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。线性可分:在简单情况下,如图(a),数据是线性可分的,我们可以通过一条直线来完成对样本的分类。线性不可分:大多数场景中,如图(b),线性模型的复杂度有限,其表达能力不足以完成分类,于是我们需要引入一些非线性因素来增强模型的表达能力。这就是激活函数的作用。池化层最大池化会选择该位置及其相邻矩阵区域内的最大值,并将这个最大值作为该区域的输出值。平均池化会计算该位置及其相邻矩阵区域内的平均值,并将这个平均值作为该区域的输出值。全局最大池化和全局平均池化与最大池化、平均池化思想一致,但不同的是它们没有步长的概念,它们针对的是整个特征图,每个特征图经全局最大池化或全局平均池化后输出一个值。池化是一种常用的下采样操作。在卷积层中获得特征图后需要对这些特征进行整合、分类,但直接将特征提取的结果输入到分类器中会面临巨大的计算代价。因此需要对提取的特征进行池化处理。常用的池化操作包括最大池化、平均池化、全局最大池化、全局平均池化等。最大值池化均值池化池化层123作用池化操作可以让模型更加关注输入图像中是否包含某种特征而不是特征具体的位置,其机制有效保证了特征的平移不变性、尺度不变性和旋转不变性。池化层的引入是通过仿照人的视觉系统对输入图像进行降维和抽象。总的来说,池化层的作用可以归纳为以下几点:特性不变性:池化对输入图像的宽度和高度做了维度削减,从而使模型可以抽取更大范围内的特征。同时在降维过程种去除了部分重复冗余的信息特征降维:通过减少参数量在一定程度上缓解了过拟合,更方便优化。方便优化:图像分类任务指的是将输入图像划分到不同的类别当中,使得产生的分类误差达到最小。图像分类是计算机视觉的核心任务,实际应用范围广泛,是许多下游任务的基础。实际上,深度学习的发展史就是人们沿着图像分类这条道路不断探索的过程。5经典卷积神经网络LeNet5LeNet5网络结构LeNet5结构较为简单,它包括了卷积层,下采样层和全连接层,最后通过softmax分类器进行多分类输出,包括了基本的卷积神经网络的主要单元。但在当时,由于对硬件要求过高和其他算法的存在,导致LeNet5并没有得到广泛的关注。1989年,纽约大学的YannLecun就开始使用卷积神经网络进行手写数字的识别任务,他将通过反向传播算法训练的卷积神经网络应用于识别手写邮政编码数字上,这项工作被称为是卷积神经网络的雏形。AlexNetAlexNet网络结构2012年Hinton和他的学生AlexKrizhevsky设计了一种大型的深度卷积神经网络——AlexNet,给卷积神经网络带来了历史性的突破。如图所示,AlexNet含有五个包含池化操作的卷积层以及三个全连接层。由于GPU的内存限制,所以使用了两个GPU进行并行训练。而以目前GPU的处理能力,单GPU足以支持AlexNet训练。图为合并后的AlexNet网络结构图。合并后的AlexNet网络结构AlexNet特点246531层数提升至8层,相较于LeNet5有更好的特征提取能力;提出ReLU函数:Sigmoid在网络结构层数较深时会出现梯度弥散,AlexNet首次将激活函数ReLU引入到了卷积神经网络中,其在深层的网络结构中效果更佳;Dropout:在训练过程中使用Dropout随机使部分神经元失活,提高了模型的泛化能力,抑制过拟合;提出了局部响应归一化层LRN,增强了模型的泛化能力;交叠池化:在LeNet5中使用的池化方案是无重叠的,即无步长概念。AlexNet首次提出了池化时的步长,提升了提取特征的丰富性;通过分组卷积减少参数量。VGGNetVGGNet由牛津大学计算机视觉组(VisualGeometryGroup)和GoogleDeepmind共同设计,包含了VGG11,VGG13,VGG16等一系列网络模型。如图所示,与AlexNet结构类似,VGG网络的组成可以分为8个部分,包括五组带有池化操作的卷积层以及三个全连接层。VGG16网络结构VGGNet特点2431层数提升至19层,探究了卷积神经网络的深度和其特征提取能力之间的关系。用小尺寸卷积层堆叠的方式替换大尺寸的卷积层,参数量更少,计算量更低。而且可以在卷积层之间增加非线性映射提高模型泛化能力。结构十分简洁,整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)取消了AlexNet中提出的LRN,因为在实践中发现LRN的设计会影响卷积神经网络性能。VGGNet可以看作是AlexNet的加深版本,它主要研究了网络深度对模型准确度的影响,证明了更深的网络可以更好的进行特征提取。其特点可以汇总为以下几点:GoogleNetGoogLeNet由Google公司的Christian等人设计,在2014年的ILSVRC(和VGGNet同年)的比赛中以较大的优势获得图像分类任务冠军。GoogLeNet采用了模块化设计的思想,引入了一种新的结构——Inception模块,这使得GoogLeNet的网络结构十分复杂。InceptionV1网络结构但也得益于Inception模块,GoogLeNet在控制参数量的同时还取得了非常好的性能,Top-5错误率降低到6.6%。Inception模块结构如图所示。GoogleNet特点010203引入了Inception模块,提取出了不同尺度的特征图,并实现特征融合;网络最后放弃了全连接层,转而使用平均池化,大大减少了参数量;增加了两个辅助分类器帮助训练,使得模型可以更好的收敛。ResNetVGGNet将卷积神经网络的深度加深到19层,并且证明网络的层数对于模型的识别能力至关重要,层数越深,越能更好的提取特征。GoogleNet也将网络层数加深至22层,但是越深层的网络收敛的速度就越慢,当损失值趋于饱和之后甚至会出现梯度爆炸的情况,导致无法收敛,尽管正则化等方法可以缓解此类问题,但又会导致退化现象发生。2015年,何凯明团队设计了ResNet并在2015年的ILSVRC比赛中夺冠,最引人注意的是,ResNet最深网络深度达到了惊人的152层。何凯明团队在ResNe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论