【卷积神经网络概述3300字】_第1页
【卷积神经网络概述3300字】_第2页
【卷积神经网络概述3300字】_第3页
【卷积神经网络概述3300字】_第4页
【卷积神经网络概述3300字】_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卷积神经网络概述Fukushima于1988年受到猫的神经的启发,提出了这种网络结构REF_Ref68536463\r\h[77]。然而,受到当时算力的限制,并没有得到广泛的关注。在20世纪90年代,LeCun等人提出了基于梯度下降的卷积神经网络,并极大地提高了手写数字分类REF_Ref68536528\r\h[78]的准确率之后,一些研究者们在多个方面改善了CNN,并在许多目标检测任务中都相比于传统方法大大提升了性能。与ANN相比,CNN具有多个优点,包括与人类视觉处理系统更相似,在结构上以高度优化的形式处理2D和3D图像以及在学习和提取2D抽象特征方面非常有效。CNN的多层卷积堆叠可有效处理形状变化。卷积神经网络在与模式识别相关的各个领域都取得了突破性的成果。从图像处理到语音识别。CNN的最有益方面是减少ANN中的参数数量。这一成就促使研究人员和开发人员都采用更大的模型来解决复杂的任务,而传统的人工神经网络则无法做到。假设使用基于梯度最小化损失的算法来训练整个网络,那么CNN可以产生高度优化的权重。图2-2描述了CNN的总体架构,在该图中,每个小框代表一个神经网络“单元”或“神经元”。这些特征图是通过与特征提取内核进行卷积操作而生成的。输入图像的大小为某一个固定像素大小的二维矩阵,但是在该字段的边界周围填充了足够的空白像素,以避免在卷积计算中产生边缘效应,并返回输入图像可能的单字符解释的有序列表,以及每种推导的置信度得分。图中详细阐明了输入图像经过多层卷积操作后所最终产生的特征图。此外神经元之间的加权连接是高度结构化的。图2-2.卷积神经网络的总体架构[78]前馈神经网络由于具有更好的性能而被用作分类层REF_Ref68538731\r\h[79]REF_Ref68538733\r\h[80]。在分类层中,相对于最终神经网络的权重矩阵的维数,选择将所需数量的特征作为输入。然而,就网络或学习参数而言,全连接层的计算量是昂贵的。反向传播算法已被广泛用作前馈多层神经网络中的学习算法。反向传播应用于具有一层或多层隐藏层的前馈人工神经网络。基于该算法,网络学习输入层和输出层之间的分布式关联图。通常,多层感知器的困难在于以有效的方式计算隐藏层的权重,从而导致最后的输出错误。要更新权重必须计算出一个误差。在输出层误差很容易测量,即实际输出与目标输出之间的差异。但是,在隐藏层,无法直接观察到该误差。因此,必须使用其他技术来计算隐藏层的误差,这将导致输出误差最小化。接下来本文将研究几种流行的CNN架构。目前深度神经网络已经被广泛使用,而且有一些研究者们一直在不断地提出新的网络结构。但是这些新提出的网络结构仍然遵循着最开始网络的设计理念。一些经典的例子有LeNetREF_Ref68536528\r\h[78]、AlexNetREF_Ref68538997\r\h[81]、VGGNetREF_Ref68539006\r\h[82]、NiNREF_Ref68539082\r\h[83]和全卷积REF_Ref68539157\r\h[84]等。后来,一些研究者们又提出了一些更为高级的模型,包括带有Inception单元的GoogLeNetREF_Ref68539249\r\h[85]REF_Ref68539250\r\h[86]、ResNetREF_Ref68539343\r\h[87]、DenseNetREF_Ref68539525\r\h[88]和FractalNetREF_Ref68539537\r\h[89]。这些体系结构中的基本结构组件(如卷积和池化)基本一致。但是,在目前的人工智能领域中观察到了一些拓扑差异。在许多DCNN架构中,AlexNet、VGG、GoogLeNet、DenseNet和FractalNet,由于在目标检测任务上的性能而被认为是最受欢迎的架构。在所有这些结构中,某些体系结构是专门为大规模数据分析而设计的(例如GoogLeNet和ResNet),而VGG网络被认为是通用体系结构。一些架构在连通性方面很密集,例如DenseNet、FractalNet都是ResNet的替代产品。AlexNetAlexNet是AlexKrizhevesky在2012年提出的相比于LeNet更深更广泛的深度卷积神经网络,同年,获得了视觉目标检测竞赛(ILSVRC)的冠军。在当时AlexNet一跃获得了最好的精度和准确率,大幅超过了当时所有传统的机器学习算法,在人工智能领域中的目标检测和分类中取得了重大突破,成为了深度学习技术发展的里程碑事件。本文在图2-3详细阐述了AlexNet的网络框架。第一卷积层包含了局部响应归一化(LRN)操作,卷积操作和最大池化操作,第一层卷积中包含了96种不同初始化方式的卷积滤波器,卷积核的尺寸为11×11。最大池化操作是使用步长为2的3×3滤波器执行的。在第二层中使用5×5的过滤器执行相同的操作。在具有384、384和296个特征图的第三、第四和第五卷积层中使用3×3滤波器。使用两个全连接(FC)层,并带有Dropout操作,最后是一个Softmax层。AlexNet第一次将局部响应规范化(LRN)和Dropout引入到深度神经网络当中。LRN可以按照两种方式来执行:第一种即在单个通道或特征图上进行使用,首先从同一特征图中选取一个N×N大小的切片,然后根据这个切边周边的邻域值对其进行归一化。第二种可将LRN应用于所有的通道或所有的特征图(沿三维方向的邻域,但只有一个像素或位置)。图2-3.AlexNet的总体架构[81]AlexNet相比于LeNet网络深度更深,总共包含了三个卷积层和两个全连接层,每个卷积层后面都伴随一个激活函数。在使用ImageNet数据集进行训练时,AlexNet需要计算的第一层卷积参数量可以按以下方式计算:输入样本尺寸为224×224×3,卷积核的大小为11,步长为4,于是可以得出第一卷积层的输出为55×55×96。最终可以计算出第一层具有290400(55×55×96)个神经元和364(11×11×3=363+1偏差)权重。第一卷积层的参数为290400×364=105705600。VGGNetVGG是2014年ILSVRC的亚军。VGG相比于AlexNet进一步加深了网模型的深度,而且将一些大尺度的卷积核全部更换为小尺度的卷积核,VGG证明了神经网络深度是CNN实现更好的识别或分类准确性的重要影响因素。如图2-4所示,VGG在其中使用具有非常小感受野的滤波器:3×3(这是捕获左/右,上/下,中心的概念的最小尺寸)。在VGG的一种版本中,VGG还利用了1×1卷积滤波器,这可以看作是输入通道的线性变换(其次是非线性)。卷积步长固定为1,加入空间填充层是为了在卷积后保持空间分辨率不变,即对于3×3卷积而言,填充为1像素。空间池化由五个最大池化层执行,这五层分别在卷积层后面。最大池化操作在步长为2的2×2窗口上执行。堆叠的卷积层(在不同体系结构中具有不同的深度)之后是三个全连接(FC)层:前两个全连接层每一个具有4096个通道,第三个全连接层执行1000个类别的ILSVRC分类,因此包含1000个通道(每个类一个)。最后一层是Softmax层。在所有网络中,完全连接的层的配置都是相同的。所有隐藏层都具有非线性激活函数。VGG的各种版本均不包含局部响应规范化(LRN)图2-4.VGG网络的总体架构[82]ResNetVGG的深度还是不能满足一些研究者们的好奇,于是KaimingHe在ILSVRC2015中提出的残差网络架构ResNet获得了同年的冠军。ResNet相比于VGG进一步加深了网络的深度,同时为了解决深度增加带来的梯度消失问题,ResNet设计了一种残差式的连接方式,使得该网络在加深深度的同时不会遇到之前工作所面临的梯度消失问题。ResNet具有许多不同层的版本,34、50、101、152,甚至1202层。流行的ResNet50在网络末端包含49个卷积层和1个全连接层。整个网络的权重总数和MAC分别为25.5M和3.9M。ResNet体系结构的基本框图如图2-5所示。ResNet是具有残差连接的前馈网络。可以基于来自定义为前一层的的输出来定义残差层的输出。为执行各种操作后的输出(例如,使用不同大小的滤波器进行卷积,批归一化(BN),然后是激活函数,例如ReLU)。残差单元的最终输出为,可以用以下公式定义: (2-1)若干个基础的残差块组成了最终的残差网络。而且根据残差网络的框架不一样,这些残差块的操作也可以自由变化。Zagoruvkoel在2016[90]年提出了更广泛的残差网络版本。并在同年提出了另一种改进的残差网络方法,称为聚合残差变换[91]。最近,基于残差网络架构[92][93][94],提出了残差模型的其他一些变体。此外,已经提出了几种将初始单元和残差单元结合起来的高级体系结构。图2-6显示了初始-残差单元的基本概念图。从数学上讲,这个概念可以表示为 (2-2)图2-5.ResNet网络的总体架构[87]图2-6.Inception-Residual单元的基本概念图[85]符号表示融合计算了3×3和5×5卷积核的输出。随后使用1×1滤波器改变了输出特征的通道数,最后将输出与相加。最近,在Inception-v4体系结构中引入了具有残差连接的Inception块的概念REF_Ref68550013\r\h[95],又提出了被称为PolyNet的Inception-Residual网络的改进版本REF_Ref68550025\r\h[96]。DenseNetDenseNet相比于ResNet具有更紧密的结构,是由GaoHuang等人在2017年开发的,目前被广泛应用于目标检测领域,并成为了多种计算机视觉任务的骨干网络。DenseNet网络连接了每一层的输出与所有后续层。因此,各层之间具有紧密的连接性,因此被称为DenseNet。从结构来看,DenseNet对于特征重复利用非常有效,这可以大大减少网络参数。DenseNet中存在着若干个密集块和过渡块,这些块交替连接。DenseNet的网络结构如图2-7所示。图2-7DenseNet的基本结构[88]在DenseNet中,每一层都将前面的所有特征图作为输

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论