【《相关机器学习算法综述》11000字】_第1页
【《相关机器学习算法综述》11000字】_第2页
【《相关机器学习算法综述》11000字】_第3页
【《相关机器学习算法综述》11000字】_第4页
【《相关机器学习算法综述》11000字】_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关机器学习算法综述目录TOC\o"1-3"\h\u9254相关机器学习算法综述 1273831.1卷积神经网络 1152541.1.1算法背景及结构 1302011.1.2卷积神经网络结构 2122241.2残差网络 3160071.1.1提出ResNet残差网络原因 3146031.1.2ResNet的结构 48671.1.3ResNet的进一步改进 6110991.3深度残差收缩网络 6164841.3.1深度残差网络基础 6134801.3.2软阈值化及阈值的要求 8284681.3.3深度残差收缩网络的网络结构 995301.4注意力机制的引入 1038641.4.1前言 10140451.4.2注意力研究进展简介 11132821.4.3软注意力的注意力域 11129331.5DenseNet网络 1375451.5.1基本概述 1341511.4.2DenseNet网络结构 141.1卷积神经网络1.1.1算法背景及结构机器学习算法的最基本设计思想是以感知机模型为设计基础的。在1955年左右,感知机模型就开始吸引了众多机器学习爱好者的重视。在一般情况下感知机只能处理线性解的问题,但是对于非线性的问题就会出现不可分的情况。通过一个数学实验证明,简单输入的数据都是线性且不可分割的,感知器就能够做到在有限次数内做到收敛,收敛后的一个解被称为一个超平面的参数集,平面参数集可以做到分类。但是在我们的现实生活中,感知器所需要处理和解决的线性传播问题往往都是非常复杂的,由于多层感知器没有有效的线性训练技术方法以及线性激活的函数也会直接导致线性不可分割的问题,依据上述问题后来又引入了反向传播算法(BackPropagation,BP)和非线性激活的函数就解决了上述问题。CNN基础的结构是由三个组成部分共同设计构成的,分别是卷积层(Convolution)、激活层(Activation)和池化层(Pooling)[22]。CNN在处理图像分类问题时,会将其输出的结果也就是每张图形的特征空间作为全连接层(FullyConnectedNeuralNetwork,FCN)的输入,全连接层的作用是完成图像到标签的相互映射,即完成了图像分类的问题。整个网络模型结构除了完成整个模型的搭建,还需要通过训练原始数据进行网络参数的调整,调整网络参数就需要使用到反向传播算法进行网络参数的迭代更新,例如VGG就是比较主流的卷积神经网络。对于图像来讲通道深度是其基础的概念,它被广泛地应用来描述图像的某种形式和组成方法,平时照相机拍摄出来的所有图像都必须是由红、绿、蓝三种通道共同组成的,用矩阵就可以将其表示成一个深度分别为3的二维矩阵,每个通道深度的取值区间范围大约是0到255之间。与其相对的灰度图来说,它是一个比较简单的图像组成方式,它仅仅只有一个通道,可以用一个二维矩阵来描述和表示,可取的范围也大约是0~255。0代表为黑色,255代表为白色。CNN最基本的操作就是卷积操作,卷积的目的就是为了从图像中提取特征,它可以从图形数据中学习基本特征,并且还可以保存图像像素之间的基本关系。在提取图像特征的过程中需要一个特征提取器也被称为核(Kernel),其实质的作用就是二维空间滤波,在图像上滑动滤波器与其相乘的结果称为特征图,选择不同的滤波器会产生不同的特征图。可以对图像做到诸如锐化处理、模糊化处理或者边缘化处理。举个简单的例子假设输入图像的位置坐标定义为x,y,卷积核值的大小可以用下列方法设置定义为p×q,kernel权重可以设置定义为ω,图像的亮度值设置定义为ϑ,卷积的过程也就是kernel所有的权重与它在每个输入图像上相同的对应元素的亮度之和,可以用下列方法表示convx,y如果一个图像的信息量特别大,在进行处理的时候就会很多耗费大量的计算机资源,为了有效地解决这个计算量巨大的问题,CNN引入了空间池化(SpatialPooling)。空间池化也被称为下采样,它的优点是可以保住图像中大部分的重要信息的同时,将特征图的维度降低到更低。其中池化的方法大致可分为平均化、最大池化(Max-pooling)等。对于最大池化,其主要操作就是首先定义一个图像空间的领域,如该领域的大小为3×3,按照一定的规则将其修正成一个相应的值,然后取这个池化的区域中最大的值,以这个最大的值作为该图像的每一个像素值。平均池化和加和池化也是利用了相同的方法,来获得不同的结果。一般来讲最大池化时所保留的是图像某一块区域内的最大匹配值,也就是保留了该区域内某一块图像的最优匹配结果,因为这个值越接近1表示该区域匹配效果越好。所以在池化层中更多关注的应该是某一块区域被匹配得到了,不是再关注具体那一块区域被匹配。CNN通过在其中加入了池化层,解决了计算数据量的问题,同时也减轻了机器的工作负担。1.1.2卷积神经网络结构(1)激活函数激活函数的主要作用就是为了向现实问题引入一些非线性因素,因为对复杂的问题来讲这些线性因素的表达能力远远不够,常见的激活函数主要有ReLu、Sigmoid、Tanh等。其中ReLu函数经常被广泛应用在卷积层当中,而其他两个被激活的函数则经常被广泛应用在整个连接层当中。ReLu函数可以作用于感知器,首先接受各个输入,然后将每个输入进行求和,最后将结果通过激活函数进行输出,如图1.1所示。图1.1激活函数作用图在卷积神经网络中,选取ReLU函数作为激活函数是因为该函数的求梯度比较简单,而且收敛过程较快。计算的过程也是比较简单的,当输入的值为负数时,它输出值为零,当它输入的值为正数的时候,就会原样输出大小。(2)全连接层全连接层也可以说是一个多层次的感知器,经过卷积层和池化层处理过后的图像数据,会被传送到该图像中得到它高层次特征,全连接层的功能就是通过使用这些高层次特征把输入的图像根据大量训练数据来进行分类。在模型进行训练的时候,将图像数据输入到模型中进行训练,就会获得全连接层的权重。在利用这些模型对结果进行识别时,会根据之前的模型训练给出的最大权重,还会对卷积的一系列操作进行加权和求和,从而可以得到各个结果的最大预测值,然后再选取最大预测值的方式作为识别的最终结果。所以对于特征的提取和分类识别是卷积神经网络的主要组成部分。1.2残差网络1.1.1提出ResNet残差网络原因深度学习网络探索过一个问题,网络的深度是不是越深,得到的分类效果的准确率越好。以VGG网络为例[23],该网络层数越深会面临网络退化的现象。以普遍的经验来讲,网络的层数越深,其网络结构就会越复杂,学习到的特征信息就会越多。但是网络层次数的无限制增加同样也可能会给我们带来其他的问题,首先可能会过多地消耗大量的计算时间和资源,训练后得出的模型还是容易经过拟合,甚至可能还会有梯度消失/梯度爆炸等问题出现。因为从经典的CNN五层网络LetNet-5发展到后面网络层数更高的GoogleNet,一般来讲深度学习网络层数越深,其可以提取到的图像信息就会越丰富,但是当CNN网络增加到更深的网络层次之后,其分类效果和较浅的CNN网络相比反而就会越差,会出现网络退化的情况。网络退化的表现就是loss值在前期的时候会下降,但是随着网络层数的不断增加,网络的训练性能就会趋于饱和,然后就会出现训练集loss值不降反增的情况。为了解决网络退化情况的出现,然后就有了一个恒等映射的思想,如果浅层网络训练的效果优于更深层次网络的效果,那么把浅层网络的特征直接传给更高的网络层次,效果也不会比浅层次的网络效果差。因此后来就提出一个ResNet残差网络结构[24]。从信息论的理论来讲,随着网络层数的不断增加,网络层数越深,特征图所含的图像信息就会越少,恒等映射机制的引入,可以保证网络的下一层信息可以比上一层信息更加丰富,模型的训练过程也会加快。ResNet网络的引入并不是对CNN网络的否定,每种网络结构在解决不同的问题时产生的效果也是不同的。例如在网络层数需求较少的时候,可以选取CNN网络,相对于残差网络其健全的网络层数结构可以更多的提取数据的信息,为后面模型的训练效果起到更好的作用。1.1.2ResNet的结构ResNet网络是在VGG19网络的基础上改进过来的,与其不同的是加入了具有短路机制的残差模块。在网络结构上也有一些不同,ResNet使用全局平均池化的方式代替原来网络中的全连接层,而且使用卷积进行下采样的操作。ResNet的设计思想是,用featuremap数量替换featuremap的大小,当其大小减少一半的时候,数量就会增加一倍,虽说改变了featuremap大小,但是没有改变网络的复杂性。由于这种残差对于网络层的深度影响可以很大,甚至最高层也能够达到1000层,如此复杂的网络结构,其所需要的参数量也是十分巨大的,因此运算量也是个严峻的问题。为了解决这一问题,设计了一个很巧妙的方法,先对其进行下采样,然后经过卷积操作再对其进行上采样以降低运算量。如图1.2所示,图的左边代表的是基本的残差快,图的右边代表的是瓶颈残差块。瓶颈残差块通过巧妙的改变特征图的维度使得输出不影响下一层网络,确实缩小了网络训练的时间,对模型的训练精度也没用影响。图1.2两种残差块深度学习网络都是由一些基本的单元所组成的。残差网络也不例外,它同样是由一系列残差快组成,并且这些残差块的拼接过程也是有规律的,其基本网络结构如图1.2所示。也可以由公式2-1表示。 xl+1这里所讲的残差网络由残差部分和直接映射两部分所组成,图1.3左侧箭头部分表示直接映射,F(xl,Wl)是残差部分,如图图1.3残差块如果在卷积网络中上一层网络xl和下一层网络xl+1在图像特征维度上不一样往往会采用增维/降维的方式来保持一致,升维或降维的操作就会用到1×1的卷积进行操作,还有一种就是通过补0的方式将维度保持一致。如图1.4所示,其表达式为2-2表示。 xl+1=1×1的卷积一般在升维/降维的过程中才被使用,因为在平时的实验中1×1的卷积对模型性能提升是有一定限度的,并不能对模型性能起太大作用。其中h(xl)=W图1.41×1残差块一个由堆积层堆积出来的网络结构,由于残差网络结构的学习比原始特征更容易,当输入该结构的值为x,将其训练学习到的特征值设置为H(x),则它可以学习到的残差Fx=Hx残差网络和传统的CNN网络结构上存在一定的差异,传统的CNN网络就是一层层基本单元的堆叠,而每层基本单元又是在做仿射变换和非线性变换,在该网络结构中仿射变换做的最主要的操作就是矩阵的相乘。所以整体来讲,整个网络就是在乘法运算中堆叠起来的。但是在残差网络结构中,由于恒等映射的出现,将原先堆叠的乘法运算网络直接转换成了相加的形式,从前向传播计算的角度来看,这样的改变可以使得计算变得更加稳定。不管对哪一层网络来讲,比当前网络层数更高层的网络梯度成分∂loss∂1.1.3ResNet的进一步改进激活函数的位置不同可以改变模型的精度,所以合理安排激活函数的位置可以最大化提高模型的精度。普通的残差网络一般都是在进行卷积操作之后进行归一化的操作,将ReLU激活函数放在直接映射单位之后。当2015年的ILSVRC比赛获得第一之后,何恺明对残差网络的结构做出了改进[25],把ReLU激活函数放在了卷积操作之前,而且将原本放在直接映射之前的ReLU函数给去掉,相当于输入和输出相直接相连。由于激活函数放在了仿射变换之前,因此也被称为预激活残差单元(Pre-activationResidualUnit)。图1.5改进后的残差单元1.3深度残差收缩网络1.3.1深度残差网络基础深度残差网络是个十分热门的深度学习网络[15],自其诞生之日起就被广泛的引用,它在各个学术平台上被引进了几万次。深度残差收缩网络就是以残差网络为基础进行修改得到的,后续文章会详细的介绍。普通化的深度恒等残差拓扑网络设计为其在基础上的恒等残差拓扑网络设计做出最大的重要贡献,其中一个贡献就是普通深度恒等残差拓扑网络可以提供恒等残差映射(IdentityShortcut)的思想。与普通卷积模型神经网络模型相比,普通卷积模型神经网络几乎没有任何可能跨越神经网络不同层次的恒等函数映射。如图1.6所示(a)-(c)分别详细展示了三种不同的类型残差处理模块(ResidualBuildingUnit,RBU),三个不同的类型残差处理模块之间最大的一个相同点之处就是它们都已经完全包含了恒等式的映射。不同点指的是在(a)的成果图中,图像中的特征输入和使用图像特征输出的文件尺寸和图片大小应该是相同的,而不是在(b)和(c)的图像中,特征导出输入和使用图像特征输出的图片尺寸大小是不同的。而图1.7展示的是深度残差收缩网络的主体结构部分,它同样是由一层层的残差块堆叠而成的。网络的一开始先是输入,然后进入卷积层,后面紧随着两个残差处理模块。在全局连接层之前有BN层,ReLU激活函数和全局平均池化层。BN层放在激活函数之前的作用就是平滑隐藏层输入的分布,主要就是为了缓解随机梯度下降的权重更新之后对于后续层的影响。其是BN层无论放在激活函数的前面还是后面都是起作用的,只不过对于不同的激活函数效果上会有一些差异。对于常见的sigmoid函数和tanh函数,将它放在这些激活函数之前还能缓解他们梯度衰减之类的问题。(b)(c)图1.6不同结构残差块图1.7深度残差网络主体部分1.3.2软阈值化及阈值的要求在医学图像领域,医学图像样本都是含有噪声的或是含有影像标签准确性的冗余信息,这些噪声和冗余信息的出现会影响模型的训练效果。所以在深度残差网络上引入了一个新的思路,就是在原有的网络上加上了软阈值化的概念,提供一种非线性变换的思路,如图1.8(a)所示。软阈值化的主要思想是,设定一个阈值,如果图像的某个特征的绝对值小于所设定的阈值,就直接将该特征赋值为0。对于图像上的其他特征,将其朝0的方向进行一定程度的“收缩”。由于软阈值化主要在深度残差网络上引入特征收缩的思想,因此也叫深度收缩残差网络。由于在训练模型的过程中会出现梯度消失和梯度爆炸的风险,所以在原有的软阈值化思想上进一步改进了梯度的特性。如图1.8(b)所示,将梯度设置成了两个值,分别为0和1。其思想和ReLU激活函数很类似。在软阈值化的过程中最主要的就是阈值的设定,由于每种样本的噪声背景不同,所以需要根据每种样本的噪声含量设置独有的阈值,另外阈值的设置应该在合理的范围之内并且要为正值,如果输入特征的取值范围在-1和1之间,但将阈值设置为10,输出就会全部为0。会使模型训练的结果出现严重偏差。(b)图1.8软阈值化许多信号降噪都离不开软阈值化,它是最核心的一个步骤。软阈值化的思想可以如下公式所表示。 y=x-δ,x>δ0,-δ≤x≤δ软阈值化输出数据对输入数据进行求导的公式如下: y=1,x>δ0,-δ≤x≤δ1,x<-δ由导数公式可知,所求导的结果就在0和1之间选择,这也应证了软阈值化和ReLU激活函数性质相同的特点。1.3.3深度残差收缩网络的网络结构深度残差收缩网络中最主要的一个基本特点是"收缩"的性质其中软阈值化,软阈值化离不开阈值的设定,所以我们需要一个与SENet[16]相同的结构来自动设定软阈值化函数所需要的阈值。如图1.9(a)所示的特征图就是共同使用了一个通道阈值,在图1.9(b)中每个图像的通道就会各自拥有独立的通道阈值。在1.9(a)这个子网络里,将每个图像的特征点或者图像输入到最左边的一个子网络里,求这些图像的绝对值,然后通过平均和全局的均值进行池化,从而得到一个图像的特征标记作p。在整个网络的最右边,输入的是被整个全局均值池化的网络特征结构示意图,通过这个以Sigmoid激活的函数表示为全连接整个网络的最后一层,将结果归一化之后,得到一个介于0到1之间的值阈值就可以用P来表示。由此可见,阈值是一个特征图上的绝对值与一个0至1的数字相乘所形成的平均值。所以在此网络结构下既能够保证设定阈值为正数,又不会过于巨大。而且也可以使得每个图像特征都有各的阈值可以设定。(b)图1.9残差收缩网络残差块下图分别展示了深度收缩残差网络的两种不同的结构,图1.10(a)代表的是DRSN-CS的网络结构,图1.10(b)代表的是RBUS-CW的网络结构,两种网络结构在整体上没有明显的差别,主要的区别就是在残差模块的选取方面不同。(a)(b)图1.10深度残差收缩网络的网络结构1.4注意力机制的引入1.4.1前言注意力(Attention)在日常生活中是是非常常见的一个概念,只不过不会被刻意留意。举个例子,当抬头望向天空的时候如果看到一只鸟儿在天空中掠过,我们会注意到天空中鸟儿的身影,而不会过多的关注于天空的背景。同样的道理,当人们看到纸上写的遗传数字的时候,人们会关注于纸上数字的信息,而不会关注纸张的背景信息。对于一般的深度学习算法来讲,它并没有引入注意力相关的机制,当该网络处理一张带有数字信息的图片时,通过各个神经元信息的传递和反馈,深度学习网络是可以进行数字信息识别的。但是,该深度学习算法实现的机制并不是关注于数字的本身,在该结构的眼里图像上的信息都是有相同的权值,不会过多的关注图像上的某一块区域,也不会过多在意图像上的某一个通道。注意力机制在在计算机视觉中也会有广泛的应用,其最主要的思想就是将图像中主要的信息进行关注,将不重要的背景信息进行忽略以减少分类的误差。例如,当我们在阅读书籍的时候会将注意力集中的读书的这件事上,如果有人和读书的人聊天,可能就会对声音的来源不会有太多的注意,此时外部的声源就是噪声。如果读书的人十分不耐烦的阅读文章就会忽略文章里的太多信息,这意味着注意力不是很集中。对于深度学习网络也一样,网络对带有天空背景的鸟儿进行识别时,如果引入注意力机制,就会将算力集中于识别鸟儿自身上。如果将注意力机制应用到医疗影像检测当中,就会产生不一样的效果,模型就会更加注重医疗图像病灶的信息,忽略背景信息所带来的噪声。1.4.2注意力研究进展简介早期的注意力机制一般引入的是赢者通吃的思想,这种思想也被广泛应用在计算机视觉当中,由于这种思想的实现比较过时,不做详细的介绍。在人工智能发展到今天,以往的深度学习算法已经无法适应现实的需求,在深度学习算法里引入注意力机制就变得很有必要了。引入注意力机制一方面可以解决算法对图像识别过程中噪声带来的问题,另一方面可以让深度学习训练的过程更具有解释性,让人们可以更为清楚的观察和理解深度学习网络中的世界。在深度学习中引入注意力机制是十分必要的,注意力机制一般会被分为强注意力和软注意力,软注意力一般采用掩码的方式,掩码的思想就是在图像比较重要的特征区域引入一组权重,模型根据权重来判断该图像区域的重要程度从而形成了注意力的意识。软注意力和强注意力是有比较大的差别的,软注意力更加注重的是图像的区域或是图像的某个通道。因此它注意的特征是比较固定的,可以用数据准确标记的,可以用数据准确标记的特征也可以通过网络进行生成得到。另外一方面,软注意力机制在数学上是可微的,可微意味着在模型的训练过程中,可以通过神经网络的向前传播方式和反向传播的进行注意力的调参,也就是权重的调整。强注意力与其相反,不可微也意味着其训练学习过程是通过增强学习的思想进行的。强注意力机制关注更多的是图像中的某一个像素的点,该点是随机预测得到的,因此其变化也是动态的。 本节将会通过三个不同注意力域来分析注意力机制,这三种注意力域分别是空间域(SpatialDomain)、通道域(ChannelDomain)和混合域(HybridDomain)。另外还有一个时间域,它与其它的注意力域实现过程是不同的,其要通过增强学习的方式来实现,本节不做介绍。1.4.3软注意力的注意力域为了详细概述三种不同注意力域,本节将介绍三种不同的算法进行展现。介绍三种注意力机制通过不同的方式结合深度学习网络来实现更有注意力的深度学习模型。每个算法将通过两个不同的方式进行介绍,首先介绍模型的设计思路,其次在介绍模型的基本结构。(1)空间域对于空间域中的注意力机制,能想到的方法就是将原始图像中的特征转换到一个特征图之中保留原始图像之中最重要的信息,这种思路首次出现在15年一篇NIPS的文章上,它提出了一种SpatialTransformerNetworks(STN)模型[27]。这个模型的构思十分巧妙,通常在卷积神经网络之中,人们为了减少运算量会使用池化的方法来缩减压缩图像的信息,这种方法处理在一定程度上导致了信息的丢失,从而使得最后的结果不会太准确。而该模型则使用了空间转换器的方法,将图像需要注意的模块进行相关映射,提取图像之中最为关键的信息。这种方法避免了信息的丢失,在一定程度上也降低了运算量。(2)通道域在通道域的设计思路当中,可以从信号变换的方面进行了解。基础的信号变换都是可以用正弦波的线性组合来解释的,通常在深度学习里所讲的卷积变化,在信号时频变化中采用的是傅里叶变化,一个频率信号数值是可以代替时域上连续变化的信号波的,这也是通道域注意力的思想原理[28]。 平常的彩色图像都是由三个通道组成的,由(R,G,B)来表示。在将图像送入深度学习网络的训练过程中会经过不同的卷积核操作,操作之后的通道就会产生其他新的信号。假设卷积核是16的,那么通过卷积核的通道就会产生64个新的矩阵(H,W,64),在括号中H,W分别代表的是图片特征的高度和宽度。在卷积核在做卷积处理的过程中,其操作过程就类似于傅里叶变换。就是将特征通道分解成64个不同的信号分量,其实时频变换也大致采用了这样的思想。图1.11不同卷积核被分出的64个不同的信号分量其有效信息的价值也是有多有少的,为了体现每种信号的价值,引入了一个权重矩阵,以此来体现每个信号的重要程度。重要的信息会被赋值大的权重,反之会被赋予小的权重。(3)混合域混合域就是将通道域和空间域结合起来的产物。由于基于空间域的注意力机制忽略的是通道中的信息,简单的将通道中的图像特征进行单一处理,其缺点就是特征的提取只关注于原始图像的特征提取,对于其他通道进行了忽视。而通道域相反,正好忽略了通道内的空间局部信息,这种做法会引入不必要的噪声。为了将两种通道进行优势互补,所以提出了一种混合域注意力机制的概念[29]。 将混合注意力机制和深度学习网络相结合起来应用在图像识别中是个很好的方法,其可以解决背景噪声的问题。例如在深度残差网络中引入了一种软注意力机制的思想,其在软注意力机制中也加入了掩码的思想,为了不让信息在深层次网络学习的过程中丢失,也将上一层网络的信息传递了下来,这样可以让网络延伸的更深。掩码的作用不单单是对空间和通道进行权重的调配,而是也会对每一个特征元素进行权重的分配,这样就会形成通道和空间的混合注意力机制。但是将每一个特征元素都分配权重,会破坏深层次网络的特征信息,而且会大大减弱残差网络固有恒等映射的作用,因此将掩码过后的张量作为输入的同时也将未掩码的张量输入到下一层进行信息的补充,这样可以得到更为丰富的特征。模型的组成是分为了三层。每层的注意力会分成两个不同的方向,最基本的是残差网络结构,它是最主要的一个方向,也叫主分支。另外一个方向是掩码分支,掩码分支最主要的部分就是注意力机制,而注意力机制则是由上采样、下采样以及残差模块组成的。模型结构中比较创新的残差注意力机制是: Hi,cx上式子中,输出的结果是注意力机制的模块,F代表的是上一层网络的图像信息,M代表的是掩码的权重参数。这个式子就构成了残差注意力模块,输出的结果可以直接传入到下一层网络当中去,f函数就是为了得到不同注意力域的结果。 f1x f2x f3xf1f2xi1.5DenseNet网络1.5.1基本概述与其它卷积网络相比,密集卷积网络(DenseNet)抛开了一般网络通过加深网络深度和加宽网络结构的方式来提高模型的精度的方式而是引入了一个全新的思维方式[30],通过对ResNet和Inception网络进行思想上的借鉴,得到了一个与以往相比不同的网络结构。为解决深度网络中参数量庞大的固有问题,引入了对特征重用及旁路配置的思想。虽然这个网络中的各种参数都被大大降低了,但是模型的效果反而更加出色。在结合信息流和特征复用的基础,DenseNet成为计算机视觉领域很热门的深度学习网络。卷积神经网路在增加模型精确度的方面一直有一个思维定式,以求得通过增加网络的深度来提高网络的性能。从一开始只有很少层数网络结构的LeNet,到后来深度学习网络发展到19层网络结构的VGG。到最后网络深度被堆叠到100层例如ResNet,网络层数的堆叠一度成为深度学习网络发展的方向之一。 网络层次的增多在一定限度内虽然可以改善网络的性能。但随着网络层次数的越深,网络退化和梯度爆炸的问题也必然会随之而来,批标准化后可以在一定程度上缓解网络的梯度爆炸问题。ResNet网络特有的设置旁路恒等映射思路也将进一步抑制住网络退化和梯度爆炸的问题,这也正是由于并行网络结构所给我们带来的效果,在保证了网络深度的基础上也有效地保证了网络梯度的有效传播,通过恒等映射可以让一定的深度并行网络中的某些层次丢失,使得这个网络在一定的深度上具有一定的缓冲空间而且还能够对上述的问题进行有一定的缓解。这些网络通过不同的网络框架和方法来增加网络的层次,但它们的整体设计思路并没有发生变化,通过跨越多层将网络中各个层次的featuremap分别进行了连接,如图1.13所示。图1.12DenseNet原理图相比于其他网络DenseNet是个相对网络层数较多的网络,它是将网络的结构功能利用到极致,使用更少的参数来达到更好的效果。其优点有如下几条:(1)相比于其他网络例如ResNet,拥有更少的参数数量。(2)旁路加强了特征的重用,有效的利用了特征。(3)这种网络比较易于人员进行训练,并且具有某些正则性和效果(4)有效缓解了Gradientvanishing和ModelDegradation的问题。在ResNet提出的时候,其基本思想就是假如一个较深的网络和一个较浅的网络作比较,较深网络多出较浅网络的那些网络层次可以学习到恒等映射,那么这个较深层次的网络在模型训练的过程中其效果也一定不会差于较浅的网络。换句话说就是在一个网络中加入可以学习到恒等映射的网络层次组成一个新的网络,那通过加深了的网络最差效果也只是增加了一个恒等映射,因此也不会影响原始网络的性能。在DenseNet网络被提出的时候也做过一个假设:特征复用的效果往往会好于学习一些冗余特征的效果,学习冗余还可能引入不必要的噪声。为了保证信息可以最大程度的在网络之间传播,DenseNet直接将所有的网络层次都连接了起来。1.4.2DenseNet网络结构在传统的卷积神经网络中,如果一个网络有L层,那么该网络连接个数也会有L。对于DenseNet网络来讲,如果网络有L层,那么它拥有的网络连接个数就会是L(L+1)2。每一层网络的输入都是来自它之前每层网络的输出。如图1.13所示Input作为输入层,H1的输入就是来自Input层,H2的输入则来自前面的Input和X假设一个图片X0作为输入,它被送入一个L层的神经网络进行训练,其经过第i层的线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论