【《卷积神络理论基础知识》4400字】_第1页
【《卷积神络理论基础知识》4400字】_第2页
【《卷积神络理论基础知识》4400字】_第3页
【《卷积神络理论基础知识》4400字】_第4页
【《卷积神络理论基础知识》4400字】_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卷积神络理论基础知识综述目录TOC\o"1-3"\h\u11296卷积神络理论基础知识综述 122571.1卷积神经网络 1147181.2激活函数的选择 3193031.3LeNet卷积神经网络理论基础知识 63341.4GoogLeNet卷积神经网络理论基础知识 6221141.5Resnet卷积神经网络理论基础知识 8神经网络被人们学习是开始于上个世纪的八九十年代[25],只是后因为硬件设施的限制,人们的学习研究越来越少。AlexNet得奖以后,人们又开始对神经网络进行深入的研究,此时硬件设备已发展的比早前要先进,所以在硬件条件发展完善的今天,卷积神经网络才得到充分的研究,在计算机多媒体环境范围内被研究,然后应用于各个领域[25]。神经网络的运行机制模拟生物神经元细胞的运行机制[26],通过信息在神经元细胞之间的传递,进行学习。卷积神经网络的结构跟神经元细胞一样,相邻的两个层(细胞)被连接,每层提取图像中特定信息并将得到的信息经过处理以后作为下一层的输入,随后又通过事先准备好的标签和学习到的信息进行误差计算,然后又依次向前传播并学习得到最优的神经网络模型。神经网络可以被分为监督学习和无监督学习,数据带有标签训练神经网络时,是监督学习;利用已经训练过的数据分析未知数据时,是无监督学习[27]。本文训练模型所用的数据带有标签,因此本文网络是监督网络。神经网络的深浅,指的是一个网络有多少层卷积核,多少层池化,多少层全连接。当它只包含一个输入层、卷积层、输出层时,这样的网络被叫做单层感知器。相反它包含多个输入层、隐含层、输出层时,这样的网络被叫做多层感知器,又被叫做深层神经网络。记忆学习当然是连接的神经元细胞越多越好,单层和多层感知器也一样,层数越多,学习能力越强。但并不是连接的层数越多越好,当层数达到饱和之后,就会造成难以进行学习的现象,或者学习出来的数据并不理想。1.1卷积神经网络卷积神经网络是卷积层、池化层、激活函数、全连接层等模块一起组成的非线性结构,随后完成特定任务的学习[28]。尺度和平移鲁棒性是CNN的优良特性,CNN在图像处理上模拟了人类的视觉功能,神经元之间的联系类似于人类视觉皮层[28]。在CNN中,一个单一的过滤器扫描图像的一部分,就像视觉细胞只关注我们视觉的一部分[28]。原始图像经过多层不同滤波器处理,池化层池化加全连接输出,形成最后的特征组成,即原始数据通过模型学习到的信息。与传统的人工设计不同,CNN可以根据具体任务通过反向传播自动学习权重。真实数据,类似于图像和声音,包含非常冗余的结构,并且具有低秩属性。因此当CNN连接时,采用权值共享策略,有效减少参数个数、降低网络过拟合度、减少计算量[28]。1.输入层图像是多维数据,可以是1,2,3,4维的。因输入到卷积神经网络的图片大小是固定的,因此要将图片裁剪成网络输入的固定大小,我们还要对图像进行标准化处理,对于图像像素【0,255】的原始像素被归一化到【0,1】或者【-1,1】之间,归一化可以提高神经网络在学习过程中的效率[29]。1.卷积层提取特征被用来作为卷积层的功能,其过程是多个卷积核共同扫描图像[30]。卷积层的参数为卷积核大小、步长、填充[31]。其中卷积核的大小要小于图像大小,步长是卷积核移动的像素值,填充是将被卷积的图像人为的扩充其尺寸,这样做的目的是为了减小尺寸收缩影响方法[32]。卷积层的运行原理是,设置一个卷积核大小,在一张N*N的图像上用M*M(M<N)的滤波器对图像扫描,通过定义的步长进行从左到右、从上到下的移动,在这过程中可对图像进行填充。下图中,输入是input,卷积核大小为3*3,通过卷积核进卷积操作,将9个像素值通过运算成一个像素值。下图1.1为卷积核卷积过程图。图1.1卷积核卷积过程3.池化层在上一节中讲到,池化层一般依附在卷积层上,被视为一层结构。所以池化层接收来自卷积层特征提取之后的数据。这池化层中接受上一层输入的信息,其作用是信息选择和数据优化。池化层中根据预设的池化函数不同,池化层也被分为几类,常见的有(1)一般池化(GeneralPooling),一般池化又被分为平均池化(AveragePooling):在一定范围内,选择总和除以个数值作为区域池化值[33];最大池化(maxpooling):挑选卷积层输出后的最大值作为区域池化后的值[34];(2)重叠池化(OverlappingPooling):顾名思义两个池化又交叠的部分;(3)空金字塔池化(SpatialPyramidPooling):上层的卷积特征被几个大小不一的池化层池化。4.全连接层全连接层则是最后一层。在全连接层中也可以说是卷积层的变体[35],全连接层相当于是1*1的卷积,但不进行特征学习,而是将特征输出,供人们实验。5.输出层最后是输出层,根据卷积神经网络训练的功能不同,输出的值也不同。即卷积神经网络被用于训练分类,则最后输出的是数据集的标签[36]。卷积神经网络被训练与物体识别,则最后的输出是坐标[37]。卷积神经网络被用于训练图像语义分割上,最后输出的是每个像素的分类结果[38]。1.2激活函数的选择激活函数解决非线性问题。被输入的数据进行一些列操作后,还被作用激活函数[39]。可想而知,少了激活函数的神经网络,就是一层层矩阵的相乘,不论加深深度还是增宽宽度到最后还是矩阵。本文的实验实质是一个多分类问题,因此需要学习了解掌握什么是激活函数,下面是几个常用的激活函数。Sigmoid函数图1.2Sigmoid函数图上图1.2为Sigmoid函数的曲线图,函数曲线增长缓慢、平滑。通过上图我们知道函数的取值范围在【0,1】之间,易于取导数。通过1.1式可知,F(x)=(1.1)因为ex指数函数,其函数值始终大于0,所以Sigmoid函数值始终大于0,这导致梯度在被回传的时候,所有的梯度都是正的,在更新的过程当中,所有的权重也都是正的,且因为导数好求,导致Sigmoid函数会发现网络爆炸,过拟合情况。因此Sigmoid函数只能进行二分类问题。1.Tanh函数图1.3Tanh函数图通过图1.3,发现Tanh函数曲线图和Sigmoid函数曲线图都是曲线平滑,易于求导数,区别在于Tanh函数曲线的函数值在【-1,1】之间,梯度被回传时,权重有正有负。通过式子1.2可知,F(x)=(1.2)当x=0或无穷大时,激活函数等于1或者0,因此使用优化器时,其网络更新很慢。3.Relu函数Relu函数被作为‘修正线单元’,为什么Relu被提出来后被应用于各种网络模型呢,其重要原因在于能够解决‘梯度消失’问题,就比如Relu函数对于初始化比较敏感,在Relu中是没有负值的,因为都被Relu赋值为零。其图为1.4所示。图1.4Relu函数图通过上图1.3,Relu函数左边曲线直接为0,即矩阵中如果有负数直接取0,因此能加速神经网络的训练。由于公式简单,可以猜测能解决过拟合和梯度消失问题[40]。但Relu对初始化比较敏感,当很多的神经元被置于0的时候,网络的很多神经元无法再进行学习。其函数公式见式(1.3),(1.3)4.Softmax函数在网络模型中最后一层通过使用的激活函数为Softmax,Softmax拥有多个单元的输出层,即我们有多少个类就有多少个单元[43]。Softmax被加入到最后一层全连接层后,其作用是会计算出每个当前样本属于本类的概率。通过分析下式,softmax函数做指数运算,所以保证了softmax结果保证了非负性,这也是为什么,被用作多分类的原因,其函数表达见式(1.5),F(xi)=(1.5)学习激活函数的基本,了解激活函数性能,分析激活函数的优缺点。通过对比分析本文选择Relu具有稳定性,较快收敛性、稀疏表达性,因此Relu激活函数作为本实验卷积层和池化层的激活函数。1.3LeNet卷积神经网络理论基础知识LeNet-5模型发表,是YannLeCun教授在1998年论文《Gradient-basedlearningappliedtodocumnetrecognitionr》中的[44]。数字识别是第一个被LeNet-5成功识别的问题[45]。LeNet-5模型在在MNIST数据集上的正确率达大约99.2%[45]。LeNet-5是一个入门级的神经网络模型,被用来做手写体识别,是在LeNet的基础上加入池化层对输入特征进行筛选,其构筑中交替出现的卷积层-池化层被认为有效提取了图像的平移不变特征[46]。下表1.1为LeNet-5模型的每层参数。表1.1LeNet-5结构每层参数输入图像(32*32*3)卷积层C1卷积核5*5,数量6,步长1输出特征图像大小:(32-5)/1+1=28,即28*28*6激活函数(Relu)池化层S2池化(kernel_size=2,stride=2)输出特征图像大小:(28-2)/2+1=14,即14*14*6卷积层C3卷积核5*5,数量16,步长1输出特征图像大小:(14-5)/1+1=10,即10*10*16激活函数(Relu)池化层S4池化(kernel_size=2,stride=2)输出特征图像大小:(10-2)/2+1=5,即5*5*16卷积层C5卷积核5*5,数量120,步长1输出的特征图像大小为:1*1*120激活函数(Relu)全连接层684个神经元激活函数(Relu)全连接层7输出3765个类激活函数(softmax)1.4GoogLeNet卷积神经网络理论基础知识GoogLeNet的推出,其创新之处在于Inception模块,。在2014年的ImageNet竞赛中夺得了冠军,一直在改进在其后的两年,出现了InceptionV2、InceptionV3、InceptionV4、等系列[47]。下图1.5是Inception结构图,根据Inception结构图,Inception被多个卷积和一个池化组成,在神经网络里可以被看作是一个整体。GoogLeNet区别于其他网络,其增加了网络的深度和宽度。所以GoogLeNet在增加深度和宽度的同时,为了减少参数,防止过拟合和模型难以优化等问题提出Inception。图1.5GoogLeNet每层结构图下图1.6为GoogLeNet每层结构图,其中一个Inception作为一个整体。其结构图有三次分类,其中有两次分类发生在过程中,其目的就是为了防止GoogLeNet网络结构中间部分的梯度消失过程,并且发生在过程中的两次分类仅仅是用于训练的,并非用于预测过程。图1.6Inception结构图1.5Resnet卷积神经网络理论基础知识 2015年,Resnet网络被提出。在这之前最深的深度网络只有二三十层左右,ResNet的问世打破了这种局限,可以根据个人意愿将神经网络深度随意增加,另外训练也不会占用太多的时间,所以ResNet经常被用来训练图像识别,并且准确率大幅增加。在ImageNet大赛中,分别获得图像分类、图形定位、图像检测三个项目的冠军[50]。其能获得三项大奖的原因是因为跟上三节中讲到的网络不同之处在于其在网络结构中加入了残差结构(residual),在上三节讲到的网络中,简单的增加网络的深度,会发生梯度弥散或者梯度爆炸等问题,而残差结构的主要功能在于容易被优化,并且是唯一一个能够通过增加深度来提高准确率。下表1.3是ResNet层数结构图,有五种不同的深度,层数较少的是18层和34层,层数较多的是50层、101层、152层。表1.3不同深度的ResNet结构图参数LayerOutputsize18-Layer34-Layer50-Layer101-Layer152-LayerConv1112*1127*7,64,stride23*3max_pool,stride2Conv2_x56*563*3,643*3,6423*3,643*3,6431*1,643*3,6431*1,641*1,643*3,6431*1,641*1,643*3,6431*1,64Conv3_x28*283*3,1283*3,12823*3,1283*3,12841*1,1283*3,12841*1,5121*1,1283*3,12841*1,5121*1,1283*3,12881*1,512Conv4_x14*143*3,2563*3,25623*3,2563*3,25661*1,2563*3,25661*1,10241*1,2563*3,256231*1,10241*1,2563*3,256361*1,1024Conv5_x7*73*3,5123*3,51223*3,5123*3,51231*1,5123*3,51231*1,20481*1,5123*3,51231*1,20481*1,5123*3,51231*1,20481*1Average_pool,1000-dfc,softmaxFLOPs1.8*1093.6*1093.8*1097.6*10911.3+109ResNet也是被卷积层、池化层、全连接层组成[51]。根据上图可以发现,在18层和34层的时候,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论