版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5.1了解卷积神经网络5.1.1卷积神经网络结构5.1.2卷积操作5.1.3池化层5.1.1卷积神经网络结构
卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络仿造生物的视觉和知觉机制构建,可以用来执行监督学习和非监督学习任务。卷积神经网络与普通神经网络结构非常相似,它们都由多层神经元组成,每个神经元都具有权重参数w和偏置参数b。每个神经元将接收的输入做点积计算再输出。卷积神经网络基本结构示例如图5-1所示。图5-15.1.1卷积神经网络结构
在图5-1中,利用卷积神经网络对给定的输入图片进行判别,并输出判别结果。最左边是数据的输入层,输入图片数据。在输入层中会对数据做一些预处理工作,如将输入数据各个维度都归一化、标准化等。数据经过输入层输入后,再经过卷积层,池化层和全连接层等其他网络层级处理后,最终在最右边输出判别结果。卷积神经网络结构主要分为输入层、卷积层与激活函数层、池化(Pooling)层和全连接层等。下面对网络结构各层级做简单介绍。
1.输入层输入层是整个神经网络的输入,在处理图像的卷积神经网络中,它一般代表了一张图片的像素矩阵。比如在图5-1中,输入图片为彩色图片,假设大小为28x28像素。则输入矩阵的维度为(28,28,3),其中前两个元素为矩阵的长和宽表示图像的大小,最后一个元素为矩阵的深度表示图像的色彩通道。如果为黑白图片深度为1,彩色图片深度为3。当数据被输入时,卷积神经网络通过不同的神经网络结构不断的将上一层的三维矩阵转化为下一层的三维矩阵,直到最后的全连接层输出。5.1.1卷积神经网络结构
2.卷积层与激活函数层顾名思义一个卷积神经网络中最重要的部分就是卷积层。卷积层的作用就是从图像中提取出特征矩阵,以增强原始图片的有效特征,并且降低干扰噪声。卷积层可以有多层,数据每进行一次卷积计算,特征被有效提取一次。与传统全连接层不同,卷积层中的每一个节点的输入只是上一层神经网络中的部分节点输出,数量一般为3*3或者5*5,称之为局部连接。局部连接如图5-2所示。图5-25.1.1卷积神经网络结构
在图5-2中,第n+1层的每个节点只与第n层的3个节点相连接,而不是5个。如果与第n层5个节点相连,每条连接都有一个权值w,则有15个权值参数,而现在只有9个权值参数,参数的数量被减少了。同样的,第n+2层与第n+1层之间也采用了局部连接方式,参数的数量又被减少了。在图像处理时,图像中某区域像素之间的相关性与像素之间的距离相关,距离较近的像素间相关性强,距离较远的像素相关性较弱。那么就可以先通过局部连接方式将图像信息分成很多小部分处理,再将这些小部分的处理结果汇总以计算整个图像处理结果。同时局部连接的方式也能够减少参数数量,加快了模型训练速度,也在一定程度上减少了过拟合现象(详见5.3节)。除了局部连接之外,卷积层还采用权值共享机制来减少参数数量。权值共享机制就是将部分神经元组成一组,组内所有神经元统一使用相同的权值处理数据,该组共享权值的神经元也被称为卷积核。同一个卷积核内部各神经元权值一样。在图4-2中,第n+1层的每个节点只与第n层的3个节点相连接,每条连接都有一个权值w,这就需要9个权值参数。如果采用权值共享机制的话,将3个神经元划分为一个卷积核,那么权值参数只有3个。局部连接和权值共享的组合使用,使卷积神经网络训练参数大大减少,降低了深度学习的实现门槛。5.1.1卷积神经网络结构
卷积层的结果都是线性操作,但是实际样本不一定是线性可分的,为了解决这个问题,就必须引入激活函数。加入了激活函数之后,深度神经网络才具备了解决非线性问题的能力。常用的激活函数有Sigmoid函数、tanh函数、ReLU函数及其改进函数等。
3.池化层池化即下采样,目的是为了减少特征矩阵的尺寸,去除特征矩阵中的次要特征和干扰信息,进一步暴露主要特征,实现特征降维。池化操作对于每个卷积后的特征矩阵是独立进行的,一般每进行1-2次卷积就池化一次,池化窗口规模一般为2×2。池化会改变特征矩阵的长度和宽度,但不会改变特征矩阵的深度。池化进一步缩小了后续全连接层中神经元节点的个数,从而减少整个神经网络中的参数,一定程度可避免出现过拟合现象。
4.全连接层卷积层和池化层实现了图像的特征提取和降维。在经过多轮卷积层和池化层处理之后可以认为图像中的信息已被抽象成了信息含量更高的主要特征。在所有特征提取完成之后,还需要使用全连接层将提取到的所有特征整合成一个值。因为很多事务可能都有同一类特征,比如猫、狗、鸟都有眼睛,如果只用局部特征的话不足与确定具体类别。这时就需要使用全连接层组合特征来判别。一般来说,卷积神经网络的最后会使用1-2个全连接层来汇总出最后的分类结果。如果是多分类场景,最后一层全连接通常为Softmax函数层。5.1.2卷积操作
卷积操作是将图像矩阵和卷积核矩阵对应位置元素相乘再求和的一种线性计算。每进行一次卷积计算后,数据窗口不断平移滑动,直到计算完所有数据。假设有如图5-3所示原始数据和卷积核函数,默认平移滑动步长为1。第一次卷积,使用右边卷积核函数对原始数据左上角虚线内9个数据进行卷积计算,对应位置相乘再求和得到50。2×1+8×0+9×2+1×1+2×0+8×1+7×3+7×0+2×0=50计算完毕后将卷积核函数向右移动一个位置,进行卷积计算得到36。8×1+9×0+1×2+2×1+8×0+3×1+7×3+2×0+9×0=36再次将卷积核函数向右移动一个位置,进行卷积计算得到39。9×1+1×0+4×2+8×1+3×0+8×1+2×3+9×0+5×0=39至此第一行数据的卷积计算全部完毕,得到卷积后的第一行数据(50,36,39)。将卷积核函数移到第二行,继续从左向右滑依次进行卷积操作。如图5-4所示。图5-35.1.2卷积操作卷积操作结果如下。卷积后的第二行数据(41,36,43)。1×1+2×0+8×2+7×1+7×0+2×1+5×3+4×0+4×0=412×1+8×0+3×2+7×1+2×0+9×1+4×3+4×0+8×0=368×1+3×0+8×2+2×1+9×0+5×1+4×3+8×0+1×0=43将卷积核函数移到第三行,继续从左向右滑依次进行卷积操作。如图5-5所示。图5-5图5-45.1.2卷积操作
卷积操作结果如下。卷积后的第三行数据(29,52,26)。7×1+7×0+2×2+5×1+4×0+4×1+3×3+5×0+3×0=297×1+2×0+9×2+4×1+4×0+8×1+5×3+3×0+6×0=522×1+9×0+5×2+4×1+8×0+1×1+3×3+6×0+2×0=26至此,卷积核函数已移动到最后一行了,结束卷积。最终的卷积结果为。503639413643295226如果处理的是彩色图片有多个通道,卷积原理和单通道卷积相同,先每个通道按单通道计算,然后把对应位置的值相加。5.1.2卷积操作
上述案例中平移滑动步长为1,但是实际使用中,为了减少卷积时间,平移滑动步长往往不为1,一般小于等于卷积核函数列数,步长太长又会丢失部分特征。假设上述案例中设定步长为2。由于卷积核函数列数为3列,在第二次向右平移时会出现数据列不够的情况,如图5-6所示。
解决方案就是在原始数据外围边缘补充若干圈0,以便卷积核函数从初始位置以步长为单位可以刚好滑到末尾位置。如图5-7所示,在原始数据外围补充一圈0,就正好可以满足卷积计算时卷积核函数横向和纵向都平移三次。图5-65.1.2卷积操作
图5-75.1.3池化层
池化层的作用就是对卷积层提取的特征进行降维处理,把主要特征暴露出来,去除次要特征和噪声。简单来说池化就是在某区域上指定一个值来代表整个区域。根据指定值的不同,池化的方式主要分为平均值池化、最大值池化等。池化操作有2个超参数,分别是池化窗口大小和池化步长。有点类似于卷积操作的卷积核大小和平移滑动步长。某种程度上说池化操作也可以看做是一种卷积操作。图5-8展示了某特征矩阵用平均值池化成和用最大值池化的结果。图5-85.2经典的卷积神经网络结构5.2.1LetNet-55.2.2AlexNet5.2.3VGGNet5.2.4GoogLetNet5.2.5ResNet5.2.1LetNet-5
LetNet-5是最早发布的卷积神经网络之一。LenNet-5结构较为简单,整个网络共有7层(不包括输入层),每层都包含不同数量的训练参数,主要包括两个卷积层、两个池化层和三个全连接层,这里最后一层是输出层。图5-9展示了LetNet-5的网络结构。图5-95.2.1LetNet-5
LetNet-5主要应用于手写数字识别。受制于当时的数据规模和硬件运算速度,LetNet-5在处理其他复杂问题时,表现差强人意。因此,在处理较多数据时人们还是会选择一些经典的机器学习方法。LetNet-5虽然简单,但包含了卷积神经网络的基本要素。后续发展的卷积网络也大致遵循这一原则,先对图像进行多层卷积和池化操作,再在结尾部分使用全连接层分类。5.2.2AlexNet
2012年,Alex等人提出的AlexNet网络在ImageNet大赛上以远超第二名的成绩夺冠,使卷积神经网络重新引起了广泛的关注。AlexNet网络使用了ImageNet数据集对网络进行了训练,该数据集包含超过1500万个带注释的图像,这些图像分属22000多个类别。AlexNet网络如图5-10所示,包含5个卷积层、3个全连接层和一个Softmax输出层。图5-105.2.2AlexNet
AlexNet网络在LeNet网络的基础上进一步加深了网络的结构,使网络能够学习更丰富更高维的图像特征。AlexNet网络有以下特点。(1)AlexNet网络能够利用多个GPU强大的并行计算能力,处理神经网络训练时大量的矩阵运算。例如采用了双GPU的方式分别加载卷积核,如果每个GPU加载了48个卷积核,一共就有2x48=96个卷积核并行计算。(2)AlexNet网络在全连接层上使用了dropout的方式,减小过拟合的可能性。所谓dropout就是在全连接层的前一层故意忽略掉某些神经元,让它们在本次训练过程中失效。这样训练时不必所有神经元都参与,可以减少训练的参数数量,同时减少过拟合现象。(3)AlexNet网络使用了新的激活函数ReLU,Relu激活函数比传统的激活函数Sigmoid和tanh训练更快。(4)AlexNet网络使用了随机裁剪、翻转、平移和颜色光照变换等数据增强技术减少了过拟合现象。神经网络由于训练的参数多,训练时需要比较多的数据量,不然很容易出现过拟合现象。当训练数据有限时,可以通过一些变换从已有的训练数据集中生成一些新的数据,以快速地扩充原有训练数据的数据量,这就是数据增强技术。5.2.3VGGNet
2014年,牛津大学计算机视觉组(VisualGeometryGroup)和GoogleDeepMind公司一起研发了一款新的卷积神经网络,并命名为VGGNet。VGGNet是比AlexNet更深的深度卷积神经网络,该模型获得了2014年ILSVRC竞赛的第二名。VGGNet网络与AlexNet网络结构类似,但网络深度更深,形式也更简单,训练速度也更快。VGGNet由5个卷积层、3个全连接层和1个Softmax输出层构成,层与层之间使用maxpool(最大化池)分开,所有隐藏层的激活单元都采用ReLU函数。VGGNet有A、A-LRN、B、C、D、E共6种网络结构,如图5-11所示。5.2.3VGGNet图5-115.2.3VGGNet
这6种网络结构相似,都是由5层卷积层、3层全连接层组成,区别在于每个卷积层的子层数量不同,从A至E依次增加,总的网络深度从11层到19层。其中,最著名的就是VGGNet16网络。VGGNet16网络结构如图5-12所示。图5-12VGGNet16总共包含16个子层,第1层卷积层由2个卷积子层组成,第2层卷积层由2个卷积子层组成,第3层卷积层由3个卷积子层组成,第4层卷积层由3个卷积子层组成,第5层卷积层由3个卷积子层组成,加上3个全连接层总共16层,这也就是VGG16名字的由来。5.2.4GoogLetNet
GoogLeNet是2014年ChristianSzegedy提出的一种全新的深度学习结构。在2014年ILSVRC挑战赛中,GoogLeNet是排名第一的算法。我们知道深度神经网络往往通过增大网络的深度以获得更好的训练效果,但层数的增加也会带来很多负作用,这也是AlexNet、VGGNet等深层次网络结构不可避免的。GoogLeNet提出了Inception网络结构,通过构造一种“基础神经元”结构,来搭建一个稀疏、高计算性能的网络结构,有效避免了深层次神经网络的带来的过拟合、和难以计算等训练问题。Inception网络结构如图5-13所示。图5-135.2.4GoogLetNet
该结构将输入分成四条路线,在各自的路线上进行相应操作之后将四个不同的输出在通道维上叠加,作为整个结构的输出。该结构的优势在于,与只用一个卷积核相比,使用不同路线上不同大小的卷积核提取特征,可以得到同一图像中不同尺寸上的特征,提取到的特征信息更多样,更全面。整个GoogLeNet网络如图5-14所示。网络内部就是由多个Inception模块组合而成。在网络的最后使用全局平均汇聚层代替了一层全连接层,以减少参数数量。图5-145.2.5ResNet
理论上网络越深,模型能获取的信息越多,获取的特征也越丰富。但实验表明,随着网络的加深,优化效果反而越差,模型的准确率反而降低了。这是由于网络的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年妇联干部妇女儿童权益保障题库
- 2026年授信审批岗财务报表分析与风险识别题库
- 2026年外籍人才来华工作题库
- 2026年高潜人才选拔测试模拟题库
- 2026年农村低保及社会救助政策知识题库
- 2026年高效备战供销社财务考试备考指南
- 2026年专科护士培训大纲与技能考核标准
- 2026年化整为零报销隐蔽吃喝手段题库
- 2026年农村水利档案管理知识测试题
- 2026年乡镇干部耕地用途管制知识考核试题
- 《西方经济学》讲义杨上卿制作
- 成都市河湖水生态综合治理技术导则
- 职业技术学校《直播运营实务》课程标准
- NB-T42011-2013往复式内燃燃气发电机组气体燃料分类、组分及处理技术要求
- NB-T+10488-2021水电工程砂石加工系统设计规范
- 合理用药知识健康讲座(完美版)课件
- 多格列艾汀使用指南2024课件
- MOOC 创业基础-暨南大学 中国大学慕课答案
- 中考必备1600个词汇核心
- 安监部门加油站重点检查内容
- 《论语》知识考试参考题库(含答案)
评论
0/150
提交评论