版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
卷积神经网络概述CNN(英文全称为ConvolutionalNeuralNetworks,卷积神经网络)是以卷积操作为核心的,在结构上往往拥有较大深度的前向网络,CNN实现中有2个重要的概念:第一个概念是局部感受野,第二个则是权值共享。1962年,Hubel和Wiesel[22]在研究动物的大脑对于外界的视觉信息刺激的反应时,发现并不是所有的神经元都会对刺激做出反应,即存在“局部反应”这个概念。而人工卷积神经网络的设计脱胎于自然的神经元结构,因此在设计时,引入了局部感受野,或者说局部连接的特性。如图2-1所示,传统的神经网络采用全连接,即相邻的两层内的所有神经元两两相连,但是在卷积神经网络中不采用这种方式,而是将部分连接起来。相比之下,卷积神经网络的参数量远远小于传统的神经网络。此时,神经元采集不同的部分的信息后再在更高的维度上进行合并,由此来得到全部的图像信息。局部感受野的基本原理是图像区域相聚越远,其关联性便会随之下降。图2-1全连接(左)与部分连接(右)对比图1998年,LeCunY[8]等人设计并发表的LeNet-5网络结构率先提出了权值共享这个概念。权值共享指的是每一个神经元使用的参数相同。在卷积神经网络中,卷积核(或者过滤器)相当于一个滑动窗口,以特定步长在输入图像上滑动并与输入图像进行卷积运算,得到特征图。这个卷积核的参数是由整张图片所共享的,不会随图像位置改变而改变。权值共享可行的主要原理在于当图像的位置平移时,其特征也会跟着移动。权值共享的好处是参数量相比于局部连接后又进一步减少了,但是会带来只能提取一个特征的问题,解决办法是采用多个不同参数的卷积核来操作,这样,就可以用数量来弥补单一卷积核的不足。卷积神经网络结构如图2-2所示一个完整的CNN网络结构,从图中可以看出CNN可以被分为多个层级结构,比如卷积层等,下面逐一介绍每个层的结构和作用。图2-2卷积神经网络结构图输入层:即网络的输入。CNN的输入一般是一个图像的二维像素矩阵,下文称之为输入矩阵。对于RGB图像,输入矩阵由3个颜色通道的像素矩阵叠加而成,因此RGB图像的输入矩阵会是一个三维矩阵,相对于二维像素矩阵多了一个深度方向的维度。卷积层:完成卷积操作的层,是完成提取特征这一工作的地方。卷积操作的实现流程如图2-3所示,卷积核在输入矩阵上按一定间隔移动的同时与输入矩阵的对应区域做矩阵的叉乘,得到输出矩阵。图2-3卷积流程示意图图2-3中,4×4的输入矩阵进行卷积操作后变成了2×2的输出矩阵,即输出规模小于输入,这种卷积模式称为validmode。通过边界扩充,还可以得到另外2种卷积模式:fullmode和samemode。边界扩充即是在输入矩阵外补充元素(通常补“0”),当不补充元素时,是validmode,当补充元素使得卷积核在刚与输入矩阵有交集时就进行运算,称为fullmode,当补充元素使得卷积核能够以半个宽度与输入矩阵相交时进行运算,称为samemode。显然,validmode得到的输出矩阵小于输入矩阵,samemode得到的输出矩阵与输入矩阵规模一致而fullmode得到的输出矩阵规模大于输入矩阵。一般来说,validmode采用的最多。输出规模的大小可以由公式(2-1)计算得出。 式中:N——输出规模;W——输入规模;P——填充量大小;F——卷积核规模;S——卷积核移动间隔;激活层:单纯的卷积运算只是线性操作,为了描述复杂的现实场景,需要引入非线性量,这就是激活层存在的原因。实际使用中,通过激活函数对输入量进行非线性映射,即可得到引入了非线性特征的输出量。常用的激活函数有最开始大行其道的Sigmod函数,后来出现的Tanh函数以及最常用的Relu函数及其基础上改进的LeakyRelu函数。Sigmoid函数的数学表达式如式(2-2)所示: Sigmoid函数的图像如图2-4所示,该函数将一个实数输入值映射到一个0到1的输出值,当实数较大时输出1,当实数较小时则输出0。通过这种映射规律,函数在神经网络中加入了非线性特征。Sigmoid函数曾经风靡一时,但是它有2个缺点:一是当输入的实数的绝对值较大时,导数接近0,在反向传播的过程中会导致传播中断;二是输入值经过函数的映射后,输出值的均匀量不接近0,有可能会出现权值的“Z字型”更新,减缓模型收敛速度。图2-4Sigmoid函数图像Tanh函数的数学表达式如式(2-3)所示: Tanh函数的图像如图2-5所示,实数输入会被函数映射到一个关于x轴对称的值域内,这样输出值的均匀量为0,可以避免“Z字型”更新。但是,Tanh函数的一阶导数依然在2头是“平直”的,意味着Tanh函数也存在在极大或极小的输入下,出现梯度为0,无法更新的情况。图2-5Tanh函数图像ReLu函数的数学表达式如式(2-4)所示: ReLu函数的图像如图2-6所示,ReLu函数是一个分段的线性函数,对于负值输入,输出为0,对于正值输出则输出输入值。这样做,有2个优点:一是输入为正时,函数的导数不变,不会出现梯度消失的现象;二是ReLu函数相对于常规的曲线型函数,求导方便。但是,ReLu函数的值域的均匀量不为0,会出现“Z字型”更新现象,同时在负值部分,因为导数始终为0,会出现权值无法更新的问题。图2-6ReLu函数图像LeakyReLu函数的数学表达式如式(2-5)所示: LeakyReLU函数的函数图像如图2-7所示,该函数是ReLu函数的一个衍生,在负数定义域上,LeakyReLu函数将自变量与一个小的常数相乘得到因变量,这样相对于ReLu函数就可以克服在负定义域上由于导数为0而出现权值无法更新的问题。但是,常数α的选择没有很好的推理手段,通常需要靠人为判断。图2-7LeakyReLu函数图像池化层:池化层一个重要的作用就是下采样,按照取值策略的不同,可以分为最大值池化和平均值池化。池化操作就是将原矩阵按块缩放为更小的矩阵,最大值池化取值策略为取最值,而平均值池化则取平均,如图2-8所示。(a)最大值池化(b)平均值池化图2-8池化操作池化最主要的作用就是减小输出规模,减小参数量,加快运算速度的同时还可以一定程度上防止过拟合。此外池化操作还有两个作用,一是增加了模型的鲁棒性,对于不大的噪声,采用池化操作,可以达到减噪的效果;二是增强了图像平移不变性,降低了图像变形对结果的影响。全连接层:全连接层用于整合前面各层传递而来的特征信息。输出层:在网络的最末,用于处理全连接层的结果,将最终结果转化成更符合要求的形式。如图2-9所示,是一个辨认手写数字的CNN输出结果示例,其输出被处理为了数字。图2-9辨认手写数字的CNN输出结果示例卷积神经网络实现过程卷积神经网络的本质可以理解为一个“万能函数”,如Y=F(X),可以解释为对于一个给定的入X,X可以是一个标量,也可以是一个多维向量(比如数字图像矩阵)神经网络输出一个预测值Y,Y可以是一个类别,也可以是一个预测框和类别的复合。这个预测值理论上最完美的情况是等于真实值,但在实际中,只需要两者越接近越好。因此,卷积神经网络的实现过程可以理解为通过改变网络的权重使得预测值向接近真实值的方向上前进,即一个优化问题。而为了达到这个目的,需要一个用来度量预测值和真实值差距的标准,这个标准就是损失函数。损失函数将一个变量或者多个变量映射到某个非负实数上,用该实数表征模型的真实值和预测值的差距,差距越小,模型效果越好。损失函数有很多,下面简明地举例几个常用的损失函数形式。均方差损失函数(MeanSquaredError,MSE)常用于线性回归问题中,其计算方法是计算真实值与预测值的平方误差的均值,如式(2-6)所示。 对数损失函数(LogLossFunction)的计算公式如式(2-7)所示,该函数常用于解决逻辑回归问题: 式中:Y——已知分类的类别;X——样本值。交叉熵损失函数(CrossEntropyLossFunction)往往应用于分类,其输出是概率的形式,计算式如式(2-8)所示: 式中:N——样本总数;C——类别总数。而卷积神经网络的实现过程就是围绕着损失函数展开的,其过程可以分为前向传播,反向传播和权值更新三个部分,目的是尽可能地减小损失函数。前向传播(FeedForwardRun)就是网络从头开始,通过随机或者按照一定的规律设置初始权重,然后给定输入,计算每一层的输出,并将输出传递至下一层,直至最终输出;反向传播(BackPropagation,BP)可以理解为“误差反向传播,损失函数就是“误差”,计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高级动物疫病防治员模拟题+参考答案
- (新)国家义务教育质量监测心理健康测考试试题练习题及答案解析
- 德育骨干教师试题及答案
- 初中语文教师素养试题及答案
- 2026高校区域技术转移转化中心(福建)新型功能材料分中心招聘5人备考题库附答案
- 上海烟草集团有限责任公司2026年应届生招聘备考题库附答案
- 乐平市市属国资控股集团有限公司面向社会公开招聘人员【15人】备考题库必考题
- 北京科技大学智能科学与技术学院招聘3人考试备考题库必考题
- 古蔺县2025年公开招募新兴领域党建工作专员的参考题库附答案
- 城发水务(固始)有限公司招聘11人(河南)考试备考题库必考题
- 老年痴呆科普课件整理
- 2022年钴资源产业链全景图鉴
- von frey丝K值表完整版
- 勾股定理复习导学案
- GB/T 22900-2022科学技术研究项目评价通则
- SB/T 11094-2014中药材仓储管理规范
- GB/T 6418-2008铜基钎料
- GB/T 16621-1996母树林营建技术
- GB/T 14518-1993胶粘剂的pH值测定
- GB/T 14072-1993林木种质资源保存原则与方法
- 垃圾分类科普指南课件(21张PPT)
评论
0/150
提交评论