模式识别及Python实现 课件 第8章 深度神经网络_第1页
模式识别及Python实现 课件 第8章 深度神经网络_第2页
模式识别及Python实现 课件 第8章 深度神经网络_第3页
模式识别及Python实现 课件 第8章 深度神经网络_第4页
模式识别及Python实现 课件 第8章 深度神经网络_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PPT下载/xiazai/第八章:深度神经网络模式识别及Python实现前言PREFACE深度学习是目前人工智能和机器学习领域最受关注的研究方向,它通过分层结构的分阶段信息处理来探索特征学习和模式分类,其本质是计算观测数据的分层表示。研究者们在研究中发现人类的视觉功能是一个不断抽象和迭代的过程,是低层到高层的特征抽象过程,通过逐步地提取特征,从而形成不同层次的特征,高层的特征是通过组合低层特征形成的,越高层次的特征,其特征分辨性能越好。受到人类视觉功能不断抽象和迭代的启发,深度学习应运而生。深度学习的目的是构造一个类似人脑的分层结构,逐层地提取越来越抽象的特征,建立一种从低层输入到高层语义的对应关系,它通过模仿人脑的机制来理解数据。深度学习的成功在于,它把原始数据通过一些简单非线性的模型转变成为更高级别、更加抽象的表达。这个过程不需要利用人工进行设计,而是使用一种通用的学习过程,从数据中自动地进行学习。123卷积神经网络循环神经网络注意力机制目录

CONTENTPART

1卷积神经网络PART01​​ConvolutionalNeuralNetwork​​

在20世纪60年代,Hubel和Wiesel发现,当研究猫脑皮层中局部敏感和方向选择的神经元时,它们独特的网络结构可以有效降低反馈神经网络的复杂性。在此基础上,两人提出了卷积神经网络(ConvolutionalNeuralNetworks,CNN)。

现在CNN已经成为许多科学领域的热点之一,特别是图像处理领域。由于CNN可以直接输入原始图像,而不必对图像进行繁琐的预处理操作,因而得到了更为广泛的应用。

卷积神经网络是一类包含卷积运算的深度前馈神经网络,是深度学习代表性网络之一。卷积神经网络擅长处理具有类似网格结构的数据,比如由像素组成的图像数据,因此在计算机视觉领域应用得最为广泛。卷积神经网络以“卷积”命名,代表至少在网络的一层中使用卷积运算来代替一般的矩阵乘法运算。通常来讲,卷积神经网络包括输入层、卷积层、池化层和输出层。

在处理图像数据时,卷积核通过滑动窗口的方式,提取图像中的特征(1)卷积核大小可以是小于输入图像尺寸的任意值,卷积核的大小代表了感受野的大小,卷积核越大,可提取的特征越复杂。(2)步长是卷积核在特征图上每次滑动的距离,步长为1时,卷积核会逐个扫过特征图中的每个元素。(3)填充是在输入特征图周围填充一定数量的常数,一般是0和1。随着卷积层的增多,输出特征图会越来越小,通过在输入特征图周围进行填充,可以灵活地控制输出特征图的大小。卷积层参数包括卷积核大小、步长和填充,三者共同决定了卷积层输出特征图的尺寸,是卷积层的超参数。卷积神经网络中另一个十分重要的网络层为池化层,在卷积层完成特征提取后,输出的特征图会被送到池化层进行特征选择和聚合。池化层中常用的池化操作有最大池化和平均池化,最大池化表示对区域内的特征取最大值,平均池化表示对区域内的特征取平均值。2.输入层普通的多层神经网络,输入层就是图像的特征向量。一般图像经过人工提取特征,得到特征向量,并作为该神经网络的输入。这种方法表现的好坏很大程度上取决于人工提取的特征是否合理,然而人工提取特征的过程往往都是靠经验,具有很大的盲目性。与之相比,卷积神经网络的输入层输入的则是整张图像,原始图像直接作为CNN的输入,避免了传统识别算法中繁琐的特征提取过程,这也是CNN的优点之一。虽然图像可以直接作为CNN的输入,但是为了能让识别算法发挥最佳效果,需要对原始的图像数据进行预处理。图像预处理操作是图像识别算法中不可缺少的一个环节。但是并不是所有的预处理方法都能取得好的效果,恰当的图像预处理方法和参数设置能对最终的识别效果起到积极的作用。因此,当我们开始处理数据时,首先要做的事是观察数据并获知其特性,根据图像的特点来选取合适的预处理算法,这在图像处理中起着关键性的作用。在实际应用中,常用的图像预处理算法包括均值减法、归一化、PCA白化等。3.卷积层在输入层之后就是卷积层,这也是CNN的核心部分。与普通的神经网络不同,Conv层每个神经元的输入是与前一层的部分神经元相连,并提取该局部的特征,具体的做法是:上一层的特征图被一个可学习的卷积核进行卷积,然后通过一个非线性激活函数,得到输出特征图。卷积运算的优点是可以使原信号特征增强、降低噪音。卷积核是一个权重滤波器,它的权重就是待学习的参数。Conv层中有多个不同的卷积核,每个卷积核具有不同的权重,提取的是上一层图像多种不同的特征。多个卷积核提取图像的多种特征,生成多个二维的特征图,卷积核的数量与生成的特征图的数量相等。在进行特征提取时,同一个特征图的权值是共享的,即是使用相同的卷积核卷积上一层图像得到的。Conv层将图像不同的局部特征以二维特征图的形式保存下来,在这个过程中,使得提取出的特征对旋转、平移具有一定的鲁棒性。在Conv层上,上一层的特征图与可学习的卷积核进行卷积,并通过激活函数形成输出特征图。4.池化层

Conv层的后面往往跟着池化层,也叫下采样层,对上一层提取出来的特征图像进行降维,同时提取主要特征。Pooling层是产生图像的下采样版本,使用下采样技术得到新的特征,降低特征图像的空间尺寸,从而减少网络中的参数,达到简化网络的目的,同时也能在一定程度上控制网络过拟合。对于Pooling层来说,如果有N个输入图像,那么也将输出N个输出图像。在完成卷积特征提取之后,对于每一个隐藏单元,都提取到一张特征图,把每一张特征图看做一个矩阵,并在这个矩阵上通过滑动窗口方法划分出多个scale×scale的区域(这些区域可以是重叠的,也可以是不重叠的,不重叠的方式在实际操作中更常见),然后对每个区域进行下采样操作,最后用这些被下采样之后的数据参与后续的训练,这个过程就是池化。Pooling层能有效减少特征数量、减少参数数量,达到简化网络的目的,同时还可以让提取出来的特征具有一定的平移、伸缩不变性。池化层中的下采样操作一般有以下几种方法:1)平均池化(Mean-pooling),即对邻域内的特征点求平均值,对背景保留更好;2)最大池化(Max-pooling),即对邻域内的特征点取最大值,对纹理提取更好;3)随机池化(Stochastic-pooling),通过对邻域内的特征点按照数值大小赋予概率,再按照概率进行下采样。5.典型网络结构——LeNet

LeNet诞生于1994年,由卷积神经网络之父YannLeCun提出,该网络主要用来进行手写字符的识别与分类,可以达到98%的准确率,在银行和邮局等场所,有着广泛的应用。它是最早发布的卷积神经网络之一,因其在计算机视觉任务中的高效性能而受到广泛关注。LeNet5网络是一个比较简单的卷积网络,该网络共有7层,分别是C1卷积层、S2池化层、C3卷积层、S4池化层、C5卷积层、F6全连接层和输出层。(1)输入层:输入一张32×32的图片。(2)C1卷积层:使用6个5×5大小的卷积核对输入图片进行卷积运算,得到6个28×28大小的特征图。(3)S2池化层:对C1卷积层的输出进行2×2大小的最大池化操作,得到6个14×14大小的特征图。(4)C3卷积层:使用16个5×5大小的卷积核对S2池化层的输出进行卷积运算,得到16个10×10大小的特征图。(5)S4池化层:对C3卷积层的输出进行2×2大小的最大池化操作,得到16个5×5大小的特征图。(6)C5卷积层:使用120个5×5大小的卷积核对S4池化层的输出进行卷积运算,得到120个1×1大小的特征图。(7)F6全连接层:使用全连接层对C5卷积层的输出进行全连接运算,得到长度为84的特征向量。(8)输出层:使用全连接层对F6全连接层的输出进行全连接运算,得到长度为10的分类结果。6.典型网络结构——AlexNet2012年,AlexNet横空出世。它首次证明了学习到的特征可以超越手工设计的特征。它一举打破了计算机视觉研究的现状。AlexNet使用了8层卷积神经网络,并以很大的优势赢得了2012年ImageNet图像识别挑战赛。AlexNet秉承LeNet的思想,把CNN的基本原理应用到了很深很宽的网络中,且首次在CNN中成功应用了ReLU激活函数和Dropout抑制过拟合等技巧,同时AlexNet也使用了GPU运算加速技术。AlexNet的网络由5个卷积层、3个池化层和3个全连接层构成。7.典型网络结构——ResNet残差神经网络的主要贡献是发现了“退化现象(Degradation)”,并针对退化现象发明了“快捷连接(Shortcutconnection)”,极大的缓解了深度过大的神经网络训练困难的问题。神经网络的“深度”首次突破了100层、最大的神经网络甚至超过了1000层。在2012年的ILSVRC挑战赛中,AlexNet取得了冠军,并且大幅度领先于第二名。由此引发了对AlexNet广泛研究,并让大家树立了一个信念——“越深的网络,准确率越高”。ResNet的残差块的“跳跃连接”结构如左所示,沿用了VGG完整的3×3卷积层设计。残差块里首先有2个输出通道数相同的3×3卷积层,每个卷积层后接一个批量规范化层和ReLU激活函数,然后通过跨层数据通路,跳过这2个卷积运算,将输入直接加在最后的ReLU激活函数前。这样的设计要求2个卷积层的输出与输入形状一样,从而使它们可以相加。PART

2循环神经网络PART02RecurrentNeuralNetwork

循环神经网络(RecurrentNeuralNetwork,RNN)是一种主要用于处理序列数据的神经网络。卷积神经网络可以提取网格化数据中的特征(可以将其看作提取输入数据中的空间特征),类似地,循环神经网络可以用于提取序列特征(可以将其看作是提取输入数据中的时间特征)。如果网络中没有全连接层,卷积神经网络可以处理任意尺寸的图像输入;与之类似,循环神经网络也可以扩展到更长的序列,大多数循环神经网络也可以处理可变长度的序列。循环神经网络是一种节点定向连接成环的人工神经网络,网络的内部状态可以展示动态时序行为。由于其结构的特殊性(网路中存在环状结构),循环神经网络的输出不仅受到当前时刻输入信号的影响,同样也受到之前时刻输入信号的影响,这使得循环神经网络能够用于处理和预测序列数据。

左图展示了一个简单的循环神经网络内部结点的示例,其中x表

示网络当前时刻的输入,s表示结点的隐藏状态,h是结点的输出。1.基本原理RNN展开示意图RNN结点内部结构

2.典型网络结构一个输入对应多个输出的RNN结构多个输入对应一个输出的RNN结构多个输入对应多个输出(时间序列预测)的RNN多个输入对应多个输出(机器翻译)的RNN

PART

3注意力机制PART03AttentionMechanism​​1.认知神经学中的注意力注意力是一种人类不可或缺的复杂认知功能,指人可以在关注一些信息的同时忽略另外一些信息的能力。在日常生活中,我们通过视觉、听觉、触觉等方式接收大量的输入信息,但是人脑还能在这些外界的信息轰炸中有条不紊地工作,是因为人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理,并忽略其他信息,这种能力称为注意力(Attention)。(1)自上而下的有意识的注意力,称为聚焦式注意力(FocusAttention)。聚焦式注意力是一种有目的地、依赖任务地并且主动有意识地聚焦于某一对象的注意力。(2)自下而上的无意识的注意力,称为基于显著性的注意力(SaliencyBasedAttention)。基于显著性的注意力是一种由外界刺激驱动的注意力,不需要主动干预且和任务无关。如果一个对象的刺激信息不同于其周围信息,一种无意识的“赢者通吃”(Winner-Take-All)或者门控(Gating)机制就可以把注意力转向这个对象。不管这些注意力是有意的还是无意的,大部分的人脑活动都需要依赖注意力,比如记忆信息、阅读或思考等。

3.自注意力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论