版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习模型综述在对深度学习进行详细介绍之前,有必要对人工智能、机器学习、深度学习以及神经网络这几个相关的概念进行区分。人工智能是一类非常广泛的问题,它旨在通过计算机实现类似人类的智能。机器学习是解决人工智能问题的一个重要方法。深度学习是机器学习的一个重要分支,它在很多领域突破了传统机器学习的瓶颈,将人工智能推向了个新的高潮。神经网络也称人工神经网络(ArtificialNeuralNetwork,ANN)是深度学习的具体实现算法和技术,在本研究中提到的“深度学习算法或模型”指的就是各种神经网络结构。图3-2机器学习与深度学习流程图3-2展示了机器学习和深度学习算法在解决预测问题上的一般流程。可以看出相比于机器学习算法,深度学习算法摆脱了对人工抽取特征的依赖,使得模型可以自动地从简单特征中抽取更加复杂的特征,并学习这些特征和目标任务之间的关系。深度学习正是通过深层神经网络对数据的“多层非线性变换”实现了数据从输入到输出的映射。深度学习发展至今,产生了3类最为经典、应用最为广泛的神经网络结构:全连接神经网络(FullConnectedNeuralNetwork,FC)、循环神经网络(RecurrentNeuralNetwork,RNN)以及卷积神经网络(ConvolutionalNeuralNetwork,CNN)。所谓的不同的神经网络结构指的是神经元之间不同的连接方式。如今在不同的应用领域和具体问题上的一些经典模型如LeNet-5、Inception-v3、Transformer、Bert等均是在这3种基本结构的基础上开发的,接下来将一一介绍上述3种经典结构,由于全连接网络结构相较于另外两个网络结构来说,较为简单且不同神经网络的训练方法是相同的,因此以下将以全连接网络结构为例详细介绍深度学习模型的训练方法。本文中所涉及的模型学习问题均为监督学习范畴,监督学习利用训练数据集学习一个模型,再用训练好的模型对测试样本集进行预测。由于在这个过程中用到的训练数据样本标签是已知的,所以称为监督学习(SupervisedLearning)。全连接神经网络全连接神经网络(FullConnectedNeuralNetwork)也是狭义上的深度神经网络(DeepNeuralNetwork,DNN),其结构如图3-3所示,可分为输入层、隐藏层和输出层三个部分,由于网络结构中每一层的所有神经元节点都与上一层和下一层中的所有神经元节点相连接,因此被称为是“全连接神经网络”。图3-3全连接神经网络结构前向传播全连接网络从输入到输出的计算过程也称作前向传播过程,如公式(3-1)至(3-2)描述,输入层是由特征组成的向量或矩阵,记为a0,其中xi为特征值或特征向量,为了描述方便起见,我们这里以a(3-1)第l层隐藏层的输出即为第l+1层的输入,记为al+1al+1(3-2)其中Wl为第l层的权重参数矩阵,bl为第l层的偏置项参数,如图3-3所示,l层的任一神经元节点i都与前一层所有神经元节点相连接,在经过(Wila图3-4激活单元结构与用激活函数图像最终,全连接网络的输出为y,H为隐藏层的层数。y(3-3)对于分类任务而言,神经网络的输出层为n个输出节点,n为类别数。为了使得每个节点的值代表样本属于该类别的概率,会采用softmax函数对原始输出层的值进行归一化,使得模型输出满足概率分布的要求。softmax(3-4)反向传播从前向传播的过程中可以看出,神经网络从输入到输出的映射质量是由网络结构以及参数决定的。网络结构指的是神经元之间的连接方式和神经元处的计算方法。在网络结构确定的情况下,神经网络的参数质量决定了模型的预测效果。可以将利用神经网络求解目标任务的过程看作为寻找一组参数,使得样本输入数据通过神经网络计算后的输出值可以无限接近样本真实值。最初,神经网络的参数通过随机函数生成,然后通过反向传播算法不断迭代和更新实现对神经网络模型的优化,使得模型的输出值无限逼近样本真实值,这一过程称为是模型的训练过程。神经网络的训练目标是通过损失函数来定义的,因此在训练开始之前首先要为模型指定损失函数,衡量模型输出值与样本真实值之间的差异。交叉熵(Cross-entropy)是分类任务常用的损失函数,定义如公式(3-5):Loss(3-5)其中N为训练样本量,n为分类任务的类别数量。交叉熵是信息论中概念,对于同一个随机变量X,用于衡量两个概率分布p(X)和q(X)之间的距离,p(X)表示样本真实的概率分布,q(X)表示的是模型预测的概率分布情况。因此神经网络的目标函数J(θ)即为最小化损失函数,θ代表了模型的一组参数。J(3-6)从式3-6可以看出,模型训练的整个过程可以描述为寻找一组最优参数θ,使得J(θ)最小。目前没有通用方法可以对任一损失函数直接求解得到最佳的参数取值,在实践中,最常用的神经网络优化算法是梯度下降(GradientDescent)算法,计算过程如下:算法3-1:梯度下降算法输入:模型初始化参数θ,模型停止更新的条件输出:优化后的模型参数θStep1:前向传播完成后计算损失函数Loss(Step2:对任意一个参数wi∈θ,计算其对参数wiStep3:沿着梯度(偏导数)的反方向更新参数得到wiStep4:重复step1~step3,直到满足模型停止更新的条件,输出优化后的模型参数θ'由于更新模型的过程正好与模型预测(前向传播)过程的计算路径相反,因此模型的训练优化过程也被称作是反向传播。深度学习模型的训练过程可描述为图3-5所示。图3-5深度学习模型训练过程需要注意的是,梯度下降算法并不能保证一定可以找到模型的全局最优解,这与损失函数是否为凸函数、模型是否得到充分训练以及样本量是否充足等有很大关系。循环神经网络循环神经网络(RecurrentNeuralNetwork,RNN)最早起源于1982年SarathaSathasivam提出的霍普菲尔德网络。但因为在当时该算法实现起来非常困难,在提出时并没有被广泛地应用。随后随着全连接神经网络和传统机器学习算法的流行而逐渐被人遗忘了。然而传统机器学习算法非常依赖人工提取的特征,并且基于全连接神经网络的方法也存在参数量过多、无法利用数据中的时间序列信息等问题而成为了应用中的瓶颈,随着更有效的循环神经网络结构的不断提出,循环神经网络才重新被重视起来,它在挖掘数据中的时序特征方面的能力以及对语义信息的深度表达能力被充分地利用,并在语音识别、时间序列分析、机器翻译等多个领域实现了重大的突破。在3.2.1中介绍全连接神经网络结构时,可以看到同一层的神经元之间是没有连接的,这在处理序列依赖的任务时会遇到问题。举例来说,在序列数据中,在预测序列下一个时间节点的值的时候是需要参考该时间节点之前时间节点的序列数据。而在全连接神经网络中,这些序列信息属于同一层的不同神经元中,它们之间无法建立起有效联系。循环神经网络就是为了刻画一个序列当前的输出与之前信息的关系而设计的。图3-6(a)展示了RNN神经元的基本计算结构,可以看出循环神经网络中当前时间节点的输出ot不仅和当前时间节点的输入xt有关,还与前一时间节点的隐藏状态ht−1h(3-7)o(3-8)其中,xt是当前时间节点的输入,tanh是非线性激活函数,Wx,Wh,Wo图3-6循环神经网络结构循环神经网络的训练过程与全连接类似,也是通过反向传播及梯度下降算法实现的。循环神经网络展开后可以看作是含有多个隐藏层的前馈神经网络,不同的是在每个神经元处的前向计算公式不同,这种训练方法也称为是“沿时间反向传播”(Back-PropagationThroughTime)。从循环神经网络的结构特征可以看出它非常擅长解决与时间序列相关的问题,但是当输入序列过长时,在反向传播的过程中,尤其是输入序列的初始位置,容易出现梯度消失问题。为了解决这个问题,另外两种循环神经网络的变体长短期记忆(LongShort-TermMemory,LSTM)神经网络以及门控循环单元网络(GatedRecurrentUnit,GRU)被提了出来,它们同RNN处理序列数据的思路相同,只是在神经元处的具体计算方式不同,4.3.4部分将对详细介绍LSTM与GRU的前向传播过程。卷积神经网络卷积神经网络相比于全连接网络,是一种更适合处理图像和语音识别任务的网络结构。其最早起源于日本学者福岛邦彦(KunihikoFukushima)1979年提出的neocognitron模型,其部分实现了卷积神经网络中的卷积(convolution)和池化(pooling)的功能,被认为是启发了卷积神经网络的开创性研究。但是受限于当时计算机的算力问题,这一网络在很长一段时间内并没有得到很好地应用。直到1998年YannLeCun及其合作者构建了经典的LeNet-5卷积神经网络并在手写数字的识别问题中取得了巨大的成功[110],才使得卷积神经网络的应用得到关注。随着2006年深度学习理论的提出[111]以计算力的提升,越来越多的基于卷积神经网络的算法如AlexNet[112]、ZFNet[113]、VGGNet、GoogLeNet[114]和ResNet[115]等成为视觉识别领域的优胜算法。图像由有限个像素点组成,可以转换成由红绿蓝三种颜色通道构成3维矩阵,在图像识别任务中往往是需要识别某些标志性的图案。组成图案的像素点相互之间的位置关系存在一定规律,而与和其他像素点无关。如果采用全连接神经网络进行图像识别任务,一个神经元和上一层所有神经元相连,这就相当于把图像中所有像素点都等同看待,显然会带来许多冗余的权重参数。卷积神经网络的提出可有效解决了上述问题,卷积神经网络主要由两个特别的组件:卷积层和池化层组成,其结构如图3-7所示:卷积层卷积神经网络对关键点的识别主要是由卷积层实现的,如图3-7所示,卷积层的输入是模型3维矩阵,其长、宽、高方向上的维度分别记为L,W,H,卷积层的输出为由多个特征图(FeatureMap)构成的三维矩阵,任一特征图上图3-7卷积神经网络结构的元素ai,ja(3-9)其中wd,m,n为卷积核上的元素,D,M,N分别为卷积核的长、宽、高方向上的维度,在图像识别任务中,卷积核的大小一般为5×5×H或3×3×H,H池化层池化层主要的作用是下采样,通过去掉特征图中不重要的成分,进一步减少参数数量。池化的方法很多,最常用的是最大化池化和平均值池化,即对池化窗口中的数据取最大值或平均值。卷积神经网络正是通过以上的计算方式实现的对输入数据的高阶特征抽取。由于对输入数据的不同位置进行卷积和池化操作时,所采用的卷积核参数是共享的,因此检测目标无论处于输入矩阵的什么位置,卷积神经网络都可以无差别的识别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小米之家员工培训制度
- 用工安全培训制度
- 艺术培训机构教奖惩制度
- 保卫会议培训制度
- 办事处培训制度
- 公司培训具体规章制度
- 校外培训禁烟领导制度
- 公司职业资格培训制度
- 工程质量上岗培训制度
- 遵义市培训学校规章制度
- 室内消火栓的检查内容、标准及检验程序
- DB35T 2136-2023 茶树病害测报与绿色防控技术规程
- 日文常用汉字表
- QC003-三片罐206D铝盖检验作业指导书
- 舞台机械的维护与保养
- 运输工具服务企业备案表
- 医院药房医疗废物处置方案
- 高血压达标中心标准要点解读及中心工作进展-课件
- 金属眼镜架抛光等工艺【省一等奖】
- 《药品经营质量管理规范》的五个附录
- 试论如何提高小学音乐课堂合唱教学的有效性(论文)
评论
0/150
提交评论