深度学习的研究.doc_第1页
深度学习的研究.doc_第2页
深度学习的研究.doc_第3页
深度学习的研究.doc_第4页
深度学习的研究.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习的研究1、定义和背景:1.1深度学习(DL)有各种相近的定义或者高层次描述自2006年以来,深度学习(deeplearning)(也通常叫做深层结构学习或分层学习)已经成为机器学习领域的一个新兴领域(Hintonetal.,2006;Bengio,2009).在过去几年中,深度学习技术的发展已经对信号和信息过程领域产生广泛的影响,并将继续影响到机器学习和人工智能的其它关键领域;参见综述文章(Bengioetal.,2013;Hintonetal.,2012;YuandDeng,2011;Deng,2011;Areletal.,2010).最近,已有一系列的致力于关于深度学习以及应用的研讨会和特别会议。包括:这些研究团队在DL的各种不同应用中取得经验性的成功,如计算机视觉、语音识别、语音搜索、语音识别、语音会话和图像特征编码、语义分类、手写识别话语、音频处理、信息检索、机器人学、甚至在分析可能导致新药的分子方面等等。许多优秀的经常更新教程、传统机器学习和信号处理技术探索仅含单层非线性变换的浅层学习结构。浅层模型的一个共性是仅含单个将原始输入信号转换到特定问题空间特征的简单结构。典型的浅层学习结构包括传统隐马尔可夫模型(HMM)、条件随机场(CRFs)、最大熵模型(MaxEnt)、支持向量机(SVM)、核回归及仅含单隐层的多层感知器(MLP)等。例如,SVM用包含一层(使用核技巧)或者零个特征转换层的浅层模式分离模型。(最近已有将核方法与DL结合的新方法。如,ChoandSaul,2009;Dengetal.,2012;Vinyalsetal.,2012)。浅层结构的局限性在于有限的样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。神经科学研究表明,人的视觉系统的信息处理是分级的。人类感知系统这种明确的层次结构极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。有理由相信,对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,深度学习能够获取其本质特征。受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究。历史上,深层学习的概念起源于神经网络的研究。带有多隐层的前馈神经网络或者多层感知器通常被成为深层神经网络(DNNs),DNNs就是深层构架的一个很好的例子。BP算法作为传统训练多层网络的典型算法,实际上对于仅含几层网络,该训练方法就已很不理想(参见(Bengio,2009;GlorotandBengio,2010).在学习中,一个主要的困难源于深度网络的非凸目标函数的局部极小点普遍存在。反向传播是基于局部梯度下降,通常随机选取初始点。使用批处理BP算法通常会陷入局部极小点,而且随着网络深度的增加,这种现象更加严重。此原因在一定程度上阻碍了深度学习的发展,并将大多数机器学习和信号处理研究从神经网络转移到相对较容易训练的浅层学习结构。经验上,有3种技术可以处理深层模型的优化问题:1.大量的隐藏的单元,2.更好的学习算法,3.以及更好的参数初始化技术。使用带有大量神经元的DNN可以大大提高建模能力。由于使用带有大量神经元的DNN得到较差局部最优值的可能性要小于使用少量神经元的网络,即使参数学习陷入局部最优,DNN仍然可以很好的执行。但是,在训练过程中使用深而广的神经网络,对计算能力的需求要求很大。更好的算法也有助于了DNNs的训练。例如,现在随机BP算法已经代替了批处理BP算法用来训练DNNs。部分原因是由于,当训练是单学习器和大训练集上进行时,随机梯度下降(SGD)算法是最有效的算法(BottouandLeCun,2004)。但更重要的是SGD算法可以经常跳出局部最优。其它算法,如Hessianfree(Martens2010)或Krylov子空间方法(VinyalsandPovey2011)有类似的能力。很明显,对于高度非凸的DNN学习的优化问题,更好的参数初始化技术将导致更好的模型.然而,如何高效的初始化DNN的参数却不是很显然的事情。最近,学者们给出很好的结果(Hintonetal.2006;HintonandSalakhutdinov,2006;Bengio,2009;Vincentetal.,2010;Dengetal.,2010;Dahletal.,2010,2012;Seideetal.2011).最著名的DNN参数初始化技术就是无监督预训练(pre-training)技术的提出(Hintonetal.2006;HintonandSalakhutdinov,2006).在上述文章中,引入了一个被称作深层信念网(DBN)的深层贝叶斯概率生成模型。为了学习DBN中的参数,提出非监督贪心逐层训练算法,算法把DBN中的每两层作为一个限制玻耳兹曼机(RBM)。这使得优化DBN参数的计算复杂度随着网络的深度成线性增长。DBN参数可以直接用作MLP或DNN参数,在训练集较小的时候,可以得到比随机初始化的有监督BP训练要好的MLP或DNN。带有无监督DBN预训练,随后通过反向微调(fine-tuning)的DNNs有时候也被称作DBNs(e.g.,Dahletal.,2011;Mohamedetal.,2010,2012).最近,研究人员已经更小心区分DNNs和DBNs(Dahletal.,2012;Hintonetal.,2012),当DBN用于初始化一个DNN的参数,由此产生的网络叫做DBN-DNN(Hintonetal.,2012).DBN预训练过程不是唯一有效的DNNs初始化方法。另一种效果同样好的无监督方法是通过把每两层作为一个去噪自动编码器来逐层预训练DNNs(Bengio,2009;Vincentetal.,2010).另一种方法是用收缩自动编码器,它对于输入变化的敏感度较低(Rifaietal.,2011).而且,Ranzatoetal.(2007)提出了稀疏编码对称机(SESM),它与RBMs非常类似,都作为一个DBN的构造模块。原则上,SESM也可以用来有效的初始化DNN训练。除了半监督预训练外,监督预训练(有时也叫作区别预训练)也被证明是有效的(Seideetal.,2011;Yuetal.,2011)。在有标签样本数据充足的时候表现要优于无监督预训练技术。区别预训练的主要思想是从一个隐层MLP开始,用BP算法训练。然后,每次我们想要增加一个新的隐藏层,我们通过随机初始化一个新的隐藏和输出层来代替原来输出层,再用BP算法训练这个新的MLP(或DNN)。与无监督预训练技术不同,区分与监督需要标签。(注:常用的概念深层信念网络(DeepbeliefnetworkDBN):包含多层随机隐藏变量的概率生成模型。最上面两层无向对称连接。低层之间自上而下有向连接。波尔兹曼机(BoltzmannmachineBM):类神经元单元对称连接成的网络,通过类神经元打开或者关闭来做出随机决策。深层神经网络(DNN):一个带有多隐藏层的多层感知器,它的权被完全连接,应用一个半监督或一个监督预训练初始化。深层自动编码器(Deepauto-encoder):一个输出就是输入本身的深层神经网络。)3.典型的深度学习结构深度学习涉及相当广泛的机器学习技术和结构,根据这些结构和技术应用的方式,可以将其分成如下三类:)生成性深度结构。该结构描述数据的高阶相关特性,或观测数据和相应类别的联合概率分布。)区分性深度结构。目的是提供对模式分类的区分性能力,通常描述数据的后验分布。)混合型结构。它的目标是区分性的,但通常利用了生成型结构的输出会更易优化1.生成性深度结构在生成性深层结构的不同子类中,最常见的是基于能量的深层模型(e.g.,Ngiametal.,2011;Bengio,2009;LeCunetal.,2007).深层自动编码器的原始形式(HintonandSalakhutdinov,2006;Dengetal.,2010)就属于一个典型的生成模型。其他大部分的深层自动编码器自然也是生成模型,但是它们有着不同的性质和实现。例如,转换自动编码器(Hintonetal.,2010),预测性稀疏编码和它们间的堆叠,去噪自动编码器和它们的叠加版本(Vincentetal.,2010).具体说,在去噪自动编码器中,输入首先被破坏,例如,随机选择输入和将其归零的百分比。然后,用原始输入和重构输入的均方重构误差和KL距离来调整隐藏结点的参数去重构原始的,未破坏的数据。未破坏数据的编码表示转换形式将作为下一层堆叠的去噪自动编码器的输入。另一个著名的生成模型是深层玻尔兹曼机(DBM)(SalakhutdinovandHinton,2009,2012;SrivastavaandSalakhudinov,2012).一个DBM包涵多个隐藏变量层,同一层之间变量没有连接。它是一般的玻尔兹曼机的特殊情形。虽然有简单的算法,但是一般BMs学习复杂而且计算缓慢。在一个DBM中,每一层捕获下层隐藏特征的复杂的,高阶的相关性。DBM有学习内部表示问题的潜力,而内部表示问题对目标和语音识别问题的解决至关重要。此外,大量的无标记数据和非常有限的有标记数据可以构建高层表示,这样,高层表示可以用来微调模型。当DBM的隐藏层的数目减少到1,我们就得到受限玻尔兹曼机(RBM)。和DBM相似没有层之间的连接。RBM的主要优点是通过组合多个RBMs,将一个RBM的特征激活作为下一层的训练数据,从而有效的学习多个隐藏层。这样组成了深信度网(DBN)。标准的DBN已经被扩展,使其在底层是一个分解的高阶玻尔兹曼机,在电话识别中获得了很强的结果(Dahlet.al.,2010)。这个模型被称作mean-covarianceRBM或mcRBM,标准RBM在表示数据的协方差结构是有局限的。然而,训练mcRBM,把它用在深层构架的高层都是很困难的。另一个深生成架构的是和-积网络或SPN(PoonandDomingo,2011;GensandDomingo,2012).一个SPN是一个深层构架中的有向无环图,数据作为叶子,和运算和积运算作为内部节点。“和”节点给出混合模型和“积”节点建立特征层次结构。SPN的学习是结合反向传播使用EM算法。学习过程始于一个密集的SPN,然后通过学习它的权值来寻找一个SPN结构,权值为零表示移除这些连接。SPN学习的主要的困难是,当传播到深层,学习信号(也就是梯度)会迅速的稀释。已经提出了经验的解决办法来克服这种困难(PoonandDomingo,2011).然而,有学者指出,尽管SPN中有许多可取的生成性质,但是很难用区分的信息来微调参数,从而限制了其在分类任务上的有效性。随后,(GensandDomingo,2012),在这篇文章提出一个有效的反向传播式区分训练算法克服了这个困难。递归神经网络Recurrentneuralnetworks(RNNs)是另一类重要的深层生成构架,RNN的深度与输入数据序列的长度相当。RNNs对于序列数据建模非常有效(例如,语音和文本)。但是RNNs还没有被广发的应用,部分原因是由于“gradientexplosion”问题,导致它极难被训练。Hessian-free优化的最新进展(Martens,2010)它使用近似二阶信息或随机曲率估计,部分的克服了这个难题。通过Hessian-free优化训练得到的RNNs,在特征水平语言模型任务中,被用作一个生成式的深层构建。这样的生成式RNN模型被证明具有很好的生成文本字符序列的能力。最近,Bengioetal.(2013)andSutskever(2013)研究了在训练生成式RNNs过程中,各种随机梯度下降优化算法。这些算法要优于Hessian-free优化方法。Mikolovetal.(2010)将RNNs用于语言模型,取得了非常好的结果。2.区分性深度结构在信号和信息过程中许多区分性技术都是浅层结构,例如隐马尔科夫过程(HMMs),条件随机域(CRFs).最近,通过堆叠每个低层CRF的输出和原始输入到更高层,得到深层结构CRFs(Yuetal.,2010a)。各种深层结构的CFRs成功的应用于电话识别(YuandDeng,2010),自然语言处理(Yuetal.,2010)和口语识别(Yuetal.,2010a)。但是至少在电话识别任务上,深层CRFs还不能超过含有DBN的混合性结构。Morgan(2012)给出一个好的综述,关于现存的应用于语音识别的区分性模型,主要基于传统的神经网络或MLP结构,使用带有随机初始化的后向传播方法。他认为增加神经网络每一层的宽度(width)和深度(depth)是重要的。最近(Denget.al,2011;Dengetal.,2012a;Turetal.,2012;Lenaetal.,2012;Vinyalsetal.,2012)发展了一个新的学习构架,有时称深度堆叠网络(DeepStackingNetwork或DSN),以及DSN的张量变体(Hutchinsonetal,2012,2013)和核版本(Dengetal.,2012)。前面说过,递归神经网络(RNNs)已经被成功用作生成性模型。它们也可以用作一个输出是一个关于输入序列的标签序列的区分性模型。另一个区分性深度构架是卷积神经网络(convolutionalneuralnetwork或CNN),每一个模块包含一个卷积层和一个池层(poolinglayer)。通常,这些模块一个堆叠在另一个之上,或者用一个DNN堆叠在它之上来形成一个深度模型。卷积层共享许多权值,池层对卷积层的输出进行次采样。在卷积层共享权值,结合适当的池选择,这样就使得CNN具有某种不变的性质(如,转换不变性)。这样限定不变性或等方差,对于复杂的模式识别任务是不合适的,需要可以处理广泛的不变性的原则性方法(Hintonetal.,2011).然而,CNN已经发现非常有效且常被用于计算机视觉和图像识别(BengioandLeCun,1995;LeCunetal.,1998;Ciresanetal.,2012;Leetal.,2012;Deanetal.,2012;Krizhevskyetal.,2012).最近,考虑到语音特性,适当的变化为图像分析设计的CNN,表明CNN在语音辨别方面也是有效的。(Abdel-Hamidetal.,2012;Sainathetal.,2013;Dengetal.,2013)需要指出的是,用于早期语音识别延时神经网络是CNN的一类特殊情形和原型,当权值共享被限制为时间维度。最近发现,对于语音识别,(Abdel-Hamidetal.,2012;Dengetal.,2013)时间维度不变性不如频率不变性重要。分析了根本原因并提出了新的方法来设计CNN的池层,在电话识别方面,得出了比以前CNNs更有效的方法。分层时间记忆模型(HTM,HawkinsandBlakeslee,2004;Hawkinsetal.,2010;George,2008)是CNN的另一个变体和扩展,扩展主要包括以下方面:1.引进了时间维度来“监督”信息用于区分:2,采用自底而上和自顶而下的信息流,而CNN只采用自底而上的方式;3,用贝叶斯概率形式来融合信息和决策。3.混合性模型混合性模型同时包含或利用生成性和区分性模型部分。现有的混合性模型里,主要利用生成性部分来辅助区分,混合性模型的最终目的是区分性的。生成性模型可以辅助区分性模型,主要有一下两个原因。1.从优化的角度看,在高度非线性参数估计问题中,生成性模型可以提供较好的初始点(在深度学习里引入,常用术语“预训练”,就是这个原因)。2.从正则化观点看,生成性模型可以更有效的控制总体模型的复杂性。研究报告(Erhanetal.,2010)给出了深刻的分析和实验数据支持以上两个观点。DBN可以被转换用作DNN的初始模型,然后进一步区分的训练或微调。另一个混合性深层构架的例子是由(Mohamedetal.,2010)提出,DNN权值也从一个生成性DBN初始化得来,但是随后的微调用过序列水平(sequence-level)准则,而不是通常使用的框架水平(frame-level)准则(如,交叉熵cross-entropy)。这是一个静态DNN和一个CRF的浅层区分性构架的结合。可以指出这个DNN-CRF和一个DNN和HMM混合深层构架是等价的,这个DNN和HMM混合深层构架在整个标签序列和输入特征序列之间使用全序列最大交互信息准则,来联合学习参数。相关的浅层神经网络序列训练方法(Kingsbury,2009)和深层神经网络序列训练方法(Kingsburyetal.,2012)被提出。沿用这样方法,如上面HMM训练的例子,在生成模型中,用区分性法则来训练参数。我们讨论应用同样的方法来学习其他生成性构架.在(LarochelleandBengio,2008),当标签向量与输入数据向量连接来形成RBM的所有可视层,使用类别(标签)后验概率区分性准则来学习RBM生成模型。最近在(Ranzatoetal.,2011)的工作,学习一个最底层带有封闭的马尔科夫随机域(MRF)的深层DBN模型来进行特征提取,然后进行困难图像分类。DBN的生成能力有助于发现所捕获到的信息和在在深层模型中每一层表示的损失。一个相关的工作(Stoyanovetal.,2011).,用经验风

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论