深度学习综述.doc

上传人：过*** IP属地：江西上传时间：2020-01-29 格式：DOC 页数：11 大小：68.50KB 积分：15 举报 版权申诉

免费预览已结束，剩余6页可下载查看

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录1 深度学习的概念11.1 卷积神经网络模型11.2 深度信任网络模型31.3堆栈自编码网络模型42 深度学习算法52.1深度费希尔映射方法52.2 非线性变换方法52.3 稀疏编码对称机算法52.4 迁移学习算法62.5 自然语言解析算法62.6 学习率自适应方法63 深度学习的实际应用63.1 语音识别63.2视频分析73.3 人脸识别73.4 图像识别和检索74 深度学习的问题及发展趋势85 总结9参考文献10 深度学习综述摘要：深度学习是机器学习研究中的一个新领域，在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。近年来，深度学习在各领域上也取得了丰硕的研究成果。本文简要论述了深度学习的概念、模型、算法以及在各领域的应用，最后说明深度学习的问题及发展趋势。关键字：深度学习，神经网络，机器学习 Review of Deep LearningAbstract:Deep leaning is a new field in machine learning research.It is a which simulates the human brain to analyze and study the mechanism of the human to interpret the data.In recent years,deep leaning has achieved fruitful results in various fields.This paper briefly discusses the concept,model,algorithm and application in various fields of deep learning. Finally, explains the problems and development trend of deep learning.Keywords:Deep learning,neural network,machine learning 1 深度学习的概念深度学习是机器学习领域一个新的研究方向，近年来在图像识别与检索、语言信息处理、语音识别等多领域中都取得较为成功的发展。深度学习应用的发展基础在于建立模型来模拟人类大脑的神经连接结构,在处理图像、声音和文本这些信号时,通过多个变换阶段分层对数据特征进行描述,进而给出数据的解释。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念最早G. E. Hinton 等于2006 年提出。基于深信度网（DBN）提出非监督贪心训练逐层算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。同机器学习方法一样，深度机器学习方法也有有监督学习和无监督学习之分，不同的学习框架下建立的学习模型不同。例如卷积神经网络就是一种深度的监督学习下的机器学习模型，而就是一种无监督学习下的机器学习模型。典型的深度学习模型有卷积神经网络、深度置信网络和堆栈自编码网络模型等，下面对这些模型进行描述。1.1 卷积神经网络模型卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在于网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或是其他形式的变形具有高度不变形。 Lecun 的卷积神经网络由卷积层和子抽样层两种类型的神经网络层组成。每一层有一个拓扑图结构，即在接收域内，每个神经元与输入图像中某个位置对应的固定二维位置编码信息关联。在每层的各个位置分布着许多不同的神经元，每个神经元有一组输入权值，这些权值与前一层神经网络矩形块中的神经元关联；同一组权值和不同输入矩形块与不同位置的神经元关联。下图是一个用于手写体字符识别的卷积神经网络，由一个输入层、四个隐层和一个输出层组成。由下图可以看出，与完全连接的多层前馈感知器网络相比，卷积神经网络通过使用接收域的局部连接，限制了网络结构。卷积神经网络的另一个特点是权值共享，图中包含大量连接权值，但是由于同一隐层的神经元共享同一权值集，大大减少了自由参数的数量。图11 用于手写体字符识别的卷积神经网络卷积神经网络本质上实现一种输入到输出的映射关系，能够学习大量输入与输出之间的映射关系，不需要任何输入和输出之间的精确数学表达式，只要用已知的模式对卷积神经网络加以训练，就可以使网络具有输入输出之间的映射能力。卷积神经网络执行的是有监督训练，在开始训练前，用一些不同的小随机数对网络的所有权值进行初始化。卷积神经网络中这种层间联系和空域信息的紧密关系，使其适于图像处理和理解。而且，在其自动提取图像的显著特征方面还表现出了比较优异的性能。在目前大部分的工作中，研究者将卷积神经网络应用到了多种机器学习问题中，包括人脸识别，文档分析和语言检测等。为了达到寻找视频中帧与帧之间的相干性的目的，目前卷积神经网络通过一个时间想干性去训练，但这个不是卷积神经网络特有的。1.2 深度信任网络模型深度信任网络可以解释为贝叶斯概率生成模型，由多层随机隐变量组成，上面的两层具有无向对称连接，下面的层得到来自上一层的自顶向下的有向连接，最底层单元的状态为可见输入数据向量。深度信任网络由若干结构单元堆栈组成，如图12 所示，结构单元通常为 RBM。堆栈中每个 RBM 单元的可视层神经元数量等于前一 RBM 单元的隐层神经元数量。根据深度学习机制，采用输入样例训练第一层RBM 单元，并利用其输出训练第二层RBM 模型，将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中，DBN 编码输入到顶层RBM后解码顶层的状态到最底层的单元实现输入的重构。图 12 DBN的生成过程RBM 的无向图模型如图13所示，作为 DBN 的结构单元，RBM 与每一层 DBN 共享参数。图 13 RBM的无向图模型 RBM是一种特殊形式的波尔兹曼机，变量之间的图模型连接形式有限制，只有可见层节点与隐层节点之间有连接权值，而可见层节点与可见层节点以及隐层节点与隐层节点之间无连接。1.3堆栈自编码网络模型堆栈自编码网络的结构与深度信任网络类似，由若干结构单元堆栈组成，不同之处在于其结构单元为自编码模型而不是RBM。自编码模型是一个两层的神经网络，第一层称为编码层，第二层称为解码层。如图14所示，训练该模型的目的是用编码器c() 将输入x编码成表示c(x)，再用解码器g()从c(x) 表示中解码重构输入r(x) = g(c(x)。因此,自编码模型的输出是其输入本身，通过最小化重构误差 L( r( x) ，x) 来执行训练。当隐层是线性的，并且 L( r( x) ，x) =r( x), x2 是平方误差时，c( x) 训练网络将输入投影到数据的主分量空间中，此时自编码模型的作用等效于 PCA；当隐层非线性时与 PCA不同，得到的表示可以堆栈成多层，自编码模型能够得到多模态输入分布。重构误差的概率分布可以解释为非归一化对数概率密度函数这种特殊形式的能量函数，意味着有低重构误差的样例对应的模型具有更高的概率。图14 自编码模型结构自编码模型的重构误差的梯度与深度信任网络的 CD 更新规则表达式存在对应关系。堆栈自编码网络的结构单元除了上述的自编码模型之外，还可以使用自编码模型的一些变形，如降噪自编码模型和收缩自编码模型等。降噪自编码模型避免了一般的自编码模型可能会学习得到无编码功能的恒等函数和需要样本的个数大于样本的维数的限制，尝试通过最小化降噪重构误差，从含随机噪声的数据中重构真实的原始输入。降噪自编码模型使用由少量样本组成的微批次样本执行随机梯度下降算法，这样可以充分利用图处理单元的矩阵到矩阵快速运算使得算法能够更快地收敛。降噪自编码模型与得分匹配方法直接相关。得分匹配是一种归纳原理，当所求解的问题易于处理时，可以用来代替极大似然求解过程。 2 深度学习算法2.1深度费希尔映射方法Wong等人提出一种新的特征提取方法正则化深度费希尔映射方法，学习从样本空间到特征空间的显式映射，根据Fisher准则用深度结构神经网络提高特征的区分度。深度结构神经网络具有深度非局部学习结构，从更少的样本中学习变化很大的数据集中的特点，显示出比核方法更强的特征识别能力，同时RDFM方法的学习过程由于引入正则化因子，解决了学习能力过强带来的过拟合问题。在各种类型的数据集上进行试验，得到的结果说明了在深度学习微调阶段运用无监督正则化的必要性。2.2 非线性变换方法Raiko等人提出了一种非线性变换方法，该变换方法使得多层感知器网络的每个隐神经元的输出具有零输出和平均值上的零斜率，使学习MLP变得更容易。将学习整个输入输出函数的线性部分和非线性部分尽可能分开，用shorteut权值建立线性映射模型，令Fisher信息阵接近对角阵，使得标准梯度接近自然梯度。通过实验证明非线性变换方法的有效性，该变换使得基本随机梯度学习与当前的学习算法在速度上不相上下，并有助于找到泛化性能更好的分类器。用这种非线性变换方法实现的深度无监督自编码模型进行图像分类和学习图像的低维表示的实验，说明这些变换有助于学习深度至少达到五个隐层的深度结构神经网络，证明了变换的有效性，提高了基本随机梯度学习算法的速度，有助于找到泛化性能更好的分类器。2.3 稀疏编码对称机算法Ranzato等人提出一种新的有效的无监督学习算法稀疏编码对称机，能够在无须归一化的情况下有效产生稀疏表示。稀疏编码对称机的损失函数是重构误差和稀疏罚函数的加权总和，基于该损失函数比较和选择不同的无监督学习机，提出一种与文献算法相关的迭代在线学习算法，并在理论和实验上将稀疏编码对称机与深度信任网络和PCA进行比较，在手写体数字识别MNIST数据集和实际图像数据集上进行实验，表明该方法的优越性。2.4 迁移学习算法在许多常见学习场景中训练和测试数据集中的类标签不同，必须保证训练和测试数据集中的相似性进行迁移学习。Mesnil等人研究了用于无监督迁移学习场景中学习表示的不同种类模型结构，将多个不同结构的层堆栈使用无监督学习算法用于五个学习任务，并研究了用于少量已标记训练样本的简单线性分类器堆栈深度结构学习算法。叫研究了无监督迁移学习问题，讨论了无监督预训练有用的原因，如何在迁移学习场景中利用无监督预训练，以及在什么情况下需要注意从不同数据分布得到的样例上的预测问题。2.5 自然语言解析算法Collobert基于深度递归卷积图变换网络提出一种快速可扩展的判别算法用于自然语言解析，将文法解析树分解到堆栈层中，只用极少的基本文本特征，得到的性能与现有的判别解析器和标准解析器的性能相似，而在速度上有了很大提升。2.6 学习率自适应方法学习率自适应方法可用于提高深度结构神经网络训练的收敛性并且去除超参数中的学习率参数，其中包括全局学习率、层次学习率、神经元学习率和参数学习率等。最近研究人员提出了一些新的学习率自适应方法，如Duchi等人提出的自适应梯度方法和Schaul等人提出的学习率自适应方法；Leroux等人提出自然梯度的对角低秩在线近似方法，并说明该算法在一些学习场景中能加速训练过程。3 深度学习的实际应用3.1 语音识别2011年，微软语音识别采用深度学习技术降低语音识别错误20-30%，是该领域十多年来最大的突破性进展。2013年6月18日，微软宣布已经研发出一种新型语音识别技术，可提供“接近即时”的语音至文本的转换服务，比目前的语音识别技术快两倍。同时，准确率提高了15%，该技术模仿人类大脑对沟通理解的方式。深度神经网络技术能够像人类大脑一样工作，该技术将会取代谷歌等竞争对手在搜索和安卓产品中常用的技术。在国际上，IBM、google等公司都快速进行了深度学习语音识别研究，并且速度飞快。国内方面，科大讯飞、百度、中科院自动化所等公司或研究单位，也在进行深度学习在语音识别上的研究。3.2视频分析描述视频的静态图像特征可以采用从imageNet上学习的得到的深度模型。以往的视觉研究方法对动态特征的描述往往依赖于光流估计、对关键点的跟踪和动态纹理。如何将这些信息体现在深度模型中是个难点。最直接的做法是将视频是为三维图像，直接应用卷积网络在每一层学习三维滤波器。但是这一思路显然没有考虑到时间维和空间维的差异性。另外一种简单更加有效的思路是，通过与处理计算光流场或其它动态特征的空间厂分布，作为卷及网络的一个输入通道。也有研究工作利用深度编码器以非线性的方式提取动态纹理。在最新的研究工作中，长短时记忆网络受到广泛关注，它可以捕捉长期依赖性，对视频中复杂的动态建模。3.3 人脸识别深度学习在物体识别上的另一个重要突破就是人脸识别。人脸识别的最大挑战是如何区分由于光线、姿态和表情等因素引起的类内变化和由于身份不同产生的类间变化。这两种变化的分布是非线性的，且极为复杂，传统的线性模型无法将它们有效区分开。深度学习的目的是通过多层的非线性变换得到新的特征表示。这些特征须尽可能多地去掉内变化，而保留类间变化。人脸识别包括人脸确认和人脸辨识两种任务。人脸确认是判断两张人脸照片是否属于同一个人的，属于二分类问题。人脸辨别是将一张人脸分为N个类别之一，类别是由人脸的身份定义的。这个是多分类问题，更具有挑战性，其难度随着类别数的增加而增大。两种任务都可以通过深度模型学习人脸的特征表达。3.4 图像识别和检索深度信任网络和堆栈自编码网络在单个图像识别任务中表现出很好的性能，成功用于生成紧凑而有意义的图像检索表示形式，并且已用于大型图像检索任务中，得到非常好的结果。图像识别方面比深度信任网络更一般的方法。Taylor等人将条件深度信任网络用于视频排序和人类动作合成，条件深度信任网络使得深度信任网络的权值与之前的数据相关联，可以提高训练的有效性。Lee和Raina等人用稀疏编码和深度信任网络从自然图像中学习有效特征表示。Nair等人提出改进的深度信任网络，该模型的顶层模型用三阶BM，他们将这种模型用于三维目标识别任务NORB数据集上，实验结果显示出训练得到了很低的预测误差率。Tang等人提出两种策略来提高深度信任网络的鲁棒性，首先将深度信任网络的第一层具有稀疏连接结构引入正则化方法，接着提出一种概率降噪算法，这些技术在高噪声图像识别任务和随机噪声的鲁棒性方面显示出其有效性。Lee等人提出一种深度学习方法使脑图像分割自动化，用卷积神经网络建立用于脑图像分割的判别特征，能自动从人类专家提供的类标签中进行学习，通过实验验证该方法在自动多类脑图像分割方面显示出优越的性能，表明该方法可以替代已有的模板图像分割方法，减少了图像分割过程对人类专家的干预和对先验信息的需求。4 深度学习的问题及发展趋势深度学习算法在计算机视觉(图像识别、视频识别等)和语音识别中的应用,尤其是大规模数据集下的应用取得突破性的进展,但仍有以下问题值得进一步研究:（1）无标记数据的特征学习目前,标记数据的特征学习仍然占据主导地位 ,而真实世界存在着海量的无标记数据,将这些无标记数据逐一添加人工标签,显然是不现实的. 所以,随着数据集和存储技术的发展,必将越来越重视对无标记数据的特征学习,以及将无标记数据进行自动添加标签技术的研究。（2）模型规模与训练速度、训练精度之间的权衡一般地,相同数据集下,模型规模越大,训练精度越高,训练速度会越慢。例如一些模型方法采用ReLU 非线性变换、GPU 运算,在保证精度的前提下,往往需要训练。虽然离线训练并不影响训练之后模型的应用,但是对于模型优化,诸如模型规模调整、超参数设置、训练时调试等问题,训练时间会严重影响其效率。故而,如何在保证一定的训练精度的前提下,提高训练速度,依然是深度学习方向研究的课题之一。（3）与其他方法的融合从上述应用实例中可发现,单一的深度学习方法,往往并不能带来最好的效果,通常融合其他方法或多种方法进行平均打分,会带来更高的精确率。因此,深度学习方法与其他效果,通常融合其他方法或多种方法进行

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

深度学习综述.doc

文档简介

温馨提示

最新文档

评论

深度学习综述.doc

文档简介

温馨提示

最新文档

评论

相关文档