【深度学习与卷积、递归神经网络综述4900字】

上传人：E*** IP属地：湖北上传时间：2026-06-26 格式：DOCX 页数：11 大小：721.72KB 积分：13 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

深度学习与卷积、递归神经网络综述目录TOC\o"1-3"\h\u11354深度学习与卷积、递归神经网络综述 16496一、人工智能、深度学习与自然语言处理 14062（一）人工智能 131971（二）深度学习 226826（三）自然语言处理 324293二、语音识别与自然语言处理 35904（一）N-gram模型 41865（二）RNNLM模型 629661（三）HMM模型 78214（四）DNN-HMM模型 82174（五）RNN模型 10一、人工智能、深度学习与自然语言处理本章首先介绍人工智能、深度学习与自然语言处理的关系。图2-1即为三者关系的简单表达。即深度学习为人工智能的一种，它包含于人工智能之中，并且是人工智能研究中一个重要的分支。自然语言处理同样是人工智能中一个细化的分支，与深度学习为相辅相成的关系，深度学习可以为解决自然语言处理问题的一个重要工具，自然语言处理也是深度学习的一个重要研究方向。图2-1人工智能、深度学习与自然语音处理的关系（一）人工智能人工智能（ArtificialIntelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。尼尔逊教授对人工智能下了这样一个定义：“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为：“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律，构造具有一定智能的人工系统，研究如何让计算机去完成以往需要人的智力才能胜任的工作，也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。（二）深度学习深度学习(DL,DeepLearning)是机器学习(ML,MachineLearning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)[5]。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术[5]。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步[5]。（三）自然语言处理自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分[3]。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面[4]。语音识别与自然语言处理自动语音识别（AutomaticSpeechRecognition，ASR），简称语音识别，是一种广义的自然语言处理技术，是用于人与人、人与机器进行更顺畅的交流的技术。语音识别目前已使用在生活的各个方面：手机端的语音识别技术，比如苹果的siri；智能音箱助手，比如阿里的天猫精灵，还有诸如科大讯飞一系列的智能语音产品等等。声音从本质是一种波，也就是声波，这种波可以作为一种信号来进行处理，所以语音识别的输入实际上就是一段随时间播放的信号序列，而输出则是一段文本序列。图SEQ图\*ARABIC2-2语音识别的输入与输出将语音片段输入转化为文本输出的过程就是语音识别。一个完整的语音识别系统通常包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块。语言识别系统如下图所示：图2-3语音识别系统信号处理和特征提取可以视作音频数据的预处理部分，一般来说，一段高保真、无噪声的语言是非常难得的，实际研究中用到的语音片段或多或少都有噪声存在，所以在正式进入声学模型之前，我们需要通过消除噪声和信道增强等预处理技术，将信号从时域转化到频域，然后为之后的声学模型提取有效的特征向量。接下来声学模型会将预处理部分得到的特征向量转化为声学模型得分，与此同时，语言模型，也就是我们前面在自然语言处理中谈到的类似n-gram和RNN等模型，会得到一个语言模型得分，最后解码搜索阶段会针对声学模型得分和语言模型得分进行综合，将得分最高的词序列作为最后的识别结构。这便是语音识别的一般原理。语音识别建模对语音识别来说是不可或缺的一部分，因为不同的建模技术通常意味着不同的识别性能，所以这是各个语音识别团队重点优化的方向。也正是因为如此，语音识别的模型也层出不穷，其中语言模型包括了N-gram、RNNLM等，在声学模型里面又涵盖了HMM、DNN、RNN等模型，下面这部分简单的介绍了上述模型。（一）N-gram模型N-Gram，也称为N元模型，是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。N-gram模型的基本原理是基于马尔可夫假设,在训练N-gram模型时使用最大似然估计模型参数——条件概率[1]。1.马尔可夫假设马尔科夫假设中很重要的一点是有限视野假设，即每一个状态只与它前面的个状态有关，这被称为阶马尔可夫链。N-gram模型应用在语言模型中时，就是指每一个词的概率只与前边的个词有关系，这就被称为元语言模型，当时，被称为二元模型，此时上述公式展开为：（2-1）经过马尔可夫假设的简化，计算的概率也会变得容易很多，当然随着的增加，相应的计算复杂度也会增加，而越大，越逼近数据的真实分布，通常取值为2、3、4、5。概率估计通过2中的描述，可以明确的是：1）每一个句子都可以拆分成不同的词的全排列2）每一个句子都可以通过条件概率公式计算得到一个表示该句子的合理性概率3）通过引入马尔可夫假设，简化句子的计算概率以二元模型为例，从概率统计中可知的计算公式为：（2-2）在大语料的情况下，基于大数定理，词语、的共同出现次数除以的出现次数可以近似等于，所以有：（2-3）所以一般情况下，统计语言模型都要求语料足够大，这样得到的结果相对会准确一些。但当出现或的情况，计算出的结果显然是不合理的。因此N-grad模型还引入了平滑技术。N-grad模型中的平滑技术为了解决3中描述的次数统计比值不合理情况，N-grad模型引入了平滑技术，常见的平滑技术包括：·加法平滑·古德-图灵估计法·Katz平滑方法·Jelinek-Mercer平滑方法·Witten-Bell平滑方法·绝对减值法·Kneser-Ney平滑方法（二）RNNLM模型RNNLM模型是一个根据上下文，预测下一个词语概率的模型。这个模型更加贴近于语言模型的定义，得到语言模型中每个因数参数的计算，其主要结构如图所示：图2-4RNNLM模型结构循环神经网络语言模型（RNNLM）解决了前馈神经网络模型窗口固定的问题。前馈神经网络模型假设每个输入都是独立的，但是这个假设并不合理。而循环神经网络的结构能利用文字的这种上下文序列关系，更好地对语句之间的关系进行建模。RNNLM模型的优点包括：·可以处理任意长度的输入·理论上可以追溯前面时间步的信息·模型参数大小固定，与输入长度无关缺点是计算时间长，在实际应用中，难以追溯很久远的时间步信息。（三）HMM模型隐马尔科夫模型（HiddenMarkovModel，简称HMM）是比较经典的机器学习模型了，它在语言识别，自然语言处理，模式识别等领域得到广泛的应用。HMM模型的定义如下：对于HMM模型，首先我们假设是所有可能的隐藏状态的集合，是所有可能的观测状态的集合，即：（2-4）其中，N是可能的隐藏状态数，M是所有的可能的观察状态数。对于一个长度为T的序列，I对应的状态序列,O是对应的观察序列，即：（2-5）其中，任意一个隐藏状态，任意一个观察状态HMM模型有两个很重要的假设：齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态。当然这样假设有点极端，因为很多时候我们的某一个隐藏状态不仅仅只依赖于前一个隐藏状态，可能是前两个或者是前三个。但是这样假设的好处就是模型简单，便于求解。如果在时刻的隐藏状态是，在时刻的隐藏状态是，则从时刻到时刻的HMM状态转移概率可以表示为：（2-6）这样可以组成马尔科夫链的状态转移矩阵：（2-7）观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态，这也是一个为了简化模型的假设。如果在时刻的隐藏状态是，而对应的观察状态为，则该时刻观察状态在隐藏状态下生成的概率满足：（2-8）这样可以组成观测状态生成的概率矩阵：（2-9）除此之外，我们需要一组在时刻的隐藏状态概率分布：（2-10）一个HMM模型，可以由隐藏状态初始概率分布，状态转移概率矩阵和观测状态概率矩阵决定。决定状态序列，决定观测序列。因此，HMM模型可以由一个三元组表示如下：（2-11）（四）DNN-HMM模型基于DNN-HMM的语音识别声学模型结构如下图所示：图2-5DNN-HMM模型结构与传统的基于GMM-HMM的声学模型相比，唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN与GMM相比具有如下优点：·DNN不需要对声学特征所服从的分布进行假设；·DNN的输入可以采用连续的拼接帧，因而可以更好地利用上下文的信息；·DNN的训练过程可以采用随机优化算法来实现，而不是采用传统的批优化算法，因此当训练数据规模较大时也能进行非常高效的训练，显然，训练数据规模越大，所得到的声学模型就越精确，也就越有利于提高语音识别的性能；·在发音模式分类上，DNN这种区分式模型也要比GMM这种产生式模型更加合适。·DNN的输入是传统的语音波形经过加窗、分帧，然后提取出来的频谱特征，如MFCC、PLP或更底层的滤波器组(filterbank,FBK)声学特征等。FBK特征多利用Mel滤波器组在功率谱上进行滤波并计算对数能量，然后采用其规整值来表示。目前，FBK特征获得了广泛的成功，证明了原始语音频率对于基于DNN的语音识别技术的重要性。与传统的GMM采用单帧特征作为输入不同，DNN将相邻的若干帧进行拼接来得到一个包含更多信息的输入向量。研究表明，采用拼接帧作为输入是DNN相比GMM能获得明显性能提升的关键因素之一。DNN输出向量的维度对应HMM中状态的个数，通常每一维输出对应一个绑定的triphone状态。训练时，为了得到每一帧语音在DNN上的目标输出值(标准值)，需要通过事先训练好的GMM-HMM识别系统在训练语料上进行强制对齐。即要训练一个DNN-HMM声学模型，首先需要训练一个GMM-HMM声学模型，并通过基于Viterbi算法的强制对其方法给每个语音帧打上一个HMM状态标签，然后以此状态标签，训练一个基于DNN训练算法的DNN模型。最后用DNN模型替换HMM模型中计算观察概率的GMM部分，但保留转移概率和初始概率等其他部分。（五）RNN模型RNN（RecurrentNeuralNetwork）是一类用于处理序列数据的神经网络。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义，当然这里也可以不是时间，比如文字序列，但总归序列数据有一个特点——后面的数据跟前面的数据有关系。图2-6是一个标准的RNN结构图，图中每个箭头代表做一次变换，也就是说箭头连接带有权值。左侧是折叠起来的样子，右侧是展开的样子，左

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【深度学习与卷积、递归神经网络综述4900字】

文档简介

温馨提示

最新文档

评论

【深度学习与卷积、递归神经网络综述4900字】

文档简介

温馨提示

最新文档

评论

相关文档