版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音识别与自然语言处理算法概述目录TOC\o"1-3"\h\u2332语音识别与自然语言处理算法概述 11098(一)N-gram模型 23631(二)RNNLM模型 431969(三)HMM模型 520378(四)DNN-HMM模型 628464(五)RNN模型 8自动语音识别(AutomaticSpeechRecognition,ASR),简称语音识别,是一种广义的自然语言处理技术,是用于人与人、人与机器进行更顺畅的交流的技术。语音识别目前已使用在生活的各个方面:手机端的语音识别技术,比如苹果的siri;智能音箱助手,比如阿里的天猫精灵,还有诸如科大讯飞一系列的智能语音产品等等。声音从本质是一种波,也就是声波,这种波可以作为一种信号来进行处理,因此,语音识别输入信号数据就是一系列的随时间变化的信号序列,输出是一系列文本信息。图SEQ图\*ARABIC2-2语音识别的输入与输出语音识别就是实现语音片段到文本数据的转化过程。完整的语音识别系统一般含有4个重要模块,分别是信息处理模块,语言模块,声学模型模块,以及解码搜索模块。语言识别系统如下图所示:图2-3语音识别系统我们将信号处理与特征提取这个环节当做是音频数据的预处理,一般是很难得到一段不含噪声且高保真的语言,实际中的语言片段往往会含有一定的噪声,因此在输入到声学模型以前,我们要使用预处理技术来增强信道与消除噪声,使得信号实现时域到频域的转换,接着就是在声学模型中将有效的特征向量实现有效的提取。在声学模型中,特征向量就将变成相应的声学模型分数,同时,语言模型被自然语言处理成与RNN与n-gram类似的模型,于是就获得了语言模型分数,最后就是解码搜索阶段,综合前面得到的语言模型分数与声学模型分数,最终的识别机构就是分数最高的词序列。上述就是语音识别的一般性原理。在语音识别中,语音识别的建模必不可少,由于采取的建模技术不同,其获得的的识别性能也是不同的,因此,语音识别建模成了语音识别团队的一个重点研究方向。于是,出现了各种各样的语音识别模型,其中代表性较强的语言模型有RNNLM模型与N-gram模型等,接下来就对以上典型模型进行简单的介绍。(一)N-gram模型N-Gram,别名N元模型,属于一种重要的自然语言处理概念,一般在进行NLP时,我们往往都需要使用一定的语料库,使用N-gram可以对句子的合理性进行评估。另外,N-Gram也能对两个字符间的差异性进行评估。这都是模糊匹配的常见手段之一。N-gram模型的基本原理是基于马尔可夫假设,在训练N-gram模型时使用最大似然估计模型参数——条件概率[1]。1.马尔可夫假设马尔科夫假设中很重要的一点是有限视野假设,即每一个状态只与它前面的个状态有关,这被称为阶马尔可夫链。N-gram模型应用在语言模型中时,就是指每一个词的概率只与前边的个词有关系,这就被称为元语言模型,当时,被称为二元模型,此时上述公式展开为:(2-1)经过马尔可夫假设的简化,计算的概率也会变得容易很多,当然随着的增加,相应的计算复杂度也会增加,而越大,越逼近数据的真实分布,通常取值为2、3、4、5。概率估计通过2中的描述,可以明确的是:1)每一个句子都可以拆分成不同的词的全排列2)每一个句子都可以通过条件概率公式计算得到一个表示该句子的合理性概率3)通过引入马尔可夫假设,简化句子的计算概率以二元模型为例,从概率统计中可知的计算公式为:(2-2)在大语料的情况下,基于大数定理,词语、的共同出现次数除以的出现次数可以近似等于,所以有:(2-3)所以一般情况下,统计语言模型都要求语料足够大,这样得到的结果相对会准确一些。但当出现或的情况,计算出的结果显然是不合理的。因此N-grad模型还引入了平滑技术。N-grad模型中的平滑技术为了解决3中描述的次数统计比值不合理情况,N-grad模型引入了平滑技术,常见的平滑技术包括:·加法平滑·古德-图灵估计法·Katz平滑方法·Jelinek-Mercer平滑方法·Witten-Bell平滑方法·绝对减值法·Kneser-Ney平滑方法(二)RNNLM模型RNNLM模型是一个根据上下文,预测下一个词语概率的模型。这个模型更加贴近于语言模型的定义,得到语言模型中每个因数参数的计算,其主要结构如图所示:图2-4RNNLM模型结构循环神经网络语言模型(RNNLM)解决了前馈神经网络模型窗口固定的问题。前馈神经网络模型假设每个输入都是独立的,但是这个假设并不合理。而循环神经网络的结构能利用文字的这种上下文序列关系,更好地对语句之间的关系进行建模。RNNLM模型的优点包括:·可以处理任意长度的输入·理论上可以追溯前面时间步的信息·模型参数大小固定,与输入长度无关缺点是计算时间长,在实际应用中,难以追溯很久远的时间步信息。(三)HMM模型隐马尔科夫模型,英文简称是HMM,这是一种典型的机器学习模型,被广泛应用于语言识别,模式识别,以及自然语言处理等领域中。HMM模型的定义如下:在HMM模型中,我们首先假设定义为全部可能的隐藏状态集合,定义为全部观测状态集合,于是就有:(2-4)在上式中,N代表的是可能的隐藏状态数量,M代表的是观察到的全部可能状态数量。用T表示长度等于T的序列,其对应状态序列用I来表示,对应的观察序列用O表示,于是有:(2-5)在上式中,对于任意隐藏状态满足,任意观察状态满足HMM模型的建立是基于以下两个重要假设的:齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态。当然这样假设有点极端,因为很多时候我们的某一个隐藏状态不仅仅只依赖于前一个隐藏状态,可能是前两个或者是前三个。但是这样假设的好处就是模型简单,便于求解。如果在时刻的隐藏状态是,在时刻的隐藏状态是,则从时刻到时刻的HMM状态转移概率可以表示为:(2-6)这样可以组成马尔科夫链的状态转移矩阵:(2-7)观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设。如果在时刻的隐藏状态是,而对应的观察状态为,则该时刻观察状态在隐藏状态下生成的概率满足:(2-8)这样可以组成观测状态生成的概率矩阵:(2-9)除此之外,我们需要一组在时刻的隐藏状态概率分布:(2-10)一个HMM模型,可以由隐藏状态初始概率分布,状态转移概率矩阵和观测状态概率矩阵决定。决定状态序列,决定观测序列。因此,HMM模型可以由一个三元组表示如下:(2-11)(四)DNN-HMM模型基于DNN-HMM的语音识别声学模型结构如下图所示:图2-5DNN-HMM模型结构与传统的基于GMM-HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。相比于GMM,DNN的主要优点包括:·DNN中不用假设声学特征对应的分布情况;·DNN的输入中用到的是一种连续式的拼接帧,所以可对上下文信息进行更好地利用;·DNN的训练过程的实现用的是一种随机优化算法,并非是传统优化算法,所以在训练数据具有较大规模时,其训练也是非常高效的,所以,当训练数据具有越大规模时,就能更加精确地得到声学模型,对于语音识别的性能提高也是更有利的;·进行发音模式分类时,DNN模型的区分会显得更为合适。·DNN的输入选择的是传统语音波形,将分帧与加窗处理后,将频谱特征提取出,比方说,滤波器的声学特征,PLP,以及MFCC等。对于FBK特征,一般使用的是Mel滤波器来将对数能量从功率谱上进行滤掉,接着表示为规整值的形式。现阶段,FBK特征成功得到了广泛应用,这就验证了,原始语音频率是一种重要的基于DNN语音识别技术。相比于传统的GMM,DNN的输入是拼接了相邻的多个帧以后形成的,其中含有的输入向量会更多。通过研究说明了,相比于GMM,DNN采用拼接帧来进行输入,之所以可以获得更高性能优势,这是一个关键性的因素。DNN输出向量中,其维度与HMM状态个数是相对应的,一般来说,每一维输出与绑定的triphone状态相对应。进行训练的过程中,为了准确将每帧语音DNN目标输出值得到,有必要利用已经完成训练任务的GMM-HMM识别系统,强制在训练语料上进行对齐。也就是说,进行一个DNN-HMM声学模型的训练时,先要完成对GMM-HMM声学模型的训练,然后利用基于Viterbi算法将对应的HMM状态标签强制性地打在每个语音帧上,接着利用该状态标签来对DNN模型进行训练。最后,使用DNN模型来对HMM模型中GMM部分进行替代,只是将其中的初始概率与转移概率等部分进行了保留。(五)RNN模型RNN,英文全称为RecurrentNeuralNetwork,这是一种对序列数据进行处理的神经网络。对于时间序列数据,具体指的是收集到的不同时间点对应的数据,这些数据主要是对某个现象或者事物是如何随着时间进行变化的情况及程度进行反映。上述定义的是时间序列数据,也可以对于其他类型的序列数据进行定义,比方说,文字序列,然而这些序列数据都具备一个共同点,即数据前后是具有某种联系的。在图2-6上展示的是某个标准RNN结构图,其中的每个箭头就相当于完成一次变换,换句话说就是,箭头连接带上带有相应的权值。左图是折叠结构,右图是对应的展开图,左图中的h箭头就说明了,本结构的隐层中发生了循环。图2-SEQ图\*ARABIC6RNN结构图在图5中,x代表的是输入,h代表的是隐层单元,o代表的是输出,L代表的是损失函数,y代表的是训练集的标签。上述元素右上角的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 小学一年级科学下册认识水果的种子课件
- 狍子介绍教学课件
- 2026年航空发动机高温合金项目建议书
- 2025年江苏省无锡市中考地理真题卷含答案解析
- 2025年环保宣传教育常识知识考察试题及答案解析
- 电梯培训班年终总结范文(3篇)
- 福建省华伦中学2025-2026学年九年级上学期期末模拟道德 与法治试题
- 环保现场检查培训课件
- 流延膜生产线项目可行性研究报告
- 环保培训背景
- 2025年国防科工局机关公开遴选公务员笔试模拟题及答案
- 2024-2025学年山东省济南市天桥区八年级(上)期末语文试卷(含答案解析)
- (高清版)DB44∕T 724-2010 《广州市房屋安全鉴定操作技术规程》
- 2025职业健康培训测试题(+答案)
- 供货流程管控方案
- 《实践论》《矛盾论》导读课件
- 中试基地运营管理制度
- 老年病康复训练治疗讲课件
- DB4201-T 617-2020 武汉市架空管线容貌管理技术规范
- 药品追溯码管理制度
- 脚手架国际化标准下的发展趋势
评论
0/150
提交评论