基于神经网络隐马尔可夫模型的混合_第1页
基于神经网络隐马尔可夫模型的混合_第2页
基于神经网络隐马尔可夫模型的混合_第3页
基于神经网络隐马尔可夫模型的混合_第4页
基于神经网络隐马尔可夫模型的混合_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于神经网络/隐马尔可夫模型的混合语音识别方法的研究现状摘要:作为大词汇量连续语音识别系统的主流技术,隐马尔可夫模型(HMM 方法已经取得了相当的成功。但是,由于HMM 在理论上的一些缺陷,使得目前的连续语音识别系统只能在非常有限的范围内得到应用。也就是说,从根本意义上说,语音识别是一个尚未解决的问题,仍旧是一个科学上的问题,离工程化还有相当的距离。所以,不断地探索新模型与新方法对彻底解决这一问题至关重要。另一方面,近几年的研究表明,神经网络(ANN 具有极强的对复杂模式的分类能力。在连续语音识别的研究中,理应考虑结合两者之长来提高识别系统的性能,尤其是声学层面上的识别率。本文旨在介绍国外这方

2、面的前沿成果,并结合我们自己在这方面的工作,对其发展方向提出一些看法。关键词:神经网络,隐马尔可夫模型,混合方法。一. 概况近年来,自动语音识别的研究已经取得了非常大的进步,许多科研单位和大公司的语音识别系统在实验室中都表现出了较高的识别率。但是,这些识别系统在实际场合的应用效果是不能令人满意的,或者说,目前的识别系统只能在非常有限的范围内得到应用。 为了根本解决语音识别问题,我们还必须不断地探索新模型与新方法。首先,我们回顾一下当前语音识别中最为成功的方法。语音的产生可以看作是由信息源通过一个有噪信道,把语言序列W 转换为一个信号序列S 的过程1,如图1所示。因此,语音识别就是一个最大后验概

3、率(MAP 的解码问题。有 噪 信 道通 道 解 码图1根据贝叶斯公式,该解码问题被表示为:arg max (/arg max(/(W W P W A P A W P W P A =其中A 是声学特征向量,P(A/W是声学模型,P(W是语言模型,可以认为P(A与P(W无关23,则(1式等同于:argmax (/argmax (/(W W P W A P A W P W =在识别系统的识别单元确定下来以后,通常对每个识别单元建立一个HMM,并通过大量的语音数据来训练每个HMM的参数,因此在识别过程中,P(A/W的求取就是计算声学观测向量与每个HMM的相似度。二. HMM与ANN应用于语音识别时各

4、自存在的一些问题2.1 HMM的特点HMM在语音处理的各个领域中的应用都获得了巨大的成功,但它的一些缺陷也使系统性能难以进一步提高。我们不妨用表1来列举其用于语音识别时的优缺点4。用于连续语音识别的HMM方法优点缺点丰富的数学框架对模式的辨识能力差强有力的学习和解码方法要求声学特征内部各分量不相关对时间序列信号的处理能力强状态序列由一个一阶Morkov链产生表 1从表1可以看出,为了用HMM来表示语音的产生,必须建立一些假设,在此基础上设计训练和识别算法,而这些假设与实际情况不一定相符,这正是HMM理论的缺陷所在。2.2人工神经网络方法的特点利用神经方法进行连续语音识别的方法很多,比较有代表意

5、义的有5678等,它们共同的思想就是利用ANN强大的静态模式分类能力,结合HMM或DP的时间处理能力,用混合模型来描述语音的产生模型。这样做的主要原因是因为目前的ANN结构缺乏时序信号的处理能力9。虽然可以通过扩展网络的拓扑结构或引入反馈以获得局部的时间处理能力,如TDNN10和RNN11,但对于时变性和随机性都很强的连续语音信号来说,还尚未找到有效的方法,即仅用ANN把输入的声学向量序列转换为输出的语音单元序列。三. 基于ANN/HMM的混合识别系统如上所述,采用混合方法来结合ANN与HMM两者之长,是可能提高识别器性能的一条途径。这种混合方法的基本思路可以简单描述为:训练神经网络用于HMM

6、状态的分类,神经网络的输出被解释为在声学特征向量窗口中某一帧特征向量的后验概率,即有: gl(xn,=p(q/x (3其中?是声学特征向量,?是神经网络的参数,?是神经网络的输出。在估计系统参数时,ANN和HMM各自训练;在进行识别时,对每一帧声学特征向量,用神经网络的输出替代传统HMM方法中每个状态的输出概率,并以Viterbi算法或其它DP算法动态搜索最佳状态路径。实现这种系统的神经网络可以有多种形式,如MLP,RNN或RBF网络等等。3.1 ANN输出的概率解释为了使神经网络适用于HMM统计模型框架的计算,必须对神经网络的输出赋予统计意义。这方面代表性的工作有512131415,本文给出

7、关于神经网络输出概率解释的一种通用证明考虑神经网络的MSE训练准则:?其中?表示教师信号,?是神经网络的实际输出信号,K 是模式总数,N是训练次数。如果训练数据充分,对于连续值的特征向量,MSE准则可表示为:?/可以看出,在(7式中,第二项独立于神经网络的输出?,所以最小化MSE准则函数(4就等价于选择神经网络的参数来最小化(7式的第一项。而(7式最小化的结果就是:神经网络的输出?是后验概率?的最佳估计。上述证明过程只与训练神经网络的准则函数有关,所以适用于各种结构的神经网络。同时,对于相对熵准则函数,也有类似的结果15。不难看出,上述结论必须满足两个前提条件,即:£¨1&

8、#163;© 用以完成后验概率估计的神经网的结构必须足够复杂,能实现两个空间之间的任意非线性映射。£¨2£© 神经网络的训练必须达到全局最小点,这样才能保证?与?在某种“最佳”意义上最为接近。3.2有代表性的ANN/HMM混合识别系统N.Morgan和H.Bourlard提出的基于MLP/HMM的非特定人连续语音识别混合系统17非常具有代表性,下面对它做简单描述。 图 2如图2所示,在混合系统中,MLP估计每个识别单元(音素对应于每个HMM状态的后验概率,而用有时长(duration信息的HMM中的Viterbi算法实现语音的规整。用MLP所估

9、计的后验概率,不能直接用于Viterbi计算,必须除以每个识别单元的先验概率,从而得到因子化的语音特征向量与HMM状态之间的似然度,即有:?由于利用神经网络而不是传统的HMM的B矩阵(离散情况或混合高斯曲线(连续情况来估计每个HMM状态的输出概率,可以适用多种特征而不必考虑它们之间是否相关。在这个系统中,送入神经网的声学特征包括:12阶PLP系数,对数能量,基音等。同时,按照HMM 的假设,有:?而混合系统则可这个条件为:?/即在局部观察值模型中,含有声学上下文(acoustic context参数。按照(10式,图2所示的混合系统中的MLP具有下面的结构: 图3MLP的输入含有9帧数据,其中

10、前4帧和后4帧分别代表当前要识别语音帧的上下文。整个系统的训练分为两部分。用在线(on-line梯度的方法训练MLP,再利用由前一步训练得出的MLP参数(权值矩阵来估计的状态输出概率,并以此训练HMM的状态转移概率。该系统在充分训练的条件下,比传统的HMM方法具有更高的识别率。四. 展望从目前的结果来看,基于ANN/HMM的混合方法确是一种非常有希望的方法,值得做进一步的深入研究。结合我们自己的工作,我们认为至少在以下四个方面还需要投入大量的精力,以获得更好的结果:£¨1£© 在识别单元的选取方面,要充分考虑汉语的特点,并借鉴西文的经验。£¨2£&

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论