基于半音节单元的汉语语音识别系统_第1页
基于半音节单元的汉语语音识别系统_第2页
基于半音节单元的汉语语音识别系统_第3页
基于半音节单元的汉语语音识别系统_第4页
基于半音节单元的汉语语音识别系统_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于半音节单元的汉语语音识别系统

1系统的基本评估模型随着计算机自动语音识别技术的发展,语音识别已经从研究阶段进入了实践阶段。在中文信息系统的建设中引入语音识别技术,有助于改善中文人机界面,提高系统的可操作性,便于系统的推广和使用。本文从一个基本的语音识别模型着手,分析和比较了不同的语音单元、语音单元驻留时间、声调等语音要素对系统性能的作用和影响,逐步对系统改进和完善,最终实现了一个手机1000句常用汉语的语音识别系统。以实例揭示了一个基于半音节单元的汉语语音识别系统的开发过程和实现方法。2半音节作为语音单元不同的语音识别系统因其任务的不同,可以选择不同的语音单元。对于词表较小的系统而言,可以为每一个词建立一个模型。这样的系统简单实用,而且由于不同模型之间的距离较大,区分容易,识别率很高。在词表较大的情况下,为所有词都建立模型是不现实的。由于汉语音节的独特性,不考虑声调,只有405个不同音节。一些系统采用上述405个音节作为基本语音单元,再加上后续声调识别的方案。该方案的优点是音节的界限相对比较清晰,容易分割;音节之间的协同发音现象不是很突出,音节在不同上下文中的发音变化不大。其缺点是模型数量偏多,难以使每个模型都得到充分的训练;自适应性较差,不容易对模型参数进行调整使之适应新的说话人;对存储空间和运算速度的要求较高。本文采用半音节作为语音单元。首先建立一个基准语音识别系统,包括60个建模单元,即21个声母和39个韵母。每个语音单元用转移弧输出型隐马尔可夫模型(HMM)建模,见图1。图中圆圈代表隐含的状态,状态集合记为{S}。实箭头线表示转移弧,转移弧从状态Si到状态Sj的转移概率记为aij,与此同时该转移弧产生标号为K的输出的概率记为bij(K)。虚箭头线为空转移弧,有转移概率不产生输出。空自转移弧T0用于描述音节前可能的无声段。零声母音节通过空转移弧T1跳过声母段。当一个音节处理完毕,由空转移弧T2转到起始状态,等待或处理下一个音节。以半音节作为语音建模单元,必然涉及声韵母的分割。在模型训练时,采用分段-K平均法确定分界点。我们在实验中发现,用不同声母音长的经验数值作为训练的初值效果较好。语音信号经12kHz频率采样,16bit量化,高频预加重后分帧.帧长20ms,帧移10ms。加哈明窗。提取每帧信号的加权LPC倒谱系数和该系数的差分作为该帧的特征矢量。LPC阶数为12,倒谱阶数为14。特征矢量采用双码本分别对倒谱和差分倒谱系数进行矢量量化(VQ),码本容量为256个码字。本文所用的训练和测试集是特定男声的10遍全音节发音。每遍含1185个不同音节。其中8遍作用训练集,2遍用作测试集。基准系统模型经训练后,正识率为71.83%。3标准系统的改进3.1声母音长信息的半音节识别模型及基准模型HMM是语音识别中广泛采用的一种双重随机模型。隐含的各状态对应语音的稳定段,各状态之间通过转移概率相联系。这种方法较好地建模并处理了语音信号整体非稳性和局部平稳性之间的关系。但是由于模型本身的两个假设与语音的实际情况有一些出入,使得模型在语音应用上存在一定的局限性。其中一个假设是模型在t+1时刻处于某一特定状态的概率仅与模型在t时刻的状态有关。这样模型在状态Si驻留K次的概率就是aKiiiiΚ,即驻留次数越少概率越大,而实际情况并非如此。在HMM中增加各状态驻留时间分布的参数可以解决这一问题。其代价是大幅度增加计算量。汉语音节长度的变化主要体现在韵母上。相同声母长度变化不大,不同声母的长度有显著区别。本文认为,与韵母和音节相比,声母的音长信息在语音识别中是更有价值的。并且多数声母的音长较短,平均到HMM中每个状态上的持续语音帧数更少。因而在基于半音节识别单元的HMM框架模型中,考虑声母音长总持续时间的概率分布,在声韵母之间加入了声母音长的转移概率是适宜的。于是我们对基准模型做了修改,见图2。声韵母之间的空转移弧T3具有转移概率PCV.PCV与声母段长度有关。log(PCV)=−(|1−n/N)K*C(1)log(ΡCV)=-(|1-n/Ν)Κ*C(1)式中n为此声母段的长度,N为该声母的平均长度。K和C是两个经验常数,用于调节PCV的大小量级,使PCV足以匹敌和影响模型的Baum-Welch训练算法和Viterbi识别算法中的概率。在我们的实验中K=2,C=20。加入声母音长转移概率后,正识率提高到75.17%。3.2基音轨迹的差分码序四声调是汉语独有的语音现象,声调主要体现在音节的韵母部分。提取韵母部分每一帧语音的基音周期或基音频率可以形成一条音高变化的轨迹。依据这一轨迹可以判断出其属于哪一个调型。但是声调的调型曲线并不是绝对的。从统计的角度看,声调调型所占据的不是一条线,而是一条带状的声学空间。在实验中我们也发现,比较基音轨迹上几个确定点或者用二次曲线拟合的方法效果都不理想。我们认为,调型的判决重要的是把握住音高变化的趋势。取基音周期的差分Xi=Pi+1-Pi.Pi和Pi+1分别是i点和i+1点的基音周期。用5个码字表示差分值Xi。见表1。定义如图3的3状态HMM对基音轨迹的差分码字序列{Xi}建模。我们同样比较了1状态,2状态,4状态和5状态模型。结果发现,3状态模型性能比1状态和2状态有明显改善,与4状态相近,略好于5状态。将基音轨迹的差分码字序列平均分为3段。每一段对应一个状态。用训练集训练声调模型,统计各状态分别输出5个码字的概率。实验结果显示,声调正识率为93.52%。考虑到声调在音节的尾部有降尾现象,我们把基音周期序列从后边切去3帧。声调正识率可以提高近1个百分点。为更好地反映基音周期的变化趋势,我们在Xi的基础上增加了一个基音周期的差分序列{Yi=Pi+1-Pi-1}.用表2将{Yi}编码。这样基音轨迹可以表示为一个二维的码字序列{Xi,Yi}。同样用图3的声调模型训练,声调正识率提高到96.95%。3.3由带显示的声乐信息可识别一般认为,倒谱系数反映的是语音信号去除声门激励后的声道响应,其中不含有基音频率信息。我们在3.1的基础上,把语音单元中的39个无调韵母改为有调韵母。结果正识率为63.35%,另外有13.22%的音节声韵母均正确识别,只是声调判断错误。从实验中可以得出两点结论:一是82.73%的声韵母均正确的音节声调也正确,因此倒谱系数也可在一定程度上表征声调信息。这就说明了人在耳语时,声带不发生振动,听话人也可以听懂的原因。二是去除声调影响仅就声韵母而论,正识率为77.57%。可见由于对韵母进行了更细的分类,韵母正识率有所提高。用有调韵母单元替代无调韵母单元是出于以下几点考虑。1)既然倒谱系数中包含了一定程度的声调信息,不同声调韵母的倒谱系数应该是有区别的。选用有调韵母作为建模单元有助于对韵母进行更精细的分类。2)3.2节验证了用HMM建模声调的可行性,使得我们有可能将声调模型纳入到整个语音识别系统的HMM统一框架中,而不必单独处理声调。这一点对连续语音识别是有利的。3)图3的HMM声调模型平均分割状态序列,显得过于主观。将声调模型融合到有调韵母模型中,不需要显式分割状态序列,有助于提高声调识别率。对比图2和图3可以看到,韵母模型和声调模型都有3个稳定状态。在有调韵母的训练和识别时,只需在倒谱和差分倒谱系数的基础上增加基音轨迹的二维的码字序列{Xi,Yi}作为特征矢量,就可以把声调模型融合到韵母模型中。采用有调韵母后,正识率提高到75.98%。3.4声母协同听力的模型检验以半音节作为语音建模单元,必须解决声韵母之间的协同发音问题。由于韵母在音节中占绝对优势,韵母段相对比较稳定,协同发音对韵母的影响要小一些。声母段一般来说较短,能量较弱,容易发生变化。从前面的实验我们也发现,误识的音节主要是由于声母判断的错误,尤其是音长较短的声母,如b,p,d等。因此我们主要考虑声母的协同发音问题。在汉语拼音方案中,元音有6个基本音位,即a,o,e,i,u,v.这6个基本音位在不同的上下文环境中的发音会发生变化,形成不同的音素。每一个声母依据其后接韵母第一个音素的不同,建立不同的模型。由此产生的声母模型总数在100个以上。由于训练数据的限制,为保证模型得到充分的训练,我们依据韵母四呼对一些相近的并且不存在对立的模型进行了合并。我们选取的模型总数为60个。经过这样的改进,系统的正识率为84.03%3.5特殊音节的曲线模型汉语除了声母加韵母类型的音节外,还有不到10%的零声母音节及zi、ci、si、ri、zhi、chi、shi等几个特殊音节。zi、ci、si、ri、zhi、chi、shi等几个特殊音节需要单独建模。对于零声母音节而言简单地采用前述的韵母模型来识别效果不理想。因此我们对零声母音节也单独建模。由于训练数据中零声母音节的数量远少于对应的韵母数量,零声母音节的训练是不够充分的。我们利用训练较充分的韵母模型对零声母模型进行平滑。bnij(K)=0.65*bnij(K)+0.35*bmij(K)(2)bnij(Κ)=0.65*bnij(Κ)+0.35*bmij(Κ)(2)其中bmij(K)是第m个韵母的转移弧ij产生标号K的概率;bnij(K)是与第m个韵母相对应的第n个零声母的转移弧ij产生标号K的概率。3.6单次使用语法提取以上只是对单个音节的识别。在实际的应用中,往往需要建立针对特定语言环境的语言模型。常用的语言模型有二元文法和三元文法。二元文法句子中某一字Wi出现的概率只取决于其前一字Wi-1,即P(Wi|W1,\:,Wi-1)=P(Wi|Wi-1).三元文法句子中某一字Wi出现的概率只取决于其前两个字Wi-1和Wi-2,即P(Wi|W1,\:,Wi-1)=P(Wi|Wi-1,Wi-2).可靠的语言模型需要大量的语料进行统计。针对手机常用语这一特定应用,我们建立了单字语言网络模型,举例如图4:应用这一语言模型导航,词表搜索范围大大减小。声学模型识别的识别结果可以反过来纠正语言模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论