


免费预览已结束,剩余2页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能及识别技术 文章编号: 文献标识码: 中图分类号:TN912.34半连续HMM码本生成算法的研究李军,朱小燕,王东(清华大学智能技术与系统国家重点实验室,北京 100084)摘 要:本文对基于半连续隐马尔科夫模型(SCHMM)语音识别系统的码本生成算法及其原理进行了探讨。阐述了译码器扰动简化随机松弛聚类算法(SR-D),并将其应用到初始码本生成中。实验结果表明这种方法能显著地提高系统性能。初始码本生成后,采用最大似然准则对生成的码本进行了训练,使得码本和SCHMM其它参数达到较好的一致。本文也探讨了码本大小及其对最终性能的影响并给出了相关实验结果。关键词:SCHMM,聚类,码本,随机松弛The Research of Codebook Generation Algorithm in SCHMMLi Jun ,Zhu Xiaoyan ,Wang Dong(State Key lab of Intelligent Technology and System,Tsinghua University, Beijing 100084)【Abstract】 This paper discussed the algorithms of codebook generation in SCHMM based speech recognition system and their fundamental principle. Introducing the basic discipline of Stochastic Relaxation- Division (SR-D) algorithm, we introduced the general idea into our initial codebook generation algorithm. The experiment results show that our new method significantly improves the system performance. With the modified initial codebook, the model is further trained with the criterion of Maximum Likelihood(ML),which leads the codebook and other parameters more consistent and compatible。The effect of codebook size to final performance is also discussed and relative experiment results are presented.【Key words】 SCHMM, clustering, codebook, Stochastic relaxationSCHMM作为一种有效的语音识别技术,是离散隐马尔科夫模型(DHMM)和连续隐马尔科夫模型(CHMM)的一种折衷方案。它既克服了DHMM识别精度较低的缺点,又降低了CHMM计算的复杂性,因而是一种相当好的语音识别技术。SCHMM之所以能做到这一点,主要是因为SCHMM使用了一组特殊的码本。这组码本由所有模型和所有状态共享。它相当于连接DHMM和CHMM的桥,是决定整个SCHMM系统性能的关键因素之一。码本在SCHMM中的重要性集中反映在码本的初值和数量上。好的初值能够总体上接近各模型的质心,因而在调整码本过程中收敛较快并且容易达到或接近全局最优,相反,如果某个模型附近没有码本,它在调整码本过程中对整个码本调整趋势的影响力降低以至于码本更加远离它,自然地,码本对这个模型的刻画精度就低;如果某个码本附近没有模型,那么所有模型对该码本的权重都较小以至于区别不大,这种情况造成的结果是该码本的方差迅速减小,均值变化不大,它对整个模型的刻画能力大大降低,从而成为垃圾码本。因此,码本初值的好坏对半连续模型相当重要。另外,由于码本是所有模型和状态共享的,多少码本才能较好地刻画整个模型也是值得探讨的问题。SCHMM码本的生成主要分两步,首先是生成初始码本,然后利用生成的初始码本在基于最大似然准则下进行迭代训练,直到满足精度要求为止。训练是必要的,初始码本通常是基于最小平均失真准则产生的,通过训练,能够使得码本在基于最大似然准则条件下和SCHMM其它参数达到较好的一致。初始码本的选择相当重要,因为在训练中用于迭代的价值函数是一个非凸函数,初值的好坏决定了迭代运算是否能收敛到全局最佳点。1 初始码本生成的算法1.1聚类的基本原理及方法聚类的目的是把相似的对象分为同一类,从而能够对类内对象用同一种方式表示。从模式识别的角度看,聚类属于非监督学习的范畴,即是在未知类别标签的样本集上,通过对样本间相似性的度量将样本集划分为若干个子集。SCHMM的码本属于高维矢量,因此聚类算法要采用矢量量化的一些原理。在矢量量化器的最佳设计中,重要的问题是如何划分量化区间和确定量化矢量,Lloyd提出的两个条件回答了这两个问题。1、最佳划分,即找出给定码字矢量的最佳区域边界。这可以根据“最近邻原则”求出,。2、最佳码字,即找出与最佳区域边界内所有矢量之间畸变平均值最小的码字,这可以通过求最佳区域边界内所有矢量的质心解决。依据Lloyd准则,Linde等人提出了LBG算法,这是矢量量化中常用的方法之一,整个算法实际上就是上述两个条件的反复迭代过程,既由初始码字寻找最佳码字的迭代过程,它由对初始码字进行迭代优化开始,一直到系统性能满足要求或不再有明显改进为止。LBG算法有一个关键问题需要解决:如何选择好的码本初值。因为LBG算法是一种最陡下降的算法,它的迭代结果和码本初值选择有关,并且有可能使算法收敛到局部极值点。几种码本初值的设置方法,例如随机法、分裂法等虽然对选择好的码本有不同程度的作用。但没有一种方法能保证找到好的码本。下面将要介绍的译码器扰动简化随机松弛聚类算法比较好地解决了这个问题,1.2 译码器扰动简化随机松弛聚类算法(SR-D) SR-D算法属于随机松弛算法中的一种快速算法,算法的基本思想是,对随机设置的M个码字,在经过最佳划分求出最佳码字后,采用某种方法对新码字进行扰动以产生扰动后的码字,继续进行最佳划分求新码字,然后进行新的扰动。这个过程反复执行直到达到预定的扰动精度,即熄火温度。最后得到的M个码字即为所求码本。随着每一轮的迭代,要求扰动半径逐渐缩小,这样可以使码字趋于稳定。分析一下这个算法可以看出: SR-D和LBG算法存在着明显的不同。LBG算法每迭代一步目标函数总是下降的,目标函数落入哪一个极小值只取决于码本初值的设置,而且一旦落入某个局部最小点就再也拔不出来。因此很难保证给出的结果达到全局最小点。SR-D算法在每一轮迭代中增加了对当前码字的随机扰动,这使得算法具有随机性,相当于在每次迭代运算中目标函数值总体下降的同时又有上升的机会,这样函数就有可能脱离某个局部最小点,增加了到达全局最小点的概率。SR-D算法要设计两个关键参数,首先需要给出一个退火温度,其中n代表迭代的节拍,是用来形成随机扰动的参数,随着n的增加,逐渐降低,因而称为退火温度。通常这个关系可以表示为:(0K1),其中,是预先给定的一个较大的值,它设定了的初值, K反映了下降的速率,此值不宜取得过小,可取K=0.9。第二需要根据的大小设计一组合适的扰动矢量,要求这组矢量是互相独立的随机高斯矢量,每个矢量的各个分量也相互统计独立,其均值为0,均方差值等于,而且在每次迭代后要根据的值重新生成。扰动公式可以表示为:。在SR-D算法中,初始退火温度的选择对算法的效率有较大的影响。主要是根据经验给出的,对不同的应用可能有不同的选择。通常建议给一个较大的值,但过大显然会增大迭代的次数,为了有效地初始化参数,我们对初始退火温度进行了定义。作为一个初始扰动值,对某一区域而言,第一次扰动的范围在每一维上达到所划分区域的最大半径就足够了,这样,从总体上看,扰动可以达到整个矢量空间的边界,而理想码字必定在这个范围内,也就是说,扰动可以到达这些码字。根据扰动矢量设计规则,对i区域, 可以表示为:=,表示第一次最佳划分的第i个区域的码字,为i区域内与畸变最大的矢量,代表两矢量间欧氏距离的平方。对每一个区域做同样的计算,选择其中的最大者作为值,这样能够较好地保证有效的扰动范围,有利于下次区域划分向理想码字靠近。由于以后的新区域都是经过最佳划分的,比前一次划分的区域更加靠近理想码字,需要扰动的范围也会比前一次小,因此按上式所给的初始退火温度是够用的。熄火温度可根据精度要求给出。SR-D算法见图1。F图1 SR-D算法流程图T以为初始码字,进行最佳划分并求出M个新码字。生成扰动 ,计算新码字 输出 i=1M随机设置M个码字,n=1,赋初值,进行最佳划分并计算令退火温度n=n+1所求出的M个码字可作为码本的均值,然后再利用已求出的M个码字对训练集进行M个区域划分,在每个区域计算均方差。从而可求得M个码字的均方差。这样M个码字的初始码本就形成了。2 基于最大似然准则的SCHMM码本的训练初始码本生成以后,对SCHMM来说不是最好的,必须在SCHMM统一的框架下进行训练,从而对初始码本进行适当的调整。调整码本的过程也是语音训练的过程。利用训练中产生的参数来调整码本的均值和方差。SCHMM中主要参数是:初始状态概率,状态转移概率,码本权重及码本的均值和均方差。训练的目的就是调整这些参数,使特定模型相对于某些语音帧输出的概率最大,从而完成识别的任务。训练的方法是给以上参数一定的初值,然后进行迭代运算逐渐逼近最佳解。在每次迭代中,所有模型都利用自己的训练语料求出自身新的参数,然后计算码本新的均值和方差。再进行下一轮迭代,直到满足精度要求为止。其中码本的初值采用SR-D算法已获得,其它参数的初值可通过赋予平均数或根据具体情况赋值,因为这些参数的初值对迭代结果影响不大。计算SCHMM参数的一种有效方法是前-后项算法。利用该算法可以高效地计算出前项系数和后项系数,而前后项系数是计算SCHMM参数的关键。下面给出与计算SCHMM的均值和方差相关的公式,在公式中所引用的变量包括:初始状态概率,状态转移概率,码本权重,码本的均值,均方差,前项系数,后项系数,概率密度函数P(x),模型的状态数L,k样本语音帧数Nk。样本数K,模型数R。码本数J。计算值的公式:参数是计算SCHMM参数的中间结果,它的含义是r模型第k个样本第n帧经过l状态第j个码字的概率。计算均值的公式计算均方差的公式:因为码本是SCHMM系统所有模型和所有状态共享的,因此对均值和方差的调整要对所有模型和所有状态有所反映。由均值公式可以看出:分子表示的是所有的样本帧经过所有模型,所有状态的第j个码字的概率和输出帧的乘积之和,而分母表示的是所有帧经过所有模型,所有状态的第j个码本的概率之和。它们的商显然是第j个码字输出的均值。均方差的公式和均值公式类似。当迭代达到所要求的精度,最终的均值和均方差就是我们所需要的SCHMM的码本。3 码本的大小码本大小是对半连续模型有重要影响的另一个因素。从总体上看,码本多,意味着每个模型附近将有更多的较精确的码本,因而对特定语音的刻画会更精确。可以预期,增加码本数量会使识别率提高。如果数量足够多,在识别率上它将和连续模型等价,因为半连续模型本来就是连续模型的一个特例。关键问题是码本过多失去了半连续模型速度快的优势,过少又降低了识别率,因此要在性能和数量上仔细的权衡和实验。通常码本的大小是和具体的识别任务相关的,如果用于识别的模型数量较少,那么采用少量的码本就可以精确地刻画这些模型的特征,相反,如果用于识别的模型数量较大,那么将需要较多的码本。如何找到最优的码本数可通过实验来确定。针对不同的码本大小,本文设计了实验,SCHMM码本采用SR-D算法通过从语料聚类中生成并在训练中对码本进行了调整。实验系统的识别基元是无调的孤立音节,使用无跨越从左向右的SCHMM模型,每个模型3个状态,码本数分别为128、256、512、1024、2048。训练和识别时所用的语料是在实验室条件下40个男声所录的1322个有调音节,其中30人的数据用于训练,另外10人的数据用于测试,采样频率为16KHz,所有实验都迭代8次,处理后的特征向量是39维MFCC特征,分别是12维的MEL特征系数及其一二阶差分,一维的能量特征系数及其一二阶差分。码本大小和识别率的关系见下表:表1 100个无调音节的误识率码本数12825651210242048训练集%19.616.79.34.83.9测试集%30.227.519.912.19.4表2 411个无调音节的误识率 码本数12825651210242048训练集%50.435.529.321.718.0测试集%59.744.340.231.929.6 从以上两个表中可以明显看出:随着码本数的增大,训练集和测试集的误识率一致地降低,这主要是随着码本数的增多,对特定模型的刻画更加精细,模型间的混淆度大大降低,因此误识率也随之下降。当然,码本数的增加使得相应的计算代价增大,这也是需要考虑的问题。从我们的实验结果看,对汉语411个无调音节而言,码本数在1024和2048之间选择,即能保证整个SCHMM系统有足够的精度,同时计算代价也相对较低。当模型数较少时,也可以选择256或512的码本数。4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 防水行业工作汇报
- 村村通道路汇报
- 科技文化节汇报
- 杂志广告计划书
- 公司级安全培训题库课件
- 公司级安全培训简答题课件
- 事故安全管理培训课件
- 油站班长年终总结
- 胆囊切除术术后护理措施
- 公司电气安全知识培训课件
- (高清版)DB34∕T 5225-2025 风景名胜区拟建项目对景观及生态影响评价技术规范
- 劳动者个人职业健康监护档案-模板
- 客运安全培训课件
- 2025年福建省中考英语试卷真题(含标准答案)
- 骨科VTE管理制度
- GB/T 45653-2025新能源汽车售后服务规范
- 医疗器械售后服务团队的职责说明
- 食品配料人员培训
- 消防救援队伍灭火救援作战训练安全专题授课
- 公安审讯技巧培训
- 人教版2025初中物理实验室安全使用指南
评论
0/150
提交评论