




已阅读5页,还剩98页未读, 继续免费阅读
(信号与信息处理专业论文)高效简约的语音识别声学模型.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要中国科学技术大学博士学位论文 摘要 当前连续密度h m m 模型的语音识别系统性能良好,但其存储和计算需求过大。针 对这一问题,本论文专注于语音识别系统的核心一声学模型。本文分别从训练方法、特 征降维、模型参数压缩三个方面研究如何获得高效小巧的声学模型,在保证模型精度的 前提下使用尽小可能的参数量,降低系统资源需求。基于已有的方法,我们提出及推广 了一系列新方法,以实验证明了它们的有效性。这些方法主要集中在以下几个方而。 - 首先,本文研究了最小分类错误方法,实现了基于n b e s t 解码的训练方法。实验证 实,在保证模型精度的前提下,经m c e 训练的模型可最著减小。我们并将其推广到子空 间分布聚类h m m 模型上,在很大程度上弥补了在将c d h m m 转换成s d c h m m 的过 程中由于特征空间分裂和子空间分布聚类带来的性能降低。与直接由c d h m m 转换而成 的s d c h m m 相比,性能提升1 5 8 0 。 其次,为了解决特征降维方法通常也降低识别性能的问题,我们提出了在区分性特 征提取框架下按照最小分类错误准则调整模型参数和特征降维变换的方法,效果极为明 显。更进一步,我们提出了以l d a 变换执行的集去相关与降维于一体的新的特征提取 方法,并将该方法同样纳入区分性特征提取框架之中。利用该方法,1 4 维特征获得了 与3 9 维m f c c 同样的性能,显著降低了计算和存储的需求。 再次,针对声学模型中各个状态对系统性能的贡献不同,提出了以贪心算法实现的 基于似然度、k u l l b a c k l e i b l e r 散度和状态问分散度的h m m 模型各状态高斯分布数的确 定方法。在总高斯分布数目给定前提下,分别最大化训练数据的似然度,最小化当前模 型与“真正”模型之间的距离和最大化模型各状态间之分散度。其中基于状态间分散度 的方法融入了状态间的竞争信息,具有区分性的特性。实验结果表明这几种方法相较基 于贝叶斯信息准则的方法性能更佳。在相同模型精度的前提下,都可不同程度地减少参 数。 最后,本文对声学模型特征级参数聚类进行了研究。在进行特征级参数聚类时我们 提出采用具有信息熵意义的k l d 作l b g 聚类,聚类性能良好。而基于不同维的特征区 分性信息多寡的不同,我们分别提出了各标量维高斯核的基于k l d 和似然度的非均一分 配法。在总高斯核数不变原则下,利用贪心算法在不同维之间进行高斯核的优化分配来 最小化压缩模型与原始模型间的k l d 和最大化训练数据的似然度。这两种非均一分配 方法比均一分配性能更佳。而基于似然度的方法又优于基于k l d 的方法。这些方法在 保证模型性能基本不降的同时将模型参数压缩到原来的1 5 左右。此时加减需求为原来 的5 0 左右,而乘除的需求则可大幅减少为1 以内。对于孤立词任务,相应的乘除运 算更降到未压缩模型的o0 5 左右。 垒里! 三坠旦三! 重登兰垫查奎主堡主兰焦鲨圣 a b s t r a c t c u r r e n ts t a t e o f - t h e a r t ,c o n t i n u o u sd e n s i t yh m m b a s e dl a r g ev o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e md e l i v e r saf a i r l yd e c e n tr e c o g n i t i o np e r f o r m a n c ei nab e n i g ne n v i r o n m e n tb u t u s u a l l ya tap r i c eo fl a r g em e m o r ya n dh i g hc o m p u t a t i o nc o m p l e x i t i e s i nt h i st h e s i sm e x p l o r et h ep o s s i b i l i t i e st oo b t a i np a r s i m o n i o u sa c o u s t i cm o d e lw h i l em a i n t a i n i n gt h es a m e p e r f o r m a n c ea st h ec o m p l e xm o d e l t h e ya r ee x p l o r e di n :1 1t r a i n i n ga l g o r i t h m ;2 1d i m e n - s i o n a l i t yr e d u c t i o n ;3 ) m o d e lc o m p r e s s i o nn o v e la n de f f i c i e n ta l g o r i t h m sa r ep r o p o s e d i nm o d e lt r a i n i n g ,t h en - b e s tb a s e dm i n i m u mc l a s s i f i c a t i o ne r r o rt r a i n i n gi sd e v e l o p e d e x p e r i m e n t a lr e s u l t ss h o wt h a tah i g hp e r f o r m a n c e ,p a r s i m o n i o u sm o d e lc a nb eo b t a i n e d t h i sm c ei st h e ne x t e n d e dt oo p t i m i z es u b s p a c ed i s t r i b u t i o nc l u s t e r i n gh m m e x p e r i m e n t a lr e s u l t ss h o wt h a tp e r f o r m a n c ed e g r a d a t i o nr e s u l t e df r o mc o n v e r t i n gc d h m mt o s d c h m mc a nb er e c o v e r e da n d1 5 8 0 w o r de r r o rr a t er e d u c t i o ni so b t a i n e d i nd i m e n s i o n a l i t yr e d u c t i o n ,w ej o i n t l yo p t i m i z ef e a t u r er e d u c t i o nt r a n s f o r m a t i o na n d t h em o d e lp a r a m e t e r sw i t hm c ec r i t e r i o nan e wf e a t u r ee x t r a c t i o n ,w h i c hu s e sl d at o p e r f o r mf e a t u r ed e c o r r e l a t i o na n dd i m e n s i o n a l i t yr e d u c t i o n ,i sp r o p o s e da n dd e v e l o p e di n t o ad i s c r i m i n a t i v ef e a t u r ee x t r a c t i o nf r a m e w o r k a1 4 一d i m e n s i o nf e a t u r e sg i v e sa l m o s tt h e s a m ed e r f b r m a n c ea st h e3 9 一d i m e n s i 。nm f c cf e a t u r e s i nm o d e lc o m p r e s s i o n ,w ef o u n dt h a td i f f e r e n ts t a t e sc o n t r i b u t en o n u n i f o r m l yt or e c o g - n i t i o n l i k e l i h o o d ,k u l l b a c k l e i b l e rd i v e r g e n c e ,a n ds t a t ed i v e r g e n c ea r eu s e dt oa l l o c a t e c a u s s i a nc o m p o n e n t st oh m ms t a t e s t h es t a t ed i v e r g e n c e - b a s e da p p r o a c hc o n s i d e r st h e d i s c r i m i n a t i o no fs t a t e s ag r e e d ys e a r c hi sp r o p o s e dt oo p t i m i z eg a u s s i a nc o m p o n e n ta l l o c a t i o n c o m p a r e dw i t hb a y e s i a ni n f o r m a t i o nc r i t e r i o n b a s e dd e t e r m i n a t i o n ,t h ep r o p o s e d a p p r o a c h e ss h o wi m p r o v e dp e r f o r m a n c e a l s o ,w es t u d yf e a t u r e - l e v e lm o d e lc o m p r e s s i o n o p t i m a lc l u s t e r i n ga n dn o n u n i f o r m a l l o c a t i o no fc a u s s i a nk e r n e l si nt h es c a l a rf e a t u r ed i m e n s i o na r ep r o p o s e ds y m m e t r i ck l d i sa d o p t e dt oc l u s t e rg a u a s i a nk e r n e l ,a n dk l d b a s e da n dl i k e l i h o o d - b a s e dn o n u n i f o r ma l l o c a t i o na r ed e v e l o p e db yu s i n gag r e e d ys e a r c ho u rn o n u n i f o r ma l l o c a t i o ng i v e sb e t t e r p e r f o r m a n c et h a nu n i f o r ma l l o c a t i o n ,e s p e c i a l l ya tl a r g e rc o m p r e s s i o nr a t i o s ;l i k e l i h o o d b a s e da l l o c a t i o na l s oo u t p e r f o r m sk l d b a s e do n ew i t ha l m o s tn e g l i g i b l er e c o g n i t i o np e r f o r m a n e ed e g r a d a t i o n t h eo r i g i n a lh m m sc a nb ec o m p r e s s e dt 01 5 o fi t so r i g i n a ls i z e , w h i c hn e e d sa b o u t1 o ft h eo r i g i n a lm u l t i p l i c a t i o n d i v i s i o no p e r a t i o n sf o rt h ei s o l a t e d w o r dr e c o g n i t i o nt a s kt e s t e d ,t h em u l t i p l i c a t i o n d i v i s i o no p e r a t i o n sc a nb ef u r t h e rr e d u c e d t o00 5 i 插图目录中国科学技术大学博士学位论文 1 - 1 语音识别基本框架 1 - 2m f c c 系数计算步骤 插图目录 一个简单的h m m 静音( s i l ) 的h m m 结掏 短时停顿( s p ) 的h m m 结构 声学模型的层次结构一 不同1 值时的s i g m o i d 曲线 基于n b e s t 解码的m c e 训练流程 m c e 训练过程中代价函数随迭代次数的变化曲线 t i d i g i t s 。 基_ _ _ 卜m c e 训练的模型在训练集和蜩试集,i - t t , j 性能曲线 r m i 转换的s d c h m m 与m c e 训练的s d c h m m 模型性能比较 4 一l 通常的特缸e 降维过程 4 - 2 集去相关与降维于一体的特征提取流程图。 5 - 1 似然度随高斯分布数目增加的变化曲线 5 2 贝叶斯信目、值随高斯分稚数瞬增加的变化曲线 5 - 3 当前模型与“真正”模型之问的k l d 随高斯分布数目的变化曲线 5 4r m 上几种:淡态高斯分布数嘲确定方法的性能 t 鞍( 无语言模型解码) 5 - 5r m 上几种状态高斯分佑数目确定方法的性能比较( 加语言模型解码) 5 - 6r m 上基于似然度的确定方法给出的番状态尚斯分布数目的分布情况 5 7 t i d i g i t s 上几种状态高斯分布数目确定方法的性能比较 6 - 1 占维特征用棚例数目的高斯核时的声学模型结构 6 2 各维特征用不同数斟l _ i c j 高斯核时的声学模型结构 6 - 3g 1 维的9 ,5 8 8 个高斯分布以及采用l b g 聚类方法聚成的4 、8 和1 6 个类 的中心分布 6 4 不同维特征。lk l d 随聚类码字数的变化曲线 6 - 5 率失真度( k l d ) 渔平均每维聚类类数的变化曲线 6 - 6 基于k l d 的非均一分配中不同特征所分配的高斯核数目的分布情况 6 7 不弼维特征上特征表征精度对似然度f l c :j 影响曲线 6 _ 8 基于似然度的:- i h :i j 一分配中1 i 同特征所分配的高斯核数目的分布情况 6 - 9r m 上不同高斯核分配:疗法的性能比较 6 1 0 r i v i 上不同压缩率删模型存储需求与性能列应曲线一 6 1 1r m i :f 同压缩率时模型计算量( 乘除) 需求与性能对应曲线 6 1 2 汉语救票稻数据库上均一分配与j 均一分配的对比 i x 一 3 4 u 培均 弱约姐如 蛆酶 弘矾弘雎强8 锯 孢n他弛两丌丌孢阳 m 弛粥驰 w 弛粥m 蛐 表格目录中国科学技术大学博士学位论文 表格目录 2 1 上下文相关甲元与上下文无关单元的列比 3 1t i d i 时t s 数摒库说话人信息 3 2 t i d i g i t s 上各状态小同高斯分布【;卜jm l e 与m c e 洲练的间错误率( ) 比较 3 - 3r m 数据库谢练集与瓣试集信息 3 - 4r m 上m l e 与m c e 训练的模型性能比较 3 - 5 t i d i g i t s 上不同s d c h m m 模型的性能比较( w e r ) 4 - i 采用p c a 和l d a 变换进行降维后的识别性能( w e r ) 4 _ 2 基于l d a 变换的区分陛特征降维结果( w e r ) 4 - 3 最大似然估计下l d a 变换与d c t 变换去相关性能的比较( w e r ) 4 - 4 不同洲练策略时l d a 变换与d c t 变换去相关性能的比较( w e r ) 4 - 5 集去相关与降维卜一体的新特征提取方法的降维性能( w e k ) 5 1 基于似然艘的模型中器状态高斯分布数l = :| 分配算法 5 2 基于k l d 的模型中备状态高斯分布数睡分配算法 一 5 - 3 基于状态问分散度的模型中备状态高斯分布数目确定方法 6 一l 肇于k l d 的特征维t 高斯核的非均11 分配算法 6 - 2 基于似然度的特征维l 高斯核的非均一分配方法的指示赞获取算法 6 - 3 基于似然度的特征维l 高斯核 | t ;j - 1 :均一分两己算法一 x i 如 s;弘弱;号 “鸽n 乱 的睨 仡弭 笙二兰些垒望茎兰垫查盔兰堡主兰垒堡奎 1 ,l 语音- 叭d 刀0 0 第一章绪论 1 1 1 简介 语音是人类最自然的交流方式,无须眼睛和手,人与人之间就可以方便自如 的交流。而随着计算机和人工智能机器的出现,人们希望机器能听懂人讲话,理 解人的意图,并做出相应的回答。由此相应的出现了语音识别( s p e e c hr e c o g n i t i o n ,s r ) 、自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 和语音合成( s p e e c h s y n t h e s i s ,s s ) 1 等方向的研究。这里,我们关注语音识别。 语音识别的目标是让机器能识别人的语音。这涉及声学、生理学、心理学、信 号处理、模式识别、信息理论、语言学和计算机科学等多个学科。由于有着广泛的 应用前景,如命令控制、信息获取、语音翻译、自动客户服务等,当今飞速发展 的信息社会追切需要高性能的能满足各种需求的自动语音识别( a u t o m a t i cs p e e c h r e c o g n i t i o n ,a s r ) 技术。但要达到这样的目标面临着诸多的困难,如:1 ) 语音信号往 往会受到上下文的影响而发生变化:2 ) 发音人的不同及不同人的口音会导致语音特征处 于不同的参数空间中;3 ) 发音人自身的心理、生理变化容易引起语音的变化;4 ) 发音 方式的不同,特别是自然发音,带有太多连读、省略、插入语和语气词等多变的语音现 象,使得语音变得复杂多样;5 ) 环境噪声和传输信道等带来语音信号的失真。 正是由于语音识别这个对人脑来说很简单的事情对机器来说却存在诸多困难,人 们提出了各种难易程度不同的需求,相应的语音识别研究也被划分为多个不同的研究 领域。按照词汇量的大小可分为小词汇量( 1 0 0 词以下) 、中等词汇量( 1 0 0 。5 0 0 词) 和大词汇量( 5 0 0 词以上) 识别系统;按照说话人的不同则可分为特定人( s p e a k e r d e p e n d e n t ,s d ) 和非特定人( s p e a k e ri n d e p e n d e n t ,s i ) 识别系统;而按照说话方式 的不同则又可分为孤立词( i s o l a t e dw o r d ) 、连接词( c o n n e c t e dw o r d ) 、连续语音 ( c o n t i n u o u ss p e e c h ) 和自然语音( s p o n t a n e o u ss p e e c h ) 识别。大词汇量连续语音识别 ( l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n ,l 、,c s r ) 和自然语音识别的研究是 当前研究的热点和难点。 1 通常叉栋之为文语转换( t e x t t o - s p e e c h ,t t s ) 。 ! 里釜兰垫查查兰壁圭茎堡垒奎i ! 兰茎主坚坚翌堕兰童堡型墨釜 1 1 2 发展简史 语音识别的研究开始于上世纪五十年代贝尔实验室( b e l ll a b o r a t o r i e s ) 研制的特定 人孤立数字识别系统f d a y 5 2 1 。早期的语音识别大多是基于声学与语音学理论的元音、辅 音或孤立音节、词的识别f d a y 5 2 1 f f o r 5 9 1 。六十年代开始采用基于动态规划( d a y n a m i e p r o g r a m m i n g ,d p ) 的模板匹配技术 m a z 6 4 】 v i n 6 8 。上世纪八十年代开始,识别算法 逐渐转向了统计模型方法,特别是隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 方 法 f e r 8 0 r a b 8 9 。由于能很好的描述语音信号的短时平稳特性,以及将声学、语言学、 句法等知识集成到一个统一框架中的优点,从八十年代中期起h m m 模型获得了广泛应 用。八十年代后期人工神经网络( a r t i f i c mn e u r a ln e t w o r k ,a n n ) 也被应用到语音识别 领域f w a i 8 9 1 。但基于神经网络的语音识别技术并没有取得好于基于h m m 模型的方法的 效果。基于h m m 模型的方法仍是当前语音识别研究的主流方法。 h m m 模型的引入,是语音识别发展史上的一个里程碑。它的应用,以及美国国防部 支持的d a r p a ( d e f e r m ea d v a n c e dr e s e a r c hp r o j e e t sa g e n c y ) 计划推动了语音识别的快 速发展。上世纪八十年代末,美国卡内基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ) 实现了 世界上第一个基于h m m 的非特定人、大词汇量连续语音识别系统s p h i n xf l e e 9 0 c 。其 他研究机构如美国林肯实验室( l i n c o l nl a b s ) 、麻省理工学院( m a s s a c h u s e t t si n s t i t u t e o ft e c h n o l o g y ) 和贝尔实验室( b e l ll a b s ) 等也做出了很大的贡献。 上世纪九十年代以后,由于基于h m m 的语音识别技术的进一步成熟,出现了语音 识别技术的产品化热潮。许多研究机构或公司推出了自己的语音识别系统,如i b m 公司 的v i a - v o i c e 系统、d r a g o n 系统、英国剑桥大学( c a m b r i d g eu n i v e r s i t y ) 的h t k 系 统等。而剑桥大学公开的基于h m m 模型的语音识别工具包h t k y o u 0 5 更使得基 于h m m 框架的语音识别研究门槛大为降低,这进一步促进了语音识别技术的研究与发 展。而h t k 也几乎成为最常用的语音识别研究工具。 51 2 基于h m m 的语音识别系统 典型的自动语音识别的基本流程如图1 ,1 所示。语音信号经过特征处理后进入解码 器中,利用预先训练好的参考模式库,即声学模型( a c o u s t i cm o d e l ,a m ) 和语言模型 ( l a n g u a g em o d e l ,l m ) ,进行识别,输出结果 r a b 9 3 a e l 9 7 h u a 0 1 。 语音识别广义上来说也是一个模式识别问题。现在通用的识别准则是最大后验 2 一 第一章绪论 中国科学技术大学博士学位论文 似 囤1 - 1 语音识荆基本框架 出 ( m a x i m u map o s t e r i o r i ,m a p ) 解码准则( m a pd e c o d i n gr u l e ) r a b 9 3 。输入声学观 测矢量序列x ,识别器给出使相应后验概率最大的词序列w : r d z = a r gr 咿p ( w e x ) = 。r g 嘴一p ( x i w 币r ) p ( w ) ( i - i ) 这里p ( x l w ) 为声学模型得分,p ( w ) 为语言模型概率,p ( x ) 为x 可能出现的概 率: p ( x ) = 尸( j ( 1 ) p ( 7 ) ( 1 2 ) 仉” 由于p ( x 1 对于固定的输入是不变的,因而在识别过程中只要比较式( 1 - 1 ) 中分子值的 x d , 目p n ,即比较不同词序列的相对得分。所以传统的识别器所输出的词序列w 就是: 咖= 。r g m w a xp ( x i w ) p ( w ) ( i - a ) 1 2 信号处理 信号处理模块将输入的语音信号经过各种处理与变换得到更适合 于分类的特征参数。这些参数主要有m e l 域倒谱系数( m e l f r e q u e n c yc e p - s t r a ic o e f l :i c i e n t s ,m f c c ) f d a v s o 、感知线性预测系数( p e r c e p t u a ll i n e a rp r e d i e t i o i l ,p l p ) h e r 9 0 1 、线性预测系数( l i n e a rp r e d i c t i o nc o e f f i c i e n t s ,l p c ) i t a 6 8 及 其倒谱系数( l p cc e p s t r a lc o e f f i c i e n t s ) 等。还可以是能量( e n e r g y ) 、过零率( z e r o c r o s s i n g ) 和音高( p i t c h ) 等特征。目前识别系统中比较常用的是能量和m f c c 系 数。 图1 - 2 ( 摘自f e t s 0 0 1 ) 给出了计算m f c c 系数的主要步骤。语音信号首先经 3 中国科学技术大学博士学位论文12 基于h m m 的语音识别系统 过预加重和加窗( 一般用h a m m i n g 窗) ,之后进行f f t 变换,再通过m e l 滤波器 组计算各f i l t e rb a n k 的能量,并取对数,最后利用离散余弦变换( d i s c r e t ec o s i n e t r a n s f o r i l l ,d c t ) 去相关就得到m f c c 系数。 亟丑 叵卜臣 h 亘耍耍卜匹 ( 乎。 图1 - 2m f c c 系数计算步骤 由于实际中存在各种各样的信道传输影响和加性噪声干扰,进行特征提取时需 要尽可能减少或降低这些干扰因素。噪声鲁棒性问题主要有两类方法:1 ) 以维纳 滤波( w i e n e rf i l t e r ) 等语音降噪算法为代表的直接对语音进行处理以尽量降低语音 中的噪声的方法,如当前性能最好的噪声鲁棒性方法之一的欧洲电信标准化组织 ( e u r o p e a nt e l e c o m m u n i c a t i o n ss t a n d a r d si n s t i t u t e ,e t s i ) 于2 0 0 2 年1 0 月推出的前端 标准,a d v a n c e df r o n t e n d ( a f e ) 标准f e t s 0 2 1 ;2 ) 在语音特征参数域直接进行的 特征参数变换或者规整,典型的是基于累积分布函数匹配( c u m u l a t i v ed i s t r i b u t i o n f u n c t i o nm a t c h i n g ,c d f m a t c h i n g ) 思想的方法 t o r 0 2 ,如直方图均衡( h i s t o g r a m e q u a l i z a t i o n ,i i e ) m 0 1 0 2 、特征高斯化( f e a t u r eg a u s s i a n i z a t i o n ) x i a 0 2 和倒谱均值 相减( c e p s t r a lm e a ns u b t r a c t i o a ,c m s ) f f u r 8 1 1 等方法。 另外,不同于说话人识别( s p e a k e rr e c o g n i t i o n ) ,非特定人语音识别的目标是消 除发音人的个性,提取不同说话人发音特征的共性,但发音人相关导致了语音识别器 的话者相关性。通常认为是声道形状的不同导致了人与人之问的发音不同f w a k 7 7 1 。 因此,除了用尽可能多的发音人的数据来训练模型或进行话者自适应训练( s p e a k e r a d a p t i v et r a i n i n g ,s a t ) f a n a 9 6 1 外,还可以通过声道长度规整( v o c a lt r a c tl e n g t h n o r m a l i z a t i o n ,v t l n ) c o h 9 4 】f l e e 9 6 来消除这种相关性。一般信号处理模块都带有这 种频率弯折( f r e q u e n c yw a r p i n g ,f w ) 的功能。 1 2 2 声学模型 用来给出式( 1 - 3 ) 的p ( x i 彬) 的声学模型是任何语音识别系统最基本的组成部 分。它表征了系统中用到的每个基本语音单元。如果这种表征精度较差,具有再好的语 言模型或者无约束的全搜索的系统都无法给出好的识别性能。所以可以说声学模型是整 个系统的核心部分。 4 第一章绪论 中国科学技术大学博士学位论文 当前大多数声学模型都是采用连续密度隐马尔科夫模型( c o n t i n u o u sd e n s i t y h m m ,c d h m m ) 这种随机过程模型。每一个基本的语音单元用一个h m m 来表征。每 一个h m m 有很多个可跳转的以高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 表征 的状态。因此声学模型从高到低可分解为h m m 模型、状态、高斯分布及特征级参数四 个层次。 声学模型所包括的语音单元或称之为建模单元可以是音素( p h o n e m e ) 、音节 ( s y l l a b l e ) f g r e 9 6 1 、词( w o r d ) 等各个层次的。这些单元的选取与任务相关,也与语言 相关。如连续数字串任务一般选择整字h m m 。对于汉语识别,则多以声母( i n i t i a l ) 韵 母( f i n a l ) 或音节为建模单元l e e 9 3 1 z h a 0 1 1 。 与前后单元无关的建模单元称之为上下文无关单元( c o n t e x t i n d e p e n d e n tu n i t ) 1 , 相应的模型称之为上下文无关模型( c o n t e x t i n d e p e n d e n tm o d e l ,c im o d e l ) 。但人 在讲话时存在协同发音( c o a r t i c u l a t i o n ) 的现象,即每一个发音单元都受其前后的 发音单元影响而变化。为了模拟这种变化,产生了采用上下文相关单元( c o n t e x t d e p e n d e n tu n i t ) 2 l e e 9 0 a h w a 9 3 y o u 9 3 】的建模方式,相应的模型称之为上下文相关模 型( c o n t e x t d e p e n d e n tm o d e l ,c dm o d e l ) 。上下文相关模型的单元会相当多,因此一 般采用状态绑定的方式来减少参数 y o u 9 3 1 。 声学模型可分为话者相关模型( s p e a k e r ,d e p e n d e n tm o d e l ,s dm o d e l ) 和话者无 关模型( s p e a k e r i n d e p e n d e n tm o d e l ,s im o d e l ) 。通常是用尽可能多的说话人的数 据来训练话者无关模型,也可以采用话者自适应训练 a n a 9 6 或者聚类自适应训练 ( c 1 u s t e ra d a p t i v et r a i n i n g ,c a t ) g m 0 0 1 的方式来获得话者无关的模型。在很多实 际应用中,存在着当前说话人或声学环境( 如噪声或信道等) 与模型训练时的说话 人或声学环境不匹配的情况,为了提高系统的性能,需要对模型进行调整。常用的模 型自适应( m o d e la d a p t a t i o n ) 方法有最大似然线形回归( m a x i m u ml i k e l i h o o dl i n e a r r e g r e s s i o n ,m l l r ) l e 9 9 4 和m a p 自适应方法 g a u 9 4 】。 51 2 3 语言模型 词与词之问存在着合乎句法与否的约束,语言模型就是用来表征这些约束的。语言 模型分为基于文法的模型和基于统计的模型。基于文法的模型是总结出语法规则及语义 1 过常也称之为单音了( m o n o p h o n e ) 前于音素可以这么酏,担采剧声韵母、音竹或词时这种醴法欠准确。 2 通常称为双音子( b i p h o n e ) 或j 音子( t r i p h o n e ) ,这两个名词从字面意思来看应该是两个或兰个并巫l 竹音 于但实际指的却魁个受前后发音单元影响的语音单元也就是说的仍是个单兀,h 砬强调r 该单元是上下文褶 关的,因此,休为上r 文相关单) l 更准确。 。5 一 中国科学技术大学博士学位论文 l - 2 基于h m m 的语音识别系统 规则,用这些规则来排除不合语法和语义的结果。这种模型在特定任务系统中获得了很 好的应用,但在l v c s r 中,存在着难以处理真实文本的局限性,此时广泛采用的是统计 语言模型f r a b 9 3 。 统计语言模型的目的是对给定的词序列w ,给出其出现概率,以对最终的识别结果 进行判别。如果给定词序列w = 1 w 2 w 。,其概率可表示为: p ( 矸7 ) = p ( w l w 2 t q ) = p ( 叫1 ) p ( 叫2 w 】) p ( 训3 j l 叫2 ) t - p ( t f j g f 叫l 训2 - 叫g 一1 )( 1 - 4 ) 然而,几乎不可能可靠的估计出所有词在所有序列长度下的条件概 率p ( w 。1 w - 训2 w 。一1 ) 。通常用的是元文法模型,即假设当前词出现的条件概率只 与前n 1 个词有关,也就是: _ 尸( 毗i 1 2 w i t ) p ( 毗j 毗一1 w i2 弛一+ 1 ) ( 1 - 5 ) 由此,词序列w 。出现的概率为: b ,( w 。) ( 1 - 6 ) 元文法模型通常是通过计算训练文本语料中词序列的相对出现频次来得到,即 户c ”t w 。一,w i2 w i - n + i ) = 与;羞篆i :兰 蔫( 1 7 ) 这里f ( w ) 指词序列w 在训练语料中的出现次数。但是即使较小,需统计的条件 概率的数量也非常之大,所需要的存储空间和所导致的运算时间都是难以接受的。因而 通常只取为2 或3 的情况,称之为二元文法( b i g r a x al a n g u a g em o d e l ) 或三元文法 ( t r i g r a ml a n g u a g em o d e l ) 。需要指出的是语言模型通常都是任务相关的,针对特定的 任务训练特定的语言模型能在较大程度上提高识别结果的正确性f 3 e 1 9 7 。 1 2 4 解码器 语音识别的目标是识别出输入语音的正确发音序列,为此,我们必须在所有可能 的词序列t y 中寻找出使式( 1 - 3 ) 最大的那个序列。但这样的全搜索至少在现有的计算 水平下是不可能的。v i t e r b i 解码 v i t 6 7 1 的t o k e np a s s i n g 实现方法 y o u 8 9 ,其计算复杂 度对于孤立词识别是可以接受的,但对于连续语流的识别其计算量仍相当可观。光束 搜索( b e a ms e a r c h ) l o w 7 6 n e y 9 2 】通过裁减掉不可能或者得分特别低的路径,在很大 程度上降低了运算量。不过这种搜索获得的可能是次优路径,虽然对于识别器来说也 ,6 一 删 一吼 叫p 。日 第一章绪论 中国科学技术大学博士学位论文 是可咀接受的。n b e s t 解码方法 s 0 0 9 1 j e i 9 7 j 则可以依次得到得分最高的前个词序 列。a + 搜索( a 4s e a r c h ) n i l 8 0 1 p a u 9 1 这一最佳优先搜索( b e s tf i r s ts e a r c h ) 方法特别 适合在词网格( w o r dl a t t i c e ) 或词图( w o r dg r a p h ) 中进行搜索,因而经常被用在两遍 解码的第二遍解码中。f o d e 9 5 1 中给出了在采用上下文相关模型和长跨度语言模型的大词 汇量连续语音识别系统中进行快速解码的一种方法,这是当前解码效率比较高的一种方 法。 按照式( 1 - 3 ) ,识别器必定输出一个词序列,但在很多应用场合,认定其就是识别 结果可能产生严重的问题。比如在一个语音命令系统中,如果识别器给出的识别结果是 错误的,而系统又接受了这个错误的命令,那么可能导致严重的后果。因此,我们需要 确定这个词序列是否可信。再来看式( 1 - 3 ) ,由于没有考虑式( 1 - 1 ) 中观测序列x 可 能出现的概率p ( x ) ,我们无法判断识别结果的可靠性,为此实际应用场合都需要能给出 这种可靠性的模块,称之为确信度判决( c o n f i d e n c em e a s u r e ,c m ) y o u 9 4 e 】。确信度判 决给出识别器的输出词序列的可靠性,使得系统能够根据这个可靠性判断是否接受或拒 绝该词序列。也可以采用确信度判决针对整句话判断接受与否。现有方法大致有:1 ) 基 于解码信息提供的特征的确信度;2 ) 基于似然比的确信度;3 ) 基于m a p 决策准则的后 验概率。采用最后一种方法,从解码后的词网格中计算式( 1 - 1 ) 的分母p ( x ) 来给出确 信度,即通常所说的w p p ( w o r dp o s t e r i o rp r o b a b i l i t y ) 方法 w e s 0 1 】,以及在此基础上 发展起来的g w p p ( g e n e r a l i z e dw o r dp o s t e r i o rp r o b a b i l i t y ) 方法 s 0 0 0 4 是当前应用 较多,性能较好的一类方法。 1 3 存在的问题与解决方案 当前基于连续密度隐马尔科夫模型的语音识别系统能够给出相当好的识别性 能,但相应的存储量和计算量的需求非常大。这对于个人数字助理( p e r s i o n a ld i g i t a l a s s i s t a n t ,。p d a ) 或嵌入式设备( e m b e d d e de q u i p m e n t ) 等资源有限的系统来说是无法 接受的。即使对于计算资源和存储资源比较丰富的系统,很多时候也是难以承受的。如 对于一个需要同时提供几十线服务的电话信道上的语音识别服务器来说,过多的存储量 和计算量的需求,只能导致识别结果的严重滞后,这种无法保证实时或准实时的服务就 不会有实用价值。因此我们需要尽可能的减少识别系统对存储资源和计算资源的需求, 而同时基本保证其识别性能。 让我们再回过头来看一下图1 1 ,在语音识别系统主要由信号处理、声学模型、语言 一7 一 中国稃学技术大学博士学位论文s13 存在的问题与解决方案 模型和识别器四部分组成。其中声学模型和语言模型的复杂度决定了系统所需存储量和 计算量的多少。但在很多系统中并不需要语言模型,特别是当前可以做到实用的一些任 务、如语音拨号、语音点歌等等,只需要一个比较简单的语法网络就可以满足系统的需 要。而作为最基本组成部分的声学模型则在什么时候都必不可少。因此我们将解决资源 需求与性能要求这一矛盾的立足点放
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海船船员轮机考试题库及答案
- 贸易合同履行承诺书9篇范文
- 合同履行保障安排承诺函5篇
- 2025年国际经济法的基本理论与案例分析试题及答案
- 2025年新疆农业产业链合作合同协议
- 高速公司考试题目及答案
- 初一的月考试卷及答案
- 微积分下考试题目及答案
- 锐捷网络笔试测试题及答案
- 山东初一数学月考试卷及答案
- 骨科手术铺巾
- 新质生产力助推乡村振兴 (修正版)
- 碳普惠制的实践检视与立法完善
- LNG加气站安全规章制度
- 建设工程监理安全资料(完整版)
- 客服人员绩效考核方案
- 苹果电脑macOS效率手册
- 城区绿地养护服务费项目成本预算绩效分析报告
- 职称英语A级词汇大全
- 某光伏发电工程EPC总承包投标文件技术文件
- 高考英语688高频词汇excel版
评论
0/150
提交评论