




已阅读5页,还剩120页未读, 继续免费阅读
(模式识别与智能系统专业论文)电话语音识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
垫塞 - _ _ _ _ - 一一 摘要 电话是最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域。 语音识别是基于电话平台的语音应用的一项核心技术。大词汇量连续语音识别 技术( 【c s r ) 在最近十几年取得长足的发展,但当l v c s r 系统从基于高质量麦 克风的桌面应用移植到电话网络的应用环境时遇到了很多困难。提高电话语音 识别鲁棒性是实现其商用化的关键问题。本文针对汉语电话语音识别应用中的 技术难点,在以下几个方面作了广泛而深入的研究。 首先,在电话语音识别的环境补偿方面,本文提出一种新的基于矢量分段多 项式近似的噪声环境补偿算法动态补偿背景噪声和通道噪声引起的数据失配。 并把此算法应用到稳态噪声和非稳态噪声环境。对于稳态噪声环境,在l o g 谱域 采用批处理e m ( be m ) 方法;对于非稳态噪声环境,在倒谱域采用递归 e m ( re m ) 方法。这两种方法都是基于最小均方误差估计( m m s e ) 准则的特征补 偿。算法不仅可以针对高质量线性通道( 如多数固定市话) ,同时也可以针对不 稳定的非线性带噪通道( 如一些长途电路,越洋电路以及无线压缩编码话音等) 做出有效的补偿。实验结果表明,提出的v p p 环境补偿算法明显优于传统的特 征补偿算法。 其次,在电话语音声学建模方面,本文详述了国际上常用的两种声学建模方 法,合并聚类( a g g ) 和决策树( t b ) 聚类,分析了它们的优点和缺点,并进行相应 的改进,然后利用它们各自的优点。提出组合声学建模算法:利用数据驱动的 聚类a g g 得到精确的模型;通过规则驱动的聚类t b 解决训练中未知的模型。 另外还研究了决策树分裂时最大似然准则和区分性准则的性能差异。大词量连 续语音识别实验结果表明,和单一的决策树聚类算法比较,提出的组合聚类算 法对识别率有明显的提高。 最后,在电话语音识别的自适应方面,本文详细分析了国际上通用的各种电 话语音识别系统的自适应算法的优点和缺点。提出基于先验知识和目标驱动的 g j m a p ( g c n e r a l i z e dj o i n tm a x i m u m ap o 呶时o r a d a p t a t i o n ) 算法。通过调节两个惩 罚因子控制先验知识和自适应数据之间的权重关系,把m a p 、m l l r 和j m a p 统一到同一理论框架下。基于先验知识和目标驱动主要是指回归树的定义,回 归树根据先验的语音学知识和自适应数据的多少动态决定,以自适应数据的似 然概率增加为目标。在大词汇量连续语音识别有监督方式下,提出的g j m a p 算 法和传统的方法比较识别率有显著的改善。 第j 页 摘要 关键词: 电话语音识别,通道补偿,说话人自适应 隐马尔可夫模型,声学建模 笫页 垒堕竺坚 一一一 - _ _ _ _ _ _ - _ _ _ - _ _ - _ _ _ _ _ _ _ - _ _ 一 一 a b s t 怕c t s i n c et e l e p h o n ei sm eo n l yu b i q u i t o u sc o m m u n i c a t i o n st c m l i n a ld c v i c ei nc u r r e n t w o r l d ,i ti st h ei a r g e s tp o t e n t i a la p p l i c a t i o nf i e l df o rs p e e c ht e c h n i q u e s a u t o m a t i c s p e e c hr e c o 叠n i t i o n ( a s r ) i sac o 姹t e c h n i q u ef o rs u c ht e l e p h o n e b a s e ds p e e c h a p p l i c a t i o n s t h eg r e a tp r o g r e s sl l a sb e e nm a d ei n t l l es t a t e - o f m e a r tl a b o r a l o r y s d e e c h r e c o g n i t i o ns y s t e mi n 出ep a s tt e ny e a r s ,b u ta s r i nt e l e c o m m u n i c a t i o n ss t i l l s h o w sap o o r e rp e r f o m l a n c ec o m p a r e dt oo t h e rm o r e 疳i e n d l yc o n d i t i o n s ,a si nq u i e t r o o m s i m p m v i n gt l l ep e r f o n 咖c eo ft c l e p h o n e - q u a l i t ys p e e c hr c c o g n i t i o ni s a i l u r 窖e n tm o b l e mf b ri t sa p p l i c a c i o ni nm o s ec o m m e r c i a la s rs y s t e m s i nt h i s d i s s e n a t i o n ,i 口r e s e n tt h er e c e n t 口r o g r e s s e do ni m p r o v i n gm ep e r f o r m a n c ef o r m a n d a r i nt e l e p h o n ya s r f i r s t l y ,av e c t o rs t a t i s t i c a lp i e c e 、i s ep o l y l l o m i a l ( v p p ) a p p r o x i m a t i o na l g o r i t i sp r o p o s e df o re n v i r o n m e n tc o m p e n s a t i o nt l l a ts p e e c hs i g n a l sa r ed e g r a d e db yb o m a d d i t i v ea n dc o n v o l u t i v en o i s e s t h e 喈i sa p p l i e de i t h e rt dt h es t a t i o n a r yn o i s e ,o r t ot h en o n s t a t i o n a r yn o i s e h i 也ef h s tc a s e ,t h eb a t c he mi su s e di n1 0 2 s 口e c t r a l d o m a i n :i nt h es e c o n dc a s et l l er e c u r s i v ee mw i t hi t e r a t i v es t o c h a s t i ca p p r o x i m a t i o n i sd e v e l o p e di nc e p s t r a ld o m a i n b o ma p p r o a c h e sa r eb a s e do nt l l em i n i m 啪m e a n s q u a r e de r m r ( m m s e ) s e n s e e x p 州m e n t a lr e s u l t sa r ep r e s e n t e do nt h ea p p l i c a t i o no f t h i sa p p 附a c hi ni m p r o v i n gt h ep e r f b 咖a n c eo f m a n d a r i n1 a 喀ev o c a b u l a r yc o n t i n u o u s s p e e c hr e c o g n m o n ( l v c s r ) d u e t om eb a c k g u n dn o i s e sa n dd i 恐r e n t 订a n s m i s s i o n c h a n n e l s ( s u c ha s 丘x e dt e | e p h o n el j n e 锄dg s m ) t h em e m o dc a nr e d u c et h ea v e r a g e c h a m c t e re r r o rr a t e ( c e r ) b ya b o u tl8 s e c o n d i y , ac r u c i a li s s u ei n t r i p h o n e b a s e dc o n t i n u o u st e l e p h o n es p e e c h r e c o g n i t i o ni st h el a r g en u m b e r0 fp 猢e t e r st ob ee s t i m a t e da g a i n s tn l e1 i m i t e d a v a i l a b i l i t yo f 虹a i n i n gd a t a t oc o p ew i 也也ep r o b l e m ,”om a j o rc o “t e x t c l u s t e r i n g m e t h o d s ,a g g l o m e r a t i v e ( a g g ) a n dt r e e b a s e d ( t b ) ,h a v eb e e nw i d e l yi n v e s t i g a t c d ac o m b i n e dm e t h o di si n n 0 d u c e di nt h i sd i s s e r t a t i o nw h i c ht h ep o s i t i v ea s p e c t sa r e e x 订a c t e df o m 也ea b o v em e t h o d s :a c h i e v ea c c 啪t ec l u s t e r i n gv i ad a t ad r i v e nm e t h o d w h i l ea t t a i ns o l u t i o n so fu 妇w nc o m e x t sv i ad c c i s i o nt r e em e t h o d i no m e rw o r d s w ec o m b i n em ea g g l o m e r a t i v ea l g o r i 伽ma n dt r e e b a s e d a l g o r i 怕nt o g 甜l e rt o c o n s t r u c tt h ec o n t e x t - d e p e n dm o d e l si n s t e a do f u s i n ge i t h e ro ft h e ma l o n e a g ga 1 1 d t ba r ea p p i i e dt ot r a i nt l l ea c o i l s t i cc dm o d e l sr e s p e c t i v e l y a f e rt h a t ,t h em a x i m m i i k e i i h o o d ( m l ) o p t i m i z a t i o np d n c j p i ei su s e d t h em o d e lw i t ht h eb e t t e rl i k e i i h o o d i m p r 0 v e m e n ti no n ec o m e x ti ss e l e c t e d a d d i t i o n a l l y t h ee n t r o p y b a s e da n d l i k e l i h o o d - b 踞e dm e a s u r e sa r ei n v e s t 培纳e d e x p e r i m e n t a lr e s u h so nl a r g ev o c a b u l a r y s p e e c ht a s k si n d i c a t et l l a tt l i ep r o p o s e d 印p r o a c ho u t p e r f o m l s 出ec o n v e m i o n a ls i n g l e c l u s t e r i r l ga l g o r i t h i ni t ls o m ec a s e s ,w h i c h 廿1 ep r i o rq u e s t i o ns e t sa r ei n 印p r o p r i a t c ( t e l 印h o n ea 1 1 ds p o m a r i e o u ss p e e c h ) o rm i g l l tn o te x i s ta ta l l ,b es c a r c eo re x p e n s i v e 第1 i l 页 a b s t l a c t ( m u l t i l i n g u a ls p e e c hr e c o g n i z e r s ) l a s t l y a d a p t i n g m e p a r a m e t e r s o fa t e l e p h o n es p e e c h i n d e p e n d e n t c o n t i n u o u s s p e e c hr e c o g n i z e rt o 也es p e a k e rc a ns i g n i 丘c a n t l yi 唧m v e 也er e c o g n i t i o n p e r f o m l a n c e 肌dr o b u s t n e s so ft h es y s t e m ip r o p o s ean o v e lt a r g e t d r i v e ns 口e a k e r a d a p t a t i o nm e t h o d ,g e n e m l i z e dj o i n tm a x i i i l u map o s t c r i o r ( g j m a p ) ,w h i c he x t e n d s a f l di m p r o v e st h ep r e v i o u ss u c c e s s 削r n e t h o dj m a p g j m a pp a r t i t i o n st h eh m m p a r 锄e t e r sw i t hr e s p e c tt ot h ea d 矗p t a t i o nd a t a ,u s i n gt h ep r i o r ip h o n e t i ck n o w l e d g e t h eg e n e r a t i o no f r e g r e s s i o nc l a s st r e e si sd y n a m i c a l l yc o n s “c t e do nt h e t a r g e t d r i v e np r i n c i p a li no r d e rt o0 b t a i nt h em a x i m i z i n gi n c r e a s eo fm ea u x i l i a r y i i u n c t i o n t h eo a 己l j n ea d a p l a l j o ne x p 鲥m e n 招o nl a r g ev o c a b u 】a r vc o n t i n u o u ss 口e e c h r e c o g n i t i o na r ec 枷e do u t t h ee x p e r i m e n t a lr e s u l t ss h o wt h ca d v a n t a g eo f 也e p r o p o s e dm e t h o do v e r 也ec o n v e n t i o m lm e l h o d s 1 ( e yw o r d s :t e l e p h o n es p e e c hr e c o g n i t i o n ,c h 矗n e jc o m p e n s a t i o n , s p e a k e r a d a p t a t i o n ,h i d d e nm a r k o m o d e i s ,a c o u s t i cm o d e l i n g 第1 v 页 塑堕旦墨 一一一 _ - _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ - - _ _ _ _ - _ 一 插图目录 自动语音识别的学科基础和应用实例。l 统计语音识别框架2 语音识别中m f c c 特征提取3 不同类型h m m 的输出概率分布6 引导搜索的层次知识框架1 0 n i s t 英语电话口语识别历年评测优胜结果1 3 n i s t 汉语电话口语识别历年评测优胜结果1 4 2 0 0 1 年英语电话语音评测的各系统比较1 7 电话线路仿真模型2 7 电话网络中的噪声环境模型3 6 函数l o 双l + e 赋v ) ) 3 8 函数h ( 、,卜e x p ( v ) ( 1 r e x p ( v ) ) 3 8 环境变量n 和h 的估计流程4 1 近似函数和原函数的比较4 6 v p p 算法和其它算法在时变白噪声下的比较4 8 v p p 算法和其它算法在时变b a b b l e 噪声下的比较4 8 基于状态的聚类建模5 5 决策树的建立5 7 t m h m 混合系数矩阵6 2 组合模型的训练过程6 4 1 1 1 l ,m c e 和熵准则的比较6 7 变化源修改自b 一h j u a n g sk e y n o t es p e e c hi nn n s p 9 6 7 0 声学模型自适应技术的发展概况( c hl e e ) 7 2 自适应算法原理:使分布尖锐化7 3 自适应回归树的定义7 8 在不同数量的自适应数据下m a p 估计的示意图。8 2 m l l r 、m a p 和m l l r + m a p 的自适应实验结果比较8 3 从s i 模型中估计先验的分布参数8 9 g j m a p 的几何解释9 2 汉语语音树结构9 5 第1 x 页 1屯q七书1喝1屯4巧咱吖cp o 吃弋叫,1 o屯q叫咱。喵曲 卜卜卜卜卜卜|r 2 2 2 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 插图目录 4 一l o 自适应回归类的变换和识别率的关系 第x 页 表格目录 表格目录 卜lc u h t k 的英语电话口语识别系统的训练和测试语音1 5 卜2c u h t k 的电话语音识别系统1 5 卜3c u h t k 的电话语音识别系统2 0 0 2 评测各个关键技术的实验结果( 误识率 ) 1 6 卜4 线路噪声对t i m i t 识别性能的影响1 8 卜5 昕写机声学模型训练用语音库统计信息2 2 卜6 真实电话语音库统计信息2 2 2 1 不同通道环境语音识别性能测试2 6 2 2 零到三阶多项式的统计线性近似系数3 8 2 3 电话语音识别结果比较。4 7 3 1 在t i m i t 数据库中音子错误率受电话影响的比较5 2 3 2 汉语基本建模单元集5 8 3 3 合并聚类和决策树聚类的比较6 3 3 4a g g 的实验结果( 字误识率) 6 6 3 5 两级优化树的实验结果。6 6 3 6 组合方法的实验结果比较6 7 4 1 三种自适应算法随着自适应数据量的变化趋势( 字识别率) 9 6 4 2 测试循环多遍的自适应效果( 字识别率) 9 7 4 3 四种自适应算法的自适应效果的比较( 字识别率) 9 8 4 4 无监督自适应j m a p 和g j m a p 比较( 字识别率) 9 9 第x i 页 独创性声明 本人声明所提交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。昱 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。 签名:毫鲨垦墨日期:型竺:2 :兰z 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自 动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:蔓圭壁垒垒导师签名同 期望 珥 第一章绪论 语音识别是模式识别领域中最富挑战性的研究课题之一。自动语音识别( a s r ) 的 任务是研究如何利用计算机模拟人类的听觉功能,从人的语音信号中提取出有用的声 学信息和语言信息,并进而确定语音信号的语言含义,简单的讲就是将语音信号转换 为对应的文字【l 】。语音识别的最终日标是实现人和机器之间的自然语言通信。 人与人之间存在大量的信息交流,语音则是这种交流的最主要媒介,粗略估计大 约占到7 0 左右。与人类其它的交流方式相比。语音具有更自然、更直接、更方便的 优点,而且非常经济、高效。在未来,人们需要像人那样能听、能说、会思维的智能 计算机,而语音识别技术无疑是实现这一目标的先决条件。因此语音识别研究具有非 常重要的现实意义和紧迫性。 对于拥有高度智能、精密听觉器官的人类,语音识别无疑是一个简单任务,但是 对于计算机来讲,自动语音识别是一个相当困难、非常复杂甚至不可能完成的任务。 语音识别研究的困难之处很大程度上在于其复杂的多学科知识交叉的特性( 见图卜1 ) 。 它与声学、语音学、语言学、生理学、心理学、信号处理、人工智能、信息论、模式 识别、数理统计以及计算机科学等诸多领域联系紧密【2 】。 图卜l 自动语音识别的学科基础和应用实例 第l 页 电话语音识别技术研究 语音识别技术具有非常广泛的应用前景( 见图卜1 ) ,目前主要集中在三个大的方 面。第一个方面是语音输入。即人类将信息通过语音输入计算机,这类技术的代表是 大词汇量连续语音听写机。第二个方面是人机交互和对话,计算机不仅要记录人发出 的信息,而且还要对这些信息加以理解,并产生相应的动作或反馈必要的信息。这种 应用最成功的范例是以电话为媒体的语音查询系统。语音技术的第三个重要应用领域 是计算机辅助完成的人与人之间的通信,这种应用的典型代表就是语音翻译技术。 1 1 统计语音识别概述 在统计理论框架下,语音识别的任务是在给定声学信号x 下找到最可能的句子( 或 者说词序列,w = w 。w ) 。应用贝叶斯理论,形式化为【3 】: 矿= a 瞎a x p ( 形i z ) = a r g 尹a x 紫 1 1 矿 ,t i 上式表明要求最大概率的词序列旷,就是求p ( w ) f ( x l w ) 的最大值( 因为声学特 征的先验概率,( 柳= 只矿) 尸瞄i 矽) 与说话内容无关此处不考虑) 。p ( w ) 是先验的观测到 的词序列的概率,和观测的信号x 无关,这个概率实际可由语言模型得到。f ( x w ) 表示当词序列为w 时,观测信号为x 的概率,即声学模型。 图卜2 统计语音识别框架 第2 页 整二童笪丝 通用的语音识别系统包含如下几个部分:特征提取、声学模型、语言模型、解码 器等。它们的关系如图卜2 。 1 1 1 特征提取 从模式识别最优分类器设计的角度来说,特征提取应满足如下设计要求:首先, 要能有效地代表语音特征的分类信息,包括声道特征和听觉特征,具有很好的区分性; 其次,在各阶特征参数之间要有良好的独立性:最后,特征参数要计算方便,最好有 高效的计算方法,以保证语音识别的实时性。 目前主流语音识别系统通常采用以下几种特征:m e l 化倒谱系数( m f c c ) 【4 】和感 知线性预测( p l p ) 【6 】。由于这些特征的提取主要是以模仿人耳的听觉机理为依据,没 有考虑后续分类器的设计一些研究人员曾尝试将区分度准则引入到特征提取的过程 中,如【7 】。另外,对特征所作的某些线性变换也已经证明了其有效性,最常见的如 引入特征的动态一阶和二阶差分系数【8 】和线性判别分析( l d a ) 。前者的引入既可以 增加语音谱中的动态信息,又有利于部分地消除背景噪声和信道失真造成的谱偏差。 最近的一些研究成果表明,在特征后处理阶段采用l d a 替代传统的动态差分技术可以 进一步提高系统的性能【9 ,l o 】。文献【8 】提供了一个较为全面的概括,其它还有一 些基于听觉模型的特征提取方法,如文献【1 1 1 2 】。 图卜3 语音识别中m f c c 特征提取 第3 页 电话语音识别技术研究 m e l 倒谱( m f c c ) 特征提取框图如图1 3 所示。其中m e l 滤波的作用是利用同人耳 听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑。对数操作( l o g ) 的 用途至少有两点,其一是压缩谱的动态范围,其二是同态分析。离散余弦变换( d c t ) 主要用来对不同频段的频谱成分进行解相关处理,以满足h m m 建模中各维特征向量之 间统计独立的假设。和2 分别表示一阶差分和二阶差分,刻画语音的动态信息。 本文实验所采用的特征包括1 2 维标准m f c c 系数,一维归一化的能量以及其一阶、 二阶差分特征,为体现汉语的声调特征,又加上一维归一化的基频特征以及其一阶、 二阶差分特征,共4 2 维【1 3 】o 1 1 2 声学模型 语音信号经过前端处理后得到的语音特征向量,仍然停留在语音特征层次,按照 公式卜l ,必须估算f ( x | w ) 才能最终得到期望的句子。对于大词汇量非特定人语音识 别系统来讲,想要直接得到这一概率值是非常困难的,因为x 和w 的组合几乎是无穷 无尽的。在目前的语音识别框架下,解决这一问题的办法是利用声学模型作为语音特 征层和语言层之间的过渡,比如说建立音子( a 1 l o p h o n e ) 模型作为中间层次,先求得特 征向量x 对音子模型的条件概率,再利用w 与音子模型的对应关系( 发音词典等) 间接 求得f ( x | w ) ,从而大大降低问题的复杂度。 当前声学建模的主流方法是使用隐马尔可夫模型( h m m ) 【1 4 ,1 5 】。 1 1 2 1 隐马尔可夫模型( h m 幻 隐马尔可夫模型是一种统计模型,它利用两个相互关联的随机过程共同描述信 号的统计特性。其中一个是“隐藏的( 不可观测的) ”具有有限个状态的马尔可夫链; 另一个是与此马尔可夫链的每一状态相关联的随机过程,这一随机过程可以通过观察 矢量观测。 1 ) 隐马尔可夫模型的定义 隐马尔可夫模型是一个带概率的有限状态马尔可夫链,或者说是一个有限状态 集合,其中每个状态与其他状态按照定的概率连接在一起。任一时刻,系统处在 第4 页 第一章绪论 其中的某一个状态上,并且经过相同的时间,系统从一个状态跳转到另一个状态( 包 括自身状态) 。与每个状态相关联,存在一个输出概率密度函数( p d f ) 。这个函数 定义了当系统进入这个状态时输出某个观测向量的概率。如果将一个语音信号以参 数化的形式表示成一个时间序列:0 = o l ,如,o , ,那么由以上定义的隐马尔可夫 模型就可以求出任意一个状态序列产生上述语音信号的概率。实际上,产生上述语 音信号的状态序列是未知的,或隐含的,也正是语音识别过程中要求的。 隐马尔可夫模型h m m 的形式化定义如下: 1 该马尔可夫链所处的状态空间为s = “,s :,吒 。 2 该马尔可夫链的初始状态扎满足概率分布n 。 3 该马尔可夫链的状态转移矩阵为4 = 尸( x ,l 。) 。 4 每一个由一一到墨的状态转移,都有一个与其关联的输出概率分布 b = 尸( o i x f - l ,x 。) 。 这样由一组参数a = n ,一,毋所确定的系统被称为隐马尔可夫模型h m m ,它 的状态序列是隐藏的。 根据h m m 的定义,观测到h m m 的输出矢量序列为o 】,0 2 ,钟的概率可表示 为: 女 p ( d 。,d z ,o i ) = n 尸( x 。lx 。) p ( o ,lx - l ,x 。) 1 2 置,。并f j t l 2 ) 隐马尔可夫模型的类型 h m m 的每一个输出状态都有一个概率密度函数,根据输出概率分布的不同, h m m 可以分成以下几种类型( 如图l - 4 ) : 1 离散隐马尔可夫模型( d i m m ) :其输出概率是基于一套码本的离散概率分布函 数。 2 连续隐马尔可夫模型( c d h m ) ;其输出概率分布函数是连续密度概率函数。 3 混合密度连续隐马尔可夫模型:其输出概率分布函数是多混合的连续密度概率 函数。 4 半连续隐马尔可夫模型( s c h m m ) :其输出是一套码本,但是每个码字是一个混 第5 页 电话语音识别技术研究 合的连续密度概率函数。 码奉码字是浆类中心 图卜4 不同类型h 删的输出概率分布 本文的连续密度h m m 参数定义如下: n h m m 模型中的状态数 a n 州的状态转移矩阵,a i i 表示从状态i 转移到j 的概率 b ;一状态i 的输出概率 状态的输出概率包含多个混合,每个混合都是一个多维高斯函数,则输出概率可 用如下参数描述: c ,。一k 个混合的权重 u 。一k 个混合的期望 。一k 个混合的方差 给定语音矢量o ,第k 个混合的概率“( o ) 为: 屯( d ) = e 一昙( o 一玩) g 1 ( o 一心) l 一3 ( 2 石) 2i z m l 2 其中n 是语音矢量的维数。 第6 页 笙= 兰丝丝一一 状态输出概率则为: 6 l ( d ) ;气k ( d ) l 一4 3 1 隐马尔可夫模型在语音识别中的三个基本问题 隐马尔可夫模型在语音识别中应用需要解决下面三个问题: 1 评估( e v a l u a t i o n ) 问题:若已知输出矢量序列为d = d l ,0 2 ,d r 和隐马尔可夫 模型z = n ,爿,哪,如何计算该模型产生此输出序列的概率p ( 0 l a ) a 2 解码( d e c o d i n g ) 问题:若已知输出矢量序列为0 = o ,d :,d r ) 和隐马尔可夫模 型五= f n ,爿,b ,如何求得最佳的状态转移序列= x 。五,爿。) 。 3 训练( t r a i n i n g ) 问题:对于一个h m m 模型,若已知它所产生的若干输出序列样 本,如何估计此模型的最佳参数旯= n ,) ,使得该模型输出这些序列 样本的概率最大。 如果能解决评估问题,我们就能对隐马尔可夫模型和输出矢量序列的匹配程度 打分:若解决了解码问题,我们就能为输出矢量序列找到最佳的状态匹配序列,可 用于解决连续语音识别问题:训练问题的解决,可以直接应用到语音识别的声学模 型训练上。关于这三个基本问题的详细解法,请参阅文献【1 6 ,2 】。 1 1 2 2 声学建模单元 h m m 可用来描述任何语音单元,在实际中需要根据具体的要求和条件来合理选择声 学建模的基本单元【1 8 】。比如,在英语中一般以音素建模:在汉语中根据任务的不同 建模单元也不相同,有的以声韵母为单位,有的以音节为单位,也有的以整词为单位。 声学建模单元的大小( 音节、半音节或音素) 对语音识别训练所需数据量多少、系 统识别率以及灵活性有较大影响。如果选取较大的建模单元,在声学模型内部就可以 较好刻画上下文协同发音现象,有利于提高系统的识别率,但是会带来模型过多、训 练数据不足的问题:如果选取较小的建模单元,模型的计算和存储代价会相应减小, 要求的训练数据量也少,但是由于受到上下文的影响,模型往往不能精确地描述对应 的语音。总而言之,选择建模单元时要兼顾两个原则:模型的一致性( c o n s i s t e n c y ) 第7 页 电话语音识别技术研究 和模型的可训练性( t r a i n a b i l it y ) 。一致性是指模型应该能描述它的各个发音实例之 阳j 的相似性,这对改善不同建模单元之间的区分能力非常重要,也是语音识别系统扶 得较高识别率的关键。可训练性是指每个模型要有足够的训练数据,否则训练出来的 模型不可能精确。 汉语发音同英语发音有很大不同。汉语的每个字都是单音节,共有4 0 0 多个无渊 音节,每个音节由声母和韵母二部分组成。声母由一个音素构成,均为辅音。韵母由 一个、两个或三个音素构成,通常为元音或元音加鼻辅旨。基于这种特点,现有的汉 语语音识别系统大都以声韵母作为建模单元。 1 1 2 3 语境相关的声学建模 人的发音无时无刻不受到所处语境的影响,由此产生了大量复杂的上下文协同发音 现象。在连续语音识别中,无论选择何种建模单元,要想达到较好的识别性能,必须 建立语境相关的声学模型。语境相关模型中体现了语境因素,可以描述上下文协同发 音现象,比语境无关模型更精细。 建立语境相关模型的主要困难是模型的数量急剧膨胀,而且语境描述能力越强的声 学模型,数目就越多。拿汉语来说,以声、韵母为基本建模单元的语境无关模型总共 只有几十个( 2 2 个声母和3 7 个韵母【1 8 ,2 4 】) 。如果要考虑前后声韵母的影响,则模 型数目可能变成3 7 2 2 3 7 + 2 2 3 7 2 2 = 4 8 0 2 6 个。如果进一步考虑上下文声调的 影响,模型数目就会变得更多。模型数目增加意味着需要在训练过程中估计的参数也 相应增多,如果没有足够的训练数据,就会由于数据稀疏而导致部分模型训练不充分, 从而降低模型的精度。另外一个问题是,模型数目增加会导致训练和识别时的计算量 加大。 为了得到精度更高的语境相关模型,同时又能将模型的数目增加限制在可接受的程 度,可以使用模型参数共享技术。参数共享的基本思想就是利用数据驱动或知识驱动 的方法,采用自下而上的合并算法【2 3 】或自上而下的决策树算法【2 5 ,2 6 ,2 7 】,对需 要共享的参数进行分类,把相近的参数“捆绑( t i e ) ”在一起。模型参数共享技术减 少了需要估计的参数数量,保证了重估参数的鲁棒性和准确性,同时也可以确保模型 的精度仅有轻微损失。参数共享可以在声学模型的各个层次上进行,如模型本身、模 第8 页 第一章绪论 型状态或者输出分布函数中的高斯函数。 三音子( t r i p h o n e ) 是种语境相关的声学模型【2 8 】【2 9 】。可以用只一,一b 来 表示,p 表示当前音子,只和b 分别表示与当前音子紧邻的左、右音子。三音子可以 很好地描述语境( 左、右音子) 对当前音予的影响,是目前连续语音识别系统最常用的 语境相关模型。三音子模型又可以细分成词内语境相关三音子模型和词间语境相关三 音子模型,不同之处在于是否能够描述词和词连接处的语境信息。 1 1 2 4 其它建模方法 神经网络( a n n ) 【1 9 】: 神经网络已经被应用于语音识别中,其中最有效的一种方法是使用多层神经网络 不同层之间的神经元通过一定的加权系数相互连接,这些加权系数可以在训练中进行 学习。每一个神经元对所有的输入进行读取,然后把结果传给下一层的神经网节点上。 到目前为止,还没有一种神经网络语音识别性能可与由h 删模型构成的语音识别系统 性能相比。神经网络的主要缺点是不容易解决时间对齐的问题。目前比较成功的神经 网络语音识别系统主要是小词表识别系统,或者是将神经网络与删m 相结合的识别系 统。 分段模型( s e g m e n tm o d e l ) : h 虽然在语音识别领域应用得比较成功,但是它本身还存在很大的局限性,集中 表现在三个方面:一是描述状态驻留的能力差;二是帧间不相关的假设;三是以短时 帧为基础的特征提取的限制。人们为了消除这些局限性,提出了各种各样的改进方法 和新的模型。m a r i0 s t e n d o r f 等人在对各种随机模型进行总结归纳的基础上提出了分 段模型,实际上为统计语音识别建立了一个统一的框架( 详见【2 0 】) 。 1 1 3 语言模型 语言模型解决式卜1 中尸( 矿) 的计算问题。语言模型通常可以分为两大类型:基于 知识的语言模型( 均w l e d g e b a s e dl a l l g i l a g em o d e l ) 和统计语言模型( s t a t i s t i c a ll a n g u a g e m o d e l ) 。目前在大词汇量语音识别系统中使用比较成功的是统计语言模型。 在统计语言模型中,设= m ,心,( m 矿,】s f 门) ,根据贝叶斯公式,理 第9 页 电话语音识别技术研究 论上可以利用下式得到词串的先验概率尸( ) : p ( 矽) = 兀尸( w 1w 0 ,w 1 ,w h ) 卜5 i t l 其中w n 用来保证初始状态下公式形式的一致,而的概率要依据在它之前出现的 所有历史词w ,w :,w 。来决定。对公式卜5 做一些简化,在计算w i 的概率时,只参考 有限数目一1 个而不是所有的历史词,得到元统计语言模型计算公式: r ( 矿) = 丌p ( w jl w 。w m + 2 ,w 一) 1 6 ,;l 对语言模型的训练可以采用最小化困惑度( p e r p l e x i t y ) 准则【2 2 】,定义困惑度 如下: p 即h 砂= p ( ”) 】_ l ,”= 兀p ( w 。1w = + ) 】 卜7 月_ l 实际上,如果值太大,p ( 矿) 也是难以估计的。一般系统中常采用的统计语言 模型只有二元( b i g r a m ) 和三元( t r i g r a m ) 语言模型。和声学建模时相似,在训练语言模 型时仍然会有数据稀疏的情况,通常使用回退( b a c k o f ! f ) 或插值的方法进行参数平滑 【2 l 】。由于本文的研究重点不是语言模型,更新的技术不一一列举。在我们的实验 平台中采用的是基于词的三元统计语言模型【1 3 】。 1 1 4 搜索策略 语音信号经过前端处理求得特征参数后,解码过程就是要利用声学模型、词典以 及语言模型知识,找到发音与此特 语言知识 征参数具有最高似然度的词串。这 在本质上是一个模式匹配和搜索问 语音学知识 题。 语音识别搜索过程可以利用的 声学 知识包括声学知识、语音学知识、 模型层 语言学知识以及语法语义知识。这 语音特征 些知识从下至上组成了一个三层框 矢量 iiiiil 架( 图1 5 ) ,框架的底层是声学图1 5 引导搜索的层次知识框架 第1 0 页 第一章绪论 层,其上是语音层,最上是语言层【2 4 】。 对于一个搜索问题,基本的求解策略主要分为两大类:宽度优先搜索和深度优先 搜索。具体到语音识别中的搜索,时间异步的堆栈搜索【2 8 。2 9 ,3 0 】和彳搜索【3 l ,3 2 】 是常用的深度优先搜索策略,典型代表有m i t 的l i n c o n 实验室和i b m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 紧急医学救援基地项目建设工程方案
- 2025年智慧城市垃圾分类处理与新能源互补发展报告
- 全真模拟乐理试题及答案
- 金融行业反欺诈大数据在金融风控中的应用与优化报告
- 亲子野炊咨询活动方案
- 配管专业面试题及答案
- DB65T 4398-2021 棉花耐盐防病促生菌种衣剂和滴灌肥料施用技术规程
- DB65T 4383-2021 春播玉米减肥减药技术规程
- 英语语法大赛真题及答案
- DB65T 4335-2020 伊犁马饲养管理技术规范
- 2025-2026学年人教鄂教版(2024)小学科学三年级上册(全册)教学设计(附目录P137)
- 2025-2030中国家政服务业社区化发展与本地化服务模式探讨
- 2025年翼状胬肉试题及答案
- 2025年暗挖隧道坍塌应急救援演练脚本(2篇)
- 2025年Q2起重机司机模拟考试题库(附答案)
- 道路绿化监理规划方案(3篇)
- 2024年四川安吉物流集团有限公司招聘真题
- 沥青混凝土供货方案及保障措施
- (高清版)T∕CES 243-2023 《构网型储能系统并网技术规范》
- 注册城乡规划师之城乡规划原理题库及答案(押题版)
- 村两委会议制度管理制度
评论
0/150
提交评论