




已阅读5页,还剩92页未读, 继续免费阅读
(模式识别与智能系统专业论文)电话语音识别鲁棒性研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电话语音识别鲁棒性研究 独创性声明 本人声明所提交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中爿i 包含其 他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确地说明并表示了谢意。 签名:日期: 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定, 即:中国科学院自动化研究所有权保留送交论文的复印件,允许论文被查阅和 借阅:可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段 保存论文。 ( 保密的论文在解密后应遵守此规定) 签名师签名 日期: 笫3 页 电话语音识别鲁棒性研究 摘要 电话足最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域。 语音识别是基于电话平台的语音应用的一项核心技术。目前在实验室条件下表 现出色的语音识别系统在实际电话网络应用中都变十分脆弱。提高电话语音识 别鲁棒性是实现其商用化的关键问题。本文针对汉语电话语音识别应用中的技 术难点,在以下几个方面做了深入研究和有效改进。 汉语是一种典型的声调语言,声调信息对汉语语音识别有重要作用。然而 由于电话通道的调制作用,通常的基频提取算法在电话通道上有较大误差,直 接影响语音的识别率。我们采用改进的无偏自相关分析方法,提出自相关强度 与清浊音统计判决相结合的基频跟踪方法,使清浊音误判率1 :降到原有自相 关方法的2 4 。准确可靠的基频特征使电话语音孤立词的误识率相对下降6 5 。 鲁棒的前端特征是高性能语音识别的前提。由于目前对语言的发音和感知 机理缺乏深入认识,还没有与噪声通道无关的语音特征表示。系统的训练和测 试通道不一致时,必须对语音特征进行补偿。由于电话通道内存在众多不确定 因素,通常的倒谱均值估计和倒谱滤波方法都不能取得理想效果。我们提出准 线性通道分析模型,利用语音统计模型和最大似然估计方法估算通道偏置。在 汉语大词汇量连续电话语音识别测试中使字误识率相对降低2 0 。为解决快速 补偿中出现的数据稀疏问题,引入音素相关的通道先验知识,利用最大后验估 计方法估算通道偏置,使相对误识率迸一步下降7 。与其它补偿方法不同,这 两种新算法不但对固定电话通道有效,对非线性的无线压缩电话通道也有作用。 针刘特定应用的声学自适应是语音识别应用系统的重要组成。在级联线性 变换自适应方法的基础上,我们提出一种新的全矩阵线性变换参数化简形式。 新方法在保持全矩阵变换精度优势的同时能有效减少重估参数的数目,提高估 值的鲁棒性。这使我们可以在更小的回归类上进行变换估计,提高了自适应精 度。新方法在不同数据规模的自适应测试中都优于原有基于变换的自适应方法。 最后讨论在自然连续语流识别中对背景噪声和集外词的拒识机制及在电话 语音识别平台中的实现。实现了基于噪声模型和汉语音节补白模型的并行搜索 拒识方法,并利用这种方法有效地进行连续语流中的关键词检测。 关键词:基频提取、电话通道补偿、级联线性变换自适应、集外词拒识 帮4 电话语音识别鲁棒性研究 a b s t r a c t s i n c et e l e p h o n ei st h eo n l yu b i q u i t o u sc o m m u n i c a t i o n st e r m i n a ld e v i c ei nc u r r e n t w o r l d i ti st h el a r g e s tp o t e n t i a la p p l i c a t i o nf i e l df o rs p e e c ht e c h n i q u e s a u t o m a t i c s p e e c hr e c o g n i t i o nf a s r i s ac o r e t e c h n i q u e f o rs u c h t e l e p h o n e - b a s e ds p e e c h a p p l i c a t i o n s h o w e v e r , i th a sb e e np r o v e dt h a tap e r f e c tl a b o r a t o r ya s rs y s t e mm a y b e c o m ev e r yv u l n e r a b l ei nr e a lt e l e p h o n ye n v i r o n m e n t a n dt h er o b u s t n e s si st h e l i f e a n d d e a t hi s s u ef o rs u c hc o r n m e r c i a la s r s y s t e m s i nt h i ss t u d y , w ep r e s e n to u r r e c e n tp r o g r e s s e so ni m p r o v i n gt h ep e r f o f i n a n c ef o rm a n d a r i nt e l e p h o n ya s r c h i n e s ei sa t o n a l l a n g u a g ea n d t h et o n ei n f o r m a t i o ni si m p o r t a n tf o rm a n d a r i na s r h o w e v e r t h ef i l t e r i n ge f f b c to ft e l e p h o n ec h a n n e l sc a u s e se r r o ri n c r e a s ew h e nw e a p p l yt r a d i t i o n a lp i t c he x t r a c t i o nm e t h o d s t ot e l e p h o n ys p e e c h t h i si sah i n d r a n c et o h i 曲p e r f o r m a n c ea s r w ea d o p ta ni m p r o v e da n t i b i a s a u t o c o r r e l a t i o nf u n c t i o n f a c f la n di n t e g r a t et h ea c f i n t e n s i t yw i t hs t a t i s t i cv o i c e u n v o i c e ( v u ) d e c i s i o ni n p i t c hp a t ht r a c k i n g t h i sm a k e s t h ev ue r r o rd e c r e a s e dt o2 4 o ft r a d i t i o n a lm e t h o d t l ew o r de r r o rr a t e ( w e i n r e l a t i v e l yd e c r e a s e s6 5 i ni s o l a t e dw o r dr e c o g n i t i o n r o b u s ts p e e c hf e a t u r ei s 血ep r e m i s ef o rh i g hp e r f o r m a n c ea s r h o w e v e r , o u r l i m i t e dk n o w l e d g eo f s p e e c hp r o d u c t i o na n dp e r c e p t i o np r e v e n t su sf r o mo b t a i n i n ga f e a t u r es e tt h a th a sn or e l a t i o n sw i t hc h a n n e lc o n d i t i o n s s oc o m p e n s a t i o ni se s s e n f i a l i fc h a n n e lm i s m a t c he x i s t sb e t w e e nt r a i n i n ga n dt e s t i n gs t a g e c h a n n e lc o m p e n s a t i o n c a nb ep a r t i c u l a r l yd i m c u l ti na p p l i c a t i o n sw h e r en o n l i n e a rd i s t o r t i o ne x i s t s s i m p l e c e p s t r a lm e a n e s t i m a t e sa n dc e p s t r a lf i l t e r i n gm e t h o d sa r eu n r e l i a b l e t oa d d r e s st h i s p r o b l e m aq u a s i 1 i n e a rc h a n n e lm o d e li sc o n s t r u c t e d w i t ht h ep u r es p e e c h s t a t i s t i c k n o w l e d g e ,w ep r o p o s eam a x i m u m 1 i k e l i h o o dc h a n n e le s t i m a t i o nm e t h o d ,w h i c h m a k e st h ec h a r a c t e re r r o rr a t e ( c e r ) r e l a t i v e l yd e c r e a s e2 0 i nt e l e p h o n yl a r g e v o c a b u l a r ym a n d a r i na s r t os o l v et h e d a t a s p a r s i n gp r o b l e mo c c u r s i nf a s t c o m p e n s a t i o n ,w ee x t e n dt h ep r e v i o u sm e t h o db vi n t r o d u c i n gap h o n e c o n d i t i o n e d p r i o rc h a n n e id i s t r i b u t i o na n d u s eb a y e s i a nt e c h n i q u e sf o re s t i m a t i o n ,w h i c hp r o v i d e s a d d i t i o n a l7 r e l a t i v ec e rd e c r e a s e d i 虢r e n tw i t hp r e v i o u sm e t h o d s t h eh o v e l a l g o r i t t u nw o r k sw e l lf o rb o t hf i x e d 1 i n ec h a n n e l sa n dc o m p r e s s e d w i r e l e s sc h a n n e l s a c o u s t i ca d a p t a t i o ni sa ne s s e n t i a lp a r tf o rt h es t a t e - o f - t h e a na s r s y s t e m b a s e d o n c a s c a d e dl i n e a rt r a n s f o r ma d a p t a t i o n w ep r o p o s ean o v e lp a r a m e t e r i z a t i o nt y p e i t c o u l de f f e c t i v e l yd e c r e a s et h et r a n s f o r n lp a r a m e t e ru u m b e rw i t ht h eh i g hp r e c i s i o n a d v a n t a g eo ff u l lm a t r i xm a i n t a i n e d w h i c hm e a n sam o r er o b u s te s t i m a t i o n f u l i t r a n s f o r i l lc o u l db ec o n s t r u c t e du p o ns m a l l e rr e g r e s s i o nc l a s sa n dh i g h c rr e s o l u t i o ni s a c h i e v e d i to u t p e r f o r m sp r e v i o u sc a s c a d em e t h o dw i t hv a r y i n ga m o u n t so f d a t a f i n a l l yw ed i s c u s st h es t r a t e g i e so fn o i s er e j e c t i o na n do u t - o f - v o c a b u l a r y ( o o v ) r e1w e 一 1jection f o rc o n t i n o u sn a t u r a s p e e c hi n p u t u s es y l l a b l eb a s e df i l l e rm o d ea n d p a r a l l e is e a r c h i n gm e t h o d t oc o n s t r u c tar e a lk e y w o r d s p o t t i n gs y s t e m k e yw o r d s :p i t c he x t r a c t i o n ,c h a n n e lc o m p e n s a t i o n ,c a s e a d e da d a p t a t i o n ,o o v 第5 负 电话语音识别鲁棒性研究 第一章引言 上个世纪最具革命性的信息技术之一是公用电话网络的出现,它极大地改 变了人们的信息交流方式。而战后计算机以及互联网络的出现又从根本上改变 了我们获取信息和从事商业活动的模式。从e 世纪末开始发展成型的新一代信 息网络融合了话音功能和数据功能,实现了数话业务合一。从技术上,人们已 经可以在全球的任何时间、任何地点通过个人信息终端设备访问任何网络信息 服务。进入新世纪以后,随着社会的信息化,人们对网络信息的依赖程度日益 增加。然而随着网络规模的不断扩大,各种网络信息浩如烟海,如何能便捷有 效地访问网络信息资源目益成为人们关心的问题。因此各国政府和企业界都开 始加快各种先进信息处理技术的发展和实用化步伐,希望能够充分利用目前已 经广泛普及网络架构来为终端用户提供更廉价、高效、智能化的增值服务。 无论从技术的角度还是从服务的角度,这都是一场革命性的变革。变革的 实质并非来自于更先进的、运算功能更强大的终端设备。由于在电信网络的投 资比例中,用户端设备和线路投资占据整个网络投资的百分之七十以上,所以 目前情况下,为保护发展过程中在用户端积累的巨大投入,不需要在短期内对 用户终端设备进行大规模升级换代。如何充分利用现有的用户终端( 固定座机 电话、个人移动电话、个人电脑终端等) ,为用户提供更高性价比的服务,才是 电信服务商目前所关心的核心问题:利用网络中丰富的计算资源和强大的传送 功能,将最先进的信息技术服务送达终端用户,提供更加人性化的信息服务。 语言是在人类社会发展演变过程中逐步形成的一利,信息交流方式,它在使用 的便捷性、受众的广泛性以及被认可程度上具有其它交流方式所无法替代的优 势。因此,与语言紧密相关的各种语音处理技术自然成为这场变革的核心技术 之一。目前即使是在信息技术发达国家,能够熟练使用计算机获取信息的人们 与社会人口总数相比也是少数。而另一方面,越来越多的人们已经拥有了固定 筑9 艇 电话语音识别鲁棒性研究 电话和手持移动电话。如能借助于先进的语音技术,可以使人们通过普通电话 就可以访问网络信息资源,这将大大提升电信服务的层次。有愈来愈多的业界 人士认为。不论是在移动应用还是在桌面应用中,语音都是向终端用户提供智 能服务的合适载体。 网络语音服务结构如图卜l 所示。语音服务器是实现语音识别、语音合成、 语言理解、对话管理等功能的核心模块。系统以语音做为主要的交互方式,可 以方便地实现语音上网,综合信息查询等功能。 图i - i 、网络语音服务系统 这种客户端一服务器 ( c s ) 模式的语音服务 系统能够解决目前对语 音应用的基本需求。但 c s 结构应用本身也始终 存在着网络瓶颈的问题。 近几年来,随着新型高性 能计算终端的出现,使过 去几乎只能在服务器上 实现的语音信息计算工 作在有限任务条件下可以转移到终端完成。各种嵌入式的语音应用也相继出现。 很多在服务器应用是发展起来的技术也逐渐渗透到嵌入式系统中。但总的来说, 目前的嵌入式系统成本仍然较高,难为大众广泛接受。 图i 1 系统中作为语言理解、对话管理等高级功能实现前提的电话语音识别 技术日前还只能应用于很有限的领域内,且多数系统的性能并不能令人满意。 虽然语音识别技术在实验室的桌面系统上现已经达到很好的性能,但基于电话 的语音识别应用与实验室系统相比还存在明显差距。电话语音识别技术成为限 制语音应用服务层次提升的瓶颈。我们的研究课题是提高语音识别系统在基于 电话的实际应用中的鲁棒性( r o b u s t n e s s ) 。 第1 0 负 电话语音识别鲁棒一l 生研究 1 1 语音识别系统的基本构成 图1 2 所示是电话语音识别系统的基本功能模块描述。与语音识别的桌面应 用系统相比,由于电话网络通道的频带限制,需要采用更有效的特征提取技术: 由于电话应用环境及网络通道的多变性,需要采用更可靠的降噪技术和通道补 偿技术;由于存在讲话人的不确定性,需要采用在线声学自适应技术。此外, 根据任务的复杂性,还要求系统有背景噪声及集外词具备一定的拒识功能。 盒瓢甄1 语音采集l 。! 二三二】 1 1 1 特征提取 图l 一2 电话语音系统功能模块 由于语音信号的采样信息中含有大量的冗余,不可能也没有必要直接用于 识别模块的输入。特征提取模块的目地是将语音的时域采样信号转换到某一个 变换域,在这个变换域中,大量的冗余信息将被去除,只有最能代表语音信息 的成分被保留用于语音识别。 经过大量的生理、心理学领域对人类发音机制的研究,人们已经发现语音 是由肺部发出的气流冲激由喉管、口腔、鼻腔等器官共同组成的声道产生的。 通过相关肌肉带动声道形状的连续变化,使声道的谐振频率发生连续变化,使 人类能够发出不同的声音。这一点表现在信号的短时分析上,就是语音短时频 谱包络( 也称之为共振峰结构 的连续变化。因此,语音短时谱分析的共振峰 结构最能代表人类发音的共性特点,最适合用做语音识别的特征参量。 第l l 受 电话语音识别鲁棒性研究 由于语音信号频谱的谱间相关性的存在,使语音的短时分析在倒谱域具有 快速衰减的特点。而截短的低维倒谱分量可以很好地重构平滑的语音信号谱包 络。因此,目前世界上先进的语音识别系统都采用各种截短的侧谱分量做为语 音特征矢量。常见的有l p c 倒谱、f f t 倒谱、m e l 倒谱、p l p 倒谱等。 在我们的研究系统中,采用m e l 倒谱做为语音信号特征矢量。对一段语音 信号的m e l 倒谱短时分析过程如图1 3 所示。 语音信号采样 川l n l i l i i l i l”“”唧 匹蓼,一 p j l 。,乞k 配置 j l 。 = 碴壅蔓二j 图卜3 语音信号特征分析流程 语音信号在2 0 3 0 m s 的短时窗内可以近似为稳态信号。m e l 刻度滤波器的 设置方法来源于对人耳频率感知特性的研究:在1 ,0 0 0 h z 以下的低频段中,相同 形状的三角滤波器在线性频率上等间距设置;在4 ,0 0 0 h z 以上的话带频段,若干 个对称三角滤波器在对数频率刻度上等间距设置。m e l 滤波器组的输出经过对 数函数的平滑处理后做d c t 变换得到截短的倒谱矢量: 一i c 0 ) = f ( i ) c o s ( 2 n i k n + o 5 ) w h e r e ( o ,m ) ( 1 - 1 ) 电话语音识别鲁棒性研究 其r 1 1j v 为m e l 滤波器的数目;m 为截短倒谱矢量的维数;厂( f ) 为第i 个 m e l 滤波器输出的对数值:c 似) 的输出的第k 维倒谱。从严格的意义上蜕,d c t 的输出并不是真正的倒谱矢量。但d c t 变换保留了倒谱变换的两个重要性质: 1 ) 、数据压缩。由于m e l 滤波器组输出的对数功率谱相对平滑,通常在数值 l m 远小于;2 ) 、去相关。d c t 变换的输出近似不相关,可以假设其各维之 间相互独立。这为后续的模式匹配过程带来很多方便,可以大大简化训练和识 别过程中的矢量运算。 先前的研究证明,在连续无交迭的相邻帧之间的倒谱矢量的差分信息对于 提高识别率是有贡献的。与此相似,帧问对数能量的差分信息对系统识别率也 有一定贡献【1 8 】。在我们的系统中,前端信号分析得到的特征矢量包括: c o ,c 1 ,c 。,a c o ,a c l ,c ,a a c 。,a a c ,一,a a c m ,a l o g ( e ) , a a l o g 陋) 】 1 1 2 声学模型 声学建模单元 通常采用的语音识别的建模单元有单词( 短句) 、音节和音素三种,具体选 择哪一种,由具体的应用任务决定。 单词( 短句) 单元广泛应用于中小词汇语音识别系统,但不适合大词汇系 统。由于模型数目过于庞大,训练过程繁杂,同时造成解码算法复杂度增加, 不能满足实时应用任务的要求。 由于汉语发音的基本单位是音节,音节建模是汉语语音识别可行的一种建 模方法。汉语有约1 3 0 0 个带声调音节。但若不考虑声调,约有4 1 2 个无调音节, 数量相对较少。 音素建模是英语语音识别的主要方法,但目前在汉语语音识别中也被越来 越多地采用。所有汉语音节均由一个声母( 共有2 3 个声母) 和一个韵母( 共有 第1 3 顶 电话语音识别鲁棒性研究 3 7 个韵母) 构成。这种方法的基本建模单元最少,系统灵活。可以根据基本建 模单元和左右语境的关系建立上下文相关的模型。这样以适当增加模型数目为 代价,大大提高了模型的区分能力。我们在研究中采用上下文相关的三音素建 模单元。 声学建模方法 对语音信号的建模方法,前人已经做了很多研究。曾先后出现了动态时间 归正( d t w ) 模型、隐马尔可夫模型( h m m ) 和混合人工神经元网络一隐马尔 可夫模型( a n n 。h m m ) 模型。一个好的语音模型必须能够较好地描述语音音 素单元的两种不确定性: 1 、时长不确定性相同音素发音的持续时间通常不一样。这一方面是由于讲 话速率的变化引起,另一方面也说明人类的发音系统本身存在不确定性。 2 、声学不确定性同一音素的特征参数矢量是随时间变化的,并且不同话者 或通过不同采集通道得到的同一音索的特征参数序列是不同的。 d t w 是较早的一种语音建模技术,它应用动态规划方法成功解决了模式匹 配中语音信号特征矢量序列时长变化的问题,在孤立词语音识别中有成功应用。 但因不适合傲连续大词汇量语音识别,目前已逐渐被取代。 到目前为止,隐马尔可夫模型仍然是语音统计建模的主流技术。它的拓朴 结构如图1 - 4 所示。它由相互关联的两个随机过程共同描述语音信号的统计特 图1 - 4 h m m 模型拓朴结构 性,其中一个是隐蔽的( 不可观测的) 具有有限状态的马尔可夫链,另一个是 与马尔可夫链的各个状态相关联的观测矢量的随机过程( 可观测的) 。隐蔽马尔 第1 4 页 电话语音识别鲁棒性研究 可大链的状态转移要由观测到的特征矢量序列揭示。这样的模型结构能较好地 描述语音信号短时稳定、长时缓变的统计特性。同时有效地解决了语音识别中 的时间对齐问题。 h m m 模型参数包括拓扑结构、状态转移概率及描述观察矢量统计分布晌一 组概率密度函数。按其所采用的概率密度函数,h m m 模型可分为离散隐马尔n r 夫模型( d d h m m ) 和连续隐马尔可夫模型( c d h m m ) 以及半连续隐马尔可夫 模型( s c d h m m ) 。在训练数据足够多时,c d h m m 优于d d h m m 和s c d h m m 。 我们采用连续隐马尔可夫模型进行声学建模。 声学模型中的参数共享 为提高声学模型的区分能力,先进的语音识别技术均采用上下文相关的建 模方式,如两音子、三音子、五音子建模等。这样将导致模型的数目呈j l 何级 数的方式倍增。以汉语声韵母的三音子建模为例,设音素表中共包括 p = 0 + 耳+ l 无调的音素符号,其中声母的数目为鼻韵母的数目为纬,外加 + 个音节间停顿符号。考虑到汉语单音节的声韵母构成,那么一共有 ( 0 + 1 ) b 耳+ 尸,斥x ( 只+ 1 ) + 僻+ 1 ) + 1 ) 个左右语境相关的三音子模 型。如果考虑到韵母的四声发音,采用带调韵母的符号表,则更将使模型的总 数达到( 4 xp f + 1 ) 只( 4 p f ) + 只( 4 b ) + 1 ) + “只+ 1 ) ( b + 1 ) 。即便 考虑汉语普通话的声韵母音节构成有束约关系,即并非所有的声韵母都可以构 成音节,但总的模型数目将仍然十分可观。这一方面增加了模式匹配的运算量, 另一方面也不可能有足够的语料使所有的模型参数都得到充分训练。因此,必 须按一定策略对声学空间中相近分布的模型参数进行合并。 出数据驱动的决策树分类算法可以有效地解决了声学模型中的参数共享问 题 1 。我们在h m m 模型状态输出一级采用自上而下的决策树分裂算法来完成模 型参数的合并。可以根据训练数据的多少动态地调整模型的复杂度,在保持模 第l5 撕 电话语音识别鲁棒性研究 型的声学分辨能力的前提下,有效地减少模型的数目。 共享参数有多种策略。图1 - 4 中给出了三种参数共享系统。图1 - 4 ( a ) 所示 是高斯共享系统。在这一系统中,同一音素产生的所有音变模型的对应状态输 出共享一组高斯分布函数。所有音变模型的区别在于混合高斯的加权系数不一 a ) 高斯共享系统 ( b ) 状态聚类系统 ( b ) 状态聚类一高斯共享系统 陶1 4 声学模型参数共享方式 样。图1 4 ( b ) 所示为状 态聚类系统。在这个系统 中,对各音变模型的状态 输出分布进行聚类合并。 而每个聚类状态有独立 的一组高斯分布函数和高 斯加权系数。图1 - 4 ( c ) 所示为状态聚类高斯共享 系统。与高斯共享系统一 样,所有音变模型的对应 输出共享一组高斯分布函 数。而通过对状态的聚类, 进一步减少了高斯加权系 数。这三种参数共享机制 相比,状态聚类一高斯共享 系统的参数数目最少,参 数共享程度最高。状态聚 类系统的共享程度最低, 参数最多。考虑到目前我 们拥有足够的训练语料为在模型的区分能力和模型参数规模之间保持一个较 好的折衷,我们采用图1 - 4 ( b ) 所示的状态聚类系统 7 】。 黜墨 m w 针叫 嗡。堞0卢| 唧撼幽_业 旧 _ 一 ) 。一镰, 娃盏 螂节阜纛 替i芝1)。 。心丫心s 电话语音识别鲁棒性研究 声学模型训练方法 同前在大词汇量语音识别系统的声学模型训练中均采用多步迭代优化训练 算法。主要的模型训练方法有最大似然( m a x i m u ml i k e l i h o o d ) 训练【8 】、最小错 误率( m i n i m u mc l a s s i f i c a t i o ne r r o r ,m c e ) 训练【9 、最大互信息量( m a x i m u m m u t u a li n f o r m a t i o n ,m m i ) 训练u 0 等。 设训练数据的样本序列为o = 0 ,) r = 1 ,r 及其对应的脚本序列 w = w r ,= l ,r ,声学模型为a : 最大似然目标函数:l m l ( 0 ,a ) - - p ( oia ,w ) a m l = a r gm a x 三m ( o ,a ) a 最大似然训练是大词汇量系统模型训练广泛采用的方法,有成熟的参数估 计算法e m ( e x p e c t a t i o n - m a x i m i z a t i o n ) 算法保证参数估值的局部最优 8 】。 在训练数据量足够大时,区分训练过程冗长而效果并不明显,所以我们采用最 大似然估计算法作为声学模型的训练算法 训练数据 目前实验室可用于汉语声学模型训练的大规模汉语语音库主要包括8 6 3 语 音库、b j 语音库、i n t e l 语音库,这几个库的主要统计信息如表1 1 所示。 表1 1 听写机声学模型训练用语音库统计信息 库名音库说明男声数据 女声数据 大陆地区无明显口音普通话。高保真定向共8 7 人共8 5 人 8 6 3 语音库 话筒采集。1 6 k h z 采样,1 6 比特线性编码。共5 3 小时录音数据共5 5 小时录音数据 北京地区口音普通瑶。高保真定向话筒采共1 5 0 人共1 5 0 人 b j 语音库 集。1 6 k h z 采样,1 6 比特线性编码。共2 9 小时录音数据 共3 0 小时录音数据 i n t e 语爵库北京地区u 音普通话。普通p c 话筒采集。共1 1 6 人共1 2 0 人 ( 北京) 1 6 k h z 采样1 6 比特线性编码。共4 9 小时录音数据共4 6 小时录音数据 i n t e l 语音库成都地区u 音普通话。普通p c 话筒采集。共6 4 人 共6 5 人 ( 成都)1 6 k t t z 采样1 6 比特线性编码。 共2 5 小时录音数据共2 5 小时录音数据 l n l e l 语音库广州地区口音普通话。普通p c 话筒采集。共1 3 2 人共1 2 3 人 ( 广州)1 6 k h z 采样,1 6 比特线性编码。共5 i 小时录音数据拭5 0 小时录奇数掘 鹅1 7 娃 电话语音识别鲁棒性研究 i n t e l 语音库哈尔滨地区u 音普通话。普通p c 话筒采共i3 2 人共i3 2 人 ( 哈尔滨)集。1 6 k h z 采样,1 6 比特编码。共5 l 小时录音数据共5 i 小时录音数据 i n t e l 语音库上海地区门音普通话。普通p c 话筒采集。共1 1 6 人共1 1 5 人 ( i 海)1 6 k h z 采样1 6t e 特线性编码。共4 9 小时录音数据共4 3 小时录音数据 i n t e l 语音j 车武汉地区口音普通话。普通p c 话筒采集。共6 4 人共6 4 人 ( 武汉)1 6 k h z 采样,1 6 比特线住编码。共2 6 小时录音数据共2 4 小时录音数据 训练数据在地区分布、男女声分布以及脚本内容的音节分布上基本均衡, 所以声学模型的训练是可靠的。 理论巴,为使训练环境与测试环境尽量匹配,应该采用真实电话数据来进 行系统声学建模。但由于现阶段并没有真实电话通道声学训练数据。为解决这 一问题,我们表1 1 中所列的昕写机训练用语音数据( 1 6 k h z 采样,1 6 b i t 量化) 进行处理,生成三组仿真电话语音数据用于声学训练: ( 1 )仿真训练集1 :将语音数据降采样到8 k h z ,并采用律压缩编码; ( 2 )仿真训练集2 :将语音信号经过g s m 全速率声码器( g s mf r0 6 1 0 ) 编 解码处理一次( 不加信道误码) ,仿真无线话音通道; ( 3 ) 仿真训练集3 :语音信号经过电话卡馈入p s t n 市话网,收端重新采集 实验室真实电话语音数据库如表1 - 2 所示。 表l 一2 真实电话语音库统计信息 库名音库说明男女声数据 l d c 普通话电话语音库,真实国际电话线男女声混含,包括1 2 0 段取通道的电话对话 c a i 。l h o m e 路。8 k h z 采样,8 b i t s t t 律量化。语流,每段长约3 0 分钟 l d c 普通话电话语音库。其实国际电话男女声混合包括4 2 段双通道的电话封话 1 1 u b 5 线路。8 k h z 采样,8 b i l sl i 律量化。语流每段长约3 0 分钟 在统计语音识别方法中,训练数据量的规模十分重要。很多方法在小数据 量上十分有效,但当数据量增加时便没有明显意义。表1 ,3 是不同训练数据量对 识别性能影响的一个测试结果。只有在训练数据量达到一定规模时,系统性能 才趋于稳定。在本文的研究中,我们始终坚持足够大的训练数据量( 1 0 0 小时以 上的训练数据) ,以保证实验结果的可靠性。 第1 8 呱 电话语音识别鲁棒性研究 表i 3 训练数据规模对系统性能的影响 8 6 3 t e l ,+ 8 6 3 g s m + c8 6 3i e l + 8 6 3 g s m 训练集 8 6 3 p s i n$ 6 3 p s t w + 8 6 3 g s m a i ,l i o m ec a l l i i o m e 4 h u b 5 l 误识率 1 33 881 372 l72 0 1 1 3 搜索算法 连续语音识别中的搜索,就是将输入语音信号解码成对应的声学模型序列, 进而得到词解码序列的过程。在基于统计模式识别的语音识别系统中,最小错 误率判决等效于最大后验概率( m a p ) 判决 1 。按最大似然准则寻找词解码序 列的过程可表示为: 妒= a r gm a x 户舻】4 ) = a r gm a xp ( a 1 w ) p 缈) 尸0 ) ( 1 - 2 ) = a r gm p ( a 1 w ) p 妒) 其中是搜索空间中所有可能出现的词序列。彳是输入语音的观测序列。矽 是解码词序列。 基于动态规划的v i t e r b i 算法是目前实用的语音识别系统的基本搜索策略。 v i t e r b i 算法在不丢失全程最优解的条件下,在一遍搜索中同时解决了连续语音 识别中h m m 模型状态序列与声学观察序列的非线性时间对准,词边界检测和 词的识别。由于v i t e r b i 算法中的路径扩展具有时间同步性,同一时刻的各条路 径扩展对应于完全相同的观察序列,因而其似然度得分具有可比性。v i t e r b i b e a m 搜索算法在每一时刻有效地裁减低得分路径,大大提高了搜索效率。 在我们的研究工作中,针对不同的任务目标,搜索引擎可以分成两种工作 模式: 1 、有限状态语法网络引导的搜索引擎 这种引擎多见于商用语音识别系统中。现有的语音识别技术,不论在识别速 电话语音识别鲁棒性研究 度和准确率方面都还无法与人类的语言接受能力做比较。但在些特定的应 用场合中,当所要求的背景知识和语言的表达方式都受限制的条件下,目前 最好的语音识别技术已经可以很好地为我们服务。票务系统的语音查询是一 个典型的例子。可以根据特定的应用需要枚举出所有可能对话的语法和规则 表示。将这些语法规则通过解析生成有限词汇的跳转网络,再借助于发音词 典再将词网络转换成最终搜索空间的声学模型有限状态网络。 2 、统汁语言模型引导的搜索引擎 在某些情况下,难以对系统的应用领域做出限制,目标任务的词汇量也较大, 这时我们采用基于统计语音模型的搜索引擎。 1 2 语音识别系统在电话应用中的几个问题 当我们将以听写机技术为基础发展而来的实验室优秀的语音识别系统从基 于高质量麦克风的桌面应用移植到基于电话网络的应用时遇到了很多困难。这 使基于电话终端的语音识别任务成为一个非常具有挑战性的课题。由于通信技 术的发展演变,电话网络本身处在不断的变化之中,存在众多不确定因素;而 电话使用的便利性及用户的广泛性在大大推动了通信技术发展的同时也为语音 识别带来了一些前所未有的困难。 基于电话的语音识别系统面临两个主要的挑战:其是话机拾音设备及电 话线路网络的复杂性所造成的训练集与测试集语音数据的失配:其二是电话作 为一种已经广泛普通的通信终端,用户群庞大,话者口音、发音方式千变万化 ( i n t r a s p e a k e rv a r i a b i l i t y ) ,无法做出限定。 1 2 1 语音通道的多变性 经过一个世纪的发展,电话网络是全球最庞大的网络资源。从传输媒质上 可以分为有线网络和无线网络;使用方式上可以分为固定电话网络和移动电话 第2 0 页 电话语音识别鲁棒性研究 网络;从功能结构上可以划分为接入刚络和传送网络:从传输信号类型上可以 分为模拟电话网络和数字电话网络;从覆盖范围可以分为市话网络和长话网络: 从管理体制上可以分为公用网络和专用网络。任何一次电话呼叫的接续过程都 有可能利用不同网络的传输资源,经过不同信号体系之间的变换过程。不同线 路环境的频率响应、信号的变换过程以及不同用户话机的电特性都是引起电话 语音畸变的重要原因。 通道晌应的多变性 在目前的固定电话网络中,主干长途线路及市话局之间均已实现数字化, 数字通道对传输话音音质的影响不大。而从用户话机到所属市话分局的用户环 路则绝大多数均是模拟线路,这一段线路的通带均在4 k h z 以下( 一般为 0 3 3 4 k h z ) ,通带内并不平坦。且带内衰减随用户线距离变化,对语音的影晌 较大。用户线目前多数采用铜线,也有使用铝线、铁线的,性能更差。而铜线 用户线路中,按芯径不同,我国目前使用的有o 4 m m 、o 5 m m 、o 6 r a m 、o 8 m m 等,美国使用的有2 4 号线规、2 6 号线规等等,频响差别很大。加上线路中各种 桥接头的影响、交换机中用户接口板的性能等因素,通道响应十分复杂。用户一 线网络投资巨大( 占整个通信网投资的三分之一) ,规模庞大,维护困难,更新 周期长,很多线路年久失修,性能劣化,易受外界干挠。每一次电话接续都有 可能调用不同的网络资源,因此每一次通话过程中的通道响应都各不相同。 在移动电话网络中,目前使用的都是第二代以后的移动通信系统,在无线 通道上传送的是经过非线性压缩编码后的数字语音。由于无线通道本身的不稳 定性而带来的数据丢失和误码也会严重影响到话音的质量。 编码方式的多变性 在目前的公用固定电话网络中,绝大多数交换机均已实现了数字化。所以 任何一次电话通话过程中,话音信号至少要经过一次编码解码的过程。目莳在 固定电话网络中常用的语音编码算法如表1 4 所示。 鸽2 1 虹 电话语音识别鲁棒性研究 表1 4 固定电话网中的语音信号编码标准算法 标准算法名称速率编码类型网络 i t u tp u l s ec o d em o d u l a t i o n ( p c m ) 6 4 k b p s 波形编码 市话公嘲 g 7 1 1 a l a w , u - l a w睦话公网 i t u - ts u b b a n da d a p t i v ed i f f e r e n t i a lp u l s e 波形跟踪 g 7 2 2c o d em o d u l a l i o n ( s b - a d p c m ) 4 8 5 6 1 6 4 k b p s 长话公网 编码 1 t u t a l g e b r a i c c o d e b o o ke x c i t e d g 7 2 3l i n e a rp r e d i c t i o n ( a c e l p ) 5 3 6 3 k b p s 参数编码i p 电话 i t u t a d a p t i v ed i f f e r e n t i a lp u l s ec o d e 波形跟踪市话公嘲 m o d u l a t i o nf a d p c m ) 1 6 2 4 3 2 4 0 k b p s g 7 2 6编码长话公网 a - l a w u - l a w ,l i n e a r i t u t c o n j u g a t e s t r u c t u r e a l g e b r a i c 长话公网 c o d e b o o ke x c i t e dl i n e a r 8 k b p s 参数编码 g 7 2 9卫星电路 p r e d i c t i o n ( c s - a c e l p ) 在移动电话网中,由于无线频率资源有限,均采用语音压缩技术,其中大 多数是有损压缩技术。目前常用的语音压缩编码算法如表1 5 所示。 表1 5 无线电话网中的语音信号编码标准算法 标准算法名称编码速率网络使用地区 e t s i g s m r e g u l a r p u l s ee x i l a t i o n - l o n g 1 3 k b p s f u l lr a t e欧洲 0 61 0t e r m p r e d i c t i o n ,( r p e - l t p ) g s m中国 e t s i g s mv e c t o rs u me x c i t e dl i n e a rh a l f r a t e 0 6 0 6 p r e d i c t i o n ,( v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北海保安业务知识培训课件
- 麻风培训试题及答案
- 未来乡村面试题及答案
- 颅骨骨折试题及答案
- 清洁取暖面试题及答案
- 国际私法自考试题及答案
- 坦荡模型测试题及答案
- 绿色建设面试题及答案
- 低氧血症试题及答案
- 特种作业叉车考试试题及答案
- 记背手册02:北京高考古诗文背诵与默写篇目(打印版)-备战2025年高考语文一轮复习考点帮(北京专用)
- 2025年中医推拿人员劳动合同范文
- 2025年人力资源咨询服务合作协议书模板
- 医院感染知识岗前培训
- 《钳工基础培训》课件
- 高标准农田建设项目验收技术方案
- 《如何应对焦虑》课件
- 山东省《建筑施工现场安全管理资料规程》(DB375063-2016)
- 实验室生物安全案例分析
- (高清版)DB21∕T 3378-2021 辽宁省松材线虫病检验鉴定技术规程
- 幼儿园厨房安全
评论
0/150
提交评论