




已阅读5页,还剩113页未读, 继续免费阅读
(模式识别与智能系统专业论文)噪声环境下的鲁棒语音识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 一一 摘要 随着语音识别技术日益成熟,语音识别系统开始步入实用,因而如何提高语音识别系 统在背景噪声环境下的性能成为识别系统走向实用的关键问题之一 本论文在总结和分析现有的针对噪声鲁棒识别问题的算法韵基础之上,依据噪声在信 号、特征和模型空间对语音的影响在端点检测、语音增强、语音特征增强、语音模型补 偿和特征补偿的联合等方面做了大量的研究工作: 一端点检测在语音识别中有很重要的应用。本文对语音谱熵特征进行了深入的研 究,提出引入常数到其中的概率密度函数的计算形式中,得到改进的语音谱熵特征,并且 提出了相应的端点检测策略。改进的谱熵能够更容易地区分语音和噪声信号,而且,在不 同信噪比下引入不同的常数,使得改进的谱熵几乎不受信噪比变化的影响,从而门限更易 于设定和调节。大量实验表明该端点检测算法大大改善了基本的谱熵的性能,端点检测的 准确程度大大高于传统的基于能量的端点检测方法。 二语音增强算法可以有效提高语音的感知质量和可懂度。本文分析了基于a r - h m m 模型的最大后验估计算法在低信噪比下的缺陷提出结合码本限制的维纳滤波算 法,来限制原有算法中的混合维纳滤波器,使其满足以码本描述的某些声道谱的限制条 件。本文提出的算法框架在输出信噪比、感知质量等方面都取得了一定的提高。将该语音 增强算法作为语音识别器的前端处理,也可以提高语音识别系统性能。 三语音特征增强或补偿算法的目的是净化语音使其与训练环境匹配,从而提高识别 性能。本文假定由加性噪声引起的环境不匹配可以由功率谱域的加性偏差表示。由于偏差 和噪声功率谱之间的对应关系,本文提出在最大后验框架下,引入噪声先验知识到偏差的 估计过程中。而且由于大多数噪声是非平稳的,不仅需要最踪加性谱偏差的变化,还要 实时更新噪声的统计特性。因此。本文在最大后验框架下,利用基于k u l l b a c k - l e i b l e r 信息 度量的序赁估计技术自适应地估计谱偏差和更新噪声先验分布的参数,从而实现语音谱特 征的增强。初步的语音识别实验表明本文提出的算法优于序贯的最大似然估计方法,而且 在非平稳噪声环境下明显优于批处理的方法。 四语音模型补偿算法的目的是使得自适应之后的语音模型与训练环境相匹配。本文 为了提高系统在非平稳噪声环境下盼性能,综合乖j 用模型补偿方法和特征补偿方法各自的 优点,提出在这两个空间内联合补偿非平稳的噪声。本文将非平稳噪声分解为常量部分和 残留噪声部分。在识别之前,利用本文提出的改进的雅可比自适应算法来补偿常量部分的 噪声;在识别时,年u 用本文提出的残留噪声清除算法来消除残留噪声的影响。在平稳噪声 和非平稳噪声下的实验结果证明了改进的雅可比自适应算法优于原有的雅可比自适应算 法,而且在两个空间的联合补偿方法优于在单个空间的补偿。 关键词:噪声环境下的语音识别,端点检测- 语音增强,语音特征增强( 补偿) , 模型补偿 第i 页 一墨窒塑墨 一 一一一 一 a b s t t a c t a l o n gw i t ht h eg r e a tp r o g r e s sm a d ei nt h es t a t eo ft h ea r to fs p e e c hr e c o g - n i t i o nt e c h n o l o g y ,t h es p e e c hr e c o g n i t i o ns y s t e mi sd e p l o y e d i nc o m m e r c i a la p - d l i e a t i o nr e c e n t l y 0 n eo ft h em o s ti m p o r t a n tp r o b l e m si st oc o m p e n s a t e f o rt h e n e g a t i v ee f f e c t so fn o i s ei n t h ep e r f o r m a n c eo fa s ru n d e rn o i s ee n v i r o n m e n t s b a s e do nt h es u m m a r i z a t i o na n da n a l y s e so nk i n d so fa l g o r i t h m sf o rn o i s e r o b u s ta s r a n da c c o r d i n gt ot h ei n f l u e n c eo fn o i s eo ns p e e c hs i g n a l ,f e a t u r e a n dm o d e ls p a g e s ,it r i e dt oi n v e s t i g a t et h er e l a t i v er e s e a r c ho ne n d p o i n td e t e c t i o n ,s p e e c he n h a n c e m e n t ts p e e c hf e a t u r ee n h a n c e m e n t ,t h e c o m b i n a t i o no fm o d e l c o m p e n s a t i o na n d f e a t u r ec o m p e n s a t i o n e n d p o i n td e t e c t i o ni si m p o r t a n tf o ra s r b a s e d o nt h ed e e pi n v e s t i g a t i o n 0 ns p e e c hs p e c t r a le n t r o p y , ip r o p o s e dt oa l t e rt h es p e c t r a lp r o b a b i l i t yd e n s i t y f u n c t i o no fe n t r o p yb yt h ei n t r o d u c t i o no fap o s i t i v ec o n s t a n t ,a n de s t a b h s h e d t h ee n d p o i n td e t e c t i o ns t r a t e h ”y t h eo b t a i n e ds p e c t r a le n t r o p yi m p r o v e st h ed i s - c r i m i n a b i l i t yb e t w e e ns p e e c ha n d n o i s eg r e a t l y m o r e o v e r ,t h ee n h a n c e ds p e c t r a l e n t r o p yi sn o ta l m o s ts u b j e c tt ot h ec h a n g eo fs i g n a lt on o i s er a t i o ( s n r ) d u e t o t h ei n t r o d u c e dd i f i e r e n tc o n s t a n ta td i f i e r e n ts n r t h e nt h et h r e s h o l d sa l - ev e r y e a s yt os e ta n dt u n e i t ss u p e r i o r i t yo v e rb a s i cs p e c t r a le n t r o p ya n d c o n v e n t i o n a l e n e r g y - b a s e da p p r o a c hw a se v i d e n c e dh ym a n ye x p e r i m e n t s t h es p e e c hp e r c e i v e dq u a l i t ya n ds p e e c hi n t e l h g i b i l i t yc a nb ei m p r o v e db y s p e e c he n h a n e e m e n ta l g o r i t h m s b a s e do nt h ea n a l y s i so nt h ed e f i c i e n c yo ft h e m a x i m u map o s t e r i o r i ( m a p ) e s t i m a t o rb a s e do na r - h m m 8a tl o ws n r ,ip r o - p o s e d t oi n c o r p o r a t ec o d e b o o kc o n s t r a i n e dw i e n e rf i l t e ri n t om a pf r a m e w o r kt o i m p o s es p e c t r a lc o n s t r a i n t so n t h eh a r m o n i co fw i e n e rt i l t e r ss oa st os a t i s f ys o m e v o c 缸t r a c kc o n s t r a i n t sd e s c r i b e db yo o d e _ b o o k ,t h eo b j e e t i v em e a s u r e s 、o u t p u t s n ra n di t a k u r a - s a i t od i s t o r t i o nm e a s u r e ,v e r i f i e dt h e q u a l i t yi m p r o v e m e n t o ft h e p r o p o s e dm e t h o d a s ap r e p r o c e s s o rf o ra s r ,i tc a na l s oi m p r o v et h er e c o g n i t i o n a c c u r a c yr a t e t h e s p e e c hf e a t u r e e n h a n c e m e n ta n d c o m p e n s a t i o n i st oc l e a ns p e e c hf e a t u r e s t om a k et h e mm a t c h e dw i t ht r a i n i n ge n v i r o n m e n t t h ee n v i r o n m e n tm i s m a t c h d u et oa d d i t i v en o i s ei sa s s u m e da sa na d d i t i v eb i a si np o w e r s p e e t r a ld o m a i n d u e t ot h ei n t e r n 8 lr e l a t i o n s h i pb e t w e e nb i a sa n dn o i s e p o w e rs p e c t r a ,i ti sv a l u a b l et o i n t r o d u c et h en o i s ep r i o r ik n o w l e d g ei n t ob i a se s t i m a t i o np r o c e s sb yu s i n gm a p c r i t e r i o n m o r e o v e r ,t h em i s m a t c hi su s u a l l yn o n s t a t i o n a r yi nr e a la p p l i c a t i o n , s oi ti sn e c e s s a r yt ot r a c kt i m ev a t y i n ga d d i t i v eb i a sa n du p d a t et h es t a t i s t i c a l e h a r a c t e r i s t i ca d a p t i v e l y t h u s ip r o p o s e dt o1 l s et h e s e q u e n t i 8 lt e c h n i q u e sb a s e d o nk u l l b a c k - l e i b l e ri n f o r i l l a t i o nm e a s l 】r et oe s t i m a t ea d d i t i v eb i a sa n d u p d a t e t h e p a r a m e t e r so fn o i s ep r i o r ii nm a 。pf r a m e w o r ks e q u e n t i a l l y s p e e c hr e c o g n i t i o n e x p e r i m e n t sd e m o n s t r a t e dt h a tt h ep r o p o s e da l g o r i t h mo u t p e r f o r m e ds e q u e n t i a i m a x i m u ml i k e l i h o o de s t i m a t i o nm e t h o da n dw a s o b v i o u s l yb e t t e rt h a nt h eb a t c h m o d eu n d e rn o n - s t a t i o n a r yn o i s ee r i r o r l i n e n 七s m o d e lc o m p e n s a t i o ni st om a k et h ea d a p t e ds p e e c hm o d e l sm a t c h e dw i t h t r a i n i n ge n v i r o n m e n t i p r e s e n t e d ah o v e lc o m p e n s a t i o n a p p r o a c h ,w h i c hi s 第i i i 页 英文摘要 i m p l e m e n t e di nb o t hm o d e ia n df e a t u r es d a c e sf o rn o n - s t a t i o n a x yn o i s e d u et o t h en a t u r eo fn o n - s t a t i o n a r yn o i s et h a tc a nb ed e c o m p o s e di n t oc o n s t a n tp a r t a n dr e s i d u 酊n o i s ep a r t ,o u rp r o p o s e ds c h e m ei s p e r f o r m e di nt w os t e p s :b e f o r e r e c o g n i t i o n ,a ne x t e n d e dj a c o b i a na d a p t a t i o n ( j a ) i sa p p l i e dt oa d a p tt h es p e e c h m o d e l st o tt h ec o n s t a n t p a r to fn o i s e ;d u r i n gr e c o g n i t i o n ,t h ep o w e rs p e c t r a o fn o m ys p e e c ha r ec o m p e n s a t e dt oe l i m i n a t et h ee f f e c t so fr e s i d u a l n o i s ep a r t o tn o l s e a sv e r i f i e d b yt h ee x p e r i m e n t sp e r f o r m e du n d e rd i f f e r e n t s t a t i o n a r y a n dn o n - s t a t i o n a r yn o i s ee n v i r o n m e n t s ,t h ee x t e n d e dj a i s s u p e r i o rt ot h eb a - s l cj aa n dt h e j p i n ta p p r o a c hi sb e t t e rt h a nt h ec o m p e n s a t i o ni na n y s i n g l es p a c e k e yw o r d s :n o i s er o b u s ts p e e c hr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,s p e e c h e n h a n c e m e n t ,s p e e c hf e a t u r ee n h a n c e m e n t ( c o m p e n s a t i o n ) ,m o d e lc o m d e n 一 第i v 页 独创性声明 本人声明所递交的论文是我个人在导师指导下进行的研 究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确地说明并表示了谢意。 签名:日期: 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用 学位论文的规定,即:中国科学院自动化研究所有权保留送 交论文的复印件,允许论文被查阅和借阅;可以公布论文的 全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 签名:导师签名日期: 一墨苎堡垄! 竺童鲎堕童望型翌窒 一一 第一章噪声环境下的鲁棒语音识别 研究概述 1 1 语音识别概述 连续语音识别系统通常包括四个重要的部分:特征提取、声学模型、语言 模型和搜索引擎。在论文开头,我们将对这几个部分及我们所使用的连续语音 识别系统作简要的介绍,作为后面深入阐述噪声环境下的鲁棒语音识别技术的 基础。 特征提取几乎所有的语音识别系统都使用语音的参数表示作为模式识别的基 础。语音信号是非平稳的,但是可以认为在短时间间隔内是平稳的,所以 语音信号的短时频谱可以作为语音信息的声学表示。在通常的识别系统 中,对1 0 - 3 0 毫秒的时间窗内的语音做短时傅立叶分析以提取语音特征。 大多数语音识别系统使用每帧的美尔倒谱系数( m e l - f r e q u e n c yc e p s t r a l c o e f f i c i e n t s ) 作为静态特征,它与相邻帧的一阶、二阶差分作为动态特 征,这些特征与能量信息起构成识别系统的语音特征。 特征提取的过程大致如下: 对语音采样信号。m 去均值之后作预加重处理,它的目的是为了补偿 语音谱的固有衰落。 对预加重后的语音采样信号作加窗处理,通常采用海明窗。加窗的信 号被称为一帧,帧与帧之间有一定的重叠以保证特征的连续性。对加 窗后的信号作离散傅立叶变换。 按照美尔尺度对频率轴进行弯曲,在美尔频率轴上等距离地附加三角 滤波器。计算每个滤波器的输出能量,我们在本论文中称之为美尔功 率谱: n - 1 最f m 】= f x 旧1 2 嘲,0 m m ( 1 - 1 ) 第1 页 第一章塞主至鉴! 堕量堡堡童堡型翌壅垫鲨 一 此处f 表示第t 帧,x 表示语音的傅立时变换系数,最f m 代表美尔 尺度下的滤波器组输出能量,m 表示滤波器个数,可以在2 4 到4 0 之间 取值,在我们的系统中m 取2 5 ,表示三角滤波器的f f t 点数。 计算每个滤波器输出能量的对数值s 。【m 】= i e t i - q ,我们在本论文 中称之为美尔对数谱。 对三角滤波器组的对数输出能量作d c t 变换( d i s c r e t ec o s i n et r a n s - f o r m l 。通常d c t 变换的低阶系数被保留下来作为最后的静态倒谱特 征,在我们的系统中取前1 3 阶倒谱系数。其中第1 阶到第1 2 阶系数作 为m f c c 的第l 到第1 2 维系数: m - 1 q f 嘲= & f 仇j s ( 7 r 礼( m + 0 5 ) m ) ,0 n m ( 1 2 ) m = 0 计算一阶和二阶差分特征,组成动态倒谱特征: a c t n = 。抖2 i n 一q 一2 m 】, i 几1 2( 1 - 3 ) 龟【嘲= 龟十l k j 一q l j ,1 n 1 2( i - 4 ) 计算归一化的能量,作为m f c c 的第0 维特征,并计算一阶和二阶差 分能量。 在汉语语音识别系统中,通常还包括声调特征及其差分信息,将其与上面 提到的特征组合构成语音特征,在我们的系统中该特征为4 2 维。 在实际应用中,需要在特征提取之前进行语音端点的检测以减少不必要的 计算,而且端点的准确检测也能有效地提高识别准确率。 声学模型声学模型的鲁棒性和准确性是影响语音识别系统性能的重要因素。声 学模型采用传统的隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ) 。隐马尔可夫 模型可以被看成一个双随机过程,它的基本的随机过程,即状态序列是不 可见的。另一个产生特征序列的可观察的随机过程和基本的随机过程之间 存在着概率上的联系,即输出概率密度函数,它定义了当发生状态之间的 跳转时,观测到的语音特征的条件概率密度。通常该概率密度函数采用具 有对角线方差结构的混合高斯分布。 我们采用国际上主流的两音- 子( b i p h o n e ) 建模和三音子( t r i p h o n e ) 建模方法 建立需要的声学模型。在进行三音子建模时,国际上主流的输出分布共享 第2 页 哩查墅塑! 塑量鲎堡童望型塑壅一 一一 算法有基于状态聚类的三音子模型状态间共享方法和基于决策树的三音予 模型的状态间基享方法。我们采用决策树的方法进行三音子模型的状态间 共享。这种方法可以融合语音学的先验知识,采用数据驱动机制,以l i 练 数据的似然概率的增加最大为目标进行模型的状态间共享,可以在三音予 模型的模型复杂度和有限的训练数据之间做很好的折衷。而且基于决策树 的状态间共享很好的解决了未出现的三音子模型的状态预测问题,从而为 连续语音的高精度识别探索出了一种具有一致性和可训练性的声学建模方 法。 汉语是一种有调语言,它决定了对汉语的识别除了采用通用的语音识别方 法外,还要考虑汉语自身的许多特点。对声调的建模问题是汉语语音识别 不同于其他语种的关键问题。汉语有四种声调:一声、二声、三声和四 声,以及轻声。如果没有声调的区分,汉语中超过3 0 的词将难于辨别, 因此对汉语而言,如何正确进行声调建模对汉语连续语音的识别具有举足 轻重的作用。在我们的系统中,将声调特征结合到m f c c 特征中,用该特 征进行模型的训练和语音的识别,训练时使用决策树来进行声调的建模。 在利用三音子模型进行声调建模过程中,声调的语音学先验知识被总结成 决策树的问题而划归到问题集中,在进行输出分布共享的时候,声调问题 和其他的语音学问题以同等权重被用作决策树分裂的问题依据,那么在输 出分布共享过程结束以后。所产生的三音子模型都是与声调特征相关的三 音子模型。于是依靠声学特征的先验引导和数据的自身驱动机制,声调建 模和原先的没有声调的三音子建模融为一体,很好地解决了汉语这种有调 语言的声调建模问题。在识别的时候,搜索过程是在一个有调的词树上进 行的,这样的话就可以根据声调的不同来搜索到不同的语音模型,快速有 效地得到识别结果。 语言模型语言模型的目的是提供概率信息使得可能的词序列具有较高的概 率a 它不仅可以提高语音识别的识别率,而且有助于限制语音识别的搜索 空间,提高剪裁的准确性。常用的语言模型是n - g r a m 模型,包括一元、 二元和三元概率模型。训练个好的语言模型,不仅仅要增大训练语料 库,而且要优化词典和“净化”训练语料库,去掉语料库中的“噪声”。 在n - g r a m 语言建模中,关键问题之一是实际训练数据内在的数据稀疏问 第3 页 第一章噪声环境下的鲁棒语音识别研究概述 题,即由于训练数据集合是有限的,某些实际可能出现的词序列在训练集 中观测到的次数很少,导致得到极小的概率。此时需要采用平滑技术来使 得对未见过的数据有较鲁棒的概率估计。另外对于汉语而言,在谰练之前 的分词处理也是一个仍需研究的问题。 搜索框架在语音识别中,搜索需要解决的是利用己经掌握的知识,包括声 学、语音学、词典、语言模型及语法、语义知识等,从状态空间中找 到最优的状态序列。搜索的过程是从最底层的声学匹配开始,把特征序 列和h m m 状态序列对应起来,然后根据定义的h m m 状态序列与h m m 模 型序列之间以及h m m 模型序列与词序列之间的映射关系,逐渐搜索 出h m m 模型序列、词序列,直到句子。 在语音识别中,典型的搜索算法有时间同步的v i t e r b i 算法;深度搜索算 法,如时间异步的堆栈搜索算法。搜索框架的组织主要有多遍搜索,即采 用渐进方式把有关的知识逐步加入到搜索过程中;一遍搜索,即把所有知 识源集台在一起,同时引入到搜索过程中。相比多遍搜索,一遍搜索在精 确的声学模型和语言模型的引导下,接索空间受到更多的知识限制,使得 搜索目标更明确,剪裁更合理,所以如果它能被有效地组织和优化,从理 论上来看,它会更加简洁和高效。 为了充分发挥有调的三音子模型的优势,我们的识别系统是基于三音 子模型和三元语言模型预测技术的一遍搜索框架,它的特点是:时间同 步v i t e r b i 搜索;搜索空间和知识的分层表示;基于词树的搜索算法,使得 搜索空间更加有序,搜索更加高效,丽且词树与声学模型无关,方便声学 模型的替换和将来的应用开发;高效的路径组织方法,主要应用哈希表数 据组织技术、动态路径扩展技术、动态空间管理技术以及动态路径裁剪技 术;系统优化方法,主要包括缓冲( c a c h e ) 技术和快速高斯计算技术;三 元的语言模型预测技术,更加有效的裁剪。 1 2 噪声鲁棒语音识别研究的意义 近年来,语音识别研究已经取得了很多的成果,语音识别系统在性能上的 极大提高得益于大量训练数据的使用、声学建模方面的研究成果、语言模型的 第4 页 璺重墅些! 堕量鲎堕童望型翌堑 应用和搜索算法的进步等方面,以及计算机计算能力和存储能力的大大提高 使得更复杂的算法和海量数据的使用成为可能。 我们可以从两个通用的说话人无关的连续语音测试集的识别率来说明目 前识别系统的性能水平。以t i 的连续数字串集合为例【1 】,它包含1 0 个词,4 个 小时的训练数据,目前的词误识率是0 3 。另一个更大的集合是a r p a 的w a l l s t r e e tj o u r n a ld i c t a t i o n 集f 2 1 ,它的词典包括2 0 ,0 0 0 个词,有1 2 小时的训练数 据。在封闭的测试词汇情况下( 所有测试用的词汇都在词典范围内) ,达至1 j 1 3 的 误识率;对开放的词汇,误识率为2 6 。 然而,这些识别系统取得的性能都是在纯净语音条件下得到的。当这些识 别系统面对噪声背景下的语音输入,它们的性能会急剧下降。例如3 1 ,一个以 纯净语音训练的孤立词识别器在纯净情况下有1 0 0 的识别率,当在以9 0 k m h 速 度行驶的汽车内使用时识别率下降到3 0 。一个在安静环境下训练的系统, 有1 的误识率,在餐厅环境下误识率却达到5 0 。实际的应用要求语音识别器 在有噪声干扰的、变化的环境中使用,因而识别器对纯净语音和带噪语音的性 能的极大差别成为识别系统商用的最主要的障碍之一。 一个识别系统要在带噪的环境中使用,就必须对各种不同种类、不同水平 的噪声具有鲁棒的性能。此处的噪声包括加性噪声和噪声引起的说话人发音的 变化。前者,例如汽车引擎声、空调声、机器轰鸣声等,污染了语音信号,改 变了表示语音信号的特征向量。后者即通常所说的“l o m b a r d ”效应【4 ,它是 当听觉反馈受到过度的噪声的影响时,说话人试图修正发音的清晰度以增加语 音的可懂度而造成的,其主要的变化是说话人的声调、幅度、元音时长、谱倾 斜的增加和共振峰频率f 1 和f 2 的偏移。这些噪声使得话音失真,严重影响了识 别的性能。 在本论文中,我们的研究目的就是要提高识别系统在加性噪声环境下的识 别性能,该研究对语音识别系统步入实用具有举足轻重的作用。尽管这方面的 研究已经进行了很多年,但是目前在噪声环境下的识别性能仍然不能同安静环 境下的性能媲美,甚至要达到由带噪语音训练的声学模型测试带噪语音的性能 也并非易事。可见噪声下的鲁棒语音识别研究是一个迫切需要深入研究的课 题,对于研究者而言,也是一个具有挑战性的问题。 第5 页 第一章噪声环境下的鲁棒语音识别研究概述 1 3 噪声鲁棒语音识别研究的现状 显而易见,语音识别系统在噪声环境下性能的恶化归因于纯净的训练数据 和被噪声污染的测试数据之间的不匹配。如图1 1 【5 1 所示,我们可以认为由噪 声引起的训练和测试环境之问的不匹配存在于三种空间中:信号空间、特征 空间和模型空间。在图1 一i 中,s 表示训练环境中的原始数据,建模两种环境之 间的不匹配的失真函数d ,把s 变换到t :训练环境下的语音信号经过特征提取 得到x ,测试环境下的特征为y ,在特征空间,以失真函数d 2 表示环境的不匹 配,它把特征x 变换到y ;在模型空间,特征x 用于建立纯净语音模型a x ,表 示环境不匹配的失真函数d 3 把模型a x 变换到模型a y 。 为了提高语音识别系统在噪声环境下的识别率,人们提出了很多方法来减 小训练和识别环境之间的不匹配。 如果我们利用测试环境下得到的带噪数据来训练语音模型,则这种不匹配 就不存在了。然而,噪声增加了各种语音单元内在的变化,语音单元的分布的 方差增大,导致不同语音单元之间的区分度下降,其识别性能明显低于训练数 据和测试数据均是纯净的情况。而且如果噪声是非平稳的,以带噪语音训练模 型仍然不能保证训练和测试环境之间匹配。另外,它还要求控制测试语音的录 音条件,以保证与训练识别模型的环境相同。图1 2f 6 1 中,虚线代表由纯净语 音训练模型,在不同信噪比下的识别率,实线代表由与测试环境相同类型和水 平的噪声污染的数据训练模型,在不同信噪比下的识别率。可以发现,噪声使 得系统性能明显下降,甚至当识别器使用的分布和带噪语音数据的分布是匹配 训练 测斌 信号鏊阔椽嘞横委冀羞濑 图1 - 1 训练和测试之间的不匹配 第6 页 噪声环境下的鲁棒语音识别研究 的,识别器性能也会下降。而且,由于在实际中噪声是多种多样的,可能是不 确定的、变化的,所以这种解决方法在很多时候都是不现实的。大多数时候, 识别器使用的分布和测试数据之间的分布总是存在不匹配的。 根据图1 - 1 ,我们将人们提出的降低训练和测试环境之间的不匹配的方法大 致归纳为以下五类: 抗噪的特征和距离尺度 信号空间的语音增强 特征空间的特征补偿 模型空间的模型补偿 其他方法 在本论文的第三至五章中,对后三类方法都做了较详细的综述,所以在此处只 简要地介绍这些方法,较详细地介绍第一类方法。 抗噪的特征和距离尺度这类方法假定系统不受噪声的影响,所以对纯净语音 和带噪语音都可以使用同样的配置。该类方法的重点是研究噪声对语音信号的 影响,而不是噪声的消除,它试图得到抗噪的语音特征和参数。这类技术的优 点在于对噪声的假设很弱,甚至没有假设,所以适用于大多数噪声环境,缺点 在于不能充分利用特定噪声的性质。 35 拍s n r 蛳8 5 2 0 2 5 图1 - 2 噪声下的识别准确率( ) 第7 页 一甙j i xo是,quq to餮强8m七 堑二主堂生墅垫! 堕量鳖堡童望型堑塞塑垄 语音信号可以用频域的特征来表示,比如离散傅立时变换和滤波器组分 析。但是实验表明倒谱域的语音表示较频域的表示可以得到更高的识别率【7 , 而k m f c c 较l p c 倒谱系数更为抗噪。随后人们提出了倒谱表示的改迸方法咀 提高其抗噪性能。在带噪语音和纯净语音向量之间的倒谱欧式距离上j i l x 白噪 声尺度因子以补偿倒谱向量范数的减小。虽然这种方法对白噪声是成立的,但 是o p e n s h a w 和m a 8 0 n 等( 1 9 9 4 ) 发现其他噪声不仅引起范数的减小,还改变了其 他倒谱系数的统计参数。失真度量有很多的变形,包括简单的加权似然比、加 权倒谱距离、r o o tp o w e rs u m s 和s i n ew a v el i f t e r i n g ( s w l ) 。这些方法的共同 点是强调受噪声影响更小的谱峰,计算距离测度时降低低频倒谱项的重要性。 最成功的方法之是s w l ,在包括汽车噪声的语音识别实验证实该技术优于其 他失真度量【8 】。 失真度量也被引入! u l p c 系数的应用中,频率加权的i t a k u r a 谱失真度量试 图补偿由噪声引起的带宽扩大,l p c 的高阶差分用于计算纯净l p c 的估计值。 最有效的方法是短时修正相干方法( s h o r t - t e r m - m o d i f i e dc o h e r e n c e ) f 9 1 ,它不 同于通常的带噪信号的全极点建模,而是来自于语音波形,利用相邻语音片段 的相干。对于0 - 2 0 d b 范围的输入信噪比,信噪比可以提高i 0 - i 2 d b 。 多层感知神经网络( m u l t i - l a y e rp e r c e p t r o n ) 是在带噪语音识别中区分语音参 数的不同分布的最有效的方法之一。带噪元音数据的倒谱系数分类实验1 0 1 表 明在所有s n r 才( 平,m l p 的正确率高于其他统计分类器,其性能的下降更缓 慢。实验表明 1 1 1 在白噪声下的l o m b a r d 效应的识别好于连续密度的h m m 系 统。 另一种统计模式分类器是线性区分分析( l i n e a r d i s c r i m i n a n ta n a l y s i s ) ,它 是语音表示的线性变换,以最小化类内差异,最大化类间差距。它可以降低语 音参数表示的维数,同时取得比原有表示更好的性能1 2 1 。 把各种心理声学和神经生理学知识的计算模型放入听觉外围前端处理中, 这在语音处理应用中变得越来越常见。这类应用利用大量属于听觉外围建 模领域的技术,包括临界带滤波、晌度曲线属性、非线性能量压缩、绒毛细 胞( h a i r c e l l ) 建模、短时自适应和其他外围和中心听觉处理现象。利用这些模 型,增加系统对噪声的不敏感性,从而提高识别率。 人们发现许多背景噪声相对语音慢变,所以各种策略试图去除识别特征 第8 页 噪声环境下的鲁棒语音识别研究 向量中的慢变化,从而提高识别率。这种滤波技术已被应用到各种参数中, 例如对数功率谱和倒谱特征向量。常用技术如r a s t a1 1 3 】,它抑制短时谱的 每个对数谱成分中的常数的加性偏移。它也可应用到美尔倒谱【1 4 】和p l p 参数 中f r a s t a p l p l ,以零频率处的尖锐的谱零点滤波,使得每个带的平均值为 零。r a s t a 尤其对降低由信道失真引起的噪声有效,因为它们在r a s t a 处理 的对数谱中是加性的。然而不能通过它消除在时域加性的噪声信号,需要另一 种称作j r a s t a 15 的技术。它包括对谱的函数实现滤波,然后对结果求逆。 函数的形状依赖于j ,而它依赖于加性噪声水平。它能减小加性和卷积噪声,提 高识别率。所有这些技术都在减小由信道的变化引起的常数失真上非常有效。 然而当应用到其他类型的慢变噪声时,性能下降,使得这些技术只限定于某些 特定的噪声。 信号空间的语音增强语音增强技术试图恢复嵌在噪声中的语音信号的波形或 者其他参数,它的目的是要增强感知方面的质量,如语音的总体质量、可懂度 等,减轻听觉上的疲劳度。自l i m 和o p p e n h e i m 在文章 1 6 l 中对语音增强理论 作出开创性的努力后,人们提出了很多的语音增强方法。简单地说,一类方法 基于数字信号处理技术,例如谱减、自适应滤波、利用语音周期性、从带噪语 音中提取参数再合成语音等。另一类方法基于统计模型,对语音和噪声建立统 计模型,将统计知识嵌入到语音增强算法中。前者通常假定噪声比较平稳,后 者可以通过对噪声建立多个状态和混合的h m m 模型来放宽对噪声平稳性的要 求。 某些语音估计技术,比如与语音内容无关的维纳滤波和卡尔曼滤波技术, 可以提高含噪语音的信噪比,但是不一定改善语音的质量或可懂度。语音在优 化信噪比的同时,改变了语音信号的频谱,引入了畸变。另外,大多数技术的 目的是增强语音的质量,通常不是和语音识别器性能的提高直接相关的。即使 算法引起的语音失真是人耳可以容忍的,但是仍然可能引起识别的问题。 特征空问的特征补偿特征补偿算法通过“净化”带噪语音的特征来减小训练 和测试环境之间的差异,从而提高识别器在噪声环境下的性能。大多数的方法 是在对数谱域或者倒谱域进行的,而且利用特征向量的统计特性,如混合高斯 模型、向量量化或者更为精细的h m m 模型。 第9 页 第一章噪声环境下的鲁棒语音识别研究概述 一类方法如r a t z 1 7 】,利用“s t e r e o ”数据,即同时录制的纯净和对应的 带噪语音数据,学习安静环境下的特征和噪声环境下的特征之间的对应关系。 这种关系用于估计纯净语音特征向量。另一类方法,如c d c nf 1 8 】和特征域 的v t s 1 7 ,利用参数模型建模噪声对纯净语音特征的影响,从带噪观测中学 习模型的参数。利用纯净语音的先验分布和学习得到的参数,变换带噪语音的 特征到对应的纯净特征。 语音增强和特征补偿方法都可以看作是对语音特征的增强,但是两类方法 在算法目标、噪声对语音影响的描述以及增强形式上都有区别。 模型空问的模型补偿通常的统计建模技术( 如h m m 和a n n ) 使用纯净语音训 练模型,模型补偿方法变换纯净语音模型的参数以适应带噪语音,从分类器的 角度补偿训练和钡4 试环境之间的差异。 p m c 【1 9 等方法使用分析模型描述噪声对纯净语音的特征向量的影响,使 用该模型把h m m 模型的混合高斯分布的参数变换到与噪声环境匹配的参数。 而m l l r 【2 0 】等方法,简单地使用线性变换变换混合高斯分布的参数以匹配带 噪语音,其线性变换的参数来自于对带噪的自适应数据的学习。 模型补偿方法通常要求对每种测试环境自适应一套模型,使得系统对于一 般的应用过于特殊化。 其他方法除此以外,还有些方法难以被简单地划分到以上四类方法中,例 如m u l t i b a n d 方法、m i s s i n g - f e a t u r e 方法、频谱的重构、盲补偿等。 m u l t i - b a n d 和m i s s i n g - f e a t u r e 方法都是修改识别器使其更加关心较少受噪声 影响的语音部分。m u l t i b a n d 方法 2 l 】 2 2 】把语音分解为多个频带,然后独立 地在每个频率带上进行识别,最后合并每个频带的识别结果得到最终的识别结 果。在识别期问,纯净语音和带噪语音的参数之间的误差较大的频带被赋予较 小的权熏,反之被赋予较大的权重。m i s s i n g - f e a t u r e 方法【2 3 】 2 4 】假定语音谱中 受噪声污染较严重的部分分量未知或者丢失,只依靠剩下的谱分量进行识别。 它认为噪声污染了语音谱的部分分量,导致不完全的谱数据,识别成为对不完 全数据的分类。谱重建的方法 6 - 与m i s s i n g - f e a t u r e 方法相同,都要标明受噪声 影响较严重的频谱分量,但它在识别前重建这些语音谱分量,所以识别过程可 以在倒谱域进行。 第1 顺 噪声环境下的鲁棒语音识别研究 盲补偿方法不再认为训练得到的模型是训练数据的精确表示,它假 定在训练模型的参数估计或者测试语音的观测特征的表示中存在不确定 性。m e r h a y 和l e e 提出的最小最大分类方法f 2 5 l 假定测试是在可能出现的最大不 匹配条件下进行的,试图在语音模型或者观测特征的邻域内调整模型参数或者 观测的特征以尽可能利用模型和观测特征。引入某些有关失真的知识到邻域的 构造中可以提高最小最大分类方法的性能,例如贝叶斯预测分类方法【2 6 】。 尽管人们已经针对加性噪声下的语音识别提出了很多的解决办法,噪声鲁 棒问题仍然是一个尚未完全解决的问题。在低信噪比、非平稳噪声下,如何提 高系统的识别准确率到相当的满意程度是其中的难点,如何保证不增加过多的 在线识别的计算量是其中需要注意的问题,如何针对不同的环境利用不同的方 法以及综合利用现有方法也是值得探讨的。 1 4 论文工作及其组织结构 本论文在深入分析噪声对语音识别系统多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生院基本公共卫生服务项目自查报告
- DB65T 4045-2017 气象虚拟化数据中心基础资源池建设技术规范
- 智慧+安全政务云数据中心整体解决方案
- 全息影像技术在市场中的应用
- 保健品市场趋势分析与预测
- 智能系统与人类关系-洞察及研究
- 住宅楼工程建设合同3篇
- 胡萝卜购买合同书4篇
- 防养老诈骗基础知识培训课件
- 品牌文化渗透方法-洞察及研究
- 《电动汽车双向无线电能传输系统技术规范》
- 医院护理培训课件:《安全注射》
- DL-T-5759-2017配电系统电气装置安装工程施工及验收规范
- 2024年辽宁石化职业技术学院单招职业技能测试题库附答案
- GB/T 8492-2024一般用途耐热钢及合金铸件
- 开学季饮品店促销方案(2篇)
- 布病脊柱炎影像学表现
- 房屋市政工程施工现场安全风险分级管控与防范措施清单
- 钢管及配件报价单
- 成功学习方法助你事半功倍
- 河北盛都温泉假日酒店有限公司盛都地热井矿山地质环境保护与土地复垦方案
评论
0/150
提交评论