已阅读5页,还剩54页未读, 继续免费阅读
(信号与信息处理专业论文)语音识别鲁棒性前端若干方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要中国科学技术大学硕士学位论文 摘要 自动语音识别属于多维模式识别和智能计算机接口的范畴,其研究的根本目的是使 机器能够听懂人类的语言。当前在实验室环境下很多系统取得了很大的进步,有着不错 的性能。但是在实际环境中,由于存在复杂多变的噪声和未知因素干扰,系统性能会急 剧下降以致于不可用。因此如何有效地消除或抑制噪声,提升语音识别系统的鲁棒性成 为语音识别的一个重要课题。 噪声鲁棒性问题的根源可以归结为语音识别训练环境和测试环境之间的不匹配:一 般来说,噪声鲁棒性方法可以粗略分为两大类:前端方法和后端方法。前端方法主要着 眼于对特征参数本身的处理和特征参数提取过程中的方法的改进,使得随着环境的变 化,特征参数自身变化尽可能的小,达到鲁棒性要求。而后端方法则是根据噪声环境来 相应地调整模型,使得模型和实际环境相匹配。本文对前端噪声鲁棒性方法进行了简要 的介绍,实现了一些既有的方法,同时也提出了一些新的方法。 基于参数域规整的方法是常用的鲁棒性前端方法之一。它通过使得训练和测试环 境的特征参数在分布上保持一致,减小了不匹配度,从而提高了参数的鲁棒性:但 是由于其对参数线性或非线性变换,使得其同时带来了失真。本文在第三章介绍了一 种基于权重的c d f m a t c h i n g 方法,通过权重对规整幅度加以限制,从而达到了鲁棒性 提升和参数失真的下降一个平衡。我们利用最大分布相似准则去寻求最优的权重,在 实现中,我们分别把这种思想运用到c m v n 和双高斯映射算法上。a u r o r a 2 0 上的试验 表明,在c m v n 上,该方法有9 的性能提升,而在其d g 上,该方法有4 1 的性能提 升。我们利用d f e 思想对权重进行进一步优化,通过对权重和模型同时的调整,我们 在w m s v n 上相对b a s e l i n e 有6 的提升。 在第四章作者介绍了线性区分性分析( l d a ) 和异方差线性区分性分析( h l d a ) 方法以及它们在语音识别的应用。通过l d a 和h l d a 的线性变换将原始特征变换到降维 的空间,使得变换后的特征在最大似然准则下具有最大的区分性。作者在8 6 3 电话信道语 音数据库上进行了相关的实验。实验结果表明,对于h l d a ,变换后维数取3 9 维性能是 最好的。变换为3 9 维特征后,l d a 变换使得识别错误率相对于b a s e l i n e 下降了2 6 而利 用h l d a 变换识别错误率则下降了6 9 。 第i 页 摘要中国科学技术大学硕士学位论文 关键字:语音识别,噪声鲁棒性,特征参数规整,基于权重的c d f m a t c h i n g ,d f e ,h l d a 第j i 页 a b s t r a c t 中国科学技术大学硕士学位论文 a b s t r a c t a u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) b e l o n g st oa r e ao fm u l t i d i m e n s i o np a t t e r nr e c o g n i t i o na n di n t e l l e g e n tc o m p u t e ri n t e r f a c e t h eu l t i m a t ep u r p o s eo fa s ri st om a k ec o m p u t e r su n d e r s t a n dh u m a ns p e e c h n o wm a n ys y s t e m sp e r f o r m a n c ei sf a i r l yg o o di nl a b o r a t o r y h o w e v e r ,t h e yu s u a l l yp e r f o r mt o on n l c hw o r s et ob eu s e di nr e a le n v i r o n m e n tb e c a u s eo f d i s t u r b a n c eo fv a r i o u sn o i s ea n dl m k n o w nf a c t o r s t h e r e f o r e ,h o wt or e m o v eo ra l l e v i a t e n o i s ee f f e c t i v e l ya n di m p r o v ep e r f o r m a n c eo fa s r s y s t e mb e c o m e sa ni m p o r t a n tt a s k t h ed e r i v a t i o no fn o i s er o b u s t n e s sc a nc o m ed o w nt ot h em i s m a t c hb e t w e e nt r a i n i n g a n dt e s t i n ge n v i r o r m m n tw h e np e r f o r ma s r g e n e r a l l ys p e a k i n g ,n o i s e r o b u s tm e t h o d sa r e v a r i o u sa n dc a nb er o u g h l yc l a s s i f i e di n t ot w oc a t e g o r i e s :f r o n t e n dm e t h o d sa n db a c k e n do n e s t h ef o r m e rf o c u so nt h ei m p r o v e m e n to nf e a t u r ee x t r a c t i o na n dt h ep r o c e s s o ns p e e c hf e a t u r e s ,w h i c hm a k ef e a t u r e sv a r yu n c o n s p i c u o u s l ya se n v i r o n m e n t sc h a n g e d t h el a t t e ra d j u s tm o d e l st om e e tt h ec h a n g eo fe n v i r o n m e n t s 。w h i c hm a k em o d e l sa n dr e a l e n v i r o n m e n t sm a t c h e d t h i st h e s i sf i r s t l yg i v eab r i e fi n t r o d u c t i o no ff r o n d e n dr o b u s t t h e ns o m ee x i s t i n ga l g o r i t h m sa r ei m p l e m e n t e da n ds e v e r a ln e wm e t h o d sa r ep r o p o s e d t h em e t h o db a s e do np a r a m e t e rn o r m a l i z a t i o ni sw i d e l yu s e db yr o b u s ta s r s y s t e m t h ed i f f e r e n c eo ff e a t u r ep a r a m e t e r sd i s t r i b u t i o nb e t w e e nt r a i n i n ga n dt e s t i n ge n v i r o n m e n t i sa l l e v i a t e db yt h em e t h o d ,w h i c hl e a d st ol e s sm i s m a t c ha n dm o r er o b u s t n e s s h o w e v e r , l i n e a ro rn o n l i n e a rt r a n s f o r m a t i o nb r i n g sd i s t o r t i o nt of e a t u r ep a r a m e t e r s i nc h a p t e rt h r e e , aw e i g h t e dc d f m a t c h i n ga p p r o a c hi sp r o p o s e d t h ew e i g h t sr e s t r i c tn o r m a l i z a t i o ns c a l e a n dab a l a n c ec a nb eo b t a i n e db e t w e e nt h ei m p r o v e m e n to fr o b u s t n e s sa n dd e c r e a s eo fp a - r a m e t e rd i s t o r t i o n t h em a x i m u md i s t r i b u t i o ns i m i l a r i t yc r i t e r i o ni sp r o p o s e dt oo p t i m i z e t h ew e i g h t s t h em e t h o di sa p p l i e dt oc e p s t r a lm e a na n dv a r i a n c en o r m a l i z a t i o n ( c m v n ) a n dd o u b l eg a u s sm a p p i n g ( d g ) a l g o r i t h m s e x p e r i m e n t so na u r o r a 2 0s h o w st h a tr e c o g n i t i o np e r f o r m a n c eo fw e i g h t e dc d f m a t c h i n gb a s e do nc m v na n dd gi m p r o v e db y9 a n d4 1 r e s p e c t i v e l y f u r t h e rm o r e ,d i s c r i m i n a n tf e a t u r ee x t r a c t i o n ( d f e ) i sa p p l i e dt o o p t i m i z ew e i g h t s w eo b t a i n6 p e r f o r m a n c ei m p r o v e m e n tw h e nw e i g h t sa n dm o d e l sa r e m o d i f i e ds y n c h r o n o u s l y 第i i i 页 a b s t r a c t 中国科学技术大学硕士学位论文 i nc h a p t e rf o u rl i n e a rd i s c r i m i n a n ta n a l y s i s ( l d a ) a n dh e t e r o s c e d a s t i cl d a ( h l d a ) a r ei n t r o d u c e da n da p p l i e dt os p e e c hr e c o g n i t i o n o r i g i n a lf e a t u r e sa r et r a n s f o r m e dt o3 0 r e d u c e d d i m e n s i o ns p a c e ,i nw h i c ht r a n s f o r m e df e a t u r e sa r em a x i m a l l vd i s c r i m i n a n ta c c o r d i n gt om a x i n m ml i k e l y h o o d ( m l ) c r i t e r i o n e x p e r i m e n t so n8 6 3t e l e p h o n es p e e c hd a t a b a s e s h o w s ,b e s tp e r f o r m a n c ei so b t a i n e dw h e nr e d u c e dd i m e n s i o ni s3 9f o rh l d a i nc a s eo f3 9 r e d u c e dd i m e n s i o n s ,l d aa n dh l d at r a n s f o r m a t i o nr e d u c er e c o g n i t i o nw o r de r r o rr a t eb v 2 6 a n d6 9 r e s p e c t i v e l y k e yw o r d s :s p e e c hr e c o g n i t i o n ,n o i s er o b u s t n e s s ,f e a t u r en o r m a l i z a t i o n ,w e i g h t e d c d f m a t c h i n g ,d i s c r i m i n a n tf e a t u r ee x t r a c t i o n ,h e t e r o s c e d a s t i cl d a 第i v 页 插图目录 中国科学技术大学硕士学位论文 插图目录 1 1 语音识别的基本框图 2 1 语音识别的鲁棒性方法分类 2 2 噪声环境下的语音模型 2 3 噪声情况下参数分布的变化 2 4 带噪语音的双峰分布 2 - 5 多高斯映射算法流程图 只用单维参数在a u r o r a 2 0 不同环境下的识别性能 只对单维参数进行规整在a u r o r a 2 0 不同环境下的识别性能 不同权重下的目标高斯c d f 不同权重下的两种环境特征参数分布对比 环境不匹配度随权重的变化 代价损失函数随着迭代次数而下降 w m s v n 的m c e 和d f e 识别结果对比 2 维特征降维到1 维的情况 l d a 和h l d a 映射对比图 h l d a 应用于语音识别的流程图 不同变换维数的h l d a l d a 识别性能对比 h l d a 的似然度及性能随着迭代增加的变化趋势 第v i i 页 3 5 6 8 2 2 1 l 娩嬲沥船勰弘舛 鹄钙蛎 1 2 3 4 5 6 7 1 2 3 4 5 孓孓孓孓孓孓孓 4 缸缸缸缸 表格目录 中国科学技术大学硕士学位论文 表格目录 3 1 只对g 维做w m v n 的a u r o r a 2 0 识别率2 6 3 2m f c c 的最优权重2 8 3 3 三种不同的权重2 9 3 4w m v n 在a u r o r a 2 0 上的识别性能( 相对错误率下降) 2 9 3 5w m s v n 在a u r o r a 2 0 上的识别性能( 相对错误率下降) 3 0 3 6w d g 在a u r o r a 2 0 上的识别性能( 相对错误率下降) 3 0 4 1 3 9 维参数:m f c c l d a h l d a 的识别性能对比4 4 第v i i i 页 第一章绪论中国科学技术大学硕士学位论文 第一章绪论 1 1 自动语音识别背景简介 自动语音识别属于多维模式识别和智能计算机接口的范畴,其研究的根本目的是研 究出一种具有听觉功能的机器,能直接接收人的口呼命令,理解人的意图并作出相应的 反应。 事实上,让”机器”听懂人的语言,一直是人类长期追求的理想,有着广泛的应用需 求,语音接口的计算机可以改变人们目前对电脑的操作方式,引起操作系统的革命i 听 写机将办公自动化带来革命性的变革,同时使得某些非拼音文字( 比如汉语) 的计算机 输入不再是一种需要专门训练的技能;可以使用户通过语音直接检索数据库,既经济又 迅速。而在某些特定情况下,需要将操作者的双手解放出来,例如汽车、飞机驾驶员在 高速行驶中进行电话拨号或者发布命令,失明者操作计算机等,都可以用语音识别实 现。 a s r 的研究工作开始于2 0 世纪5 0 年代初期,至今已有了大约5 0 年的历史。早期的语 音识别方法使用声学语音学理论,它描述语音单元如何组合成语音。在1 9 5 2 年,贝尔实 验室使用数字元音的频谱共振峰研究了第一个特定说话人、孤立数字识别系统。在五、 六十年代,其他的实验室,如r c a 实验室、m i t 的林肯实验室和一些日本的实验室也开 始进行语音识别的研究。在6 0 年代,处理语音信号在时间轴上变化的必要性被重视,导 致了动态时间规划被提出用于语音的模板匹配。在7 0 年代后期,动态规划成为语音识别 模式匹配的主流技术。 在7 0 年代,语音识别的两个主要方向开始显露出来,分别由i b m 和b e l l 实验室所代 表。在i b m ,由j e l i n e k 领导的小组致力于听写机的研究,其主要目标是将语音语句识别 成可以被显示出来的词串。该系统大多数是特定人系统,主要对语言结构进行研究。一 般语言结构被表达成统计模型,描述语言符号串出现的可能性。在b e l l 实验室,其研究目 标是为用户提供电信服务,如语音电话和命令控制等。这样的系统要求能对不同说话人 进行识别。 所以b e l l 实验室主要是研究非特定人系统,并考虑方言等因素。关键词识别也是他 们的一个研究方向。关键词识别是检测出具有特定意义的词或短语并忽略其他不需要的 第l 页 第一章绪论中国科学技术大学硕士学位论文 部分。这是为了让用户能更自然地交流而不是只能说生硬的命令词。这两种方法在过 去2 0 年中对语音识别的发展具有深远的影响。它们的共同点在于均显示出数学形式及其 严谨性在语音识别中的重要性。同时进行的还有c m u 的r e d d y 的工作。他第一个将动态 音素搜索用于连续语音识别中,并使用了将人工智能和规则相结合的方法。 在8 0 年代,隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 在语音识别中的使 用r a b i n e r 9 3 1 ,导致了语音识别的快速发展。现在的大部分识别系统基于该统计模 型。1 9 8 8 年,c m u 用v q h m m 实现了世界上第一个基于离散h m m 的高性能的非特定 人、大词汇量的连续语音识别系统。9 0 年代以后,由于语音识别技术的快速发展,出现 了语音识别技术的产品化热潮。9 0 年代初,国外许多研究机构研制出了大词汇量连续语 音识别系统,如i b m 的v i a - v o i c e 系统( 1 9 9 6 年推出了汉语版) ,用于计算机的汉字输入。还 有剑桥大学的h t k 系统、o g i 系统、d r a g o n 系统、m i c r o s o f t 的w h i s p e r 系统等。近年 来,我国语音识别的研究发展很快,目前我国对大词汇量语音识别系统的研究已经接近 国外最高水平。 但是,要使计算机”听懂”人的语言却面临着诸多困难,这是因为: 语音信号的声学特征随其前后与之相连的语音不同而产生很大的变易,且连续语流 中各语音单位之间不存在明显的边界: 语音特征会随着发音人的不同、发音人的心理或生理状态的变化而产生很大的差 异; 传声设备的差异及环境干扰也将直接影响语音特征的准确提取: 一个语句所表达的意思,是与上下文内容,说话时的环境条件以及文化背景等因素 有关的,而语句的语法结果又是多变化的,并且语境信息几乎是计算机自动语音识 别无法利用的,所有这些给语义的理解带来很大的困难。 自动语音识别系统 语音识别系统本质上是一种模式识别系统。它的基本框图如图1 - 1 所示,与常规的模 式识别系统一样,包含有特征提取、模式匹配和参考模式库等三个基本单元。但是由于 语音识别系统所处理的信息是结构非常复杂、内容极其丰富的人类语言信息,因此它的 系统结构比通常的模式识别系统要复杂的多。 第2 页 第一章绪论中国科学技术大学硕士学位论文 语音输入 图1 - 1 语音识别的基本框图 结果+ 特征提取模块在语音识别中,将语音从计算机的记录存储结构( 例如语音波形文 件) 转化为适合于进行分类的表示形式( 通常称为语音特征) 的过程被称为特征提 取。目前语音识别中最常用的特征参数是用来表达频谱形状的m f c c ( m e l 频率倒谱 参数) 或者p l p c ( 感知域现行预测系数) 。除此之外还有其他的语音特征信息, 如能量、基频等等。 训练模式库模块模式库训练是指按照一定的规则,通过对训练数据的语音信息的提 取,获得能够表征该单元模式本质特征的参数,形成参考模式库。 模式匹配模块获得参考模式库以后,当未知语音输入时,按照所定义的规则,使得 它和模式库的某一个模式相匹配。 1 3 语音识别面临的噪声鲁棒性问题 噪声鲁棒性问题是语音识别的一个关键问题。当前的很多语音识别系统在实验室环 境下都可以达到相当高的识别正确率,但是在实际环境中,性能会急剧地下降。其根本 原因在于由在不同环境下语音的畸变引起了训练环境和测试环境语音的不匹配,导致i ) j l 练数据所获得的语音信息无法正确表达测试环境的数据,对识别结果产生了极大的影 响。 实际环境中有很多因素会影响识别性能,下面将逐一加以介绍: 加性噪声语音信号在实际环境中常受到背景噪声的干扰,背景噪声通常是加性的, 即所采集的信号是真实的语音信号与背景噪声的和,因此它们对语音的影响通常可 以用一个叠加模型来进行很好的描述。当噪声比较大的时候,语音信号会有比较大 的失真,因此对语音识别带来的影响也比较大。 信道畸变除了背景噪声信号产生的干扰以外,语音信号还受到一些诸如语音产生过 第3 页 第一章绪论中国科学技术大学硕士学位论文 程、记录过程以及传输过程中产生的通道畸变的影响。例如:麦克风依赖于其类型 与位置的不同能明显的影响语音的频谱,电话线网络的频率特性也对语音信号产生 了频谱畸变的影响。这些由于传输通道而引入频谱畸变将直接影响到语音信号的短 时频谱分析结果,而目前所有的语音识别系统中的参数计算以及相似度计算,都直 接或间接的依赖于语音信号的频谱分析结果,因而上述的通道畸变将直接影响语音 识别系统的性能。 l o m b a r d 效应话者在噪声环境下进行语音交流时,由于受到背景声学环境变化的影 响,话者有意无意地改变了其发音质量、发音速度、基频、甚至连音方式,噪声人 为声学特征变化,就是所谓的l o m b a r d 效应。l o m b a r d 效应明显地使频谱产生斜变, 对多数元音和鼻音而言,其高端的谱斜变减少而低段郑家,这些变化将影响语音识 别系统的性能。 瞬间噪声语音识别系统在实际应用中,还常受到一些如关门声、电话铃声等等瞬间 噪声声源的影响。在有些情况下,这些噪声可能完全淹没语音信号,这种高强度的 瞬间噪声给语音识别任务带来了巨大的困难。 来自其他话者的干扰人类语音理解机制能够在对话环境中区分两三种声音,并且具 有集中警力对某种声音感兴趣,而排斥其他声音的能力,对机器来说这点是很困难 的。类似的还有其他的背景干扰,如音乐声和收音机中的说话声,和语音信号频率 相近,带来的干扰也相当大。 在不同的环境下,上述各个因素对识别系统的影响是不同的,例如在电话语音识别 任务中,信道影响和口音问题往往比较突出:而在手机等移动设备上,加性噪声和信道 畸变起主导作用;而在一些噪声很强的环境下,l o m b a r d 效应不可忽略。大多数情况下, 加性噪声和信道畸变更为常见,而本文讨论的重点也是这两者。 1 4 本文内容安排 本文共分五章。在本章绪论中,作者对语音识别和其噪声鲁棒性问题作了简单 的介绍:在第二章中,将对噪声鲁棒性一些常用方法以及试验所使用数据库进行介 绍;第三章将对基于权重的m v n 算法进行介绍,在此基础上进一步与区分性特征提取 ( d i s c r i m i n a t i v ef e a t u r ee x t r a c t i o n ,d f e ) 相结合;第四章介绍了h l d a 算法的基本原 理以及试验结果。最后对论文进行了总结,并且进行了一些讨论。 第4 页 第二章鲁棒性前端方法中国科学技术大学硕士学位论文 第二章鲁棒性前端方法 2 1 鲁棒性方法分类 如上文所述,鲁棒性问题是影响语音识别性能的一个关键因素,而实际环境中最常 见的加性噪声和信道畸变。噪声鲁棒性问题的根源可以归结为语音识别训练环境和测试 环境之间的不匹配,因此大多数方法都可以从这个角度来解释。 一般来说,噪声鲁棒性方法可以粗略分为两大类:前端方法和后端方法。前端方法 主要着眼于对特征参数本身的处理和特征参数提取过程中的方法的改进,使得随着环境 的变化,特征参数自身变化尽可能的小,达到鲁棒性要求。而后端方法则是根据噪声环 境来相应地调整模型,使得模型和实际环境相匹配。 进一步,根据语音识别的各个环节,鲁棒性方法还可以细致的划分为三类,其与前 后端方法的关系如图2 1 所示: 训 练 测 试 图2 - 1 语音识别的鲁棒性方法分类 1 i 类:这类方法直接对语音进行处理,减少训练环境和测试环境的不匹配度。其中最 具代表性的是基于维纳滤波、谱相减等语音增强方法,尽量降低语音中的噪声。还 有一类方法通过对训练干净数据进行人工加噪和信道模拟,减小了与测试环境的差 异,也属于此类。 2 i i 类:这类方法在语音特征参数域中对特征参数进行规整操作,在参 数域上使训练和测试保持一致。这类方法的代表是c m s 、c m v n 、c d f m a t c h i n g 、s p l i c e 、r a s t a 、l d a 等等。 第5 页 第二章鲁棒性前端方法 中国科学技术大学硕士学位论文 3 i i i 类:这是在后端对模型参数变换和模型自适应来使模型匹配测试环境。其代表方 法是p m c 、m l l r 、m a p 。 在上面三类方法中,前两类属于鲁棒性前端范畴,也是本文所讨论的重点。 2 2 鲁棒性前端方法介绍 52 2 1 环境模型 如1 3 所述,实际环境相当复杂,考虑其中最主要的因素:加性噪声和信道畸变, 图2 2 干净语音( x ) 卜一信道畸变( h ) 卜一o 一 带噪语音( y ) 加性噪声( n ) 图2 2 噪声环境下的语音模型 假设干净语音序列以x 表示,信道畸变用滤波器h 表示,加性噪声用n 表示,带噪语音 用y 表示,那么在时域上,环境模型可以表示如下: y = z 木h + 佗( 2 - 1 ) 而在频域和倒谱域,其相应变换则是: y = x h + n ( 2 - 2 ) y = z + h - t - 9 ( 礼一z h )( 2 - 3 ) 其中非线性函数g ( z ) = c n o + e c - l z ) ,c 为d c t 变换矩阵。 对2 3 进行精确严格的分析是比较困难的,大部分方法都对2 3 进行一定的近似。 2 2 2 基于语音增强的方法 2 2 2 1 谱相减( s p e c t r a ls u b t r a c t i o n ) 谱相减技术是最简单的去除加性噪声的方法,其基本思想是假设噪声信号与语音信号 第6 页 第二章鲁棒性前端方法中国科学技术大学硕士学位论文 在时域上是加性的和非相关的,并且噪声信号是缓变的,因此可以用非语音段估计出噪声的 能量。 由2 2 ,带噪语音功率谱可表示为: i y l 2 = l x h + 9 1 2 = i x l 2 j 日1 2 + i 1 2 + 2 i x i 1 h i i n c o s o( 2 - 4 ) 由于非相关性和无信道畸变的假设,2 4 可简化为: m 2 = 俐2 + 1 n 1 2( 2 - 5 ) 因此干净语音可以用下式来估计: 例2 = j y l 2 一f n l 2( 2 - 6 ) 谱相减方法原理和实现都比较简单,可以消除宽带噪声,但是其它噪声类型仍然将 存在,它存在以下缺点: 谱相减的性能依赖于语音噪声的分类决策( v a d ,v o i c ea c t i v i t yd e t e c t i o n ) ,如 果决策失误,性能将受到很大影响。 从带噪语音的频谱中减去一个平均噪声频谱估计,有可能会出现负值,因此必须设 定一个非负门限来解决。这种非线性操作引入一种音乐噪声( m u s i c a ln o i s e ) 。因 此有文献 b e r o u t i 7 9 提出了非线性谱减法来改善性能。 谱相减法无法在对数域进行操作 谱减法可以表示为一个滤波器,即带噪语音与噪声功率谱之差和带噪语音功率谱的 比值。因为维纳滤波器的转移函数是纯净语音功率谱和带噪语音功率谱的比值,所以谱 减法是维纳滤波器的一个特例。在谱减法中使用的门限使之成为一个非线性操作,所以 该方法会导致语音信号的失真,这可能会导致识别性能的下降。 2 2 2 2 维纳滤波( w e i n e rf i l t e r i n g ) 维纳滤波是语音增强的一种有效方法,带噪语音经过线性滤波后提高其 信噪比,得到以降噪后语音为主的信号。很多成熟的鲁棒性前端特征提取 如e t s i e t s 0 2 ,o g i a a d a m i 0 2 都是以维纳滤波为核心基础的。 在最小均方误差准则( m m s e ) 下,维纳滤波器的频域表达式可表示为: 日= 警 又:h 1 2 y 第7 页 ( 2 7 ) ( 2 - 8 ) 第二章鲁棒性前端方法中国科学技术大学硕士学位论文 ( 2 - 9 ) 其中b 和r 分别是带噪语音和噪声信号的功率谱。与谱相减相似,维纳滤波也存在音乐 噪声和噪声估计问题。很多系统中的维纳滤波算法都加入了很细致地噪声估计平滑和滤 波器平滑处理,有效的减轻了上述问题。 52 2 3 基于参数规整和归一化的方法 如所述,参数规整归一化方法是特征域鲁棒性方法的重要的分支。语音识别所使用的 参数,例如m f c c ,本身都是随机变量,因而有相应的概率分布,训练和测试的不匹配 也就体现为概率分布上的差别。由于噪声的存在,参数的分布往往发生改变。图2 3 给出 了干净情况下和信噪比为1 0 的情况下语音参数能量维的对比: 图2 3 噪声情况下参数分布的变化 很自然的,如果对参数进行规整或归一化,使得在不同环境下的参数分布比较接 近,应该可以改善训练和测试环境之间的不匹配问题。基于累计分布函数匹配( c d f m a t c h i n g ,c u m u l a t i v ed i s t r i b u t i o nf u n c t i o nm a t c h i n g ) i 拘方法是最经典和常用的方法,大 部分参数规整方法都是基于这个思想引伸的。 狭义上讲,c d f m a t c h i n g 方法包括直方图均衡方法( 最初是从图象处理中借鉴而 第8 页 第二章鲁棒性前端方法 中国科学技术大学硕士学位论文 来) 及其各种变形,其基本思想是直接估计出随即变量的累积分布函数,然后再依 据估计出来的累积分布函数进行规整,这类方法称为非参数化c d f m a t c h i n g 。广义 上的c d f m a t c h i n g 包括c m n ( c e p s t r a lm e a nn o r m a l i z a t i o n ) 、c m v n ( c e p s t r a lm e a na n d v a r i a n c en o r m a l i z a t i o n ) 等方法,这类方法往往不是直接地以非参数方法估计累积分布函 数,而是假设参数的概率分布形式,然后用数据估计参数的分布,最后进行规整。这种方法称 为参数化c d f m a t c h i n g 。 2 2 3 1 c d f m a t c h i n g 方法原理 目前语音识别方法的框架要求系统的训练和测试环境精良匹配,两者的失配会严重 影响系统性能。为了减小两者的不匹配度,对训练或测试的语音参数进行某种变换;会 使得它们的概率分布能够比较接近。c d f m a t c h i n g 方法是通过使得两者的概率密度函数 的积分一累积分布函数c d f 匹配,达到其分布一致的目的。实际上,很多特征参数规整变 换方法都可以归结为某种假设下的c d f m a t c h i n g 假设参数变换函数为z = t y ,可为变换前的特征参数,z 为变换后的特征参数; 另设z 的累积分布函数为魄( z ) ,可的累积分布函数是( 可) ,则参数变换应该使得两 者的分布一致,即: c y ( 可) = 敛( z )( 2 1 0 ) 由此可以得到: z = t ( y ) = 嚷1 ( c y ( y ) )( 2 1 1 ) 实际应用当中,c d f m a t c h i n g 原理有两种表现形式: 特征参数补偿基本原理是:首先估计一个目标分布,一般是训练数据的分布的累积 分布函数呶 ) ,然后测试时利用c d f m a t c h i n g 进行映射,使映射后的测试数据的 累积分布函数为训练数据的累积分布函数魄( z ) 。 特征参数规整( 归一化) 基本原理是:实现选定一个累积分布函数,一般来说是高 斯分布,然后把训练和测试数据进行变换,使它们的分布与事先选定的分布相同, 减小不匹配程度。 c d f m a t c h i n g 方法有些假设前提,这也是它的一些不足之处: 由于基于统计概率的前提,c d f m a t c h i n g 方法无法考虑参数随时间变化的细节,某 些因素对其性能影响比较大,例如净音段比例,说话停顿长短等等。因此很多情况 第9 页 第二章鲁棒性前端方法 中国科学技术大学硕士学位论文 下c d f m a t c h i n g 会和其他方法例如语音增强结合。 假设参数矢量各维之间是独立的,这样可以极大地简化算法,并且提高算法效率。 一般来说在倒谱域,由于采用t d c t 变换,这个假设基本可以成立,而在其他参数 域如l o g f i l t e r b a n k 域中,往往会运用其他的算法。 假设是无记忆逐点映射,这样可以简化实现。 2 2 3 2 直方图均衡方法( h i s t o g r a me q u a l i z a t i o n ) 直方图均衡方法 w o r r e 0 2 眦o l a l 】0 2 是累积分布函数匹配原理的一个应用,是一种非 参数方法。这类方法广泛应用于图像处理中,近年应用到鲁棒性语音识别领域中,取得 了较好的效果。 利用各维独立的假设,各维分别处理。定义整个数据集合的最大值z 。和最小 值z 。帕将范围z 。溉x r n a x l 等分为m 个不重叠的相邻小区间( b i n s ) ,将整个训练集参数 分到m 个区间。若f , ;是落到第i 个区间鼠中的参数个数,是参数总个数,那么z 落在鼠中 的概率近似为: m ( z 鼠) = 等 ( 2 1 2 ) 而z 的累积分布函数可近似为: i g ( x t x b ) = 等 ( 2 - 1 3 ) j = l 1 由此可达到一系列的描述累积密度函数的数据( z ,肌) 。可以看到,用直方图来估计累积 分布函数其实就是用分段函数来逼近真实的累积分布密度函数。类似的方法可以得到测 试数据的累积密度函数数据对( 弧,h ) ,然后通过查表得到变换对。 直方图方法不仅可以用来做直接的特征参数映射,也可以用来做非线性无监督白适 应 d h a r a n i p r a g a d a 0 0 1 f ,并且可以与自适应方法m l l r :结合,性能有明显进一步提升。有 研究者研究直方图均衡方法与其他方法组合运用 s e g l l r a 0 2 a 【s e g l l r a 0 2 b ,将线性频域上的 谱相减方法和l o g - f i l t e r b a n k :域上的v t s 方法分别与直方图均衡组合应用,取得了明显的效 果提升。为了跟上环境的变化,f x i a n 9 0 2 提出了基于滑动窗口的直方图均衡方法。由于 普通直方图均衡需要很多数据,无法实现在线系统, h i l g e r 0 2 提出了基于分数位的直方 图均衡方法,在数据比较少的情况下,就可以完成直方图均衡,取得了比较好的性能。 第1 0 页 第二章鲁棒性前端方法中国科学技术大学硕士学位论文 2 2 3 3 参数化c d f m a t c h i n g 方法:c m n 、c m v n 参数化c d f m a t c h i n g 方法先假定概率密度分布的形式,然后通过数据来估计其参 数。其中最常用的是c m n 和c m v n 方法。 倒谱均值归一化( c m n ) 是一种典型归一化方法,它通过将每一帧的参数减去所有 帧参数的均值而得到: 1 t - 1 岔产z t 一面= z t 一享z t ( 2 1 4 ) 一t = o 其中t = 1 t 是帧序数。由公式2 3 可以看出,在倒谱域上,信道畸变h 是加性的,假设 这个h 是稳定的,相当于一个偏移,通过减去均值就可以有效地去除信道的影响。 c m n 方法对信道畸变比较有效,而对于加性噪声却很难有所作为。o p e n s h a w 9 4 的 实验表明,加性噪声的影响往往表现为干净语音分布参数的变化,最常见的是均值偏移 和方差的压缩和扩张。而倒谱均值方法归一化( c m v n ) 方法是c m n 的延伸,除了去除 均值偏移,还引入方差归一化,如下式所示: 盯z2 z 一z z = 仃z c m v n 对有扩展的动态特征参数通常有两种实现: ( 2 1 5 ) ( 2 1 6 ) 先对未扩展的参数做c m v n ,变换后再扩展为动态特征,这个就是通常意义上 的c m v n : 先将特征参数进行扩展,得到动态特征以后再进行参数归一化变换,这个通常称 为m s v n 显然,第二种m s v n 的运算复杂度要稍微大一些,而其性能要有比较明显的提升。 从c d f m a t c h i n g 的观点来看,c h i n 方法是将变换函数2 1 l 简化为x = y c ,其 中c 是一个均值参数,相应的c m v n 在此变换函数上将方差除去。c m n 和c m v n 实现 方法简单,并且能有效地改善参数鲁棒性性能。c m n 可以看作是去除参数一阶矩偏 移,而c m v n 去除二阶矩偏移,h s u 0 4 提出h o c m n ( h i g h e ro r d e rc e p s t r a lm o m e n t n o r m a l i z a t i o n ) ,在这个框架下,c m n 和c m v n 都相当于它的一阶二阶特例,取得 了良好的鲁棒性效果。由于净音段长短对c d f m a t c h i n g 的影响,利用v a d 模块,文 献 a c e r 0 9 5 将净音段检出分别处理,也获得了一定的性能提升。f c h e n 0 2 在进行c m v n 操 第1 1 页 第二章鲁棒性前端方法 中国科学技术大学硕士学位论文 作以后,加入a r m a 低通滤波器,对突发和毛刺噪声有了很好的抑制,在a u r o r a 2 0 数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 县级体育馆社会体育指导员飞盘高尔夫工作年度总结
- 大型云项目架构设计能力提升计划中级
- 探秘成功的网络营销背后产品选择的核心因素
- 初级汽车维修技能实训指导书
- 会计工作计划与财务报表编制指南
- 中国石油拉美面试准备博客
- 话务员呼叫中心情绪管理与压力应对好用指南
- 平顶山燃气整改通知书
- 广东工业大学助学班入学通知书
- 广西服预备役通知书
- 第六课-实现人生的价值-课件-高中政治统编版必修四哲学与文化-
- 砂石料场租赁协议
- 第15届全国海洋知识竞赛参考试指导题库(含答案)
- 收养申请书模板
- 干部人才培养与医院管理
- 公共基础知识复习资料梳理版
- 《SEM基础知识培训》课件
- 农村耕地承包权永久转让合同
- 【MOOC】数字逻辑与数字系统设计-中国矿业大学 中国大学慕课MOOC答案
- Unit4 Body Language Using Language 说课稿-2024-2025学年高中英语人教版(2019)选择性必修第一册
- 医疗机构信息系统安全防护预案
评论
0/150
提交评论