(信号与信息处理专业论文)噪声鲁棒性前端方法研究.pdf_第1页
(信号与信息处理专业论文)噪声鲁棒性前端方法研究.pdf_第2页
(信号与信息处理专业论文)噪声鲁棒性前端方法研究.pdf_第3页
(信号与信息处理专业论文)噪声鲁棒性前端方法研究.pdf_第4页
(信号与信息处理专业论文)噪声鲁棒性前端方法研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(信号与信息处理专业论文)噪声鲁棒性前端方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本论文的研究主题是语音识别的前端鲁椿性问题。语音识别是为了能让计算机明f 人的 由然讲等,经过儿卜年的努力,现在已经发展f l 了不少比较成熟的系统这肚系统在其验室 环境卜( 比较理想的环境卜) ,语音识圳的识圳率( 无论是人词汇餐连续语音识别,还魁是 数字串或者命令词的识别) 取得了很高的识别率。然而,在实际环境中,困为环境噪声的存 矗:以及信道的影响,酿请人情绪状态等田紊的影响,使得识别率在实际环境卜急刷r 降, 简赢到了不能齐忍的地步。综台目前的各种情况,语音识别如果要人规模走向实州,n 订端解 棒- 性的突破是一个关键冈素。本文尝试从不同方面,对语音站 划的前端鲁捧吐问题的卅究做 了一些育黼的探索。 语音识别的噪声鲁棒性方i 去从火的方面可以分为前端方法雨l 后端方法2 个方面。前端力 法上要着服r 消除嗡声对语音特征的影响,或者提取具有抗哄声性能的语音特征,扁端山法 寸要着跟丁使得已经训练得到的系统具有更人的适廊胜恭j 宽彝性或者能够适时调整系统摸 刑,使得模刑能够动态跟踪不断变换的环境,取得最好的识别效果。 文章阿先对语音识别的历史,现状,面临的难题以及实际府等方面的情况进行r 比较 胄4 宴地瓤述。 鲁棒性问题方而的方法报多强杂,每一种方法都有它的的特点帛l 适川范同,而且至今缺 乏一种能对所有鲁棒性蝴题都比较有效的方法,针对这种情况,论文在第一章对鲁棒性前端 问题进打比较全面的归纳和总结。 论文在第三章_ l f jl d a 方法在a u r o r a2 数据库上面进行了提崭噤卢鲁榨性剃降低远傩封 方血f 的廊刖。事实上,如果一个语音识别系统要l 汉得很好的识圳效果,一般来说都要包括j x 分| 生训练的成分,而l d a 方法能满足这种要求。 第四章详细讲述了一种新的前端特征提取算法,即翘曲离散傅里叫变换在前端特征提上阪 中的席该方法模拟了人的耳朵对离撷分世莆l 低频分蜡且有不同的分辨宰这个特点。 在第五章里面,针对实际的鼙使需要,对一些性能比较甜的i i 茸端方浊尤其烂舣亮嘶 方法进仃了他们的o m l i n e 方法实现。 第八章介纠了经典的儿种语膏特键规牲方法在a u r o r a2 数据库上而的测黹情况。 论文第七章首先简要介窖f 丁e f s i 颁布的分布式语音识n ( d s 8 ) 前端标准,井枉此摹础 上进 _ 了维纳滤波和特征规箍方法结合的实验。 关键词翘曲离散傅立叶变换噪声鲁棒性,戏高斯,语音训别前端,在线,维绌滤波,线 性聋异性分析,直方幽特祉参数规箍,倒谱域特征参数补偿 a b s t r a c t t h es u b j e c to f t h e s i si sa b o u tt h en o i s ef r o m e n dr o b u s t n e s sp r o b l e mo fs p e e c hr e c o g n i t i o n s p e e c hr e c n g n i t i a n i st on l a k et h ec o m p u t e ru n d e r s t a n dh u m a ns p o n t a n e o tr ! s m n g u a g e a t e r s e v e r a lt e ny e a r se n d e a v o r , s o m em a t u r es y s t e m sh a v eb e e nd e v e l o p e dw h i c hh a v eg o tf a i r l yh i g h s p e e c hr e c o g n i t i o nr a t ei np e r f e c tc o n d i t i o n ( i n c l u d i n gi nl a r g ev o c a b u l a r yc o n t i n u o u ss p e e c h r e c o g n i t i o n ,d i g i t a lc l u s t e ra n dc o m m a n d i n gw o r d s ) h o w e v e r , i na c t u a lc o n d i t i o n ,f o rt h ee f f e c to f n o i s e 。c h a n n e l ,t a l k e r se m o t i o na n ds t a t e ,t h er e c o g n i t i o nr a t ed r o p sm u c ht ow h a tc a n tb ep u tu p w i t hi t i sc l e a rt h a tn o i s ef r o n t - e n dr o b u s t n e s si sap i v o t a ls i d ei nt h ew a yt ob r i n gt h es p e e c h r e c o g n i t i o nt e c h n o l o g yi n t oa c t i o ni nr e a lc o n d i t i o ni nt h i st h e s i s ,d i f i e r e n ts i d e so f w a y sa r et ob e s t u d i e d ;no r d e rt of i n ds o m eu s e f u li n f o r m a t i o n r b en o i s er o b u s t n e s sw a yc o n t a i n st w os i d e ,o n ei sf r o n t e n dw a y , t h eo t h e ri sb a c k e n dw a y , t h ef o r m e rt a k e su pw i t hr e m o v i n gt h ee f f e c to ft h en o i s et os p e e c ho re x t r a c t i n gs p e e c hf e a t u r e w h i c hc a nr e s i s tt h en o i s ee f f e c t ;t h el a t e ri st oa d j u s tt h em o d e l st 0a d a p tt h en e wc o n d i t i o n i nc h a p t e ro n e , t h et h e s i sf o c u s e s0 nt h eh i s t o r y , a c t u a i i t y , d i f f i c u l t ya n da p p l i c a t i o ne l co f s p e e c hr e c o g n i t i o n t h e ma r em a n yk i n d so fn o i s er o b u s t n e s sf r o n t e n dw a y sa n de a c hh a si t sc h a r a c t e ra n d i n - p o i n tr a n g e f u r t h e rm o r e t h e r ei sn o taw a yt h a tc a nd e a lw i t ha i tk i n d so fr o b u s t n e s sp r o b l e m t ot h i sd a y 0 e n e r a lc o n c l u s i o n sa r em a d ei nc h a p t e r2 , l d at r a n s f o r m a t i o nw a yi si n t r o d u c e d ;f lc h a p t e rt h m e w h i c hi su s e dt oi m p r o v et h e r o b u s t n e s sa n dr e d u c et h eo p e r a t i o n so na u r o r a2d a t a b a s op l a t f o r mf nf a c t i f 自s p e e c h r e c o g n i t i o ns y s t e m w a n t s t o g e tag o o dr e s u l t d i s e r i m i n a n t t r a i n i n g s u c ha sl d a t r a n s f o r m a t i o n i s n e c e s s a r y an e wr o b u s t n e s sf r o a t e n dk a t a r ee x t r a c t i o nw a yi sj n t r o d u c e dw h i c hs i m u l a t e st h ee a r s h e a r i n gt r a i t t h ec o r eo ft h ew a yi sw d f tt r a n s f o r m a t i o n ,w h i c hc a ng e tam o er o b u s t n e s s f e a t u r e b e c a u s eo f t h en e e do f e n g i n e e r i n ga p p l i c a t i o n ,d o u b l eg a u s s i a nw a y s0 1 1 一l i n er e a l i z a t i o n i s i n t r o d u c e d i nc h a p t e r f i v ee x p e r i m e n t o f f a u r o r a 2d a t a b a s es h o w sas a t i s f i e dr e s u l t m a n yc l a s s i c a lf c a t u r en o r m a l i z a t i o nw a y sa r e t e s t e do na u r o r a2d a t a b a s ei nc h a p t e rs i x c h a p t e rs e v o dg i v eab r i e f i n t r o d u c t i o no f e t s i f r o n t - c n d a n o t h e rc o m b i n a t i o ne x p e r i m e n t s b e t w e e nw i e n e rf i l t e r i n ga n df e a t o r en o r m a l i z a t i o na r ea l s ot e s t e d k e y w o r d sw d f t , n o i s er o b u s t n e s s 。d o u b l eg a u s s i a n ,s p e e c hr e c o g n i t i o nf r o n t e n d ,o n l i n e w i e n e rf i l t e r i n g , l d a ,h i s t o g r a m ,f e a t u r en o r m a l i z a t i o n 。c e p s t r u mf e a t u r en o r m a l i z a t i o n 3 1 1 语音识别简介 第一章绪论 机器能听情人类的语言吗? 我们能扔肆键盘、鼠标,用自然语言直接来操纵计算机嘛? 隧着语音识;! ;j j 技术的不断进步,这个梦想也止在一步一步变为现实。 白动语音识 j i l ( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 技术通俗的说就是指让计算机能听 怖人的说话语音的技术,更狭义的定义则特指从人的语音到陆面文字的白动转换技术。语音 识5 ;i j 以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的个分支 涉及剑生理学、心理学、语寿学、计算机科学以及信号处理等诸多领域,共至还涉及剑人的 体态语言( 如人在说话时的表情、手势等行为动作可帮助对方理解) ,其最终日标是实现人 与机器能以自然语言米进行通信。语音识别的应用范同很广泛,主要有听巧机,语音命令控 制语音翻译语音信息压缩语音信息获取,智能玩具等领域。尤其是在一些特殊的领域 比如开车过科中的打手机的闽题,很多国家的法律明令禁f ,在这种情况f ,语音拨号似乎 成了唯一的选择。还有很多信息咨询领域急切需要实现自动化,语音识别技术将能够满足这 种需求。总而言之语音识别技术会在很多方面给我们的生活带来变革。 1 2 语音识别系统的分类 现存的各种各样不同性能的语音识别系统中,考虑到所使川的技术以及适州性,人致铂 如i = d , 在8 6 3 数据库卜面,n 1 = 2 6 很容易满足也就是要每句话包括足够多的类,然而在 a u r o r a 2 数据库上面,分成了1 3 个类,新特征的维数为1 3 ,要满足n 一1 = 1 3 ,可以发现 一方面是这里的类数太少,另外一个方面,每句话太短,从而包括的类数相对较少,如 果新维数太小,可能会影响测试效果。这个问题的解决目前看来能从三个方面米着手, 一个方面是新特征的维数继续减少但是要人丁9 ,另一方面是把原始的数据较短的句子 进行拼接从而形成包含鞍多类的等价欧句子,这当然还包括在原米的m l f 文仆的基础 上的相麻处理,另外一个比较有效的方法就是对类的重新定义,可以选择更小的模式单 元比如音素,这样的结果是一方面,每句话的类别的个数会明显增加。另外个方面的 结果是类的总数会增加,这样无论从那个方面来说,都更容易满足上面出现的限制条引。 我们的实验采h 的方式如卜为第一二种,把3 0 0 句话串接起米作为一个k 句进行洲 试,而且使h c l e a n 年m u l t i 两个l d a 变换矩阵。 1 s 2 窑骑结果以及性能分析 豢蘸爨爨搿嚣缫臻慧爱霞麓燮避缀嚣震裳黉黪缫鬻瀑缝辫鞭g 燮黪。嚣琏黪。j 誊 t r a i n i n gm o d e i s e t as e t b s e t c i o v e r a l l m u l t i c o n d i t i o n 2 98 2 3 87 4 4 36 3 i 3 6 1 5 c l e a no n l y4 98 7 5 95 3 4 23 4 l 5 2 2 3 a v e r a g e 3 98 5 4 9 1 4 u * 、。_ _ _ _ 一一 可以看出来,这个结果比单纯使用m s v n 方法有一些提高。 第四章w d f t 在前端鲁棒性特征提取中的应用 4 1 前言 语音特征的提取对丁语音信号的识别率的高低有很重要的影响。研究人的耳朵的听觉机 理可以知道,人的耳朵对有噪声环境r 的语音信号的识别有很好的鲁棒性。而且耳朵列丁高 频分嚣和低频分苗的分辨率是不一样的。针对这个特点,对传统的语音特征参数m f c c 尝 试使刚一些非线性变换米得到高频分培利低频分量分辨率不同的语音参数,从而可以得到较 好的汲别率。通过在a u r o r a2 数据库上面的实验表明,采川这种方法的语音识别的识圳率 有一定的提高。 在数字信号处理中,离散傅里叶变换d f t ( f f t 是其快速算法) 是最常川的频谱分析f 具, 在实际中得剑了j 泛的麻川。但是冈为傅里叶变换在 0 ,2n 的频率范罔上只能提供按j 2 n n 等分的嗣定频率的分辨率,冈此在一些需要非均匀频率分辨率的麻h 中,其性能, :不 理想。 针对傅里叶变换的这个缺点,文献【1 中提山了非线性d f t 算法,以提供 0 ,2n 上1 卜 均匀的频率分辨率。w d f t ( 翘曲离散傅里叶变换) 就是这样一种非线性d f t 变换,它通 过麻_ l 全通变换翘曲频率轴米改变频点分布的位置,使得在翘曲频率轴上均匀分布的频点等 同丁原来频率轴上1 f 均匀分布的频点,由此实现在单位圆上非均匀的频率采样。通过选择翘 曲参数,能在不增加d f t 跃度n 的条件f ,将特定频率范同内的采样点之间距离拉近,从 而得剑更高的精度。 在语音识别中由丁人类的听觉系统对频率的分辨率是非均匀的,对低频比高频有更盘, 的分辨率,冈此希望在语音识别中提取的语音特征能反映非均匀的频率特性。m f c c 参数提 取过样中的滤波器组就是模仿人耳朵的这种1 | 线性特征。问题是在提取m f c c 特征的过 样中,信号的线性频率还是通过传统的傅里叶变换米得到( 见幽l ,m f c c 特征的提取过胖 框幽) ,在整个频率域上是均匀的,虽然后面的滤波器组模仿了人耳朵的听觉机理,但是闪 为点数n 的限制,可能一些有川的低频信息在d f t 的时候已经丢火了,这些信息将4 i 会被 后面的滤波器组利川到。冈为这个原冈本文尝试将w d f t 廊埘在语音识别中,提“ 了 种基丁w d f t 的m f c c 特征提取算法,该算法采州w d f t 来提高语音信号低频分辨率,与 传统的提取方法相比更符台人类听觉系统的特性。实验结果表明本文的特征提取算法比传 统的算法具有更好的识别效果。 鳘i8 识别前端计算框蹦 4 2 研究背景: 在实际应j l f j 过拌中,有许多原田都可能导致语音识别系统的识别率人幅度卜降,这些原 冈包括语音采集环境的影响( 加性噪声,录音殴备,信道畸变等) 年说话人的影响( 说话风 格,口音,以及环境影响引起的说话风格的变化等) 。为使语音识别系统在面对这些不利条 r 卜时也能具有较好的性能采川了许多方法来增强系统的鲁榜性( r o b u s t n e s s ) 。这些方法 总的米说可以分为两人类:自适应方法,主要着眼丁对声学模型进行变换以适庶特定的使j j 环境,! 一化方法,主要是通过对语音特征参数的变换柴减小训练年| l 使川环境2 问的不匹配 胖度而所有的前端鲁棒性方法都建立在首先提取语音特征参数的基础上。本文就是从语裔 特征参数的提取山发米提高语音识别的识别率。 4 3 基本原理: 翘曲离散傅里叶变换( w d f t :w r a p p e dd i s c r e t ef o u r i e r t r a n s f o r m ) 是一种特殊的1 r 均 匀n d f t 。& 度为n 的序列x 的n 点w d f tx m w 纠等丁川f 列变换将( :) 修正( :) 厉,在( ;) 上n 个均匀分布点的频率采样值 z = b ( ;) 其中b ( ;) 是m 阶实系数全通函数,通过这种全通变换可以将频率坐标翘曲,在;平面单付 吲上均匀分布盼点被映射剑z 平商单位圆上的不均匀分布点,那么将映射( i ) 腹州剑z 变 换则可得到: x ( ;) = 虹珂】b ( ;) “ ( 1 5 ) w d f tj m 【纠为x ( ;) 在n 个均匀分布点的频率采样值,也就是x ( ;) 在;= f m 7 “( k = 0 ,i ,2 n 一1 ) 点上的值,所以 。= x ( ;) b 。, ( 1 砷 若全通变换采川一阶全通函数,令b ( ;) = 二! 告( 口就是翘曲参数) ,则通过一阶全通变 l 一口z 换,原来频率u 乖i 映射频率五之间的关系为:t a i l 呼) = ( 等) t a n 呼) = 2 a r c t a n ( ( 鲁) l 趴( 争 ) 由上式可以看出当翘曲参数为负数( 正数) 时一阶全通映射延伸了低频( 高频) 区域,使 低频( 高频) 曲与的频率分辨率更高。相应地压缩了高频( 低频) 区域。当a = 0 时,w d f t 其实就是d f t 变换。 4 4 实现机制 w d f t 变换与传统的d f t 变换相比在提取特征参数方面的优势在丁:传统的变换丑 o ,2 万玎司的频率范同内只能提供按照詈等分的j 吉i 定频率分辨率,而w d f t 变换通过应| j 全通变换翘曲频率轴米改变频点的位置,使得在翘曲频率轴上均匀分布的频点等同丁原频率 轴上1 r 均匀分布的频点,从而实现在单位圆上非均匀的频率采样,这个特点跟人的听觉系统 剥频率的分辨率根类似。传统的d f t 变换提高n 能均匀地提高低频和高频部分的分辨率, 当点数n 不够时,对识别很重要的低频分辨率可能达不到要求。通过选抒恰当的趔曲参数 就可以达剑在翘曲频率轴上面均匀分布的频点对应丁- 在原频率轴上面非均匀分布的频点,井 使得低频部分的分辨率更高以符合人的听觉系统的特性。基r 上面的讨论,可以考虑把这个 w d f t 变换_ l l j 在m f c c 参数的提取过样中去。m f c c 参数提取过程中有f i l t e rb a n k 这 个滤波器组,它在m e l 域上面是均匀分布的,而在频域上面是非均匀分布的,并且低频部 分的分辨率高,符台昕觉特性。所以考虑把f i l t e rb a n k 前面的f f t ( d f t ) 变成w d f ,i , 川w d f t ( f ) f 曲线去拟合m e l ( 卜f 曲线,后者由公式可以得到,前者通过选择适当 的翘曲参数可以实现对后者的拟合,这样就能找到比较好的翘曲参数,井通过实验进步找 到能使得识别率最高的翘曲参数。 冈为d f t 的计算有f f t 这样的快速算法,而w d f t 如果商接计算运算封会很人,尤其 是如果应川在一些实时性很强的系统上面,效果可能会很著。所以在实现的时候,采h 文献 1 】中的方法,把对w d f t 变换的计算转化成矩阵( 或者对角阵) 年l 向鼙相乘的形式米进行。 而所川刮的矩阵都是事先可以计算得到的,保存起米等使用的时候调心f 就可以,这样运 算鼙就会降低很多。 4 5 实验平台:( 实验数据和设置) 我”j 的比较实验是在a u r o r a 2 数据库上进行的。a u r o r a 2 是人一加入噪声羊i | 彳占道影l j 向的 t l 数字串数据库。规定了两种声学模啦训练模式:了干净语音训练( 称为c l e a n ) 和川干 净语音和带嗓语音一起进行训练( 称为m u l t i ) 。对每种训练模式,都要进行二个集合的测试: a 榘,为训练平测试时噪声类l ! 相同:b 集,为训练和测试时噪声类鼎不同;c 集,测试数 据既有加性噪卢也有信道不匹配的影响。 a u r o r a 2 同时规定了语音识别的后端配置【5 。规定使州h t k 米进行训练平测试;每个 数字模型有1 6 个状态,每个状态有3 个混合赢斯:静音( s i l e n c e ) 模型有3 个状态,每个 状态存6 个混合高斯:短暂停顿( s h o r tp a l a s o ) 模型只有1 个状态,f 且这个状态和静音模 艰的中间状态绑定在一起。该数据库的目的就是在完全相同的训练和测试条件r ,比较不同 的前端鲁椿性参数方法的效果。 4 6 实验结果及性能分析: r 面首先看看翘曲系数和幅度谱的分辨率之间的关系: 翘曲参数为负值,f 面儿幅圈从上往r 卜翘曲参数的绝对值依次增人,测试数据使川的是 a u r o r a 2 里面在n 1s n r l 5 环境f 的f a c1 a 0 这句话来得到幅度谱的: 首先是f f t 的结果: 幽9 经过f f t 以后的幅度i 牛( 口印) 幽1 0a = - 0 1 7 的幅度谱 图i l 翘曲系数a = - 0 2 7 的幅度谱 可以明显看出米,低频部分的幅度谱被拉伸,分辨率提高,高频部分的幅度谱受剑压缩, 分辨率降低,恰好类似丁人耳朵对频率的分辨特性,而且负值系数的绝对值越人,低频部分 拉仲的越人,高频部分压缩的越严重。这里面就存在一个低频部分和高频部分的权衡问题。 这些问题可以通过进一步做实验来确定比较恰当的参数。 当d = nl3 得训目前晶盎f 的识川结耍幻f 图1 2 在a u r o r a 2 数据库l :的识别结果 分析上面的结果可以看出米,总体上识别率有o 8 5 的提高( 相对丁前面平台所殴置的 b a s e l i n e 系统) ,s e t a 和s e t b 都有所提高,s e t c 有所降低;c l e a n 情况卜的识别率有所提高, 但是m u l t i c o n d i t i o n 上面的识别率有所降低。分析其中的原田,初步认为,在集合c 上面山 现卜降可能是信道不匹配的原因,因为训练部分的数据使_ i :| j 的是g 7 1 2 滤波器,测试部分的 数据使州的是m i r s 滤波器,这个信道不匹配影响可以通过使h jc m n 方法来消除,从而可 以进一步提高识别率。m u l t i 降低的原因大概是因为m u l t i 的识别率的绝对值本米就比较高, c l e a n 的比较低,相对提高c l e a n 更容易一些,另外,对高频部分分辨率的过分压缩有可能损 害识别率的提高。 4 7 结束语 本章提山米的把非均匀d f t 变换的一种:w d f t ,根据人的耳朵对低频部分的分辨率 要求更高的特点,应川丁传统的m f c c 参数的提取过群中,然后刚这种方法得到新的特征 参数米进行语音模型的训练和识别,枉a u r o r a2 数据庠上的实验结果表明,识别率有定 的提高。 除了利刈c m n 方法消除信道不匹配的影响之外,这种特征参数希一些经典的前端鲁棒 性方法结合起米可能能进一步提高语音识别的识别率。 第五章若干重要前端方法的o n 1 i n e 实现 5 1 双高斯方法的0 1 1 1 i n e 实现 语音识别中,当有噪声存在的情况卜,特征参数通常呈现般峰分布。针对这个特点,采 州更为细致的域高斯模型来模拟这种分布,并且使_ i : i 酬算法来获得相应的模型参数。最后 通过参数变换使得训练和识别时的特征参数的分布都j 1 1 一化为标准高斯分布,识别率得以提 j 箭,其性能明显优丁常规的m v n 方法。然而,在实际的:科应i h ;j 中,需要能实时通过e m 算 法进行模型参数的更新。本文通过采用一些新的方法和策略米实现烈高斯方法的实时 o n l i n e 实现。通过在a u r o r a2 数据库上面的实验表明,这种方法取得了较好的效果。 s 1 1 引言 背景噪声的存在通常会导致语音识别系统的训练环境和测试环境的不匹配,冈为训练的 语音数据雨| 测试语音数据都是随机变量,环境的不匹配反映在训练数据平测试数据上面就灶 从训练数据提取的特征分布和从测试数据提取的特征概率分布不一致,这种不一致会使得识 别率急剧f 降。为了提高语音识别系统的性能,有必要降低训练环境利测试环境之间的不匹 配。处理这种问题一般有两类方法:一类方法就是把训练数据和测试数据的特征向域变换剑 同一。种声学空间,这就是所谓的! f 1 一化方法,这类方法比较典型的有m v n m s v n 。 m s v n + a r m a ,h e ( 直方幽均衡) 等;另外一类方法就是调整已经训练空的声学模钭的参 数,一般是均值和方著,使得已经训练得到的模型适应测试环境的特征,这就是所谓的臼适 应方法,这类方法比较典型的有m a p , m l l r 等。归一化方法的一种常见做法就是把训练数 据平测试数据的分布变换为同一个分布,一般取标准高斯分布,从而降低冈为噪卢存在引起 的训练数据希i 测试数据两者之间的不匹配的影响。 考虑到赕卢影峋r 的语音特征参数通常警现毅峰分布,艘赢斯门一化方法就是使川2 个单高斯分布的线性组合米更精确地描述带噪语音特征的这种分布情况,通过e m 算法米得 到这个分布函数里面相关的参数最后通过参数变换使得训练平识别的特征系数的分布都 一化为标准高斯分布识别率从而得以提高。其中最重要的想法是对带噪语音的域高斯模型 描述,以及把带噪的训练数据乖l 测试数据都变换剑同一种分布。使州e m 法划来估计似高斯 分布的相关参数,原来的方法是离线使川的,并且取得了很蚶的效果,但是对丁实际的j 胖 戍州来说,实时在线实现就显得很重要了。般高斯方法的实时0 1 1 1 i n e 实现存在的蜮主要的 问题就是对e m 算法求解相关参数的实时更新以及冈为a u r o r a2 数据库中的语句较短而在 逐帧更新的过烈中存在的闯题,这些阀题在本文里面得划了较好的解决。 5 1 2 研究背景 考虑到双高斯方法在a u r o r a2 上面的实验取得了较好的识别率,其识别率不低1 :谱相 减平直方图均衡结合在一起的效果,但是其运算复杂度却比后者明显要低不少,实用价值较 高所以双高斯方法在实际的程应用中的实时o n l i n e 实现就显得很迫切了,文中采_ l j 了一 些新策略较好地解决了取高斯方法的实时o n l i n e 实现问题。 5 1 3 特征参数归一化方法 5 1 3 1 景积分布函数匹配原理 目前语音识别方法的概率统计框架要求系统的训练环境和使州( 测试) 环境之间应该尽可 能匹配,两者之间的失配将严重影响系统性能,甚至使得系统完全不具有实州性。 为了减小两者之间不匹配的桴度,一个非常直接的想法就是对训练或者测试的语音参数 进行某种变换以使得他们的概率分布能够比较接近,从而减小训练和测试的火配稗度。我 n j 也可以通过使得两者的概率密度函数的积分一累积分布函数( c u m u l a t i v ed i s t r i b u t i o n f u n c t i o n ,c d f ) 匹配,来做到这一点。根据这个原理。变换豳数可以由数据的累积分布函数 获得,如f : 设参数变换函数为x = t y 】,y 是规整前的特征参数,x 是规整变换斤的特征参数 再设x 的累积分布函数为c x ( z ) ,y 的累积分布函数是 残( 儿一h ) ( 咒一h ) 以= 型一 以 则参数变换函数应该使得 c y ( y ) = c x ( z ) 由此、g 以得到: x = r y 】= g 1 ( q ( y ) ) ( 1 8 ) ( 1 9 ) ( 2 0 ) 上述方法也被称为参数补偿,实际应州当中,为了算法实现的方便经常把训练和测试 的数据概率分布都变到同一个事先给定的标准分布( 通常是标准高斯分布) ,这称作参数门 一化。 5 1 3 2 均值方差归一化方法( m v n ) m v n 是目前仍然比较有效的鲁棒性方法之一f 4 】。该方法的基本原理是通过特征参数的 均值雨i 方著米对其进行! j 1 一化。也可以把m v n 看作是累积分布函数匹配原理席心的1 个特 例:当特征参数符合高斯分布时,累积分布函数原理等价丁m v n 方法。但魁由y - m v n 方 法中仅仅川剑均值雨i 方著职个参数,并且单高斯只能较好的表示单峰分布,所以,如果特征 参数分布比较复杂的话,仅仅i l f 两个参数米描述是不够充分的。 5 1 3 3 直方图均衡方法 赢方幽均衡方法【5 】是累积分布函数匹配原理应川的另一个例子。这类方法被j 泛的应刈 在幽像处理中,最近儿年也被应用到鲁棒性语音识别中,取得了较好的结果。与m v n1 i 尉 的是。直方酗均衡使州1 f 参数方法来估计累积分布函数。实际麻刚中,通常是川参数的累积 直方图米近似表示累积分布函数,所以称为直方图均衡,在普通直方幽基础上发展出r 基丁 分伉数的直方幽均衡,计算簧更小。 【6 】提山了将谱相减方法和直方图均衡方法结合起来的方法,这是目前直方幽均衡方法中 效果较好的一个。首先埘谱相减方法在频域中减去加性嵘声的影响,然厉在倒谱域中埘直方 幽均衡方法对残留的由加性啭声和信道畸变引起的北线性畸变进行补偿。 在噪声环境f ,语音特征参数常常呈现一种双峰分布【7 】。这是冈为语音段 l i 噪声段的特 征参数的统计分布特性有较人差别,冈而不同段的特征参数集中丁不同区域。 5 1 3 4 谱相减方法 谱相减方法在语音增强和语音识别领域都取得了成功。在这种方法里面,假设噪声是短 时平稳的,噪声的能量谱密度在没有语音的数据段里估计得到,如果语音假设为短时平稳的, 弗且噪声是加性的而且是与语音信号不相关的,那么带噪语音信号可以表述如卜: y n ;m 】= s 【聆;m 】+ 啦n ;m 】:( 2 1 ) 其中s 币 h 分别代表语音信号和噪声信号,聊代表某一帧,假设我们已经得到了嵘 声的能量谱密度( p d s ) ln ( c o ;m ) | 2 ,那么原始语音信号的p d s 的估计可以写作如i # j n 式: f 童( 讲;胂) 2 = ly ( c o ;m ) r ln ( c o ;m ) 1 2 ( 2 2 ) 5 1 4 双高斯g m m 特征参数归一化方法 5 1 4 1 方法原理 为了能在累积分布幽数匹配原理的基础上,克服m v n 方法不能充分利川语音特祉参数 的般峰特性的缺点,同时朋参数化模型来表达语音特征的累积分布函数我f j 挺山了种基 j i 舣高斯g m m 的j j l 一化方法,并且用e m 算法估计模型参数。与m v n 等单高斯的情况褶 比,烈高斯模型对特征参数敬峰分布的拟合会女,得多。 如果y 的概率密度分布可以刖r 面的g m m 表示: p ( ,) = c k n ( y ;k t k ,吼) ( 2 3 ) 那么y 的累积分布函数为: q 加砉c k f ( 气 ( 2 4 ) 上式中,函数f ( f ) 是标准高斯分布的累积分布函数,但是这个函数井没有解析表达式 所以我们在实现的时候埘查表法米实现。 5 1 4 2 模型参数估计 往获得语音特征参数后,需要估计模型的参数。我们采_ l 了e m 算法,该算法运川丁含 有隐含变堵的模型参数估计问题。而g m m 的参效估计问题就属丁这类问题。详细算法介绑 可参见f 8 】。如果一个般高斯的g m m 模型如卜所示: p ( y i ) = 给定数据”后,得到 以= 焉掣p 【m l 妒, 以= 以 ( 2 5 ) ( 2 6 ) ( 2 7 ) 那么经过一次迭代后的g m m 的各个高斯的权重,均值,方差分别为式( 8 x 9 ) ( 1 0 ) 所示 t = 斋 ( 2 8 ) ) 凤m咯 : 1 1 ) 纯以q :“ 以( 只一h ) ( 儿一h ) !:!,一 以 ( 2 9 ) ( 3 0 ) 为求得可靠的参数,通常需要进行几次迭代。 5 1 ,4 3 近似实现 标准高斯分布的累积分布函数及其反函数是没有解析表达式的,冈此,我们川氕表的方 法米近似实现了这两个函数。具体的方法是建一个表,表的每个单元记录累积分布函数凡 的白变蟮t 承i 对廊的函数值。给定t 卉找函数值就可以实现求取累积分布函数值的操作,反 之可以实现求取反函数的操作。中间的点的值采刈其附近两点的线性肉插的方法得到。奄表 时可以采川折、r 卉找法以加快查找速度。 5 1 5 实时o i l 1 i n e 实现方法 般高斯方法实时o n 1 i n e 实现主要分为如f - - 个方面:一个是e m 算法里面的系数,均 值,方筹的逐帧模型参数更新,另外一个是由a u r o r a2 数据库里面的语句过短所引起的问 题而采取的席对措施,也就是数据的拼接过烈,最j 斤是变换过程中按照每一种噪卢雨i 信嵘比 对数据进行的细分。 5 1 5 1 对a a r o r a2 数据库语句的拼接 田为i l u r o r a2 上面的句子比较短,最短的只有7 0 帧左右,实时o n l i n e 更新的时候如果 只川一句话进行更新得到相关参数,冈为句子很短,而参数的更新是逐帧进行的实时o n l i n e 的实现方式要收敛剑全局是住( 这就是o f f l i n e 的情形) 的状态需要一个最少帧数的句子, 如果少丁这个帧数,那么相关参数还没有收敛到全同摄佳,这时迭代过程已经结粜了,实验 表明,克服这个问题,不能仅仅通过调髂收敛系数口来实现,所以在a u r o r a 2 上面做的实验 首先h j 一句话初始化系数,均值,雨i 方著,然后把c l e a n ,m u l t i 和3 个测试集里亟的数据备 白分别串在一起成为一个k 句子。川这个长句子对参数进行更新,很明显,这样的处理使得 句子长度人人增加。能较好地解决上述的问题。 5 ,1 ,s 2 对训练鼗据和涌试数据按环境的细分 a u r o r a 2 数据库有若干种噪声和若干种信噪比,不同的噪声和不同的信蝶比组台成了蛙 终的训练数据和测试数据的细分类翻,这些类型都模拟了一定的实际麻用过程中出现的典,i ! 噪声环境。 如前所述,冈为a u r o r a2 数据库的句子比较短,所以使j 【;h 拼接这种策略可以解决这个问 题,然而在拼接的过程中也存在这样的闯题:所谓的拼接,其实就趋把使用上一句话进行更 新得到的系数,均值,方著值作为下一句话进行更新的起点,也就是r 一句话是在上一句话 更新得到的结果的基础上进行新的更新。很明显,在同样一种噪声和信噪比情况r ,句子之 间的声学特性比较接近有理由相信,经过少数一些帧就可以收敛到稳定的参数( 也就是 o f f l i n e 的情况) ,参数在这样的条件卜起伏比较小,而分属不同的噪声和信噪比情况的2 句 话如果进行上述的拼接势必会p 司为差异太人而不能很好的收敛到全局最佳状态,在这种情 况r ,按照a u r o r a2 的数据的分类来进行细分迭代更新,也就是以a u r o r a2 的数据分类为 单位进行上述的拼接和逐帧更新过程,咀每个分类的第一句话来初始化系数,均值,方著, 弘 i j ,r ,l i j 后面余f 的数据拼接起来进行更新。 最终的实验是按照a u r o r a2 数据库的! h 织结构细分成了如r2 0 种情况分别进行拼接处 理的。 贝体的迭代更新过程分成如f ) l 种情况: c l e a nd e a n 3n 1s n r l 5n 2 _ s n r l 0n 2 _ s n r 5 n 3 _ s n r 2 0n 4s n r l 5c l e a n l c l e a n 4 n 1 一s n r 2 0n 2 一s n r l 5n 3 一s n r l 0n 3 _ s n r 5n 4 _ s n r 2 0 c l e a n 2 n 1 一s n r l 0 n i _ s n r 5 n 2 _ s n r 2 0n 3 s n r l5 n 4 s n r l 0n 4 s n r 5 其中n + 表示噪声类型,s n r * 表示信噪比。 考虑到初始化方式对参数的影响,在初始化得到的参数以厉还刚初始化的邪句话进行r 3 次迭代以得到更好的初始化值。 5 1 5 3e m 法则的相关参数进行逐帧更新 对烈高斯方法的实时o f f 1 i n e 的实现,关键在丁- 对e m 法则里面对2 个高斯分布的系数 均值,方著的o n - l i n e 更新,我 j 采_ i f j 的方法如f : e m 算法的更新公式如f : 其中涉及剑的参数的物理意义如r : e m 算法里面的系数定义: 其中,。= 以。 a = 务 吣拽“:塾i :銎:竺:互i 厶, :了一i 一】 e m 撒蛳肭雠扎a 2 2 寺2 午2 号 e m 算法的方筹定义 ( 3 1 ) ( 3 2 ) n 以( 咒一i l k ) ( y , 一) l 一 ( 3 3 ) “ 以( 咒一从x 咒一) :二二二n 正二:丝 ( 3 4 ) 丝 v 其中表示观察久鼙咒落在第七个高斯分布的后验概率,那么不难理解,丘,:依 次表示获得了第个观察欠量以后第k 个高斯分布出现的概率,均值平方著。 系数的迭代过群是: 带1 = ( 1 一a ) 矗+ a 矾“, 口为收敛系数, ( 1 4 ) 均值的迭代过科如f : 4 i 方著的造代过样如h 哝 ! ! 二竺毪! 咝:l 监 = 半+ ( 3 5 ) 51 6 实验平台 简单介宝f 一卜a u r o r a 2 b a s e l i n e 实验平台。比较实验是在e t s i 规定的数据库a u r o r a 2h 上进行的。a u m r a 2 是人i 加入噪卢和信道影响的t j 数字串数据j 荦。规定了两种声学搂一 训练模式:川干净语音训练( 称为c l e a n ) ,和用干净语青平带噪语音一起进行训| 缘r 称为 m u l t i ) 。对每种训练模式,都要进行二个集台的测试:a 集为训练和测试时嵘卢类型相同: b 集,为训练和测试时噪声类开! 不同;c 集,测试数据既有加性噪卢也有信道不匹配的影 响。a u r e , r a 2 同时也规定了话音识剐的后端配置。规定使h t k 米进行调练乖l 测试;每个 数字模型有1 6 个状态,每个状态有3 个泄合高斯;静音( s i l e n c e ) 模型有3 个状态,每个状 志6 个泄台高斯:短暂停顿( s h o r tp a u s e ) 模型只有1 个状态,并且这个状态雨j 静音模型豹中 间状态绑定在一起。据此,a u r o r a 给定了一个规定了训练和;| 0 0 试数据集,阻及识别后i 端晌 数字串识别系统,它的目的就烂在完垒相同的训练年测试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论