(信号与信息处理专业论文)噪声鲁棒性语音识别:从特征提取到声学模型的研究.pdf_第1页
(信号与信息处理专业论文)噪声鲁棒性语音识别:从特征提取到声学模型的研究.pdf_第2页
(信号与信息处理专业论文)噪声鲁棒性语音识别:从特征提取到声学模型的研究.pdf_第3页
(信号与信息处理专业论文)噪声鲁棒性语音识别:从特征提取到声学模型的研究.pdf_第4页
(信号与信息处理专业论文)噪声鲁棒性语音识别:从特征提取到声学模型的研究.pdf_第5页
已阅读5页,还剩158页未读 继续免费阅读

(信号与信息处理专业论文)噪声鲁棒性语音识别:从特征提取到声学模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 本论文的研究课题是噪声鲁棒性语音识别。冈为语音识别系统在噪声环境中识别性能会 严重f 降,所以噪声鲁棒性是目前语音识别面临的主要问题之一。我们从特征提取到声学模 型进行了一系列的研究i 作,提出了一些新的鲁棒性语音识别方法。 第一个方法是略帧法。略帧法在识别过程中对每帧的似然值加权,帧权值是帧信噪比的 函数。略帧法克服了忽略特征法的缺点:一是特征参数可以使_ | _ 倒谱系数;二是只需要通过 帧能鼙估计信噪比,鲁棒性较好。但略帧法不能弥补语音频谱受噪声的干扰。为了进行语音 频谱的补偿,在第二个方法中我们提出了将离散全极点模型( d a p ) 州丁特征提取过科中以提 高特征参数的鲁棒性。d a p 频谱克服了l p 频谱峰值会偏向基频谐波的缺点,且在计算过程 中可以对i s 距离进行加权。我们用时频域信噪比对d a p 加权。但该方法的性能受剑信噪比 估计精确度的影响。为了避开信噪比的估计,本文提出了第二个方法,一种新的子带加权白 适应方法。该方法克服了传统子带法的两个缺点:一是保留了频谱子带间的相关性:二是可 以h j 白适应的方法对子带权值进行估计。我们分别提山了特征空间和模型空间的子带加权。 根据最人似然臼适麻理论分* 提出了特征空间和模型空间子带权值臼适应算法。以一h 的方 法均基t - h m m 模型,在第四个方法中我们实现了基丁h m m 误著模型f h e m ) 的语音识别系 统并提出了h e m 的最人似然线性变换白适应算法。h e m 是h m m 的扩展,具有比h m m 更灵活的拓扑结构。它将h m m 的一个流( 状态串) 扩展到两个流,分别称为滤波模型和残著 模型,而h m m 是当残筹模型为单高斯分布时的特例。与此相对应,h e m 的白适廊算法比 h m m 臼适应算法m l l r 更为灵活,我们可以分别对h e m 的滤波模型和残著模刑进行白适 应。为了拒识插入噪声羽i 集外词,在本文第五个i :作中我们实现了基于填充模型和噪声模型 的确信度判决法。我们使川所有声学模型单元的全连接网络作为填充模型,并对一些常见的 短时噪声或突发噪卢建立了噪声模型。 本文还完成了一些相关的研究作。在特征提取上,我们提山了一种结合m f c c 和p l p 的p - m f c c 特征参数;提出了倒频域著分系数;对几种j j l 一化能颦f 峰值j j l 一化,均值归一 化雨i 标准门一化) 的识别性能进行了比较。我们测试了基于能量和基丁模型的端点检测的性 能井对方法作了改进。为了在数据量有限的情况f 提高音段切分的准确性我们提出了一种 白适应迭代切分标注方法。我们还提山了一种基于h m m 的汉语韵律词基频模型。该模型既 能有效地完成基频曲线生成,义能在人语料席语音合成中提高合成单元选抒的准确性。 英文摘要 t h i st h e s i si sf o c u s e do nt h er e s e a r c ht o p i co fn o i s er o b u s ta u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) b e c a u s et h er e c o g n i t i o np e r f o r m a n c ed e g r a d e sg r e a t l yi nn o i s ye n v i r o n m e n t s ,i tb e c o m e s o n eo ft h es e v e r ep r o b l e m st ob es o l v e di nc u r r e n ta s rs y s t e m s w ec a r r i e do u tas e r i o u so f r e s e a r c hw o r kf r o mf e a t u r ee x t r a c t i o nt oa c o u s t i cm o d e l s ,p r o p o s i n gs e v e r a ln o v e la p p r o a c h e sf o r n o i s er o b u s ta s r f i r s t l yw ep r o p o s e dam i s s i n gf r a m ea p p r o a c h d u r i n gt h ed e c o d i n gp r o c e d u r et h el i k e l i h o o d o f e a c hf l a m ei sw e i g h t e d ,w h e r ew e i g h t i n gf a c t o r sa r ef u n c t i o n sw i t hs i g n a l - t o n o i s er a t i o s ( s n r s ) o ff r a m e s t h ea p p r o a c hh a st w oa d v a n t a g e so v e rt h em i s s i n gf e a t u r ea p p r o a c h :1 ) c e p s t r ac a nb e u s e da sf e a t u r e s ;2 ) s n re s t i m a t i o ni sr o b u s ts i n c eo n l yf l a m ee n e r g i e sa r er e q u i r e d h o w e v e r , t h e m i s s i n gf l a m ea p p r o a c hc a n n o tc o m p e n s a t et h ed i s t o r t i o no ns p e e c hs p e c t r a t oo v e r c o m et h i s d i s a d v a n t a g e ,i n t h es e c o n d a p p r o a c h w ep r o p o s e dan o v e lf e a t u r ee x t r a c t i o n p r o c e d u r e e m b e d d i n gt h ed i s c r e t ea l l p o l em o d e l i n g ( d a p ) d a ps p e c t r ah a v et h ea d v a n t a g eo v e rl i n e a r p r e d i c t i o n ( l p ) s p e c t r at h a tt h es p e c t r a lp e a k sa r en o tb i a s e dt o w a r d sp i t c hh a r m o n i c t h el t a k u r a s a i t od i s t a n c ec a nb ew e i g h t e dd u r i n gt h ed a pp r o c e d u r e w es e tt h ew e i g h t i n gf a c t o r sa s f u n c t i o n sw i t hs n r so ns p e c t r o g r a m h o w e v e r , t h ep e r f o r m a n c ei si n f l u e n c e db yt h ep r e c i s i o no f t h ee s t i m a t i o no ft h es n r s t oa v o i dt h es n re s t i m a t i o n ,i nt h et h i r da p p r o a c hw ep r o p o s e da n o v e ls u b b a n dw e i g h t i n ga d a p t a t i o nm e t h o d i th a st w oa d v a n t a g e so v e rt h ec o n v e n t i o n a l s u b b a n da p p r o a c h e s :1 ) c o r r e l a t i o n sa c r o s st h es u b b a n d sa r er e t a i n e d ;2 ) a d a p t a t i o nm e t h o d sc a l l h ea d o p t e dt oe s t i m a t et h es u b b a n dw e i g h t i n gf a c t o r s t w os u b b a n dw e i g h t i n gp r o c e d u r e sa r e p r o p o s e do nt h ef e a t u r es p a c ea n dt h em o d e ls p a c er e s p e c t i v e l y d e r i v e df r o m m a x i m u m l i k e l i h o o da d a p t a t i o nt h e o r y , t w os u b - b a n dw e i g h t i n ga d a p t a t i o na l g o r i t h m sa r ep r o p o s e do nt h e t w os p a c e s a b o v ea p p r o a c h e sa r ea l lb a s e do nt h eh i d d e nm a r k o vm o d e l ( h m m ) i nt h ef o u r t h a p p r o a c hw ei m p l e m e n t e dh m m - e r r o r - m o d e l ( h e m ) - b a s e ds p e e c hr e c o g n i t i o ns y s t e m a n d p r o p o s e dm a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n a d a p t a t i o na l g o r i t h m sf o rt h eh e m a sa g e n e r a l i z a t i o no ft h eh m m ,t h eh e m h a sam o r ef l e x i b l et o p o l o g yt h a nt h eh m m i te x t e n d st h e s i n g l es t r e a m ( s t a t es e q u e n c e ) i nt h eh m m t ot w os t r e a m s ,c a l l e df i l t e rm o d e la n dr e s i d u a lm o d e l r e s p e c t i v e l y t h eh m mi st h es p e c i a lc a s ew h e nt h er e s i d u a lm o d e ls u b m i t st oag a u s s i a n d i s t r i b u t i o n c o r r e s p o n d i n g l y , t h ea d a p t a t i o na l g o r i t h m so f t h eh e m a r em o r ef l e x i b l et h a nt h a to f t h eh m m ( m l l r ) t h ef i l t e rm o d e la n dt h er e s i d u a lm o d e lc a nb ea d a p t e dr e s p e c t i v e l y t or e j e c t i n s e r t i o nn o i s e sa n do u t - o f - v o c a b u l a r y ( o o v ) ,i nt h ef i r ha p p r o a c hw ei m p l e m e n t e dac o n f d e n c e m e a s u r em e t h o db a s e do naf i l l e rm o d e la n dn o i s em o d e l t h ef i l l e rm o d e li saf u l l - c o n n e c t e dn e t w i t ha l la c o u s t i cm o d e lu n i t s t h en o i s em o d e li sc o n s 订u c t c df o rs e v e r a ls h o r tt i m eo ri m p u l s e n o i s e s w ea l s op r e s e n ts o m er e l a t i v er e s e a r c hw o r k i nt h ef i e l do ft h ef e a t u r ee x t r a c t i o n ,w e p r o p o s e d af e a t u r ec a l l e dp - m f c c ,w h i c hc o m b i n e dm f c ca n dp l p ;p r o p o s e dq u e f r e n c y d i f f e r e n t i a lc o e f f i c i e n t s ;c o m p a r e ds e v e r a ln o r m a l i z e de n e r g i e s ( p e a kn o r m a l i z a t i o n ,m e a n n o r m a l i z a t i o na n ds t a n d a r dn o r m a l i z a t i o n ) w ei m p l e m e n t e da n di m p r o v e de n d p o i n td e t e c t i o n a p p r o a c h e sb a s e do nb o t he n e r g ya n dm o d e l i no r d e rt oe n h a n c et h ep r e c i s i o ni nt h ec a s eo f l i m i t e dd a t a , w ep r o p o s e da ni t e r a t i v es e g m e n t a ll a b e l i n ga p p r o a c hb a s e do na d a p t a t i o nt e c h n i q u e s w ea l s op r o p o s e dam a n d a r i np r o s o d i cw o r dp i t c hm o d e lb a s e do nt h eh m m ,w h i c hc a nb eu s e d t og e n e r a t et h ep i t c hc h i v eo rt oh e l pt os e l e c ts y n t h e t i cu n i t s i nt h es p e e c hs y n t h e s i sb a s e do n l a r g ec o r p u s 笫一章0 f 击 1 1 语音识别 第一章引言 自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 是让机器听情人的语音的技术。冈为语 音是人类最白然有效的交流方式,所以对a s r 的研究是向白然人机交互迈出的第一步。 语音识别是信息产业迅速发展的迫切需要,有着广泛的应川前景。一些应的例子如: 命令控制:语音识别将替代或改进其他的输入模式( 如按键) 实行控制。比如,在交互语 音响应( i n t e r a c t i v ev o i c er e s p o n s e ,i v a ) 中,按键式交互的提示如“查询请按1 ”;在加入 语音识别功能后,提示将变成“卉询请按1 键域说1 域“卉淘请说i ”。这将给使埘者 带来极人的便利。 信息获取:将语音识别j l j 于获取各种信息,比如股票卉询、读取e m a i l 、电话导航和互 联网检索等等。 语音翻译:在通信中实现不同语言的相互翻泽。即通过“语音识别一机器翻译一语音合 成”的过群将一种语言的语音翻译成另一种语言的语音,可以极人地方便国际问的相互 交流。 语音识别按不同的要求具有不同的分类方法 i 】 根据被识别词汇量的人小划分:词数小丁1 0 0 为小词汇量;1 0 0 - - 5 0 0 为中词汇颦i5 0 0 以上为人词汇量。 根据识别语音的讲述方式划分:孤立词( i s o l a t e dw o r d ) ,连接词( c o n n e c t e dw o r d ) ,连续 语音( c o n t i n u o u ss p e e c h ) 雨l 自然语音( s p o n t a n e o u ss p e e c h ) 。识别难度依次增加。 根据川户划分:单个州户使f l i j 的特定人系统( s p e a k e rd e p e n d e n t ) ;任何人可使h j 的非特 定人系统( s p e a k e ri n d e p e n d e n t ) 。 根据语音环境划分:纯净语音识别;带噪语音识别。 1 1 1 历史 a s r 的研究一作开始丁2 0 世纪5 0 年代初期,至今已有了人约5 0 年的历史。甲i 期的语 音识别方法使h j 声学语音学理论,它描述语音单元如何组合成语音。在1 9 5 2 年,贝尔实验 宝使_ l | j 数字元音的频谱共振峰研究了笫一个特定说话人、孤立数字识别系统。在五、人十年 代,其他的实验室,如r c a 实验室、m i t 的林肯实验室雨一些日本的实验室也开始进行语 笫一章t j l 音 2 音识别的研究。在6 0 年代。处理语音信号在时间轴上变化的必要性被重视,导致了动态时 间规划被提出用丁语音的模板匹配。在7 0 年代后期,动态规划成为语音识别模式匹配的主 流技术一 在7 0 年代,语音识别的两个主要方向开始显露山米,分别由i b m 和b e l l 实验室所代 表。在i b m ,由j e l i n e k 领导的小组致力丁听写机的研究,其主要目标是将语音语句识别成 可以被显示出来的词串。该系统人多数是特定人系统,主要对话肓结构进行研究。一般语言 结构被表达成统计模型,描述语言符号串出现的可能性。在b e l l 实验室,其研究目标是为 州户提供电信服务,如语音电话年i l 命令控制等。这样的系统要求能对不同说话人进行识别。 所以b e l l 实验室主要是研究北特定人系统,并考虑方言等冈索。荚键词识别也是他们的一一 个研究方向。关键词识别是检n t l 贝有特定意义的词或短语并忽略其他不需要的部分。这是 为了让“4 户能更白然地交流而不是只能说生硬的命令词。这两种方法在过去2 0 年中对语音 识别的发展具有深远的影响。它们的共同点在丁均显示出数学形式及其严谨性在语音识别中 的重要性。同时进行的还有c m u 的r e d d y 的1 作。他第一个将动态音素搜索州丁连续语音 识别中,并使l | j 了将人一智能和规则相结合的方法。 在8 0 年代,隐马尔科丈模型( h i d d e nm a r k o vm o d e l ,h m m ) 在语音识别中的使川,导致 了语音识别的快速发展【2 】。现在的人部分识别系统基丁该统计模型。1 9 8 8 年,c m u 川 v q h m m 实现了世界上第一个基丁离散h m m 的高性能的1 f 特定人、人词汇量的连续语音 识别系统。9 0 年代以斤,由丁:语音识别技术的快速发展,出现了语音识别技术的产品化热 潮。9 0 年代初,国外许多研究机构研制出了人词汇量连续语音识别系统,如i b m 的v i a v o i c e 系统( 1 9 9 6 年推山了汉语版) ,1 l 丁- 计算机的汉字输入。还有剑桥人学的h t k 系统、o g i 系 统、d r a g o n 系统、m i c r o s o r 的w h i s p e r 系统等。近年爿,我国语音识别的研究发展很快, 目前我国对人词汇量语音识别系统的研究已经接近国外晟高水平 3 】【4 5 。 1 1 2 现状 目前的语音识别能力使得我们可以对受限任务( 如数字串、旅行预约等) ,在受限环境( 如 安静环境、特定噪声等) 中,人词汇量系统进行识别。在表1 1 中总结了一些标准数据库的 词错误率 c o x2 0 0 0 1 。可见对受限任务识别性能很好而对非受限的对话语音识别词错误率 急剧上升。即使对11 个数字的小词汇量系统,在受限情况卜- ( t ld i g i t s ) 错误率只有o 3 ,而 对丁对话语音( h m i h y ) 急剧上升到5 。人词汇量的电话对话语音数据库s w i t c h b o a r d 和c a l l h o m e 的词错误率很高,目前分别为2 5 2 9 雨14 0 。 数据库类刑词汇龄 词错误率 c o n n e c t e dd i g i ts t r i n g s - - t id a t a b a s e 白然语音 1 1 o 3 第章,j l 苦 c o n n e c t e dd i g i ts t r i n g s m a i l自然语音l l2 0 r e c o r d i n g s c o n n e c t e dd i g i t ss t r i n g s - - h m i h y 对话语音 1 l5 0 r m ( r e s o u r c em a n a g e m e n t ) 朗读语音1 0 0 02 o a t i s ( a i r l i n et r a v e li n f o r m a t i o n 白然语音2 5 0 02 5 s y s t e m ) n a b ( n o r t ha m e r i c a nb u s i n e s s )朗读语音6 4 ,0 0 0 6 6 b r o a d c a s tn e w s 新闻语音2 1 0 ,0 0 0 1 3 1 7 s w i t c h b o a r d对话电话语音 4 5 ,0 0 0 2 5 2 9 c a l l h o m e 对话电话语音2 8 ,0 0 0 4 0 表1 1 :日前一些标准数据库的词错误率 1 1 3 面临的问题 语音识别要成为一个实t l 的人机交互接口,仍面临着如f 的问题: 对话语音识别:为了构造实j j 自然的人机对话系统,语音识g 应该能够较好的对对话语 音进行识别。对话语音在语音和语法上的不规范,导致了识别难度的增人。从表1 1 2 的识别结果可见,目前对话语音识别的性能还较著。 语音理解中的语义和语州:目前语音识别系统使川的人部分语言模型反映了语法信息。 如果能加上语义和语埘信息,能人人降低语言模型的困惑度。 声学及环境的鲁棒性:鲁棒性是指在训练环境和测试环境不匹配时,系统保持较高识别 率的性能。不管是较简单的小词汇鼙系统还是较复杂的人词汇量系统,在训练环境和测 试环境不匹配时,系统的识别率会严重f 降。所以鲁棒性是系统的一个重要指标。 其中,鲁棒性受到多种冈素的影响,如: 说话人:对任何人的语音和一种语言的任何口音进行可靠止确的识别是个挑战。 协同发音:语音频谱往往会受到上f 文的影响而产生变化。 说话速度弄方式:人们使j l j 不同的语速和发音讲话给语音识别带米了幽难。 噪声环境:背景噪声、麦克风、信道噪声等影响。 本文将主要研究噪声鲁棒性语音识别州o i s er o b u s ts p e e c hr e c o g n i t i o n ) ,r 面我们将对该 研究进行介纠。 1 2 噪声鲁棒性语音识别 随着语音识别技术逐步走向成熟,语音识别系统从实验室走向市场,系统的嵘声稃棒性 第一章0 i 苦 4 成为迫切需要解决的问题。语音识别系统在噪声环境中识别性能会严重卜降。以a u r o r a 2 任 务( 附录a ) 为例,当声学模型从纯净语音训练得到时,在它的测试集a 上,对纯净数据的识 别率为9 8 9 5 ,而对信噪比为5 d b 的数据识别率则降为4 0 6 5 。识别率f 降的原冈是噪声 引起了训练环境和测试环境的不匹配。 噪声鲁棒性已经成为语音识别领域的一个重要的研究方向。目前,每年一度的i e e e a s s p 国际会议、i c s l p 语音语言处理国际会议、e u r o s p e e c h 欧洲语音处理会议等重要的国 际会议上,均有多个讨论组和人鼙的文章介绑噪声鲁棒性语音识别的研究成果。在我国,白 动化所,清华人学等研究单位对噪声鲁棒性语音识别开展了卓有成效的研究:作 7 。本1 , 我们将介绑噪声鲁棒性语音识别的方法承【现状。 1 2 1 噪声鲁棒性语音识别方法 噪卢鲁棒性语音识别方法的目的是为了消除噪声引起的训练环境和测试环境之间的不 匹配。令s 是一个识别单元的模型,e 为一种环境,吼 为s 在环境e 中的得分。定义变换, 是从环境c g 到环境口的得分的映射,使得在某种准则f 环境错误最小化: q 口0 ) = f ( q 。( 5 ) ) ( 1 1 ) 问题是寻找合适的变换幽数以减, j , i ) l l 练和测试环境之间的不匹配,提高识别系统在测试 环境中的识圳率。变换过群可以从训练环境向测试环境变换,也可以向相反的方向变换,这 样变换可以分为两类: 1 观测数据变换:在识别之前,将观测数据从测试环境变换5 1 j j i j f l 练环境。 2 模型参数变换:模刑参数被从训练环境变换到测试环境,对测试环境的观测数据进行识 别。 丁是减d , j l 练环境与测试环境的不匹配的方法可以分为3 种: 1 鲁棒性特征提取:使特征参数只与语音信号有关。这种系统是与噪声无关的,可以对噪 声情况与纯净情况使刚相同的系统配置。 2 语音增强:消除测试数据中的噪声,然斤使州纯净语音模型进行识别。 3 模型补偿:将语音模型从训练环境变换到测试环境,使模型与测试数据相匹配。 冈为噪声语音识别方法的复杂性,不同类的方法可能会有相似之处,不同的动机和方法 有时会导致相似的结论。 1 2 1 1 鲁棒性特征提取 适合丁纯净语音的特征参数可能对噪声环境较敏感,导致训练模型和测试数据的不匹 第一章j l 青 配。鲁棒性特征提取的目的是为了提取不受噪声影响的特征参数。它不必对噪声条f t | 进行假 设;另一方面,它的缺点是无法利_ l l j 特定噪卢的先验知识。 1 2 1 1 1 听觉特征 根据心理声学雨j 神经生理学的研究成果,【i 听觉系统的计算模型对语音信号进行预处理 能较蚶地提高特征参数的鲁棒性。听觉结论有临界带滤波器,响度曲线和1 i 线性能量压缩 短时白适戍利外中耳听觉模型等。听觉模艰的缺点是计算复杂度较高,冈为需要做时频域的 复变鼙分析。目前j 泛使川的特征欠姑如m f c c 和p l p 均结台了听觉特征 8 】【9 】。 1 2 1 1 3 缓变信号的消除 冈为人多数加性噪声和卷积噪声的变化速度比语音信号缓慢得多,所咀滤除特征参数中 的缓变分量能增强参数的鲁棒性。滤波可以对不同的参数空问进行,比如对对数功率谱或倒 谱进行。r a s t a ( r e l a t i v es p e c t r a i ) :缝滤除对数功率谱中的直流分餐舶方法f l o ,能有效的 消除卷积噪声的影响。 倒谱均值减法( c e p s t r u mm e a ns u b t r a c t i o n ,c m s ) 是一种简单有效的消除卷积噪声的方 法。该方法减去倒谱欠昔中的均值。实验证明c m s 的性能与r a s t a 类似,一般不会恶化 识划性能,j f 在存在卷积噪声的情况r 提高识别率。 动态特征( 倒谱系数在时问轴上的著分) 也可以消除缓变信号,从而在噪声环境f 提高识 别率。该方法在纯净语音的情况f 冈为提供了帧间相芙性而能提高识别率。 1 2 1 2 语音增强 语音增强是从带噪语音信号中恢复纯净语音信号的波形或参数。该方法使埘了语音或噪 卢的先验信息,通常f l 丁提高语音信号质量而不是直接川丁语青识别,但可1 l f j 在语音识别的 信号预处理中。该方法不一定能提高语音识别的性能,冈为恢复出的纯净语音信号引起的信 号火真可能会导致识别器性能的r 降。 1 2 1 2 1 谱减法 谱减法假设噪声和语音是不相关且相加的。此时,带噪语音信号的功率谱是噪声和语音 之和。如果噪声功率谱己知或可估计,则从带噪语音信号的功率谱减去噪声功率谱可得到纯 净语音功率谱。该方法对稳定或缓变的宽带加性噪声是简单有效的。但也存在如f 的缺点: 第一章0 f j 6 1 谱减法的性能依赖丁噪声估计的精确度。 2 频谱相减得到的功率谱可能出现负值,即音乐噪声。所以一般要设置一个f 限。 3 减法无法对对数谱进行,因为在对数谱上噪声羽晤音是相关的。 谱减法可以表示为一个滤波器,即带噪语音与噪声功率谱之筹和带噪语音功率谱的比 值。冈为维纳滤波器的转移函数是纯净语音功率谱雨l 带噪语音功率谱的比值,所以谱减法是 维纳滤波器的一个特例。在谱减法中使的j 限使之成为一个非线性操作,所以该方法会导 致语音信号的火真,这可能会导致识别性能的卜降。 1 2 1 2 2 参数映射 如果在训练数据中带噪语音和纯净语音可同时获得,我们可以通过最小均方误幕准则 ( m i n i m u mm e a ns q u a r ee r r o r , m m s e ) 估计从带噪语音向纯净语音的映射函数。映射函数可以 是线性函数、1 r 线性函数或人一神经网络等。s p l i c e 方法结台贝叶斯估计与m m s e ,映射 得到的特征参数能较人地提高识圳率】。 1 2 1 2 3 频谱子带法 频谱子带法是将语音频谱分为子带进行识别的方法。它的动机米白tf l e t c h 等人的实验 结果【1 2 】。该实验表明人的听觉系统独立的处理语音信号的各个频率子带,对语音频谱的识 别错误率是对频谱各个子带的识别错误率的乘积。子带识别法分两种模式,并行子带法 ( p a r a l l e ls u b b a n d ,p s b ) 利串行子带法( c o n c a t e n a t i n gs u b b a n d ,c s b ) 。在p s b 中,子 带特征参数被独立的建模,并将似然度得分在某种单元级别( 如音索,词或句等) 合并 1 3 。 在c s b 中,全频带的功率谱被分为多个子带,每个子带被分别变换为倒谱参数,这些倒谱参 数被串联起米作为特征参数埘丁语音识别 1 4 。 1 2 1 2 4 忽略特征法 忽略特征法的动机来臼于听觉场分析理论( a u d i t o r ys c e n ea n a l y s i s ,a s a ) 1 5 。该理论研 究了人耳选择性地接收混杂语音信号中有 信息的机理,即人的听觉系统只使i :| j 可靠信息进 行语音感知,加强语音信号的高能譬区同时抑制低能挝医。忽略特征法包括两种方法。一种 是边缘分布法( m a 唱i n a “z a t i o n ) 。即只_ l | j 可靠特征进行识别。另一种是数据内插法( d a t a i m p u t a t i o n ) ,即先弥补北可靠特征,再使_ l i 全部特征识别【1 6 。 第一章0 f 高 1 - 2 1 3 模型补偿 模型补偿将模型从训练环境变换到测试环境,以和测试数据相匹配。模玳的臼适应能处 理在训练中来遇到的噪声环境或时变的噪卢,所以可以得到最优的模型参数井获得最佳的识 别率。但在低信噪比的情况f ,被补偿后的模型参数会具有较人的方著,这会严重地降低模 酗间的区分度,这时语音增强法能获得比模邳补偿法更好的识别性能。 1 2 1 3 1h m m 分解 一种h m m 的扩展形式是分解同时发生的随机过群 1 7 】。其中带噪语音信号可用n m 个状态的h m m 表示。是纯净语音的状态数,m 是噪声的状态数。标准的v i t e r b i 算法 从n t 个。竹点中搜索最佳路径,本方法则扩展到n m t 个1 a 点。这样的分解可以同 时识别语音和噪声。在p m c ( p a r a l l e lm o d e lc o m b i n a t i o n ) j 1 8 中,语音模型和噪声模型的转移 概率是分开训练的,两个模型的输山概率则按某种假设组合成观测数据的输出概率。组合由 信号的特征空间决定。在m e l 倒谱模型的组合中,倒频域的模型参数被变换到线性频率域 后进行白适庶,再被变换同倒频域。 1 2 1 3 2h m m 自适应 h m m 臼j 盖应方法使川少量的带噪数据将h m m 模型参数从训练环境变换到测试环境, 可川米补偿噪声、说话人羽l 说l 弄方式等冈素的变化带来的不匹配。臼适席可以是有监督的, 即使h j 已知j ! | 容的带噪数据进行白适应;也可以是无监督的,即使川实时的识别结果进行臼 适应,此时模型参数可得到持续的更新,能弥补1 f 平稳噪声带来的不匹配。冈为自适应只使 川少量的观测数据更新模犁,所以白适应方法要使州与模型训练不同的策略。 m a p ( m a x i m u map o s t e r i o r i ) 方法利州已有模型的先验信息和白适麻数据更新模型【1 9 。 模型参数的调粘是一种受模型先验参数限制的训练过科。当自适应数据足够多时,模型才会 被调整趋丁测试环境;否则,模型仍趋丁训练环境。所以白适麻数据量越多,m a p 效果越 明显,并趋丁使_ l | i 测试环境训练的模型性能。 m l l r ( m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n ) 方法是基丁蛀火似然准则的线性变换【2 0 】。 它对h m m 高斯分量的均值和方著进行白适应,使得它们对臼适应数据的似然值最人。根据 白适麻数据昔的人小,m l l r 可通过控制白由参数的数茸米保证参数估计的止确性。参数控 制可通过设置高斯的类数或臼适应同! 门矩阵的形式( 如满阵、块对角阵或对角阵等) 实现。高 斯分类数可通过亓i 归树等方法根据白适应数据量动态确定。所以当白适庶数据带较少时, m l l r 可显并提高识别率。 第一章0 i 鲁 1 2 1 3 3 带噪数据训练 8 带噪数据训练指将噪声加剑训练数据上训练模瑁,这样训练环境币j 测试环境之间的不匹 配会完全消火,能够很人地提高识别率。此时的识别性能可作为其他模型补偿方法的上限。 然而在噪声较强时,冈为模型的区分度受到削弱,所以语音增强可能会获得更好的识别性能。 训练数据可以替加多种条什,比如多种噪卢、信噪比、说话人和麦克风信道等。但该方法存 在3 个缺点: 1 对纯净语音信号叠加噪声不能处理l o m b a r d 影响,即噪卢引起的语音信号的变化。一种 解决办法是直接录制带噪语音数据。 2 如果测试数据的噪声没有山现在训练数据中,仍会出现训练环境与测试环境的不匹配。 3 经过带噪训练的模型牺牲了对纯净语音的识别性能。 1 2 1 3 4 动态贝叶斯网络 动态贝叶斯网络( d y n a m i cb a y e s i a nn e t w o r k ,d b n ) 是对h m m 模型参数的一种灵活而智 能的扩展方法。h m m 无法显式地表达多冈素的影响,包括协同发音,语音速度的变化,说 话人口音,背景噪卢环境等等。在人i :神经网络( a r t i f i c i a l n e u r a ln e t w o r k ,a n n ) 的框架f , 每个模型可以通过复杂的神经元结构综合各种冈素,但依然不能显式的表达物理意义。而动 态贝叶斯网络( d y n a m i cb a y e s i a nn e t w o r k ,d b n ) i ) i i 能够表达任意集合的随机过群的统计分 布,而且可以任意的定义独立性假致以任意方式组合这些分布。 1 2 1 3 5 渐进噪声估计 目前的火部分噪声语音识别方法只能处理平稳或缓变的噪声信号,渐进噪卢估计法 ( s e q u e n t i a ln o i s ee s t i m a t i o n ) j l ! l j 是为了消除1 f 平稳噪声的影响 2 1 】,它是一种跟踪噪声变化的 模型白适应算法。该方法将噪声信号近似成稳态部分和时变部分的叠加,使埘渐进e m 算法 估计模型中的嵘卢参数,再使埘更新的模型对语音信号进行识别。 1 2 2 现状分析 如上所述,目前处理噪声鲁棒性的方法主要可分为三类:鲁棒性的特征提取、语音增强 和模型匹配。有些方法已经被证明是有效的且具有较好的鲁棒性。比如特征提取中的c m n 方法。c m n 除去倒谱参数的均值,能有效地消除缓变信道噪声的影响。c m n 对加性噪声 也有一定的效果,这是冈为在倒谱域上加性噪声经过一定的假设可以近似为卷积噪声。而且 第一章0 i 青 9 对纯净测试数据,c m n 一般也不会导致识别率的f 降。义如模型臼适麻方法m l l r ,在白 适应数据量充足的条仆r ,能有效地提高对带噪数据的识别率。 人部分噪卢鲁棒性语音识别方法均存在着各自的假设条件,冈而一般只适l i j 于相戍的特 定环境。比如语音增强中的谱减法、子带法币i 忽略特征法等都假设噪声频谱是已知的或可估 计的,所以它们的性能受到噪声频谱估计精确度的影响。义如模型补偿中的p m c 方法,假 设噪声模型是可以训练得到的,这也要求噪声信号是事先可以获得的。用带噪数据训练声学 模型的方法则假设带嗓数据是足够多的。即使上面提到的两种鲁棒性较高的方法c m n 币i m l l r 也存在一定的条制:限制。在c m n 中,如果我们对每个测试句估计倒谱均值,然而测 试句不是足够长,可能会导致估计均值出现偏差,进而导致识别性能的恶化。m l l r 则在白 适应数据量不充足的情况f 会导致识别率的f 降。 目前的人部分嵘卢鲁棒性语音识别方法尚只适h j 予平稳噪声或缓变噪声的情况,对丁1 r 平稳的噪声尚不适用。1 i 平稳的噪声如其他说话人的语音和背景音乐声等。对于需要已知噪 声的方法,比如谱减法、子带法、忽略特征法平p m c 方法等,由丁测试句中的啦平稳噪声 不可能事先获取,所以无法适州丁对非平稳噪声的消除。对丁h m m1 3 适庶方法,虽然它们 可阻川1 f 监督学习的方式进行在线的臼适庶,但由丁每次的臼适庸过程实际上仍使川前一次 的识别结果作为臼适戍脚本f 8 ,所以在线1 3 适应实际上只能有效地处理缓变噪声,而对变 化较快的噪声达不剑较女_ i :的效果。目前有一些研究者已开始着手处理1 f 平稳噪声的影响,比 如渐进噪声估计。它烂一种跟踪噪声变化的模型白适应算法。但当噪声变化较快时会由丁 跟踪难度的增人而影响性能的改善。义如使川动态贝叶斯网络作声学模型的方法,可以将噪 声的非平稳性在模璎中用状态转移来表达。但动态贝n l 斯网络理论上尚有值得探讨的地方 需要更深入的研究l :作。 1 3 论文内容 本论文的研究课题是噪声鲁棒性语音识别。我们从特征提取到声学模型,提山了一些新 的噪声鲁棒性语音识别方法,分别进行了理论分析干实验验证。主要方法有: 1 ) 略帧法 2 )使川离散全极点模型的特征提取法 3 ) 子带加权白适麻法 4 ) h m m 误差模型及其臼适麻方法 5 )基t :填充模型与噪声模型的确信度判决法 此外,我们还进行了一些与白动语音识别、噪声鲁棒性和h m m 模型相关的研究f :作。 方法1 ) 在识j ;i 过稃中对各帧的似然值加权,克服了忽略特征法的缺点,但面临的问题 是不能弥补噪声对语音频谱的干扰。为了解决这个问题,我们提出了方法2 ) ,川信噪比加 第一章0 i a -1 0 权的离散全极点模开q 提高特征提取的鲁棒性。但方法2 ) 面临着和谱减法等方法同样的问题, 即需要进行时频域信噪比的估计。为了避免估计信噪比,我们提出了方法3 ) ,即提出一种 新的子带加权法并将白适应_ l 丁- 对权值的估计。以上三种方法均是基丁h m m 的系统,在方 法4 ) 中,我们实现了基于h m m 误著模1 4 ( h e m ) 的识别系统,并提出了h e m 的白适应算法。 h e m 是h m m 的一种扩展。前面的方法在特征提取,声学模型的训练和识别等领域进行了 研究,实际的语音识别系统还包括确信度判决模块,对短时噪声平| j 集外词进行拒识。所以我 们进行了方法5 ) 的研究,实现了一种基丁填充模型平噪声模型的确信度判决的方法。 在无种方法中,方法1 )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论