(通信与信息系统专业论文)抗噪声语音识别技术的研究.pdf_第1页
(通信与信息系统专业论文)抗噪声语音识别技术的研究.pdf_第2页
(通信与信息系统专业论文)抗噪声语音识别技术的研究.pdf_第3页
(通信与信息系统专业论文)抗噪声语音识别技术的研究.pdf_第4页
(通信与信息系统专业论文)抗噪声语音识别技术的研究.pdf_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一l l m 摘要= _ - - _ _ - _ - _ _ _ - - _ 摘要 抗噪声的语音识别技术是语音识别系统走向实用化的一个关键性难题a 现有 的语音识别系统通常是为受控环境中的干净语音设计的,尽管它们在安静的环境 里能取得很好的识别效果,但当存在环境噪声时,由于训练环境与识别环境的不 匹配,其性能会急剧下降,在很多情况下无法满足实际应用的需要。本文对噪声 环境中的语音识别技术进行了研究,其主要内容及成果如下: j 针对m f c c ( m e i - f r e q u e n c yc e p s t r a l c o e f f i c i e n t ) 和l p c c ( l i n e a rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t ) 特征在低信噪比时区分能力 较差、使用模型补偿技术无法取得很高识别率韵缺点,提出了基于单边岛褶关序 列( o h e - s i d e da u t o c o r r e l a t i o n ,o s a ) m f c c 特征的模型补偿技术。实验结 果表明,本文提出静模型补偿技术可以有效地提高o s a - m f c c 的识别率,并且在 低信噪比时其性能明显优于经过相同补偿处理的m f c c 识别系统。 2 分折了环境噪声对相对自相关序列( r e i a t j v ea u t o c o r r e l a t i o n s e q u e n c e s ,r a s ) 扑c c 特征的影响,提出了基于r a s - m f c c 特征的模型补偿技 术。实验结果表明,所提的识别方法能有效她提高r a s - m f c c 的性艟,在低信噪 比时其性能同样明显优于经过相同补偿处理的m f c c 识别系统。 3 提出了一种基于m f c c 特征的边缘概率( m a r g i n a l i s a t j d n ) 噪声语音 识别技术。在提出的丢失数据( m is s i n gd a t a ,k i d ) 技术中,对m f c c 特征的 每个分量采用了两个相互独立准则的联合判决结果来判定其可靠性。增加了判决 的准确度。实验结果表明,所提的识别方法可以有效地提高m f c c 识别系统的性 耱,并且在中高信噪比时比基于滤波器组( f i l t e rb a n k ,f b a n j ( ) 语音特征的 边缘概率技术具有更高的平均识别率。 4 对边缘概率技术中的二元判决作了改进,提出了一釉基于k i f c c 特征的 软判决技术。在软判决技术中,根据本文所提的边缘概率技术中的两个判决准 则,采用了一个基于规则的模糊逻辑系统来确定每个分量的可靠程度实验结果 表明,对于不同类型和信噪比的噪声,软判决技术的识别率都比基于滤波器组语 音特征和m f c c 特征的边缘概率技术有显著的提高。 5 提出了一种基于r a s m f c c 特征的边缘概率技术,实验结果表明所提识 别方法可以有效地提高r a s m f c c 的识别率,并且其性能明显优于基于滤波器组 语音特征和m f c c 特征的边缘概率技术。 华南理工大学工学博士学位论文 6 提出了一种噪声自适应的多分辨率语音识别方法。所提识别方法将全带 识别器与子带识别器结合起来,利用它们对不同类型的噪声具有不同识别率的特 性,采用边缘概率技术来自动调节它们对识别过程的贡献。对r a s m f c c 特征的 实验结果表明,对于不同类型的噪声,所提识别方法都能保持与全带识别器和子 带识别器中效果较好者基本相同的识别率。 关键词:语音处理;语音识别;鲁棒性 a b s t r a c t a b s t r a c t n o is er o b u s t d e s siso n eo ft h em a j o ro b s t a c l e s t ot h e c o m m e r c i a lu s eo f s p e e c hr e c o g n i t i o nt e c h n i q u e s m o s to ft h e c u r t e n ts p e e c hr e c o g n iz e r sa r ed e s i g n e dt ow o r ki nc o n t r o l l e d e n v i r o n m e n ts u s i n g c l e a n s p e e c h t h o u g ht h e y c a na c h i e v er a t h e r h i g hr e e o g n i t i o n r a t e si 1 3t h e s ee n v i r o n m e n t s 。t h e i r p e r f o r m a n c e d e g r a d e sr a p id 1 yw h e n n o i s e se x is t t h i sp h e n o m e n o n is m a i n l y c a u s e d b y t h em is m a t c h e sb e t w e e n t r a i n i n ga n dt e s t i n gc o n d i t i o n s a d dm a k e st h ec u r r e n t s p e e c hr e c o g n i z e r su n s u i t a b l ef o r m a n yr e a l w o r l d a p p l ic a t i o n s i nt h is d is s e r t a t i o n ,t e c h n i q u e s f o rr o b u s t s p e e c hr e e o g n i t i o da r ed is c u s s e d t h em a ina c h i e v e m e n t sa r e l is t e da sf 0 1 l o w s : i m o d e i c o m p e n s a t i o nt e c h n i q u e sf o rt h em f c c sa n dt h el p c c s f a i lt oa c h i e v e h i g hp e r f o r m a n c ew h e ns n risl o wb e c a u s et h e s e f e a t u r e sc a n t p r o v i d eg o o dd i s c r i m i n a t i o ni f ls u c hs i t u a t i o n s w e p r o p o s e an e wm o d e l c o m p e n s a t i o nt e c h n i q u ef o r t h eo s a - m f c c s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h e p r o p o s e dt e c h n i q u ec a n e f f ic ie d t l yi m p r o v et h ep e r f o r m a n c eo ft h eo s a m f c c r e c o g n i z e r a n d o u t p e r f o r m t h em f c c r e c o g n i z e rw i t ht h e s a m e c o m p e n s a t i o n s c h e m e 2 b a s e do nt h e a n a l y s i s o ft h ei n f l u e n c eo fn o i s e st ot h e r a s m f c c s ,w e p r o p o s e an e wm o d e l c o m p e n s a t i o nt e c h n i a u et h a t u s e st h er a s m f c c s a s f r o n t e n d e x p e r i m e n t a l r e s u l tss h o wt h a t t h e p r o p o s e dt e c h n iq u ei m p r o v e st h e p e r f o r m a n c eo ft h er a s m f c c r e c o g n i z e r e f f i c i e n t l y a n d o u t p e r f o r m st h e c o m p e n s a t e dm f c c r e c o g n i z e r 3 an e wm f c c b a s e d m a r g i n a l is a t i o na p p r o a c his p r o p o s e d t w o i n d e p e n d e n t c r i t e r i a a r e p r o p o s e d t of o r ma j o i n td e c is i o nf o r d e t e c t i n gt h eu n r e i i a b le c e p s t r a l c o m p o n e n t s e x p e r i m e n t a i r e s u i t ss h o wt h a t t h e p r o p o s e da p p r o a c hi m p r o v e st h e p e r f o r m a n c e o fm f c c r e c o g n i z e re f f i c i e n t l ya n dg i v e s h i g h e ra v e r a g e i i i r e c o g n i t i o n r a t e st h a nt h ef b a n k b a s e dm a r g i n a l i s a t i o i l a p p r o a c h in h i g h a n dm e d i u ms n rc o n d i t i o n s 4 an e ws o f td e c is i o na p p r o a c h is p r o p o s e d t of u r t h e r i m p r o v et h ep e r f o r m a n c eo f t h ep r o p o s e dm a r g i n a l i s a t i o na p p r o a c h i n s t e a do fab i n a r yd e c is i o n ,ar u l eb a s e df u z z y 1 0 9 i c s y s t e mis u s e dt oo b t a i nt h ep o s s i b i l i t y o fe a c h c e p s t r a lc o m p o n e n tb e i n g r e l i a b l e e x p e r i m e n t a l r e s u l t ss h o wt h a tt h e p r o p o s e d s o f t d e c is i o n a p p r o a c ho u t p e r f o r m s b o t ht h ef b a n kb a s e da n dt h em f c c b a s e dm a r g i n a l is a t i o na p p r o a c h e s 5 an e w m a r g i n a l i s a t i o n a p p r o a c h t h a tu s e st h er a s m f c c sis p r o p o s e d e x p e r i m e n t a l r e s u l t ss h o wt h a ti tc a na c h ie v e s i g n i f i c a n t i m p r o v e m e n t o v e rt h er a s m f c c r e c o g n i z e ra n db e s u p e r i o r t ob o t ht h ef b a n kb a s e da n dy f c cb a s e d m a r g i n a l i s a t i o n a p p r o a c h e s 6 an e wn o is e a d a p t i v e m u l t i r e s o l u t i o nr e c o g n i t i o n t e c h n i q u e isp r o p o s e d t h e p r o p o s e dt e c h n i q u e c o m b i n e st h ef u l l b a n da n d t h es u b b a n d r e c o g n i z e r sa n du s e st h em a r g i n a l is a t i o n t e c h n i q u e t o a d j u s t t h e i rc o n t r i b u t i o nt o r e c o g n i t i o np r o c e s sa c c o r d i n gt o d i f f e r e n t t y p e s o f n o i s e s e x p e r i m e n t a l r e s u l t so nt h er a s m f c c s s h o wt h a tf o re a c h t y p e o fn o is e s ,t h e p r o p o s e d a p p r o a c h c a n a c h i e v e s i m i l a r r e c o g n i t i o n r a t e sa st h eb e t t e ro n eo ft h e t w o r e c o g n i z e r s k e yw o r d s :s p e e c hp r o c e s s i n g :s p e e c hr e c o g n i t i o n :r o b u s t n e s s 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行 研究所取得的研究成果。除了文中特别加以标注引用的内容外,本 论文不包含任何其他个人或集体己经发表或撰写的成果作品。对本 文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律后果由本人承担。 作者签名: 彳k 鼙 日期:厶,。;年易月玎日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权华南理工大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密曰。 ( 请在以上相应方框内打“”) 作者签名: 7k 男 7 导师签名: 多绐 日期:跏;年f 月订日 日期:炒? 年月加 一 :童乙。,。,。,。,。,一 ,_ _ _ 目_ i e l _ 日_ _ $ 目_ - _ _ 自_ - _ e _ - 目l _ _ i l _ _ _ 口j i _ l _ 日_ l 4 。一 1 1 研究背景 第一章绪论 机器自动识别人类口述的语言的研究已经持续了5 0 多年。语音识别,又称 为自动语音识别( a u t o m a t i c s p e e c hr e c o g n i t i o n ,a s r ) ,它的目标是让机 器“听懂”人类口述的语言。“听懂”有两种含义,一是将这种口述语言逐词 ( 字) 逐句地转换为相应的书面语言( 即文字) 。通常称为语音识别;二是对口 述语言中包含的要求或询闯作出正确的响应,而不需要将所有的词转换为正确的 书面文字,通常称为语音理解。语音识别是一门涉及面很广的交叉学科,它与声 学、语音学、语言学、数字信号处理理论、信息理论、模式识别理论、最优化理 论、计算机科学、数理统计以及神经生物学等学科都有非常密切的关系1 1 。 根据不同任务的要求,语音识别技术可以分为多个种类,例如按词汇表的大 小可以分为小词汇量( 小于i o o 词) 的语音识别、中词汇量( i o o 至5 0 0 词) 的语音识别和大词汇量( 5 0 0 词以上) 的语音识别;按讲述方式的不同可以分为 孤立词语音识剐、连接词语音识别和连续语音识别;按服务对象的不同可以分为 特定人语音识别和非特定人语音识别;根据语音的质量可以分为安静环壤的语音 识别和噪声环境的语音识别:根据需完成的任务可以分为关键词确认、逐词逐句 转换为文字、对用户要求作出响应、语言理解等等。 语音识别最早期的研究工作开始于2 0 世纪4 0 年代末到s d 代初期。l9 5 z 年 欧洲的d r e y f u s g r a f 和美国b e l l 实验室的d a y is 等同时设计出了特定人、小 词汇量的孤立词语音识别系统。2 0 世纪5 0 年代中语音识别方面的研究还包括了 j9 5 6 年r c a 实验室o l s o n 和b e l a r 的1 0 音节特定人语音识别系统、1 9 5 9 年 m i t l i n c o l n 实验室f o r g i e 和f o r g i p 豹1 0 元音菲特定入语音识别系统等。 这个时期对语音识别的研究还处于初始阶段,主要依靠不同元音频谱间的差别来 对不同发音进行区分。 随着数字处理和计算机的发展,2 0 世纪6 0 年代语音识别的研究取锝了一定 的成果。这个时期语音识别的研究主要集中在解决模式匹配中语音持续时问不规 则的问题a r c a 实验室的m a r t i n 等提出了一系列依靠可靠语音端点检测的时间 归一化语音识别方法- 与此同时。苏联的v i n t s y u k 提出了使用动态规划 ( o y n a m i cp r o g r a m m i n g ,d p ) 的方法来对两段不同的语音进行对准。尽管 华南理工大学工学博士学位论文 d t w ( d v n a m ict i m ew a r p i n g ) 的基本思想和连接词识别的最基本算法包含在 v i l l t s y u k 的研究工作中。但他的研究成果直到8 0 年代初期才被人们广泛所 知。2 0 世纪6 0 年代语音识别的另一个重要进展是s t a n f o r d 大学的r e d d y 采用 动态跟踪音素的方法对连续语音识别进行的研究。 到了2 0 世纪7 0 年代,语音识别技术取得了一系列重要的进展。这个时期 的语音识别技术主要分为两个方向。一个方向是采用人工智能和专家系统的方法 来进行语音识别,主要通过使用高层的知识( 如词汇、句法等) 来补偿语音解码 时的差错。这些的语音识别系统大多是在a r p a 语音理解研究项目( 1 9 7 1 一 1 9 7 6 ) 下建立的,包括c m u 的h a r p y 和h a r p y i i ,b b n 的h w i m 等。但这些人工 智能项目的主要贡献更多地在于专家系统的软件结构而不是语音识别上。随着技 术的发展,人工智能的语音识别方法已经不再是现代语音识别研究的主流。这个 时期语音识别的另一个研究方向是使用模板匹配的方法进行的孤立词语音识别, 其中采用d t w 的“弹性”语音模式匹配算法、线性预测编码( l i n e a r p r e d ic t iv ec o d i n g ,l p c ) 技术以及对非特定人语音识别的数据分析聚类方法 等一系列重要的技术对之后的语音识别研究具有非常重要的意义。 2 0 世纪8 0 年代开始,语音识别研究的重点由孤立词的语音识别转向连接词 的语音识别,提出了多种连接词语音识别算法,包括n e c 的t w o l e v e l d y n a m i cp r o g r a m m i n g 算法、j s r u 的o n e - p a s s 算法、b e l l 实验室的le v e l b u i l d i n g 算法及f r a m es y n c h r o n o u s le v e l b u i l d i n g 算法等。这个时期语 音识别研究的一个重要特征是从模板匹配识别技术转向基于统计模型 ( s t a t is t i c a l l a n g u a g em o d e l i n g ,s l m ) 的识别技术,例如隐马尔可夫 ( h i d d e nm a r k o vm o d e l s ,h m m ) 模型和人工神经网络( h r t i f ic i a ln e u r a l n e t w o r k s ,a n n ) ,统计的语言模型也开始取代基于规则的语言模型而成为主 流。到8 0 年代中期,h m m 技术几乎被世界上所有的实验室所采用。这些进展使 得大词汇量、连续的语音识别系统的开发成为可能。1 9 8 8 年美国c m u 大学用 v q h m m 的方法实现了世界上第一个高性能的非特定人、大词汇量( 9 9 7 词) 的 连续语音识别系统s p h i n x 。此外,大型语音数据库的建立( 如t i m i t 等) 也对 语音识别的研究产生深远的影响。 进入2 0 世纪9 0 年代后,语音识别在细化模型的设计、参数提取和优化以 及系统的自适应等方面取得一系列关键性的进展,使得语音识别技术进一步成 熟,并开始向市场提供产品。2 0 世纪9 0 年代初,国外许多研究机构都研制出词 汇量达到几万的大词汇量语音识别系统,包括i b m 的v i a v o i c e 系统、剑桥大学 的h t k 系统、o g i 系统、d a r g o n 系统、m i c r o s o f t 的w h is p e r 系统等。 我国语音识别研究工作起步于5 0 年代,但近年来发展很快。从8 7 年开始 执行8 6 3 计划后,国家8 6 3 智能计算机主题专家组为语音识别研究立项,每 2 :l 兰釜垒。,。,。一 两年滚动一次。从1 9 9 1 年开始,国家8 6 3 智能计算机专家组每一至两年举 行一次全国性的语音识别系统测试,参加测试的系统代表了国内在这一领域的研 究水平。这些都表明汉语语音识别的研究已经走上组织化的道路。目前我国对大 词汇量连续语音识别系统的研究已经接近国际最高水平1 。 语音识别技术在科技赛、工业界、国防界都有广泛的应用价值和前景,如有 声电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务 系统、定票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、听写 机、计算机控制、工业控制、语音通信系统等,它在一些应用领域中正迅速成为 一个关键的具有竞争力的技术。但语音识别技术发展到现在,还存在一些关键性 的问题尚未能很好地解决,妨碍了语音识别技术的进一步实用化。9 0 年代初期 到现在,连续语音、大词汇量、与讲话人无关、r o b u s t 性能优良的语音识别算 法研究和语音识别系统开发一直是语音识别领域中的主攻方向,其中抗噪声的语 音识别技术已经成为语音识别领域中的一个主要研究课题【4 “】。 如何在不同的噪声环境中保持语音识别系统的性能目前仍然是一个研究的难 题。现有的语音识别系统通常是为受控环境中的干净语音而设计的,尽管它们在 安静的环境里能取得很好的效果,但当这些系统使用于噪声环境中时,其性能会 急剧下降,例如在行驶的汽车中,语音识别系统的识别率会显著降低阳】。由于 实际应用中很多情况下语音识别系统需要工作在存在背景噪声的环境里,因此一 个高性能的语音识别系统必须对不同类型和水平的噪声具有良好的鲁棒性。尽管 在过去的研究中对抗噪声的语音识别技术做了大量的工作,但到目前为止仍未能 找到一种独立于噪声的可靠的识别算法。 环境噪声对一个典型的语音识别系统产生的影响主要可以归结为以下四种个 方面”“1 :1 说话者所在环境中的背景噪声对语音信号的污染;2 说话者在 听到背景噪声后改变自己说话的特性以增加在噪声环境中交流的有效性( 如 l o m b a r d 效应) ;3 同时进行的另一任务( 如驾驶汽车) 对说话者的发音特性 的影响;4 传输过程中信道带来的噪声。 语音识别系统在噪声环境中性能下降的原因是噪声造成了训练环境与识别环 境之间的不匹配,因此要提高语音识别系统在噪声环境中的识别率,必须尽量减 少这种不匹配,通常可以通过修改语音模型的参数来匹配识别环境,或消除噪声 对识别语音的影响等方法来实现。现有的抗噪声语音识别技术通常可以分为三类 9 、10 1 抗噪声的语音特征。抗噪声语音特征是在实际中广泛应用的一种技术, 这类方法假设识别系统与噪声相互独立,通过寻找对噪声影响不敏感的语音特征 来提高系统的性能。由于这类方法不需要从输入的带噪语音中估计恢复干净的语 音信号,并且对干净语音与噪声语音的识别都使用相同语音模型,因此无须估计 华南理工大学工学博士学位论文 环境噪声的特性以及修改或重新训练语音模型,可以方便地应用于多种环境中 但也正由于这类方法没有利用环境噪声的知识,因此其性能通常并不够理想。 2 语音增强。语音增强技术通常用于增强噪声环境中带噪语音的质量和可 懂度,其基本思想是尽可能地从带噪语音中消除噪声的影响,恢复出干净的语音 信号。语音识别系统可以利用语音增强技术作为识别前的预处理,来提高带噪语 音的信噪比,改善其在噪声环境中的性能。但是由于大多数的语音增强技术设计 时是以提高带噪语音的主观感觉为准则,因此这类技术并不直接与语音识别系统 性能的提高相关,它们带来的一些人类可以接受的失真有时可能会对语音识别系 统产生不良的影响。 3 模型补偿。模型补偿技术的基本原理是根据环境噪声的特性,对干净语 音模型的参数进行一定的修正,以补偿训练环境和识别环境之间的差异,使修正 后的语音模型能适应新环境中的噪声语音识别任务。模型补偿技术充分考虑了环 境噪声的特性,因此通常能取得很好的效果,其缺点是对不同的噪声环境都需要 产生一个新的语音模型,因此只适宜应用于噪声特性较为稳定的环境中。 由于环境噪声的种类和干扰程度的不同,通常难以使用一种单一的方法来获 得令人满意的性能。随着抗噪声语音识别技术的发展,如何在实际的语音识别系 统中将以上的技术合理她结合起来,使语音识别系统在不同的噪声环境中均能达 到较高的性能,是抗噪声语音识别研究的一个重要方向。除了信号处理和数学的 方法之外,近年来一些新的技术中还广泛利用了语音产生和感知的原理。通过对 人类听觉系统的模仿,可以有效地提高语音识别系统的抗噪声性能。 1 2 论文研究的主要工作及研究成果 随着移动通信技术的迅猛发展,对单声道的抗噪声语音识别技术的要求也越 来越高。论文重点对加性噪声环境中单声道的抗噪声语音识别技术进行了研究, 主要工作及研究成果如下: 1 针对m f c c 和l p c c 特征在低信噪比时区分能力较差、使用模型补偿技术 无法取得很高识别率的缺点,提出了基于单边自相关序列( o n e s i d e d a u t o c o r r e l a t i o n ,o s a ) m f c c 特征的模型补偿技术。实验结果表明,本文提 出的模型补偿技术可以有效地提高o s a m f c c 的识别率,并且在低信噪比时其性 能明显优于经过相同补偿处理的m f c c 识别系统。 2 分析了环境噪声对相对自相关序列( r e l a t i v ea u t o c o r r e l a t i o n s e q u e n c e s ,r a s ) m f c c 特征的影响,提出了基于r a s m f c c 特征的模型补偿技 4 :兰翌垒。一 术。实验结果表明,所提的识别方法能有效地提高r a s m f c c 的性能,在低信噪 比时其性能同样明显优于经过相同补偿处理的m f c c 识别系统。 3 提出了一种基于m f c c 特征的边缘概率( m a r g i n a l i s a t i o n ) 噪声语音 识别技术。在提出的丢失数据( m is s i n gd a t a ,m d ) 技术中,对m f c c 特征的 每个分量采用了两个相互独立准则的联合判决结果来判定其可靠性,增加了判决 的准确度。实验结果表明,所提的识别方法可以有效地提高m f c c 识别系统的性 能,并且在中高信噪比时比基于滤波器组( f i l t e l b a n k ,f b a n k ) 语音特征的 边缘概率技术具有更高的平均识别率。 4 对边缘概率技术中的二元判决作了改进,提出了一种基于m f c c 特征的 软判决技术。在软判决技术中,根据本文所提的边缘概率技术中的两个判决准 则,采用了一个基于规则的模糊逻辑系统来确定每个分量的可靠程度。实验结果 表明,对于不同类型和信噪比的噪声,软判决技术的识别率都比基于滤波器组语 音特征和m f c c 特征的边缘概率技术有显著的提高。 5 提出了一种基于r a s m f c c 特征的边缘概率技术,实验结果表明所提识 别方法可以有效地提高r a s m f c c 的识别率,并且其性能明显优于基于滤波器组 语音特征和m f c c 特征的边缘概率技术。 6 提出了一种噪声自适应的多分辨率语音识别方法。所提识别方法将全带 识别器与予带识别器结合起来,利用它们对不同类型的噪声具有不同识别率的特 性,采用边缘概率技术来自动调节它们对识别过程的贡献。对r a s m f c c 特征的 实验结果表明,对于不同类型的噪声,所提识别方法都能保持与全带识别器和子 带识别器中效果较好者基本相同的识别率。 1 3 论文章节的安排 论文的内容安排如下: 第一章为绪论,介绍了论文研究的背景、主要工作及研究成果。 第二章首先介绍了典型的声学环境的模型,然后简单地回顾了抗噪声语音特 征、语音增强和模型补偿三类抗噪声语音识别技术中些具有代表性的技术的基 本原理和思想。 第三章介绍了基于h m m 的语音识别技术的基本原理、常用的语音特征及论文 中使用的实验系统。 第四章中提出了两种基于单边自相关序列抗噪声语音特征的模型补偿技术。 首先介绍了基于m f c c 特征的模型补偿技术的原理,分析了这种技术在低信噪比 5 华南理工大学工学博士学位论文 的环境中无法取得较高的识别率的原因,并在此基础上提出了基于o s a m f c c 和 r a s m f c c 抗噪声语音特征的模型补偿技术,分别给出了噪声识别实验的结果。 第五章主要研究基于m f c c 特征的丢失数据噪声语音识别技术。针对过去对 边缘概率技术的研究主要集中在滤波器组语音特征上的情况,提出了一种基于 m f c c 特征的边缘概率技术,弗在实验中与基于滤波器组特征的边缘概率技术作 了比较。为了进一步提高识别的效果,该章还在所提的边缘概率技术的基础上提 出了一种基于m f c c 特征的软判决技术,并给出其识别实验的结果。 第六章主要研究噪声自适应的多分辨率语音识别方法。首先提出了一种基于 r a s m f c c 特征的边缘概率技术,在此基础上提出了采用r a s - m f c c 特征的噪声 自适应多分辨率语音识别方法,介绍了其基本结构和原理,并给出对不同类型的 噪声的识别实验结果。 论文的最后是总结、参考文献、攻读博士期间完成的论文以及致谢。 6 兰三耋垫坚:至童鎏型垫查 。 2 1 引言 第二章抗噪声语音识别技术 2 0 世纪9 0 年代初期,随着语音识别技术在公用电话网和其他多个领域中的 广泛应用,抗噪声的语音识别技术逐渐成为语音识别研究中的一个重要方向。近 年来,以移动通信为特征的个人通信技术迅猛发展,使得语音识别系统应用的环 境更为复杂,抗噪声的语音识别技术也日益成为语音识别技术走向实用化的一个 关键。 目前在语音识别中,广泛地使用了基于统计模型的识别技术。这种识别技术 不需要很多关于语音的先验知识,只依靠对大量训练数据的统计来获得语音信号 的内在特性,虽然这种方法避免了对大量语音变化规律进行研究的困难,但其缺 点也是明显的。由于使用了简单的语音模型和过度依赖训练数据,因此当训练数 据的统计特性与待识别语音的统计特性不同时,训练好的语音模型即无法很好地 工作。由于不同环境中噪声的特性各不相同,实际中不可能收集足够多的能代表 各种工作环境的训练数据,因此需要采用一些不同的技术来提高语音识别系统在 噪声环境中的性能。 在本章中,首先介绍了典型的声学环境的模型,然后简单地回顾了抗噪声语 音识别中一些具有代表性的技术的基本原理和思想,包括抗噪声语音特征、语音 增强和模型补偿三类。最后是本章的小结。 2 2 声学环境的模型 在实际应用中,语音识别系统工作的声学环境是多种多样的,各种噪声和失 真对语音识别系统性能的影响也各不相同。一个语音识别系统可能在某些环境中 具有很好的鲁棒性,但却不能适用于另一些环境。为了能从理论上更好地分析噪 声和失真对语音识别系统的影响,在过去的研究中提出了多种不同的声学环境模 型。图2 一l 为文献 1 1 中提出的一种具有一定代表性的声学环境模型。 7 华南理工大学工学博士学位论文 d i ( n ) 重音 图2 - 1 典型的声学环境模型 f i g 2 1 at y p i c a lm o d e lf o ra c o u s t i ce n v i r o n m e n t s 在图2 1 所表示的声学环境模型中,考虑了可能对语音识别系统产生不良影 响的几种典型的噪声和失真。模型中假设说话者处在具有背景噪声d 。( n ) 的环境 中,并且可能同时进行着另一工作,而只能向识别系统发出简短的指令。不同类 型和水平的背景噪声d ,( n ) 会造成说话者不同程度的l o m b a r d 效应,而同时进行 的另一工作或情绪的波动也可能会使说话者改变说话的语气,如使用重音等。除 了背景噪声d l ( n ) 外,有可能影响识别系统的噪声还包括麦克风失真 。n ) 、传 输信道中的加性噪声d 2 0 ) 和卷积噪声 一b ) 、接收端的加性噪声d 3 g ) 等。设 j ( n ) 为说话者的干净语音,y ( 月) 为输入语音识别系统的语音,则以上模型在数学 上可以表示为 j ,g ) = = w o r k l o 以a dt a 。s k ) ) q g 卜嘶) 一一。忙, 8 ( 2 1 ) 釜三兰鎏生主至童望型垫查 :。一i l e l 目_ _ _ _ - _ _ _ _ _ _ i _ _ e _ - _ _ _ - 日e 自_ _ - - l _ _ _ _ _ _ _ _ _ _ _ _ _ 一一 2 2 抗噪声的语音识别技术 提高语音识别系统在噪声环境中的性能主要可以通过两种方法来实现:减少 环境噪声对识别系统前端的影响,使输入语音特征的统计特性尽量接近训练时的 语音特征的统计特性;减少语音模型与输入语音特征的统计特性之间的差别,使 得识别系统能直接使用带噪的语音特征进行识别。根据使用的技术不同,目前抗 噪声的语音识别技术主要可以分为三类:抗噪声语音特征提取技术、语音增强技 术和模型补偿技术。 2 2 1 抗噪声的语音特征 受噪声的影响,带噪语音特征的分布会与干净语音特征的分布有不同程度的 差别,使训练好的语音模型无法准确地反应带噪语音特征之间的统计特性e 因此 通过寻找对噪声影响不敏感的语音特征,可以减小噪声对识别系统的影响,使训 练好的语音模型仍能适应带噪语音的识别。这类方法的优点是无须估计环境噪声 的特性以及修改或重新训练语音模型,识别系统可以不经修改地应用于多种环境 中。但也正由于没有利用环境噪声的知识,因此其性能通常并不够理想。抗噪声 的语音特征一直是抗噪声语音识别技术研究中的一个主要方向。 2 2 1 1 听觉模型 大量的实验表明,人类的听觉系统比现有的语音识别技术具有更好的抗干扰 性能。文献 12 在多个语音识别任务中对人类识别和机器识别进行了比较,从 测试结果可以看到,人类听觉系统的错误率对于干净的语音比现有语音识别算法 的错误率要小一个数量级,而当存在背景噪声时,则要小两个数量级。因此近年 来提出的一些新的语音特征中广泛利用了语音产生和感知的原理,将声学心理学 和声学生理学等听觉计算模型结合到语音识别系统的前端中。这些计算模型主要 包括临界带滤波、响度响应曲线、非线性能量压缩、毛细细胞模型、短时自适应 以及其他模仿人类听觉处理原理的技术。实验证明,通过在语音识别系统的前端 使用这些听觉知识,语音识别系统在噪声环境中的性能有明显的改善。 9 兰童登三奎兰三兰堡圭兰垒鎏兰 一种广泛利用了听觉外围知识的语音特征是基于感知的线性预测倒谱系数 ( p e r c e d u t a l lyb a s e dl i n e a rp r e d ic t i o n ,p l p ) 1 “。虽然线性预测在语 音编码和语音识别中已经得到广泛的应用,但全极点模型有一个明显的缺点,就 是其频谱在所有频段中都相同程度地拟合原始语音信号的频谱。这与人类的听觉 特性有相当的差别。在8 0 0 h z 以上的频段中,人类听觉的频谱分辨率会随着频 率的增加而下降,并且人类听觉对声音中频的频谱更敏感。全极点模型未能反映 人类听觉的这些特点。p l p 倒谱系数根据人类听觉的原理,先对语音信号的频谱 进行一系列的修正,包括临界带分析、等响度曲线预加重、响度压缩等仿听觉处 理,然后再进行常规的线性预测分析,用一个全极点模型来逼近修正后的频谱, 得到与常规线性预测分析相兼容的特征参数。由于有效地利用了人类的听觉知 识,p l p 倒谱系数通常只需要5 维左右即可取得很好的区分性能,并且在噪声的 环境中也比常规线性预测( l i n e a rp r e d i c t i o n ,l p ) 倒谱系数具有更好的鲁 棒性。 另一种常用于听觉外围模型的生理学模型是横向抑制( l a t e r a l in h i b i t i o n ) 1 4 - 1 7 。这种现象产生的原因是由于基部耳膜神经纤维的活动会对 临近神经纤维的活动产生抑制作用。这种作用加强了语音信号在局部和短时域的 变化,在数学上相当于求差分的运算。横向抑制效应可以用于增强传统的语音特 征矢量如m f c c 等3 在噪声环境中的鲁棒性能,同时也可以用于导出新的抗噪 声的语音特征i s 。 e i h ( e n s e m b lei n t e r v a lh i s t o g r a m ) 1 8 - 2 1 是一种基于神经纤维激活率 短时特性的抗噪声语音特征。e i h 模型的基本结构包括一组耳蜗滤波器、过电平 检测器和间隔柱状图。耳蜗滤波器在l o g 频率域上等间隔分布,模仿耳蜗基膜 的频率选择特性。过电平检测器的输出模仿耳蜗内与毛细细胞相连的神经纤维的 激励,检测到一次过电平即为一次发放。不同的电平表示与同一内毛细胞连接的 多条神经纤维。对于同一电平,相邻两次过电平的时间间隔的倒数即构成该过电 平检测器的间隔柱状图。所有过电平检测器的间隔柱状图综合起来就是总体间隔 柱状图。e i h 中能很好地保存低频频谱的细结构( 但在高频上会模糊) ,比常规 钠傅立叶分析具有更好的抗干扰能力。 掩盖效应是一种广泛应用的听觉心理学模型,最早使用于语音编码,后来也 应用于噪声环境下的语音识别【2 2 。2 ”。掩盖效应包括同时掩盖和非同时掩盖。同 时掩盖是指两个频率差别不大的纯音同时作用于人耳时,强度大的纯音会影响人 耳对另一个纯音的感知。非同时掩盖是指如果一个音消失时间很短内( 2 0 3 0 毫 秒) 出现第二个音,则前一个音会影响后一个音的感知。根据某帧语音和与之相 邻的前几帧语音的功率谱,可以计算出该帧语音的掩盖曲线。由于语音信号的功 率谱中位于该掩盖曲线以下的部分将不会被感知,因此可以用对应的那段掩盖曲 1 0 至三差垫堡i 主至耋堡型茎查。,。一 l _ _ i l _ _ _ _ _ - _ _ _ l _ 自_ - - _ 目i _ _ j l - _ _ _ i _ _ _ l _ l _ 目$ 。_ 一 线来代替,即根据掩盖曲线修改语音信号的功率谱,最后根据修改过的语音信号 功率谱提取语音的特征矢量3 。 2 2 ,i 2 慢变噪声滤波 在很多情况下,背景噪声和失真的变化相对于语音信号的变化来说要缓慢得 多,并且语音信号的动态部分在语音的感知中具有很大作用。在语音特征的提取 过程中,如果去除其慢变部分,则既可以去除稳定和变化缓慢的噪声,同时也保 留了语音中对感知重要的动态部分,因此可以提高识别系统在噪声环境中的识别 率。这种方法在抗噪声语音特征的提取中得到广泛的应用,通常可以应用在功率 谱域、l o g 能量谱域、倒谱域或自相关等域中。 c m n ( c e p s t r u mm e a nn o r m a l is a t o n ) n ”2 6 1 是一种类简单有效的去除卷 积噪声的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论