




已阅读5页,还剩102页未读, 继续免费阅读
(信号与信息处理专业论文)传声器阵列语音增强中关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, 、 大连理: 大学博士学位论文 摘要 语音信号处理是现代通信、多媒体技术及人工智能系统等众多领域应用的核心技术 之一。人们在获得语音信号的同时,不可避免地会受到环境噪声、房间混响以及其他说 话人的话音干扰。语音增强作为前置处理方案是抑制干扰的一种有效途径。采用常规的 单传声器技术,虽然可以对噪声进行一定的抑制,但由于可利用的信息仅限于时频信息, 因此,在强混响环境下,或者是存在干扰语音源时,其干扰抑制效果并不理想。利用传 声器阵列提供的空域和时频信息,则有可能较好地解决这些问题。 传声器阵列系统已经广泛应用于视频会议、语音识别、说话人识别、汽车环境语音 获取、混响环境声音拾取、声源定位和助听装置等场合和设备中。上述这些应用情况归 纳起来,最主要的两大类应用是传声器阵列声源定位和传声器阵列语音增强。传声器阵 列语音增强作为传声器阵列技术的重要应用之一,涉及时延估计、语音活动检测和语音 增强方法三项关键技术。本文重点研究了这三项关键技术,主要工作如下: ( 1 ) 研究了互功率谱相位时延估计方法。该方法是基于时延估计问题的理想模型提 出的,仅适用于高信噪比和弱混响情况。为了使该方法适用于低信噪比和中度以上混响 情况,本文对互功率谱相位时延估计方法的性能进行了分析,找出了低信噪比和中度以 上混响时其性能下降的原因,给出了两种改进的加权函数形式,改善了该方法在低信噪 比和中度以上混响情况下的时延估计性能。 ( 2 ) 在混响情况下,研究了自适应特征值分解时延估计方法。本文对该方法的时延 估计性能进行了分析,表明该方法仅适用于弱噪声情况。针对这一问题,本文给出一种 小波域的自适应特征值分解时延估计方法,并对其收敛性能进行了分析。该方法利用小 波变换抑制噪声,在信噪比最高的尺度下,应用自适应特征值分解方法进行时延估计, 改善了自适应特征值分解时延估计方法在低信噪比情况下的时延估计性能。 ( 3 ) 现有的传声器阵列语音活动检测方法大都是基于单路信号的检测技术,即每一 路传声器信号利用单路语音活动检测方法分别进行检测,运算量较大。针对这一问题, 本文利用传声器阵列中声源信号之间仅存在时间延迟这一特点,通过对增强后的语音信 号进行语音活动检测,以该语音活动检测结果为参考,分别平移相应的时间,同时获得 了阵列多路信号的语音活动检测结果。针对相关噪声情况,本文给出一种结合独立分量 分析的传声器阵列语音活动检测方法:为了将该思路推广到不相关噪声情况,本文给出 一种基于噪声类型判别的传声器阵列语音活动检测方法。 ( 4 ) 针对仅存在噪声的情况,研究了波束形成类传声器阵列语音增强方法。考虑到 固定波束形成方法仅适用于抑制不相关噪声,为了使其适用于相关噪声情况,本文给出 马晓红:传声器阵列语音增强中关键技术的研究 一种基于小波变换和波束形成的语音增强方法,并对小波阈值去噪方法进行了改进,给 出一种自适应小波阈值去噪方法;广义旁瓣抵消器仅适用于抑制相关噪声,为了使其对 不相关噪声也同样具有较好的噪声抑制能力,本文将独立分量分析技术引入其中,给出 一种基于独立分量分析和波束形成的语音增强方法。 f 5 1 针对同时存在噪声和混响的情况,研究了子带盲源分离和后置处理语音增强方 法。理论分析和计算机仿真实验结果表明,该方法对混响、不相关噪声和弱相关噪声的 抑制效果不明显,并且对语音信号有一定程度损伤。为了将该方法应用于实际环境,对 基于子带盲源分离和后置处理的语音增强方法进行了改进,仅在分离效果不佳的子带内 进行自适应噪声抵消,从而进一步提高了语音信号的质量。 计算机仿真实验结果表明了文中给出方法的有效性。 关键词:传声器阵列;时延估计;语音活动检测;语音增强;独立分量分析;小波变换 大连理工大学博士学位论文 s t u d yo nk e yt e c h n i q u e si ns p e e c he n h a n c e m e n tw i t hm i c r o p h o n ea r r a y a b s t r a c t s p e e c hs i g n a lp r o c e s s i n gi so n eo ft h ek e r n e lt e c h n i q u e sa p p l i e di nm a n yf i e l d ss u c ha s m o d e mc o m m u n i c a t i o n s ,m u l t i m e d i a t e c h n i q u e s ,a n d a r t i f i c i a l i n t e l l i g e n c es y s t e m s g e n e r a l l ys p e a k i n g ,t h er e c o r d e ds i g n a l sa r ei n e v i t a b l yi n t e r f e r e db yt h en o i s e sf r o mt h e e n v i r o n m e n t ,t h er e v e r b e r a t i o no ft h er o o m sa n di n t e r f e r i n gs p e e c hs o u r c e sf r o mo t h e r s p e a k e r s a sap r e p r o c e s s i n gm e t h o d ,t h es p e e c he n h a n c e m e n tt e c h n i q u ei sa ne f f e c t i v ew a y t os u p p r e s st h ei n t e r f e r e n c e t h o u g ht r a d i t i o n a ls i n g l em i c r o p h o n et e c h n i q u e sc a nm a k es o m e e f f o r to nn o i s er e d u c t i o n ,d u et ot h ei n f o r m a t i o nt l l a tc a nb eu s e di s s o l e l yb a s e do n t e m p o r a l s p e c t r a li n f o r m a t i o na b o u tt h er e c o r d e ds i g n a l s ,t h ep e r f o r m a n c ei su n s a t i s f a c t o r yi n h i g hr e v e r b e r a t i o ne n v i r o n m e n to rt h ed e s i r e ds p e a k e rs i g n a li sc o r r u p t e db yo t h e rs p e a k e r s t os o l v e t h e s ep r o b l e m s ,s p a t i a la n dt e m p o r a l s p e c t r a li n f o r m a t i o nc a nb ej o i n t l ye x p l o i t e db y u s i n gm i c r o p h o n ea r r a y e x i s t i n ga r r a ys y s t e m sh a v e b e e nu s e d i nan u m b e ro f a p p l i c a t i o n si n c l u d i n g t e l e c o n f e r e n c i n g ,s p e e c hr e c o g n i t i o n ,s p e a k e ri d e n t i f i c a t i o n ,s p e e c ha c q u i s i t i o ni n a n a u t o m o b i l ee n v i r o n m e n t ,s o u n dc a p t u r ei nr e v e r b e r a n te n c l o s u r e s ,s o u n ds o u r c el o c a l i z a t i o n , a n dh e a r i n ga i dd e v i c e s t h e s ea p p l i c a t i o n sc a nb es u m m a r i z e di n t ot w om a i ng r o u p s :s o u n d s o u r c el o c a l i z a t i o na n ds p e e c he n h a n c e m e n tb a s e do nm i c r o p h o n ea r r a y a so n eo ft h e i m p o r t a n ta p p l i c a t i o n so ft h em i c r o p h o n ea r r a y ,t h es p e e c he n h a n c e m e n tw i t hm i c r o p h o n e a r r a yi n v o l v e si nt h r e ek e yt e c h n i q u e s :t i m ed e l a ye s t i m a t i o n ,v o i c ea c t i v i t yd e t e c t i o na n d s p e e c he n h a n c e m e n tm e t h o d s n l ew o r ki nt h i sp a p e rf o c u s e so nt h e s et h r e ek e yt e c h n i q u e s w h i c ha r ed i s c u s s e da sf o l l o w s : t h ep e r f o r m a n c eo ft h et i m ed e l a ye s t i m a t i o nm e t h o db a s e do nc r o s s p o w e r - s p e c t r u m p h a s eh a sb e e na n a l y z e d t h i sm e t h o di sp r o p o s e db a s e do nt h ei d e a lm o d e lo ft i m ed e l a y e s t i m a t i o n ,s oi ti sj u s ts u i t a b l ef o rt h eh i g h e rs i g n a l t o n o i s er a t i oa n dl o w e rr e v e r b e r a t i o n c a s e t om a k et h i sm e t h o da p p l i c a b l ei nl o w e rs i g n a l t o n o i s er a t i oa n dm i d d l eo rh i g h r e v e r b e m t i o ne n v i r o n m e n t s ,t h ep e r f o r m a n c eo f t h em e t h o di sa n a l y z e da n dt h er e a s o nf o rt h e p o o rt i m ed e l a ye s t i m a t i o np e r f o r m a c ei sf o u n d t h e nt w om o d i f i e dw e i g h t i n gf u n c t i o n sa r e g i v e nt oi m p r o v et h ep e r f o r m a n c eo ft i m ed e l a ye s t i m a t i o ni nl o w e rs i g n a l t o n o i s er a t i oa n d m i d d l eo rh i g hr e v e r b e r a t i o nc o n d i t i o n i nt h er e v e r b e r a n te n v i r o n m e n t s ,t h ea d a p t i v e e i g e n v a l u ed e c o m p o s i t i o nb a s e dt i m e d e l a ye s t i m a t i o nm e t h o di ss t u d i e d t h r o u g ha n a l y z i n gi t sp e r f o r m a n c e ,ac o n c l u s i o nc a l lb e d r a w nt h a tt h em e t h o di so n l ys u i t a b l ef o rt h em i l dn o i s ee n v i r o n m e n t s t os o l v et h i sp r o b l e m 马晓红:传声器阵列语音增强中关键技术的研究 a na d a p t i v ee i g e n v a l u ed e c o m p o s i t i o nb a s e dt i m ed e l a ye s t i m a t i o nm e t h o di nt h ew a v e l e t d o m a i ni sp r o p o s e da n di t sc o n v e r g e n c ei sd i s c u s s e d t h i sm e t h o dc o m p l e t e st h en o i s e s u p p r e s s i o nb yu t i l i z i n gt h ew a v e l e tt r a n s f o r m ,c h o o s i n g t h es c a l ew i t ht h eh i g h e s t s i g n a l - t o n o i s er a t i ot op e r f o r mt h et i m ed e l a ye s t i m a t i o ne m p l o y i n gt h ea d a p t i v ee i g e n v a l u e d e c o m p o s i t i o nm e t h o d 1 1 1 ep e r f o r m a n c eo ft i m ed e l a ye s t i m a t i o ni nl o w e rs i g n a l - t o n o i s e r a t i oc o n d i t i o nh a sb e e ni m p r o v e d t h ee x i s t i n gv o i c ea c t i v i t yd e t e c t i o nm e t h o d sw i mm i c r o p h o n ea r r a ya r em o s t l yb a s e do n t h ed e t e c t i o nt e c h n o l o g yw i t ho n e c h a n n e ls i g n a l t h a ti st os a ye a c ha r r a ys i g n a li sd e t e c t e d 。 b yu s i n ge x i s t i n gv o i c ea c t i v i t yd e t e c t i o nm e t h o dw i t l lo n e c h a n n e ls i g n a lr e s p e c t i v e l y t h i s w i l lr e s u l ti nm o r ec o m p u t a t i o nc o n s u m i n g a i m i n ga tt h i sp r o b l e m ,t a k i n ga d v a n t a g eo ft h e f a c tt h a tt h eo n l yd i f f e r e n c ea m o n gt h ep a r t sc o r r e s p o n d i n gt os o u n ds o u r c es i g n a lo f t h ea r r a y s i g n a l si st i m ed e l a y ,av o i c ea c t i v i t yd e t e c t i o nm e t h o di se m p l o y e do nt h ee n h a n c e ds p e e c h s i g r l a l t h e nt h i sv a dr e s u l ti su s e da sr e f e r e n c et op r o d u c et h o s eo fa l la r r a ys i g n a l s f o r c o r r e l a t e dn o i s e a ni n d e p e n d e n tc o m p o n e n ta n a l y s i sc o m b i n e dv o i c ea c t i v i t yd e t e c t o rw i t h m i c r o p h o n ea r r a yi sp r o p o s e d t os p r e a dt h ei d e at ot h et m c o r r e l a t e dn o i s e s ,t h ev o i c ea c t i v i t y d e t e c t i o nm e t h o db a s e do nt h en o i s et y p ed i s t i n g u i s h i n gf o rm i c r o p h o n ea r r a yi sg i v e n u n d e rt h ec o n d i t i o no f n o i s e o n l ye n v i r o n m e n t s ,b e a m f o r m i n g b a s e d s p e e c h e n h a n c e m e n tm e t h o di ss t u d i e d t h ef i x e db e a m f o r m i n gm e t h o di so n l ys u i t a b l et os u p p r e s s u n c o r r e l a t e dn o i s e s t om a k ei ts u i t a b l ef o rc o r r e l a t e dn o i s ec a s e ,w a v e l e tt r a n s f o r i l la n d b e a m f o r m i n gb a s e ds p e e c he n h a n c e m e n tm e t h o di sp r o p o s e d ,i nw h i c ha na d a p t i v em e t h o di s b r o u g h ti nt oi m p r o v et h ep e r f o r m a n c eo f t h ef i x e dw a v e l e tt h r e s h o l dn o i s er e d u c t i o nm e t h o d f u r t h e rm o r e a st h eg e n e r a l i z e ds i d e l o b e sc a n c e l l e ri sj u s tf i tf o rs u p p r e s s i n gt h ec o r r e l a t e d n o i s e s ,t oo b m i nab e t t e rp e r f o r m a n c et ou n c o r r e l a t e dn o i s e s ,a ni n d e p e n d e n tc o m p o n e n t a n a l y s i sa n db e a m f o r m i n g b a s e ds p e e c he n h a n c e m e n tm e t h o di sp r o p o s e d i nt h ec a s eo fn o i s ea n dr e v e r b e r a t i o ne n v i r o n m e n t s ,s p e e c he n h a n c e m e n tm e t h o db a s e d o nb l i n ds o u r c es e p a r a t i o ni ns u b b a n da n dp o s t p r o c e s s i n gi ss t u d i e d p e r f o r m a n c ea n a l y s i s a n dc o m p u t e rs i m u l a t i o n si n d i c a t et h ep o o rp e r f o r m a n c eo ft h i sm e t h o di ns u p p r e s s i n g、 r e v e r b e r a t i o n ,u n c o r r e l a t e da n dm i l dc o r r e l a t e dn o i s e s ,a n di ti n t r o d u c e da u d i b l ed i s t o r t i o nt o t h ee n h a n c e ds i g n a l t oa p p l yt h em e t h o di np r a c t i c a le n v i r o n m e n t ,a ni m p r o v e m e n th a sb e e n m a d eo ni t t h a ti st h ea d a p t i v en o i s ec a n c e l l e r sa r eo n l yu s e di nt h es u b b a n d sw i t l lp o o r s e p a r a t i o nr e s u l t t h r o u g ht h i sm e t h o d ,t h eq u a l i t yo ft h ee n h a n c e ds p e e c hs i g n a lh a sb e e n i m p r o v e d s i m u l a t i o nr e s u l t ss h o wt h ee f f e c t i v e n e s so f t h e s ep r o p o s e dm e t h o d s k e yw o r d s :m i c r o p h o n ea r r a y ;t i m ed e l a ye s t i m a t i o n ;v o i c ea c t i v i t yd e t e c t i o n : s p e e c he n h a n c e m e n t :i n d e p e n d e n tc o m p o n e n ta n a l y s i s ;w a v e l e tt r a n s f o r m i v 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:乡弛立日期:塑! :! :生 大连理工大学博士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 、 作者签名: 导师签名: 易哪( z 大连理工大学博士学位论文 第1 章绪论 摘要:本章在简要介绍传声器阵列语音增强应用背景、传声器阵列特点及其 应用的基础上,重点阐述了传声器阵列语音增强所涉及的三项关键技术和它们 的研究现状,最后给出了本文的主要研究内容。 1 1 传声器阵列语音增强应用背景 语音信号处理是现代通信、多媒体技术以及人工智能系统等众多领域应用的核心技 术之一。人们在获得语音信号的同时,不可避免地会受到环境噪声,房间混响乃至其他 说话人的话音干扰。例如,安装在汽车、飞机或舰船上的电话,街道、机场的公用电话, 常受到背景噪声和其他说话人话音的干扰,严重影响通话质量。在电话会议系统、视频 会议系统应用中,室内混响与声源信号一起传播到每个会议地点,严重影响语音收听效 果。此外,噪声的存在也会导致许多语音处理系统的性能急剧恶化,例如,语音识别已 取得了重大进展,正在步入实用化阶段。但目前的语音识别系统大都是在安静的环境下 工作的,在噪声环境尤其是强噪声环境中,语音识别系统的性能将大幅度下降。语音编 码,特别是低速率语音编码,也遇到类似的问题。 语音增强作为前置处理方案是抑制干扰的一种有效途径。在声源和传声器位置相对 固定的前提下,如果不存在噪声和混响的影响,利用放置在距离声源比较近的高性能、 高方向性单传声器系统,可以获得高质量的声源信号。但是,旦声源位置改变,使其 位于传声器的接收方向之外,就会引入大量噪声,此时,必须人为地移动传声器,否则 会导致拾取的声源信号质量下降。并且,当传声器距离声源比较远,或者存在一定程度 的噪声及混响的情况下,由于可利用的信息仅限于时频信息,因此,其干扰抑制效果并 不理想。利用传声器阵列提供的空域和时,频信息,则有可能较好地解决这些问题。 1 2 传声器阵列特点及其应用 传声器阵列由一组按一定几何位置摆放的传声器组成。下面将简单介绍传声器阵列 的特点及其主要应用。 1 2 1 传声器阵列的特点 传声器阵列系统较之单传声器系统具有许多优点,其优越性表现在【1 】: ( 1 ) 传声器阵列系统具有空间选择特性,可以用“电子瞄准”的方式提供高质量的 所需声源信号,同时抑制噪声、混响和其他说话人的话音干扰。因此,较之高方向性的 单传声器系统,传声器阵列系统可以取得更加明显的干扰抑制效果。 马晓红:传声器阵列语音增强中关键技术的研究 ( 2 ) 高方向性的单传声器系统通常只能拾取一路信号,且一般不能随声源一起运动, 这就限制了它的使用范围。说话人的运动,甚至头部和身体的轻微晃动,都会导致单传 声器系统接收信号的质量下降。而传声器阵列系统对于远处和近处的声源,均可以正常 工作;同时,当说话人随意活动时,也不需要人为地移动它来改变其波束方向。这些特 性使得传声器阵列系统可以用于获取多个声源或移动声源信号,也可以应用在一些特殊 场合。 ( 3 ) 传声器阵列系统具有单个传声器系统不具备的性能,比如自动检测、定位,并 且在其接收区域内跟踪正在说话的人。 1 - 2 2 传声器阵列的应用 在雷达、声纳、医学、通讯和航空航天等诸多领域中,阵列信号处理早已有着广泛 的应用。在国际上,将传声器阵列技术用于语音信号处理的研究源于1 9 7 0 年代。1 9 7 6 年,g a b r i e l 将雷达和声纳中的自适应波束形成技术直接应用于简单的声音获取问题【2 j 。 1 9 8 5 年,美国a t & tb e l l 实验室的f l a n a g a n 采用2 1 个传声器组成线性阵列,首次用电 子控制的方式实现了声源信号的获取i3 1 。该系统采用简单的波束形成方法,通过计算预 先设定位置的能量,找到具有最大能量的方向。同年,f l a n a g a n 等人又将二维传声器阵 列用于大型房间内的声音拾取,以抑制混响和噪声对声源信号的影响。由于当时技术的 制约,使得该算法还不能够借助于数字信号处理技术以数字的方式实现,而主要采用了 模拟器件实现【”。1 9 9 1 年,k e l l e r m a r m 借助于数字信号处理技术,用全数字的方式实现 了这一算法【”,进一步改善了算法的性能,降低了硬件成本,提高了系统的灵活性。随 后,一些国家相继开展了这方面的研究工作。进入1 9 9 0 年代以来,基于传声器阵列的 语音处理技术正成为一个新的研究热点。现有的传声器阵列系统已经应用于许多场合, 包括视频会议f 3 1 ”、语音识别【1 2 - 1 9 1 、说话人识另l j t 2 0 , 2 q 、汽车环境语音获取【珏2 ”、混响环 境声音拾取【2 5 2 9 1 、声源定位3 0 - 4 5 】和助听装置【4 6 4 8 1 等。上述这些应用情况归纳起来,最主 要的两大类应用是传声器阵列声源定位和传声器阵列语音增强。 传声器阵列声源定位,简而言之,就是利用传声器阵列定出声源的空间位置,进而 引导阵列波束方向和摄像机镜头对准正在说话的人。现有的源定位方法可以分为三大 类:基于最大输出功率的可控波束形成技术 3 - 5 , 3 1 】、高分辨率谱估计技术【4 9 , 5 0 和基于到达 时间差( t i m e d i f f e r e n c eo f a r r i v a l ,t d o a ) 的定位技术【3 2 部1 。由于高分辨率谱估计技术的 若干假设条件与实际房间声环境不符川,因此其定位精度不高,且运算量很大,从而限 制了该类方法在声源定位中的应用。因此,可行的传声器阵列声源定位方法主要是基于 最大输出功率的可控波束形成技术和基于t d o a 的定位技术两类。 大连理 二大学博士学位论文 传声器阵列语音增强,简而言之,就是利用按一定几何位置或任意摆放的传声器阵 列拾取声源信号,对这些接收的信号进行适当处理,消除或抑制噪声、混响和其他说话 人的话音干扰,以获得尽可能纯净的声源信号。现有的传声器阵列语音增强方法主要有 空域处理、自适应噪声抵消和子空间分解三大类。 本论文主要研究基于传声器阵列空域处理的语音增强方法,它分为波束形成和盲源 分离两大类。固定波束形成是波束形成类语音增强方法的基本组成单元,其中涉及的时 延估计( t i m ed e l a ye s t i m a t i o n ,t d e ) 技术影响了其形成波束方向的准确程度以及最终的 语音增强效果。此外,时延估计应在有音段进行,需要进行语音活动检测( v o i c ea c t i v i t y d e t e c t i o n ,v a d ) 。因此,时延估计、语音活动检测和语音增强( s p e e c he n h a n c e m e n t ,s e ) 方法是传声器阵列语音增强中的三项关键技术。 1 3 传声器阵列语音增强三项关键技术的研究现状 1 3 1 时延估计技术的研究现状 传声器阵列语音增强和声源定位中,常用的时延估计方法有两种:广义互相关方法 ( g e n e r a l i z e dc r o s sc o r r e l a t i o n ,g c c ) 和最小均方( l e a s tm e a ns q u a r e ,l m s ) 自适应时延估 计方法。 人们已对噪声情况下的广义互相关方法进行了深入研究。1 9 7 6 年,k n a p p 和c a r t e r 提出了广义互相关方法【5 1 1 ,该方法假设信号和噪声源之间彼此不相关,且为联合平稳随 机过程。在无混响且信号和噪声统计特性已知的情况下,提出了基于信噪l v , d 1 1 权的最大 似然( m a x i m u ml i k e l i h o o d ,m l ) 时延估计方法,并将该方法与其它加权函数形式的时延 估计方法进行了比较【5 i 】:文献 5 2 1 研究了适用于非平稳语音源的最大似然加权方法,该 方法适用于低混响环境,但随着混响的增大,该方法的性能下降 5 3 , 5 4 】。通过降低加权 函数对频率的依赖性,可以锐化互相关函数的峰值,从而使该方法对混响具有一定的鲁 棒性,在高信噪比和弱混响的环境下可以获得比较精确的时延估计值。但在低信噪比和 中度以上混响的环境下,该方法的性能仍明显下降【5 ”。广义互相关时延估计方法中的相 位加权法,也称为互功率谱相位时延估计方法【3 5 , 3 6 ,以其时延估计精度高、运算量小 等优点,在传声器阵列语音增强和声源定位系统中受到了广泛的关注【3 5 。3 9 】。 最小均方自适应时延估计方法【56 】相当于加权函数取一路信号自功率谱的广义互相 关方法。两者的差别在于:广义互相关方法基于信号和噪声的先验知识,需要进行信号 和噪声功率谱的估计,在实际应用中,由于往往仅利用一帧数据就获得了信号的功率谱 和互功率谱估计,因此估计精度不高;而自适应时延估计方法则通过一定的误差准则, 在收敛的情况下给出时延估计值,因此时延估计结果相对来说更加准确。此外,自适应 马晓红:传声器阵列语音增强中关键技术的研究 时延估计方法还可以处理非平稳信号。但是,自适应时延估计方法也存在缺陷。首先, 这种逼近对周期信号的效果比较差,而语音信号从局部来看呈现比较明显的周期性,因 此效果不佳:其次,由于自适应时延估计方法需要进行迭代运算,因此,其运算量远大 于广义互相关方法:再次,在混响情况下,由于两路信号都是通过房间的多径反射形成 的,因此用其中的一路直接去逼近另一路,得到两者之间的时延值往往不准确。 为了抑制混响对时延估计性能的影响,人们还提出了其它一些方法。文献 5 7 1 采用 倒谱预滤波的方法来消除混响的影响,但由于语音的非平稳性,使得该方法很难取得好 的时延估计性能。文献 5 8 1 提出了一种基于谐波结构的时延估计方法,该方法利用语音 浊音段的周期性特征来改进信号的谱估计性能。文献 5 9 1 提出一种混响情况下的时延估 计方法,该方法利用了语音浊音段线性预测余量的希尔伯特包络来提取周期性激励特 征。文献 6 0 1 提出一种自适应特征值分解( a d a p t i v ee i g e n v a l u ed e c o m p o s i t i o n ,a e d ) 时延 估计方法,该方法从传声器阵列的实际模型入手,通过计算两路传声器信号的协方差矩 阵,利用自适应方法估计该矩阵最小特征值所对应的特征向量j 来获得最终的时延估计 结果。 1 3 2 语音活动检测技术的研究现状 语音活动检测,也称为语音端点检测或语音有音无音检测,它是进行其它语音信号 处理重要的步骤之一。语音活动检测技术广泛地应用于各种语音处理系统中。例如,语 音识别过程需要进行语音起止点判决;有的语音增强算法需要从带噪语音信号中提取出 噪声,对其功率谱或统计特性进行估计:语音编码可以利用“语音插空”来提高传输效 率。在许多实际应用中,借助语音活动检测技术,可以使得后续处理只需针对语音段进 行,减少了无谓的计算量和数据量。 语音活动检测方法大致可以分为两类:基于语音与噪声统计信息的自适应检测方法 和基于固定检测条件的非自适应检测方法 6 2 4 5 5 1 。 自适应检测方法虽然适用性广,但需要事先对语音和噪声模型进行训练,以得到背 景噪声和语音的统计信息,而且大部分算法要求信号的信噪比高、背景噪声保持平稳, 这些条件在实际环境中很难满足。另外,自适应检测算法实现起来计算量大,不易于实 时处理。 非自适应检测方法的基本思想是:将语音信号分成长度为2 0 4 0 m s 的帧,从输入信 号帧中提取一些度量特征,再与相应的从单纯噪声中获取的阈值进行比较。若计算得到 的度量特征值大于阈值,则该帧为活动帧( 有音帧) ,否则为非活动帧( 无音帧) ,因此这 类方法也可称之为阈值比较法。 大连理工大学博士学位论文 早期的阈值比较法多使用l p c 系数【6 2 】,短时能量和过零率【6 l 】等作为度量特征进行 检测,近年来又引入了倒谱特征【6 3 】、频带方差【删和特征空间能量熵【6 5 】等衡量手段。文 献 6 6 1 利用多路传声器阵列信号实现了对单路带噪信号的语音活动检测,该方法适用于 非平稳噪声情况。 1 3 3 语音增强技术的研究现状 自适应噪声抵消语音增强方法的原理和应用由w i d r o w 等人于1 9 7 5 年提出1 6 ”,该方 法将一路带噪信号作为自适应滤波器的输入信号,另一路噪声作为参考信号,按照一定 的准则对滤波器系数进行更新,达到抑制噪声的目的。文献【6 8 】利用语音信号具有准周 期性这一特点构造参考信号,实现了消除噪声的目的:该方法当信号泄漏到参考噪声中 时,会导致自适应噪声抵消的效果变差,采用两级级联结构1 6 9 j ,或者在输入信号强的时 间段内阻止滤波器权向量更新【7 0 】,都可以在一定程度上解决这一问题。文献 7 1 】研究了 线性相位的自适应噪声抵消器,文献【7 2 】给出了一种基于独立分量分析的自适应噪声抵 消器结构。自适应噪声抵消语音增强方法的缺点是对混响无能为力,并且当需要进行语 音活动检测时,一旦检测结果不准确,即会导致噪声抑制能力变差。 2 0 0 1 年,j a b l o u n 和c h a m p a g n e 根据单传声器信号子空间语音增强方法,提出一种 传声器阵列信号子空间语音增强方法【_ 7 3 j 。文献 7 4 通过对空间相关矩阵的特征值进行加 权,去除噪声为主的子空间,从而抑制了不相关或弱相关噪声:利用波束形成的方法进 一步增强声源信号,实现了语音增强的目的。文献 7 5 1 将信号子空间的方法与信号和噪 声的空时信息相结合,实现了传声器阵列语音增强。为了降低文献 7 5 1 中滤波器的阶数 并减少运算量,文献 7 6 】提出一种递推结构的信号子空间方法。该方法将文献 7 5 】的方 法与波束形成相结合,并后置自适应噪声抵消器来实现语音增强的目的。该类方法的优 点是对相关和不相关噪声均具有比较好的噪声抑制能力,对混响的鲁棒性也较好;缺点 是未考虑其他说话人的话音干扰问题,且运算量比较大,不利于实时处理。 传声器阵列空域处理语音增强技术分为波束形成和盲源分离两大类。波束形成类方 法包括固定波束形成( 又称延迟一求和波束形成口4 1 ) 、自适应波束形成【7 7 】及其改进形式 2 4 , 7 8 - 8 0 1 和具有后置滤波器的自适应波束形成【8 1 。8 3 1 三种。它们借助传声器摆放的先验信 息,在所需声源方向形成波束来提取相对纯净的声源信号。f r o s t 于1 9 7 2 年最早提出了 基于最小功率的线性约束自适应波束形成方法【7 ”,用于解决传声器阵列接收的语音信号 增强问题。1 9 8 2 年,g r i f f i t h s 和j i m 在f r o s t 算法基础上加以改进【7 8 】,提出了通用旁瓣 抵消器结构。文献 2 4 提出一种自适应波束形成方法,该方法在计算阻塞矩阵时加入了 高通滤波器,可以提供更加准确的噪声参考信号。m e y e r 和s y d o w 提出一种通过控制波 马晓红:传声器阵列语音增强中关键技术的研究 束形成器的多波束方向,使它们分别指向声源信号方向和噪声方向的方法 7 9 】,以获得噪 声参考信号。文献【8 0 】采用系数约束自适应滤波器构造自适应块矩阵。为了抑制不相关 噪声并进一步提高输出信号的信噪比,z e l i n s k i 首先提出具有后置滤波器的传声器阵列 语音增强系统【8 l 】。m e y e r 和s i m m e r 8 2 】以及d a l d e g a n 和p r a t i l 8 3 1 针对散射噪声情况,提 出在低频段用谱相减、高频段用维纳滤波的方法。j a n 和f l a n a g a n 提出用匹配滤波波束 形成代替传统的固定波束形成的语音增强方法1 8 4 。为了提高通用旁瓣抵消器增强方法对 混响的鲁棒性,文献 8 5 8 7 提出一种基于通道之间传递函数比的方法。波束形成类方法 的优点是可以调整波束方向使其指向所需声源,即适用于多声源情况;缺点是依赖于传 声器摆放的先验信息和声源的位置,并且为了达到一定的增强效果,往往需要数目比较 多的传声器,因而算法的通用性比较差,并且多个传声器也限制了其应用场合。 盲源分离类方法【8 “则可以用比较少的传声器( 如2 5 个) ,实现从含有混响和噪声的 信号中分离出相对纯净的所需声源信号的目的。文献 8 8 】提出一种利用盲源分离方法去 除方向噪声,用小波滤波器组抑制不相关噪声的方法。文献 8 9 ,9 0 提出一种在子带内进 行盲源分离的方法。该类方法的优点是不依赖于传声器摆放的先验信息和声源的位置, 因而具有广阔的应用前景;缺点是没有考虑多说话人的情况,且存在高频段不可完全分 离问题。 1 4 论文的主要研究内容 自f l a n a g a n 用电子控制的方式实现传声器阵列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铁合金课件教学课件
- 知识产权课堂培训课件
- 知识产权总裁培训课件
- 2025年建筑工程师考试模拟试题 工程预算知识
- 钣金行程基本知识培训课件
- 钣金工岗位基础知识培训
- 知识产权培训班创新课件
- 2025年机器人软件编程技术规程面试题
- 钢管架安全知识培训总结课件
- 知识产权培训内容简要课件
- 青马考试题目及答案
- 2024-2025学年广东省深圳市南山区四年级(下)期末数学试卷
- 算力中心计算任务优化方案
- 劳务派遣工作知识培训课件
- AutoCAD电气工程制图 课件 项目1 低压配电柜的绘制与识图
- 无人机反制设备原理课件
- 北京市2025年普通高中学业水平等级性考试政治试题(解析版)
- 2025年村干部考试试题(含答案)
- 新华书店招聘面试题库全攻略:行业知识、技能与面试技巧
- 幼儿园2025年度保育员模拟考试试题试题(附答案)
- 软件系统供货、安装进度计划及保证措施
评论
0/150
提交评论