(信号与信息处理专业论文)多通道语音增强方法的研究.pdf_第1页
(信号与信息处理专业论文)多通道语音增强方法的研究.pdf_第2页
(信号与信息处理专业论文)多通道语音增强方法的研究.pdf_第3页
(信号与信息处理专业论文)多通道语音增强方法的研究.pdf_第4页
(信号与信息处理专业论文)多通道语音增强方法的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)多通道语音增强方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 现实生活中,语音信号不可避免地受到环境噪声的影响,导致许多语音处理系统的 性能急剧恶化。因此语音增强作为一种预处理手段,不失为一种有效途径。多年来学者 们不懈努力,寻求各种优良的语音增强方法。基于单麦克风的语音增强方法由于受到麦 克风数量的限制,往往不能获得令人满意的增强效果。麦克风阵列语音增强技术利用了 阵列信号的空间相位信息,因而比传统的单麦克风语音增强方法的性能更佳。 本论文在前人工作的基础上,主要从以下三个方面对多通道语音增强方法进行了研 究。 研究了基于信号相位误差和后置滤波的语音增强方法。首先,将麦克风接收到的带 噪语音信号分帧,利用该帧带噪语音信号的相位差,构成该帧的比例系数,对带噪语音 信号进行预处理,得到预处理信号;然后利用预处理信号的功率谱估计构成后置滤波器, 对预处理信号进行后置滤波,从而进一步抑制了噪声。采用计算机模拟的带噪语音数据 对该方法进行了测试,实验结果表明,该方法在散射及不相干噪声场情况下,具有较好 的噪声抑制能力。 研究了相干噪声场及混响环境下的语音增强方法。针对同时存在相关噪声和混响的 情况,首先,利用盲源分离及谱相减方法去除麦克风阵列接收信号中的相关噪声,获取 一路带混响的语音信号。然后,使用逆滤波技术及谱相减方法进一步去除信号中的混响。 实验结果表明,该方法能够有效地去除相关噪声及房间混响。 研究了一些常用的波束形成语音增强方法,并且给出一种改进的广义旁瓣抵消器语 音增强方法该方法通过估计声学转移函数比,对接收信号进行前向后向数字滤波, 结合使用阻塞矩阵和归一化最小均方算法,从而有效地抑制了相关噪声。在无混响和混 响环境下,采用计算机模拟和实际录制的带噪语音数据对本文方法进行了测试,实验结 果表明,该方法可以适用于相干噪声场环境。 关键词:麦克风阵列;相位误差;谱相减;盲源分离;转移函数比 大连理工大学硕士学位论文 s t u d y o nt h em e t h o d so f m u l t i c h a n n e ls p e e c he n h a n c e m e n t a b s t r a c t i nr e a ll i f e ,s p e e c hi si n e v i t a b l ec o r r u p t e da c o u s t i c a l l yb ya m b i e n tn o i s ew h i c hl e a d st o r a p i dd e t e r i o r a t i o no nt h ep e r f o r m a n c eo fd i g i t a lv o i c ep r o c e s s o r t h e r e f o r e ,s p e e c h e n h a n c e m e n t 鹪am e a s u r eo fp r e t r e a t m e n ti sa l le f f e c t i v ew a yt os o l v et h ep r o b l e m o v e rt h e y e a r s ,s c h o l a r sh a v e b e e nm a k i n gu n r e m i t t i n ge f f o r t st o f i n dv a r i o u sw a y so fs p e e c h e n h a n c e m e n tm e t h o d s m e t h o d sw i t h s i n g l em i c r o p h o n er e s t r i c t e db yt h en u m b e ro f m i c r o p h o n ec a n n o tg i v eu ss a t i s f y i n ge n h a n c e m e n tr e s u l t s m e t h o d sw i t l lm i c r o p h o n ea r r a y i n c o r p o r a t eb o t hs p a t i a la n ds p e c t r a li n f o r m a t i o n h e n c e t h i si sb e t t e fp e r f o r m a n c et h a nt h e t r a d i t i o n a lw a y ,i e s p e e c he n h a n c e m e n tm e t h o d sw i t hs i n g l em i c r o p h o n e b a s e do nt h ef o r m e rr e s e a r c ha c h i e v e m e n t s ,t h i st h e s i sm a k e sar e s e a r c ho ns p e e c h e n h a n c e m e n tm e t h o d sw i t hm i c r o p h o n ea r r a ya sf o l l o w i n gt h r e ea s p e c t s : s t u d yo ns p e e c he n h a n c e m e n tm e t h o db a s e do np h r a s ee r r o ra n dp o s t f i l t e r a c c o r d i n g t ot h et i m ed i f f e r e n c eo fa r r i v a lo ft h es p e e c hs o u r c eo fi n t e r e s tr e c o r d e db yt h ec l o s e b y m i c r o p h o n e s ,f i r s t ,t h en o i s ys p e e c hs i g n a l sa r ep a r t i t i o n e di n t os e g m e n t s ,b yu s i n gt h ep h r a s e e n o ro f t h et w oc l o s e - b ym i c r o p h o n e si ne a c hs e g m e n t s ,w ec a nc o n s t r u c ts c a l i n gc o e f f i c i e n t s t op r e p r o c e s st h en o i s ys p e e c h , a n dt h e nw ec a ng e tt h ep r e p r o c e s s e ds i g n a l s s e c o n d w i n lt h e e s t i m a t e dp o w e rs p e c t r u mo fp r e p r o c e s s e ds i g n a l s ,w ec a nc o n s t r u c tt h ep o s t - f i l t e rt of u r t h e r s u p p r e s st h en o i s e t h en o i s ys p e e c hs i g n a l sp r o d u c e db yc o m p u t e ra r eu s e dt ot e s tt h e p e r f o r m a n c eo ft h ep r o p o s e dm e t h o d s i m u l a t i o nr e s u l t ss h o wt h ee f f e c t i v e n e s so ft h e p r o p o s e dm e t h o di nd i f f u s e dn o i s ef i e l da n di n c o h e r e n tn o i s ef i e l d s t u d yo ns p e e c he n h a n c e m e n tm e t h o df o rt h er e v e r b e r a t i o na n dc o h e r e n tn o i s ef i e l d e n v i r o n m e n t s a sf o rt h ee n v i r o n m e n t s ,f i r s t , b yu s i n gb l i n ds e n r c es e p a r a t i o na n ds p e c t r a l s u b t r a c t i o nm e t h o d st os u p p r e s sc o r r e l a t e dn o i s e si nt h en o i s ys p e e c ht og a i nar e v e r b e r a t i o n s p e e c h f i n a l l y , a l li n v e r s ef i l t e ra n ds p e c t r a ls u b t r a c t i o na r ee m p l o y e dt om i n i m i z et h e i n f l u e n c eo ft h er e v e r b e r a t i o n s i m u l a t i o nr e s u l t ss h o wt h ee f f e c t i v e n e s so ft h ep r o p o s e d m e t h o d s t u d yo ns o m eb e a m f o r m e rs p e e c he n h a n c e m e n tm e t h o d s ,a n dam o d i f i e ds p e e c h e n h a n c e m e n tm e t h o do fg e n e r a l i z e ds i d e l o b ec a n c e l l e r ( o s c ) i sp r o p o s e d i tc o u l db e i m p l e m e n t e db ye s t i m a t i n gt h et r a n s f e rf u n c t i o nr a t i o sa n dp r o c e s s i n gt h ei n p u td a t au s i n g f o r w a r d - b a c k w a r df i l t e r i n g t h e nab l o c k i n gm a t r i x ( b m ) a n dt h ew e l l - k n o w nn o r m a l i z e d l e a s tm e a ns q u a r e ( n l m s ) a l g o r i t h ma r eu s e dt os u p p r e s sc o r r e l a t e dn o i s e sf u r t h e r n 圮 n o i s ys p e e c hs i g n a l sp r o d u c e db yc o m p u t e ra n dr e c o r d e d i na na c t u a lr o o ma c o u s t i c 多通道语音增强方法的研究 e n v i r o n m e n ta l eu s e dt ot e s tt h ep e r f o r m a n c eo ft h ep r o p o s e dm e t h o d s i m u l a t i o nr e s u l t s s h o wt h ee f f e c t i v e n e s so f t h ep r o p o s e dm e t h o di nc o h e r e mn o i s ee n v i r o n m e n t s k e yw o r d s :m i c r o p h o n ea r r a y :p h a s ee r r o r ;s p e c t r a ls u b t r a c t i o n ;b l i n ds o u r c es e p a r a t i o n ; t r a n s f e rf u n c t i o nr a t i o s i v 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 大连理1 _ 大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名:誊磷 导师签名:届已( 1 型年l 月匕日 大连理工大学硕士学位论文 1绪论 语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等 新兴领域的核心技术之一,它主要包括语音通信、合成、识别和语音增强等方面。通常 人们在获得语音信号的同时,不可避免地会受到来自传输媒介引入的噪声、通信设备内 部电噪声、房间混响乃至其他说话人的话音干扰。这些干扰不仅会使接收者得到的语音 被噪声污染,同时也会导致许多语音处理系统的性能急剧恶化。例如,语音识别已取得 重大进展,正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的,在噪声 环境尤其是强噪声环境中,语音识别系统的识别率将受到严重影响。因此语音增强作为 一种预处理手段,不失为一种有效途径。 基于麦克风阵列的语音增强方法继承了天线阵列的有关算法,同时也吸收了一些常 用的单克风语音增强方法,如谱相减及维纳滤波方法等,大大提高了麦克风阵列语音增 强系统的消噪效果。 1 1 麦克风阵列的特点及应用 通常在无噪声、无混晌并且声源离麦克风很近的情况下,选用高性能、高方向性的 单麦克风系统可以获得高质量的声源信号。然而,这要求声源和麦克风之间的位置相对 固定,如果声源位置改变,就必须人为地移动麦克风。若声源在麦克风的选择方向之外, 且麦克风距离声源很远,或存在一定程度的混响及干扰的情况下,则会使拾取信号的质 量严重下降。为了解决单麦克风系统的这些局限性,人们提出了用多个麦克风构成麦克 风阵列,使用阵列信号处理技术进行语音拾取与处理。 与传统的单麦克风系统相比,麦克风阵列系统有诸多优点: ( 1 ) 麦克风阵列系统具有空间选择特性,可以用“电子瞄准”的方式从所需的声源 位置拾取高品质的信号,同时抑制其他说话人的声音和环境噪声。这是因为麦克风阵列 系统可以采集多路信号,由于各麦克风位置的不同,它们采集的信号在时间或空间上必 然存在某些差异,利用多路信号的数据融合技术,就可以较好地提取目标语音信号。 ( 2 ) 高方向性单麦克风系统通常只能拾取某一特定的固定目标语音信号,且其指向 性一般不能随声源一起运动。这就限制了它的应用领域。而麦克风阵列系统由于具有自 适应地调整波束指向的能力,使其能获取多声源信号或跟踪移动声源信号,从而可实现 单麦克风系统所不具备的自动探测、定位,以及在其接收区域内追踪目标语音等功能。 多通道语音增强方法的研究 1 2 麦克风阵列语音增强方法概况及存在的问题 近十几年来,基于麦克风阵列的语音处理技术逐渐成为各国学者关注的焦点。该技 术在声源定位、语音识别以及语音增强中取得了良好的效果。至今为止,人们已经提出 许多基于麦克风阵列的语音增强方法,其中比较经典的方法包括固定波束形成、自适应 波束形成、盲信号分离以及后置滤波等几大类。下面对这几类方法加以概述。 ( 1 ) 延迟求和波束形成方法( d e l a ya n ds mb e a m f o r m i n g ,d s b f ) i l l 其基本思想 是:首先利用时延估计算法估计出多通道信号的相对时延,然后在时域内平移信号并对 齐相加,既可得到输出信号。延迟求和波束形成算法相对简单,便于实现。缺点在于: 低频段性能严重下降,主波束宽度不稳定。 ( 2 ) 自适应波束形成方法。最早有关自适应波束形成的理论是f r o s t 在1 9 7 2 年提出 的线性约束最小方差( l i n e a r l yc o n s t r a i n e dm i m m u mv a r i a n c e ,l c m v ) 自适应波束形成 器【2 】。将其用于语音增强,可以用较少的麦克风取得较好的消噪效果。在f r o s t 方法的 基础上,1 9 8 2 年g r i f f t h s 和j i m 提出了一种修正的线性约束波束形成器,即广义旁瓣抵 消器( g e n e r a l i z e ds i d e l o b ec a n c e l l e r ,g s c ) 3 1 。该结构大体上分为固定波束形成、阻塞 矩阵和多通道噪声抵消三部分。这种经典结构为后来许多方法提供了理论框架。但是, 在实际应用中,麦克风阵列大多应用在比较封闭的场合。由于墙壁的反射、混响问题相 当突出,这时的噪声源数目可以认为是无限多的。在这种情况下,自适应波束形成方法 的消噪效果还比不上延迟求和波束形成法。2 0 0 1 - 2 0 0 4 年,g a n n o t 等人以经典的广义 旁瓣抵消器算法为基础,提出了一种基于有用信号非平稳性的声学转移函数广义旁瓣抵 消器( t r a n s f e rf u n c t i o ng s c ,t f g s c ) 【4 5 l 。其基本结构与g s c 算法相同,但在构造固 定波束形成器和阻塞矩阵时使用了声学转移函数t 6 。该算法在平稳的相干噪声场中性能 较好,并且增强后的语音失真度较小。但是在散射噪声场及不相干噪声场中的性能并不 理想。 ( 3 ) 盲信号分离方法【- 1 0 1 。近几年来,盲信号分离已成为信号处理学界和神经网络 学界共同感兴趣的研究熟点领域,并获得了迅速的发展。由于一般的盲源分离算法只能 解决瞬时混合问题,对于卷积混和问题却无能为力,因此一些日本学者提出了一类基于 卷积混合的盲源分离算法 t t - t 4 1 ,该类算法利用了时域内卷积相当于频域瞬时混合的性 质,可应用于消除房间混响问题。但是,该类方法存在尺度不定性和排列混乱问题。 ( 4 ) 后置滤波方法i 圩47 1 。该类方法多用来进一步提高系统的增强效果。例如,利用 该类方法对延迟求和及自适应波束形成的输出进行后置处理。 大连理工大学硕士学位论文 除了上述基于麦克风阵列的语音增强方法外,单麦克风语音增强方法很早就提出来 了,其所需的麦克风数量较少,方便操作,因此,可以用于麦克风阵列的后置处理,从 而进一步提高系统的处理效果。其中以谱相减方法 1 8 - 2 3 l 和利用l p 残留信号去除混响方 法 2 4 - 2 6 应用的比较广泛。 1 3 本文的主要研究工作及章节安排 由于语音信号的非平稳性,噪声干扰的多样性和房间混响的复杂性,使语音增强成 为一个极具困难但又非常吸引人的研究课题。本文在回顾和总结前人工作的基础上,结 合实际情况给出了改进的方法,通过仿真实验,表明了这些方法的有效性。 本论文的章节安排如下: 第l 章主要介绍了麦克风阵列的特点及相关的语音增强方法。 第2 章简要介绍了随后各章中所要用到的一些基础知识。包括语音特性及人耳感知 特性、噪声、噪声场特性、传声器阵列模型和语音增强效果评价方法等。 第3 章主要介绍了基于信号相位误差和后置滤波的语音增强方法。该方法首先利用 信号的相位误差构成比例系数,对麦克风阵列接收信号进行预处理,得到预处理信号。 然后再利用预处理信号的功率谱估计构成后置滤波器,对预处理信号做后置滤波,从而 进一步地抑制了噪声。实验结果表明了该方法的有效性。 第4 章主要分析、研究了基于盲源分离及谱相减的语音增强方法。在相干噪声场及 混响环境下,利用该方法可以去除相关噪声及房间混响。 第5 章给出一种改进的广义旁瓣抵消器语音增强方法。通过对广义旁瓣抵消器和声 学转移函数广义旁瓣抵消器的性能分析,对其进行了改进。采用计算机模拟和实际录制 的带噪语音数据对其进行了测试,实验结果表明,该方法可以适用于相干噪声场环境 最后对全文进行了总结。 多通道语音增强方法的研究 2 语音增强的基础知识 语言是人类特有的功能,通过语音相互传递信息是人类最重要的基本功能之一。随 着人类社会进入信息时代。语音通信在生产和生活中起着越来越重要的作用,入们希望 在任何时候、任何地点能够方便地进行语音通信。 然而人们在语音通信过程中,不可避免地会受到来自周围环境和传输媒介引入的噪 声以及其他讲话者的干扰,如公路、商场、飞机、汽车环境中的噪音,电话系统中的回 声等,这些都会对原始语音造成污染。噪声不仅影响语音的质量和清晰度,造成人耳听 觉疲劳,还会影响语音通信系统的性能。 另一方面。语音识别技术近年来取得了很大进步。人机语音交互作为最自然、便捷 的人机通信方式,越来越受到人们的重视。但是目前的语音识别系统大多在安静的环境 下工作,在强噪声环境中,或者存在别的说话者的情况下,语音识别系统会受到严重的 影响,识别率显著下降。而在实际应用中,不可避免的存在各种噪声,大大妨碍了语音 识别技术在实际生活中的大规模应用。 语音增强是解决噪声污染的一种有效方法,其主要目的就是从带噪语音中尽可能提 取纯净的原始语音。由于噪声都是随机的,因而从带噪语音中提取完全纯净的语音几乎 是不可能的。在这种情况下,语音增强的目的主要有两个:一是改善语音质量,消除背 景噪声,使听者不感觉疲劳:另外一个目的是提高语音可懂度,这是一种客观度量。语 音增强已经广泛应用于语音通信、语音识别、人机交互等领域。此外,语音增强在多媒 体应用、助听等方面也取得了广泛的应用。 2 1 语音特性及人耳感知特性 语音增强不但与信号处理技术有关,而且涉及到人的听觉感知和语音学。另外,噪 声来源众多,不同应用场合的噪声特性也各不相同,因此很难找到一种适合于各种噪声 情况的语音增强算法。语音特性、人耳感知特性以及噪声特性是各种语音增强算法的基 础。 2 1 1 语音特性 ( 1 ) 语音是时变的、非平稳的随机过程。 人类具有特有的发音系统,其生理结构的变化速度有一定限度。在一段短时间内, 人的声带和声道形状具有相对稳定性,可认为其特征是不变的,应此语音的短时谱具有 相对稳定性。在语音增强中,可利用语音短时谱的这种平稳性。 - 4 大连理工大学硕士学位论文 ( 2 ) 语音可分为清音和浊音两大类。 两者在时域和频域具有明显的差异。浊音在时域上呈现出明显的周期性;在频域上 有共振峰结构,而且能量大部分集中在较低频段内。而清音段没有明显的时域和频域特 征,类似于白噪声。 ( 3 ) 语音信号作为一个随机过程可以用统计分析特性来描述。 由于语音信号是一种非平稳、非遍历的随机过程,长时间的时域统计特性在语音增 强的研究中意义不大。 2 1 2 人耳感知性 语音感知对语音增强研究有重要作用。一方面是因为语音增强的最终度量是人的主 观感受;另外人耳对背景噪声有惊人的抑制作用,了解其中机理将大大有助于语音增强 技术的方展。语音感知是一个复杂的问题,目前已有的一些有用结论可以应用于语音增 强技术。 ( 1 ) 人耳对语音的感知主要通过语音信号频谱分量幅度获取的,对相位谱则不敏感。 ( 2 ) 人耳对频谱分量强度的感受是频率与能量的二元函数,响度与频谱幅度的对数 成正比。 ( 3 ) 人耳对频率高低的感受近似与该频率的对数成正比。 ( 4 ) 人耳有掩蔽效应。掩蔽效应是指一个声音的存在会对另外一个声音的感知产生 掩蔽作用,即强信号对弱信号有掩盖的抑制作用。掩蔽效应主要发生在同时进入听觉系 统的不同频率的两个声音之间,即同时掩蔽效应。也可以发生在时间上先后进入听觉系 统的两个声音之间,即前向掩蔽和后向掩蔽效应。还可以发生在两个耳朵之间,即双耳 掩蔽。 ( 5 ) 短时谱中的共振峰对语音的感知非常重要,特别是第二共振峰比第一共振峰更 为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。 ( 6 ) 人耳在两人以上的讲话环境中有能力分辩出需要聆听的声音。 2 2 噪声及噪声场特性概述 2 2 1 噪声 实际环境中无时无刻不存在噪声,而且噪声特性变化无穷。噪声可以是加性的,也 可以是非加性的( 非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声) 。加 性噪声通常分为冲激噪声、周期噪声、宽带噪声、语音干扰噪声等。非加性噪声主要是 残响和传送网络的电路噪声等。 多通道语音增强方法的研究 ( 1 ) 冲激噪声 冲激噪声的时域波形是类似于冲激函数的窄脉冲,例如放电、打火、爆炸都会引起 冲激噪声。消除冲激噪声影响的方法通常有两种:对带噪语音信号的幅度求均值,将该 均值作为判断阈值,凡是超过该阈值的均判为冲激噪声,在时域中将其滤除;当冲激脉 冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语 音信号中去掉冲激噪声。 ( 2 ) 周期噪声 最常见的有电动机,风扇之类周期运转的机械所发出的周期噪声,5 0 h z 交流电源 哼哼声也是周期噪声。在频谱图上它们表现为离散的窄谱,通常可以采用陷波器方法予 以滤除。 ( 3 ) 宽带噪声 说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等都可 以视为宽带噪声,应用中常近似为g a u s s 噪声或白噪声。其显著特点是噪声频谱遍布于 语音信号频谱之中,导致消除噪声较为困难。一般需要采用非线性处理方法。 ( 4 ) 语音干扰 干扰语音信号和期望语音信号同时在一个信道中传输所造成干扰称为语音干扰。区 别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音 的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有 用语音信号。 ( 5 ) 传输噪声 传输噪声是传输系统的电路噪声。与背景噪声不同,它在时间域里是语音和噪声的 卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理。 2 2 2 嗓声场特性 在麦克风阵列语音增强方法中,噪声场也是一个很重要的概念。不同的方法可能适 用于不同类型的噪声场。所以,对不同类型噪声场的适用性,也是衡量语音增强算法消 噪性能的一个重要标准。通常主要考虑三种类型的噪声场:相干噪声场,非相干噪声场 和散射噪声场 2 7 1 。噪声场可用噪声的时空相关函数来描述。设传声器阵列中第i 个和第_ , 个传声器分别位于和r ,处,接收到的噪声信号分别为q ( f ) 和珂,( ,) ,如图2 1 所示。 6 一 大连理工大学硕士学位论文 图2 1 麦克风阵列接收到的噪声 f i g 2 1 n o i s e sr e c e i v e db ym i c r o p h o n ea r r a y 定义噪声在空间- 时间上的相关函数如式( 2 1 ) 所示,其中岛= 。厂。 r ( 以,d = 研q ( f ) 行,o + t ) 】 ( 2 1 ) 进而可以定义在空间频率上的相干函数为: 以咖尚 ( 2 2 ) 、t 、,i v , 其中m ( 岛,c o ) 为珥( ,) 和( r ) 的互功率谱,由互相关函数月( 岛,旬的离散傅立叶变换 得到,中妈,曲和m ( r ,曲分别为噪声吩( f ) 和栉) 的自功率谱。 模平方相干函数的定义为: c ;c ,= i r ,c ,1 2 = 五; ; :;鼍:万 c z 3 1 引入模平方相干函数后,可以将传声器阵列所处的噪声场分为相干噪声场、非相干 噪声场和散射噪声场。当只有一个噪声源存在时,所有传声器接收到的噪声只有相位和 幅度上的差异,这时e ,( ) = i ,称之为相干噪声场;当各个传声器上的噪声信号彼此间 不相干,这时c f ,【珊) = 0 ,称之为非相干噪声场。在实际环境中,这两种噪声场会同时存 在,此时0 g ( 国) 叫 l 国( d = 0 其他 多通道语音增强方法的研究 式中辟为常数,且口 p 。 将式( 4 2 0 ) 代入式( 4 6 ) 和式( 4 7 ) 得到的谱相减公式如式( 4 2 2 ) 所示。 鲫) 1 2 = f ) 1 2 一 幽斧陋叫 z :, 式中j 是( 七;圳为信号x ( 胛) 的短时功率谱,占为常数。 通常,一段纯净的语音包含有音段和无音段,纯净语音经过房间混晌后使得无音段 含有少量的语音信号,为了进一步提高系统性能,使用一个简单的方法标记出无音段, 并清除无音段中的少量语音信号。 首先,将工( 行) 分帧,一般来讲,逆滤波信号经过谱相减后,无音帧的能量非常小。 使用一个域值岛用来判断该语音帧是否为无音帧。然后用另一个域值岛标记能量损失 比,通常取焉= 0 0 1 2 5 ,岛= 5 。对于第i 帧信号,用疋( f ) 、e ( f ) 分别表示逆滤波信号z ( 厅) 和谱相减信号x ) 的能量。若e ( f ) 匙,则该帧为无音帧。最后将所 有无音帧的能量衰减3 0 d b ,得到最终的增强信号。 4 4 基于ic a 和谱相减的语音增强方法 4 4 。1基于ic a 和谱相减的语音增强方法原理 由前述可知,分阶段去混响的单麦克风语音增强方法必须应用于无噪声环境下,即 便是微弱的噪声,也会对系统性能造成非常大的影响。综合前面所述,本节给出一种基 于i c a 和谱相减的语音增强方法,该方法可以应用于相干噪声场情况。其基本原理如图 4 2 所示。 r i 磊:磊一j : 分阶段去混响 习一固然hi 糍p 水砸 z 【月) 图4 ,2 基于i c a 和谱相减的语音增强方法原理框图 f i g 4 2d i a g r a mo f t h es p e e c he n h a n c e m e n tm e t h o db a s e do ni c aa n ds ;p e a r a ls u b t r a c t i o n 大连理工大学硕士学位论文 由图4 2 可知,将两个麦克风置于具有混响的相干噪声场中,首先,将接收到的带 噪语音信号而( 厅) ( i = 1 ,2 ) 经过f a s t l c a b o 分离后获得两路信号m ( 厅) 和奶( 功;然后,选 取信噪比较高的一路信号作为先验信噪比谱相减方法的输入信号y ( ”) ,经过先验信噪比 谱相减法增强处理后得到输出信号y s ( n ) ;最后利用分阶段去混响的单麦克风语音增强 方法得到最终输出信号z ( 厅) 。 4 4 2 计算机仿真实验结果 在混响环境下,利用计算机模拟的带噪语音信号对本文方法的性能进行了检验。实 验中,麦克风阵列由两个麦克风组成。将麦克风阵列置于大小为5 m x 4 m 3 m 的房间中, 麦克风阵列中第一个麦克风位于房间( 2 m ,2 m ,l m ) 处,麦克风之间的距离为1 0 c m ,声源 位于房间( 4 m ,l m ,l m ) 处,房间的声学转移函数利用i m a g e 模型【3 5 】产生,混响时间由 e y r i n g 从式 3 6 1 计算得到。将麦克风阵列接收到的带混响的语音信号直接与同一种噪声以 不同信噪比混合得到带噪语音信号。 分阶段去混响的语音增强方法中,常数= 3 x 1 0 4 ,y = o 3 2 ,p = 7 ,a = 5 , f = o 0 0 1 。逆滤波的分帧长度为1 0 2 4 点,帧移为5 1 2 点。 本文采用的纯净语音信号及其语谱如图4 1 3 ( a ) 所示。在相干噪声场情况下,混响时 间瓦= o 2 s 时,获得的带噪语音信号及其语谱如图4 3 ( b ) 所示。经过i c a 处理后得到 的语音信号及其语谱如图4 3 ( c ) 所示。经过先验信噪比谱相减得到的带混响语音信号及 其语谱如图4 3 ( d ) 所示。最终得到的语音增强信号及其语谱如图4 3 ( e ) 所示。 从图4 3 可以看出,在相干噪声场情况下,噪声和混响均得到了有效地抑制。本文 采用了基于先验信噪比的谱相减方法,该方法引入的音乐噪声较少,特别是在高信噪比 情况下,基本感受不到音乐噪声的存在。听音测试表明了该方法在高信噪比情况下的有 效性。 然而,在散射噪声场和不相干噪声场情况下,该方法的性能并不理想。这是因为: 一方面,在散射噪声场和不相干噪声场情况下,带噪语音信号经过i c a 处理后,并不能 得到一路相对纯净的语音信号;另一方面,i c a 处理信号经过基于先验信噪比谱相减方 法处理后,引入了一定的音乐噪声,导致语音质量下降。 以不相干噪声场为例,其增强结果如图4 4 所示。从图4 4 可以看出,在不相干噪 声场情况下,经过增强处理后的语音失真较大,听音测试也表明语音中含有一定的音乐 噪声。 多通道语音增强方法的研究 图4 3 相干噪声场情况下本文方法的语音增强结果及其语谱 f i g 4 3 e n h a n c e m e n tr e s u l t sa n dt h e i rs p e c t r o g r a mo f t h ep r o p o s e dm e t h o di nc o h e r e n tn o i s ef i e l d - 3 4 大连理工大学硕士学位论文 t i m e 脚c 】 ( a ) m i c l 带噪语音 ( a ) t h en o i s ys p e e c hr e c e i v e db ym i c r o p h o n e1 1 j 1 一j 。 1 i r 1 1 lh 1 。j t tr i l 一7 ”一r 1 糯【嘲 ( b ) i c a 输出语音 ( b ) e n h a n c e ds i g n a lb yi c a 1 j 一 1 1 7 一t 砷脚c 】t r n e s e c ( c ) 经过先验信噪比谱相减增强结果( d )最终增强结果 ( c ) e n h a n c e ds i g n a lb yp r i o rs n rs p e c t r a ls u b t r a c t i o n( d ) e n h a n c e ds i g n a lb yt h ep r o p o s e dm e t h o d 图4 4 不相干噪声场情况下本文方法的语音增强结果 f i g 4 4 e n h a n c e m e n tr e s u l t so f t h ep r o p o s e dm e t h o di ni n c o h e r e n tn o i s ef i e l d 4 4 3 小结 本文给出一种基于i c a 和谱相减的语音增强方法,该方法适用于相干噪声场情况。 首先,利用i c a 和基于先验信噪比的谱相减方法去除带噪语音信号的相关噪声,得到混 响语音信号,然后利用分阶段去混响的单麦克风语音增强方法去除混响。实验结果证明 了该方法的有效性。但是由于该方法仅适用于相干噪声场情况,因此,一定程度上影响 了该方法的实用性,如何将该方法应用于实际环境中,也是今后的一个重点研究方向。 多通道语音增强方法的研究 5 一种改进的广义旁瓣抵消器语音增强方法 首先,本章简要介绍一些常用的波柬形成语音增强算法,然后重点介绍两种普遍采 用的方法:广义旁瓣抵消器( g s c ) 1 3 】和基于声学转移函数广义旁瓣抵消器( t f g s c ) 4 3 。 在此基础上,给出一种改进的广义旁瓣抵消器语音增强方法,并通过计算机模拟和实际 录制的带噪语音对该方法的有效性进行了验证。 5 1 波束形成语音增强算法 波束形成语音增强算法主要包括固定波束形成和自适应波束形成两类。1 9 8 5 年由 f l a n a g a n 等人提出的延迟求和波束形成器( d s b f ) 1 1 是一种较为经典的固定波束形成算 法。其基本思想是:首先,利用时延估计算法估计出多通道信号的相对时延;然后,在 时域内平移信号,并对齐相加,即可得到增强后的输出信号。该算法的原理和结构比较 简单,但作为一种典型的波束形成算法,仍有其重要的参考价值。最早出现的自适应波 束形成算法是1 9 7 2 年由f r o s t 提出的线性约束最小方差( l c m v ) 自适应波束形成器 2 1 。 其基本思想是:在保证有用信号方向增益一定的条件下,使阵列输出信号的功率最小。 该系统首先对阵列接收信号进行适当的时延补偿,然后在事先设定的频率响应约束条件 下,保证波束形成器在期望信号方向上的频率响应不变,并使输出信号的总功率最小, 这样可使输出信号中的噪声功率最小。 在l c m v 自适应波束形成器的基础上,1 9 8 2 年g r i f f i t h s 和j i m 提出一种修正的线性波 束形成器,即广义旁瓣抵消器( g s c ) 唧。g s c 的基本思想是将信号通道分为自适应通道 和非自适应通道,要求有用信号只能从非自适应通道通过,并利用阻塞矩阵滤除有用信 号,使自适应通道仅包含多通道噪声参考信号,最终利用自适应多通道噪声抵消器得到 噪声估计,并用所估计的噪声抵消非自适应通道中的噪声分量。g s c 的算法结构较为经 典,成为此后许多算法的基本框架。 2 0 0 1 2 0 0 4 年间,g a n n o t 等人以g s c 结构为基础。提出了一种基于声学转移函数的 广义旁瓣抵消器( t f g s c ) 1 4 】。t f g s c 考虑了房间的冲激响应,理论上,更适用于混响 情况下的噪声抑制。 i t g s c 在平稳的相干噪声场中性能较好,增强后的语音失真较小。 但是,在散射噪声场和非相干噪声场中的性能并不理想。 下面将分别介绍g s c 和1 1 :g s c 的基本原理。 大连理工大学硕士学位论文 5 2 广义旁瓣抵消器 广义旁瓣抵消器的结构如下图5 1 所示,它由三部分组成:固定波束形成器( f i x e d b e a m f o r m i n g ,f b f ) 、阻塞矩阵( b l o c km a t r i x ,b m ) 和无约束的自适应噪声抵消器( n o i s e c a n c e l l e r , n c ) 。其各部分的基本原理如下: ( 1 ) 固定波束形成 在固定波束形成之前,利用时延估计方法估计麦克风之间的时延值,然后对各路信 号进行时延补偿,使得麦克风阵列接收到的期望信号达到麦克风阵列时同步。设麦克风 阵列接收信号经过时延补偿后得到信号( 疗) ,对t ( n ) 进行线性加权,则固定波束形成 输出信号为 y 。( 挖) = 旷x ( n )( 5 1 ) 符号“丁”为转置操作,式中 x c n ) 2 阮( 栉) ,x 2 ( n ) ,h ( 胛) r( 5 2 ) 叩1 = 【办,晚,氐】( 5 3 ) 权系数向量q 满足 旷1 = 1 ( 5 4 ) 其中,i 是元素均为1 的列向量。 一 。_ “坐却亘掣 ; _ _ _ 阻 塞 矩 阵 图5 1g s c 算法的基本结构 f i g 5 id i a g r a mo f g e n e r a l l z e ds i d e l o b ec a n c e l i n g a l g o r i t h m 多通道语音增强方法的研究 ( 2 ) 阻塞矩阵 选取阻塞矩阵的主要目的是为了除去波束方向上的语音信号,使其输出仅含有噪声 成分。常用的阻塞矩阵如式( 5 5 ) 所示。 b = 阻塞矩阵有n 一1 个线性不相关的行向量,同时各行元素和为零。该阻塞矩阵引入 的计算量较少,很容易得到相邻麦克风间的差值。麦克风接收信号通过阻塞矩阵后,得 到参考噪声 u ( 功= b x ( n )( 5 6 ) 其中u ( 五) = 【“2 ( 疗) ,坞( 疗) ,“( 栉) 】7 。 ( 3 ) 自适应消噪 设c ,为工阶自适应滤波器权系数,则参考噪声经过自适应滤波器后得到 ( 胛) = 豇c :( ”) r u ( 甩一,) ( 5 7 ) 那么,广义旁瓣抵消器的最终输出信号可表示为 y ( ,) = ) ,m f ( 聆) 一y c ( ,巧 ( 5 8 ) 为了使系统的噪声输出功率最小,可以应用无约束的最小均方( l e a s tm e a ns q u a r e , l m s ) 算法解决这一问题,滤波系数的自适应调整公式为 c t 。( 件1 ) = c t ( 厅) + j ,( 以) u ( ,o( 5 9 ) 式中,芦是步长。在自适应消噪模块中,最简单的方法是使用无约束的最小均方算 法,当然,无约束的l m s 算法有很多的缺点,比如收敛速度慢,步长固定,对于泄漏 到噪声信号中的语音信号无抑制作用等。因此,不少学者都使用别的自适应算法来改进 最初的自适应消噪模块。 5 3 声学转移函数广义旁瓣抵消器 以经典的广义旁瓣抵消器为基础,以色列学者g a n n o t 等人提出一种基于有用信号非 ” 蚶 1j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论