




已阅读5页,还剩50页未读, 继续免费阅读
(信号与信息处理专业论文)嘈杂环境下的麦克风阵列语音增强技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文嘈杂环境下的麦克风阵列语音增强技术研究 摘要 i 瞅 在语音处理系统中,由于麦克风接收到的信号常受到外界环境的干扰,这使得麦克 风接收到的语音信号常为带噪信号。尤其在嘈杂的噪声环境下,噪声和干扰严重影响着 语音的可懂度,影响语音系统的处理性能,如厂房中机器的轰鸣声,飞机驾驶舱内发动 机发出的噪声,以及酒吧、k t v 等嘈杂环境中的噪声,都将严重制约着人们之间的通 信,影响人的身体健康。因此,人们一直在寻求有效的噪声抑制方法来增强语音的质量。 在普通的噪声环境下,使用单麦克风语音增强的方法就可以很好的抑制噪声,但在嘈杂 环境下单麦克风抑制噪声的性能急剧下降。人们提出了基于麦克风阵列的语音增强方法 来更好的抑制噪声,麦克风阵列具有空间选择性和高信号增益的特性,已在近几年成为 语音增强技术的研究热点。 本文讲述的是在嘈杂环境下基于麦克风阵列的语音增强系统,麦克风阵列采集语音 信号后,采用波束形成和干扰对消来增强期望语音信号和抑制干扰信号。本文的主要工 作是比较了几种时延估计的方法,并选取了适合本文噪声环境的算法;本文将语音活动 检测算法和时延估计结合使用,在误警概率很小或为零的条件下减小了漏警的概率,进 一步提高语音增强算法的性能。我们根据语音活动检测和时延估计的结果判断当前帧信 号是期望语音信号、干扰信号还是其它。如果为期望语音信号,阵列信号进行期望信号 的自适应增强,再经干扰对消进一步消除噪声;如果为干扰信号,阵列信号经干扰信号 的自适应对消;如果为其它信号则经语音增强处理后,再经干扰对消,消除干扰和噪声。 仿真结果显示本文语音增强算法在嘈杂环境下具有较好的抑制噪声、增强语音的效果。 关键词:麦克风阵列,时延估计,期望信号,语音增强,干扰对消,自适应波束形成 a b s t r a c t i i lm ev o i c ep r o c e s s i n gs y s t e m ,m ei l l i c r o p h o n er e c e i v e ds i 鲷a li so r e ns u b j e c t e dt 0 i i l t e 疵r e n c co ft l l ee x t e | m a le n v i r 0 啪e n t ,w m c hm a | 【e st h em i c r o p h o n er e c e i v e st l l ev 0 i c e s i 印a lo r e n 谢t l lan o i s es i 驴a 1 e s p e c i a l l yi i lan o i s ye n v 拍n m e 咄n o i s ea i l di n t e 疵r e n c e s e r i o u s l ya f f e c t 吐l ei n t e l l i g i b i l i t ) ro fs p e e c ha 1 1 dm ev o i c es y s t e mp r o c e s s i i 唱p e r f o m a n c e , s u c ha st h eh u mo f t i l em a c h 证e si i lt l l ep l 觚t ,a 沁r 世c o c k p i te n g i i l en o i s ee 面他d ,嬲w e u 嬲 b 瓯k t ve t c ,m en o i s e 晰1 1h m p e r 恤c o n u n 疵c a t i o nb e 帆e np e o p l c ,疵c t i n gt h eh e a l m o fm eh u m a i lb o d yt h e r e f o r e ,p e o p i eh a v e b e e ns e 出n ge 疏c t i v en o i s es u p p r e s s i o nm e t l l o d s t oe i l :h a n c et h eq l l a l 时o f 也ev o i c e i i lt h e g e l l e r a ln o i e n v i r 0 i l i n e n t ,t :h el l s eo f s i n g l e - m i c r o p h o n es p e e c he n 妇l c e m e n tm e t l l o dc a ns u p p r e s s1 1 0 i s ew e l l ,b u t 血ep e r f 0 m l a i c e o fn o i s es u p p r e s s i o n 晰1 ld e 野l d ei l ln o i s ee n v 的n n l e n t p e o p l eh a v eb e e np r o p o s e d m i c r o p h o n ea r r a ys p e e c he 1 1 l l a n c e m e n tm e m o dt 0s u p p i r e s sn o i s e ,m i c r o p h o n ea r r a yh a v e s p a t i a ls e l e c t i v 时a i i dm 班s i 印a lg a i l l i i lr e c e n ty e a r s ,面c r o p h o n ea r r a yb e c o m eap o p u l a r t e c l l i l 0 1 0 9 y i i l “sa n i c l e ,w ed e s c 抽e ds 1 ) e e c he i l l l a n c e m e mb 嬲e dm i c r o p h o n ea 玎a y ,m i c r o p h o n e 锄a yc a p t u r ev o i c es i 印a l ,t l l e n 、eu s eb e 锄f o 珊i n ga n di n t e 彘r e l l c e m i c r o p h o n e c a n c e l l a t i o nt 0 伽山a 1 1 c et 1 1 ed e s i r e ds p e e c hs i g n a la 1 1 ds u p p r e s si 1 1 t e r 向r i n gs i 孕1 a l si l ln o i s y e i i r 0 衄e n t t h em a i nw o r ko f l i sp 印e ri st 0 c o m p a r es e v e r a lt i m ed e l a ye s t i m a t i o n m e m o d ,a 1 1 ds e l e c tt l l ea l g o r i t 量】mf o rn o i s ee i l v i r o i l 】 i l e n ti nm i sa n i c l e ;t l l i sa r t i c i ec o m b i n e s v 0 妣a c t i v 时d e t e c t i o na l g o r i t i l i i l s 谢t ht 妇ed e l a ye s t i i i l a t i o i l i i l 吐屺c o n d i t i o no fm ef a l s e a l a 锄p r o b a b i l i t ) ri ss m a l l0 rz e r ot or e d u c et h ep r o b a b i l i t yo fr i l i s sa l a r m ,t 0 如r t l l e ri m p r o v c t l l ep e r f o 册锄c eo f s p e e c he i l l 删e m e n ta l g o r i t l l m a c c o r d i n gt 0t h er e s u l t so f v o i c ea c t i v 蚵 d e t e c t i o na n dd e l a ye s t i i i l a t i o i l ,w ed e t e 肌岫m ec u 玎e mf 锄es i 盟a li st h ed e s i r e ds p e e c h s i 驴a l ,i n t e r f e r e n c e o ro t t l e r s i g n a l i ft h ec u r r e n ts i 霉谢i sd e s i r e ds p e e c hs i g r l a l ,w e a d a p t i v e l ye i l l l a n c et l l ed e s i r e ds i g n a l ,t h e nt 1 1 ei i l t e r f e r e n c ec a n c e l l a t i o n 丘l r t b e re l i m i n a t e n o i s c ;i j l t 刊两n gs i 朗a l s ,m e 觚a ys i 印a la d 印t i v e l yc 锄c e l 廿l ei 1 1 t e 疵r e n c es i 盟a l ;i fn l e o 协e rs i g n a l ,w ee i 血a n c et i l ev o i c e ,m e ne l i i i l a t et 量l ei i l t e r f - e r e n c ea i l dn o i s e t b es i i n u l a t i o n r e s u l t ss h o wt l l a tm es p e e c h e l 血a n c e m e n t 甜g o r i t h mo ft 1 1 i s a r t i c l eh a sb e t “e rn o i s e 吼l p p r e s s i o ni i ln o i s ye n v i r 0 啪e n t s ,e n h a l l c em e e a e c to f m ev o i c e k e yw o r d s :m i c r o p h o n ea 玎a y t i m ed e l a ye s t i n l a t i o i l t h ed e s i 刚s i 弘a 玉,s p e e c h e 妇e m e n t ,i i l t e 疵r e n c ec a i l c e l l a t i o 脚妯p t i v eb e a m f o 肌i n g 硕士论文嘈杂环境下的麦克风阵列语音增强技术研究 1 绪论 1 1 语音增强技术研究背景及意义 自温家宝总理提出感知中国后,物联网被写入了政府报告,并引起了全社会极大的 关注。所谓物联网就是实现了物与物之间的互联、人与物之间的互联,物联网的感知全 面性、传送可靠性、处理智能性等特点使人们更加方便、动态的管理日常生活和生产, 实现了整个社会的信息化、自动化。语音作为人与人之间进行交流的最自然和最方便形 式之一,也是最常用的通讯方式。语音作为多媒体通信的业务之一也被广泛的应用在了 物联网中。为了在物联网中实现高质量的进行语音通信,语音数字信号处理是其中重要 的技术,备受人们关注。 现代通信手段中,语音通信己占据着越来越重要的位置,为人们的日常生活提供着 便利。语音通信会经常受到来外界环境和通信设各自身的干扰,如环境中的其他讲话者、 电器设备的内部电噪声等,这些噪声和干扰降低了语音信号的可懂度,使人机通信、人 与人之间的交流变得困难。例如,车载系统、电话会议、多媒体会议、飞机上机舱之间 的通信和驾驶员与地面之间的通信、街道上的公共电话、酒吧、k t v ,人们的日常中处 处存在着噪声和干扰,不同程度的噪声和干扰对通信影响不同。噪声和干扰不仅严重地 制约着人们之间的通信,且影响人的身体健康。我们采用语音增强算法处理接收到的语 音信号,达到抑制背景噪声、消除干扰、提高语音通信质量和语音可懂度的目的。 我们平时接触到的噪声有周期性噪声、冲击噪声、宽带噪声,还有干扰,如目标声 源身边的说话者可能有一个或者多个均为干扰源。周期噪声主要是指发动机由于振动产 生的噪声,或者机器设备运转发出的摩擦、碰撞噪声,周期噪声大多存在于厂房中。机 动车打火时放电产生的噪声、冲击钻在打孔时产生的噪声均为冲击噪声,冲击噪声的特 征是有窄峰出现在时域。各种随机噪声,如气流噪声等均为宽带噪声。在小的会议室中, 人员比较密集的地方,旁边说话者的声音比主讲者还要大时就会严重影响会议的效果, 而在车载系统中,空间更小,干扰对语音系统的影响将更加严重。 背景噪声和干扰越复杂,对语音增强算法的要求就越高。在嘈杂的环境下,我们对 语音增强算法的研究显得尤为重要,语音增强算法性能的好坏直接影响着通信的质量, 因此意义重大。飞机驾驶舱中,发动机的轰鸣声使得背景噪声很强,驾驶员与地面的通 话效果将会很差;酒吧、l n v 中,震耳的音乐声制约着人与人之间的相互交流。因此 我们必须对带噪语音信号进行处理,在降低噪声对语音通信影响的同时,提高语音的舒 适度和可懂度,使听者更容易接受,语音增强算法就显得尤为重要。 语音增强技术涉及众多的学科,如语音数字信号处理理论、人的听觉感知、语音学 i 绪论硕士论文 等。由于在实际环境中噪声的来源及种类各不相同,处理噪声的方法也具有多样性,所 以很难找到能够处理所有类型噪声的语音增强算法,必须根据噪声环境来采取特定的语 音增强技术来降低噪声。语音技术作为物联网中多媒体通信的一部分,无论是在日常生 活还是军事领域都有广泛的应用。因此本文针对嘈杂环境下的语音增强算法的研究具有 很重要的应用意义。 1 2 语音增强技术的发展及研究现状 随着人们对语音通信质量要求的提高,近几年来学者对语音增强技术的研究越来越 多。从1 9 7 0 年开始取得了一些基础性成果,人们对语音增强算法的研究主要是基于单 麦克风的,提出的算法有谱减法、自适应滤波法和子空间法等。1 9 9 0 年以后,每年在 i e e e a c t i o l l so ns p e e c ha i l da u d i op r o c e s s i n g ,i e e e a c t i o n so ns i 鲫mp r o c e s s i n g 及s p e e c hc o m m 眦i c a t i o n 等权威期刊上都会有大量相关麦克风阵列语音增强算法的文 章发表。这使得人们对语音信号处理的关注度越来越高。 由于在普通的噪声环境下,使用单麦克风语音增强的方法就可以很好的抑制噪声, 但在嘈杂环境下单麦克风抑制噪声的性能急剧下降。人们提出了基于麦克风阵列的语音 增强方法来更好的抑制噪声,麦克风阵列具有空间选择性和高信号增益的特性,已在近 几年成为语音增强技术的研究热点。我们根据麦克风阵列系统的空间选择性,使用波束 形成方法将最大接收方向对准期望信号,零陷对准干扰,在增强语音信号的同时抑制干 扰。单麦克风具有高方向性,与之相比麦克风阵列具有更加明显的抑制噪声和干扰的效 果。由于声源可能是运动的,麦克风阵列可以根据声源的移动来调整波束的方向,因此 麦克风阵列系统可以增强移动的声源信号。麦克风阵列不仅具有空间选择性,还有较高 的空间分辨率、较高的信号增益等特点。麦克风阵列已经广泛应用于视频会议、助听装 置、车载系统环境、语音识别的前端系统、机器人导航和大型场所的会议记录等领域。 随着麦克风阵列信号处理的出现,学者们已经提出了许多语音增强算法均是基于麦 克风阵列,固定波束形成算法、自适应波束形成算法、后置滤波算法等相继被人们提出。 其中固定波束形成算法( f i x e db e 锄f o 珊i i l g ,简称f b f ) 的代表算法为延迟求和波束形 成方法( d e l a ya n ds u mb e 锄f o n i l i n g ,简称d s b f ) l ,该算法首先要进行时延补偿, 对各麦克风接收到的语音信号进行补偿后各通道达到同步,再进行加和平均。固定波束 形成算法简单,但是在麦克风数目较小时,其语音增强的效果也不是很好,只有在使用 大量麦克风时才能达到较好的降噪效果。固定波束形成算法对非相干噪声场和散射噪声 的抑制效果较好,但是当声场中噪声相干时,如干扰和语音源是相干的,固定波束形成 方法对干扰没有消除的能力。 自适应波束形成的理论最早是f r o s t 在1 9 7 2 年提出线性约束最小方差( l i n e a r l y 2 硕士论文嘈杂环境下的麦克风阵列语音增强技术研究 c o n s t r 面n e d m i i l i m u mv a r i a n c e ,简称l c m v ) 自适应波束形成( 8 j 。该算法可以利用较少的 麦克风取得较好的抑制噪声和干扰的效果。在f r o s t 算法的基础上,g 1 r i 翩1 s 和j 疏在 1 9 8 2 年提出了广义旁瓣对消器( g e n e r a l i z e ds i d el o b ec a n c e l l e r ,g s c ) 1 9 j 。后来许多算 法均是基于这种经典的理论框架提出的但是加权矢量误差会引起有用信号的部分衰减, g s c 波束形成器的主要问题是信号泄露【l o 儿】。人们不断的改进阻塞矩阵的结构来解决 有用信号的泄露问题。在广义旁瓣对消器的基础上,s h 锄o n 提出在任意传递函数情况 狭隘的广义旁瓣对消器【1 2 】,推广了广义旁瓣对消器的使用范围,根据不同的滤波器结构 和准则,许多自适应算法被提出1 1 4 1 6 1 。g s c 适用于消除强相干噪声。当干扰源的数目 较少时( 小于麦克风数目) ,g s c 能达到较好的抑制噪声的效果。噪声信号非相干或弱 相干时,g s c 抑制噪声的效果不如传统的波束形成方法。麦克风阵列适用在比较封闭 的场所。在封闭的场所中由于墙壁和障碍物的反射,使得多径和混响的问题尤为突出, 这是的干扰源数目认为无限多,这时自适应波束形成方法的降噪效果不如延迟求和波束 形成方法。 a 1 l e n 在1 9 7 7 年将自适应波束形成的方法和维纳后置滤波相结合来增强语音u n 。 z l i n s k i 在1 9 8 8 年扩展了a l l e n 的思想,提出l m s 自适应后置滤波裂1 8 1 ,系统性能进一 步改善。c o h e n 在后来提出了将广义旁瓣对消器和后置滤波结合,取得了较好的降噪效 果【1 9 】。使用后置滤波器后,系统抑制背景噪声和回响的效果较好,但是抑制混响的能力 仍然有限。j m e y e r 将维纳滤波与谱减法相结合在一起【2 0 j ,即谱减法在噪声相干性强的 频带进行降噪,维纳滤波在弱相干频带降噪,该方法具有较好的实用性。 有些学者在九十年代初利用倒谱的方法进行语音信号的增强1 2 i 】瞄】,这种方法是在 频域内进行运算,运算量不大,但是语音增强的效果有限。近些年来,各种方法的相互 融合以及借鉴高阶统计量、小波变换、神经网络技术等信号处理方法成为人们关注的焦 点。子带技术在波束形成中的应用,有利于宽带语音信号的处理,自适应滤波器的收敛 速度也可以提高【2 3 】【2 4 】。g t i e b e l 等人结合语音信号自身特点,利用语音模型阵列信号进 行增强语音信号【2 5 1 。m a l l n o u d i 提出将相干滤波和维纳滤波结合使用于麦克风阵列语音 增强中【2 6 1 。有学者将麦克风阵列的波束形成和盲分离技术相结合用于增强语音信号【2 8 j 。 有学者将波束形成和小波变换结合【2 7 】,来提高语音增强系统的降噪性能。还有学者利用 奇异值分解、k l 变换的子空间技术,对噪声子空间和信号进行降阶处理【3 0 】【3 。n e d e l k o 等人在麦克风阵列的语音信号处理中采用了神经网络方法1 3 到。这些方法中子空间、神经 网络等方法都是以计算量来换取算法性能的改善,不利于实时应用。 国内外许多科学家都在语音增强算法方面做了大量的研究工作,且已经应用在一些 麦克风阵列系统中,如助听器、视频会议系统等。但这些应用系统仅限于在空间存在单 个声源,信噪比较高的环境下,在低信噪比、多个声源的情况下系统性能会很差。本文 l 绪论硕士论文 是在强噪声环境下针对多声源情况下目标语音信号的分离,在忽略混响影响的条件下, 增强期望方向的语音。 1 3 论文工作及结构安排 本文主要阐述了在嘈杂环境下基于麦克风阵列的语音增强技术。本文的主要工作是 比较研究了几种时延估计的算法,在嘈杂的环境下选取最合适的算法:本文将语音活动 检测算法和时延估计算法相结合,减小了语音活动检测算法的漏警概率,进一步判断当 前帧信号的性质,算法的改进提高了本文语音增强系统的性能;我们分别在p i l l l ( 、c a r 、 f 犯t 0 珂噪声环境不同信噪比条件下对本文语音增强系统进行仿真,仿真结果知道在c a r 噪声条件下语音增强系统的性能最好,在低信噪比条件下本文语音增强系统的效果是可 接受的。本文的算法验证均使用m a t l a b 仿真。本论文具体结构安排如下: 第一章:介绍了麦克风阵列语音增强技术的研究背景、现状和意义。 第二章:讲述了本文基于麦克风阵列的语音增强系统,介绍了该语音增强系统的应 用环境以及所包含的功能模块、系统流程。本文语音增强系统应用在嘈杂的环境下,忽 略环境中混响对语音的影响。语音增强系统的功能模块有语音活动检测、方向估计、期 望方向语音的自适应增强、干扰信号的自适应对消和谱减法,其中谱减算法本文不做研 究。 第三章:介绍了语音活动检测算法,并在不同信噪比条件下对该算法进行仿真,分 析了语音活动检测算法的性能及其适用的条件。同时针对该算法的缺陷提出的解决的办 法,采用语音活动检测和时延估计相结合的方法来减小语音活动检测的漏警概率。 第四章:介绍语音增强算法中的几种时延估计算法,基于相位的广义互相关算法、 基于n l m s 的自适应时延估计算法和基于互谱加权直方图的时延估计方法。在不同信 噪比的p i i l l 【噪声环境下分别对这三种算法进行仿真,分析各自的性能,然后选取适合 本文背景环境的时延估计算法,本文采用相位变换的广义互相关法来计算时延。我们结 合语音活动检测算法和方向估计方法减小了低信噪比下语音活动检测漏检概率很大的 缺陷,并通过仿真验证。 第五章:讲述了自适应波束形成的概念,包括期望方向语音的自适应增强和干扰信 号的自适应对消两部分。我们分别在p i i l l 【噪声、c a r 噪声、f a c t o r ) r 噪声环境下对语音增 强算法进行仿真,根据仿真结果分析不同信噪比条件下语音增强技术的性能。 第六章:采用主观评价方法和客观评价方法对整个系统进行性能评估,主观评价方 法采用平均意见得分法从五个分数段显示本文语音增强技术的性能,客观评价法分别从 信噪比和信干比两方面来分析语音增强技术的性能。 第七章:对本文进行了总结,并且简单介绍本文下一步的研究方向。 4 硕士论文嘈杂环境下的麦克风阵列语音增强技术研究 2 麦克风阵列语音增强技术概述 2 1 麦克风阵列技术概述 2 1 1 麦克风阵列应用环境 我们根据声源到麦克风的距离与麦克风孔径的倍数关系,将声场模型分为远场和近 场模型两种( 如图2 1 所示) 。两者的区别在于:近场模型使用球面波模型,它考虑接 收信号间的幅度差;远场模型使用平面波模型,它忽略各通道接收信号的幅度差。远场 模型假设可以简化信号处理的复杂度。如果远场模型假设不成立,我们依然忽略接收信 号间的幅度差,这将极大地影响算法的性能。声源到麦克风的距离比麦克风阵列孔径大 于2 0 倍,为远场模型;声源到麦克风的距离比麦克风阵列孔径小于1 0 倍时,为近场模 型;声源到麦克风的距离比麦克风阵列孔径大于1 0 倍且小于2 0 倍时,我们将视情况而 决定声场是远场还是近场。本文麦克风阵列的声场模型是远场模型。 源 近场 远场 图2 1 近场和远场模型 本文主要研究在强噪声环境下的麦克风阵列语音增强系统。我们碰到强噪声有酒 吧、k t v 震耳的音乐声、机场内飞机的起降声、厂房中机器的摩擦声、碰撞声、飞机 驾驶舱中机器的轰鸣声、视频会议中会话者旁边的说话者、车载免提系统中车内人们的 交谈声等,强噪声环境将影响语音增强系统的性能。在本系统中麦克风阵列固定在房问 中的某一位置,由于说话者和麦克风之间的距离比较远,其声场模型为远场模型,声以 平面波的形式入射,麦克风阵列在接收语音信号的同时还会拾取背景噪声。此外,该系 统工作在室内嘈杂的环境中( 如会议室中) ,由于麦克风到声源的距离远小于到其他反 射体的距离,因此混响很小,并且语音信号处理过程中经波束形成算法又降低了混响的 影响,所以可以忽略混响对语音影响。 2 麦克风阵列语音增强技术概述硕士论文 2 1 2 语音增强技术概述 本文使用的麦克风阵列由四个麦克风组成,接收信号组成阵列信号我们利用接收到 的阵列信号根据时延估计算法来估计声源的方向。由于本文语音增强算法是增强固定方 向语音信号,我们使用自适应波束形成的方法使阵列波束的主瓣对准期望语音信号,零 陷对准噪声和干扰,实现了在增强期望语音信号的同时抑制了噪声和干扰。本文在嘈杂 环境下基于麦克风阵列的语音增强技术研究主要由两部分组成:声源的方向估计和自适 应波束形成。 本文基于麦克风阵列的语音增强系统主要包括a d 转换模块、控制模块、语音增强 模块、干扰模块组成。麦克风采集信号后,经模数转换模块,将模拟信号转换成为数字 信号,控制模块控制信号的流向,算法功能划分如图2 2 所示。本文算法开始处理的数 据是经a d 转换模块后的四个通道的数字信号。开关控制自适应滤波器的更新,如果当 前信号为期望语音信号时,更新自适应语音增强滤波器的系数:当前信号是单源干扰信 号时,更新自适应干扰对消滤波器的系数;当前信号为其他条件的信号时,我们均不更 新自适应语音增强滤波器的系数和自适应干扰对消滤波器的系数。 输出 图2 2 算法功能划分 在室内嘈杂的环境下,我们知道麦克风接收到的信号可能包括:期望语音信号、干 扰信号( 其他讲话者) 和各种环境噪声。本文的主要目的加强嘈杂环境下期望语音信号 同时抑制不同的干扰和噪声,因此我们首先要识别当前信号是期望语音信号还是干扰信 号和背景噪声信号。控制模块的主要功能是基于以下原则来识别期望语音和干扰:1 ) 准则1 ( 语音活动检测) :来自期望方向语音的平均能量相对于其他源要高很多,因此, 我们计算每帧信号的t e a g e r 能量算子( t e o ) 【3 4 】【3 5 1 【3 6 1 ,如果当前帧能量高于语音门限 时,则我们记录当前信号帧为语音信号。2 ) 准则2 ( 方向估计) :为了分离期望语音信 号和其他说话者,我们用时延估计的方法来估计声源的方向,来判别当前帧信号是何种 信号。 自适应波束形成技术是本文麦克风阵列语音增强系统的重要一部分,它在增强期望 6 硕士论文 嘈杂环境下的麦克风阵列语音增强技术研究 信号的同时抑制干扰信号和背景噪声。由算法功能图知在当前帧为期望语音信号时,我 们更新语音增强滤波器系数后指向语音增强部分,实现了语音的自适应增强,经干扰对 消,抑制一部分背景噪声;当前帧为干扰信号时,实现了干扰信号的自适应对消,同时 也抑制一部分背景噪声;在信号情况下不明时,信号直接经语音增强模块和干扰对消模 块,如果有期望语音信号则增强,没有则只抑制噪声和干扰。 2 2 软件系统介绍 语音增强系统主要由语音信号检测、声源的方向估计、期望方向语音的自适应增强、 干扰信号的自适应对消四部分组成,本算法具体的信号流程图如图2 3 所示: 图2 3 算法流程图 7 2 麦克风阵列语音增强技术概述硕士论文 首先进行语音活动检测( w 山) ,计算每帧的t e a g e r 能量算子( t e o ) ,以此来判 断当前帧是语音信号还是噪声信号,并分别进行标记,具体语音活动检测算法将在第三 章中阐述;如果当前帧判为语音信号时,利用时延估计算法判别当前帧信号是单源信号 还是多源信号,如果是多源语音信号则进行标记,如果为单源信号再根据时延值估计声 源的方向,以此来判断当前帧信号是期望语音信号还是干扰信号,并分别标记,方向估 计算法将在第四章中讲述。如果当前帧判为噪声信号和多源语音信号时,直接进行语音 信号增强和干扰对消的滤波;如果当前帧判为期望语音信号时,进行期望信号的自适应 波束形成来增强目标方向的语音,再经干扰对消滤波;如果当前帧判为干扰语音信号时, 先经语音增强滤波,再经干扰信号的自适应对消,期望语音信号的自适应增强和干扰信 号的自适应对消算法将在第五章中阐述。所有经干扰对消后的信号再经谱减法进一步减 小背景噪声,以达到更好的增强语音,降低干扰的目的。 本系统中语音活动检测和时延估计算法相结合,我们更加准确的判别语音信号是期 望语音信号、干扰信号、背景噪声、期望语音信号和干扰信号同时存在。这使得期望方 向语音的自适应增强和干扰方向的自适应干扰对消的效果更好。如果我们出现误判,如 当前帧信号我们判为期望语音信号,但是当前帧还含有干扰信号时,在语音增强滤波器 更新系数时会造成发散,这将使得滤波后的语音严重失真。 硕士论文嘈杂环境下的麦克风阵列语音增强技术研究 3 语音活动检测 3 1 概述 语音活动检测( v o i c ea c t i v 埘d e t e c t i o n ,简称w 国) 技术,也称为端点检测,广 泛地应用于各种语音处理系统中,也是进行其他语音信号处理的重要步骤之一。例如在 自适应多速率蜂窝电话系统中,语音活动检测模块可以减少同信道干扰和便携设备的功 耗【3 7 1 。 语音活动检测算法主要是利用人类语音的统计特性,如能量、幅度、过零率、准周 期性等特性来判断。各种语音活动检测算法的基本思想是能够提取某种可以区分语音和 噪声的特征参数,或对其加以改变,从语音和噪声有明显差别的地方找到二者的分界点, 再者根据多个语音特征来进行语音检测。 早期的语音活动检测算法有l p c 系数【3 引,短时能量和过零率【3 9 】等,近年来出现了 频带方差【柏】【4 l 】、倒谱特征【4 2 1 、基于谱熵的语音信号检测法【4 3 1 等。所有的语音活动检测 算法,无论简单还是复杂,在信噪比较高的噪声环境中检测效果均很好,但是随着信噪 比的下降,算法的性能会越来越差,尤其在含有多种噪声的强噪声环境中。 语音活动检测的算法中基于能量的检测算法是最经典的算法。本文采用t e a g e r 能 量算子的检测方法来判断语音的起止位置,该算法简单,硬件处理容易实现,可靠性高。 3 2 语音活动检测算法 对麦克风信号进行处理前,首先进行预加重。因为语音经过鼻腔和口腔辐射出来的 时候,鼻腔和口腔都会对语音产生影响,在语音信号高频段大约8 0 0 h z 以上按6 d b 倍 频程跌落,所以语音信号的频谱主要集中在低频段,其高频段部分成分较小,且容易受 噪声干扰。 为了加强输入语音的高频分量,要进行预加重处理。预加重一般在语音信号数字化 之后,参数分析之前用高通数字滤波器来实现,它一般是一阶的高通数字滤波器: h ( z ) = 1 一肛。1 ( 3 1 ) 其中0 9 3 “ 气翮,则当前信号为语音信号; 如果e 删 e 掣幽,则当前信号为语音信号; 如果e 删 e 肋泌,则当前信号为噪声信号。 为了跟踪时变的环境噪声和语音环境,我们根据如下更新规则同时更新语音和噪声的阈 值: 1 ) 当前帧为语音环境时,更新语音能量门限如下: 一删 一喇 一 五删= 仅( e 删) + ( 1 一仅) e 删, ( 3 5 ) 一一删 e 粥蹦= d 山e 删幽:( 3 6 ) 邑j 删2 已掣幽; l j oj 2 ) 当前帧为噪声环境时,更新噪声能量门限如下: 一 朋 一。埘一 e 一。地= p ( e 肋触) + ( 1 一p ) e 哟耐 ( 3 7 ) 一 一删 e 一妇= 岛妇e o 船 ( 3 8 ) 其中o 仪,p l ,幽和抛分别是控制语音和噪声门限值的常数。我们计算每一帧的 能量,然后根据语音的门限和噪声的门限来判断当前帧性质。如果当前帧能量大于语音 的门限,则标记该帧信号为语音信号,并且根据式3 5 、3 6 更新语音信号的能量门限; 如果当前帧能量小于噪声的门限,则标记该帧信号为噪声信号,并且根据式3 7 、3 8 更 新噪声信号能量门限;如果当前帧能量介于两者之间时,另行标记该帧信号,出现这种 情况表示当前帧信号可能是噪声比较强的信号或者语音比较弱的信号( 如清辅音处) , 再者就是噪声和清辅音混合处,此时不能准确的判断出其是否含有语音信号。 1 0 硕士论文嘈杂环境下的麦克风阵列语音增强技术研究 3 3 语音活动检测算法仿真 语音信号是一种典型的非平稳信号,又具有短时平稳性,在一段时间内 ( 1 0 m s 3 0 m s ) 可以认为其特性是不变的,同时为了实现语音信号的实时处理,我们采 用分帧处理语音信号。我们使用女音“仓库的后面是一间小屋 的仿真数据来仿真,帧 长取1 6 n 1 s ,采样率为8 k h z 。我们在不同的噪声环境和不同信噪比下对语音活动检测算 法进行仿真。 我们遇到的噪声有粉红色( p i n k ) 噪声、车辆( c a r ) 噪声、机械( f 撕。巧) 噪声等。 p i n k 噪声是自然界最常见的噪声,p i l l l ( 噪声的频率分量功率主要分布在中低频段。p i i l l ( 噪声从波形角度看是分形的,在一定的范围内音频数据具有相同或类似的能量。从能量 的角度来看,p i l l l 【噪声的能量向高频不断的衰减。p i n k 噪声是最常用于进行声学测试的 声音。c a r 噪声主要有车内噪声和车外噪声,是由内燃机、喇叭、轮胎等发出的声音。 f a c t o r y 噪声一般是指工业设备在运转时产生的噪声。f a c t o r y 噪声分两种,一种噪声是 在板切及电器设备焊接附近记录,一种噪声是在汽车生产车间记录,本文仿真使用的是 第一种p i n k 噪声。 由于p i i l l 【噪声是最接近实际应用环境的噪声,所以本文语音活动检测仿真加入的 背景噪声为p 础噪声1 4 引。如图3 1 所示从上到下分别为纯净语音和信噪比为2 0 d b 的带 噪语音、信噪比为l o d b 的带噪语音、信噪比为5 d b 的带噪语音和信噪比为0 d b 的带噪 语音。从图中可以看出随着噪声的加入,信噪比降低后,语音信号逐渐淹没在噪声中。 5 d b 的带噪语音信号与纯净语音信号相比较,带噪语音中还是可以分辨出语音信号的, 但是0 d b 带噪语音信号和纯净语音比较,语音将大部分淹没于噪声信号中,尤其是能 量较低的语音幅值和噪声幅值差不多,语音信号波形不明显。 x1 0 原始语音信号 1 广1 一 t _ 1 广1 o 卜_ - 一_ _ - 一- - - _ _ - 一一 1l j 1 。i 1 l ,j o0 51 522 53 x1 0 2 0 d b 1 广 广 一_ - t - t _ 1 o 卜- _ - - 1 - _ - - - _ - _ _ - 一 1l l l j 。l j - j oo 511 522 53 x1 0 1 0 d b 1r - 1 _ r t _ 1 o 卜_ - - - - - 叫- _ 卜- - _ 嘲- 一一 1l j 。j 。l l _ j oo 511 52z 53 x1 0 5 d b jf = = = i 二i i j i i i = = ;i i i 品石i ;i i = = = 1l l 。l l ,- ,l ,j j o0 511 522 53 x1 0 o d b j 辱瓦i 甭蕊鬲i 丽蕊丽i ;i 丽i 丽瓦丽i 丽丽品;司 oo 511 522 53 图3 i 各信噪比下语音信号 3 语音活动柃测硕士论文 6 0 0 0 4 0 0 0 2 0 0 0 0 2 0 0 0 _ 4 0 0 0 - 6 0 0 0 收5 0 嚣 銎o 号5 0 0 0 # 工 翟 ,f 史 蒙 一 毡 孥 15225 时间f s ) 图3 2 纯净信号语音活动检测结果 。hi 叫( s ) 图3 32 0 d b 带噪信号语音活动检测结果 图3 2 上图为纯净语音信号,下图为纯净语音信号对应的检测结果。虚线连接语音 部分和检测的结果,下图中幅值为2 0 0 0 时,当前信号为语音信号,幅值为0 时,当前 信号为噪声信号,幅值为5 0 0 时,当前信号在盲区内,我们不能准确检测是语音信号还 是噪声信号( 图3 3 、3 4 、3 5 、3 6 下图坐标含义相同) 。图3 2 的检测结果显示能量较 大的语音段检测结果基本正确,则只有一小部分能量较小的语音不能被准确的识别出, 放在盲区。我们据此可知语音活动检测算法在检测纯净语音信号时性能优越,适合使用。 图3 3 中第一幅图为2 0 d b 带噪语音信号图,第二幅图是纯净语音信号图,第三幅图是 2 0 d b 带噪语音信号对应的语音活动检测结果。由图知该语音活动检测算法不能准确检 硕士论文 嘈杂环境下的麦克风阵列语音增强技术研究 测2 5 s 以后的噪声,但语音段检测基本正确,同纯净语音时检测结果相同的是有一小 部分能量较小的语音( 清音) 不能被准确的识别出。检测结果中误警概率为0 ,漏警概 率很小,所以该算法在信噪比较高的噪声环境中性能比较突出。在纯净语音和2 0 d b 带 噪语音检测的盲区信号中,虽然不能完全正确识别信号的性质,但是漏警概率很小不影 响整个语音活动检测的结果,整个语音活动检测算法性能突出。 妊5 0 0 0 虫 銎 0 轻 苫- 5 0 0 0 s 0 0 0 茸c 采 0 惫 蒙5 0 0 0 2 0 趔 馨1 0 0 _ - - - l 。k 一 ;吖 p r l r 吲 盯v l 简 厌匐 2 :) 删。飞 11 522 5 时间( s ) 图3 4l o d b 带噪信号语音活动检测结果 图3 4 中第一幅图为1 0 d b 带噪语音信号图,第二幅图是纯净语音信号图,第三幅 图是1 0 d b 带噪语音信号对应的语音活动检测结果,图中明显的误警和漏警信号已被标 出,实线圆圈标注的是产生漏警的信号,虚线圆圈标注的是产生误警的信号。在1 0 d b p i n k 噪声环境下,该语音活动检测算法已经开始出现了明显的漏检的信号,其它语音段的信 号语音活动检测结果基本正确,但是2 5 s 后的信号全部检测在了盲区。但是在该算法 中出现了误检的信号,误检的概率非常小,但是却是我们要注意的。因为误检将导致后 续自适应增强算法发散,影响整个系统的性能,因此我们在本文语音活动检测中要使语 音误警概率为0 或者很小。本信噪比条件虽然已经出现了误检的信号,但是还不影响整 个算法的性能。所以在1 0 皿噪声环境下,语音活动检测算法的性能还是比较好的。 图3 5 中第一幅图为5 d b 带噪语音信号图,第二幅图是纯净语音信号图,第三幅图 是5 d b 带噪语音信号对应的语音活动检测结果。由图可知在5 d b 的噪声环境中,语音 段检测出现的漏检信号比1 0 d b 环境噪声下的漏检信号要多,但是误警概率为0 。虽然 漏检的信号增多,但是语音段信号的检测结果还是基本正确的。由图3 5 可知,语音信 号开始和结尾处的漏检信号很多,我们知道随着噪声环境越来越复杂,该语音检测算法 对噪声的跟踪越来困难。 3 语音活动检测硕上论文 i 一5 0 0 0 签 0 磊一5 0 0 0 。5 0 0 0 晕o 吕- 5 0 0 0 图3 55 d b 带噪信号语音活动检测结果 图3 60 d b 带噪信号语音活动检测结果 图3 6 中第一幅图为o d b 带噪语音信号图,第二幅图是纯净语音信号图,第三幅图 足0 d b 带噪语音信号对应的语音活动检测结果,图中漏检的信号均用黑色圆圈标注。 o d b d i n k 噪声环境下语音信号漏检的语音信号太多,可以看到明显的语音段也被淹没在 了噪声中不能被准确识别,漏警概率太大。语音段开始和结尾部分是明显的噪声段,可 以知道该语音活动检测算法在低信噪比下也不能准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2.1 口算除法(1)(教案)-2024-2025学年三年级下册数学人教版
- 第三单元 第1课时 数数、数的组成(一)(教学设计)一年级数学下册同步高效课堂系列(人教版2024)
- 2025年中考数学试题分类汇编:概率(6大考点55题) (第1期)原卷版
- 单元4 日常生活中常见的材料教学设计-2025-2026学年初中化学仁爱科普版九年级下册-仁爱科普版2012
- 2025年中考化学试题分类汇编:科学探究题(第1期)原卷版
- 第8课 初识Python教学设计-2025-2026学年小学信息技术(信息科技)六年级上册青岛版(六三制)
- 2025年高考全国一卷数学试题(解析卷)
- 2025常规商品进口合同
- 向日葵趣味题目及答案
- 2025年江西省中考生物试题(含答案)
- 初中综合实践课程活动教案5篇(初中综合实践活动课件)
- 教学课件-信号智能电源屏(鼎汉)的简介与维护
- 旗袍英文介绍课件
- 模块二-化肥减施增效基础知识课件
- CML慢性髓系白血病医学教学课件
- 临床实习带教工作总结
- 老年营养不良
- 咽喉科内镜诊疗技术管理规范
- 小学各项安全管理制度汇编
- 北京香格里拉饭店庭园环境设计
- 电气改造工程施工组织设计
评论
0/150
提交评论