(通信与信息系统专业论文)麦克风阵列语音增强算法研究.pdf_第1页
(通信与信息系统专业论文)麦克风阵列语音增强算法研究.pdf_第2页
(通信与信息系统专业论文)麦克风阵列语音增强算法研究.pdf_第3页
(通信与信息系统专业论文)麦克风阵列语音增强算法研究.pdf_第4页
(通信与信息系统专业论文)麦克风阵列语音增强算法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(通信与信息系统专业论文)麦克风阵列语音增强算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音是人类日常生活中最有效、最方便,同时也是最常用的交流手段。但是, 在实际的生活中,很多的时候语音常常受到来自周围环境、传输媒质引入的噪声、 内部噪声、以及其他讲话者的干扰,这样就会降低原始语音的可懂度和清晰度。 因此,需要引入语音增强处理,去除夹杂在其中的噪声,恢复原始的语音信号。 本文对目前常用的几种语音增强方法做了简要的介绍,并详细阐述了广义旁 瓣抵消器结构的语音增强算法,并且知道此种方法由于到达角( d i r e c t i o no f a r r i v a l ,简称d o a ) 失配会造成信号泄露,从而造成增强语音的失真。因此,针 对这一缺点,实现了一种改进的g s c 算法,即:d f g s c c b d f e 算法。这种算法 通过改进广义旁瓣抵消器结构中自适应算法,避免因声音到达方向失配带来的信 号泄漏,增加反馈模块加快语音增强系统的收敛速度,并采用维纳滤波器使算法 更有效地抑制非相干噪声,还可以有效地去除信道问干扰和字符间干扰。仿真结 果表明,改进的算法较传统的算法有较大的改进。 关键词:语音增强信道估计广义旁瓣抵消器判决反馈均衡器 a b s t r a c t s p e e c hi st h em o s te f f e c t i v e ,m o s tc o n v e n i e n ta n da l s ot h em o s tc o m m o n i vu s e d m e a n so f c o m m t m i c a t i o ni no u r d a i l yl i f e b u t ,i nt h er e a ll i f e ,s p e e c hw i l lb ei n t e r f e r e d b yo t h e ri n t e r f e r e n c e ,w h i c hc o m e sf r o mt h e s u r r o u n d i n ge n v i r o n m e n t , t h e t r a n s m i s s i o nm e d i u m s ,t h ei n t e r n a l n o i s e ,a n do t h e rs p e a k e r s t h i sw i l lr e d u c e i n t e l l i g i b i l i t ya n dc l a r i t yo ft h eo r i g i n a ls p e e c h s o ,i tn e e di n t r o d u c et h es p e e c h e n h a n c e m e n tt or e m o v et h en o i s em i x e di nt h es p e e c h a n dt or e s t o r et h eo r i g i n a l s p e e c hs i g n a l t h i sp a p e rg i v e sab r i e fi n t r o d u c t i o nt ot h ec o m m o n l yu s e dm e t h o do f s p e e c h e n h a n c e m e n t ,a n dw ew i l lg i v ed e t a i li n t r o d u c ea b o u tt h eg e n e r a l i z e ds i d e l o b e c a n c e l l e ra l g o r i t h m a n dw ek n o wt h a tb e c a u s eo f t h em i s m a t c hb e t w e e nt h ee s t i m a t e d d i r e c t i o no fa r r i v a la n da c t u a ld i r e c t i o no f a r r i v a l ,i tc a nr e s u l ti nt h es i g n a ll e a k a g e a n d t h ef i n a lr e s u l ti st h ed i s t o r t i o no ft h ee n h a n c e ds i g n a l s o ,i nt h ef o u n d m i o no ft h i s w e a kp o i n t ,w eg i v ean e w a l g o r i t h m ,w h i c hi sc a l l e dt h ed e c i s i o nf e e d b a c kg e n e r a l i z e d s i d e l o b ec a n c e l l e ra n dc h a n n e l - a i d e db l i n dd f e a l g o r i t h m t h ea d a p t i v ea l g o r i t h mo f t h ei m p r o v e dg e n e r a l i z e ds i d e l o b ec a n c e l l e rs t r u c t u r ei s c h a n g e dt oa v o i dt h es i g n a l l e a k a g e ,af e e d b a c km o d u l ei si n t r o d u c e dt os p e e du pt h ec o n v e r g e n c eo ft h es y s t e m s a n daw i e n e rf i l t e rs t r u c t u r ei sa d o p t e dt os u p p r e s st h ei n c o h e r e n tn o i s em o r e e f f e c t i v e l y a n di tc a ns u p p r e s sc o - c h a n n e li n t e r f e r e n c ea n di n t e r - s y m b o li n t e r f e r e n c ee f f e c t i v e l y t h es i m u l a t i o nr e s u l t sc a ns h o wt h a tt h ei m p r o v e da l g o r i t h mc a n g i v eb e t t e rr e s u l t s k e yw o r d s :s p e e c he n h a n c e m e n tc h a n n e le s t i m a t i o n g e n e r a l i z e ds i d e l o b ec a n c e l l e r d e c i s i o nf e e d b a c ke q u a l i z e r 独创性( 或创新性) 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或研究成果;也不包含为获得西安电子科技大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:煮金基 本人承担一切相关责任。 日期逊! 皇: z 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证, 毕业后结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 日期丝 翌:墨乒 第1 章绪论 第1 章绪论 1 1 课题背景 语音作为语言的声学表现,是人类信息交流的最有效、最自然、最方便的手 段之一。随着现代通信技术的迅速发展,语音通信已经成为现在信息时代最重要 的信息交流手段之一。 然而,现实生活中的语音不可避免的要受到来自周围环境、传输媒介引入的 噪声、通信设备内部噪声、乃至其他讲话者的干扰。这些干扰最终将使接收到的 语音信号不再是纯净的原始语音,而是被噪声污染过的带噪语音。 随着人们对语音质量的要求不断提高,越来越需要对语音进行增强处理以达 到人们的要求。这就必须加入语音增强系统,抑制背景噪声,从而提高通信质量; 或者作为预处理器,以提高语音处理系统的抗干扰能力,维持系统性能。因此, 研究语音增强技术在实际中有重要的价值。目前,语音增强技术已经在语音处理 系统、通信、多媒体技术、数字化家电等领域得到了越来越广泛的应用。 1 2 语音增强的意义 语音增强的主要目标是从带噪语音信号中提取出尽可能纯净的原始语音信 号。然而,由于实际应用中的噪声干扰通常是随机的,其来源和种类各不相同, 因此想从带噪语音中提取完全纯净的语音几乎是不可能的。在这种情况下,语音 增强的主要目的就是通过对带噪语音进行处理,以消除背景噪声,改善语音质量, 提高语音的清晰度、可懂度和舒适度,提高语音处理系统的性能。这些目的往往 不能兼得,通常需要根据语音处理系统的具体需要而定。目前已有的一些对低信 噪比带噪语音进行语音增强的方法,可以显著地降低背景噪声,改进语音质量, 但并不能提高语音的可懂度,甚至略有下降。 语音增强是一门涉及面很广的交叉学科,它不但与语音信号数字处理理论有 关,而且涉及到模式识别、数理统计、神经生理学和语音学等学科。一般地,人 们在研究语音增强的方法时,是从语音特点、人耳的感知特性和噪声特点等几方 面入手。 语音增强技术是解决噪声污染的一项强有力的预处理技术,也是语音信号处 理的一个热门话题。语音增强的目的就是从带噪语音中提取尽可能纯净的原始语 音,提高信噪比,改善语音质量。所以,语音增强技术是语音处理系统、通信、 2 麦克风阵列语音增强的算法研究 多媒体等技术中的一个重要环节。语音增强的算法研究也成为近年来的热点研究 问题。 1 3 语音增强的历史和发展现状 语音处理技术的发展可以从1 8 7 6 年的贝尔发明电话算起,贝尔第一次采用电 讯号将语音传输到远方。1 9 3 9 年,h d u d l e y 首次成功设计出了声码器,它是将 语音提出参数后,传输语音的参数,然后在接收端重新生成语音。它的发明中所 孕育的伟大思想是对语音信号建模。数字计算机是语音处理研究的重要工具。此 后时期语音识别的主要研究方向和方法都是利用硬件提取语音的频谱信息,使用 计算机进行匹配计算和判决。对语音处理技术产生决定性的影响的是在上个世纪 7 0 年代的三项研究成果:7 0 年代初期的将动态规划法用于语音识别及隐马尔可夫 模型,为语音识别在匹配算法上提供了新的方法;中期的线性预测法,在语音识 别、语音编码等方面获得了极大成功,成为现代语音处理的主要方法;随后在七 十年代朱的矢量编码量化技术,更推进了语音处理技术的发展。 i i 前常用的语音信号增强算法一般可分为基于语音生成模型参数和非基于语 音生成模型参数两大类。基于语音生成模型参数方法的特点是对语音生成模型的 参数进行估计和恢复。然后在低信噪比下,很难对模型参数进行准确估计,并且 此算法往往因需要迭代而增加了算法的复杂度。非基于语音生成模型参数的语音 增强方法主要有自适应噪声滤波法和基于语音短时谱估计的增强算法等。 语音增强的典型方法有:谱减法【1 】【2 】、自适应噪声对消法【1 】以及基于语音信号 模型的语音增强法【1 】【3 】。近年来,语音增强的研究工作有了一定的进展。适用于在 带噪语音信号采集过程中同时能获得参考噪声源的自适应噪声对消技术,已逐渐 成熟。 语音增强一直都是语音通信和语音信号处理研究领域中的一个重点研究课 题,倍受国内外研究人员的关注,已有几十年的研究发展历史。其研究起源于2 0 世纪6 0 年代,随着数字信号理论的成熟,在7 0 年代曾形成一个理论高潮,取得 了一些基础性成果,并使语音增强的发展成为语音信号处理的一个重要分支。1 9 7 8 年,l i m 和o p p e n h e i m 提出了基于维纳滤波的语音增强方法【1 1 1 4 1 ;1 9 7 9 年,b o l l 提出了谱减法来抑制噪声 5 1 ;1 9 8 0 年,m a u l a y 和m a l p s s 提出了软判决噪声抑制 方法 6 1 ;1 9 8 4 年,e p h r a i m 和m a l a h 提出了基于m m s e 短时幅度谱估计的语音增 强方法 - r l ;1 9 8 7 年,p a l i w a l 把卡尔曼滤波引入语音增强领域1 8 】;1 9 9 4 年r a i n e r m a r t i n 提出了最小统计的语音增强方法 e l ;1 9 9 5 年,e p h a r i m 提出了基于信号子 空间分解的语音增强方澍1 0 】:2 0 0 1 年r a i n e rm a r t i n 提出了基于最优平滑和最小统 计的噪声功率潜密度估计【1 ”。 第1 章绪论 3 近年来,随着对语音增强技术的不断研究,一些新的语音增强方法如:基于 神经网络【1 2 】1 13 】、小波变换语音增强方法【1 4 1 、离散隐含马尔可夫模型方法【1 5 】等也逐 渐成为研究的热点。 国内的研究较之国外起步较晚,主要的研究单位有清华大学、中科院声学所 和西安电子科技大学等单位。覃景繁和高鹰各自提出一种新的变步长自适应滤波 算法【1 6 】【1 7 1 。何成林等人将多通道维纳滤波器引入广义旁瓣相消器的非自适应支 路,提出一种基于子带广义旁瓣相消器结构的语音增强系统【1 8 1 ,该系统具有更快 的收敛速度和更高的输出信噪比。殷福亮等人提出一种将延迟一求和波束形成技术 和小波变换技术相结合的语音增强方法【1 9 1 。张贤达、保铮、苏野平、何量、何振 亚等学者在盲信号分离方面取得了较多的成果【2 0 1 2 1 1 1 2 2 1 。 1 4 本文布局 本文针对语音环境中存在的干扰和复杂的背景噪声( 非平稳随机噪声、瞬时 噪声、回声等) 问题,在基于广义旁瓣抵消器( g e n e r a l i z e ds i d e l o b ec a n c e l l e r ,简 称g s c ) 结构的波束形成算法基础上,采用了一种叫做d f g s c c b d f e 的麦克风 阵列语音增强算法。它是带反馈滤波器的改进g s c 算法,此算法结构包括了广义 旁瓣抵消器模块( g s c ) 、后置维纳滤波器模块和信道目的的判决反馈均衡器。在 g s c 的自适应抵消器系数更新算法中加入抑制信号泄漏的因子,来避免冈到达方 向( d i r e c t i o no f a r r i v a l ,简称d o a ) 失配所引起的信号泄漏,增强了系统对于d o a 的强健性,增加反馈模块来加快g s c 的收敛速度,并且减少了系统稳定后的残余 噪声量,并将后置维纳滤波模块引入旁瓣抵消器的非自适应支路,可以更有效地 抑制相干噪声和非相干噪声。计算机仿真实验结果表明,相对于传统的广义旁瓣 抵消器算法,这种改进算法具有更高的输出信噪比、更快的收敛速度和更强健的 性能,对于语音环境中的干扰和复杂背景噪声有较好的抑制效果。 论文的具体章节安排如下: 第l 章阐述麦克风阵列语音增强的研究背景,介绍麦克风阵列语音增强方法 的国内外发展现状,最后引出本文的主要内容安排; 第2 章介绍麦克风阵列语音增强的基础理论和基本方法,并对这些方法做较 为详细的说明,并说明各自的优缺点; 第3 章介绍了麦克风阵列语音增强中的一个难点:时延估计。详细介绍了常 用的三种时延估计的方法,并说明了各自的优缺点; 第4 章详细阐述波束形成技术的基本原理;说明g s c 算法的基本的工作原理, 在分析传统的g s c 算法的缺点之后,引出本文所用到的改进的g s c 算法; 第5 章详细阐述了本文采用的d f g s c c b d f e 改进的波束形成算法,并用 4 麦克风阵列语音增强的算法研究 m a t l a b 语言仿真该算法对于语音的增强效果; 第6 章概要总结本文的主要研究内容及取得的成果,并对需要进一步研究的 问题进行了讨论。 1 5 小结 本章简单地阐述了语音增强的基本原理、发展现状以及基于广义旁瓣抵消器 波束形成算法的发展概况,并引出了改进的d f g s c c b d f e 算法,最后提出了本 论文的主要工作和结构安排。 第2 章麦克风阵列语音增强模型及算法简介 第2 章麦克风阵列语音增强模型及算法简介 2 1 麦克风阵列语音增强的基础理论 麦克风阵列语音增强不仅涉及信号检测、波形估计等传统信号处理理论,而 且与语音特性、人耳感知特性密切相关。本节将从语音信号产生模型和语音信号 增强系统出发,介绍常见的几种语音增强算法,并归纳总结各种算法的思想、使 用条件和存在的问题。 2 1 1 语音信号产生的信号模型 为了充分了解语音信号的特性,首先给出一个语音信号的模型【2 3 l ,它包括三 个部分:激励源、声道模型和辐射模型,如图2 1 所示。这个模型比较简单,但 可以表现出语音信号的主要特性,能够满足大多数情况下对语音信号的研究和应 用。 周期脉冲发声门脉冲模 生器 - - - 型g ( z ) 一2 l 唧一丸 2 2 阵列信号拾取与信号模型 ( 2 q o ) 本节主要是研究麦克风阵列系统在室内噪声环境中实现语音增强的方法,采 用最为常见的麦克风阵列采集说话人的语音信号。阵列中的每个麦克风不仅可以 采集由说话人方向直达的语音信号,还有其它各种无用信号,包括:声源经墙壁 反射的回波信号,关门、人走动等背景噪声以及其他说话人的干扰噪声。用麦克 风阵列进行语音增强,就是在这些信号中提取特定说话人的语音信号。 2 2 1 声源模型 在空气中,声音传播的速度随着环境温度和压力的变化而变化,但在标准温 度和压力条件下,该速度大约为3 4 0 m s 。考虑一个平稳声源s 和一个麦克风m , 这里假定声源是一个真正的点源,这种点源可以是一个说话人的嘴、一个音响设 备或者是其他的声音产生器。声源与麦克风之间的距离为d ,那么,声音从s 到m 所用的时间为f ,这里f = d 圪,圪= 3 4 0 m s 。 如果声源产生的信号是s ( f ) ,那么麦克风接收的信号为: x ( f ) = a s ( t f ) + 玎o )( 2 1 1 ) 1 式中f 为时延,口为衰减系数,口和距离d 之间的关系为:口o c 之。n ( t ) 代表噪声, a 它分别两个部分的和: n ( t ) = ”j ( f ) + r r ( f ) ( 2 - 1 2 ) 式中疗心) 是由竞争声源产生的干扰噪声,( f ) 是混响噪声。前者一般是由电脑、 其他活动人或者电子噪声等产生的,与j ( f ) 不相关;而后者是由于房间墙壁反射 产生的回波,与s ( f ) 相关。这样,传感器接收到的有声源产生的信号为: 肘只( f ) = a s ( t f ) + l l r ( f ) = 办( f ) 木s ( ,) ( 2 1 3 ) 则式( 2 1 1 ) 可以写成如下形式: x o ) = 办o ) 摩s o ) + ,l ,( f ) ( 2 - 1 4 ) 1 0 麦克风阵列语音增强的算法研究 2 2 2 麦克风阵列信号模型 麦克风阵列语音增强是利用多个麦克风采集信号来实验语音信号的处理,阵 列所拾取信号的组成如图2 5 所示。它主要包括直接到达信号、反射信号和干扰 噪声。 直达信号 反射信号 音源 图2 5 麦克风阵列拾取的信号 常见的麦克风信号产生模型有理想模型和实际模型两种。前者只考虑环境噪 声,而不考虑多径反射噪声;后者既考虑环境噪声,又考虑多径反射噪声。 1 、理想模型 麦克风阵列中第,个麦克风接收到的信号x ,( f ) ( f _ 1 , 2 ,m ) 可以表示为: x ,o ) = a s ( t q ) + 刀o )( 2 1 5 ) 对应的矢量形式为: x ( f ) = 口s ( t f ) + 刀( f ) ( 2 - 1 6 ) 式中: s ( t r ) = b o 一_ ) ,s ( ,一f 2 ) ,s ( t 一) r ( 2 1 7 ) 胛( f ) = k 。,( f ) ,刀:,( f ) ,( f ) f ( 2 1 8 ) 式中s ( f ) 为声源信号,口,是声波传播的衰减因子,f ,是声源和传播到两个麦克风 所需要的时间,n u ( t ) 为环境噪声,并且j ( ,) 和( ,) ( f = 1 , 2 ,m ) 之间彼此不相 关。 当房问内只存在一个语音源和一个噪声源时,麦克风接收到的噪声是点噪声 源延迟信号和语音源延迟信号的叠加,则式( 2 16 ) 可以变为: x o ) = 口s ( t f ) + n ( t f )( 2 1 9 ) 第2 章麦克风阵列语音增强模型及算法简介 i i 式( 2 1 9 ) 描述的是方向性噪声场中的阵列信号模型,式中s ( f f ) 和刀( ,一f ) 分 别代表麦克风接收到的语音和噪声向量,并且满足s ( f f ) 和n ( t f 。) 相互独立。 r = k ,f :,r 和f = k ,r :,f 0t 分别是语音源和噪声源到麦克风阵列之间 的时间延迟向量。由于语音源和噪声源的空间位置不同,声音走过的路径不同, 所以时间延迟也不同。口= 砒g k 。,口:,口m 】和= d i a g l b i ,屈,几】是两个对 角阵,对角线上元素是与信号传播中的衰减系数有关的常数。 2 、实际模型 麦克风阵列中第f 个麦克风接收到的信号x ,( f ) ( f = 1 , 2 ,m ) 可以表示为: 薯o ) = a ,s ( t 一) + n a t ) = 口f s ( t z s ) + 刀i ,( f ) + ( ,) = 曩( ,) 木s ( f ) + 嘞( f ) ( 2 2 0 ) 对应的矢量形式为: x ( ,) = 厅( f ) + s ( f ) + 聊o )( 2 - 2 1 ) 式中符号“宰 为卷积算子,( f ) 为干扰成分( 包括环境噪声和房问多径反射噪 声) , 仰( f ) 表示第f 个传声器接收到的环境噪声,r j r ( f ) 表示第f 个传声器收到的 多径反射噪声。 2 3 语音增强算法简介 麦克风阵列语音增强技术是将阵列信号处理与语音增强处理相结合,利用阵 列信号的空间相位信息对语音进行增强的一种技术。它融合了语音信号的空时信 息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能 力等特点,这就使麦克风阵列成为智能通信系统中捕捉说话人语音、改善语音质 量的重要手段。它可提供比传统语音增强算法更好的噪声抑制效果,并且对应用 环境有更强的适应能力。近年来,麦克风阵列语音增强方法逐渐成为语音增强的 研究热点。目前常用的麦克风阵列语音增强算法有以下几种。 2 3 1 固定波束形成算法 固定波束形成算法通过延时控制来补偿从声源到每个麦克风的延时,对每个 麦克风接收到的信号进行延迟校正,然后使麦克风阵列波束指向有最大输出功率 的方向,即波束对准相应空间位置的声源信号,这个算法最早由f l a n a g a n 提出【2 踟。 从理论上讲,固定波束形成方法在保持语音信号幅度不变的同时,衰减了干扰和 噪声信号。 1 2 麦克风阵列语音增强的算法研究 固定波束形成方法可以分为三个部分,即时间延迟估计、时间延迟补偿及累 加部分,如图2 6 所示。该类麦克风阵列语音增强方法实现简单,但需要较多麦 克风才能获得较好的噪声抑制能力,因此,实际中很少单独使用。 2 3 2 自相关法 2 k 图2 6 固定波束形成器 信号的功率谱是其自相关函数的傅立叶变换,因此应用于功率谱上的任何方 法都可以应用到自相关上。这种原理是利用自相关相减法进行增强的基础。利用 信号本身相关,而信号与噪声,噪声与噪声之问可看做不相关的特性,可以将带 噪信号进行自相关处理,使其得到与不带噪信号同样的自相关系数帧序列。 设带噪语音信号为y ( t ) = s ( t ) + n ( t ) ,则其自相关函数为: ( f ) = 彳1 抄( f ) j ,( f w t ) 国( ,) d ( f ) 2 寺尘“d 棚o ) 】p ( f 吖) + 以卜力p ( f 矽o ) ( 2 - 2 2 ) = 【j ( ,) s o f ) + s ( t ) n ( t f ) + n ( t ) s ( t - r ) + n ( t ) n ( t r ) c o ( t ) d ( t ) 1 二 = 以p ) 4 - 吒2 ( 力 式中,c o ( t ) 为窗函数,r 。( f ) 为信号的自相关函数。由上式知,语音的自相关可 以从r 。( f ) 中减去噪声功率估值的方法来估计。这种方法很有吸引力,因为它不 要求进行傅立叶变换。而且,如果采用语音线性预测编码,则自相关函数总是要 计算的。因此,这种方法的附加运算量可以忽略不计。利用自相关相减法的主要 问题是对噪声的估计,一旦估计有错误,那么所得到的结果就不再是自相关函数 了。 2 3 3 基于信号子空间的增强算法 语音矢量的协方差矩阵有很多零特征值,这说明干净语音信号矢量的能量只 第2 章麦克风阵列语音增强模犁及算法简介 1 3 分布在它所对应空间的某个子集中。而噪声的方差通常都假设且严格正定,这说 明噪声矢量存在于整个带噪语音信号张成的空间中。因此,带噪语音信号的矢量 空间可以认为由一个信号与加性噪声的子空间和一个纯噪声子空间构成。 基于子空间的信号估计首先是由t u f t s 等提出来的,他们利用修正的奇异值 分解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,简称s v d ) 对信号进行估计【z 9 】。随后,c a d z o w 提出了从带噪语音中恢复信号的一般形式【3 0 】。他假设原始信号具有某些固定特性 或者服从某种特定分布,语音增强就是将带噪语音映射到具有和纯净语音相同结 构的子空间上,这个理论是基于子空间的噪声消除算法的基础。 信号子空间的去噪算法中必不可少的环节是去除噪声子空间,一般采用最小 均方( l e a s ts q u a r e s ,简称l s ) 估计器【3 1 】。但是,为了进一步去除噪声,信号加噪 声的子空间同样需要抑制。最小方差估计器( m i n i m u mv a r i a n c e ,简称m v ) 给出 了纯净语音的最佳线性估计【3 2 l ,随后e p h r a i m 提出了基于子空间的噪声映射语音 增强算法【3 3 】。由于噪声残留和信号失真不能同时达到最小,又提出了时域限制 ( t i m ed o m a i nc o n s t r a i n e d ,简称t d c ) 和频域限制( s p e c t r a ld o m a i nc o n s t r a i n e d , 简称s d c ) 两种新算法,使得残留噪声能够保持在可闻阀值之下,同时最大限度 地消除残留噪声m 】【3 5 1 。尽管最原始的基于信号子空间的语音增强算法是针对白噪 声提出的,在噪声的协方差矩阵已知或能被估计的情况下,能够很容易地扩展到 一般有色噪声情况下岬j 。 子空间滤波技术之所以会有如此优越的性能主要是因为采用了l s 估计器、 m v 估计器和s d c 估计器,其优点是能够有效地去除带噪语音中的背景噪声,使 语音的质量和可懂度都有较大的提高,但是该方法是基于k l 变换的,是最优意 义上的正交变换,计算量较大,因此在快速计算中该方法需要进一步研究。 2 3 4 基于人耳掩蔽的增强算法 语音增强不仅设计信号检测,波形估计等传统信号处理理论,而且与语音特 性,人耳感知特性密切相关,语音信号能够掩蔽与其同时进入听觉系统的一部分 能量较小的噪声信号,而使得这部分噪声不为人所感知到,这就是人耳听觉系统 的掩蔽效应。这种方法在进行语音增强时,不需要把噪声完全抑制掉,只要使残 留的噪声信号不被感知即可,所以在消噪的同时可以减少不必要的语音失真。 为了减小语音失真和加强噪声抑制之间取得良好的折衷,分两种情形对语音 信号的幅度谱进行估计:一是当噪声分量被语音掩蔽时,将带噪语音的谱分量直 接作为估计的谱分量;二是当噪声分量未能被语音掩蔽时,用传统的估计法对各 谱分量进行估计。 1 9 8 1 年,p e t e r s e n 和b o l l 把谱减法用到人耳感知域,他们利用系列带通滤波 1 4 麦克风阵列语音增强的算法研究 器模拟人耳感知效应,在降噪过程中,把带噪语音分解于各个关键频带中,然后 将在各个关键频带内处理过后的输出信号重新组合,以便获得输出语音信号【刀。 j o h n s t o n 提出了一种感知模型,起先应用于语音编码中,后来被v i r a g 和t s o u k a l a s 应用于语音增强,取得了较好的语音增强效果。v i r a g 将听觉掩蔽模型和传统的功 率谱相减法相结合,提出了一种计算复杂度较低的语音增强方法 3 8 1 ;t s o u k a l a s 提出了可闻噪声谱概念,认为基于语音感知的语音增强准则应该是最大限度地消 除带噪语音中的可闻噪声【3 9 】:a z i r a n i 将噪声分为位于听觉掩蔽阀之下和听觉掩蔽 阀之上两种情况,提出了一种用出现的概率进行加权的估计方法 4 0 l ;b 凡亮等人 提出通过噪声被语音掩蔽的概率对噪声被掩蔽和未掩蔽两种情况下的估计进行加 权求和,取得了更好的增强效果1 4 1 j 。 听觉掩蔽效应的强弱和纯净语音特性相关,在语音增强的应用中,一般只能 用带噪语音来估计噪声掩蔽阀值,与实际结果误差很大。目前只是采用掩蔽偏移 量对其进行修正,还没有一种公认的最佳增强准则和处理方案。 2 3 5 基于语音模型的增强算法 语音的发声过程可以模型化为受激励源激励的一个线性时变滤波器,对不同 类型的语音为不同的激励源。如对于浊音,激励源是一个与基音周期相同的周期 性脉冲串;而对于清音激励源为高斯白噪声。通常认为声道模型是一个全极点滤 波器,滤波器参数可以通过线性预测分析得到,但若考虑到鼻腔的共鸣作用,采 用零极点模型更为合适。显然,如果能够知道激励参数和声道滤波器的参数,就 能利用语音生成模型合成得到“纯净”的语音,这种方法的关键在于如何从带噪 语音中准确地估计语音模型的参数( 包括激励参数和声道参数) 。 这种基于语音的生成模型可得到一系列语音增强方法,如时变参数维纳滤波 及卡尔曼滤波等方法。下面简要介绍一下卡尔曼滤波法。 卡尔曼滤波是一种基于语音全极点模型的语音增强方法,由语音的全极点模 型生成卡尔曼滤波算法中的状态转移矩阵。 卡尔曼滤波是在己知状态方程和噪声统计特性的条件下,能实现波形的最小 均方差意义下的最优滤波。它的优点是不需要假定噪声的平稳性,非平稳噪声也 能运用。其缺点是: l 、在f 矩阵中需要迭代估计模型参数,噪声强时误差大; 2 、语音生成模型中假定激励是白噪声源,这仅对清音成立而对浊音是不成立 的; 3 、计算量大: 4 、优化标准是时域的波形误差小,对语音信号而言此标准不够合理。 第2 章麦克风阵列语音增强模型及算法简介 1 5 这些缺点使卡尔曼滤波的应用受到很大的限制。 2 3 6 算法比较 固定波束形成方法结构简单,但是消噪性能也比较有限,对非相干噪声的消 除作用十分有限,不能自适应在干扰方向置零点,对目标d o a 的估计误差很敏感, 目前很少使用。子相关方法的优点是不用进行傅立叶变化,因此计算量很小,没 有多余的运算,它的主要问题是对噪声的估计问题。一旦噪声的估计出现误差, 那么将对后来的增强产生很大的影响。子空间方法对阵元的增益误差、位置误差 不敏感,对干扰有很好的消除性能,但是计算量较大,实时性较差,不适合时变 性较强的声学环境。基于听觉掩蔽的方法在进行语音增强时,不需要把噪声完全 抑制掉,只要使残留的噪声信号不被感知即可,所以在消噪的同时可以减少不必 要的语音失真。卡尔曼滤波法不需要假定噪声的平稳性,在非平稳的噪声下也可 以运用,但是其计算量大,需要迭代计算模型参数,在噪声强的时候,处理后的 误差很大等缺点都对卡尔曼滤波的发展构成很大的限制。对于这几种常见的麦克 风阵列语音增强的方法的优缺点见表2 1 。 表2 1 麦克风阵列语音增强方法的优缺点 算法和结构优点缺点 固定波束形结构简单,消除相干噪声消噪性能有限,对干扰不具有自适应 成算法性 当噪声的估计出现误差时,对增强有 子相关方法不用进行傅立叶变换,计算量很小很大的影响 子空问方法对阵元的增益误差、位置误差不敏计算量较大,实时性较差,不适合时 感,对_ t 扰有很好的消除性能变性较强的声学环境 卡尔曼滤波不需要假定噪声的平稳性,在非平计算量大,需要迭代计算模型参数, 法稳的噪声下也可以运用在噪声强的时候,处理后的误差很大 基于听觉掩不需要把噪声完全抑制掉,可以减只能用带噪语音来估计噪声掩蔽阀 蔽的方法少不必要的语音失真值,与实际结果误差很大 麦克风阵列语音增强算法有很多种,但是经典的g s c 算法结构较为简单,对 相干噪声消除效果很理想,对时变的声学环境有较好的消噪性能,所以本文选取 g s c 算法作为改进的基础算法。 2 4 小结 本章对语音增强的基础知识和现有的增强算法进行了研究。第一部分在研究 了语音特性、入耳感知特性以及噪声特点的基础上,得出了许多对语音增强有益 的结论;第二部分则介绍了五种常用的语音增强方法,分别说明了它们的优点, 1 6 麦克风阵列语音增强的算法研究 以及存在的主要问题,为进一步的研究提供思路。 第3 章麦克风阵列系统中的时延估计 1 7 第3 章麦克风阵列系统中的时延估计 3 1 时延估计的主要方法 时延估计对于各种基于波束形成的麦克风阵列语音增强系统都是一个基本问 题和重要的环节。在麦克风声源定位系统中,一种方法就是利用各麦克风接收信 号的到达时间的延迟来确定声源的距离和方位。由于麦克风的位置不同并且房间 里反射的存在,各个麦克风接受的信号首先必须经过时间延迟补偿,使其保持同 步,即保持麦克风的注视方向和说话者的保持一致,这样才能为后续的增强处理 做好准备。因此,可以说时延估计的准确性是关系到语音增强系统性能好坏的主 要因素。在实际的环境当中,由于空间有限,混响是难以克服的,在有些情况下, 各麦克风的干扰噪声彼此也不是完全不相关的,再加上声源的移动,这些都给时 延估计带来了困难。 到目前为止,已经有很多方法可以用来对麦克风阵列的接收信号做时延估计 和补偿,但是由于算法复杂度的制约,以及现实需求的应用,在这里介绍发展相 对成熟并且应用比较广泛的三种时延估计方法,分别是自适应时延估计法、广义 互相关时延估计法以及基于瞬时相干函数的基本互相关方法。 基本互相关法和广义互相关法的原理是基于相关分析,即比较两个函数或信 号在时域的相似程度,通过查找互相关函数的峰值位置进而确定时延。广义互相 关法是为了减弱或消除噪声对基本互相关时延估计法的影响而产生和发展起来 的,其实是对互相关函数在频域内进行加权,然后再变换到时域的做法,以此来 增强信号中信噪比较高的频率成分,而抑制噪声功率,锐化了互相干函数的峰值, 更有利于进行准确的时延估计。基本互相干函数法就是当加权系数等于1 时的广 义互相干法。这类基于相干分析的方法在较高的信噪比和较小的混响条件下,可 以给出比较准确的估计,但是当混响增大或者信噪比小时,时延估计的效果会变 差。 自适应时延估计方法是基于自适应滤波器和自适应信号处理技术。自适应滤 波器是在某种最优准则的控制下,自动调节自身结构的系数来实现最优处理的。 因此自适应时延估计系统和方法不依赖于有关信号和噪声的先验知识,而且可以 适用于信号统计特性变化的时变环境下。由于上述的优点,使得这种方法得到普 遍的重视和应用。自适应时延估计方法可分为时域方法和频域方法,l m s 算法是 较为常用的一种。 那么,除了上述的三种主要的方法之外,时延估计还有很多其它的方法,如 1 8 麦克风阵列语音增强的算法研究 基于双谱估计的方法和基于希尔伯特变换的方法等等,但都由于算法的时间或空 间复杂度,没有很广泛的应用。在应用当中,根据实际的环境,寻找到一种有效 的时延估计方法是在研究和确定语音增强算法的实验方案过程中的主要难点和至 关重要的一步。 下面,对常用的三种时延估计方法做详细的介绍。 3 2 自适应时延估计法 自适应滤波技术是利用一个f i r 滤波器对输入信号进行滤波,通过调整滤波 器的系数,使得输出信号逼近理想信号的方法。最小均方自适应滤波时延估计法 的原理框图如图3 1 所示。自适应滤波器的原始信号和参考信号分别是一对麦克 风所接收的两路信号x ,( 刀) 和x ,( 玎) ,用l m s 算法使得x f ( 刀) 逼近石,( 刀) ,通过调整 滤波器系数,使得两者时间的均方误差最小。滤波系数在时延处为单位值,在其 它地方为0 。通过对滤波器系数的提取和处理,即可获得两信号的时延估计。用 公式表示为: j 巳 薯( 刀) = h ( m ) x y ( n 一聊) + p ( 功 ( 3 1 ) 图3 1l m s 自适应滤波时延估计方法的原理框图 3 3 广义互相关时延估计方法 利用互相关函数米计算实验是一种最基本的时延估计方法,它的思想就是通 过计算不同麦克风拾取的语音信号问的互相关函数来比较它们的相似程度。当互 相关函数的自变量取值为两路信号之间的时间延迟时,函数的值最大。于是,只 要确定互相关函数峰值的位置,就能得到这两路信号的时延估计值。 如果麦克风阵列的理想模型只考虑环境噪声,而不考虑多径反射的干扰,则 麦克风阵列中的第f 个麦克风接收到的信号: 第3 章麦克风阵列系统巾的时延估计 1 9 x f ( f ) = 口j s ( t f f ) + 拧i ( ,) ( 3 - 2 ) 于是,两路信号x ,( n ) $ r lx ,( 刀) 的互相关函数为: r ( r ) = e k ,( t ) x s ( ,+ f ) j = 尺。( f d 。) + r 埘l ( f q ) + r 叻( f ) + r 吩( f ) ( 3 - 3 ) 式中或为麦克风f 和麦克k j 之间的时间延迟。假设s ( t ) 、刀,( f ) 和刀,( ,) 三者互不 相关,即 p 一岛) = 如,( f ) = r 帆( f ) = 0 ( 3 _ 4 ) 那么,式( 3 3 ) 可以简化为信号s ( f ) 的自相关 ( f ) = r 。( f d f ,) ( 3 - 5 ) 由自相关函数的性质可知,当r 一口,= 0 时,r 。( f d 玎) 达到最大值。因此, 可以选择此时的f 值d 。作为时间延迟d 。的估计。 上述方法思路清晰,简单明确,被称为基本互相关方法。但是在推导中假定 的信号与噪声以及噪声与噪声之间的不相关性,在一定的环境下不会得到严格的 满足;同时,在实际的应用当中,不可能得到数学意义上的统计平均,而只能用 有限的时间平均来代替统计平均,即用相关函数的估计值来代替理论值。因此为 了削弱或消除以上两方面对于基本互相关时延估计法的影响,产生了各种不同的 加权方法,称为广义互相关法。 广义互相关法是为了减弱或消除噪声对基本互相关实验估计法的影响而产生 和发展起来的,其实是对互相关函数在频域内进行加权,然后再变换到时域的做 法,以此来增强信号中信噪比较高的频率成分,而抑制噪声功率,锐化了互相关 函数峰值,更有利于进行准确的时延估计。 两麦克风接受的信号的广义互相关函数定义为: r 盯( f ) = i ( c o ) x f ( 缈) x ;( c o ) e - j a x d o ( 3 - 6 ) o 式中x ,( 缈) 和x ,( c o ) 分别是麦克风接受信号0 ) 和x ,( 刀) 的离散傅里叶变换, ( c o ) 为广义互相关的加权函数。针对不同的实际环境,可以选择不同的加权函 数,使得互相关函数尺,( f ) 具有比较尖锐的峰值。墨,( f ) 峰值处的自变量的值即为 两个麦克风的时延。但是在低信噪比和强混响的环境下,这种分析估计的方法往 往受到很大的干扰,而得不到稳定准确的估值,因此对于加权函数的选择是一个 关键和难点。常用的广义互相关加权函数有下列几个: 基本互相关 ( c o ) = 1 ( 3 - 7 ) 2 0 麦克风阵列语音增强的算法研究 r 。t h 处理器( 功) 2 丽i 平滑相干变换( 功) 2 了嚣i 蟊丽l 最大似然加权c 缈,2 f 觞 互蟀黼权删2 网1 在式( 3 8 ) x - ( 3 1 1 ) 中,g ) 和g x j 勺( 国) 分别表示的是接收信号( 疗) 和 x ( ”) 的自功率谱,g ,, x i ( 缈) 表示的是x i ( 刀) 和x j ( 刀) 的互功率谱,i y ( ) 1 2 为两个麦 克风接收信号的模平方相干函数,定义为: 队酬2 = 繇 ( 3 - 1 2 ) 在上面几个加权系数中,沙,( c o ) = l 表示基本相关法的加权系数,最大似然加 权的广义互相关时延估计能达到克拉美劳下界。但是由于实际应用中一般不能预 先得到有关信号或者是噪声的先验知识,只能用其估计值来代替加权函数的理论 值。因此,实际的性能和理论性能会有较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论