




已阅读5页,还剩52页未读, 继续免费阅读
(通信与信息系统专业论文)麦克风阵列语音增强系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 通常情况下,语音难以避免的会受到来自周围环境的干扰。噪声降低了语音的 信噪比和可懂度,严重时将导致语音处理系统无法正常工作。语音增强作为前置 处理方案是抑制干扰的有效途径。由于传统的单麦克风技术提供的信息仅限于时 频信息,因此其降噪性能并不理想。而麦克风阵列可以提供空域和时频信息,能 够更好的解决该问题。 麦克风阵列语音增强是近些年来研究的热门课题。麦克风阵列语音增强涉及时 延估计( 啊m ed e l a ye s t i m a t i o n ) 和波束形成( b e 扪f o 加i n g ) 两项关键技术。本文 着重对这两种技术进行了研究。在时延估计方面,研究了相位变换加权的广义互 相关时延估计算法性能,给出了算法在2 0 d b l o d b 的信噪比下的性能分析;利用 麦克风阵列语音数据库分析了算法在实际情况下的性能;对时延估计算法在处理 数字信号时的精度问题进行了分析,证明了整数倍时延估计的实用性。波束形成 方面,利用宽带频域波束形成器对固定波束形成器进行改进,实现了在语音频段 内的恒定束宽波束形成器,解决了固定波束形成器对低频干扰消噪性能不佳的问 题。最后本文给出了一种可行的麦克风阵列语音增强系统的设计,对系统的软硬 件实现作了详细的论述,对系统实现过程中遇到的问题和解决方法进行行了讨论。 关键词:语音增强麦克风阵列时延估计波束形成 a b s t r a c t hm o s tc 髂e s ,s p c e c hi si n e “t a b l yc o 删p t e da c o u s t i c a l l yb y 锄b i e i l tn o i t h e n o i s ed e g r a d e st l l es p e c c hs n ra 1 1 di t si m e l l i g i b i l i 劬w h i c ha 彘c t st l l ep e 面册锄c eo f m o s ts p c hp r o c e s s i n gs y s t e ms i 驴i f i c a i l t l y 卸d 托s u l t si nas y s t e ma b n o n l l i t ya lt h e w o r s tt i m e t 忙s p e e c he i l l 砌c e m e n tt e c h n i q u ei sa ne f r e c t i v ew a yt 0s u p p r e s st l l 忙 i r l t e r f b r e n c c d u et ot h ei 0 皿a t i o nf 如ms i n g l e1 l l i c r o p h o n es y s t e mi sl i m i t e dt o t 锄p o r a 脚e c t r a l ,t l i ep c r f o m l a n c ei sn o ts a _ t i s f k t o r y t bs o l v et 1 1 i sp r o b l e m ,s p a t i a la n d t e m p o r a l s p e c n 锄i n f o n i l a t i o nc a 【ib ej o i n t l ye x p l o i t e db yu s i n gm i c r o p h o n e s p e e c he i l l l 锄c e m e n ts y s t 锄b a s e do nm j c r o p h o n ea n 掣i so n eo ft l l em o s tp o p u l a r r e s e a r c ht o p i c si nr e c e n ty e a r s t h es p e e c he 1 1 1 1 a n c e m e n ts y s t e mb 解e do nm i c r o p h o n e 锄yi n v o l v e si nm ok e yt e c l l i l i q u e s :t i m ed e l a ye s t i m a t i o na i l db e 锄f o m 虹n g t h e w 0 咄i nl h i sp a p e rf o c u s e s0 nt 1 1 e s e 咖t e c h n i q u e s i nt 1 1 e 船p e c to ft i m ed e l a y c s t i m a t i o l l ,t l l ep e r f o n a i l c eo fp i l a s et r a n s f o 咖w e i 曲t e dg e n e m l i z e dc r o s s c o r r e l a t i o n m e t h o di sa n a l y z e d t h ep e r f b 咖a i l c ea n a l y s i si sg i v e nl u l d e 卜2 0 d b 1 0 d bs n r 1 k m i c r o p h o n c 棚yd a t a b 船ei su s e dt o 锄l y z ep e r f b 硼a n c ei i la c t u a lc i r c l 埘s 协n c e s t h c p r e c i s i o no fa l g o r i t h mi nd i g i t a ls i g n a lp r o c e s s i n gi sa l l a l y z e d ;i ti sp r o v o dl l l a tm c a l g o r i m mi sp 阳c t i c a l i 够h lt l l e 嬲p e c to fb e 锄f o m i n g ,d e l a ya n ds 姗b e 锄f o r i l l e ri s i m p r o v e d t oa c l l i e v ec o l l s t a l l tb e 锄讪d t hi l lv o i c eb a l l d n l ep e r f o 舢c eo f s u p p r c s s i r 培l o 、v - 丹e q u e n c yi n t e r f b r e n c ei si m p r o v e d f i n a l l y t h i sp a p e rp r e s e n t sa v i a b l e m i c r o p h o n ea r r a ys p e e c he 1 1 1 1 a n c e m e n ts y s t e md e s i g n t h ei m p l e m e n t a t i o n o ft l l e s o f t w a r ea 1 1 d1 1 a r d w a r eo f t l l es ”t c mi sd e a l tw i t l li nd e t a i l k e y w o r d s :s p e e c he h a n c e m e n tl i c r o p h o n ea r r a y t i m ed e i a y 髓t j m a t i o b e a m f o r m j n g 独创性( 或创新性) 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:乏轻 日期: 堡:兰:笪 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名:垄熟 开期:z :! :兰! 导师签名:臣丝壁 同期: 理:! :丛 第一章绪论 第一章绪论 语音是人类进行交流的主要工具,是人与人、人与机器之阳j 进行沟通的重要桥 梁。然而,人们在语音通信过程中不可避免地会受到来自周围环境和传输媒介引 入的噪声、通信设备内部电噪声、乃至其他讲话者的干扰。这些干扰最终将使接 收者接收到的语音不再是纯净的原始语音,而是被噪声污染过的带噪语音。例如, 汽车、街道、机场中的电话,常受到强背景噪声的干扰,严重影响通话质量。而 且环境噪声的污染使得许多语音处理系统的性能急剧恶化。另外在语音识别系统、 语音编码系统中,由于这些系统在设计时一般针对的是纯净语音,当这些系统对 带噪语音进行处理的时候将导致系统性能的急剧恶化,甚至不能正常工作。在实 际应用中,这些系统都在其前端加上语音增强系统作为预处理器,以提高其抗干 扰能力,维持其系统性能。语音增强技术广泛应用在各种语音信号处理领域中。 所谓语音增强就是对带噪语音进行处理,以改善语音质量,提高语音的清晰 度、可懂度和舒适度,使人易于接受或提高语音处理系统的性能。所以语音增强 的目标对收听人而言主要是减少疲劳,改善语音质量,提高语音可懂度:对语音 处理系统而言则主要是提高系统的识别率和抗干扰能力。 1 1 语音增强的研究历史 语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而, 由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在此 情况下,语音增强的主要目的就是通过对带噪语音进行处理,以消除背景噪声, 改善语音质量,提高语音的清晰度、可懂度和舒适度,提高语音处理系统的性能。 这些目的往往不能兼得,通常要根据语音处理系统的具体需要而定。 语音增强是语音信号处理领域中一个重要的基本问题。在实际需求的推动下, 这个研究课题早在2 0 世纪6 0 年代即引起人们的注意:随着数字信号处理理论的 发展,2 0 世纪7 0 年代取得了一些基础性成果,并使语音增强发展成为语音处理领 域的一个重要分支、8 0 年代至9 0 年代初这十几年间,各种语音增强方法不断提出, 进而奠定了语音增强理论的基础,并使之逐渐走向成熟。近些年来随着v l s i 技术 的发展和高速d s p 芯片的出现,各种语音增强方法更是不断涌现并走向实用。 根据接收语音信号时所用麦克风数目的不同,语音增强系统可以分为单通道 语音增强系统和多通道( 麦克阵列) 语音增强系统这两种类型。单通道语音增强系统 只需一路语音信号,因此算法复杂性较小,硬件要求低。但是在车载电话、视频 麦克风阵列语音增强系统设计与实现 会议系统等场合中,不仅存在环境噪声,而且还有回声和混响问题,这时单通道 语音增强系统就显得无能为力。为解决该问题,人们提出了麦克阵列语音增强方 法。麦克阵列具有空间选择性,它能有效抑制除所需语音信号方向外的干扰噪声, 因此可以取得明显的消噪效果。进入9 0 年代以来,基于麦克阵列的语音增强算法 正逐渐成为一个研究热点。 1 2 语音和噪声的特性 语音处理的基础是对语音和噪声特性的了解和分析。下面分别讨论语音及噪 声的主要特点l lj 。 1 2 1 语音的特性 语音是时变的、非平稳的随机过程。人类发音系统的生理结构的变化速度是 有一定限度的,在一段时间内( 1 0 3 0 m s ) ,人的声带和声道形状是相对稳定的,可 以认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中,可 利用短时谱的这种平稳性。 语音可分为清音和浊音两大类。浊音在时域上呈现出明显的周期性;在频域 上有共振峰结构,而且能量大部分集中在较低频段内。而清音段没有明显的时域 和频域特征,类似于白噪声。语音信号可以用统计分析特性来描述。由于语音是 非平稳的随机过程,所以长时间的时域统计特性在语音增强的研究中意义不大。 语音的短时谱幅度的统计特性是时变的,只有当帧长趋于无穷大时,才能近似认 为其具有高斯分布。高斯分布模型是根据中心极限定理得到的。将高斯模型应用 于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中,可将这种假设 作为分析的前提。 1 2 2 噪声特性 噪声来源于实际的应用环境,因而其特性变化无穷。噪声可以是加性的,也 可以是非加性的。考虑到加性噪声更普遍且易于分析问题,并且对于非加性噪声, 有些可以通过变换转变为加性噪声,例如,乘积性噪声或卷积性噪声可以通过同 态变换而成为加性噪声。本文仅讨论加性噪声。加性噪声大致可分为周期性噪声、 冲激噪声、宽带噪声和语音干扰。 周期性噪声:周期性噪声的特点是有许多离散的窄谱峰,它往往来源于发动 机等周期运转的机械。如5 0 或6 0 h z 交流声会引起周期性噪声。周期性噪声引起 的问题可以通过功率谱发现,并通过滤波或变换技术将其去掉。 冲激噪声:冲激噪声表现为时域波形中突然出现的窄脉冲,它通常是放电的 结果。消除这种噪声,可以根据带噪语音信号幅度的平均值确定阐值。当信号幅 第一章绪论 度超过这一阐值时,判为冲激噪声,然后进行消除。 宽带噪声:宽带噪声的来源很多,热噪声、气流( 如风、呼吸等) 噪声及各种随 机噪声源,量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域 上完全重叠,因而消除它最为困难。这种噪声只有在语音间歇期才单独存在。对 于平稳的宽带噪声,通常可以认为是高斯白噪声。不具有白色频谱的噪声,可以 先进行白化处理。对于非平稳的宽带噪声,情况就更为复杂一些。 同声道语音干扰:人耳可以在两人以上的讲话环境中分辨出所需要的声音, 这种分辨能力是人体内部语音理解机理具有的一种感知能力。但当多个语音叠加 在一起,在单信道中传输时,双耳信号因合并而消失。 背景噪声对发音的影响:噪声破坏了语音信号原有的声学特征和模型参数, 模糊了不同语音之间的差别,使语音质量下降,可懂度降低。强噪声不仅会使人 产生听觉疲劳,还会对讲话人产生影响,使人改变在安静环境中的发音方式,从 而改变了语音的特征参数。 1 2 3 带噪语音模型 噪声来源取决于实际的应用环境,因而噪声特性可以说是多样的。噪声可以 是加性的,也可以是非加性的。对于非加性噪声,有些可以通过变换而转变为加 性噪声。考虑到加性噪声更普遍且易于分析,本文主要研究加性噪声干扰。 带噪语音模型如图1 1 所示。图中工( ) 是带噪声的语音信号,s ( 疗) 是纯净的语 音信号,( 疗) 为干扰信号。 图1 1 带噪语音模型 x ( 门) = s ( 门) + ,( 胛) 1 3 麦克风阵列语音增强概述 作为传统的语音拾取工具,麦克风广泛地应用于各种语音通信场合,如大型会议 室、新闻现场、远程电视会议、语音聊天、语音编码、语音识别以及完成语音通 信的消费类电子产品等等。目前麦克风的使用方式仍然是以使用单个、孤立的麦 克风为主。 在实际环境中,单个麦克风的拾音范围很有限。在拾音范围内的任何声音,包括 麦克风阵列语音增强系统设计与实现 不希望的噪音都会被接收。为了获得较好的拾音效果,在声源和传声器位置相对 固定的前提下,利用放置在距离声源比较近的高性能、高方向性单传声器系统, 可以获得高质量的声源信号。但是,一旦声源位置改变,使其位于传声器的接收 方向之外,就会引入大量噪声,此时,必须人为地移动传声器,否则会导致拾取 的声源信号质量下降。在实际应用中,由于声源( 说话人) 可能在室内小范围内走动, 会导致单个麦克风接收的信号信噪比降低,从而导致语音通信质量严重恶化,使 得感兴趣的说话人的声音难以听清。由于单路麦克风信号可利用的信息仅限于时, 频信息,因此其干扰抑制效果并不理想。 在语音通信中,可以使用阵列麦克风来弥补单个孤立麦克风的上述缺陷。所谓阵 列麦克风,就是使用多个麦克风构成一个麦克风阵列,在时域和频域的基础上增 加一个空间域,对接收到的来自空间不同方向的信号进行空时处理,使麦克风阵 列具有去噪、声源定位和跟踪功能,从而提高嘈杂背景下的语音通信质量。 i 3 1 麦克风阵列的特点 麦克风阵列系统较传统的单麦克风系统具有许多优点,其优越性表现在【2 】: l 、麦克风阵列系统具有空间选择特性,可以用波束形成的方法将最大接收方 向“瞄准”期望的信号,可以提供高质量的信号采集,同时抑制噪声、混响以及 其他说话人的话音干扰。因此,较之高方向性的单麦克风系统,麦克风阵列系统 可以取得更加明显的干扰抑制效果。 2 、高方向性的麦克风系统通常只能拾取一路信号,且一般不能随声源一起运 动,这就限制了它的使用范围。说话人的运动,甚至头部和身体的轻微晃动,都 会导致单麦克风系统接收信号的质量下降。麦克风阵列系统不需要人为地移动它 来改变其波束方向。这些特性使得传声器阵列系统可以用于获取移动声源信号, 也可以应用在一些特殊场合。 1 3 2 麦克风阵列的研究历史 阵列信号处理早已广泛的应用于雷达、声纳、医学、通讯和航空航天等诸多 领域中。在国际上,将麦克风阵列技术用于语音信号处理的研究源于1 9 7 0 年代。 1 9 7 6 年,g a b r i e j 将雷达和声纳中的自适应波束形成技术直接应用于简单的声音获 取问题【3 】。最早的麦克风阵列系统的硬件实现可以追溯到1 9 8 5 年,a t & t 贝尔实 验室曾经建造了一个使用模拟信号处理技术的智能麦克风系统f 4 】,它使用了超过了 4 0 0 个麦克风。该系统的目的是为了研究在大房问内的声源位置追踪,首次用电子 控制的方式实现了声源信号的获取。它采用简单的波束形成方法,通过计算预先 设定位置的能量,找到具有最大能量的方向。但由于当时的技术条件所限,这个 系统并不能实时的工作。同年,f l a n a g a n 等人又将二维传声器阵列用于大型房间内 第一章绪论 的声音拾取【5 1 ,以抑制混响和噪声对声源信号的影响。由于当时技术条件的限制, 使得该算法还不能够借助于数字信号处理技术以数字的方式实现,而主要采用了 模拟器件实现。1 9 9 1 年,k - e l e r i n 锄借助于数字信号处理技术,用全数字的方式实 现了这一算法【6 】,进一步改善了算法的性能,降低了硬件成本,提高了系统的灵活 性。1 9 9 9 年,美国布朗大学( b r o w u n i v e r s 时) 的人机系统工程实验室( l a b o r a t o r y f o re n g i n e e r i n gm a n ,m a c h i n es y s t e m s ) 计划建立一个由5 1 2 个麦克风组成的庞大的 系统【7 l 该系统使用了9 6 块a n a l o gd e v i c e 公司的a d s p 2 1 0 2 0 数字信号处理器进 行语音信号的处理。采用s u l l 公司的工作站来控制整个系统的运行。该系统是作 为一个语音处理的平台来建立的,研究的方向包括语音增强、语音识别等。近些 年来机器人技术的发展也促进了麦克风阵列技术的实际应用。日本东京大学的研 究人员在2 0 0 5 年建立了一个由在一个平面上排列成三个环状的麦克风阵列系统 【8 】,该系统由1 2 8 个独立的麦克风组成。它安装在一个机器人上,作为机器人的听 觉系统。由于机器人的语音识别系统需要较高的语音质量,并且要能够判断出语 音的来向,因此该系统主要的功能是对声源定位,并且使用了延迟求和算法来实 现语音增强。 国内的麦克风阵列研究起步较晚,而且多为算法理论的研究,对于实际的系 统硬件实现研究的不多。2 0 0 5 年中科院声学所魏建强的博士学位论文中【9 j ,介绍 了一个麦克风阵列语音增强系统的实现,该系统使用了美国a d r d v a r k 公司生产的 d i r c c tp r o0 1 0 数字音频输入输出接口作语音采集,该采集设备包含8 个声道,可 以以2 4 b i 们8 k h z 的精度将音频信号采集到计算机上。该系统的语音处理在p c 机 上完成。同年,成都电子科技大学的林静然在他的硕士毕业论文中提出了另一个 硬件实现系统【1 0 】。该系统由专门制作的电路构成,使用了1 2 个麦克风和1 个浮点 d s p 处理器。并利用软件实现了对移动的说话人“跟踪”的能力。 1 3 3 麦克风阵列语音增强算法概述 麦克风阵列语音增强,简单的说就是利用麦克风阵列接收的到信号定位出声源 的空间方位,并以此位置信息为参量使阵列的最大接收方向对准我们感兴趣的声 源。因此,麦克风阵列语音增强由两项关键的技术组成:声源定位技术和波束形 成技术。 使用较多的麦克风阵列声源定位方法主要是基于信号到达时间差( n m e d i 仃e r e n c eo f a r r i v a l ,简称t d o a ) 的定位技术。其基本原理是根据到信号到达不 同的麦克风的时延求出信号的来向角,在这里常用的时延估计方法有两种:广义 互相关方法( g e n e r a l i z e dc r o s sc o 玎e l 砒i o n ,简称g c c ) 和最小均方( l e a s tm e 锄 s q u a r e ,简称l m s ) 自适应时延估计方法。 波束形成是整个麦克风阵列语音增强系统的核心,它利用抑制期望方向之外的 6 麦克风阵列语音增强系统设计与实现 干扰信号的方法实现语音增强。波束形成的方法包括固定波束形成( 又称为延迟 求和波束形成) 、自适应波束形成和具有后置维纳滤波器的波束行成三种。本 文将讨论前两种波束形成技术。 1 4 本论文主要工作 本文将在麦克风阵列语音增强算法的两个关键技术:时延估计和波束形成算法 进行分析和研究。并且提出可行的麦克风阵列语音增强系统硬件及软件系统实现 方案。 第二章重点讨论时延估计技术。分析了广义互相关时延估计算法的原理,重点 讨论了采用相位变换加权的广义互相关时延估计算法。在一2 0 d 1 0 d b 的非相干噪 声场下仿真分析了该时延估计算法的性能。利用麦克风阵列语音数据库仿真了实 际情况下的算法性能,并分析了时延估计在处理数字信号时的精度问题。 第三章主要讨论波束形成器算法。在分析了延迟求和波束行成器实际消噪 性能的基础上,提出了使用宽带频域波束形成器实现具有恒定束宽的波束形成器。 然后结合麦克风阵列数据库对波束形成器的消噪性能进行了仿真分析。 第四章介绍了硬件系统的实现方案,包括系统的硬件框图、数模转换器和模数 转换器以及d s p 外围芯片的选择。介绍了d s p 和a d c 以及d a c 的数据接口的连 接方式。 第五章详细介绍了系统软件的实现方案,包括系统的底层驱动程序,d s p 的 b o o t l o a d e r 设计和语音增强算法软件的实现。 第六章对全文做出总结,进一步提出了麦克风阵列语音增强系统中存在的有待 解决和需要进一步研究的问题。 第二章麦克风阵列时延估计 7 第二章麦克风阵列时延估计 在各种基于麦克阵列的语音处理系统中,时日j 延迟估计都是一个基本问题。 例如,利用麦克阵列对讲话者进行定位,其基本思想就是根据估计出的各通道信 号之间的时间延迟来确定目标的方位和距离。在麦克阵列语音增强系统中,使各 通道中的语音信号保持同步是进行后继处理的一个前提条件。 所谓时间延迟是指传感器阵列中不同传感器接收到的同源信号之间由于信号 传输距离不同而引起的时间差。时间延迟估计是指利用参数估计和信号处理的理 论和方法,对上述时间延迟进行估计和测定,并由此进一步地做其它处理或确定 有关参数,例如信源目标的距离、方位、运动方向和速度等。 根据目标信源和检测系统的不同,时间延迟估计可以分为以下两种类型:主 动时间延迟估计和被动时间延迟估计【l “。雷达或主动声纳系统是主动时间延迟估 计的典型例子。这些系统发出电磁波或声波搜寻目标,当这些信号遇到目标后, 其中一部分信号反射回雷达或声纳的接收系统。根据信号发出时刻与返回时刻的 时间差,可以确定信号目标的方位、距离和速度等参量。与主动时间延迟估计不 同,被动时间延迟估计系统不主动发出信号,而是通过接收目标发出的信号来对 时问延迟进行估计。在这里,所研究的麦克阵列系统中的时间延迟估计就是典型 的被动时间延迟估计。 时间延迟是表征信号的一个基本参量。对时间延迟及与其有关的参量进行估 计,一直是信号处理领域中一个十分活跃的研究课题。时间延迟估计所要解决的 基本问题是:准确、迅速地估计和测定阵列中传感器与传感器接收到的同源信号之 间的时间延迟。由于在接收现场可能存在各种噪声和干扰,接收到的信号往往淹 没于噪声和干扰之中,因此,对带噪信号进行时问延迟估计,首先要排除噪声和 干扰的影响,提高接收信号的信噪比。 在麦克阵列系统中,讲话者往往是运动的。讲话者与麦克风之间的相对运动 必然引起时间延迟随时间而变化,这就要求时间延迟估计方法应该具有一定的跟 踪能力,能随目标运动而调整自身的参数,不断地更新时间延迟的估计值。 2 1 麦克风阵列的时延模型 麦克风阵列是一个典型的传感器阵列,它由一系列按照一定方式摆放的麦克 风组成。在这里为了分析上的方便,需要对麦克风阵列作一定的抽象。假设在三 维空间中放置了一个线形阵列,这个阵列由位于同一条直线上的有相同间隔的一 8 麦克风阵列语音增强系统设计与实现 系列阵元组成。这样的阵列称为均匀线性阵列( u m f o 咖l i i l e 缸枷,简称u l a ) , u l a 阵列的示意图如图2 1 所示。图中的角为入射信号和阵列法线的夹角,我们 将此角度称为信号的入射角。阵元之间的间隔为d 。 入射信号 卜了1 图2 1 麦克风阵列信号模型 为了表示上的方便,首先对对阵列所接受的信号作两个假设。首先,假设信 号从一个点源产生:即信号源的大小远小于源到接受信号的传感器之间距离的大 小。其次,假定源位于远场,即源距离传感器阵列的距离非常远,以至于球面波 可以合理的近似为平面波,如图2 2 所示。在麦克风阵列中,信号源来自于说话人 的嘴,当说话人距离阵列较远时,这两个假设在大多数情况下都是正确的。 近场 远场 源 、 ) ) ) , 图2 2 远场信号模型 当平面波入射到u l a 上,如图2 1 所示,由于各个传感器和信号源之间的距 离不同,信号传播的路径长度就会不同,从而使信号到达每个传感器的时间也是 不同的,这样就造成了各个传感器接收到的信号之间存在一定的时延。当信号源 位于传感器阵列的法线上时,即信号的来向角= o 。时,波阵面于同一时间到达各 个感器。而信号源和传感器位于同一条直线上时,此时信号的来向角= 9 0 。,波 阵面将会以最大的时延依次到达各个传感器。最大的时延是受物理条件限制的, 如果事先知道这些物理限制条件。将会对设计时延估计器有所帮助。 选择测量所有传感器和第一个传感器之间的时延,即认为f l ( 矿) = o 。对于以入 射角为一到达u l a 的信号来说,由于所有的阵元都有相同的间隔,在任意两个连 续的传感器之间,空间信号在传播路径上有d s m 的差别,它导致了一个时间延迟: 一笙三垩耋塞垦堕型堕笙笪生 : f ( ) :型 c ( 2 - 1 ) 这里,c 为信号在媒介中的传播速率。那么,阵列中第脚个阵元和第一个阵元之间 的时延为: r 。( 妒) :( j ,l 1 ) 坐唑 c ( 2 - 2 ) 任意选取阵列中的两个麦克风,假设这两个麦克风接收到的信号为砌) 和 y ( 聆) ,则这两路信号可以表示为: j ( 哟= s ( n ) + 屹( 甩) ( 2 3 ) y ) = s ( 月一r ) + w ,( ”)( 2 4 ) 式中 表示采样点数,j ( h ) 是阵列接收到的有用信号,u ( 疗) 和k ( 仃) 是两个传感 器接收到的噪声,丁是两个传感器接收到的有用信号之间的时延。现在的目标就是 采用一种方法从观测到的信号x ( 胛) 和y ( ”) 中估计出时延r ,然后利用式( 2 1 ) 求出 信号的来向角巧。 2 2 广义互相关时延估计 两个传感器接收到的信号x ( h ) 和j ,( ”) 的互相关函数r 。( f ) 可以表示为: 如,( f ) = 硌( 疗沙m r ) 】 ( 2 5 ) 将式( 2 3 ) 和式( 2 - 4 ) 带入式( 2 5 ) 可以得到: 如p 卜:2 乎东:二身e m ( 舻叫刁吖) 峨( 叫( :- 6 ) + 占h ( 即) 一f ) j u o 因为嵋( 玎) 和b ) 被假定为互不相关的噪声,j ( 九) 和以”) 之间也是相互无关的随 机信号,因此式( 2 6 ) 可以写为: ( f ) = e b ( 玎) s ( ”一,一f ) 】= p r )( 2 7 ) 式中,足盯是有用信号s ( 疗) 的自相关函数。由相关函数的性质,当f :丁时,足。( r ) 取得最大值a 因此,求得r ,( r ) 的最大值对应的f 就是两信号z ( 行) 和y ( n ) 之问的时 延r 。 由互相关函数和互功率谱函数之间的关系可得: r 叫( r ) = 上二g 掣( 功) p 。耵d 国 ( 2 8 ) 式中g ,( 缈) 是两个阵元信号z ( 阼) 和y ( 栉) 之问的互功率谱。 o 麦克风阵列语音增强系统设计与实现 由于噪声的干扰和语音信号的短时处理,r ,( f ) 的峰值并不明显,这就降低了 时延估计的精度。为了锐化疋,( f ) 的峰值,可以根据信号和噪声的先验知识,在频 域内给互功率谱g 0 ( ) 乘上一定的加权来抑制噪声和混响信号的干扰,然后再反 变换到时域,得到锐化了的互相关函数,此时得到的互相关函数就是广义互函数 ( g e n e r a l i z c dc r o s s c o i t e l a t i o n ,简称g c c ) ,即: r 喜( f ) = 上二y 可( 山) g 砂( 弦。盯d m ( 2 - 9 ) 在实际情况中,针对不同的噪声和混响情况,可以选择不同的加权函数( ) , 使卫。( f ) 具有比较尖锐的峰值。 2 2 1 最大似然加权 最大似然加权函数( m a x i m 唧l i k e l i h 0 0 d ,简写m l ) 为【1 2 l : 吲妒热 仁柳 式中l ( 国) 为信号x ( 珂) 和y ( 珂) 的相干函数( c o h e r e l l c e f u l l c t i o n ) ,即 弘,= 赫 p 1 1 ) 式中的g 。( 缈) 和g 。( m ) 分别为信号x ( 门) 和y ( n ) 的功率谱。最大似然加权函数实质 是一个频域信噪比函数,它对信噪比大的频段给予大的权值,而对于对信噪比小 的频段给予小权值,从而比较好的抑制了噪声的影响,它对抑制不相关的平稳高 斯信号和噪声是有效的【1 3 】。 最大似然加权函数只考虑了噪声的影响。如果有混响的影响,则会极大地降低 时间延迟估计的精度”4 】。 2 2 2 相位变换加权 相位变换( p h a t r a | 1 s f o 邶,简称p h a t ) 加权函数为: 蹦们2 肉 q 。1 2 从式( 2 1 2 ) 可以看出,相位变换加权函数实质上是一个白化滤波器,使信号的互功 率谱变得平坦,从而锐化广义互相关函数。由式( 2 6 ) 可得 g 0 ( 缈) = g 。( 脚弦1 ” ( 2 1 3 ) 通过将p h a t 加权函数。( 国) 带入式( 2 9 ) 可得: r 三( f ) = 万( f 一丁)( 2 1 4 ) 第二章麦克风阵列时延估计 上式表明p a t h 加权函数起到了很好的锐化作用,积分的结果是一个j 函数: j ( f r ) ,其峰值在f = r 处。为了计算互功率谱,首先对输入信号x ( n ) 和j ,( ”) 加 窗,并通过其傅立叶变换计算它们的频谱j ( ) 和矿( 缈) ,那么互功率谱可以表示为: i 瓦( 缈) = x ( ) l ,( m ) ( 2 一1 5 ) 归一化的互功率谱为: 弘,2 罱2 端 亿坳 它只包含了z ( 拧) 和j ,( n ) 的相位信息。最后通过对e 。( ) 进行傅立叶反变换得到互 相关结果。 在实际情况中,由于噪声的存在以及噪声本身的自相关性,噪声的功率谱并不 为零,这些原因会影响p h a t 加权函数的结果【1 6 1 。从算法上来看,相位变换加权 函数和最大似然加权函数相比,其运算的复杂度较低,并具有更好的效果。 2 3 时延估计的仿真分析 为了验证广义互相关时延估计的性能,本文在不同的信噪比下对相位变换加权 的广义互相关时延估计方法分别在计算机上进行了仿真,对其性能进行了分析。 试验采用卡耐基梅隆大学的麦克风阵列数据库作为信号源【1 8 】。该数据库种包含 了由1 5 个阵元和8 个阵元等不同的麦克风阵列录制的语音数据组成。语音信号的 采样率为1 6 k h z ,量化精度为1 6 b i t 。这里,采用两种方法仿真分析。第一组信号, 采用数据库中的理想信号,分别在时间轴上做两个不同点数的位移来模拟两个麦 克风的接收到信号的时延:再对这两路信号加上高斯白噪声,然后利用算法对它 们进行时延估计,从而分析在理想的噪声环境下的算法性能。第二组信号直接利 用数据库中两个麦克风实际接收到的信号进行实验估计,分析算法在实际情况下 的性能。 选用麦克风阵列数据库中的“n 1 0 1 m 廿l l s a r 疋1 a ”组信号为实验数据,其对应的 参考信号为“a i l l 0 1 _ m t n l s s e 衄c 1 ”。该组数据由1 5 个麦克风阵列录制完成,说话人 距离阵列的距离为1 米,阵列间麦克风的最小间距为4 厘米。说话人的位置位于阵 列的正中央。参考信号由说话人使用头戴式的麦克风近距离录制完成,基本为纯 净的语音信号。纯净的参考语音信号如图2 3 所示。 麦克风阵列语音增强系统设计与实现 幽2 - 3 纯净的参考语晋信号 由于语音信号的短时平稳性,并且在实际应用环境中,语音信号是一帧一帧获 得的,因此必须对输入的语音信号进行分帧处理【1 9 1 。选取的帧长度为5 1 2 个点, 在1 6 k h z 的采样频率下,这相当于大约3 2 毫秒长度的信号。采用汉宁窗( h a n n i n g ) 对输入进行分桢处理,以消除每帧信号的边缘效应。整个时延估计的算法流程如 图2 4 所示。 信号 输入 输出 图2 4 时延估计算法流程 广义互相关函数的峰值尖锐程度体现了时延估计的精度,峰值越尖锐,时延估 计的结果越精确。下面将给出不同信噪比情况下,采用相位变换加权的广义互相 关时延估计的仿真结果,如图2 5 图2 8 所示。 图2 5l o d b 噪声条件下的互相关函数 图2 6o d b 噪声条件下的互相关函数 第二章麦克风阵列时延估计 图2 7 1 0 d b 噪声条件下的互相关函数图2 8 - 2 0 d b 噪声条件下的互相关函数 由于卡耐基梅隆大学的麦克风阵列数据库在录制时,说话人都是位于阵列的正 中央的,在远场条件下,各个麦克风之间接收到的信号是没有时延的。为了使用 有时延的信号,本文选用了近场条件下的信号源,在这组数据中,说话人距离麦 克风阵列只有l 米的距离,尽管说话人站在阵列的f 中间,由于近场的球面波效 应,在阵列的中央的麦克风接收到的信号和边缘麦克风接收到的信号之间依然有 较大的时延。我们选取阵列的l 号和8 号麦克风接收到的信号作为时延估计的输 入信号。输入信号波形和仿真结果如图2 9 图2 1 1 所示。 图2 9 第1 路麦克风阵列信号 图2 1 0 第8 路麦克风阵列信号 1 4 麦克风阵列语音增强系统设计与实现 图2 1 l 实际的麦克风阵列信号时延估计结果 从图2 1 1 可以看出,广义自相关函数在采样点3 处有尖锐的峰值。这就表明 了相位加权的广义互相关时延估计可以在实际的环境中使用,并且有较好的性能。 2 4 时延估计的精度分析 前一节讨论了相位加权的广义互相关时延估计算法的性能,该算法在非相关的 噪声环境下具有较好的表现。在本节中将讨论时延估计的另一问题精度问题, 即时延估计结果的时间分辨率问题。 重新回顾一下式( 2 1 ) ,从式中可以看出,两路麦克风接收到的信号x ) 和y ( h ) 之间的真实时延r 。( ) 是信号的入射角的函数,由于入射角是在9 0 度到9 0 度 之间的连续变化量,因此,两路麦克风信号之间的时延r ( ) 也是一个随着信号的 入射角毋变化而变化的连续变量。 这里所讨论的信号都是数字信号,即两路麦克风接收到的信号r ( 门) 和y ( 竹) 均是 经过采样和数字量化后的数字信号。重新分析式( 2 4 ) 中的参量丁,它也是两路信号 的时延,但是,这里的r 和和前面的f 。( 妒) 并不相同。f 。( ) 为一连续的变量,可 以取任意的实数。而工( ) 和y ( 玎) 均为数字信号,这就导致了,只能取整数值,因 此丁实际上是两路麦克风信号的真实时延r 。( 矿) 的一个近似值。 假定有一个1 2 个阵元的麦克风阵列,排列为均匀的线阵。相邻的两个麦克风 之间的距离为5 c m ,阵列信号的采样率为1 6 m z ,采样精度为1 6 b i t 。下面以此阵 列为例,分析时延估计的实际精度问题。 首先分析相邻的两个麦克风进行时延估计的结果。当信号的入射角度在9 0 度到9 0 度之间变化时,相邻的两个麦克风接收到的信号之间的波程差会在o 到5 c m 之间变化,当信号入射角角度为9 0 度或者9 0 度时,波程差达到最大;入射角度 为0 度时,波程差为o 。声音在空气中的传播速度为3 4 0 r i l s ,当入射信号的角度 第二章麦克风阵列时延估计 为9 0 度或者9 0 度时,两路麦克风信号的最大时延为: f 。( 矿) 。= 尘业m 1 4 7 l o 一4 s ( 2 1 7 ) f 由于数字信号的采样频率为1 6 k h z ,在最大的时延下,两路信号的采样点数之 间最大延迟为2 3 5 个采样点,由于r 只能取整数,因此实际的r 值为2 。因此,当 信号的入射角度在9 0 度到9 0 度之间变化时,数字时延值r 的取值只能是2 、1 、 o 、l 和2 这5 个值,也就是说只能在5 个角度上估计出信号的来向,平均的角度 分辨率为3 6 度,这样的精度,是无论如何都无法接受的。 在实际的时延估计中,可以使用插值的方法提高时延估计结果的精确度,从而 实现非整数倍的时延估计。比较常用的是s i n c 内插值方法,其基本的原理是将时 延估计的输出结果,即广义互相关函数看作是实际的连续时延估计结果的一个数 字化采样,然后利用采用定理中的插值函数平滑互相关函数曲线,从而提高时延 估计的精度。s i n c 插值函数可以表示为【2 0 j : x ( f ) = 乏:x ( ”丁) s i n c ( 万( r 一以r ) 7 1 ) ( 2 - 1 8 ) 从式中可以看出,s i n c 插值函数是一个无穷项求和函数,在实际的情况下需要 采取近似的计算手段,但近似计算会降低插值的精度。s i n c 插值函数的计算量很大, 在阵列处理中会大大增加运算的复杂度,因此它并不适合在实际的系统中使用。 鉴于本文所讨论的麦克风阵列形式为均匀线阵,可以利用这一阵列的特点来提 高时延的精度。由于在均匀的线阵中,每两个相邻的两个麦克风之间的时延是相 同的,因此可以选择估计第一个麦克风和最后一个麦克风之间的时延,此时的时 延估计结果精度最高。阵列中其他阵元的时延可以利用此结果间接计算得出。 对于前面所述的麦克风阵列来说,当l 号麦克风和1 2 号麦克风之间有最大时 延时,两路信号之间的采样点数延迟为: k :i 堕型,i ( 2 - 1 9 ) l c j 其中,吖为阵元的个数,工为信号的采样频率, x 】表示不大于x 的最小整数。将 数据代入式( 2 1 9 ) 即可求得,最大的整数倍时延为2 8 ,因此,当信号的入射角度 在一9 0 度到9 0 度之间变化时,一共可以估计出5 5 个离散的角度,平均的角度分辨 率大约为3 2 7 度。可以看出,使用这种方法,可以大幅度的提高时延估计的精度。 时延估计的精度虽然是越高越好,但是,精度更高的方法所需的复杂度也就越 高,如插值法。本节提出了一个简单的方法提高时延估计的精度,至于该方法是 否能够满足麦克风阵列语音增强的需要,这一问题在下一章详细说明。 第二章麦克风阵列波束形成 第三章麦克风阵列波束形成 阵列信号处理讨论了从一个传感器阵列所采集的信号中提取有用信息的方 法。信号通过媒介,如声音信号在空气中的传播,由此产生的波阵面被传感器阵 列所采集。 包含在空间中传播的信号中包含的信息既可以是信号源的位置,也可以是信 号本身的内容。如果想获得这个信息,通常必须处理掉其他的干扰。与使用频率 选择滤波器加强某个频率的信号一样,可以使用某种空间的滤波器,来加强从单 一方向到来的信号。 在传统的方法上,传感器的空间检测能力即传感器的方向性,是由传感器的 几何形状和物理特性决定的,然而,使用这样的传感器有几个缺陷,由于传感器 的方向性依赖于机械的方向指示,要改变传感器所跟踪的信号,必须在机械上改 变传感器的指向性,很不方便。而传感器阵列能够克服单一传感器的这些缺点。 通过使用不同的方法组合从传感器阵列上获得的信号,就能够使特定方向上的信 号得到加强,并且,阵列所聚焦的方向和阵列的方位基本上没有关系。 3 1 波束形成的基本理论 重新回顾第二章所提出的均匀线性( u l a ) 阵列模型,如图2 1 所示。假设传 感器女输出的信号由两部分组成:有用信号缸( ) 加上传感器本身的热噪声( 胛) , 该信号可以表示成为如下的形式: x i ( 玎) = s i ( 竹) +
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业灌溉设施的建造与使用协议书
- 互联网金融产品服务合同
- 勇敢面对困难的经历议论文(12篇)
- 业务销售合同标准化模版法律风险防控
- 合同纠纷起诉状范本及填写说明
- 影视美术设计合同样本范本
- 基于合作社模式的农民收益共享协议
- 技术支持能力达标承诺书5篇
- 家庭农场种植技术提升服务合同
- 快递业务运输合同
- 分子诊断技术在感染性疾病中的应用-深度研究
- 《智能AI分析深度解读报告》课件
- 行测5000题电子版2025
- 《规训与惩罚》课件
- 【MOOC】声乐作品赏析与演唱-扬州大学 中国大学慕课MOOC答案
- 2024年版机电产品国际招标标准招标文件
- 糖尿病高血压健康教育
- 铜府字202322号铜鼓县革命文物保护利用专项规划(公布稿)
- 企业员工心理健康与欺凌防范政策
- 平面构成中的形式美法则
- 农贸市场装修施工方案
评论
0/150
提交评论