




已阅读5页,还剩68页未读, 继续免费阅读
(信号与信息处理专业论文)基于传声器阵列的声源定位方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于传声器阵列的声源定位技术通过传声器阵列接收语音信号并进行处理,从 而确定及跟踪声源位置,是语音信号处理领域的一个新研究热点,具有广泛的应 用前景和实际意义。本论文针对基于传声器阵列声源定位问题展开研究,主要做 了以下几方面的工作: 归纳总结并比较了主要的基于传声器阵列声源定位方法,建立了室内混响环境 下房间脉冲响应的实现模型。建立了基于传声器阵列的声源近场,利用此模型, 将窄带m u s i c 子空间d o a 算法应用于宽带声源信号定位。研究了广义互相关和l m s 自适应时延估计算法,提出了基于双门限语音端点检测的改进互功率谱相位广义 互相关时延估计算法,该算法运算量较少,具有较好的抗噪性和抗混响性;还提 出了互功率相位广义互相关l m s 自适应时延估计算法,该方法具有较好的抗噪性 和抗混响性。研究了基于时延估计的定位方法,包括最大似然( m l ) 法和球型插 值法。在球型插值法基础上提出了一种基于特征值分解的闭式一步最小二乘定位 法,该方法与球型插值法在数学上具有等效统计性能但运算量更少。提出一个可 在实际中实时应用的基于时延估计的声源定位系统,由基于双门限语音端点检测 的改进互功率谱相位广义互相关时延估计和基于特征值分解的最小二乘定位两部 分组成。该系统运算量小,对噪声和混晌具有较好的抑制作用。 关键词:传声器阵列声源定位子空间时延估计 a b s t r a c t a b s t r a c t a c o u s t i cs o u r c el o c a l i z a t i o nb a s e do nm i c r o p h o n ea r r a yc a nb eu s e dt o d e t e r m i n ea n dt r a c ka na c t i v et a l k e ra u t o m a t i c a l l yv i ap i c k i n gu pa c o u s t i c s i g n a lb ym i c r o p h o n ea r r a y i ti sah o t s p o ti na c o u s t i cs i g n a lp r o c e s s i n g f i e l da n dh a sw i d ea p p l i e df o r e g r o u n da n dp r a c t i c a ls i g n i f i c a t i o n f o c u s o nt h i sp r o b l e m ,t h ef o l l o w i n gw o r kh a sb e e nd o n e : m a i na c o u s t i cs o u r c el o c a l i z a t i o nm e t h o d sb a s e do nm i c r o p h o n ea r r a y h a v eb e e ns u m m a r i z e da n dar e a l i z a t i o nm o d eo fr o o mi m p u l s er e s p o n s ei n r o o mr e v e r b e r a t i o ne n v i r o n m e n ti sp r o p o s e d w i d e b a n dm u s i ca c o u s t i c l o c a l i z a t i o na l g o r i t h mi sp r e s e n t e db a s e do nt h en e a rf i e l ds i g n a lm o d e t i m ed e l a ye s t i m a t i o n ( t d e ) a l g o r i t h m sa r er e s e a r c h e d ,i n c l u d i n gg e n e r a l c r o s sc o r r e l a t i o n ( g c c ) a l g o r i t h ma n d l m sa d a p t i v ea l g o r i t h m an e w m o d i f i e dc r o s s p o w e rs p e c t r u mp h a s e ( c s p ) g c ca l g o r i t h mb a s e d v o i c e a c t i v i t yd e t e c t i o n ( v a d ) i sp r o p o s e d i th a s t h ea d v a n t a g eo fl o w e r c o m p u t a t i o n a lc o m p l e x i t ya n db e t t e rp e r f o r m a n c e a n o t h e rn e wl m sa d a p t i v e c s p g c ca l g o r i t h mi sp r o p o s e d l o c a l i z a t i o na l g o r i t h m sb a s e do nt d ea r e r e s e a r c h e d ,i n c l u d i n gm a x i m u ml i k e l i h o o d ( m l ) a n ds p h e r i c a li n t e r p o l 8 t i o n ( s i ) an e wc l o s e d f o r mo n es t e pl e a s ts q u a r e ( o s l s ) l o c a l i z a t i o na l g o r i t h m b a s e do ne i g e n v a l u ed e c o m p o s i t i o ni sp r o p o s e d i ti sm a t h e m a t i c a l l y e q u i v a l e n tt os ib u tw i t hl e s sc o m p u t a t i o n a lc o m p l e x i t y ap r a c t i c a l a c o u s t i cs o u r c el o c a l i z a t i o ns y s t e mb a s e do nt d ei sp r o p o s e d i th a st w o m o d u l e s i n c l u d i n gm o d i f i e dc s p - g c ct d eb a s e do nv a d a n do s l s1 0 c a l i z a t i o n t h es y s t e mh a sg o o dp e r f o r m a n c ea n dl e s sc o m p u t a t i o n a lc o m p l e x i t ya n dc a n b eu s e di np r a c t i c a le n v i r o n m e n t k e y w o r d :m i c r o p h o n ea r r a y s u b s p a t i a lm e t h o d a c o u s t i cs o u r c el o c a l i z a t i o n t i m ed e l a ye s t i m a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示谢意。 签名:日期:岬年s 月。日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:丝当 导师签名: 日期:刎年月,。日 第一章绪论 1 i 研究背景 第一章绪论 语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要 的手段之一。进入信息化时代以来,人们开始用现代手段研究语音处理技术,使 人们能够更加有效地生产,传输,存储,获取和应用语音信息,以促进社会发展。 声源定位技术是利用传声器拾取语音信号,并用数字信号处理技术对其进行分 析和处理,继而确定和跟踪声源( 即说话人) 的空间位置。 传统的高性能、高方向性的单个传声器在无噪声、无混响、距离声源很近的情 况下,可以获得高质量的声源信号。但是,单个传声器的拾音范围很有限,若声 源在传声器的选择方向之外,则会引入大量的噪声,导致拾取信号的质量下降; 并且单个传声器接收的信号,是由多个声源和环境噪声的叠加的,无法实现各个 声源的分离。在实际应用中,由于声源可能在室内小范围内运动,以及室内各种 其它声音的多径反射和混响等因素,也会导致单个传声器接收的信号信噪比降低, 拾取信号的质量下降。 为了解决单个传声器的这些局限性,人们提出了用传声器阵列进行语音处理的 方法。传声器阵列系统就是由一组按一定几何结构摆放的传声器组成的系统,对 接收到的来自空间不同方向的信号进行空时处理,传声器阵列具有去噪、声源定 位和跟踪等功能,从而大大提高语音信号处理质量。 传感器阵列信号处理技术发展迅猛,并已在雷达,声纳,通信及航空航天等领 域得到广泛应用。2 0 世纪8 0 年代,f l a n a g a n 将传声器阵列引入到大型会议的语 音增强应用中,之后s i l v e r m a n 和b r a n d s t e i n 又将其应用于语音识别和声源定位 中。近年来,基于传声器阵列的语音处理算法已成为一个新的研究热点“1 ,具有广 泛的应用前景和实际意义,很多国际著名的公司和研究机构正致力于传声器阵列 的研究和产品开发,有的已经进入应用阶段,包括电话会议系统、视频会议系统、 可视电话等系统,语音及说话人识别软件的前端预处理,强噪声环境下的声音获 取,大型场所的会议记录,助听装置等等嘲o 1 。 我国在这方面的研究工作起步较晚,一些企业,研究所和高校虽然做了大量的 电子科技大学硕士学位论文 跟踪和相关工作,但目前相关的算法和系统也还没有完善,还没有具有自主知识 产权的传声器阵列产品。因此,研发我国自主知识产权的传声器阵列语音信号处 理技术和产品具有重要的意义和广阔的市场前景。 1 2 传声器阵列语音信号处理的模型 1 2 1 语音信号的短时平稳特性 语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所 以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分 析处理。但是,由于不同的语音是有人的口腔肌肉运动构成声道某种形状而产生 的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一个 方面看,虽然语音信号具有时变特性,但是在一个短时间范围( 一般认为4 0 m s 的 短时间内) ,其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过 程,即语音信号具有短时平稳性1 。任何对语音信号的分析和处理必须建立在“短 时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数, 其中每一段称为一“帧”,帧长一般取为4 0 m s 以内。 1 2 2 传声器阵列定位系统模型 本文中传声器阵列定位系统主要针对室内应用场合,分为两种模型,一是理想 模型( 只考虑环境噪声) ,二是混响模型( 既考虑环境噪声又考虑房间混响) 。 1 理想模型 设声源信号为s ( 咒) ,传声器接收到的信号x ( n ) 为 x ( n ) = j ( 万一f ) + 咒( 栉) ( 1 一1 ) 其中f 是语音信号从声源到传声器的时间延迟,h ( ) 为高斯白噪声。理想模型认为 传声器接收到的语音信号只受到加性高斯白噪声的影响,并且语音信号和噪声信 号是互不相关的。 2 混响模型 混响模型假设声音传播满足线性波动方程,且房间内的环境在一定时间内不 变,则传声器接收到的信号x ( n ) 可以看作是房间脉冲响应与声源发出的语音的卷 积结果: 2 第一章绪论 工( ) = ( 月) $ j ( n f ) + 栉( n ) ( 1 2 ) 其中,s ( n ) 是声源信号,f 是语音信号从声源到传声器的时间延迟,( h ) 是高斯白 噪声, ( ,z ) 是房间脉冲响应,语音信号和噪声信号是互不相关的。 有许多方法可以计算房间脉冲响应,i m a g e 方法是其中典型的一种。本文中采 用一种基于i m a g e 方法的室内混响模型计算房间脉冲响应。 1 2 3 影响传声器阵列定位性能的因素 1 环境噪声:由于声源定位的环境多是在会议室等地点,因此噪声一般来说能 量不是特别大,不会掩盖正常的语音,只是影响语音的清晰度和可懂度。同时, 背景噪声通常不具有空间方向性,是一个全向噪声。 2 房间混响:在声源定位环境中,混响会对语音信号的接收效果产生负面影 响,导致互相关函数或者波束的尖峰扩展,难以确定最大值,加大了定位的误差。 房间混响是影响算法处理性能的一个重要原因。 3 模型噪声:模型噪声是人为引入的噪声。如传声器摆放的实际位置与理论值 之间存在误差:各个传声器以及相应的处理通道的幅度相位响应也不可能完全相 同:在计算各个统计量时,由于样本数有限,得到的估计值与真实值也有偏差等等。 所有这些,都使得真实的数据模型和算法设定的数据模型之间存在差异,因而称 为模型噪声。模型噪声的随机性很大,随着时间、地点的改变而改变,处理起来 较为困难。模型噪声是影响算法处理性能的一个重要原因。 4 传声器的摆放和数量:对于一个定位系统而言,麦克的数量越多,麦克的 相对位置越多样化,提供的空间信息量越大,从而具有较高的定位精度。而在实 际系统中,麦克的摆放位置比较固定,数量也比较少。因此必须在尽量少的麦克 和固定摆法条件下,提供高的定位精度。 1 3 传声器阵列声源定位技术概述 基于传声器阵列的声源定位技术分为三类,一是基于最大输出功率的可控波束 形成声源定位技术;二是基于高分辨率谱估计的声源定位技术;三是基于到达时 间差( t d o a ) 的声源定位技术。 电子科技大学硕士学位论文 1 3 1 基于最大输出功率的可控波束形成声源定位技术 基于可控波束的定位算法,是早期的一种定位方法。该算法该方法对麦克风所 接收到的声源信号滤波并求加权和来形成波束,调节麦克风阵列的接收方向,在 整个接收空间内扫描,最终使波束输出功率最大的点就是声源的位置。在文献【6 中最早提出该方法的理论基础,在文献 7 中进一步得出可控定位的理论和实际上 的方差。并在文献 8 中将该方法应用于多声源的定位。 基于可控波束形成的定位算法,主要分为延迟累加波束算法和自适应波束算 法。前者运算量较小,信号失真小,但抗噪性能差,需要较多的阵元才有比较好 的效果。后者因为加了自适应滤波,所以运算量比较大,而且输出信号有一定程 度的失真,但需要的麦克风数目相对较少,在没有混响时有比较好的效果。 波束形成技术己经广泛应用于基于麦克风阵列的语音拾取领域,但要达到稳健 有效的声源定位还十分困难。这主要是由于该方法需要进行全局搜索,运算量极 大,很难实时实现。虽然可以采用一些迭代方法来减少运算量,但常常没有有效 的全局峰值,收敛于几个局部最大值,且对初始搜索值极度敏感。并且,可控波 束定位技术依赖于声源信号的频谱特性,其最优化准则绝大多数都基于背景噪声 和声源信号的频谱特性的先验知识。因此,该类方法在实际系统中性能差异很大, 再加之计算复杂度高,限制了该类算法的应用范围。 1 3 2 基于子空间技术的声源定位技术 基于子空间技术的声源定位算法,与阵列信号处理的波达方向( d o a , d i r e c t i o no f a r r i v a l ) 估计类似,来源于现代高分辨率谱估计技术 9 ,如以m u s i c 为代表的噪声子空间类算法,以旋转不变子空间( e s p r i t ) 为代表的信号子空间类 算法,最大似然算法( m l ) 、加权子空间拟合( w s p ) 算法及多维m u s i c ( m d - m u s i c ) 算 法等。 基于超分辨谱估计的方法一般都具有很高的定位精度,但这类方法应用的对象 是远场的窄带信号,在声源定位中的效果不佳。原因有以下四点:该方法需要通过 时间平均来估计各传声器信号之间的相关矩阵,这就需要信号是平稳的,且估计 的参数是固定不变的。而语音信号是一个短时平稳过程,它往往不能满足这个条 件,因此该方法效果和稳定性不如可控波束形成法。此外,该方法往往假设理想 的信号源、相同特性的传声器等这些在实际中不可行的条件。虽然可以通过某些 4 第一章绪论 方法减弱这些因素的影响,但这往往需要成倍的增加运算量 1 0 。由于房间的混 响作用,使信号和噪声有一定的相关性,这也会降低该方法的有效性。该方法还 需假定声源离传声器阵列的距离比较远,且传声器阵列是一个线性阵列,这样声 波可以近似看成平面波,而这对需近距离定位的系统是不可行的 1 1 。高精度谱 估计技术往往针对窄带信号,而语音信号是宽带信号,这也需要以增加运算量为 代价来提高定位精度 1 2 1 3 。 有许多学者针对宽带信号的d o a 问题进行了广泛深入的研究,目前主要的算法 可以分为基于不相干信号的处理方法( i s m ) 和基于相干信号的处理方法( c s m ) 两大类。基于相干信号的处理方法( i s m ) 的主要思想是,把宽带信号通过子带滤 波或d f t 变换,分解成在互不重叠的频带上的窄带信号,然后对每个子带进行窄 带信号子空间处理,再把每个子带的估计结果加权平均,从而得到声源的方位信 息。这类算法主要缺陷是运算量较大,无法估计相干信号源。基于相干信号的处 理方法( c s m ) 的基本思想是,把频带内互不重叠的信号空间通过变换聚焦到一个 参考频率点,得到该频率点的数据协方差矩阵再用窄带处理的方法进行参数估计。 这类算法计算复杂度相对较小,估计精度较高,并能处理相干信号。但是这些算 法均需要对信号的方向信息进行预估计,要进行几次迭代之后才能得到较为准确 的估计结果,并且阵列结构采用均匀直线阵列,一般用于平稳信号的一维参数估 计,不能直接应用到传声器阵列处理中。 目前比较有代表性的算法有声源定位极大似然估计算法“,近场二维m u s i c 算法“”等。极大似然估计算法利用f f t ,把阵列接收信号转换为到频域,然后在频 域定义极大似然函数,从而得到信号的方位信息,该方法还可以估计阵列的位置、 声音的传播速度等参数,性能较好,但是计算复杂度很高,适用范围受到限制。 近场二维m u s i c 算法主要实现在平面内对声源的方向和距离的估计,是m u s i c 算 法的直接推广。但是在实际系统中,当声源位于近场时,声源的位置参数应该是 三维的,如果简化成二维模型,将会导致较大的模型误差,定位性能一般,并且 m u s i c 算法假设噪声为空间白噪声。然而,在实际情况中,白噪声的假设并不总是 成立,普通的高分辨方法则将引起严重的性能恶化,即估计偏差增大甚至是有偏 估计、以及弱信号源的不可检测性( 出现伪峰) 、角度分辨性能的下降等,并且由 于噪声和混响及语音信号非平稳性和有限观测数据的影响,影响了噪声子空间和 目标信号方向的正交性,使得谱峰搜索出现伪峰或谱峰变得平坦而出现漏检。 电子科技大学硕士学位论文 1 3 3 基于时延估计的声源定位技术 基于时延估计的声源定位技术主要是估计声源到达两个传声器的时间差,由于 每个时间差对应唯一地对应一个双曲面,因此多个传声器对就可以得到多个双曲 面,这些双曲面的交集就是声源位置。 该方法分为两个步骤,第一步是各传声器对的时延估计,目前主要有广义互相 关( g c c ) 时延估计算法“6 埽日l m s 自适应时延估计算法“”等。广义互相关法通过求 两信号之间的互功率谱,并在频域内给予一定的加权脚1 ,来抑制噪声和混响的影 响,再反变换到时域,得到两信号之间的互相关函数,其峰值位置即两信号之间 的相对时延。自适应滤波是基于一定的误差准则,在收敛的情况下给出时延估计。 g c c 算法计算量较小,但基于信号和噪声的先验知识,需要通过较长的数据才能准 确估计出来,自适应滤波可以处理处理时变信号,根据信号统计特性的变化,自 动调节滤波器系数,但运算量较大。第二步是在获得多个到达时间差的基础上, 大体上有两种方法可以确定声源位置,如最大似然( m l ) 法o ”,一是通过搜索的 方式,而是从次最优的方法通过几何方法估计出声源位置基于搜索或者空间几何 的定位算法估计声源位置,如球型插值法乜2 1 等。 基于时延估计的声源定位法在运算量上优于其他方法,实时性好,可以在实际 中低成本实现,但也有不足之处:其一是估计时延和定位分成两阶段来完成,因 此在定位阶段用的参数已经是对过去时间的估计,这在某种意义上只是对声源位 置的次最优估计;其二是就目前的文献报道来看,时延定位的方法比较适合于单声 源的定位,而对多声源的定位效果就不好:其三在房间有较强混响和噪声的情况 下,往往很难获得精确的时延,从而导致第二步的定位产生很大的误差;其四是 由于阵列结构和系统采样率等条件的限制,其定位精度远远不能与超分辨类算法 相比。 虽然如此,由于基于时延估计的定位方法运算量小,而且在适当改进后,在一 定的噪声和混响下有比较好的定位精度,适合于在实际中实时应用。本文将重点 论述该方法,并提出了一些改进。 1 4 本文结构 在第一章中,介绍了传声器阵列声源定位的研究背景及其发展现状,介绍了传 声器阵列声源定位模型,总结归纳了各种传声器阵列声源定位方法的优缺点。 6 第一章绪论 在第二章中,讨论了室内声源定位环境,建立了房间混响的实现模型并分析相 关参数,给出房间冲激响应的计算机仿真结果。 在第三章中,建立了基于传声器阵列的声源近场信号模型,利用此模型,给出 了宽带m u s i c 子空间声源定位算法和计算机仿真结果。 在第四章中,研究了广义互相关和l m s 自适应两种时延估计方法,比较了4 种主要的广义互相关时延估计算法,讨论了影响其估计性能的因素,接着给出了 一种基于语音端点检测的改进互功率谱帽位广义互相关算法,给出其与原算法的 仿真结果比较,然后讨论了l m s 自适应时延估计的性能,最后结合广义互相关和 自适应提出了一种互功率相位广义互相关l m s 自适应时延估计。 在第五章中,介绍了基于搜索的最大似然( m l ) 定位法和一种闭式球型插值法, 然后在现有球型插值法基础上,给出了一种基于特征值分解的一步最小二乘闭式 定位法,并与球型插值法在运算量和性能方面进行比较。 在第六章中,提出一个基于t d o a 的声源定位系统,该系统时延估计部分采用 基于双门限语音端点检测的改进互功率谱广义互相关时延估计算法,定位部分采 用基于特征值分解的最小二乘定位法,此系统可在实际中应用。 在第七章中,对全文进行了总结,并展望了传声器阵列声源定位技术的进一步 发展方向。 7 电子科技大学硕士学位论文 第二章室内声场混晌模型与房间脉冲响应 在前一章中提到本文针对室内传声器声源定位采用两种声场模型,一种是理想 模型,一种是混响模型。本章中提出一种基于i m a g e 方法的室内混响模型,并计 算房间脉冲响应。 2 1 室内混晌 室内声音定向需采用统计声学来进行处理。对室内声场( 扩散声场) 进行统计 声学处理需遵循如下的原理: ( 1 ) 声波以声线方式直线传播,声线所携带的声能向各方向传递的几率相同: ( 2 ) 各声线是互不相干的,声线在叠加时,它们的位相变化是无规则的: ( 3 ) 室内平均声能密度处处相同。 在室内任一点听到的声音,按照它们到达的先后顺序可分为直达声,前期反射 声( 也称为近次反射声) 和多次反射声( 混响声) 。传声器阵列声源定位系统混响 模型描述如图2 - 1 所示。 图2 - 1 传声器阵列声源定位系统混响模型描述 混响声可看作是房间脉冲响应与声源发出声音( 激励) 的卷积结果。在实际环 境中,除混响的影响外,还有加性噪声的干扰。所以房间内传声器接收的声信号 第二章室内声场混响模型与房间脉冲响应 x ( n ) 的一般表达式为x ( n ) = ( 厅) j 一f ) + 订( n ) 。其中s ( n ) 是声源信号,f 是语音 信号从声源至传声器的时间延迟,以( n ) 是高斯白噪声,h ( n ) 是房间脉冲响应。 2 2 基于i m a g e 混晌模型的房间脉冲相应 有许多方法可以计算房间脉冲响应。这里介绍其中之一的i m a g e 模型。”。 2 2 1i m a g e 室内声场模型 i m a g e 室内声场模型如图2 - 2 所示,( 1 ) 描述了一个矩形房间,黑圆表示声源 位置,黑星表示传声器位置,两者之间的实线表示直达声。 另一部分声波通过墙面反射,形成回波。回波可以看作是墙另一边的一点直接 发出的。因此我们可以想象,在房间一侧存在一个镜像房间,( 2 ) 所示。在镜像房 间中存在声源的镜像点,用白圆表示其位置。可以认为回波是该镜像声源发射的。 在( 2 ) 中,实线表示声波的真实路径,虚线表示声波的虚拟路径。 o oo o o o oo o o o o o 0 o oo o o o oo o o 【3 j( 4 ) 图2 - 2i m a g e 室内声场模型 由镜像房间又可以产生它本身的镜像房间,由虚拟声源又产生其本身的虚拟镜 像声源,不断重复。( 3 ) 描述了一个真实声源和两个虚拟声源的情况。( 4 ) 描述了2 维的情况,并且可扩展至3 维。 2 2 2i m a g e 房间脉冲响应 9 电子科技大学硕士学位论文 现在考虑图2 2 一( 4 ) 的3 维扩展。首先要找出最近的虚拟声源的位置。我们从 1 维模型开始,如图2 - 3 所示。 图2 3虚拟声源的1 维模型 黑十字表示坐标圆点。虚拟声源的x 轴可作如下表示: :( 一1 ) ,+ f + 三二;垡】_ ( 2 - 1 ) t 是声源x 轴坐标,是房间x 轴的长度,五表示第i 个虚拟声源的x 轴坐标。 如果i 是负数,则对应的虚拟声源位于x 轴的负半轴。如果i = o ,则对应的虚拟 声源就是真实声源。我们可以得到第i 个虚拟声源玉和传声器在x 轴上的相对 位置,如下表示: t :( 一1 ) 2 + f + 筝掣】耳一( 2 - 2 ) 同理可得虚拟声源在y 轴和z 轴的相对位置: 乃;( - 1 ) 只+ 【f + 上 型】”一( 2 - 3 ) 气:( - 1 ) 乙+ f + l 乓堂】刁一 ( 2 4 ) 由此可得虚拟声源和麦克风的相对位置; d i i , k 厄) 2 + 劬) 2 + ( 气) 2 ( 2 5 ) 并且可以得到如下表达式: u i j , k o ) = f _ 兰警 ( 2 6 ) 其中c 是声速,以。户表示每一个回波相对于直达声到达传声器的有效时延。 在此我们假设,在混响过程中每个回波只产生一个唯一的脉冲,不考虑其本身 的回波影响因此位于吐肚相对位置的虚拟声源,当且仅当f = ,c 时刻,该虚 拟声源对房间脉冲脉冲响应有影响,在此时刻产生单位脉冲响应。各个位置的虚 拟声源在其对应的时延产生各自的单位脉冲相应,各个单位脉冲相应一起构成了 1 0 第二章室内声场混响模型与房间脉冲响应 房间脉冲响应,单位脉冲相应表示如下: 8 l j , k ( u l = 亿幺巍i 。 ( 2 - ,) 有两个因素会影响回声的单位脉冲相应的幅度。是它经过的路径,即从声源 到传声器的距离,表示如下: b l , j , k - 砜知 心嵋 第二个因素是墙面的反射,设墙面反射系数为p ,当声波经过”次反射时,用 p 4 表示强面反射的影响,表示如下: q , i = 州 ( 2 9 ) 由式( 2 8 ) 和( 2 - 9 ) 可以得到每个回波的单位脉冲响应的幅度: _ t 2 b l , j , k c i , j , k - - 砜f l l , l + e l a + 了l k l ( 2 一l 。) 由式( 2 - 7 ) 和( 2 - 1 0 ) 可以得到房间脉冲响应: 五o ) _ 1 - - - - - - o 。,邑。- - - - - 。o 弓肚4 泓。 即 = 童喜k = 曼- - 。掣4 万( 券d t 乱一玛c ( z 小) j = 。,。, ) 2 2 3i m a g e 房间脉冲晌应的实现 用计算机实现i m a g e 模型时应考虑如下一些参数; i 房间脉冲响应和虚拟声源的数量 i m a g e 模型中,房间脉冲响应是由各个虚拟声源单位脉冲响应叠加得到的,参 与计算的虚拟声源数量与房间脉冲响应的长度有一定的关系。据文献 2 4 ,在一 定采样率下,当参考的虚拟声源数量近似呈立方倍增长时,脉冲响应序列数线性 增加。 2 混响时间和墙面反射系数 声场在室内达到稳态后,声源突然停止发声,室内声场从稳态到声压级衰减 6 0 d b 的时间称为混响时间,用表示。混响时间与房间脉冲响应的长度是不同的 电子科技大学硕士学位论文 概念。 声波在传播过程中遇到各种固体材料时一部分声能进入材料内部被吸收,一部 分被反射,又很少部分声能投射到另一侧。人们常将入射声能且和反射声能b 的 差值与入射声能之比称为吸声系数,记为口,即口= 旧厂e ,) e f 。反射系数与口 的关系是口= 1 一2 。 1 9 0 0 年,声学家赛宾在大量实验的基础上提出了混响时间计算公式, = 0 万1 6 r 3 v 。其中是混响时间( 秒) ,v 为房间容积( 立方米) ,五是房间内所 有表面材料的平均吸声系数,s 是室内总表面积( 平方米) 。在1 9 2 9 - - 1 9 3 0 年间, 鉴于赛宾公式的局限性,艾润在理想模型的基础上,运用声线法及统计原理导出 了新的混响公式,即艾润公式,即= 一面0 面1 面6 1 v 。 因此可以得出混响时间和墙面反射系数的关系: 一器( 2 - 1 2 ) 在仿真时,我们可以根据设定的混响时问和房间的大小,模拟出墙面反射系数。 在实际中,可以根据墙面的反射系数,计算出房间的混响时间。 2 3 计算机仿真 假设房间大小为8 1 2 1 0 ( 米) ,墙面平均反射系数设为0 9 ,声源坐标为 ( 3 ,l o ,4 ) ,传声器坐标为( 5 ,i ,6 ) ,采样率为8 k h z 。图2 4 显示了不同虚拟声源数 量时的房间脉冲响应。 第二章室内声场混响模型与房间脉冲响应 0 4 0 2 0 0 4 o 2 0 0 4 0 2 0 i m a g e 房间脉冲呵萼应 05 01 1 5 0 t i m e ( m s ) 05 01 1 5 02 0 d2 卯3 3 5 0 4 0 04 5 0 t i m e ( m s ) 01 0 02 3 0 04 0 05 咖7 0 08 0 09 0 0 t i m e ( m s ) 图2 - 4i 姒g e 房间脉冲响 电子科技大学硕士学位论文 第三章m u s i c 声源定位算法 m u s i c 算法是窄带远场信号d o a 估计应用最广的算法,是空间谱估计方法和理 论的重要基础。本章首先简要介绍经典m u s i c 算法,然后分析了传声器阵列声源 定位与传统阵列信号d o a 估计的区别,接着介绍了m u s i c 声源定位算法,最后给 出计算机仿真结果。 3 1 经典m u s i c 算法 m u s i c ( m u l t i p l es i g n a lc 1 a s s i f i c a t i o n ) 算法是最早的超分辨d o a 估计方法, 是空间谱估计发展史上具有里程碑意义的算法,己经成为空间谱估计方法和理论 的重要基础,有很多关于m u s i c 算法的研究和改进。m u s i c 算法利用接收数据的协 方差矩阵,分离出信号子空间和噪声子空间,利用信号方向向量与噪声子空间的 正交性,来构成空间扫描谱,实现信号的参数估计。 设有k 个信号入射到阵列上,则n 元阵列接收到的输入数据向量可以表示为k 个入射波形与噪声的线性组合,即 x ( t ) = ( f ) u 2 ( t ) : u o ( t ) = 口( q ) = a s + n 1 l p 他f 2 le j c o f r 2 ” 吩轴l e j $ , r m x a ( ) 】b o ) s a t ) s t ( t ) s 2 ( t ) : s o ( t ) + n l ( t ) t h ( t ) : ( f ) ;救( f ) r + _ ( f ) n 2 ( t ) ;o ) r ( 3 1 ) 其中,c o , 表示窄带信源的中心频率,白表示第,个信源辐射到第f 个阵元上的相对 时延,【( f ) s :( f ) ;j 。( f ) r 是入射信号向量,魄o ) n 2 ( t ) i ,z 。o ) r 是噪声向量, 各分量是相互独立,均值为零,方差为的平稳高斯过程,口( q ) 是对应于第i 个 信号波达方向的阵列方向向量。对于间距为d 的均匀直线阵列: 口( 最) = l1e - j o , r l ,他2 i g 一脾。h ( 3 2 ) 其中f f :d s i n ( 0 1 ) ,c 为声速。定义石( f ) 的协方差矩阵r 为 1 4 第三章m u s i c 声源定位算法 r = e x ( t ) x 8 ( f ) l ( 3 4 ) 将式( 3 1 ) 代入式( 3 4 ) 得 = e ( a s + a o ( a s + n ) 7 1 = a e ( s s ”) + e ( n n ”) ( 3 - 5 ) = a r s s a h + 仃? i 对上式进行特征值分解可得 = u z u 8 - 【ue 】【eu 】8 ( 3 6 ) = u , x ,u ”+ 以。“ 这里假设一b 4 ”满秩,对角矩阵,含有k 个大的特征值,。含:有n - k 个小 的特征值,则有特征方程 如u = 一以 ( 3 - 7 ) 而将式( 3 5 ) 右乘u 得 = 矾4 ”以+ 以 ( 3 - 8 ) 由式( 3 7 ) 和式( 3 - 8 ) 可得 一心4 ”= o ( 3 9 ) 从而有玑4 比玑= o 。又磁非奇异以= o 这表明与n k 个最小特征值相关的特征向量,和构成a 的k 个方向向量正交。 通过寻找在与如中近似等于吒的那些特征值所对应的特征向量中最接近正交方 向的向量,可以估计与接收信号相关的方向向量。 m u s i c 算法可以总结如下; ( 1 ) 收集输入样本x 。,p = o ,p 一1 ,估计输入协方差矩阵,即 砭5 刍莓( 3 - 1 1 ) ( 2 ) 对0 进行特征分解,有 r 。v = v a 式中,a = 反昭 凡, ,厶。) ,凡厶为特征值,a = 【g o ,甄。】是也相 应的特征向量组成的矩阵。 电子科技大学硕士学位论文 ( 3 ) 利用最小特征值气。的重数m 估计信号数k 为 k = n m ( 4 ) 计算m u s i c 谱,即 ”u s l c ( 0 ) 2 揣 式中圪= g x ,g r + l ,g 一t 】。 ( 5 ) 找出p m u s l c ( o ) 的k 个最大峰值,得到波达方向的估计。 在数据足够长或者信噪比适当高,并且信号模型足够准确的话,m u s i c 算法可 以得到任意精度的波达方向估计值。但是m u s i c 算法仍旧存在一些局限,如在低 信噪比和小样本情况下,不能分辨空间相距比较近的信号。为了克服这些缺点, 人们提出了许多改进和推广,例如最小范数算法,加权m u s i c 算法,求根m u s i c 算法等。 3 2m u s i c 声源定位算法 3 2 1 传声器阵列语音信号处理和传统阵列信号处理的区别 基于传声器阵列的语音信号处理是阵列信号处理的一种,但它又不同于传统 的阵列信号处理,其主要区别如下: ( 1 ) 传声器阵列模型的建立:传统阵列处理,如雷达、声纳等所采用的是平面 波前远场模型,即只考虑信号的波达方向;而传声器阵列进行声源信号定位时, 不仅要估计波达方向,还要估计声源与阵列之间的距离,因此传统的平面波前远 场模型不再适用,而必须采用球面波前近场模型。 ( 2 ) 阵列宽带信号的处理:传统的阵列处理的信号一般是窄带信号。在传声器 阵列处理中,接收到的语音信号频率一般在3 0 0 3 0 0 0 h z 之间,属于宽带信号。 传声器阵列的信号处理是将宽带信号在频域上分成多个子带,对每一个子带应用 传统的窄带处理,从而得到接收信号的空间谱。 ( 3 ) 非平稳信号的处理:传统的阵列处理的接收信号一般为平稳信号,而传声 器阵列中的接收信号为非平稳的语音信号。语音信号具有短时平稳性。结合上面 的宽带情况,麦克风阵列处理一般先把接收信号经过一个短时傅立叶变换,求出 其短时谱,然后在频域进行处理,每一频率对应一个相位差。 1 6 第三章m u s i c 声源定位算法 3 2 2 传声器阵列近场信号模型 设有足个声源,个传声器组成阵列。设声源可看为点源,第i 个声源的位置 矢量为墨= s i n o , c o s 谚, s i n6 :s i i l 谚c o s o , 7 ,其中表示第f 个信源与坐标原点的 距离,q 表示第f 个信源与z 轴的夹角,即仰角,谚表示第f 个信源在船y 平面的 投影与工轴的夹角,即偏角。阵元位置矢量分别是乃= ( o ,0 ,o ) ,b = ( t ,乃,毛) 。 设第i 个传声器接收到来自第_ ,个声源的信号为 x v ( t ) = a u x l 如一白) 其中嘞是第f 个传声器接收到第,个信号的相对幅度衰减因子: 忪川 旷南 其中乃是第f 个传声器接收到第_ ,个信号的相对时间延迟因子: 忪厂bl l - l i j ,“ l = 。,_ 二_ 其中c 为声速。则第i 个传声器接收到的信号为 五( f ) = ,o 一勺) + q ( f ) j = l f = 1 , j = 1 ,k a l ,= 1 , c i ,2 0 整个阵列的接收信号为: 工( f ) = l l a 2 1 e 一j ”h a 2 k e i 4 f 2 x n n f m w t 口n x f 。 五。( f ) 2 ( f ) 五x ( f ) + 啊( f ) 啦( f ) : ( d ( 3 - 1 2 ) ( 3 1 3 ) ( 3 - 1 4 ) ( 3 - 1 5 ) ( 3 1 6 ) 由于语音信号的短时平稳性,于是选取一个时间段( 即一帧) 内的数据可认为 是短时平稳的,进行短时傅氏变换: 膏 置( ,f ) = 口f 五,( ,f ) 8 1 。勺+ m ( 国,f ) j = l f :1 ,n _ ,:1 ,置 ( 3 1 7 ) a t ,= 1 ,= 0 1 7 电子科技大学硕士学位论文 其中五,( c o ,f ) 是第一个传声器接收到的来自第,个信号的短时傅氏变换 n , ( c o ,f ) 是噪声的短时傅氏变换。则整个阵列的接收信号为 x ( ,f ) = l 1 c 1 2 l e i 4 f 。a 2x e i m t l a n l e 。i f h 、a j i w 五l ( c o ,t ) 五2 ( 缈,t ) 五x ( ,f ) - - a ( o d ,q ,破) a ( c o ,r x ,办) 】 = a ( c o ,r ,护,妒) s ( ,f ) + ( 缈,f ) + 五2 ( 口,t ) 五k ( 口,f ) 渺 n a ,f ) j + 隧 r ( 国,f ) ( 3 - 1 8 ) 二维均匀阵列,最常见的是均匀圆形阵列,把n 个传声器等问角度地放置在 一个半径为r 的圆周上,就组成了均匀圆形阵。传声器的个数一般选取6 2 0 ,阵 列的半径一般选择1 5 - 4 0 厘米。 设n 个阵元均匀分布在以坐标原点为圆心,半径为,的x o y 平面上,则阵元坐 标为: 一 卑= r c o s ( ( 一1 ) ) r s i n ( ( i 1 ) ) o r ,= 等 ( 3 1 9 ) v 图3 1 显示了近场模型与远场模型的转化。当声源与传声器阵列的距离较远 时,即 i s j1 1 1 1 p i 矢量j j 一魏与声源位置矢量5 j 可近似地看成平行矢量。此时吩 近似为l ,声源处于传声器阵列远场模型,信号到两个传声器之间的幅度衰减差异 很小,可近似相等。在远场模型下,可以只考虑信号波达方向。 声勤 图3 - 1近场模型与远场模型 1 8 第三章i v l u s i c 声源定位算法 3 2 3 基于传声器阵列m u s i c 声源定位算法 由于语音信号是宽带信号并且具有短时平稳性,因此必须对语音信号进行分帧 处理,然后对每一帧信号用多个窄带滤波器将宽带信号变成多个频带的窄带信号, 对每
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高级运维面试题库精 编:全面解析行业需求与面试技巧
- 全面解析求职面试:收集面试题目及答案实践指导
- 高级人力资源经理面试技巧与题目
- 湘潭教师资格证面试题目解答步骤详解
- 信息技术中学讲课
- 微课制作全流程解析
- 青年志愿者部部长竞选
- 虚拟现实交互设计
- 神经母细胞瘤诊疗与病理研究
- 武术兴趣班汇报
- 煤矿安全规程新旧版本对照表格版
- 私募薪酬管理办法
- 2025年急诊三基考试题库及答案
- 2025贵州航空产业城集团股份有限公司旗下子公司贵州安立航空材料有限公司招聘61人笔试历年参考题库附带答案详解
- 军人休假规定管理办法
- 2025秋人教版英语八年级上Unit 2 全单元听力材料文本及翻译
- DB11-T 1455-2025 电动汽车充电基础设施规划设计标准
- 2025北京初二(上)期末英语汇编:阅读单选CD篇
- 2025年公招教师特岗教师招聘考试教育公共基础知识真题(带答案)
- 2025年贵州省中考英语真题含答案
- 消除医疗歧视培训
评论
0/150
提交评论