




已阅读5页,还剩106页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号 密级 UDC 注 1 学学 位位 论论 文文 基于麦克风阵列的多声源测向方法研究基于麦克风阵列的多声源测向方法研究 (题名和副题名) (作者姓名) 指导教师姓名 申请学位级别 硕硕 士士 专业名称 电电路与系路与系统统 论文提交日期 2014.02 论文答辩日期 2014.03 学位授予单位和日期 南南 京京 理理 工工 大大 学学 答辩委员会主席 评阅人 2014 年 2 月 24 日 注 1:注明国际十进分类法 UDC的类号。 声声 明明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学 位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布 过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的 材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明 确的说明。 研究生签名: 年 月 日 学位论文使用授权声明学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上 网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权 其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文, 按保密的有关规定和程序处理。 研究生签名: 年 月 日 硕士论文 基于麦克风阵列的多声源测向方法研究 I 摘摘 要要 基于麦克风阵列的多声源测向技术通过对麦克风阵列接收的多声源混合信号进行 处理,从而确定各个声源的方位。它在很多领域都具有广泛的应用前景和实际意义, 如在民用方面的视/音频会议、语音识别及增强等领域中,常利用声源测向技术精确估 计出说话人位置来控制摄像头,使其自动对该位置的语音信号进行增强。在军事方面 声源测向技术被广泛地应用在飞机,火炮、狙击手探测等方面。因此,该技术成为了 语音信号处理领域的研究热点之一。 本课题针对基于麦克风阵列多声源测向问题展开研究,归纳总结并比较了传统的 几类声源测向方法。本文以典型的双阵元麦克风阵列为研究对象,针对远场多声源模 型,将基于语音信号时频正交特性的退化分离估计技术(DUET)应用于声源信号测向。 该算法利用了语音信号特有的时频稀疏和短时正交特性(W-Disjoint Orthogonality,W- DO),基于此特性的时延估计算法计算量小,实现简单,仅用两个麦克风就可以实现多 个声源的方位测向。但是当声源存在波长小于两倍阵元间距的高频成分时,此类声源 测向方法将出现相位卷绕模糊问题,而阵元间距因物理尺寸限制也不可能无限缩小, 因此限制了该类方法的实际应用领域。针对上述问题,本文提出了一种基于迭代时频 掩蔽的宽间距麦克风阵列多声源测向方法,该方法通过迭代消去过程,显著抑制了相 位卷绕产生的影响。此外,结合基于能量的语音端点检测技术,本文进一步给出了上 述方法的实时处理算法步骤。针对上述方法,本文进行了仿真实验和相关外场实验, 实验结果表明:针对宽间距麦克风阵列多声源测向,本文所述方法明显优于常规 DUET 类方法,具有一定的实际应用价值。 关键词关键词:麦克风阵列 多源测向 时延估计 相位模糊 实时处理 Abstract 硕士论文 II Abstract Measuring multiple source direction in a microphone-array refers to that the direction of acousitc source is determined by mixed-signal imformation received from microphones. It is widely used in many areas, such as video / audio conferencing, speech recognition and speech enhancement etc. By estimating the speaker position to control the microphone and camera, then the automatic speech signal of the speaker can be enhanced.In the military area, the technology is widely used in the aspects of sniper detection and target detection of aircraft, artillery etc.Therefore, multiple sound source direction measurement is a new hotspot in acoustic signal processing field. This thesis mainly focuses on a study based on multiple sound source direction measurement technology. And the several categories of traditional sound source direction measurements are summarized and compared firstly. In this paper, the typical dual- microphone array is studied, focused on far-field multiple sound source mode, the degenerate unmixing estimation technique (DUET) based on W-Disjoint Orthogonality (W-DO) of the source signals is applied to the acousitc source direction measurement. The time delay estimation algorithm based on this characteristic has simple implementation, little computation.And it can measurement the directions of multiple acoustic sources with only two microphones.However, when the wavelength is less than twice the spacing of the two microphones, this kind of algorithm is prone to phase wrap-around aliasing, which often leads to artifacts. However the spacing can not be infinitely reduced, thus the practical applications is limited of such methods. In response to these problems, an approach to correct the phase wrap-around aliasing based on an iterative time-frequency masking process is presented in this paper. By iteratively clustering in the masked time-frequency plane and the artifacts due to the phase wrap-around aliasing can be extremely suppressed. In addition, combined with the speech endpoint detection technology that based on energy, the paper puts forward a real- time processing algorithm. For the above method, simulation and outdoor experiments are taken. The experimental results show that the method is superior to conventional DUET method, which proves that the method has a great practical application value. KeyWords:Microphone array, Multiple source localization, Time delay estimation, Disambiguity, Real-time processsing 硕士论文 基于麦克风阵列的多声源测向方法研究 III 目目 录录 摘摘 要要 .I Abstract.II 1 绪论绪论.1 1.1 课题的研究背景及意义1 1.2 基于麦克风阵列的声源测向技术简介2 1.2.1 麦克风阵列声源测向技术的特点2 1.2.2 麦克风阵列声源测向技术的应用领域2 1.3 论文的结构安排3 2 基于麦克风阵列的声源测向算法基于麦克风阵列的声源测向算法.5 2.1 基于最大输出功率的可控波束形成的方法5 2.2 基于高分辨率谱估计技术的方法7 2.3 基于声压幅度比的方法7 2.4 基于时延估计的方法9 3 双阵元麦克风阵列时延估计方法双阵元麦克风阵列时延估计方法10 3.1 双阵元麦克风阵列信号模型10 3.2 传统的时延估计算法12 3.2.1 广义互相关函数法(GCC).12 3.2.2 最小均方(LMS)自适应滤波.16 3.2.3 互功率谱相位法17 3.3 基于声源信号时频正交特性的时延估计方法(DUET) 18 3.3.1 语音信号的加窗分帧处理18 3.3.2 W-Disjoint Orthogonality (WDO)特性20 3.3.3 DUET 算法主要流程及仿真结果.22 3.3.4 DUET 算法的局限性.25 4 基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕26 4.1 迭代时频掩蔽方法26 4.2 算法仿真及外场实验结果与分析29 4.2.1 宽间距麦克风阵列双声源测向仿真实验结果与分析.29 4.2.2 宽间距麦克风阵列三声源测向仿真实验结果与分析.31 4.2.3 外场实测结果与分析.33 目录 硕士论文 IV 5 基于迭代时频掩蔽的宽间距麦克风实时多声源测向基于迭代时频掩蔽的宽间距麦克风实时多声源测向.37 5.1 实时多声源测向方法37 5.1.1 语音端点检测37 5.1.2 实时多源测向法的具体步骤39 5.2 仿真实验结果与分析41 6 结论与展望结论与展望.44 6.1 结论44 6.2 展望44 致致 谢谢.45 参考文献参考文献.46 附附 录录 硕士期间论文发表和专利申请情况硕士期间论文发表和专利申请情况.49 硕士论文 基于麦克风阵列的多声源测向方法研究 1 1 绪论绪论 1.1 课题课题的研究背景及意义的研究背景及意义 声源测向技术是通过电子和声学装置采集声源信号来探测声源方向的一种技术, 它在很多领域都有着广阔的应用前景1。根据不同的探测方式,声测技术可以分成主动 声测技术和被动声测技术。主动声测技术由发射和接收装置组成,比如根据主动声纳 的发射信号的回波来判断目标源的位置。本课题研究的基于麦克风阵列的声源测向技 术属于被动测向技术,它只有接收装置。麦克风阵列是指将若干个麦克风按照一定的 几何结构组成阵列形式,相较于与单个麦克风有很多的优势。它具有较强的空间选择 性,不需要移动麦克风就可以以电子扫描的方式实现目标声源的自动定位跟踪。基于 麦克风阵列的多声源测向是指对麦克风阵列采集的多路语音信号进行分析处理,在多 个声源的平面内得到各个声源的方位角,它相较于传统的测向系统具有隐蔽性强、可 视距远、不受电磁波干扰等优势。 早在 20 世纪 80 年代,国外的一些发达国家就已经取得了一定的研究成果。在声 测预警方面,以色列研制了一套 AEWS 声测预警系统,它可以探测慢速飞行的固定翼 飞机、直升机、微型飞机等,其实质是一个声学传感器网络,将采集到的信号通过内 部的控制中心处理得到的定位数据传送到地面作战指挥所;在直升机探测方面,英国 Ferranti 公司的 Picker 直升机报警器和瑞典 Swetron 公司的 Helisearch 直升机声测系统 采用是被动式声探测技术,它是根据接收到的时延值来判断声源方向的2。其探测距离 能够达到 15-20 km,方位精度可以精确到 1 度,同时它还有很强的多目标识别、探测 的能力;在炮位侦查方面,具有代表性的是瑞典 SATT 通信公司研制的 SORAS-6 声测 系统和美国工 SC 技术公司研制的 PALS 被动声探测系统3。这两套系统都由无线电装 置,传声器,信号处理计算机和测试子系统组成,它可迅速地测定火炮方位,并且具 有很强的抗干扰性。在语音信号处理领域,早在二十世纪八十年代传声器阵列就已经 被应用到语音识别、语音增强等系统中。进入二十世纪九十年代以后,它又有了很多 其他方面的应用,如大型场所的会议记录、车载环境中的语音获取以及助听装置等4。 由此可见,声探测技术在很多军用和民用系统中有着相当重要的意义。 目前,国内外已经出现了很多相关的产品,并已广泛地应用到社会各个领域,尤 其是近年来无线传感器网络(wireless sensor networks, WSN)在学术研究和工业应用等 领域都受到了极大关注,而其中基于传声器阵列的声测节点通过网络融合进行目标感 知、定位、跟踪等方面的研究也成为当前研究热点之一,因此开展基于麦克风阵列的 多声源测向方法研究有着较为重要的意义。 2 基于麦克风阵列的声源测向算法 硕士论文 2 1.2 基于麦克风阵列的声源测向技术简介基于麦克风阵列的声源测向技术简介 1.2.1 麦克风阵列声源测向技术的特点麦克风阵列声源测向技术的特点 麦克风阵列是分布在空间中的、按照一定方式排列的多个麦克风以更好得获取目 标的空间信息。它是在传统的阵列信号处理基础上发展起来的,和传统的阵列信号处 理的区别在于以下几个方面: (1)传统阵列信号处理的是有调制载波的窄带信号比如雷达信号。而麦克风阵列处 理的是没有经过调制的宽带信号,频率一般集中在 303000Hz。 (2)传统阵列信号处理的通常是准平稳或者平稳信号,但是麦克风阵列处理的通常 是非平稳的语音信号。 (3)传统阵列信号处理一般建立在远场模型的基础上,而麦克风阵列可以根据实际 不同的情况选择近场或者远场模型。 麦克风阵列实现被动声源的测向的方法较其他探测方法而言,它具有以下几点优 势: (1)不受视线的限制。由于声波可以绕过障碍物,因此声探测系统可以探测障碍物 后的声源位置,突破了激光,无线电等探测方式的局限。 (2)隐蔽性好。基于麦克风阵列的被动声探测系统可以避免电磁波的干扰,工作隐 蔽性强,不易被发现。 (3)受外界环境的影响小。声探测系统可以在阴天、雾天等环境下正常使用,受外 界环境影响较小。 (4)生产成本低。由于声探测系统的成本相对较低,因此它可以实现大量地布设, 以扩大侦测的面积。 1.2.2 麦克风阵列声源测向技术的应用领域麦克风阵列声源测向技术的应用领域 随着对麦克风阵列技术的不断深入研究,基于麦克风阵列的声测系统应用也日益 广泛,在国防军事、音/视频会议、人机交互等许多领域方面都有重要的开发潜力与科 研价值。 在国防军事领域,声源测向技术最早被应用在飞机、坦克、火炮等目标的探测方面, 为了提高准确度,也常结合其他探测方式比如磁场探测、红外探测等。目前国内外又 利用该技术为战车和单兵系统配备了便携式的声测系统来帮助士兵监测战场的环境, 这些便携系统可以快速准确地检测到炮位、飞机或坦克等方位5。 此外在反狙击手方面声测向技术也得到了很好应用。在城市巷战中,只有准确、 快速地发现并消灭狙击手,才能保障进攻方的行动安全。反狙击手声测定位仪通过接 收并测量膛口激波和弹丸飞行产生的冲击波来确定狙击手的位置,常见的有固定设置 硕士论文 基于麦克风阵列的多声源测向方法研究 3 车载型和单兵佩挂型6。 在民用方面,声源测向技术最早被应用在大型会场与视频会议当中,若将一个麦 克风放在某个固定位置,那么当说话人距离麦克风较远时,最终的语音信号将会变弱, 为了使该语音信号增强,通常当谁发言时就把麦克风传递给谁,这种方法成本低,但 是使用不便。或者为每个人配置一个麦克风,然而这种方法在参会者众多时花费太高, 不太符合实际。然而当采用基于麦克风阵列的声探测系统时,说话人在发言的时候能 够自动地把摄像机与麦克风阵列聚焦到说话人,从而增强说话人的声音,与此同时也 抑制了会场中的噪声。这样在提高了音视频结合的效果的同时也避免了安放多个采音 系统,从而节省了很多成本7。 麦克风阵列的声测向系统在车载电话应用方面也起着很重要的意义。驾驶员如果 在高速驾驶时手接电话就容易产生安全问题,为避免这一安全问题出现了车载免提电 话。但是当车内环境噪声较大或者车内有多人说话时就对车载电话的接听产生影响, 这时如果将麦克风阵列自动定位驾驶员的位置,那么就可以针对该位置加强驾驶员的 声音,与此同时抑制来自其他方向的噪声。这样就能使车载免提电话的效果得到大大 提升。 随着科技的发展,机器人开始进入人类的生活为人类进行服务。语音是一种控制 机器人最常见的方法,人类通过对机器人下达语音指令来使机器人完成一系列工作。 所以机器人可以通过安装在身上的麦克风阵列来实时的定位出当前用户的具体位置。 在多机器人协作系统中,也常常结合基于激光,超声波,视觉的定位方法8。和这些定 位方法相比,基于麦克风阵列的声源测向有可视距离远的优点,因此在有障碍物遮挡 或者光线不好时都可以起到很好的定位作用。 1.3 论文的论文的结构安排结构安排 第一章:主要介绍本课题研究的背景,特点以及应用领域。 第二章:主要介绍声源测向技术中传统的几种算法,如最大输出功率的可控波束 形成方法,高分辨率谱估计法,时延估计法等等,并且分析这几种算法各自的优缺点。 第三章:研究双阵元麦克风阵列时延估计方法,主要包括简要介绍双阵元麦克风 阵列模型以及几种传统的时延估计算法,如广义互相关法,最小均方自适应滤波法, 互功率谱相位法。然后介绍基于语音信号时频正交特性的时延估计算法(DUET),包括 DUET 算法的主要流程以及实验仿真,最后指出了该算法在宽间距麦克风阵列情况下 存在的相位卷绕问题。 第四章:详细阐述了本文提出的基于迭代时频掩蔽的宽间距麦克风阵列相位解卷 2 基于麦克风阵列的声源测向算法 硕士论文 4 绕方法,说明了方法原理和实现步骤,进行了仿真实验和外场实验验证,并对实验结 果进行了分析。 第五章:结合语音端点检测技术,也即语音活动检测(voice activity detection, VAD)技术,给出了宽间距麦克风阵列多声源实时测向方法的实现过程,通过仿真实验 验证了该方法的可行性。 第六章:对本文进行了总结,并对未来进一步开展研究的思路进行了展望。 硕士论文 基于麦克风阵列的多声源测向方法研究 5 2 基于麦克风阵列的声源测向算法基于麦克风阵列的声源测向算法 2.1 基于最大输出功率的可控波束形成的方法基于最大输出功率的可控波束形成的方法 可控波束形成法是出现最早的一类测向方法,常被应用在声纳、雷达和移动通信 方面。该类算法的主要过程是,在频域内将各个传声器阵元接收到的信号通过加权求 和来形成波束,然后调节阵列的接收方向,使其在信号接收空间内进行扫描来搜索目 标可能的位置,同时不断地修改调整加权值使阵列的输出功率达到最大,此时指向的 波束输出信号功率最大的点就是声源的位置9-10。 采用不同的波束形成器可以得到不同的算法,目前主要有两类算法,一是时延求 和波束算法,另一个是自适应波束算法。时延求和波束形成器的相位和信号到达的时 间差有关,该波束形成器的权值主要取决于阵元信号的相位延迟。其原理如下图所示: R0-1() R1-1() RM-1-1() 0 M-1 1 H() ()2P()d X0() X1() XM-1() 形成波束 图 2.1 时延求和波束形成法原理 如果有个线性排列的麦克风阵元,声源信号表示为,高斯白噪声表示为M( ) i s t ,和是互不相关的随机过程,搜索的声源方位角为,为声源到达阵( ) i w t( ) i s t( ) i w t i 元的时延。暂不考虑能量衰减和混响的因素,则第 个阵元采集的信号可以表达为:i (2.1)( )( )( ) iii x ts tw t (1,2,.)iM 对上式进行傅里叶变换可以得到: (2.2) ( ) ( )( )( ) i jw ii XeSW (1,2,.)iM 式(2.2)在频率处的向量形式为: l (2.3)()() ()() llll XVSW 其中, 01 ()(),.,()T llMl XXX 01 ()(),.,()T llMl WWW 。 01 (),., M jwjwT l Vee 由于是一个高斯随机过程,所以它的条件概率分布可以表示为:() l X 2 基于麦克风阵列的声源测向算法 硕士论文 6 (2.4) 1 1 (| )()exp det H M P XX P X P 其中的为阵元接收信号的互谱密度() l P( ) i x t (2.5)()()() H lll PE XX 将式(2.3)代入式(2.5)可以得到 (2.6)()() ()()() H lslllwl PRVVR 其中,。()()() wlll RE WW 2 ()() sll RE S 对式(2.4)求对数可以得到: (2.7)ln( ()| )ln(det) M l p XPQ 其中, (2.8) 1H QX P X 选择合适的使得式(2.7)取得最大值,即也就是为最大时,这时候的就是(| )P X 我们需要的目标源的方位估计。求式(2.7)的最大值也就相当于求 (2.9) 22 ()()() lll PHZ 的最大值,其中 (2.10) 111 H sW HRV R V (2.11) 1 ()()()() H LlWll ZVRX 此时我们所求的信源方位角为: (2.12) argmax( )Pd 图 2.2 所示为一种可控波束形成算法的仿真,其中阵元个数为 15,目标源位置为 20。 硕士论文 基于麦克风阵列的多声源测向方法研究 7 图 2.2 可控波束形成算法仿真示例 基于时延求和的可控波束形成方法原理简单,容易实现,计算量小,但是也存在 一些缺点,如它的抗噪性能较差,通常需要增加阵元个数才能得到提高它的抗噪性能, 这样势必会增加成本。对于自适应算法来说,由于它存在自适应滤波这一过程,所以 不仅会增加运算量而且会导致输出信号有一定的失真,不过自适应算法需要的麦克风 个数较少,成本小。从本质上来说可以将可控波束形成法看成一种最大似然估计,因 此它同样需要声源和背景噪声的先验知识,但这种先验知识在实际应用中通常很难获 得。除此之外,因为最大似然估计又属于非线性优化问题,对初始点的选择比较敏感, 而且它的目标函数一般有多个极点。所以,利用传统的梯度下降法通常会陷入局部极 小点导致找不到全局的最优点 11。 2.2 基于高分辨率谱估计技术的方法基于高分辨率谱估计技术的方法 高分辨率谱估计法是建立在时域谱估计、空域滤波基础上的一类算法。它是利用 接收信号相关矩阵的空间谱,通过求解阵元间的相关矩阵来获得最终目标的方位角12。 此类算法的提出主要是为了提高处理带宽内信号的角度分辨率,估计精度等。目前主 要的方法有最小方差谱估计法(MV)、自回归模型法(AR)、ESPRIT 法和特征值分解法 (如 MUSIC 法)等等13。这些方法定位精度一般都比较高,并且已成功地应用在阵列信 号处理系统中,但是这类方法在声源测向中的应用效果往往不太理想。其原因主要有 以下几个方面: (1) 高分辨率谱估计算法所需的信号空间相关矩阵在实际应用中通常是未知的,需 要经过估计信号的时间平均值才能得到14。这就要求在整个估算过程中信号平稳,但 是声音信号是一个短时平稳的过程,因此高分辨率谱估计方法在声源测向应用中的鲁 棒性没有传统的波束形成方法好。 2 基于麦克风阵列的声源测向算法 硕士论文 8 (2) 高分辨率的谱估计法往往需要信号源是理想点源,并且要求麦克风的特性完全 相同,由于这些要求在实际中很难做到,所以将会导致误差较大。虽然,我们可以采 用一些方法来减小这些因素的影响,但这会大幅度地增加计算复杂度和运算量。 (3) 高分辨率谱估计法通常是假定声源在远场,当需要近距离声源测向的时候,此 方法误差将会非常大,因此该方法不适用于近场的声源测向。 (4) 高分辨率谱估计法一般处理的是窄带信号所以处理语音这一类宽带信号时,必 须对已有的算法进行改进,这也势必会增加它的运算量。 2.3 基于声压幅度比的方法基于声压幅度比的方法 这类基于声压幅度比的方法和双耳效应中的耳间声强差的原理相似,由于声源信 号在到达不同麦克风的过程中在声音强度上有不同程度的衰减,所以我们可以利用这 个强度差异再结合一些其他条件就能判断出目标声源的方位。首先利用麦克风处产生 的输出电压和声源与麦克风间的距离推导出一个约束条件,然后再用这个条件在三维 空间里确定出一个球面。同理对于每个麦克风,我们都可以推导出这样的一个约束条 件,最后结合这些约束条件就可以确定出声源的位置。我们以二维平面上的声源定位 问题为例简单地对此类方法进行分析。示意图如下所示。 图 2.3 二维平面声压幅度比声源定位示意图 设在 X 轴上有四个麦克风,它们以相等的间距排列,坐标依次为(-3a,0),(-a,0),(a,0)和 (3a,0)。设声源的坐标位置为 S(x,y) ,那么声源到四个麦克风的距离分别为: (2.13) 22 1 (3 )rxay (2.14) 22 2 ()rxay (2.15) 22 3 ()rxay 硕士论文 基于麦克风阵列的多声源测向方法研究 9 (2.16) 22 4 (3 )rxay 如果第 i 个麦克风采集到的的声压幅度是,则有如下关系表达式:( ) i e t (2.17) 2 12 2 21 ( ) ( ) e tr e tr (2.18) 2 34 2 43 ( ) ( ) e tr e tr 将式(2.17)、(2.18)代入上面(2.13)(2.16)可以得到只有变量 x 和 y 的一个二元二次 方程组。结合该方程组得到解和声源的先验知识,就能够得到目标源的具体位置。同 理在三维空间的情况下,我们只要通过不在同一个平面内的四个麦克风就能得到声源 的具体位置。 基于声压幅度比的方法原理简单,易于实现,但是该类算法的准确度很容易受外 在条件的影响,比如麦克风灵敏度不一致,环境噪声,采样率等因素。 2.4 基于时延估计的方法基于时延估计的方法 除了上述的几种传统测向算法,近年来发展起来的基于时延估计的测向方法由于 它运算量小并且精度相对较高而被广泛地应用。时延估计算法的基本思想分两步:第 一步首先估计出两两麦克风之间的时间延迟值,时延值的估计目前主要有广义互相关 GCC(Generalized Cross Correlation ) 法、互功率谱 CSP(Cross-power Spectral Phase)法、 LMS 自适应滤波器法以及高阶统计量法等等。其中的广义互相关法运用的最为广泛, 它是在基本互相关(GCC)法的基础上发展起来的,由于 GCC 算法的性能容易受到混响 的影响,所以广义互相关法对信号在频域内进行加权处理,抑制混响及噪声带来的影 响。第二步再利用估计出来的时延值,结合麦克风阵列的空间几何关系来获得声源的 方位角,通常利用几何法或者搜索法,比如球型差值法15。 例如在无混响,信噪比为 10dB 的仿真条件下,对时延值为 20 个采样点的单声源 信号通过 PHAT 函数加权的广义互相关 GCC 得到的相关函数如下图 2.3 所示: 2 基于麦克风阵列的声源测向算法 硕士论文 10 图 2.3 GCC-PHAT 加权函数法仿真 基于时延估计的方法成本低、实时性好、运算量较前几种传统算法大大减小。而 它的不足在于:第一,由于该算法是分为两步完成的,在第二步中使用的参数是对过 去时间的估计,说明这只是对声源方位的次最优估计;第二,在环境噪声较大或者反 射混响强烈的情况下,会严重影响时延的精确度;第三,传统的时延估计方法通常比 较适合单声源的测向,对于多声源的测向效果往往不够理想;第四,因为时延估计法 受到系统采样率、阵列结构等条件的限制,所以此类算法的精度远远比不上超分辨类 算法16-17。在这三种定位方法中,基于时延估计的声源定位方法应用比较广泛,本文 将重点讨论该方法。 硕士论文 基于麦克风阵列的多声源测向方法研究 11 3 双阵元麦克风阵列时延估计方法双阵元麦克风阵列时延估计方法 3.1 双阵元麦克风阵列信号模型双阵元麦克风阵列信号模型 本文主要对最基本的双阵元麦克风阵列进行讨论研究,该阵列结构简单,开发成 本小,算法复杂度也相对较低。当然,此类阵列也有不足之处,由于它的结构简单, 所以它所获得的空间信息也相对较少,导致这类的声源测向系统的性能普遍偏低。另 外,麦克风的数目也限制了该阵列的结构只能是直线型,所以会受到直线阵列局限性 的影响。所以,我们可以从麦克风的类型、麦克风的间距、声源测向的算法等方面着 手来提高双阵元麦克风阵列系统的性能18-19。 利用麦克风阵列采集声音信号的实质就是对信号进行空间采样,因此采样过程会 受到阵元间距的影响,这种影响和许多因素有关,比如信号的频率、系统的采样率和 性能等。对均匀直线阵列来说,阵元之间的距离不可以太小,距离越小,到达两个麦 克风所需时间的差异就越小,也就是说信号的偏移量就越小,给分析过程带来难度。 然而阵元间的距离也不可以太大,否则会出现空间混叠的现象。由信号的空间采样定 理我们可以得出,阵元间距不能大于最小波长的一半。从上述分析能够得出,麦克风 的间距与精度、空间信息以及声源远进场的划分都离不开关系。所以我们在实际应用 中要根据实际情况,综合考虑阵列尺寸、空间采样定理、精度等因素来决定阵元之间 的距离,以保证系统的良好性能20-21。 阵列模型可以按照声源到麦克风阵列的距离近远划分成远场模型和近场模型。当 声源离麦克风参考点的距离在信号波长范围内就属于近场,当声源离麦克风的距离超 过信号波长的范围则属于远场22。通常采用公式 (3.1) 2 2/rL 来区分。式中 r 表示声源离麦克风的距离,L 阵列的长度, 表示声源信号的最大波 长。如果该式成立,则该阵列模型属于近场模型,否则属于远场模型。然而在实际应 用中,声源的位置是不确定的,可能有时候离麦克风较近,有时候又较远。或者也有 可能声源是动态的,时而处于近场时而又处于远场。因此,仅仅采用一种模型来对处 理所有的声源测向是不合适的,我们要根据实际情况来选择合适的模型。 当声源和麦克风阵列的距离小于时,我们利用近场模型进行处理,将接收 2 2/L 到的声波近似看做球面波。示意图如下,Mic1 和 Mic2 表示两个麦克风,S 表示声源位 置,d1 和 d2 分别为声源到两麦克风的距离,两麦克风的间为 d 。我们从图中可以很 容易地得到声音信号到两麦克间的相对时延为: (3.2) 21 12 dd c 3 双阵元麦克风阵列时延估计方法 硕士论文 12 图 3.1 近场声波传播模型 近场中的声波是以球面波的形式来传播的,由于声源到两麦克风的传播距离不同, 两麦克风接分别接收到的声音信号的幅度差异会很明显,所以必须考虑幅度差异在近 场模型中产生的影响。假设声波到达 Mic1 的衰减因子为: (3.3) 2 1 d d 则我们可以将在近场模型下,Mic1 和 Mic2 接收到的信号模型表示为: (3.4) 11 2122 ( )( )( ) ( )()( ) x ns nv n x ns nv n 式中表示声源信号,和表示背景噪声,三者为互不相关的正态平稳随机( )s n 1( ) v n 2( ) v n 过程。由图中的几何关系易知,由 S,Mic1 和 Mic2 有 (3.5) 222 21 2 cos 2 ddd dd 将(3.2)变形为,并代入上式中可得: 1212 ddc (3.6) 222 122 12 2 2 cos 2 dcdc dd 那么我们所需要的声源方位角为: (3.7) 222 1 122 12 2 2 cos () 2 dcdc dd 由上述的分析可知在研究近场模型时,为了确定最终的声源方位,必须具备两个 参数,即声源与麦克风间的夹角和声源与麦克风间的距离。但是双麦克风阵列由于阵 元数目较少而不能同时确定上述的两个参数,必须有一个为先验已知条件。所以,该 模型给实际应用带来很大的局限性。 硕士论文 基于麦克风阵列的多声源测向方法研究 13 当声源距离麦克风阵列的距离大于时,我们利用远场模型进行处理,将接 2 2/L 收到的声波近似看做平面波23。当声波以一种近似平面波方式传播时,两个麦克风之 间的幅度衰减差异很小,因此可以认为近似相等。远场模型示意图如下: 图 3.2 远场声波传播模型 假设麦克风与声波到达方向的夹角为,两麦克风间距为,则 Mic1 和 Mic2 之间的d 时延为: (3.8) 12 cos( )/dc 其中 表示声音在空气中的传播速度。c 利用得到的时延值我们可以很容易地得到目标声源的方位角。即 (3.9) 1 12. cos () c d 综上所述,在远场模型中,我们为了得到目标声源的方位只需要知道时延估计值 即可。本论文针对基于双麦克风阵列的远场模型开展相关研究。 12 3.2 传统的时延估计算法传统的时延估计算法 在基于到达时间差的算法中,时延估计是最关键的一步,它的精确度影响着整个 算法的性能。所谓的时延估计就是通过一定的算法求得信号到达不同麦克风的时间延 时值。一旦求得了时延值,结合一定的几何关系,我们就能得到声源的方位。目前常 用的时延估计的方法有广义互相关(Generalized Cross Correlation,GCC)法,互功率谱 相位(Cross-power Spectrum Phase,CSP)法、最小均方(Least Mean Square,LMS)自适应 滤波等等2425。 3.2.1 广义互相关函数法广义互相关函数法(GCC)(GCC) 广义互相关函数法是在基本相关法的基础上演变而来的,基本相关法是利用下式 中的两个信号和的互相关函数来进行时延估计的26。 1( ) x t 2( ) x t 3 双阵元麦克风阵列时延估计方法 硕士论文 14 1 2 12 ( )( )() x x RE x t x t 12 ( )( )()()Es tw ts tDw t 2 ( ) () ( )()E s t s tDE s t w t (3.10) 112 ()( )( )()E s tDw tE w t w t 假设、互不相关,则上式中的后三项都为 0,不失一般性,令,( )s t 1( ) w t 2( ) w t=1 则有: (3.11) 1 2( ) ( ) ()() x xs RE s t s tDRD 其中为的自相关函数,则由相关函数的性质可以得到,当() s RD( )s t(0)( )RR 时,达到最大值。此时两路信号互相关函数的峰值所对应的时刻就是所D 1 2( ) x x R 求的时延估计。D 互相关函数的主极大峰越尖锐,找出的极大点位置就越精确。然而在实际环境中 由于受到噪声的影响,相关函数的峰值将被延展以致主极大峰过于平坦,这样就影响 极大点位置的判定导致时延估计产生较大的误差。鉴于这个缺陷,人们又在基本相关 法的基础上研究出广义互相关法,使得算法的性能得到了大大地提高。 广义互相关法是在基本互相关法的基础上引入了一个加权函数,通过对互功率谱 密度的调整来提高互相关函数性能。它选择不同的加权因子对两路信号之间的互功率 谱进行加权,对混有噪声的信号进行白化滤波,这样可以抑制噪声的影响,使互相关 函数在时延处的峰更加尖锐,很容易地辨别出峰值的准确位置,最后再将频域反变换 到时域,得到广义互相关函数。这样就可以使互相关函数的峰值得到一定的锐化,从 而提高了时延估计的精度27-28。广义互相关法的原理示意图如下: 图 3.3 广义互相关时延估计法原理图 现将两信号和进行滤波成和,然后再求和的互相关函数, 1( ) x t 2( ) x t 1( ) y t 2( ) y t 1( ) y t 2( ) y t 最后通过峰值检测得到时延估计值。 在上图中,和经过滤波后得到的互功率谱函数为: 1( ) x t 2( ) x t (3.12) 1 21 2 * 12 ( )( )( )( ) y yx x GfHf Hf Gf (3.13) 1 2 * 12 ( )( )( ) x x GfFFT x t FFTx t *表示复共轭,则和的广义互相关函数可以表示成: 1( ) x t 2( ) x t (3.14) 1 11 21 2 12 ( )( )( )( ) jf y yy yx x RFGff Gf edf 其中, 硕士论文 基于麦克风阵列的多声源测向方法研究 15 * 12 ( )( )( )fHf Hf 在实际情况下,我们只能在有限的观察时间里得到的估计值。因此我 1 2( ) x x Gf 1 2 ( ) x x Gf 们将上式改写为: (3.15) 1 11 21 2 12 ( )( )( )( ) jf y yy yx x RFGff Gf edf 其中的就是权函数。由此可以知道滤波的过程实质是在对互功率谱 * 12 ( )( )( )fHf Hf 进行加权。当时就是上述的基本互相关法。为了提高精确度,我们又在基本互( )1f 相关法的基础上提出了一些加权函数,例如 PHAT 权函数、Roth 权函数、SCOT 权函 数、ML 权函数等等。 (1) 相位变换加权(PHAT) 权函数, 1 2 1 ( ) ( ) x x f Gf 那么它的广义互相关函数表达式为: (3.16) 1 2 1 2 1 2 2 ( ) ( ) ( ) x x jf y y x x Gf Redf Gf 理想情况下有: 1 21 2 1 2 1 21 21 2 ()2 ( )( )( ) ( )( )( ) jfjfD x xx x x x x xx xx x GfeGfeGf GfGfGf 则 1 2( ) () y y RD 由此可见,从理论上来讲,即使是处理大信噪比的信号,PHAT 加权不会出现锋 扩散问题,然而实际上由于,则导致从严格意义上来讲并不 1 21 2 ( )( ) x xx x GfGf 1 1( ) y y R 是一个函数。此外因为 PHAT 的加权函数是。所以当信号能量过小的( )f 1 2( ) x x Gf 部分,分母会趋向于零,这样会产生很严重的误差。 (2) Roth 函数加权 权函数, 1 1 1 ( ) ( ) x x f Gf 那么它的广义互相关函数表达式为: (3.17) 1 2 1 2 1 2 2 ( ) ( ) ( ) x x jf y y x x Gf Redf Gf 理想情况下有: 1 21 21 1 ( )( )( ) y yx xx x GfGfGf 这相当于是维纳滤波器,因此它可以减小信号估计易错的部分同时又能有 1 2 ( ) x x Gf 效地抑制较大的噪声功率,但它也会带来一些副作用比如说展宽相关函
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省巴中市普通高中2023级“零诊”考试物理试题(含答案)
- 2025届北京市东城区化学九年级第一学期期中经典试题含解析
- 多囊卵巢综合症的护理
- 湖北省武汉青山区七校联考2026届九上化学期中调研试题含解析
- 电力变送器培训
- 2026届湖北省宜昌市当阳市化学九年级第一学期期中教学质量检测试题含解析
- 浙江杭州余杭区2026届英语九上期末综合测试模拟试题含解析
- 2026届山东省烟台龙口市九上化学期中达标测试试题含解析
- 贵州省黔东南州麻江县2026届化学九上期中学业质量监测模拟试题含解析
- 第二部分 第十一章 第55课时 区域发展对交通运输布局的影响(重难课时)2026年高考地理第一轮总复习
- 中国血脂管理指南(基层版+2024年)解读
- 分子诊断技术在感染性疾病中的应用-深度研究
- 《智能AI分析深度解读报告》课件
- 行测5000题电子版2025
- 《规训与惩罚》课件
- 【MOOC】声乐作品赏析与演唱-扬州大学 中国大学慕课MOOC答案
- 2024年版机电产品国际招标标准招标文件
- 糖尿病高血压健康教育
- 铜府字202322号铜鼓县革命文物保护利用专项规划(公布稿)
- 企业员工心理健康与欺凌防范政策
- 平面构成中的形式美法则
评论
0/150
提交评论