已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I摘要声源定位与跟踪(ASLT, Acoustic Source Localization and Tracking) ,即根据说话人的声音信息去判断说话人的位置信息,这是人机交互中一个非常重要的课题,它可以被广泛的应用于多媒体系统,视频监控系统,视频会议系统以及智能机器人系统,数字助听器等等领域,并且该技术还是这些系统中的核心的课题和技术。例如,视频会议系统中,该技术可以控制摄像机使得摄像机实时的对准和跟踪当前说话人;数字助听器中,该技术可以自动检测说话人的方位并自动指向说话人,实现说话人的声音的定向放大并屏蔽掉无关的噪声。实际的声源环境中,往往会有一些各种各样的噪声,比如空调、电灯以及无关的人声,还有一些由于桌面墙壁引起的反射和混响,都会影响声源定位与跟踪系统的性能。本文研究了声源定位的传统方法以及粒子滤波及其重采样的方法,在此基础上研究了基于粒子滤波的声源定位与跟踪方法的一个通用框架下的四种方法,并在框架中 SBF-PL 的方法的基础上提出了一种基于可控波束粒子滤波的麦克风阵列的声源定位与跟踪的改进方法。该方法在粒子滤波框架下,以可控波束形成(SBF,Steered Beam Forming)作为了观测信息,通过 SBF函数来构建似然函数,从而实现了声源的跟踪和定位。由于标准粒子滤波中的粒子退化问题,本文通过设置阈值的重采样算法来防止粒子退化。实验结果表明,本文提出的方法有效的提高了声源定位和跟踪系统的定位和跟踪能力。关键词:麦克风阵列,粒子滤波,可控波束,声源定位与跟踪IIAbstract Acoustic Source Localization and Tracking(ASLT) is to judge the speakers position information based on the speakers voice information, which is a very important subject in human-computer interaction, it can be widely used in multimedia systems, video monitoring system, video conference system and intelligent robot system, digital hearing aids and so on, and ASLT is the technology or the system core topics and techniques. For example, video conference system, ASLT technology can control the camera, the camera real-time pointing and tracking the current speaker; digital hearing aids, ASLT can automatically detect and automatically point the speaker speakers range, by way of achieving the speaker voice directional amplification and shielding the independent noise.Actually, there are some various noises, such as noises from air conditioning, lamp and unrelated vocals, and some of the desktop wall reflection caused by reverberation, which influence more or less the result of sound source localization and tracking system performance. Considering the noise and reverberation, this paper adopts a kind of steered beam forming particle filter method based on microphone array acoustic source localization and tracking. The method based on the particle filter framework, with steered beam forming (SBF) as the observation information, through the SBF function to construct the likelihood function, so as to realize the sound source tracking and positioning. Because of the standard particle filter particle degeneracy problem, particle degeneration can be prevented by setting resampling threshold. The experimental results show that, this method improves the sound source localization and tracking system in noise and reverberation ability.Key words: speaker tracking, microphone array, particle filter, steered beam formingIII目录缩略词 .1第一章 绪论 .21.1 课题的研究背景 .21.2 国内外的相关研究 .31.2.1 基于高分辨率谱估计技术的声源定位方法 .41.2.2 基于时延估计的定位方法 .51.2.3 基于最大输出功率的可控波束形成的声源定位方法 .51.3 本文结构安排 .7第二章 麦克风阵列声源定位方法研究 .92.1 麦克风阵列模型 .92.2 声源定位方法研究 .132.2.1 基于时延估计的声源定位 .132.2.2 基于波束形成的声源定位 .172.3 本章小结 .20第三章 基于粒子滤波的声源跟踪算法的研究与改进 .213.1 粒子滤波简介 .213.1.1 贝叶斯估计 .213.1.2 标准粒子滤波 .233.1.3 粒子的退化问题 .263.2 基于粒子滤波的声源定位与跟踪算法的通用框架 .313.2.1 动力学方程 .343.2.2 定位函数 .353.2.3 似然函数 .373.2.4 算法总结 .393.3 SBF-PL 改进算法 .403.4 跟踪精度评价参数 .413.5 本章小结 .43第四章 实验仿真与分析 .444.1 实验条件 .444.2 数据采集 .474.3 数据处理 .494.4 实验结果与分析 .49第五章 总结与展望 .60参考文献 .62附录 攻读硕士学位期间撰写的论文 .65致谢 .66南京邮电大学硕士研究生学位论文 缩略词1缩略词ASLT Acoustic Source Localization and Tracking 声源定位与跟踪PF Particle Filter 粒子滤波SBF Steered Beam Forming 可控波束形成MA Microphone Arrays 麦克风阵列TDOA Time Delay of Arrival 到达时延FFT Fast Fourier Transform 快速傅里叶变换MV Minimum Variance 最小方差AR Auto Regression 自回归GCC Generalized Cross Correlation 广义互相关DOA Direction of Arrival 到达方向DSB Delay-Sum Beam Forming 延时求和波束形成SRP-PHAT Steered Response Power PHAse Transform 可控概率响应相位转换PL Pseudo-Likelihood 伪似然函数GL Gaussian Likelihood 高斯似然函数GCC-GL Generalized Cross Correlation-Gaussian Likelihood 广义互相关高斯似然函数GCC-PL Generalized Cross Correlation- Pseudo-Likelihood 广义互相关伪似然函数SBF-GL Steered Beam Forming- Gaussian Likelihood 可控波束形成高斯似然函数SBF-PL Steered Beam Forming- Pseudo-Likelihood 可控波束形成伪似然函数RMSE Root Mean Square Error 均方根误差MSTD Mean Standard Derivation 平均标准偏差FCR Frame Convergence Ratio 帧收敛率南京邮电大学硕士研究生学位论文 第一章 绪论2第一章 绪论1.1 课题的研究背景随着计算机技术的发展,网络带宽的空前增加,视频的电话会议系统渐渐成为跨国公司的标配,视频的电话会议系统实现了通信的功能,拉近了人们之间的距离,也很好的为公司节约了开会的成本。但是传统的视频会议系统,采集视频的设备经常被固定在室内,并由专人根据当场的情况人工移动摄像头使其对准说话者。这种设计比较容易造成视频死角,并且比较容易分散与会者的注意力,而且当说话人改变的时候,还不能快速得将摄像头对准当前说话者。所以这种设计增加了视频会议的成本和不方便性,亟需能够自动实现说话定位与跟踪的智能视频会议系统。有专家使用了根据运动图像跟踪的方法。通过对运动图像的识别,从而达到跟踪的目的。但是鉴于图像数据的数据量要比声音数据的数据量大的多,而且图像识别的复杂度也要比声音的复杂度要大,所以在视频会议这种需要实时跟踪的应用上,单纯的图像跟踪的方法是不太可取的。在实际中应用较多的定位跟踪方法是基于声源信息的跟踪,该方法主要通过麦克风阵列采集声源数据,后台使用数字处理设备对其进行分析和处理,进而确定和实时的跟踪说话人的位置。麦克风阵列是一种新兴音频信号拾取设备,该设备是以阵列信号处理理论为基础而发展起来的。相比于单个麦克风,它可以较好的提高信噪比,更能实现声音源的定位与跟踪。近年来,在车载系统、机器人控制、语音识别、助听器等方面,自此,麦克风阵列才逐渐被研究者重视和研究。麦克风阵列声源定位和跟踪技术有着较广阔的应用前景,例如在无人干预的视频电话会议中,如果得到准确的声源位置,不仅可以控制摄像头朝着声源,还能联合波束形成技术而得到较高质量的语音信息。其它的应用,诸如自动语音识别和说话人识别系统,都对输入声音信号的质量比较敏感。大多数情况下,说话人具体的位置信息是获得清晰语音的非常重要的前提条件,尤其在网络视频会议系统中有着关键的应用。在视频会议中,通过声源定位与跟踪技术控制摄像头,使摄像头自动转向目标说话人的方位;在高速行驶的车辆上,车载免提电话可以避免驾驶者用手接打电话导致的危险。但如果车中说话人较多,该系统将无法辨别真正目标说话人的语音,此时需要系统去定位目标说话人的位置,得以提取驾驶员方位的语音,削弱非目标说话人的语音以及噪声,进而对其命令做出一定的响应;数字助听器的定位功能的出现帮助了听力障碍人士确定对象说话者的位南京邮电大学硕士研究生学位论文 第一章 绪论3置,并指向对方,从而定向放大说话人的声音,屏蔽其它无用的噪声,使得语音更加的清晰,从而实现语音增强的功能。近来,基于阵列麦克风的电子笔系统逐渐进入了研究者的视野,该电子笔能够在屏幕上书写和完成一些控制操作,该系统主要依赖于集成在显示器边缘的麦克风阵列接收声源信号。除了如上的视频会议的应用之外,声源定位与跟踪技术还可以应用在数字助听器上。该技术可以自动检测说话人所在的方位,然后自动调节麦克风的指向,从而定向放大说话人的声音并屏蔽掉无关的噪声,使得失聪人士能够很好的听到说话人的声音。本人就是结合国家自然科学基金数字助听器的声源定位与方法的方向而展开的研究的,主要研究的是基于粒子滤波可控波束(PF-SBF, Particle Filer-Steered Beam Forming) 1的麦克风阵列声源定位与跟踪。因此,麦克风阵列声源定位与跟踪的技术在多媒体通信的各个领域都有需要,而目前跟踪性能和跟踪的精度不够,这是一个亟需研究和解决的问题。1.2 国内外的相关研究麦克风阵列(Microphone Array) 2,3,又称阵列麦克风、传声器阵列,就是由一组按一定几何结构摆放的麦克风组成的接收系统,以接收到来自空间内不同方向的信号,传递和记录在计算机系统上,并对其进行空时处理,以完成相应的功能。麦克风阵列主要被用于语音增强、去除噪声、声源定位和跟踪等用途。麦克风阵列声源定位就是从麦克风阵列接收信号中确定声源的位置信息。图 1.1 即为一例麦克风阵列示意图图 1.1 麦克风阵列模型图南京邮电大学硕士研究生学位论文 第一章 绪论4目前实现目标定位跟踪的方法主要有声源定位跟踪,图像的定位与跟踪,以及基于音视频信息的联合跟踪。而基于声音信息的跟踪和定位技术在目前而言是使用最为广泛的定位技术。传统的基于麦克风阵列的声源定位方法可以分为三种 13:1、基于高分辨率的谱估计方法;2、基于时延估计(TDE, Time Delay Estimation)的定位方法;3、基于最大输出功率的可控波束形成(SBF, Steered Beam Forming)的定位方法 24。1.2.1 基于高分辨率谱估计技术的声源定位方法该类声源定位技术是利用接收信号相关矩阵的空间谱,求解麦克风阵列间的相关矩阵来进一步确定声源位置。高分辨率谱估计的定位方法包括特征子空间类法、最小方差(MV)谱估计法、自回归(AR)模型法和最大熵法。现实情况中,该定位方法的空间谱的相关矩阵是未知的,可以根据观测信号来估计,这就需要对时间间隔内所有信号求和再平均。但是还要求接受信号必须处于噪声、声源、估计参数不变的情形下,以及有足够的信号平均值。但是,即使满足上述条件,该算法也不如传统的波束形成方法对声源和麦克风阵列模型误差的鲁棒性好。该方法是为了解决窄带远场信号的估计。但麦克风阵列信号处理,信号源不一定是远场信号,多是针对室内环境下的宽带自然语音信号。因此,此时高分辨率估计方法的基本前提远场窄带的假设不成立。所以这种高分辨率谱估计和阵列麦克风的综合效果也不佳。基于高分辨谱估计的定位方法在基于麦克风阵列声源定位系统效果较差的原因有以下几点:(1)该方法只能处理接收信号为典型的窄带信号的情况,有较高的中心频率 ,最高cf频率 与最低频率 之差相对较小,而基于语音的声源定位与跟踪的麦克风阵列接收到的信cflf号是自然宽带的语音信号。(2)该方法处理的信号为平稳电磁波信号,用较长的时间累计来获得较准确的信号相关函数,而人类的语音信号为短时平稳的语音信号,因此在时域难以获得准确的相关函数,算法性能可能会有所下降。(3)该方法假设声源距离麦克风阵列比较远,是远场信号处理,这样声波可以近似看成平面波,而这个假设对于在室内环境下声源定位系统是不成立的。(4)房间存在混响,导致信号与噪声有一定的相关性,也会使得该方法的有效性有所降低。南京邮电大学硕士研究生学位论文 第一章 绪论5(5)该方法假设麦克风阵列接收的噪声为高斯白噪声,但在室内环境,典型的噪声有空调风机发出的噪声、风扇噪声和工作中的计算机发出的噪声等等,而这些噪声不满足空间白噪声的条件,可能导致定位性能下降。1.2.2 基于时延估计的定位方法基于时延估计(TDE, Time Delay Estimation) 的声源定位方法 1的基本方法是:先估计各麦克风之间的相对时延,然后再利用这个时延来确定声源的具体位置。该方法主要由时延估计和空间定位两部分组成。第一步,时延估计。声源位置的估计精度取决于时延的估计精度。由于噪声和室内混响的存在,精确的估计时延就变得困难。目前,时延估计的算法主要是有:广义互相关函数法(GCC, Generalized Cross Correlation)1,5和 LMS6,7,8自适应滤波器法。第二步,空间定位。即根据第一步计算出的时延 ,来确定声源的位置。把时延转化成空间位置的方法有两种:一是用获得的时延求个目标函数,通过搜索的方法来确定声源的位置;二是通过几何插值估计出声源的位置。前一方法需进行大量的搜索,计算量较大,难以在实时系统中实现,因此常用第二类定位方法,用次优的方法通过几何插值的方法来得到声源的估计位置信息。基于时延估计的声源定位方法 5,6,7,8也有它的不足之处。其一是实时性不够。因为该方法是分成估计时延和空间定位两个阶段来进行的,因此在定位阶段用的参数已经是过去时间的估计,这只是对声源位置的次最优估计;其二是对单声源效果优。就目前的研究而言,该方法多适合于单个声源的定位,而对多个声源的定位效果不好;其三是实际条件下,效果不佳。尤其是在较强混响和噪声的环境下,很难进行有效的估计。1.2.3 基于最大输出功率的可控波束形成的声源定位方法在几种定位方法中,该方法较早出现,也较多的应用在实践中。该方法的基本思想就是将各麦克风采集的信号进行加权求和形成波束,通过搜索声源的可能位置来引导该波束,修改权值使得麦克风阵列的输出功率最大,也就是利用波束形成(Beam Forming)技术,搜索所有可能有声源的空间,最终得到的声源的估计位置将使得信号的波束输出功率最大。最简单的波束形成器的权值取决于各麦克风信号的相位延迟,而相位延迟又与时延和空间信号到达方向(DOA, Direction of Arrival)有关,故称之为延时求和波束形成器(DSB, Delay-Sum 南京邮电大学硕士研究生学位论文 第一章 绪论6Beamformer) 9,21。复杂的波束形成器不仅进行时延补偿,同时还对信号进行滤波,滤波器不同,形成的算法也就不一样。该方法是一种直接定位方法,从本质上说,是一种最大似然估计,它需要知道声源、混响和背景噪声等的先验知识。但在实际应用中,这些先验知识往往很难获得,这一点也成为了该方法在声源定位应用中的一个软肋。而且波束形成方法抗噪声性能不佳,往往比较依靠多个麦克风同时接收信号才能消除噪声的问题。最后,该方法计算的复杂性,因此很难应用在实时的声源定位系统中。以上三种传统声源定位方法都只是在特定的环境下有着较好的定位与跟踪性能,但也有各自的应用范围的局限性,总体而言,它们都存在如下局限之处:(1)跟踪性能差。当声源在发声时,位置改变时,传统声源定位方法对声源的实时定位效果不好。尤其是在强噪声,强混响的环境下很难对移动声源进行跟踪。(2)抗噪声能力差。以上三种声源定位方法都是对当前时刻所接收到的信息进行分析和处理,以达到对声源的位置进行估计的目的。所以,它们的定位估计能力比较容易受到当前时刻所接收到的信号的影响,若当前噪声和混响比较小,则定位精确;反之,如果低信噪比强混响的条件下,定位性能就比较差。针对以上问题,一些新的解决方法 10,11被陆续提出,包括最著名的卡尔曼滤波方法。卡尔曼滤波方法是解决线性高斯问题的最优滤波方法,但现实环境中,大多都是非线性非高斯的情况,也就是非线性滤波情况,卡尔曼滤波在非线性和非高斯问题上的应用前景非常有限。而且在许多领域都涉及到非线性滤波,其中包括生物统计学、经济学、统计信号处理、以及工程领域中的机器人定位、汽车定位与导航、目标跟踪、雷达跟踪等等。目前解决非线性滤波问题新的最有效的方法是粒子滤波,该方法是基于蒙特卡洛思想的非线性、非高斯系统的滤波方法,完全突破了卡尔曼滤波理论的框架,它对系统的过程噪声和量测噪声没有线性和高斯的要求。因此粒子滤波在解决非线性滤波问题上远远优于卡尔曼滤波方法,尤其对于系统特性未知的情况。国外已经将粒子滤波算法成功的与声源定位跟踪方法相结合,以提高声源的定位和跟踪性能,如文献 21,22,23的声源定位跟踪方法就是基于粒子滤波的基本思想,一方面解决由于房间混响引起的虚假声源的问题;另一方面,也解决在实际跟踪过程中声源暂时静音下的跟踪问题。总体而言,基于粒子滤波的声源定位与跟踪方式是一种精度较高、实时性较好的声源定位跟踪方法。在国内而言,这方面的研究还都在起步阶段,如滕鹏晓等提出的基于数据级南京邮电大学硕士研究生学位论文 第一章 绪论7融合的多阵列联合处理,并使用粒子滤波提高定位精度的方法 24;金乃高等提出的基于分层采样粒子滤波的麦克风阵列说话人跟踪方法 25,26。在非线性非高斯动态系统的参数估计和状态滤波问题上,粒子滤波算法已经成为主流解决方法,但粒子滤波方法有很多需要解决和克服的难题,也有很多需要不断的开拓和创新的地方。譬如说,设计更有效的重采样算法;克服算法中的权值退化以及样本枯竭的有效方法;在具体应用中给出最优的建议分布;在高维数条件下对维数不敏感的粒子滤波算法;各种粒子滤波方法的高效实时问题等等。因此我们还有必要继续进一步深入研究粒子滤波算法,完善其理论体系,拓展其应用领域。1.3 本文结构安排本文先详细的介绍了传统的声源定位的方法以及粒子滤波的一些基本知识,并在此基础上把传统声源定位的方法中可控波束的方法和粒子滤波的方法结合起来,实现了声源的定位与跟踪。但是由于粒子滤波方法本身的粒子退化的特点,本文在最后又把粒子滤波中重采样的方法应用到声源的定位与跟踪的方法中,多样化了采样点的粒子集,同时也提高了长时间跟踪说话人的精确度。本文共分了五章,论文章节安排如下:第一章 绪论。简述了声源定位与跟踪的目的和意义,并阐述了声源定位与跟踪的现有技术:高分辨率谱估计技术、时延估计以及可控波束技术。以及现有各种方法的所存在的问题问题,并引入了粒子滤波。同时,给出了本文的章节结构。第二章 麦克风阵列和声源定位方法。首先介绍了麦克风阵列的信号模型;然后又详细的研究了声源定位的基本原理和两种传统的方法:时延估计和可控波束的方法。第三章 基于粒子滤波的声源定位与跟踪的算法。本章是把声源定位传统方法和粒子滤波的方法结合起来,并形成了一个基本的基于粒子滤波声源定位与跟踪的基本框架。介绍了两种定位函数:TDE 和 SBF、两种似然函数:GL 和 PL,并结合起来组成四种方法:GCC-GL,GCC-PL, SBF-GL, SBF-PL,并对这四种方法做了简要的介绍。第四章 实验仿真与分析。本章是在上章的理论和算法的基础上,对算法做的实验和仿真。分为:数据采集和数据处理两部分。为了确保实验的可重复性和真实性,本章首先介绍了实验室的硬件设备,软件设备,之后是数据的处理过程和结果及分析。第五章 总结与展望。对本文所提出方法做一个总结,并指出了本文算法的不足之处,南京邮电大学硕士研究生学位论文 第一章 绪论8以及一些需要进一步改进和提高的地方。并对声源定位与跟踪的应用场合的前景,以及粒子滤波技术的未来发展进行了展望。最后列举了一些粒子滤波和声源定位(PF-ASLT, Particle Filter-Acoustic Source Localization and Tracking)方法中可以扩展和继续深入研究的几点思路。南京邮电大学硕士研究生学位论文 第二章 麦克风阵列声源定位方法研究9第二章 麦克风阵列声源定位方法研究因为采集声源的设备是麦克风阵列,所以本章以介绍麦克风阵列的信号模型为开端,又研究了两种最常用的声源定位的方法:基于时延估计的方法以及可控波束的方法,以及各自的改良算法。2.1 麦克风阵列模型麦克风阵列是指由一定的几何结构的若干个麦克风排列而成的阵列。麦克风阵列比单个麦克风具有很大的优势,使用电子瞄准技术,麦克风阵列可以从所需要的声源方向获得声音信号,并得到高质量的声音信号,同时其它方向的声音和环境噪声还可以受到有效的抑制,有着很强的空间选择性。而声源定位技术就是根据麦克风阵列接收到的声源音频数据信号来确定声源的方向和位置信息。传统的定位是采用雷达技术,而麦克风阵列定位方法要比雷达定位技术具有更好的隐藏性,抗干扰强等优势。正是基于其得天独厚的优势,基于麦克风阵列的应用逐渐的成为一门新兴的技术。20 世纪 80 年代以来,麦克风阵列在信号处理领域得到了迅猛的发展,并在雷达声呐以及通信以及后来才扩展到的语音信号处理研究中。1985 年麦克风阵列被 J.Flanagan28引入到大型的会议的语音增强中;1987 年麦克风阵列技术又被 Silverman2,27引入到语音识别系统中;1992 年又将其应用到说话人识别和噪声下的语音获取。1995 年传声器阵列又被J.Flanagan 在混响条件下捕获声源;Silverman 和 Brandstein 于 1996 年将传声器阵列应用在说话人跟踪。国内这个领域的研究还不是很多。下面先介绍一下麦克风阵列的一些基本知识。已知阵列麦克风的具体位置,再加上麦克风采集到的语音信息,可以实时的使用数字信号处理技术去算的所需要的数据。麦克风阵列常被用于声源的定位与跟踪,以及语音增强等等领域。下图为简单的麦克风阵列示意图南京邮电大学硕士研究生学位论文 第二章 麦克风阵列声源定位方法研究10由图可知,麦克风阵列接收到的信号包括直达信号以及经过墙壁等刚性面反射过的声源信号,还有背景噪声。声源在开始发声一直到停止发声这个阶段中,声音将始终在室内不断的反射,声音信号也越来越弱。令房间平均吸声系数为 ,声源停止发声时房间内平均能量密度为 ,声波经0过 次反射后,房间内的平均能量密度 为NN(2.1)0(1)设房间总体积为 ,体积为 ,房间的平均自由路程 ,则时间 内发生的反射SV4/LVSt次数为 ,于是, 时刻房间内的能量密度 为/NctLt t(2.2)/40(1)cStVt扩散声场中各点的平均能量密度可以看成许多不相干声线平均能量密度的叠加,则 时t刻的有效声压 为tP(2.3)2/40(1)cStVtP当语音信号在房间等封闭环境内传播的时候,由于墙壁等刚性面的反射,语音信号在封闭环境内有了多径传播,从而导致混响现象,这样麦克风阵列接收到的语音信号不仅包括直接到达的直达信号,还包括通过其他方式反射过来的信号。从初级声压降低 60dB 所需要的时间称之为混响时间 ,混响时间表示着封闭空间内的混响程度。60T当平均吸声系数 时,可求得混响时间,它的计算方法如下:.2声源阵列麦克风背景噪声图 2.1 麦克风阵列示意图南京邮电大学硕士研究生学位论文 第二章 麦克风阵列声源定位方法研究11(2.4)60.1VTA其中 , 表示第 种材料的吸声系数, 表示第 种材料的表面ijASAii iSi积,而 则表示室内(主要是家具)难以确定表面积的物体吸声量。j当室内表面的平均吸声系数 时,可知混响时间 为室内平均吸声系数 的函数0.260T(2.5)615log()TVcS多径效应会加大室内空间的混响程度,而混响程度也影响着麦克风阵列的定位性能,所以室内脉冲响应的模型特别需要考虑多径效应的因素。典型的混响模型是 Allen 等人提出来的 IMAGE 模型。设两个位于位置 和 的麦克风阵列的接收到的噪声分别为 和 ,它们各自的irj ()inj自功率谱以及互功率谱分别为 、 和 。噪声的空时域模平方相干函数(,)ir(,)jr(,)ijp为(2.6)22,()()()ijijij jCr当 =1 时,称为相干噪声场,典型的相干噪声场环境就是无混响的房间。但是在实()ij验室的声源环境中,由于墙壁窗户的反射而存在混响,从而改变了噪声场的空间特性,使得单噪声源分散为多方向的镜像源,此时该空间噪声场近似于散射噪声场,而且当,常导致噪声在高频段弱相干,在低频段强相干。设声速为 ,散射噪声场的0()1ijC c空时域模平方相干函数可描述为(2.7)sin(/)()ijijpcC南京邮电大学硕士研究生学位论文 第二章 麦克风阵列声源定位方法研究12图 2.2 线性麦克风阵列模型声源声源与麦克风的距离为 ,麦克风阵列的孔径为 ,波速波长为 ,如图 2.2 所示。声rR源和麦克风阵列的距离满足远场假设条件:2r对于均匀分布的线性的麦克风阵列,麦克风阵列孔径 ,其中 为两个麦克风之Md间的距离, 为该阵列中麦克风的数目。M下面介绍一下麦克风阵列的的信号模型。在有混响的房间里有 个麦克风,且只有一个声源的话,那么第 个麦克风在第 个时mt刻接受到的信号为:(2.8)()(),12,mmstutxntMgK其中 是与 无关的加性白噪声。房间冲击函数(RIR, Room Impulse Response)可()mntxt以写为(2.9)()()mmutat其中 是直接路径的 RIR,而 是由于混响而导致的 RIR。()mat南京邮电大学硕士研究生学位论文 第二章 麦克风阵列声源定位方法研究13RIR 的直接路径部分 的傅里叶变换是:()mat(2.10)11exp(|)|smsmAjcll其中 是声源位置坐标, 是麦克风位置坐标, 是欧式距离。sl |:在第 帧,每帧 个采样,对于第 个麦克风而言,接收到的数据tK,(0)(1)tmttmss把 个麦克风堆叠在一起就是:M(2.11),1,tttMs这代表着在第 帧,麦克风阵列接收到的数据。t2.2 声源定位方法研究这里主要介绍两种声源定位方法:间接方法和直接方法。间接方法就是先估计出时间差,再根据时间差估计出声源的具体位置坐标,也就是基于时延估计的方法(TDE, Time Delay Estimation) ;直接方法就是直接算的波束值,最大波束值对应的坐标值即为声源的估计位置,也就是基于波束形成的方法(SBF, Steered Beam Forming ) 。2.2.1 基于时延估计的声源定位在第一章绪论中介绍,使用麦克风阵列对声源定位的方法中,采用时延估计法有计算简墙壁图 2.3 典型的室内布局图桌子南京邮电大学硕士研究生学位论文 第二章 麦克风阵列声源定位方法研究14单,定位准确等优势。因此在实际使用中,麦克风对的时延常采用经典的广义互相关(GCC, Generalized Cross Correlation)法或其改进算法。但实际环境下,往往存在着混响和噪声,这些噪声和混响都严重的影响麦克风接收信号的质量,从而也会导致该方法的准确率不高。设该麦克风阵列共有 个麦克风组成,每两个都是一对,则共有 对组合。同M(1)2M一语音信号到达这对麦克风的时间往往是不同的,也就是说,麦克风阵列的第 对麦克风接m收同一个语音信号时往往存在着一定的时间差。这个时间差就被称为这对麦克风的到达时间差,又称为时延(TDOA, Time Difference of Arrival) 。假定声源位置为 ,这一对麦克风的位置为 和 ,则时延为:l 1m2(2.12)llc上式中, 是声速,常取 340m/s。由公式(2.12)可得,声源位置 在图 2.4 所示的双曲c l面的曲面上,其中该曲面以 和 为焦点。如下图。1m2图 2.4 双叶双曲面图由图可知,如果只有一对麦克风数据的话,整个曲面都是声源可能存在的位置,时延也就更不能由此得出。若取麦克风阵列中几对不同位置的麦克风对,每一对都会形成类似上图的曲面,从理论层面上讲,这些曲面的交点就是声源 的真实位置。如果经过计算机有l南京邮电大学硕士研究生学位论文 第二章 麦克风阵列声源定位方法研究15限的计算能力计算不到交点,那就可能是因为噪声混响的原因。这时候就只有通过其他方式来估计时延 。使用经典的广义互相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《GBT 31427-2015 煤灰熔融性测定仪技术条件》专题研究报告
- 2025年自考护理学(专科)《儿科护理学》模拟卷及答案
- 2025年驾照考试科目四1500题(新题型)及答案(七)
- 厂矿用机车司机安全文明考核试卷含答案
- 玻璃钢制品喷射工安全文明考核试卷含答案
- 经编机操作工岗前工作标准化考核试卷含答案
- 动物胶提胶浓缩工设备技术规程
- 汽车电气装调工岗位应急处置技术规程
- 桥式起重机司机岗位合规化技术规程
- 资产管理师风险评估与管理水平考核试卷含答案
- 梅兰芳的资料
- 21ZJ111 变形缝建筑构造
- 财务报表中英文对照版
- 最小作战单元以盾棍叉战法为例
- 落实加强换届风气监督工作情况汇报范文三篇
- 2023级数值分析试卷
- 心律失常心电图课件
- 前列腺病历医疗范本参考
- 八大危险作业培训-课件
- 2023年深圳市网格员招聘笔试题库及答案解析
- 门窗工程观感质量验收标准
评论
0/150
提交评论