




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南 京 理 工 大 学毕业设计说明书(论文)作 者 :学 号:学院 (系 ): 电子信息工程与光电技术学院专 业 : 电子信息工程题 目 : 基于互谱聚类的麦克风阵列多源定位技术研究指导者: (姓 名) (专业技术职务)评阅者: (姓 名) (专业技术职务)2013 年 5 月许志勇 副教授毕 业 设 计 说 明 书 ( 论 文 ) 中 文 摘 要随着声源处理越来越被重视,对声源的精确定位已成为众多学者的研究对象,并广泛应用于军事、科研、生活、工业等领域。本文主要研究的是在多源的情况下利用双麦克风阵列进行目标声源角度定位的方法,采用的是基于互功率谱相位时延差的测角方法,将时域中不易分离的声源信号转化为时频域中易于分离的信号。该方法先对声源信号取傅里叶变换,得到各声源信号的互功率谱,再利用互功率谱的相角信息得到时延值,由时延值大小将采样点分类。分类后将各类中采样点的互谱幅值聚类加权得到功率峰,根据功率峰便可分离信号源。最后利用一维到达时延差进行反正弦变换即可获得语音源的角度信息。关键词 麦克风阵列 多源定位 互谱加权 时延毕 业 设 计 说 明 书 ( 论 文 ) 外 文 摘 要Title Multisource localization technology research based on the microphone array via cross-spectral clustering AbstractWith the sound source processing more and more attention, the precise positioning of the sound source has become the object of study of many scholars, and is widely used in military, scientific research, life, industry and other fields. This paper studies the use of dual-microphone array for target sound source angle positioning method used is based on cross-power spectrum phase delay difference angle measurement method, easily separated in the time domain signal into time-frequency sound source domain easy to separate signals. This method is first to take the Fourier transform of the source signal, the sound source signals to obtain the cross power spectrum, and then cross-power spectrum using the phase angle information is delay value, the delay value of the sampling point size classification. Classification of sampling points will be all kinds of cross-spectral amplitude weighted clustering get power peak, the peak can be separated according to the power source. Finally, one-dimensional differential delay arrival arcsine transformation can be obtained for speech source angle information.Keywords Microphone array Multisource localization Cross spectrum weighted Delay目 录1 引言 .11.1 研究背景和意义 .11.2 国内外研究的概况及发展趋势 .21.3 本文的主要内容及构成 .32 麦克风阵列基本测向原理 .32.1 基于到达时间差的测向原理 .32.2 基于空间谱估计(DOA)的定位原理 .53 声音信号的互谱聚类算法 .63.1 常用的时延估计法思想 .63.1.1 广义互相关法 .63.1.2 最小均方自适应滤波法 .73.1.3 互谱加权时延估计思想 .73.2 互谱聚类麦克风阵列的测向算法 .84 实验仿真及结果分析 .104.1 实测数据分析 .124.2 仿真操作说明 .194.3 误差来源分析 .195 实验遇到的问题及解决方法 .205.1 声音采集 .205.2 样 本制作 .205.3 matlab 仿真 .216 体会与收获 .22结 论 .23致 谢 .24参 考 文 献 .251 引言1.1 研究背景和意义通信的发展日新月异,随着信息的发送接收形式及效率的优化,对语音信号的有效处理及定位问题也成为人们研究的热点问题之一。当今社会,声音以各种形式在丰富着人们的生活,带给人们愉快的享受。如车载电话中定位说话人的语音的方向进而进行语音增强;视频会议 1中定位说话人,完成波束自动控制自动控制摄像头;工业降低噪声 2 创造和谐温馨的工作环境和居民生活环境,机器人听觉 3领域对情感机器人的改进等。而这些都是以声源定位为前提实现的,可见有效的声源定位对当今快速发展的通信行业有着重大的研究意义。声源定位不仅应用于可知声源,对于不可知声源同样发挥着不可小觑的作用。在视觉不可察觉的角度范围中,如单方向视角看不到的或是被一些障碍物遮掩了的声源,通过声源定位技术我们仍可以实现其定位从而分辨或者寻找目标。声源定位突破了可见的限制,有着衍射与透射的特性,因而在恶劣的环境条件下,它优于依靠电磁传播与可见光线目标探测的方法,仍可以无干扰的进行声源探测。此外,声源定位良好的隐蔽性也使其倍受青睐。如雷达探测需要先发射一个信号,通过目标的反射回波来确定目标的位置信息。声源探测则可以不需要发出检测信号,直接利用接收到的声源发出的声音信号来进行识别与检测,大大降低了被发现的概率,声纳探测系统就是一个很好的应用例子。另外,声源定位的设备要求往往比激光、电磁波定位技术所需的设备成本要求低,有着较高的生活实用推广价值。要得到有效的声源分离,传统的单麦克风传感器有着致命的缺点,当所需采集的语音信号存在来自四面八方的噪声,或者是存在多源的情况时,信源信号和噪声的信号往往在时间和频谱上出现交叠,很难有效的分离目标信号,使得声源探测举步维艰。麦克风阵列 4-9系统则可以有效分离多个语音源且在一定程度上防止了杂乱无章的噪声及混响对语音定位研究的影响。其最基本的原理是基于一组传感器对于同一信号输出的差别来进行测向,是指一组空间摆放位置不同的麦克风元,采集到混合声音信号后,对各个麦克风元的输出进行分析处理,最终得出信源方位的装置。由于阵列系统的优势所在,阵列被应用到多个领域,如雷达的相控阵阵列,狙击手定位系统、声纳探测阵列系统、医学检验、地震的检测等。阵列测量系统还拥有着波束测量活动性高、空间分辨率高的优点,使得阵列系统在稍微复杂的场合已经代替了传统的测量传感器并逐渐成为主流技术。在阵列的应用中,利用谱聚类 10-16的声源定位方法可以克服了声音信号在时域上的重叠及频谱上的交叠,将单纯的时域声音研究转化为时频域的研究,由于语音信号的时频稀疏性及频率上的错频正交性,因而在时频域中可以有效分离声源信号。基于这些技术的发展和人们对通信的需求,麦克风阵列的基于互谱聚类的声音定位的研究显得尤为重要且有着影响现代通信产业链的意义。良好的声源定位应用于国防安全,科技开发,医疗保障等领域中,显现着长远的经济效益和良好的社会效益。1.2 国内外研究的概况及发展趋势传统的声源方向估计大体上可分为三类:基于可控波束形成器的算法、基于高分辨率谱估计的算法、基于声音到达时间差(Time Difference of Arrival,TDOA)的算法。到达时延差(TDOA)估计,是基于一维平面利用不同声源的角度不同导致到达麦克风时间不同来估计声源方向的。但是对于空间声源及有噪声和干扰存在的情况下,该方法估计并不能很好的分离声源且存在估计模糊,取而代之的是传统的波束形成方法。传统的波束形成方法可以实现增强期望信号,削弱干扰及噪声信号的功能,它将麦克风阵列的各个传感器的输出加权,最终得到能量加权值进行空间波束法估计。这种波束形成方法虽然操作简单,易于实现,但是为了达到良好的分离性能,就需要有大量的麦克风阵元,而且会受到瑞利限的限制。如同雷达的扫描波束一样,当两个信源同时位于麦克风阵列的波束宽度之内时,便不能区分出两个声源信号,因此也不是较佳方案。基于高分辨率谱估计的算法,是求各路声音信号相关矩阵的空间谱,利用其中的空间信息来估计声源的位置。为了能更好的得到目标信号的角度信息,基于加权的分析也随之兴起,如 1976年,Knapp 和 Cater 就共同发表了一篇 “广义相关法时延估计”(The Generalized Correlation Method for Estimation of Time Delay)的著名论文,其在广义相关时延估计的理论基础上集合了多种基于相关的加权时延估计方法。在低的混响条件下,SNR 加权的归一化互相关(GCC)法和 ML-类型加权法广为应用,初步克服了噪声和混响对语音分析的影响。到 1996 年,Silverman 和 Brandstein 开始将阵列信号处理技术应用于声源定位中,用于测量说话人的位置并对其进行实时跟踪 17,18 。而随着语音处理领域技术的提高及科技必须提高的要求,摆脱频率的束缚,有效估计信源方位提出了必须改进的要求,互谱功率相位法(CSP)可以减少对频率的依赖,依据互相关函数的峰值的明显化来分离各个源。但随着低信噪比中信源方位的研究日渐提上日程,我们已不能满足于互谱功率相位法,因此提出了一种改进方法,基于互功率谱相位和信源频率的时延估计方法,解决了噪声和混响对信源估计影响严重的难题。综合看,对声源定位的研究主要在国外的发展较为迅速,国内的发展相对迟缓了些。从发展方向来看,目前的声源定位多用于军事领域,如战场目标音的识别, ,声探测的预警系统,飞机探测系统等。因此声音定位的研究有着重大及深远的意义。1.3 本文的主要内容及构成本文主要目的是在多源的情况下,用双麦克风实现目标声源的角度定位。主要工作内容是利用麦克风阵列和相关采集软件采集的声源样本,通过互谱聚类相位时延算法将声源样本由时域研究转化为时频域的研究,分离出声源并计算得到声源的角度信息。最后利用 cool edit 软件及 matlab 软件通过仿真对算法的正确性进行验证。文章主要由 3 部分构成,第 1 章主要讲声源定位的背景、意义、国内外研究现状及发展趋势。第 2 章主要讲麦克风阵列多源定位的基本原理。简单介绍了基于到达时间差和基于空间谱估计的方法。第 3 章主要讲语音信号的互谱聚类算法。对几种常用的时延估计算法的思想进行了简单的描述,对互谱聚类的思想和具体算法做了详细阐述。第 4 章主要列出了仿真的结果及分析说明。以所采集的声音样本为输入,录入matlab 中进行仿真,检验算法的正确性,比对真实环境充的测量结果并作出可能引起定位误差的原因推断。第 5 章记录了实验遇到的问题和解决方法。第 6 章为体会与收获。2 麦克风阵列基本测向原理2.1 基于到达时间差的测向原理我们在此仅研究远场模型麦克风阵列的测向原理。所谓的远场,即声源到各麦克风的距离远大于麦克风之间及间距,即声源距离 s2d2/ min时,此时声音传播到各麦克风的路径可以认为是相互平行的直线。我们认为远场是麦克风接收到的声波为平面波,因此我们可以做出远场麦克风一维时延估计时的图形如下:图 2.1 双麦克风阵列测向示意图设 D 为两个麦克风之间的距离,第 n 个目标的角度(即波达方向)为 n,则两麦克风接收的信号一维时延值: (2-1-*si/nDC1)其中,C 为声音在空气中传播的速度,通常认为是 340m/s。我们通常所认为的基于到达时延(Time Delay of Arrival,TDOA)声源定位方法就是一维的时延估计方法,其根据传感器测量的同一信号的不同的时延估计值,计算目标声源的位置。我们的依据是是:由于声波入射到不同阵元所通过的路程不同,当然时间也会不同,所以必然会存在一定的波程差。实际生活中我们不太可能直接得到波程差,只能测量声波到达不同阵元的时间差,利用测量得到的一组时延值来估计波程差,进一步实现声源定位。这个波程差,就是我们最终获得估计值的关键点。我们对各阵元空间位置信息建立数学模型,得出时延估计,再利用麦克风阵列的几何形状来估计声源到麦克之间的距离差,最后利用简单的上述式(2-1-1)几何算法就可以得到声源位置的估计。时延估计的声源定位方法比较适合单个声源的定位,其具有计算量小,精度较高的优点。但是这种定位方式时延估计的精度会直接影响定位的精度,时延的误差也将逐步积累,最终使定位结果产生较大的误差。而且估计的时延值是过去值,只能得到一个次最优的定位结果。此外,时延估计对信号的采样率也有较高的要求,很容受到房间混响和噪声的影响,实际应用中并不能得到很好的测量结果。2.2 基于空间谱估计(DOA)的定位原理空间谱估计可分为两类:一是基于最大输出功率的可控波束形成定位法,二是基于高分辨空间谱估计定位法。空间谱估计即 DOA 估计,其实质是确定信号能量最大的方向,也即声源的方向。其依据原理是空间谱可以表示出信号的能量分布在空间中的位置信息,通过直接计算不同方向的信号的能量值并进行比较从而得到波达方向的估计。可控波束形成器是空间领域概念的滤波器,其主要目的是对目标方向上的声音信号进行增强,对其他方向上的声音信号进行抑制。实施方法是先利用麦克风采集语音信号,然后将采集得到的信号经过滤波、加权、求和处理,进而取得不同方向上的能量值,最后,能量最大的方向即为声源的方向。可控波束形成器具体操作流程为:首先,对麦克风阵列每个阵元采集到的声音信息赋一个权值,然后求得各路声音信号的加权和,每一组权值对应一个加权和,也就对应了一个波束。然后,改变每一路信号的权值,即可以实现调整波束的方向。当波束的方向与声音的入射方向一致时,波束的输出功率会达到最大。最后,只要找到输出功率最大的波束,即完成了声源位置的确定。传统的波束形成器也称时延求和波束形成器,其分配的权值与各路声音信号的延时有关,现代的波束形成器则采用了更为复杂的滤波方法,能将生成的波束更好地引导到目标方向。但是正如前面所提到的弊端,该方法也存在弊端:一、在存在杂乱干扰及有混响的环境中的分辨效果并不好。二、角度分辨率会受到“瑞利限”的制约,而消除这种制约又必须增大麦克风阵列的孔径,这又造成了采集系统的复杂程度增加,成本也会增大。三、该方法的方位的估计实际上是一种非线性优化过程,由于搜索方法的限制,难以运用于实时系统中。四、估计信号的能量则要求已知声源和噪声的先验知识,这种先验知识的要求使得其在实际应用中受到了制约。高分辨空间谱估计算法因其打破了“瑞利限”的限制,即可以识别一个波束宽度内的多个目标。因为这种优势,已日 渐成为相关研究人员的研究热点。空间信号的方向估计类似于时间信号的频率估计,对时域非线性的谱估计很难操作的估计方法,空域谱估计方法便显得更为直观清晰。我们可以将信号在各个频率上能量的分布情况用该信号的频谱表示,而信号在空间各个方向上的能量分布情况则可以用该信号的空间谱进行表示。基于高分辨率谱估计的算法就将麦克风阵列采集到的各路声音信号组成一个矩阵,根据其空间谱求得目标声源的入射角度和距离。3 声音信号的互谱聚类算法3.1 常用的时延估计法思想时延估计,就是通过各种手段求得声音信号到达不同麦克风之间的时间延时。在声音增强和声源定位领域中,时延估计技术非常关键,在基于声音到达时间差的定位算法中,时延估计是最为重要的一步。求得了各声音传感器之间的精确时延,就等于知道了声源的精确位置。常用的时延估计的方法包括:广义互相关法(Generalized Cross Correlation,GCC),最小均方 (Least Mean Square,LMS)自适应滤波,互功率谱相位(Cross-power Spectrum Phase,CSP)法等。 3.1.1 广义互相关法最常用的时延估计的方法当属广义互相关法,顾名思义,这种方法采用广义互相关函数来对时延进行估计。麦克风阵列的每个阵元处于同一个噪声环境里,接收到的声音信号也来自同一个声源,因此,各路信号之间具有较强的相关性。通过求取两路信号的相关函数,就有办法找到这两路信号之间的时延。假设麦克风 0 与麦克风 1 接收到的声音信号 x0(n),x 1(n)分别为:(3-1-1)00()()(xnsn(3-1-2)111上式中,s(n)为声源的原始信号, 和 分别为声音从声源传播到两个麦克风0的衰减, 和 分别为声音从声源传播到两个麦克风的时间,n 0和 n1分别为两路声01音信号中的加性噪声。较为简单的情况,认为声音和噪声互不相关,噪声和噪声之间也互不相关。为了简化计算,在噪声的强度远小于声源的强度的情况下,一般可以认为:两路声音信号中的加性噪声也互不相关。那么有:(3-1-3)010101()()()RExn当 时, 取最大值,因此通过搜索互相关函数尺 的最大值, 01()R就能找到两路信号之间的时延 。再利用基于到达时间差定位原理即可得到声源角度信息。广义互相关法仅利用各路声源信号的时域信息,计算量较小,实现起来比较简单,是应用最为广泛的时延估计方法。不过在实际情况中,麦克风接收到的声音信号会受到混响和噪声的干扰,声音信号与干扰信号并不是互不相关,而且噪声信号之间也是具有相关性的,因此在混响较为严重或噪声干扰较强时,这种方法的时延估计效果会受影响。3.1.2 最小均方自适应滤波法最小均方自适应滤波的方法的基本思想是:把两个麦克风的声音信号 x0(n)和x1(n)分别当作输入信号与目标信号,在一路信号前加入延时并使之逼近另一路信号。逼近方法是通过调整自适应滤波器的系数,也就调整是一路信号的延时,使输入信号与目标信号间的均方误差最小,此时两路信号的相关性达到最大,对应的延时也就是两路信号之间的时延。为了找到两路信号的时延,系统首先在时刻 l 比较两路信号的大小,并将其差值通过一定的自适应算法反馈给自适应滤波器,以调整信号 y(n)的延时,调整的目的是在下一时刻,两路信号之间的均方误差变小。在时刻 2,系统会继续比较两路信号的大小,并将新的差值反馈回去,通过这样的不断反复,两路信号之间的均方误差会逐渐达到最小。最后根据自适应滤波器的系数,就可以得到两路信号之间的时延。这种方法与广义互相关法相比,时延估计的精度有所提高,但广义互相关法只需要很短的一组信号就能估计时延,而这种方法却需要较长的信号长度。只有信号足够长,自适应滤波器才能根据信号不断调整自身参数,并使输入信号逐渐逼近目标信号,使均方误差逐渐达到最小。因此最小均方自适应滤波的方法的计算量会变得很大,难以满足实时系统的要求。3.1.3 互谱加权时延估计思想在时频域图中,由于短时频谱正交性,各声源的能量在时频谱图中的位置互不交叠,我们可以利用这种频谱正交性分离各语音源。所谓的互谱加权,就是先将各麦克风接收到的声音信号进行短时傅里叶变换,再求不同麦克风采集到信号的互功率谱,利用互功率谱和采样点频率之间的关系得到每个采样点处的时延值。其中,时延值被分成若干段,每段对应一定范围内的相近时延值。再将相同时延值所对应的采样点的信号的功率谱按权值加和,即聚类形成谱峰,最后由谱峰对应的时延值和一维角度的关系反推出谱峰所对应语音源的角度信息,从而完成测向。3.2 互谱聚类麦克风阵列的测向算法从前面的两种方法可以看出,时延估计的精度与算法复杂度之间是相互矛盾的,复杂度小的方法精度较差,精度较好的方法复杂度又偏大。互功率谱相位时延估计的方法可以在这两者之间,找到一个合适的平衡点。设有 M 个麦克风,以采样频率 对 N 个语音源进行采集数据,设第 N 个语音源sf在麦克风 0 的输出信号为 x0, 经短时傅里叶变换后信号变为 X0。麦克风 1 相对于麦克风 0 的时延值即为(3-2-1)*sin/DC( 为负值则表示超前) ,D 为麦克风间距。此式为最基本的核心式,将用于最终的角度测定中。假设麦克风 l 与麦克风 2 接收到的声音信号 x0(n)和 x1(n)与 31.1 节中的一样,分别由式(3-1-1)和式(3-1-2)表示,则我们先对这两路信号进行傅里叶变换可以变换到其频域信号 X0(w)和 X1(w)。在此,麦克风的输出信号可以表示为:(3-2-2)0=1(t)t+v()Nnxs(3-2-3)1=1(t)(t-)(tn其中,相同类型质量的麦克风的声强比 n接近于 1。 为第 n 个声源发出的时()nst域信号, 为麦克风 0 接收到的噪音的时域信号。 ()ovt经傅里叶变换后的麦克风输出的频域信号为:(3-2-4)00=1(t,)(t,)+Vt,NnXS(3-2-5)-1n1=1(t,),e(t,)njt则这对麦克风的互功率谱密度为:(3-2-6)2n*01 n|S,|e+(t,),(t) njvGtXttv, (3-2-7)2n m|,=|,|/,1njnnSNRt其中,=2f, 为第 n 个信号在角频率 w 处的接收功率密度,2m|ej为噪声和交叉项的表示, 为第 n 个声源的支撑频段集合, 为第(t,) vnSNR,tn 个语音在角频率 w 上的信噪比。其中,实验不出现相位模糊的要求是D min/2,D 为麦克风间距。接下来的任务就是要得到互谱功率的相位时延函数,以便代入式(3-2-1)进行最后的角度估计。时延函数由短时互相位谱和频率值得到,其中短时互相位谱为:(3-2-8)n=1,=a,=nNtngleGt随 机 值 ,通过互谱相位求短时时延谱函数的关系式为:(3-2-9)n,/ntt随 机 值 ,我们认为实验的最大可能时延 max=D/C,即当声源信号出现在连接两个麦克风的连线上时。我们将最大时延值分成若干小段,由于时延值可能为正值也可能为负值(负值代表麦克风 1 的值超前于麦克风 0) ,因此我们将时延轴按时延值 0 对称分布正负值作为横坐标。然后以互功率谱幅值为纵坐标,按互功率谱幅度值在时延轴上的分布位置对相应的采样点进行分类,得到的加权直方图为: (3-2-10)=1(,)(t)-+(t,)NnngtP(3-2-11)2n(t)S|(t,)|nm其中, 为第 n 个语音信号的绝大部分能量值。nPt在声源和噪声以及噪声之间互不相关的条件下,由于噪声的功率谱的相位时延值分布较为分散,因此互功率谱值经聚类后在各类的总的能量值比较小,因此声源的互谱聚类结果会因能量聚类值较高而容易识别出来,从而实现了声源的分离。再将时延值代入上面所述式(3-2-1)即实现定位。4 实验仿真及结果分析实验所采集的声源标本为掷悠悠球的声音,采样率 Fs=16KHz,声源采集所用的双麦克风间距 D=83mm,实验截取的声音样本点数 N=1024。实验主要内容是用双麦克风系统及软件完成对声音源的角度定位。实验中使用的软件有 cool edit 和matlab,其中 cool edit 可以完成对实验采集数据的试听、截取以及观察音源的时频谱图。Matlab 用于实现算法的计算,对声音源测角的原理进行仿真,完成对测角算法的验证。图 4.1 声源采集现场图 4.1 所示为声源采集的图片,我们首先选择一个噪音较少,声源的位置较为固定且数量较少的场地。实验所选取的场地为学校冶园,采集现场不远处有一个悠悠球爱好者在玩球,麦克风摆放位置旁边的大树上有许多鸟儿不时鸣叫。将麦克风装置三脚架固定在地面上,如图中所示按照 4 个对应好的接口连接声源采集芯片和麦克风装置,再将麦克风阵列通过网线连至电脑,打开采集开关。图 4.2 四通道麦克风采集系统图 4.3 采集软件运行界面上图 4.3 使用的是我校研制的一个简易声音采集软件,该软件的使用需先连接好麦克风阵列及其处理模块,用网线将麦克风阵列连接电脑。打开麦克风开关,继而打开该软件,选择主存储区域建立文件存放处,如图中选择了 E 盘根目录,设置启动时间和结束时间,时间精确到秒,点击启动按钮。等待一段处理时间,控制器的连接才会显示与“采集器完成连接” ,等待结束时间到达后,会相继显示“数据存储完毕”和“数据分解完成” 。这时变完成了数据采集的任务。打开设置的存放区域,会找到根目录下的四个麦克风(如图 B 所示)所采集到的声音数据。对实验的初步分析:时延最大值 =0.083/340=0.2441ms。max=/DC麦克风间距为 83mm,则根据不出现相位模糊的条件,代入不出现相位模糊的条件 D min/2,结合波长与速度的关系公式:=v/ ,得到 。即所fmax2.048fkHz测样本在频率不大于 2.048KHz 时不会出现相位模糊。由于互功率谱的图像和其相位图是由对称的两部分组成的,因此,只研究一半采样点的互功率谱即可完成其特性及规律的分析。据此,我们选取采样 1024 点进行互功率谱计算并计算时延值,则 128 个点的最大频率值为 Fs/N*1028=2KHz,可以保证频率小于出现相位模糊的最小频率,则对前 128 个采样点的时延值进行聚类加权,实验结果原理上可以得到接近于真实值的角度值。4.1 实测数据分析实测声音数据的信息分析如下:麦克风 0 和麦克风 1 选取的样本命名为 M1dan1 和 M2dan2,且保证了两个样本对应的时刻相同,采样点相同。图 4.1.1 麦克风 1 采集的声源样本的时频谱图图 4.1.1 为 cool edit 软件中载入麦克风 1 所采集的声源信息的时频谱图,上图中横坐标为时间,纵坐标为频率,经放大后我们可以看出,频率较低的范围有时间连续的声源信息,即为我们所需测量的悠悠球的信息。频率较高的 5KHz 和 7KHz左右的部分明显有时间上离散的声源信息,即为麦克风阵列系统附近的鸟叫声。由此可见,在时域中不可分离的声源信息在上图的时频谱图中是可以分离开来的,这种时频谱中声源信息分布的稀疏性为多声源分离的可实现性奠定了基础。图 4.1.2 双通道麦克风时域波形对比图图 4.1.2 所示为双通道的麦克风时域波形对比图,上面的为麦克风 0 采集的声源信息,下面的为麦克风 1 采集的声源信息。从对比图中我们可以看出,麦克风 0 和麦克风 1 所采集到的相同声源的时域信号大致相同,即为我们所需要的样本信号。但稍加注意会看到两个信号在幅度上稍有差异,这种通道的不一致性可能会对测量的定向性能产生一定影响。图 4.1.3 样本选取图图 4.1.3 为样本的选取图,图为麦克风 1 采集到的声源信号,其中心的白条为所选取样本位置,由图中右下角的长度可以看出选取的采样样本点数为 1024点。对于麦克风 0 采集的样本做同样的操作,但是要注意,截取样本的时候样本起始的采样点和选取的点数要保持一致,以保证分析的两个麦克风的样本是同一时刻的声源样本。实验所用麦克风的间距为 83mm,则根据不出现相位模糊的条件,代入不出现相位模糊的条件 Dmin/2,结合波长与速度的关系公式:=v/ ,得到f2.048kHz。即所测样本在频率不大于 2.048KHz 时不会出现相位模糊。鸟maxf声的声源频率较高,必然出现模糊。由于时间限制,本文不再研究高频声源的解模糊,因此为避免出现模糊,我们只选取了主要包含较低频率的区间作为实验样本,只研究低频声源的定位,该样本虽也含有一些较高频率的鸟叫声,但不占主导地位, 。其中,此样本中的低于 2KHz 的声源只有一个悠悠球的声音。以下所示为 matlab 软件的仿真结果: 图 4.1.4 麦克风采集样本的时域波形对比图图 4.1.4 中的第一个图为麦克风 0 的样本时域波形,第二个图为麦克风 1 采集的声音样本的时域波形图,第三个图为将两个波形画在同一个时间轴上的效果,对应于前面所示的图 4.1.1,由仿真图形也可看到两个麦克风接收的信号的波形大致相同,但有细微差异,为声源定位提供了可能。图 4.1.5 麦克风采集样本的频域波形图图 4.1.5 为两个麦克风采集到的样本的频域波形图,即时域波形经过 1024 点傅里叶变换所得到的频谱图,频谱图展示了声源信号的频率分布情况。上面的为麦克风 0 的频域图,下面为麦克风 1 的频域图。由图可以看出声源的频率是相对集中于某几个频率值的,和上面所示的图 4.1.2 采集样本的时域对比图比较会发现,此时频谱中的主要成份为 2KHz 以下的频率,即对应着悠悠球的声音,鸟叫声对应的较高频率成分较少。图 4.1. 6 双麦克风采集的声音样本的互功率谱时延值分布图图 4.1.6 两个麦克风采集的声源样本的互功率谱的相位时延分布图,是对算法验证的结果展示,图的横轴为按时延公式计算所得的时延值,横轴的范围为负的最大时延值到正的最大值,保证横轴有较大的利用率。这里已将一段时延值区间的取值统一为该时延区间的中心值。纵轴为互功率谱幅值的加权聚类结果,由图中可以看出积累值最大的峰对应的时延值为负值,说明麦克风 1 相对于麦克风 0 的时延值为超前的。图 4.1.7 双麦克风采集的声音样本的声源的互功率谱能量的角度分布图图 4.1.7 为经过转换后的两个麦克风接收信号的互功率谱的相位时延值在角度轴上的分布,此步的目的是将间接表示角度的时延值直接化为角度值显示出来,一方面充分利用了 matlab 这一软件的优势,另一方面也便于结果的记录。因为角度分布较集中,故直接以横轴最大值 80 度表示。图 4.1.8 仿真结果图图 4.1.8 为仿真所得最终数字结果:m 为时延图上聚类得到的功率谱值,n 为互功率谱聚类最大值对应的时延值段的位置,即第 10 个位置对应的仿真角度为2.86600。4.2 仿真操作说明互功率谱相位法对声音信号的长度有限制,点数必须是 2 的整次幂,以方便后面的快速傅里叶变换。本仿真中选取的点数为 1024,互功率谱相位法首先将四个麦克风信号的每一段进行傅里叶变换,分别求出其频谱。其中,xl 与 x2 的频谱为 X1 和 X2。再求 xl 与x2 之间的互功率谱函数。设 xl 与 x2 的频谱分别为 X1 与 X2,那么 xl 与 x2 的互功率谱函数可由表达式 X2*conj(X1)来表示。其中 conj(X1)表示对 X1 取共轭,点乘则是表示将同型数组中相对应的元素相乘。若测得的时延值为正,则表明第二段声音比第一段滞后,反之则表明第一段比第二段滞后。根据时延求得到达时间差,最终求出声源的坐标位置。4.3 误差来源分析仿真结果与实测结果有一定的误差,仿真结果为 2.8660 度,而实测结果为 5 度。以下对可能的误差原因做分析。首先,手工测量的角度存在一定的测量误差,一方面量角器所标刻的精度有限,量角器上刻度只精确到 1 度。另一方面手工测角时是目光直测,也会出现目测误差,且声源距离越近目测误差越大。其次,时延值份数的划分会影响实验精度,若最大时延值 0.244s 被划分的份数太少,则较大的角度范围的互谱功率将被划分到同一个时延值格子内,角度测量的精度会降低。相反,如果最大时延值被划分得过于细密,由于互功率谱的相位在计算时延值时被划分得太细致,可能会被误划分到相邻时延范围处,从而造成测角误差。在条件允许的情况下,提高声音的采样频率可以提高精度。采样频率提高时,单位时间内得到的采样点数就会提高,声音信号相邻两点之间的时间差就会变小,由于通过两组数字信号间延迟的点数来进行时延估计,所以较高的采样频率会提高时延估计的精度,进而提高声源定位的精度。但对于本文中的麦克风间距为 83mm,则根据不出现相位模糊的条件,前面已经说明得到的 。即所测样本max2.048fkHz在频率不大于 2.048KHz 时不会出现相位模糊,因此这种采样频率的限制也会造成测量误差。最后,在测量麦克风间距时,因为是手工测量,也会有测量误差。这样在建立麦克风一维时延传播路径角度时延模型时,加上传播路径的直线化分析,也可能造成误差来源,导致仿真结果和实测值存在一定误差。5 实验遇到的问题及解决方法5.1 声音采集在声音采集中,首先遇到的问题是声音采集软件与麦克风阵列系统连接不上。在检查了麦克风与 DSP 处理芯片的连接顺序及采集芯片的开关状态后,以为是网线坏了,但重换网线后发现问题仍未解决。经过思考与尝试后,最终发现是因为我校的声音采集软件是需要先点击启动按钮,待反应一段时间后才可以完成与采集器连接,进而进行数据存储与分解。此外,由于声音采集软件还不是很完美,所以对于多次的声音还不能很好的实现连续采集,在每次重新采集前都需要关闭上次采集的界面,重新启动声音采集软件来进行下一次的采集。多次的修改与尝试后,最终顺利完成了声音采集任务。5.2 样本制作样本的制作用到了 cool edit 软件,这个软件是我第一次使用,因此使用过程中有许多不明白的地方,如添加声音数据后,如何将选取的采样点单独保存为.wav 的格式,这个通过文件-保存所选区域即可实现。再者就是在新建立体声波形时,载入波形的方法:先双击全选波形 1,右击选择复制,然后进入新建的双通道波形界面,在上面通道的最上方出点击一下,选择粘贴。同理对于下面通道的操作。需要一提的是,如果鼠标在上面通道里放的位置不够高的话,就会将其中一个通道的波形同时复制到双通道的两个通道里。图 5.1.1 通道选取与建立界面对于采样点的选取,在波形界面的时间轴上,右击鼠标显示时间格式改为采样,会看到如下界面,若想选取多少采样点,选定了区域起始处之后在长度栏里填入数字即可,如下图则选取了 1024 采样点。图 5.1.2 采样点制作界面在 cool edit 中,可以通过查看选定区域进行对样本的局部查看,并可以滑动鼠标的滑轮完成对采样点疏密程度的放大与缩小。5.3 matlab 仿真整个实验过程中,最艰辛的算是 matlab 仿真的程序了。由于底子比较薄弱,因此编程需要在同学的指导下进行,也出现了各种调试错误。先是 current directory 没有调成程序运行时语音数据所在的目录,再是加权聚类时 matlab 程序中不可以像 C+程序里一样直接写成 P(1)+=Gs(k) ,而要分开相加写成 P(1)=P(1)+Gs(k) ,否则会造成运行错误。对于简化程序,在读取.wav 文件时,文件头的字节数不一定是 44 个字节,所以可以将读取.wav 文件直接用 wavread 指令读取,省去了查找文件头字节数的繁琐。在循环操作中,由于互功率谱的频谱是对称结构的,所以可以只进行一半点数的互谱功率计算及时延值的计算,节省了运行程序的时间和程序运行时占用的空间。关于程序得到的图形,采用了易于一次辨识的图形进行绘图。比如由互功率谱在时延轴上的分布情况可以得到声源的延时值,再经一次计算可得到声源角度值。为了充分利用 matlab 这一数学工具,可以将延时值分别转化为对应的角度,绘制互功率谱在角度轴上的分布,实现了直观获得角度值。此外,对于 matlab 本身的使用也通过此次实验有了进一步的了解,如对于help 的使用。掌握了在 command window 里直接查询的功能,如可以直接输入数字进行计算操作,可以使用 s1(1:10)指令加上回车键直接查看 s1 数组的第 1 到第 10个点的值等。操作界面如下图所示:图 5.1.3 matlab 编程界面6 体会与收获 从毫无头绪到似有所悟,再到可以动手去做,也许就是新事物到旧事物历经的状态。不管是针对论文的算法文本的学习,还是对论文的实验所用软件的学习,都经历了这种量变引起质变的过程。未知的东西并不可怕,可怕的是我们怵步不前,一直让未知停留在未知的状态。此次毕业设计的学习,既是对本科阶段学习能力的检验,是对本科所学知识的综合运用,从理论到实践的过程,同时也是对交流能力的提升,培养了团队协作能力与沟通能力。也熟悉了 cool edit 和 matlab 软件的使用,为以后相关的学习打下了坚实的基础。最重要的收获是体会学习的过程,感受探索的经过。经过老师的细心讲解与指导,培养了我求知的欲望和对研究的兴趣。这点是这次毕业设计最大的收获。此次的毕业设计也让我学会了测角的一种方法,不止是对理论的学习,也是对理论联系实际的一种能力的转化,声音定位有着悠久的发展历史,对声音定位的学习也是我对科学研究成果的了解和学习,很高兴有这个机会能多充实自己。结 论目前,声源定位技术以其较强的适用性、良好的隐蔽性、低成本、易实现等优点,逐渐受到人们的重视,此次毕设的目的即研究基于互谱聚类时延算法的麦克风阵列多声源定位的方法。本文主要研究的多声源下的基于互谱聚类时延估计的定位方法,核心思想是利用时延估计来确定声源角度信息,时延值则通过互功率谱相位信息获得。在区分多个声源时,因为声源信号在时频域内存在稀疏性,使得多声源的分离成为可能。本文使用的互谱聚类的思想,即将相同时延区间内的互功率谱幅值叠加,利用聚类出的功率峰来分离不同的声源信号。附录中根据互功率谱时延的算法,编写了基于互功率谱函数进行时延估计的程序,并进行了调试运行,检验算法的可行性,仿真结果证明了该互谱聚类麦克风阵列时延值的算法是可以完成声源定位的。由于时间有限,本文只说明了两个声源可以分离的可能性,但是由于鸟叫声频率较高,超出了测向模糊的最大频率,因此本文的测向只针对悠悠球的声音进行。在测向的研究中也碰到了许多问题,如样本采集不成功和仿真得不出图形。样本的采集通过考虑采集器的等待时间得意解决,仿真得不出图形通过修改仿真的当前目录以及修改读取声源样本的指令最终解决了问题。本文所研究的定位方法也有局限,如当麦克风阵列之间的距离大于声源波长的一半时,就会出现测向模糊,如何解模糊也是今后需要研究的问题。另外,本文只是解决了声源测向问题,还不能处理声源测距或者得到更为精确的声源位置坐标信息。致 谢此次论文得以顺利完成,要特别感谢我的导师许志勇老师,给了我很大的帮助与鼓励。因为初次接触互谱聚类算法,对算法所需要的思想和研究手段都比较生疏,对声音的采集操作也是第一次,所以多次碰壁,而每次有疑惑去找老师,老师都认真而耐心的给我讲解,让我受益匪浅,许老师的和蔼可亲也让我对学术研究从枯燥被动转向了自主的研究。许老师知识渊博、治学严谨、诲人不倦,治学精神永远值得我学习,并将积极影响我今后的学习和工作。谢谢许老师! 另外,也感谢我的学长武仓在声音采集时给我的热心帮助和耐心讲解,感谢我的同学在我做毕业设计期间给予我的建议和帮助,感谢金婷婷同学在毕设格式及语言叙述上给我的帮助,也感谢做毕设期间同学们一起讨论所营造的良好气氛! 最后,再次对我的导师和学长以及同学致以衷心的感谢!参 考 文 献1 Wang H, Chu P
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南省邵阳市新宁县十校22024-2025学年九年级上学期10月期中考试道德与法治试卷(含答案)
- 11.1党和人民信赖的英雄军队同步教案 2025-2026学年统编版道德与法治八年级上册
- 小迪安全培训价格课件
- 2025年国家公务员考试公共基础知识法律基础知识试题库及答案(共180题)
- 2025年广西河池市辅警招聘考试题库及答案
- 2025年辅警招聘公安基础知识题库附含参考答案
- 2025年安徽省淮南市辅警人员招聘考试题库及答案
- 2025年国家能源投资集团有限责任公司校园招聘笔试备考题库附答案详解
- 2023年度研究生考试通关考试题库含完整答案详解(夺冠)
- 公务员考试《常识》题库试题1套附答案详解
- 2025高级工程师聘用合同
- 1.3 植物与阳光(教学课件)科学青岛版二年级上册(新教材)
- 诺如知识培训方案课件
- 企业文化建设及推广工具箱
- 福建省三明市2026届高三上学期8月月考语文试卷(含答案)
- 2025年智能养老社区智能化社区活动策划建议
- 2025-2026学年人教版(2024)初中生物八年级上册教学计划及进度表
- 国有企业风险管理内控操作手册
- 缺血性卒中脑保护中国专家共识(2025)解读 3
- 2025年青海省中考道德与法治试题卷(含答案解析)
- 2025广西公需科目培训考试答案(90分)一区两地一园一通道建设人工智能时代的机遇与挑战
评论
0/150
提交评论