版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
时延估计算法综述
声源定位技术在过去,随着各种电子设备的智能,语音输入和源跟踪技术已经成为语音通信领域不可或缺的两种技术。例如,在视频会议中,通过声源定位技术控制摄像头,使其自动转向感兴趣的说话人方向;对于高速行驶的车辆,为避免驾驶员用手去接听电话,车载免提电话应运而生。然而,当车中坐有多个说话人时,语音识别系统就无法辨别实际命令的来源,此时就需要一种定位系统来提取驾驶员方位的语音,进而对其命令作出响应;助听器的出现为有听觉障碍的残疾人提供了帮助,基于阵列的语音增强技术利用声源的位置信息进行空间滤波,可以进一步抑制除说话人以外的其他方向的噪声,使得助听器话音更加清晰。近年来,基于声源定位技术的电子笔系统成为研究热点,用于接收的麦克阵列以不同方式集成在显示器边缘,此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。时延估计(Timedelayestimation,TDE)是语音增强与声源定位领域内的一项关键技术。所谓时间延迟,是指传感器阵列中不同传感器接收到的同源信号之间由于传输距离不同而引起的时间差。TDE就是利用参数估计和信号处理的理论和方法,对上述时间延迟进行估计和测定。基于TDE的双步声源定位就是先估计出信号在不同阵元处的到达时间差(Timedelayofarrival,TDOA),进而再利用这些参数通过双曲线方程进行定位。由于误差扩散效应,TDE估计精度关系着整个定位系统的性能,因而成为语音通信领域内关注的热点。从20世纪70年代开始,许多大学和实验室就已经投入到了该领域的研究中,例如布朗大学,贝尔实验室以及以色列技术学院等,他们先后提出了不同的TDE方法。最初得到广泛应用的包括广义互相关(GCC)方法和自适应最小均方(LMS)方法。鉴于GCC受混响的影响比较严重,文献分别对其作了改进。文献提出了倒谱预滤波(Cepstralprefiltering,CEP)技术,通过对通道特性的分析,有目的地去除信号中受反射影响严重的部分,再将预滤波后的信号通过GCC方法进行TDE。与CEP方法不同,文献提出的基音加权的GCC方法更多地考虑了信号本身的特性,特别适用于具有周期特性的信号源(如语音)。近年来,文献[15,16,17,18,19,20]又分别提出了基于控间的特征值分解(EVD)和基于传递函数比(ATF-sratio)的TDE方法,前一种是基于子空间的技术,后一种是利用信号到达两个麦克风的传递函数比来求解。然而,一个好的时延估计算法不仅要能够在低信噪比和强混响的条件下精确地估计出时延,而且应该具有较低的运算量。1i,i和nit模型的不同理想情况下,阵列接收信号的模型可以用图1(a)来表示。第i个麦克所接收到的信号为xi(t)=αis(t-τi)+ni(t)(1)式中:s(t)为源信号;τi,αi和ni(t)分别表示从声源到第i个麦克风的时间延迟、幅度衰减和加性噪声。然而,由于方向性噪声以及混响的存在,实际环境中的模型(图1(b))会更复杂。此时接收信号为xi(t)=p∑l=1hil(t)*s(t-dil)+ni(t)(2)式中:hil(t)为声源到第i个麦克风处的第l条传播路径的脉冲响应;dil为相应的传播时延;*表示线性卷积。直达路径的时间差τij=dil-djl给出了TDOA值,这一参数将被用于双曲定位中。2不同延迟估算方法2.1gcc方法的基本原理文献提出的GCC方法是一种传统的TDE估计方法。由于来自同一声源的信号存在一定的相关性,通过计算不同麦克风所接收到的信号之间的相关函数,就可以估计出TDOA值。然而在实际环境中,由于噪声和混响的影响,相关函数的最大峰会被弱化,有时还会出现多个峰值,这些都造成了实际峰值检测的困难。GCC法就是在功率谱域对信号进行加权,突出相关的信号部分而抑制受噪声干扰的部分,以便使相关函数在时延处的峰值更为突出。就两个麦克风而言,接收到的信号x1(t)和x2(t)的互相关函数可以表示为Rx12(τ)=E(x1(t)x2(t-τ))≈α1α2Rs(τ-τ12)+Rn(τ)(3)式中:E为数学期望;近似项对于无混响和空间平稳的噪声成立。式(3)表明,如果信号的信噪比足够大,TDOA可以从相关函数中获得。相关函数的傅里叶变换给出了两通道信号的互相关谱Gx12(f)=α1α2Gs(f)e-j2πfτ12+Gn(f)(4)然而,混响的存在使得信号中包含了多个回波分量,此时计算出的互相关函数会包含直达波与反射波形成的峰值,这些峰在低信噪比的条件下都会造成TDOA检测的困难。特别对于宽带语音信号,基音周期的存在使得互相关函数更加复杂。为了使TDOA估计不受信号本身特性的影响,并尽可能地抑制混响和噪声,需要对观察信号的频谱做特殊处理,这就是GCC方法的出发点,并且由此得到的互相关函数被称为GCC函数。GCC方法的基本思想如图2所示。图中:(·)′为共轭运算;ψg(f)为GCC的加权函数。文献列举了6种通用的加权函数,如表1所示。可以看出,GCC方法建立在非混响模型基础上。由于受模型误差的影响,它不能正确辨识多个说话人和方向性的干扰噪声,并且更倾向于估计比较强的信号的TDOA值,所以GCC方法只能用于低混响和非相关噪声的场合。然而在视频会议中,绝大部分的噪声均来自于方向性的干扰源,例如CPU风扇、投影仪和空调等。尽管如此,低的计算复杂度和易于实现的特点使得GCC方法还是得到了比较广泛的应用。2.2cep方法的改进GCC方法尽管考虑了噪声影响,但它假定声源到麦克之间的通道响应为一简单的延迟和衰减,文献指出这样的近似是不准确的。特别当混响超过一定限度时,TDE异常估计的百分比会突然增加(所谓异常,是指偏离实际时延较大的TDOA估计)。这是由于随着混响程度的增加,反射波在相关函数计算中的峰值会随之增加,加上噪声的影响最终很有可能超过真实的峰值,造成相关估计器的输出产生大的偏差。例如:图3(a)是在10dB信噪比、无混响条件下的GCC函数,其真实的峰值出现在零时刻;图3(b)是有混响条件下的GCC函数。可以看出,除了零时刻以外,在其他几个时刻也同时出现了一些峰,这些峰是由反射波引起的,通常被称作伪峰。图3表明混响对时延估计造成了很大的干扰。针对这一问题,文献对GCC算法做了进一步的改进。文献提出了一种CEP的预滤波技术。由于任何一个系统都可以表示为最小相位系统和全通系统的级联,即Η(ω)=Ηmin(ω)⋅Ηap(ω)(5)文献指出,路径中的混响主要包含在系统的最小相位分量(Minimumphasecomponent,MPC)中,而全通分量(All-passcomponent,APC)则解释了信号传播的时延。如果将通道响应分解为APC和MPC两部分,并保留其中的APC分量用于GCC求相关,就可以在一定程度上抑制混响的影响,提高时延估计算法的抗混响性能。然而,CEP方法也存在一些问题:(1)帧长的选择比较困难。在分帧处理过程中,帧长的选择不能过大以确保通道的特性是时不变或者是慢变的,另一方面,帧长要足够大才能使功率谱的计算不受帧长的影响,也就是要避免当前帧的反射出现在下一帧或者前一帧的反射出现在当前帧。通常倒谱的估计需要比较长的帧长(200ms),同时还需要几帧的平滑,因此需要将近1s的语音信号,从而导致了较大的延迟。(2)认为通道的MPC固定不变,而语音信号的MPC是时变且为零均值的,这样的假设通常难以满足。实际上,人的走动和开门等一些因素都会导致房间混响的变化。对于运动的源来说,帧间叠接可以保证跟踪精度,但两帧之间的时移并不能保证信号MPC的均值为零。(3)从计算量上来讲,倒谱的计算需多做2次FFT和1次求对数运算,而且要随着通道特性的变化不断更新,这都增加了额外的计算量。所以,CEP-GCC方法虽然能够取得较好的效果,但要实现实时处理还是比较困难。2.3tde的加标回收互功率谱相位(Cross-powerspectrumphase,CSP)是利用互功率谱的相位信息来估计时延,它对信号互功率谱的加权函数为ψCSΡ(f)=1|Gx12(f)|(6)式(6)相当于一白化变换。比较表1可以看出,这一方法等价于PHAT加权的GCC方法。在实际环境中,由于受噪声和混响的影响,通过两个麦克得到的TDE精度都不会很高。为改善TDE的性能,可以考虑利用多个麦克风,通过加入冗余的空间信息来获得。文献给出了一种多通道的广义互功率谱相位(GeneralizedCSP,GCSP)时延估计方法。它将多通道信号的相关矩阵分解为信号部分和噪声部分,再利用其中的信号部分估计互功率谱。由于增加了空间信息,利用GCSP进行时延估计的性能要优于CSP,通常被认为是一种改进的CSP方法。2.4tde信号加权利用互相关进行时延估计的方法都没有考虑信号本身的特性。文献中作者指出,信号中具有明显周期特性的部分受到外围噪声和多径干扰的影响比较小,如果对信号中表现出周期特性的频谱给以适当的加强,就可以在一定程度上提高抗噪和抗混响的性能,这便是基音加权的TDE方法,比较符合语音信号的特点。这种方法相当于改进的PHAT加权,它将两通道中共同的信号分量加强,而其他(更可能为噪声)部分被抑制,从而提高了噪声和混响下的时延估计性能。另一方面,由于考虑了信号自身的特性,它也适合于多源检测问题,此时处理器的复杂度会相应地增加,用以提取每个源的基音和谐波分量。2.5提取信号的初始段根据神经生物学,人耳利用两耳间强度差(Interauralleveldifference,ILD)和两耳间时间差(Interauraltimedifference,ITD)来确定声源的位置。人在有混响的房间里也能正确辨认出声源的位置,这主要是利用了声音的超前效应,即声音的直接分量总是先于反射分量到达人耳,也就是说人耳利用了未被反射污染的声音段来定位,这段声音称为初始段。而在求时延时,通过提取这段声音求GCC,就能较好地抑制混响的影响。包含混响的语音信号通常会呈现周期特性,然而语音段的包络却不会因为混响而呈现周期性,或者说包络可以部分地掩盖反射。如果在包络中提取信号的初始段,就可以有效去除后端的反射分量。具体的包络和其初始段的提取可以通过式(7,8)进行。envi(n)=max[β⋅envi(n-1),|xi(n)|]i=1,2(7)onseti(n)=max[0,envi(n)-envi(n-1)]i=1,2(8)式中β为包络衰减因子(0<β<1)。图4通过单位冲激响应信号描述了信号包络和初始段的提取过程。可以看出,初始段信号去除了经反射形成的第2个脉冲。通过提取包络初始段来进行时延估计受外围环境的影响比较大,例如房屋几何尺寸、声源和麦克风位置以及麦克风特性等。2.6lms自适应方法自适应的LMS滤波能够根据当前输入信号的采样来自适应地调整滤波器系数,使输出误差信号达到最小,而不需要输入信号谱的先验知识。因此LMS算法被广泛地用于输入信号的统计特性未知的情况下,基于同样的考虑,LMS算法也被成功地引入到TDE中来。在双麦克阵列中,如果以一个通道的信号为目标信号,另一个通道的信号为参考信号,就可以利用LMS方法来进行TDOA估计,其实现框图见图5。图中z-p是为了保证系统的因果性而引入的,以便计算负的时延。从图5可以看出,LMS时延估计器自动调节h(n),使其输出逼近x1(n),实质上相当于在信号x2(n)中插入一个延迟来使两个通道的信号对齐。在理想情况下,h(n)中对应于实际时延处的加权系数会收敛到1,而其他部分则收敛到0。最后,为获得分数倍采样的TDE,可以对h(n)进行插值操作。在观察数据足够多的情况下,LMS可以达到统计意义下的最优滤波器,即Wiener滤波器,其频域表达式为Η(ω)=G-122(ω)G12(ω)比较表1中的Roth处理器可以看出,在统计意义下,LMS方法与Roth加权的GCC估计法相似,但是两者的出发点和前提条件不同。GCC是从信号互相关的角度来进行时延估计,它基于信号和噪声的先验知识,需要大量数据运用统计的方法得出,而实际操作中,GCC方法往往只用一帧数据就获得信号的功率谱和互功率谱的估计,因此该估计的精度不高。而LMS自适应滤波则通过一定的误差准则,让一个通道的信号去逼近另一个,在收敛的情况下给出时延估计,它不需要信号谱的任何先验知识,因此LMS时延估计方法可以看作Roth处理器的自适应实现。对于LMS方法,它的缺陷在于:(1)自适应算法需要一个学习过程,而且运算量要远远大于GCC方法,所以不适合跟踪快速移动的声源,其时延估计的精度同样会受到混响和回波的限制;(2)由于信号x1(n)和x2(n)都是通过房屋的反射形成,用x2(n)直接去逼近x1(n)而得到两者的关系将比较困难;(3)LMS滤波器虽然不需要预先知道输入信号的统计特性,但却依赖于其统计特性,信号分布越接近于白化,TDE的性能越好;(4)它的性能还与滤波器长度有关,长度越长,TDE的精度越精确,但是计算复杂度也随之快速地增长,从而导致处理速度过慢。总之,利用LMS进行时延估计的最大问题就是计算量太大。2.7基于evd的tdoa估计方法基于子空间分解的时延估计方法主要包括了自适应EVD算法和自适应广义EVD(GeneralizedEVD,GEVD)算法。EVD方法用于处理空间非相关噪声,而GEVD方法将其扩展到空间相关噪声的情景。基于EVD的时延估计方法针对有混响的环境模型,其接收信号表示为xi(n)=gi(n)*s(n)i=1,2(9)式中gi(n)包括了环境混响的影响。取i=1,并在方程两边同时卷积g2(n)有x1(n)*g2(n)=[g1(n)*s(n)]*g2(n)=x2(n)*g1(n)(10)经适当推导和变形有Rxxu=0,其中u=[g2,-g1]T,Rxx为信号的相关矩阵。可以看出矢量u为相关矩阵Rxx对应于零特征值的特征矢量。如果能够估计出相关矩阵的特征矢量,就可以获得两个通道的通道响应,从而可以进一步估计出TDOA值。仿照LMS方法,如果定义误差函数为e(n)=x1(n)*g2(n)-x2(n)*g1(n)=uΤ(n)x(n)(11)基于EVD的TDOA估计方法也可以通过自适应滤波的方法来实现,如图6所示。比较式(11)与LMS方法的误差信号e(n)=x1(n)-x2(n)*h(n)可以看出,EVD方法又加入了一个调整项g2(n)。从原理上讲,LMS方法相当于将x1(n)看作目标信号,用x2(n)去逼近x1(n),然而这样做没有考虑到x1(n)中反射及噪声的影响。而自适应的EVD方法同时调整两个通道的脉冲响应,让两者的输出相互逼近,从而更接近实际模型,所以EVD方法可以看作是改进的LMS方法。基于EVD的方法通过观察信号的相关矩阵来估计声源到达两个麦克风的脉冲响应,进而获得TDOA估计。与LMS方法及PHAT加权的GCC方法相比,EVD方法是建立在带有混响的模型基础之上,所以具有更好的抗混响性能。然而EVD方法也存在不足:(1)在实现过程中它需要计算7次FFT,是GCC+PHAT方法的3倍多,而且还需要几帧的平滑,大大增加了计算量;(2)它在模型假设中忽略了噪声的影响,如果有噪声存在,脉冲响应的峰值将受到噪声影响而产生误差;(3)这一时延估计法主要考虑两个通道响应的峰值位置,对其余分量的估计不够精确,因此无法通过对通道响应的插值来提高时延估计的精度。限于EVD方法只能处理空间白噪声的情景,文献在EVD方法的基础上做了改进,提出了GEVD方法,主要针对空间有色噪声信号模型yi(n)=gi(n)*s(n)+ni(n)=xi(n)+ni(n)i=1,2(12)式中ni(n)为相关性噪声。一般来讲,对于空间有色噪声处理方法有两种:(1)对信号协方差矩阵进行广义特征值分解;(2)对信号相关函数进行预白化变换。GEVD方法就是从这两方面出发,使得TDE性能有了进一步改善,文献给出了具体的TDOA估计过程。无论是GEVD还是预白化变换,都是建立在空间有色噪声模型的基础上,因此其应用于实际环境中的性能要优于EVD方法。然而它需要对噪声的统计特性进行预先估计,并且由于加入了噪声相关矩阵,GEVD算法加大了计算量。另一方面,噪声的相关矩阵是利用无声段语音进行估计的,如果数据量不够或者更新太慢,噪声矩阵的估计就不够准确,这样反而会引入误差。2.8tdoa估计方法文献给出了一种利用两个通道的ATF比来进行时延估计的方法。与GEVD方法相同,它同样建立在有混响和相关性噪声模型的基础上。定义声源到达第i个麦克风与第1个麦克风的ATF比为Ηi(ω)=Ai(ω)A1(ω)(13)式中Ai(ω)为第i个通道的传递函数,如果假定Ai(ω)=αi0e-jωτi0+Li∑j=1αije-jωτiji=1,⋯,Μ(14)式中(αi0,τi0)和(αij,τij)分别表示Ai(ω)中直达路径和反射路径的幅度和时延,则Ηi(ω)=αi0e-jωτi0α10e-jωτ10⋅e(ω)(15)从式(15)可以看出,在低混响的情况下,e(ω)近似等于1,从而TDOA估计可以从Hi(ω)的傅里叶反变换hi(n)的峰值位置提取。针对不同的噪声空间,有很多获得Hi(ω)估计的方法,如最小二乘(Leastsquare,LS)、线形解相关(Lineardecorrelation,LD)、迭代高斯(RecursiveGauss,RG),以及各种算法的迭代实现等,这些都基于语音的准平稳特性,以及噪声和通道响应的平稳假设。利用传递函数比进行TDOA估计具有以下几方面的特点:(1)ATF-sratio的基本模型是针对有混响和方向性噪声的信号模型而建立的,这更符合实际环境;(2)传递函数比算法的处理是在频域进行,其计算效率要比基于子空间的特征值分解算法高;(3)在估计Hi(ω)的过程中,ATF比方法并不需要做语音活动检测(Voiceactivitydetection,VAD)来区分噪声段和语音段,也不需要有关噪声统计特性的先验知识;(4)ATF比方法的迭代实现(如RLS,RLD,RGS等)可以用于动源的跟踪,其相对较小的计算量使得它的跟踪能力要优于GEVD方法。然而在估计过程中,hi(n)峰值位置的精度受到采样频率的限制,文献用插值的方法来提高TDOA估计精度。然而hi(n)是对应的两通道的传递函数的比值,并非实际信号,所以一种合理的插值方法需要进一步研究。关于TDE估计,文献给出了用高斯混合模型来处理说话人和方向性噪声,而针对非高斯声源和相关性的高斯噪声环境,高阶统计量(Highorderstatistic,HOS)也被用于TDOA估计问题,由于这些方法计算复杂度比较高,没有得到普遍的应用和进一步地推广,故本文不做过多介绍。3[2,3.5,5,5,5,5,4.5]仿真环境为4m×7m×2.75m的矩形房屋,声源为8kHz采样的语音信号。两个麦克风被放置在[1.7,3.5,1.375]和[2,3.5,1.375]两个位置。实验分别针对定源和动源两种情景,定源位于[2.53,4.03,2.67],动源的运动轨迹满足{x=2+0.9cos(0.1πt)y=3.5+0.9sin(0.1πt)z=1+t300≤t≤30(16)其中,通道的脉冲响应由ImageMethod方法产生。3.1tdoa参数的提取首先在信噪比(SNR)为10dB,反射时间(RT60)为250ms环境下仿真了各种算法对定源和动源的TDOA跟踪特性,如图7所示,主要包括PHAT加权的GCC方法、自适应的特征值分解/广义特征值分解(AEVD/AGEVD)方法、基于最小二乘的ATF比方法(ATF-LS1)、线性解相关以及迭代高斯的ATF比方法(ATF-LD、ATF-GS1)。为提高精度,实验在提取TDOA参数的过程中对相应的相关函数和脉冲响应做了10倍的插值。在1200次仿真实验之后,参数的估计误差通过式(17)计算。RΜSE=√1ΝΝ∑i=1(ˆτi-τ0)2(17)式中:ˆτi为第i个估计值;τ0为实际的TDOA(τ^i和τ0的大小以采样值来衡量)。当估计结果偏离实际的TDOA一个采样时,就认为是异常点,实验同时统计了各种算法在TDOA估计过程中异常点发生的机率(Ra
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年口腔医疗管理公司员工薪酬福利管理制度
- 环境保护技术研发与应用手册
- 2026年剧本杀运营公司特殊顾客群体服务制度
- 护理扎针技巧与注意事项
- 2025年新能源汽车行业技术革新趋势研究报告
- 护理扎针的安全与卫生
- 2026年海洋探测设备技术报告
- 信托受益权登记制度
- 2025-2026学年广东深圳红岭中学九年级(上)期中考英语试题含答案
- 中医科医师制度
- 江苏徐州泉华置业有限公司招聘笔试题库2025
- “大唐杯”全国大学生新一代信息通信技术竞赛题库及答案
- 参军心理测试题及答案
- 2025云智算光互连发展报告
- 活动方案策划软件
- 砌体工程监理实施细则及操作规范
- 2025年瑞众保险全国校园招聘150人考试练习题库(含答案)
- 以房抵工程款合同协议6篇
- 通信设备用电安全培训课件
- 方太企业培训课件
- 水上平台施工安全培训课件
评论
0/150
提交评论