基于麦克风阵列的会议电话系统.doc_第1页
基于麦克风阵列的会议电话系统.doc_第2页
基于麦克风阵列的会议电话系统.doc_第3页
基于麦克风阵列的会议电话系统.doc_第4页
基于麦克风阵列的会议电话系统.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于麦克风阵列的会议电话系统居太亮,林静然,彭启琮(电子科技大学通信与信息工程学院,成都 611731) 摘要:基于麦克风阵列的会议电话系统越来越受到人们的关注,其核心技术包括波束形成技 术(BF, Beamformers),回声消除技术(AECs, Acoustic Echo Cancellers),以及二者的结合方式 等 。本文 讨论 了在会 议电话 系统中 使用的 核心算 法,提 出 了 AECs- Beamformers- AECs(AEC-BF-AEC)的结合方式,即先经过初级多通道回声消除器,再通过波束形成器,最 后再通过次级单通道回声消除器的接连结构。仿真结果表明,该结构具有较高的性能,同时 运算复杂度由于同类算法。关键词: 信息与信号处理;麦克风阵列;会议电话;时延估计;回声消除中图分类号:TN911Telephones System Based Microphone ArraysJU Tailiang, Lin Jingran, Peng Qicong(School of Communication and Information Engineer,UESTC, ChengDu 611731)Abstract: Telephone system based microphone arrays has been a very active research field in recent years. The key technology includes beamformers,acoustic echo cancellers ,combining methods, andetc. In this paper, the key algorithms are discussed, and a cascaded system structure is presented. The structure is composed of a multi-channel AECs, delay and sum beamformer and single channel AECs. The simulation result shows that this structure has high performance and low computational complexity.Key words: Information and signal Processing; Microphone arrays; Telephone system; Time delay estimation; Acoustic echo cancellers0引言随着全球化经济的发展,远程会议使用越来越频繁,传统的单麦克风电话系统在拾音质 量,回声和环境噪声抑制方面难以满足需求。基于麦克风阵列的会议电话系统采用多个麦克 风拾取语音,采用空间滤波技术和多通道回声消除技术可以大大提高语音通信的质量。基于 麦克风阵列的会议电话系统包括两个方面的关键技术,包括高性能低复杂度的波束形成技术 和多通道回声消除技术。近年来,许多研究机构在这两个方面展开了广泛而深入的研究。文 献1提出了基于广义旁瓣对消(GSC, Generalized Sidelobe Canceller)和传输函数(TF, Transfer Function)的三种系统结构1,但是该结构假设时延估计没有误差,且实现复杂,运算量较大, 限制了改方法的广泛使用。文献2结合 LCMV 波束形成技术提出了 GEIC 算法2,并对比了 GSC 结构,多通道 AEC 和 Delay and Sum Beamformer 方法。同样该方法假设声源位置没 有误差,但是在实际系统中,由于语音信号的宽带特性,高精度和稳定声源位置估计很难获 得,当声源位置出现误差时,LCMV 方法可能会把有用信号作为噪声抑制,从而使算法不 稳定。普通的多通道 AEC 算法,由于要在每个通道上进行近千阶的自适应滤波,当通道数 教多时,运算量极大,限制了使用范围3-4。本文根据 AEC 算法和波束形成算法的特点,提 出了低滤波器阶数的前级多通道回声消除器,级联一个波束形成器,然后级联一个单通道较基金项目:高等学校博士学科点专项科研基金资助课题(20070614048)作者简介:居太亮(1974),男,讲师,主要研究方向:语音信号处理、通信信号处理和实时信号处理. E-mail:高阶数的回声消除器的系统结构。该结构在回声消除质量,计算复杂度和噪声抑制能力等方 面进行一个折中,确保该算法的实用性。1信号模型假设 M 个麦克风和一个 speaker 组成一个音频会议系统,其结构如图 1 所示。图 1 基于麦克风阵列的会议系统示意图Fig.1 The system structure of telephones based microphone arrays在图 1 中,u(n)为远端语音信号,s(n)为近端说话人信号,r(n)为近端干扰信号,v(n)为 远端信号通过 speaker 发出后通过房间的反射,辐射到麦克风上的信号。xi(n)为第 i 个麦克 风收到的语音信号,则 xi(n)为:xi (n) = xsi (n) + vei (n) + wi (n) = s(n) hsi (n) + u(n) hei (n) + wi (n), i = 1, 2, M (1)在上式中 xsi (n) 为第 i 个麦克风收到的信源信号,vei (n) 为第 i 个麦克风收到的 echo 信号,hsi (n) 为信号源到第 i 个麦克风的冲击响应,hei (n) 为 speaker 到第 i 个麦克风的冲击响 应,wi(n)为高斯白噪声。基于麦克风阵列的会议电话系统必须要处理两类问题,其一是抑制 speaker 发出的回声信号,另外一个是抑制环境噪声问题。对于单麦克风系统回声的消除,一般采用经典 AEC 算法。该算法的核心是利用自适应原理对回声通道建立模型,然后消去回声信号。对于一个 T60 为 300ms 的中度混响房间,采用 8KHz 采样,其滤波器阶数需要 2400 阶5-6。在单麦克 风系统中,AEC 可获得优异的回声抑制效果。但是在多麦克风系统中如果对每一路均采用 经典的 AEC 方法,则需要较高的计算复杂度,实时实现比较困难。对于环境噪声的抑制, 一般采用波束形成技术来增强感兴趣的语音信号。波束形成技术一般依赖于准确的声源定位 或时延估计技术,且其噪声抑制能力与麦克风的数量密切相关,在理想情况下,其噪声抑制7-8能力为10 log10 (M ) (dB)。随着麦克风数量的增加,噪声抑制能力显著提升。但是过多的麦克风带来了计算的复杂度增加。结合 AEC 和 BF 算法的优点,形成性能优良的处理算法, 国内外已经展开了深入的研究。文献3中讨论了几种策略3。其中之一是先对每个通道进行 独立的 AEC 处理,然后级 联一个波束 形成器 ( AEC-BF, Acoustic Echo canceller-Beamformer)。这种方法可以达到较好的回声抑制效果以及环境噪声的抑制能力。但是每 一路 AEC 均要消耗极大的运算量,系统及其复杂,难以实时实现。另外一种方法是先进行 波束形成,然后级联一个 AEC(BF-AEC)。因为只采用单个 AEC,这种结构使得计算复杂 度大大减少,但是在 BF 之后的单路 AEC 不仅要为回声路径建模,还要对时变的阵列波束 形成建模。如果采用自适应的波束形成器,AEC 的阶数会显著上升,否则难以达到理想的 回声抑制效果。一种折中的方案是采用 AEC-BF-AEC 的方案。先采用多路 AEC,每一路的 滤波器阶数较少,消除部分回声信号,确保有一定的回声抑制能力,然后进行波束形成,抑制环境噪声,增强语音信号,最好再进行一次 AEC,进一步抑制回声信号,保证回声消除 质量。其结构图如图 1 所示。在不存在双方同时讲话的情况下,设对方讲话时麦克风收到的信号为 vei (n) ,本地讲话时麦克风收到的信号 xsi (n) ,则 vei (n) 和 xsi (n) 分别为:xei (n) = u(n) hei (n) + w(n)xsi (n) = s(n) hsi (n) + w(n)(2) (3)根据语音检测(VAD, Voice Active Detector) 和双 端说话检测(DTD, Double TalkerDetector),当仅有本地讲话时,进行时延估计,更新波束形成器的权值。当仅有对方讲话时, 更新 AEC 的滤波器权值,当双方都讲话时,所有的滤波器权值均保持不变,也不进行时延 估计。2基于时延估计的波束形成算法在麦克风波束形成算法分为固定波束形成算法和自适应波束形成算法两大类。固定波束 形成技术有常常采用基于延迟相加(Delay-and-Sum Beamformer,DSB)的波束形成技术, 该算法运算量低,容易实现,能够抑制背景噪声,被广泛采用。设 M 个麦克风收到的信号 经过第一级 AEC 处理后的信号为 e1(n),e2(n),eM(n)。则经过波束形成器后的 eBF(n)信号 为:eBF(n) = 1MMi =1ei (n) exp( ji ), i = 1, M(4)在上式中,i 为第 i 路相对于第 1 路的时延,1 =0。为了准确获得时延i ,本节介绍一种能量加权的广义互相关函数法,实现稳定的时延估计。设第 1 路和第 i 路信号的傅立叶变换分别为 X1 () 和 X i () ,则:X1 () = S () H s1 () X i () = S () H si () 定义两麦克风接收信号的广义互相关函数 R1i (i ) 为:(5) (6)R ( ) = 1+ ()X () X * () exp( j )d(7)1ii2 1ii其中, () 广义互相关加权函数。针对不同的噪声和反射情况,可以选择不同的加权函数,使 R1i (i ) 具有比较尖锐的峰值,关于 () 的选择请参见文献7-8。 R1i (i ) 峰值处, 即为两麦克风之间的时延。但是低信噪比和有限窗长,往往使这种分析不稳定。因此,选择 适当的加权函数,突出峰值并减小多径带来的影响。同时,由于说话人的位置基本固定不变 或慢变化,可以考虑多帧平滑,抑制峰值的不稳定性。由于存在环境噪声以及语音信号的特 点,根据语音检测(VAD)来选择合适的语音帧参加平均,如果当前帧信号的噪声能量较 强,被 VAD 算法判决为噪声,则该帧的结果不参加平滑。设第 j 帧获得广义相关函数为jR1i( i ) ,且该帧为语音帧,即 vadj=1,则平滑后的相关函数为:j 1R1i(i ) = R1i(i ) + R1i(i ), vad j = 1(8)jjj kk =1在上式中, 为遗忘因子,根据说话人位置变化快慢,语音帧的长度,房间大小等适当调节,一般选 0.70.9 之间。1800mm3基于麦克风阵列会议电话系统的回声消除即其它相关算法回声消除一般采用 NLMS(normalized least-mean square)算法。通过在第一节的讨论,在 麦克风阵列的会议系统中,AEC-BF 的方式会导致运算量较大,而 BF-AEC 方式会导致 NLMS 滤波器的阶数过高,回声抑制效果较差,因此我们选用了两级 AEC 的方式,即对每个通道 的麦克风接收信号进行初级的 AEC 处理,AEC 的阶数可以选择 256 阶或更高,抑制大部分 回声信号,然后对系统进行波束形成处理,得到一路语音信号后,再选用 512 阶或更高的 NLMS 滤波器,进一步抑制回声信号,可以达到回声消除目的。为了进一步减小运算量,提 高回声抑制能力,可以选择子带 NLMS 算法。即把语音信号按照频率和听觉特性分成若干 子带,对每个子带选用阶数更少的 NLMS 滤波。关于 NLMS 算法和子带 NLMS 算法的具体 描述可参见文献5-6,限于篇幅,不再讨论。在会议电话系统中,还包括双说话检测算法,VAD 检测算法以及舒适噪声添加等算法, 这些算法均是一些传统的方法,请参见文献5-6。4算法仿真为了检测本文提出的算法性能,利用 Matlab Simulink 进行了仿真验证。仿真房间的尺寸 假设为 550350300 厘米,房间顶部为石膏版,混泥土墙面,开一 180 厘米宽的木质门以 及 330 厘米宽的玻璃窗户。室内正中间放置一 30012080 厘米的会议桌,桌上中心放置 直径 32 厘米的 6 元麦克风阵列,speaker 置于麦克风整列中心,房间布置示意图如图 2 所示。 利用文献9的方法9,获得 6 个麦克风的冲击响应如图 3 所示。仿真语音信号选用标准英语 数字 1 到 10 的男性和女性分别作为近端和远端信号。近端和远端交替朗读 1 到 10 其波形分 别如图 4(a)和图 4(b)所示。经过房间混响后第 1 个麦克风收到的型号如图 4(c)所示。选择普 通 NLMS 算法,前级 AEC 的阶数为 256 阶,后级 AEC 滤波器的阶数为 768 阶,系统仿真 输出结果如图 4(d)所示。5500 mm3500mm会议 电话 (a)仿真房间布局示意图 (b)麦克风阵列和 speaker 的布局示意图 图 2 仿真环境示意图Fig.2 The simulation conditions从仿真结果可以看出,麦克风接收到的信号完全包含了近端和远端的语音信号,强度大 致相当。通过本系统的处理后,可以看见在前 5 秒基本还可以听见远端的语音信号,但是远 端信号能量逐渐减弱,到了 7 秒左右,远端信号基本上被完全抑制了。在实际系统中,如果 在通话之初存在几秒的强回声,这是难以被用户接受的。由于自适应滤波器收敛速度的影响, 这个收敛时间很难被消除,而是采用其它方法进行滤波器初始化,比如利用开机声音,振铃 声音进行滤波器初始化,可以大大降低收敛时间,达到商用的目的。1100-10.5010 20 30 40 506070 mic 1,unit: ms-10.501020 30 40 50 6070 mic2,unit: ms00-0.50.5010 20 30 40 506070 mic 3,unit: ms-0.5101020 30 40 50 6070 mic4,unit: ms00-0.5010 20 30 40 506070 mic 5,unit: ms-101020 30 40 50 6070mic6,unit: ms图 3 每个麦克风上的冲击响应Fig.3 The impluse response of each microphone1Amplitude0-10 5 10 15 20 25 30a,Near-End Signal,Unit:s1Amplitude0-10 5 10 15 20 25 30b,Far-End Signal,Unit:s1Amplitude0-10 5 10 15 20 25 30c,1st. Microphone Signal,Unit:s1Amplitude0-10 5 10 15 20 25 30d,Sy stem Output Signal,Unit:s图 4 仿真结果,(a)近端语音信号,(b)远端语音信号,(c)第一个麦克风上收到的信号,(d)系统输出信号Fig.4 the simulation result,(a)near-end signal,(b) far-end signal,(c) 1st microphone signal,(d)output signal5结论本文给出了一种基于麦克风阵列的会议电话系统的实现方式,提出了两级 AEC 方式的 AECs-Beamformer-AECs 的系统结构,并讨论了时延估计的稳定性实现方法,仿真表明,该 结构具有较低的计算复杂度和优良的性能。在具体实现时,可根据硬件性能适当调整两级自 适应滤波器的阶数并选择合适的麦克风数量和系统拓扑结构,可形成商用的麦克风阵列会议 电话产品。参考文献 (References)1 Gal Reuven , Sharon Gannot , Israel Cohen , Joint noise reduction and acoustic echo cancellation using the transfer-function generalized sidelobe cancellerJ, Speech Communication,2007, 49: 6236352 Herbordt, W., Nakamura, S.,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论