




已阅读5页,还剩91页未读, 继续免费阅读
(信号与信息处理专业论文)复杂声学环境下的麦克风阵列语音定位研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学博士学位论文 摘要 麦克风阵列可广泛应用于音视频会议系统、语音增强、人机接口、机器人等领域。 语音定位技术是麦克风阵列信号处理的主要内容之一。麦克风阵列定位算法分为基于时 延估计的定位算法和基于角度估计的定位算法。基于角度估计的定位算法对源和传感器 模型有较大依赖性,多用于窄带、平稳信号的定位估计,且由于其运算量较大,并不适 合说话人定位的实际应用。基于时延估计的定位算法对源信号特性和传感器模型要求比 较宽泛,且其计算量较小、适应性强,因此广泛应用于说话人语音定位系统。传统的时 延估计定位算法多假设于理想声学环境,而麦克风阵列应用的音视频会议等场合常面临 复杂的声学环境,这导致了传统的定位算法无法适用。与传统的声源定位相比,麦克风 阵列说话人语音定位系统常面临复杂的声学环境,如房间混响干扰,有色噪声干扰,空 间噪声干扰,非高斯噪声干扰以及麦克风位置误差等。 本文围绕这些问题,分别针对语音定位系统中的时延估计、声源定位和语音检测三 部分功能,提出了一些新的算法,实现了复杂声学环境下的说话人定位。本文的创新工 作如下: ( 1 ) 针对传统信道盲辨识方法抗噪性能较差的问题,提出了抗噪信道盲辨识框架, 并给出了基于双麦克风的信道盲辨识方法。延迟特征值分解算法。该算法利用延迟相关 矩阵来盲辨识算法,对有色噪声有较好的抑制作用。 ( 2 ) 在抗噪信道盲辨识的框架下,针对混响和有色噪声下的时延估计问题,提出了 自适应延迟特征值分解算法。该算法通过对房间冲激响应进行辨识来抑制混响,同时采 用延迟相关矩阵来抑制有色噪声。实验结果表明,该算法在混响和有色噪声环境下可以 给出稳健的时延估计。 ( 3 ) 针对混响和空间噪声,提出了基于三麦克风的自适应延迟特征值分解时延估计 算法。该算法通过对双声源三麦克风系统进行盲辨识来估计时延,并利用延迟相关矩阵 来实现对空间噪声的抑制。 ( 4 ) 同时考虑时延估计误差和麦克风阵列位置误差,提出了线性校正总体最小二乘 定位算法。该算法采用总体最小二乘误差准则,可以有效地抑制阵列位置误差,并且由 于加入了位置参数的二次约束,改进了算法的稳定性。 ( 5 ) 针对多媒体会议房间中的鼓掌声、咳嗽声和敲门声等非高斯噪声的干扰,提出 一种基于线性预测残差域高阶统计量的语音v a d 检测方法。该方法利用线性预测残差 域的归一化峰度作为判别准则来表征语音和非语音信号在谐波数量上的差异,可以有效 地区分语音和非高斯噪声。 复杂声学环境下的麦克风阵列语音定位研究 计算机仿真实验验证了本文提出的时延估计算法、定位算法和语音v a d 检测算法 的有效性。 关键词:麦克风阵列;时间延迟;说话人定位;语音检测;混响;有色噪声;空间噪声; 非高斯噪声;信道盲辨识;总体最小二乘 大连理工大学博士学位论文 s p e e c hl o c a l i z a t i o nr e s e a r c hb a s e do nm i c r o p h o n ea r r a yi n a d v e r s ea c o u s t i ce n v i r o m e n t s a b s t r a c t m i c r o p h o n ea r r a yh a sb e e na p p l i e di nm a n yf i e l d ss u c ha ss p e e c he n h a n c e m e n t , s p e a k e r r e c o g n i t i o n , v i d e oc o n f e r e n c i n ga n ds oo n s p e a k e rl o c a l i z a t i o na st h ef o u n d a t i o no fs p a t i a l f i l t e r i n ga n da c o u s t i cp r o c e s s i n gi sak e yc o m p o n e n ti na r r a ys i g n a lp r o c e s s i n g s p e a k e r l o c a l i z a t i o nb a s e do nm i c r o p h o n ea r r a yi sc l a s s i f i e da st i m ed e l a yb a s e dl o c a l i z a t i o na n da n g l e b a s e dl o c a l i z a t i o n 。a n g l eb a s e dl o c a l i z a t i o n 谢t l la p p l i c a t i o n st on a r r o wb a n da n ds t a b l e s i g r 谢i ss e n s i t i v et os o u r c em o d e la n ds e n s o rm o d e l ,a n dd u et oh e a v yb u r d e ni nc o m p u t a t i o n , i ti sn o tf i tf o rs p e a k e rl o c a l i z a t i o n t i m ed e l a yb a s e dl o c a l i z a t i o ni si n s e n s i t i v et os o u r c ea n d s e n s o r , a n df o rl i g h tb u r d e ni nc o m p u t a t i o ni ti sw i l d l ya p p l i e di ns p e a k e rl o c a l i z a t i o ns y s t e m s t r a d i t i o n a lt i m ed e l a yb a s e dl o c a l i z a t i o na l g o r i t h ma i m st oi d e a lf r e e - f i e l da c o u s t i cm o d e l , b u ti nm a n yp r a c t i c a lc i r c u m s t a n c e ss u c ha sa u d i oa n dv i d e oc o n f e r e n c i n g ,t h el o c a l i z a t i o n s y s t e ms u f f e r sc o m p l e xa c o u s t i ce n v i r o n m e n t s ,w h i c hc a u s et r a d i t i o n a ll o c a l i z a t i o na l g o r i t h m f a i l e d i nc o n t r a s t 、加也t r a d i t i o n a ll o c a l i z a t i o nc i r c u m s t a n c e s m i c r o p h o n ea r r a ys p e e c h l o c a l i z a t i o n s y s t e m s e n c o u n t e rm o r ec o m p l e xa c o u s t i ce n v i r o n m e n t s i n c l u d i n gr o o m r e v e r b e r a t i o n , c o l o r e dn o i s e ,s p a t i a ln o i s e ,m i c r o p h o n ep o s i t i o nt u r b u l e n c e ,n o n - g a u s s i a n n o i s e a r o u n dt h i sc o m p l e xc i r c u m s t a n c e ,a i m i n ga tt h r e ef u n c t i o n so fl o c a l i z a t i o ns y s t e m i n c l u d e i n gt i m ed e l a ye s t i m a t i o n , s o u r c el o c a l i z a t i o na n ds p e e c ha c t i v i t yd e t e c t i o n , w e p r o p o s e ds o m ea l g o r i t h m s ,r e a l i z e d l o c a l i z a t i o ni n c o m p l e xc i r c u m s t a n c e t h em a i n c o n t r i b u t i o n sa l ea sf o l l o w : ( 1 ) af r a m eo fa n t i - n o i s eb l i n dc h a n n e li d e n t i f i c a t i o ni sp r o p o s e dt oi m p r o v et h e a n t i - n o i s ep e r f o r m a n c eo ft h et r a d i t i o n a lb l i n dc h a n n e li d e n t i f i c a t i o na l g o r i t h m a st h e f l a m e ss p e c i a lc a s e ,at w oc h a n n e li d e n t i f i c a t i o na l g o r i t h ml a g e v di sd e v e l o p e d t h e a l g o r i t h mc a nr e d u c ec o l o r e dn o i s eb e t t e rs i n c eal a g g e dc o v a l i a n c em a t r i xi su s e d ( 2 ) a i m i n ga tr e v e r b e r a t i o na n dc o l o r e dn o i s e ,u s i n ga n t i - n o i s et w oc h a n n e lb l i n d c h a n n e li d e n t i f i c a t i o na s c r i t e r i o n , ar o b u s ta d a p t i v et i m ed e l a ye s t i m a t i o na l g o r i t h m l a g - a e d ai sp r o p o s e d t h ea l g o r i t h mr e s t r a i n sr e v e r b e r a t i o nb ye s t i m a t i n gr o o mi m p u l s e r e s p o n s e ,a n du s e sl a g g e dc o v a l i a n c em a t r i xt or e d u c ec o l o r e dn o i s e s ot h ea l g o r i t h mc a n e s t i m a t et i m ed e l a yr o b u s t l yi nr e v e r b e r a n ta n dn o i s yc a s e ( 3 ) a i m i n ga tr e v e r b e r a t i o na n ds p a t i a ln o i s e ,a l la d a p t i v et i m ed e l a ye s t i m a t i o n a l g o r i t h mb a s e do nt r i p l em i c r o p h o n ei sp r o p o s e d t h ea l g o r i t h ms e p a r a t e ss p a t i a ln o i s eb y i i i 复杂声学环境下的麦克风阵列语音定位研究 i d e n t i f y i n gad o u b l ei n p u tt r i p l eo u t p u ts y s t e m ,a n du s e sl a g g e dc o v a r i a n c em a t r i xt or e d u c e s p a t i a ln o i s e ( 4 ) a3 ds o u r c el o c a l i z a t i o na l g o r i t h m l c t l si sp r o p o s e db yt a k i n gb o t ht d e e r r o r a n dm i c r o p h o n el o c a t i o ne r r o ri n t oa c c o u n t t h ea l g o r i t h mc a ng i v er o b u s tl o c a t i o ne s t i m a t e , b e c a u s ei ta d o p t st o t a ll e a s ts q u a r ec r i t e r i o nt or e d u c em i c r o p h o n el o c a t i o ne r r o r ,a n dt a k e s q u a d r a t i cc o n s t r a i n to fp o s i t i o np a r a m e t e r si n t oa c c o u n t ( 5 ) an e wv a da l g o r i t h mb a s e do nh i g h e ro r d e rs t a t i s t i c so fl i n e a rp r e d i c t i o nr e s i d u a li s p r o p o s e dt od i s c r i m i n a t ef a m i l i a rn o n g a u s s i a nn o i s e si nv i d e oc o n f e r e n c es u c h a sa p p l a u s e , c o u g ha n dk n o c k t h ea l g o r i t h mu t i l i z e st l l ed i f f e r e n c eb e t w e e nt h en u m b e ro fh a r m o n i c s s p e e c ha n dn o n g a u s s i a nn o i s et od i s c r i m i n a t et h e m b yu s i n gt h en o r m a l i z e dk u r t o s i sa s d i s c r i m i n a t i o nc r i t e r i o n , t h ea l g o d t h mc a ne f f e c t i v e l yd i s c r i m i n a t es p e e c ha n dn o n g a u s s i a n n o i s e k e yw o r d s :m i c r o p h o n ea r r a y ;t i m ed e l a ye s t i m a t i o n ;s o u r c el o c a l i z a t i o n ;s p e e c h a c t i v i t yd e t e c t i o n ;r e v e r b e r a t i o n ;c o l o r e dn o i s e ;s p a t i a ln o i s e ;n o n g a u s s i a nn o i s e ; b l i n dc h a n n e ll d e t i f i c a t i o n ;t o t a ll e a s ts q u a r e i v 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 x - :k 学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:日期: 大连理工大学博士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题 作者签名: 导师签名: 大连理工大学博士学位论文 1 绪论 1 1 研究背景及意义 阵列信号处理已经广泛用于通讯、雷达、医学、声纳、和航空航天等诸多领域。1 9 8 0 年以来,阵列技术被用于语音信号处理的研究。近年来,基于麦克风阵列的语音处理算 法己经成为新的研究热点【l 】。目前,麦克风阵列系统己经广泛应用于音视频电视电话会 议系统【圳、人机交互【5 。7 1 、语音识别【8 ,9 】以及多媒体信息处理1 1 0 , 1 1 1 等领域。 在语音信号处理中,声源的位置信息起着重要作用。例如,在麦克风阵列语音增强 系统中,确定说话人的位置可以调整麦克风阵列的波束方向,以增加声源强度,提高语 音拾取的质量,达到抑制干扰和噪声的效果;在多个说话人情况下,利用说话人的位置 信息,麦克风定位系统能挑选出发言人,并将波束自动地对准正在说话的人;在视频会 议系统中,利用说话人的位置信息可以引导摄像头转向并有效地跟踪说话人,从而提高 音频与视频质量;此外,说话人位置信息还可以用于公众场合下说话人眼神、面部表情 以及交往方式等非语音信息的提取【1 2 1 ,用以对说话人进行社会心理学分析等。 根据观测手段的不同,说话人定位可以分为视频定位和音频定位。人们对视频定位 的研究已经有几十年的历史,并且取得了很大的成功【l 孓1 5 】。但语音定位较之视频定位仍 然具有优势。语音定位系统能够全方位接收信号,且不受光照条件的限制,即使是位于 摄像机后面或者被其它物体遮挡的声源目标,仍然可以利用音频信息对其进行检测与定 位。正是语音定位对环境的良好适应性,使其成为众多定位系统的首选方法。 从1 9 8 0 年开始,一些大学和公司就已经开始麦克风阵列语音处理研究,如b r o w n 大学、b e l l 实验室以及以色列技术学院等,目前正在进行的项目包括欧洲的c h i l - 1 - 程 1 2 、a m i 工程【17 】以及美国的v a c e 工程【1 8 】等。视频会议系统厂商也已推出具有语音定 位功能的商业化产品,如p o l y c o m 公司的p o w e r c a m t m 摄像机采用麦克风阵列语音定位 技术l i m e l i g h t t m 控制其镜头转向,如图1 1 所示。针对个人计算机之间的语音通讯系统, m i c r o s o r 公司在新一代操作系统w i n d o w s v i s t a 中集成了对麦克风阵列的支持i l 圳,它采 用恒定束宽波束形成技术 2 0 2 1 1 ,以实现高质量的语音采集。i n t e l 公司提出h d a u d o i 规 范,在p c 机上可以实现1 6 个通道、3 2 k h z 的语音采集瞄】,再配合相应的软件,可以 获得高质量的语音信号。 复杂声学环境下的麦克风阵列语音定位研究 、,冀7 篁亨盆、专i 型q j i 二盖。 图ii p o l y e o m 视频会议终端 f i gl 】p o l y e o mv i d e o - c o n f e r e n c e t a r r a l n a l 12 麦克风阵列声源定位方法的研究进展 麦克风阵列声源定位技术大体可分为三类:基于波束形成的方法、基于子空间的方 法和基于时延估计的定位方法。 121 基于可控波束形成的声源定位 波束形成是阵列处理中一类重要技术,它通过加强特定方向传播信号的能量来修正 阵列波束方向i 引。单组阵列波束形成通过搜索整个空间来确定能量最大的波束,从而得 到声源波达方向的估计。两组阵列的波达方向相交,就可以估计出声源的位置。基于可 控波束形成的定位算法主要分为延迟求和波束形成方法和自适应滤波求和波束形成方 法。延迟求和是最简单的波束形成方法,该方法对麦克风所接收到的各路语音信号进行 延迟处理,以补偿声源到麦克的传播延迟然后通过求和来形成单一的输出信号。该方 法法计算量较小,信号失真少,但需要较多麦克才能得到比较好的效果,且抗噪性能较 差。为了适应噪声情况,通常采用自适应滤波求和波束形成方法,即在进行时延补偿的 同时,对信号进行滤波处理。自适应滤波求和波束形成方法所需要的麦克风数目相对较 少,在没有混响时可取得较好效果,但该算法运算量较大,且输出信号有一定程度失真。 c a m r 和h a h n 最早提出可控波束形成方法的理论基础口4 州,h a h n 进一步推导出可控定 位的理论和实际上的方差【2 日。w a x 和k a i l a t h 将单个声源的情况1 2 7 2 $ 】下的可控波束形成 扩展到多声源情况脚j 。 波束形成技术己经应用于基于麦克风阵列的语音拾取领域但要实现稳健有效的声 源定位还有一定困难。可控波束形成方法必须从一组离散的波束形成角度中选取波达方 向,这样当声源的位置较远时,其分辨率就会明显下降。这使得可控渡束形成技术在用 于摄像机控制系统时,变焦范围的选取成为一个困难的问题。此外,波束形成方法本质 上是一种最大似然估计方法,它需要声源和环境噪声的先验知识,但在实际中,这种先 大连理工大学博士学位论文 验知识往往很难获得。此外,波束形成方法是非线性优化问题,需要进行全局搜索,因 此运算量大,不易实时实现。在波束形成方法中,目标函数通常存在多个极值点,为了 减小计算复杂性,s i l v e r m a n 和k i r t m a l l 提出了一个简化的次优算法 3 0 1 ,但该方法对初 始点的选取敏感,因此在优化过程中难以找到全局最优点。总之,基于波束形成的声源 定位技术在实际应用中性能差异较大,计算复杂度高,从而限制了该类方法的应用 3 1 3 1 。 1 2 2 基于子空间方法的声源定位 基于子空间方法的声源定位技术主要是基于高分辨谱估计方法,其主要任务是信号 的波达方向( d o a ,d i e r c f i o no f a r r i v a ) 估计,也称为方向估计或空间超( 高) 分辨谱估计。 最早的d o a 估计算法,称作常规波束形成法( c b f ) 【3 4 】,也称为b a r t e l e t t 波束形成法。 它是传统的傅立叶谱估计方法在空域的简单扩展。但该方法不能突破瑞利限,无法分辨 一个波束宽度内的空间目标。空间信号的方向估计类似于时间信号的频率估计,因此一 些时域非线性谱估计方法被推广成为空域谱估计方法。这类基于线性预测理论的高分辨 谱估计方法主要有:谐波分析法【”】、最大熵法【3 6 1 m m m ) 和最小方差法网m m ) 。这类 算法假定信号源在空间是连续分布且是空间平稳的随机过程,这限制了其应用环境。此 外,该类算法不能有效利用加性噪声的统计特性,因而其分辨性能较差哪! 。 近年来,d o a 估计的研究多集中于特征子空间类算法。该类算法通过对阵列接收 数据的自相关矩阵作特征分解,将其划分为两个相互正交的子空间,其中与信号源的阵 列流形空间一致空间称为信号子空间,与信号子空间正交的空间称为噪声子空间。特征 子空间类算法就是利用这两个子空间的正交特性,构造出空间谱峰,从而提高了算法的 分辨力。特征子空间类算法从处理方式上可分为两类,一类是以m u s i c 为代表的噪声 子空间类算法,另一类是以旋转不变子空间( e s p r i t ) 为代表的信号子空间类算法。 m u s i c 类算法包括特征矢量方法【3 9 】、m u s i c 方法【4 0 】、求根m u s i c t 4 1 】方法等。e s p r i t 为代表的算法主要有t a m 方法【4 2 j 、l s e s p r i t 方法【4 3 】、t l s e s p r i t 方法等。子空 间算法的另一类扩展子空间拟合算法,其中比较有代表性的有,最大似然算法( m e ) 4 5 , 4 6 】、 加权子空间拟合( w s f ) 算法1 47 1 、多维m u s i c ( m d 。m u s i c ) 算法1 4 8 】等。最大似然m l 参数 估计类方法,是参数估计理论中一种典型和实用的估计方法,它包括确定性最大似然算 法d m l 4 5 j 和随机性最大似然算法s m l l 4 6 。由于方向估计的似然函数通常是非线性的, 需要进行多维搜索,因此计算量很大。即使可以采用一些优化迭代算法,如轮转投影算 法【4 9 】来减少计算量,但这些算法也只能找到局部最优解,并不能保证全局最优。加权子 空间拟合( w s f ) 算法按子空间特性可以分为两类:信号子空间拟合算法f 4 7 1 和噪声子空间 拟合算法阱】。子空间拟合算法可归结为多维参数优化问题,因此池算法的实现过程, 复杂声学环境下的麦克风阵列语音定位研究 与子空间拟合算法的实现过程可以通用,例如m o d e 算法【5 0 】、m v p 算法【5 、迭代二次 型最大似然( q i m l ) 【5 2 j 等,均可以采用最大似然和加权子空间拟合算法的实现过程。与 子空间分解类算法相比,子空间拟合类算法的估计性能优良,且在相干源情况下仍能有 效估计。但子空间拟合类算法运算量大,实时实现比较困难。并且,子空间类算法多是 为窄带信号设计,并不适用于宽带信号。 对于宽带信号d o a 问题,子空间类算法大多是将窄带算法进行宽带扩展。目前宽 带d o a 估计的算法主要分为基于不相干信号的处理方法( s 蹦) 和基于相干信号处理的 方法( c s m ) 两大类。基于不相干信号的s i m 处理方法的思想是将宽带数据通过子带滤波 或d f t 变换,分解成在频带上互不重叠的窄带数据;然后对每个频带的窄带数据进行 窄带信号子空间处理,获得若干窄带估计结果;再将把这些结果综合处理,得到源信号 的方位信息。这类算法的主要缺点是运算量较大,无法估计相干信号源。麦克风阵列语 音处理中,该类算法主要是针对语音信号的特点对算法进行改进,例如估计维数的扩展, 以及减少运算量,解相干信号等。基于相干信号的c s m 处理方法的基本思想是把频带 内互不重叠的信号空间,通过变换聚焦到一个参考频率点,得到该频率点的数据协方差 矩阵,再用窄带处理的方法进行参数估计。该类算法包括双边相关变换( t c t ) 算法p 引、 旋转信号子空间算, 法( r s s ) t 5 4 、信号子空间变换( s s t ) 算法1 5 5 】、最小二乘( l s ) 类算法【5 6 j 等。这类算法计算复杂度相对较小,估计精度较高,并能处理相干信号。但是,这些算 法均要求对信号的方向信息进行预估计,且多用于平稳信号的一维参数估计,对于语音 这种非平稳信号并不适用。关于子空间方法的更详细论述可以参见文献 5 7 】。 总体来说,子空间类方法是利用麦克风阵列接收到的信号构造空间相关矩阵,对声 源位置进行估计。在实际中,相关矩阵需要通过时域平均来估计,这就要求信号和噪声 在估计时段中是统计平稳的。然而对于语音这样的非平稳信号,短时平稳时间段内采集 的数据量很少,很难满足子空间法对估计精度的要求。此外,子空间类估计算法对声源 误差和传感器模型误差比较敏感,且计算量过大,不适于实际应用。 1 2 3 基于时延估计的两步法声源定位 基于时延估计的定位方法计算量较小,定位精度较高,因此在应用中占据主导地位, 为多数语音定位系统所采用。基于时延估计的定位方法需要两个步骤:第一步,计算不 同麦克风对间的声源到达时间延迟差( t d o a ,t i m ed i f f e r e n c eo f a r r i v a l ) ;第二步,利用 第一步的t d o a 信息和麦克风阵列的几何位置信息,得到声源位置的估计。 时延估计就是计算到达不同麦克风间的时间延迟之差。经典的时延估计方法是广义 互相关函数法( g c c ,g e n e r a l i z e dc r o s sc o e r r a t i o n ) s s 】。该方法利用不同麦克风间接收到 一4 一 大连理工大学博士学位论文 的信号构造互相关函数,然后选取使互相关函数最大化的时间延迟作为t d o a 估计值。 广义互相关类的时延估计算法需要较长的数据才能得到准确的估计结果,且在低信噪比 和混响环境下,其性能急剧下降。为了提高复杂声学环境下时延估计的性能,人们提出 了一些改进算法,相位变换方法( p h a t ,p h a s et r a n s f o r m ) 【5 9 】通过对语音互谱进行预白化, 减少对频率加权的依赖,锐化互相关函数的峰值,从而提高了弱噪声和中度混响的环境 下的时延估计性能。c h e n 和h u a n g 提出了时延估计的多通道互相关系数法 m u l t i c h a n n e lc r o s s c o r r e l a t i o nc o e 伍c i e n t1 【硎,该方法利用空间线性预测技术将g c c 方 法扩展到多麦克风情况,且对于高斯信源是一种联合熵意义上的最优估计【6 1 | 。但该方法 采用的是理想环境模型,并隐含高斯信源假设,因此对非高斯信源该类算法性能明显下 降f 6 2 】。s t e p h e n e 和c h a m p a g n e 提出用倒谱预滤波技术来进行混响环境下的时延估计1 6 引, p a r i s i 和c i r i l l o 通过选取多个峰值进行线性交叉来去除混响的影响岬j ,y e g n a n a r a y a n a 利用线性预测残差域中的语音脉冲激励进行混响环境下的时延估计1 6 引。但这三种算法仍 采用理想房间模型,因此其时延估计的抗混响性能并不理想。针对强混响环境,h u a n g 在l m s 自适应时延估计算法的基础惭】上提出了自适应特征值分解算法( a e d a ,a d a p t i v e e i g e n v a l u ed e c o m p o s i t i o na l g o r i t h m ) d n 。该算法将混响效应描述成房间冲激响应滤波器 对信号的滤波过程,通过对不同麦克风的房间冲激响应进行估计来抑制混响,并利用冲 激响应的峰值估计出t d o a 。h u a n g 还将双麦克风自适应特征值分解算法扩展到多麦克 风情况,提出了多通道l m s 自适应算法【6 引。为了提高多通道l m s 自适应算法的收敛速 度,h u a n g 将该算法推广到频域【6 9 】。实际上,自适应特征值分解类算法事实上是子空间 法f i r 信道盲辨识框架【7 0 】的一种双麦克风简化形式。由于该框架没有考虑噪声,因此自 适应特征值分解算法和多通道l m s 自适应算法的抗噪性能不佳。d o c l o 与m o o n e n 利用 预白化技术来改善自适应特征值分解算法的抗噪声性能,提出了预白化自适应特征值分 解算法( p r e w h i t e n - a e d a ) 7 1 】。但该算法需要预先知道噪声的完整相关矩阵,这样当噪声 先验信息不足时,其性能会明显下降。 基于时延估计的声源定位方法的第二个步骤是利用时延信息和麦克风阵列位置信 息对声源进行定位。在利用t d o a 估计对单个声源进行定位时,加性观测误差模型是一 类广泛采用的数据模型。它假定加性噪声与度量参数独立,利用一组双曲面相交,得到 声源的位置估计。该模型描述了t d o a 与声源位置的基本约束关系,因此,在声源定位 领域得到广泛的研究。 采用加性观测误差模型的源定位技术主要分为基于似然函数的方法和基于最小二 乘及线性逼近的闭式解方法。 基于最大似然( m l ,m a x i m u ml i k e l i h o o d ) 准则的定位算法【2 8 1 1 2 9 具有良好的渐进性 复杂声学环境下的麦克风阵列语音定位研究 能,但当麦克风数量受限时会因有限采样而导致性能明显下降。m l 算法通常假设观测 误差的概率高斯过程,这样较容易应用中心极限定理来构造其似然函数。尽管h a h n 和 t r e t t e r 认为连续时间序列中高斯误差的假设是成立的【z 引,但由于采样带来的误差,在离 散系统中v i i , 算法就不再最优。此外,由于双曲函数是非线性的,为了寻找m l 的解, 需要应用n e w t o n - r a p h s o n 迭代法【7 5 】,高斯牛顿法【7 6 】和最t j 、- - 乘法等,但这些方法都容 易陷入局部最优解中。因此,基于m l 的定位算法并不适合实际应用。 最小二乘定位算法可以导出闭式解,且不需对观测误差作额外的假设,因此在定位 系统中得到广泛应用【_ 玎j 。为了构建最小二乘算法,需要定义一个基于t d o a 的误差函 数。选取不同的误差函数,会产生不同复杂度、不同性能的算法。利用三个麦克风间的 t d o a 可以在二维空间产生一条经过声源的线,而在三维空间则会产生一个面。p i ( p l a n e i n t e r s e e t i o n ) 算法1 8 0 j 通过使不同麦克风组( 三个一组) 所产生的线面相交,就得到了位置估 计。s x u ( s p h e r i c a li n t e r s e c t i o n ) 算法利用最小二乘准则求解误差函数分两步得到位置估 计,该算法步骤简单,但需要先求解出声源距离作为二次约束,当观测噪声出现时,这 个解可能不唯一或不存在。s i ( s p h e r i c a li n t e r p o l a t i o n ) 算法【8 2 】通过求解最小二乘意义上声 源距离,避免了s x 算法的不确定性,但由于s i 算法假设源距离是独立于源位置坐标的, 从而导致定位方差较大。h u a n g 采用一步最小二乘( o s l s ,o n e s t e pl e a s t - s q u a r e s ) 方法 峭引,减少了s i 算法的计算量。针对s i 算法定位方差较大问题,h u a n g 又提出了现行校 正最t j , , - - 乘算法l c l s ( l i n e a rc o r r e c t i o nl e a s ts q u a r e s ) 瞰】,该算法引入源距离和位置的 关系作为约束,有效地减小了定位方差,但当存在阵列位置误差时,l c l s 算法偏差较 大。 相比于可控波束形成方法和子空间方法,基于时延估计的两步定位方法具有对源特 性不敏感、鲁棒性强和计算量小等优势,可适用于复杂声学环境下的声源定位。 1 3 麦克风阵列应用的复杂声学环境 在实际应用中,基于麦克风阵列的语音定位问题常常面临复杂的声学环境,包括房 间混响环境,噪声干扰,麦克风位置存在偏差等,这些干扰会严重影响声源定位算法的 性能。常见的干扰因素主要有以下几种: ( 1 ) 房间混响干扰 在室内环境中,四周墙壁、天花板等对声音的反射作用会产生混响效应,混响的存 在会产生相干性虚声源,从而干扰定位系统的性能。当空间较小时,如车载环境和较小 的会议室房间,混响的影响尤为明显。 ( 2 ) 有色噪声干扰 一6 一 大连理工大学博士学位论文 空间和时间上的相关性会导致有色噪声的产生。例如,接收通道之间的互耦,由分 布源引起的随机散射、回声,非期望的干扰源和各种电子设备产生的噪声等。相对于白 噪声而言,有色噪声的存在会更加严重影响定位性能。 ( 3 ) 空间噪声干扰 在室内环境中,空间干扰源和语音信号同时传播到阵列上,严重影响定位性能。 ( 4 ) 非高斯噪声干扰 在会议室等场所常会出现非高斯噪声,如咳嗽、敲门和鼓掌声等。这类非高斯噪声 的声学特性有时会接近语音,从而使定位系统产生混淆,影响定位性能。 ( 5 ) 麦克风位置偏差 在车载环境中,震动有时会使麦克风阵列中麦克的空间位置偏离理论值,这种位置 误差会直接影响定位的准确性。 本文将围绕上述这些问题,从定位系统的时延估计、声源定位和语音检测三部分功 能入手,对复杂声学环境下的语音定位技术进行深入的研究。 1 4 论文的研究内容与结构安排 本文在对信道盲辨识,总体最小二乘准则和语音线性预测等理论进行研究的基础 上,针对语音定位系统中出现的混响效应、有色噪声、空间噪声和非高斯噪声干扰以及 阵列位置误差等复杂声学环境,进行了模型构建和理论分析,并给出了相应的算法。本 文的主要贡献包括: ( 1 ) 在对单输入多输出系统( s i m o ) 信道盲辨识进行深入研究的基础上,提出了一 种适用有色噪声情况的s i m o 信道盲辨识框架。基于此框架,给出了双麦克风信道盲辨 识方法l a g - e v d ,改善了传统信道盲辨识方法的抗噪声性能。在此基础上,针对时延估 计的应用需要,构造了一种基于双麦克风信道盲辨识方法的自适应时延估计算法 l a g a e d a ,提高了有色噪声和混响环境下的时延估计精度。 ( 2 ) 针对混响和空间干扰噪声,提出一种基于三麦克风相关矩阵特征值分解的时延 估计算法t l a g a e d a 。该算法提高了空间噪声与混响环境下时延估计的性能。 ( 3 ) 同时针对麦克风阵列误差和时延估计误差,提出一种基于总体最d - - 乘准则的 三维定位算法l c t l s ,改善了算法在阵列误差出现时的定位精度。 ( 4 ) 将线性预测残差域的高阶统计量应用于非高斯噪声环境下的语音检测,提出了 一种基于归一化峰度的语音检测方法。该方法改善了由非高斯噪声引起的误定位问题, 提高了说话人定位系统的稳定性。 复杂声学环境下的麦克风阵列语音定位研究 全文的主要内容安排如下: 第二章,回顾了现有的几种声源定位技术框架,并说明了基于时延估计的声源定位 技术的合理性。 第三章,深入研究了混响环境下的时延估计问题。首先给出了混响环境的声学模型, 并对房间冲激响应进行了计算机模拟。接着,提出了有色噪声下的信道盲辨识框架,并 在讨论传统信道盲辨识方法e v d 和p r e w h i t e n e v d 的基础上,给出了抗噪信道盲辨识的 双麦克风方法l a g e v d 。针对时延估计的应用,在介绍传统盲辨识自适应时延估计算法 a e d a 和p r e w h i t e n a e d a 的基础上,进一步提出了自适应时延估计算法l a g a e d a 。 之后,针对空间噪声和混响,提出了基于三麦克风的自适应时延估计算法t l a g a e d a 。 第四章,研究了利用时延参数确定声源空间位置的问题。该章首先介绍了声源定位 问题的数学表达式,并给出了基于时延参数的声源定位模型。之后介绍了最小二乘定位 算法,并针对阵列位置误差,利用总体最d , - 乘准则,提出了线性校正总体最小二乘声 源定位算法l c t l s ,并给出了该算法的闭式解形式。仿真实验表明,该算法可以有效 地改善定位的稳定性。 第五章,讨论了语音检测问题。首先介绍了传统的语音检测准则,之后针对非高斯 噪声,应用线性预测残差域的高阶统计量,提出了一种基于归一化峰度的语音检测方法。 仿真实验表明,该方法可以有效的抑制非高斯噪声,降低定位系统的误操作率。 本课题主要来源于国家自然科学基金“基于麦克风阵列的语音增强和定位方法研 究”( 基金号:6 0 3 7 2 0 8 2 ) ,“基于麦克风阵列的多说话人跟踪方法研究”( 基金号:6 0 7 7 2 1 6 1 ) 以及教育部跨世纪优秀人才培养计划基金项目。 大连理工大学博士学位论文 2 麦克风阵列声源定位基础 本章将介绍麦克风阵列声源定位基础。2 1 节介绍了麦克风阵列的基本概念,在2 2 节中详细介绍了现有麦克风阵列定位技术三大类方法,并给出了技术脉络和算法细节。 2 1 麦克风阵列概念 麦克风阵列 图2 1 麦克风阵列 f i g u r e2 1m i c r o p h o n ea r r a y 吉 图2 1 是麦克风阵列示意图,其中各麦克记录的信号中既包含有声源的直达信号( 带 箭头的较粗直线) ,也有声源经墙面反射回来的信号,还有背景噪声。若不考虑混响, 各麦克接收的信号可用矢量形式表示为 x ( 玎) = 伍s ( 刀一f ) + b ( 功( 2 1 ) 其中旺表示声波传播衰减量,它与声源到麦克的距离成反比;t 是一组时延矢量,b 是 噪声矢量。麦克风阵列声源定位问题研究的是如何利用麦克记录的信号x o ) 来最佳估计 出声源方向。 考虑在平面上摆放的麦克风阵列和声源如图2 2 所示,根据两个麦克风之间的时间 延迟,可以确定声源的波达方向( d o a , d i r e c t i o no f a r r i v e ) 。设一对麦克之间距离为d , 时延估计为f ,那么在满足远场平面波条件下,波达方向
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 免疫培训考试题库及答案
- 森林防火气象知识培训课件
- 桥梁节段拼装培训课件
- 2025年重庆市养老护理员职业资格技师培训题(含答案)
- 2025年高职院校实训指导教师招聘考试模拟试题及解析报告
- 2025年医疗保健行业招聘笔试模拟题详解
- 2025年年满七十岁以上老人驾考三力测试题及答案
- 2025年信息技术行业招聘面试全真模拟题及解析
- 2025年农产品储备库笔试重点解析
- 2025年网络安全工程师核心技能面试题集
- 2025至2030医学混合成像系统行业产业运行态势及投资规划深度研究报告
- 2025年云南省高校大学《辅导员》招聘考试题库及答案
- 2025年内蒙古交通集团考试笔试试题(含答案)
- 消费品市场2025年消费者对绿色包装认知及需求调研可行性研究报告
- 台球厅消防知识培训课件
- 充电桩运维服务协议
- 2025至2030中国防砸安全鞋行业运营态势与投资前景调查研究报告
- 低压安全隐患排查
- 学堂在线 高技术与现代局部战争 章节测试答案
- 列车牵规正文
- 云南民族大学听课记录表和效果评价表-202203158163
评论
0/150
提交评论