室内环境下的双耳声源定位系统的研究与实现

上传人：A*** IP属地：贵州上传时间：2019-06-09 格式：PDF 页数：68 大小：6.67MB 积分：0 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

东南大学硕士学位论文室内环境下的双耳声源定位系统的研究与实现姓名：张峰申请学位级别：硕士专业：信号与信息处理指导教师：吴镇扬 20100301 摘要摘要语言交流在人类生活中的作用不言而喻，而听觉在语言交流中有着举足轻重的作用。一个有正常听觉的人甚至可以在很恶劣的环境下进行语言交流，而一个有听力障碍的人却要面临许多的困难。因而，人们一直在研究人类的听觉系统，希望可以帮助有听力障碍的人们。双耳声源定位是其中的一项关键技术，即研究人类辨别声源方位的机制。双耳声源定位目前得到了广泛的研究和应用，该研究试图模拟人类的听觉系统，不仅在研究助听器方面，而且在听觉场景分析、自动语音识别系统、仿生机器人、增强现实音频和多声源分离及追踪等领域发挥了重要作用。本文首先研究了室内环境下双耳声源定位系统的原理及实现，讨论了双耳听觉定位线索和与头相关传递函数( H e a d R e l a t e dT r a n s f e rF u n c t i o n ，H R T F ) 数据库匹配两部分。定位线索主要有耳间时间差( I n t e r a u r a lT i m eD i f f e r e n c e ，I T D ) 、耳间强度差( I n t e r a u r a l I n t e n s i t yD i f f e r e n c e ，I I D ) 及谱信息等，本文主要研究利用I T D 进行声源定位。论文选择 M I T 实验室的H R T F 数据库直接计算得到参考方位I T D ，再由双耳声信号得到I T D 估计值，最后进行匹配得到声源方位。其次，本文研究了基于双耳信号模型的广义互相关I T D 估计算法，讨论了影响算法性能的几个关键因素，最后提出了基于低通滤波的改进互相关算法，并通过实验进行了验证。同时为了提高系统在室内混响环境下的鲁棒性，本文重点分析了房间脉冲响应函数，并基于复倒谱最小相位分量低通滤波的去混响算法，提高双耳声定位算法对混响的鲁棒性，最后进行了实验验证。最后本文对双耳声源定位系统进行了实际的系统测试。测试主要在消声室和普通房间内进行，并采用了多种声源如白噪声、音乐及语音信号等。测试结果表明，该系统抗混响性能较好，定位精度较高，达到了预期要求。关键词：双耳声源定位，耳间时间差，与头相关传递函数，广义互相关，去混响一一苎生旦竖苎苎，一 A b s t r a c t L a n g u a g ec o m m u n i c a t i o np l a y sa v i t a lr o l ei nd a i l yl i f e ，a n da u d i t o r ys e n s ei so fg r e a t i m p o r t a n c ei nl a n g u a g ec o m m u n i c a t i o n P e o p l ew i t hn o r m a lh e a r i n gc a p a b i l i t i e s a r ea b l et o c o m m u n i c a t ei nt h ea d v e r s ee n v i r o n m e n t ，w h i l et h o s ew i t hi m p a i r e dh e a r i n gf u n c t i o nw i l l f a c ed i f f i c u l t i e si nc o m m u n i c a t i o n H e n c ec o n t i n u o u sr e s e a r c he f f o r t sh a v eb e e nm a d ei n t o a u d i t o r ys e n s e s ，i nt h eh o p eo fh e l p i n gh e a r i n g - i m p a i r e dp e o p l e B i n a u r a ls o u r c el o c a l i z a t i o n i so n eo ft h ek e yt e c h n o l o g i e s ，i e t h es t u d yo nt h em e c h a n i s mo fh o wp e o p l ei d e n t i f ys o u r c e I o c a t i o n C u r r e n t l y , b i n a u r a ls o u r c el o c a l i z a t i o nh a sb e e nw i d e l ys t u d i e da n da p p l i e d I ta R e m p t s t os i m u l a t eh u m a na u d i t o r ys y s t e mw i t hi t sa p p l i c a t i o nn o to n l yi nh e a r i n ga i d s ，b u ta l s oi n f i e l d ss u c ha sa u d i t o r ys c e n ea n a l y s i s ，a u t o m a t i cs p e e c hr e c o g n i t i o ns y s t e m ，b i o m o r p h i c r o b o t i c s ，a u g m e n t e dr e a l i t ya u d i oa n d s o u r c es e p a r a t i o na n dm o t i o nt r a c k i n g F i r s t ，t h et h e s i ss t u d i e st h ep r i n c i p l eo fb i n a u r a l s o u r c el o c a l i z a t i o ni nd e t a i l s ，a n d d i s c u s s e st h el o c a l i z a t i o nc u ea n dH e a d R e l a t e dT r a n s f e rF u n c t i o n ( H R T F ) d a t al o o k u p L o c a l i z a t i o nc u ei n c l u d e sI n t e r a u r a lT i m eD i f f e r e n c e ( I T D ) ，I n t e r a u r a lI n t e n s i t yD i f f e r e n c e ( 1 i D ) a n ds p e c t r a li n f o r m a t i o n T h ep a p e ru t i l i z e sI T D t ol o c a t es o u r c e H R T Fd a t a b a s ef r o m M I Tl a bi ss e l e c t e dt oa sr e f e r e n c ea z i m u t hI T D ，a n dI T De s t i m a t ei s c a l c u l a t e db a s e do n b i n a u r a ls i g n a l F i n a l l ys o u r c el o c a t i o ni si d e n t i f i e dt h r o u g hc r o s sm a t c h i n g T h e n ，g e n e r a l i z e dc r o s sc o r r e l a t i o nI T De s t i m a t ea l g o r i t h ma n dk e yf a c t o r si n f l u e n c i n g a I g o r i t h mp e r f o r m a n c ea r ed i s c u s s e df u l l y A l s o ，i m p r o v e dc r o s sc o r r e l a t i o na l g o r i t h mb a s e d o nl o w p a s sf i l t e r i n gi sp r o p o s e da n dv a l i d a t e dw i t hs i m u l a t i o n T oi m p r o v et h es y s t e m r o b u s t n e s si nt h ei n d o o rr e v e r b e r a n te n v i r o n m e n t ，t h er o o mi m p u l s er e s p o n s e i s f u l l y a n a l y z e da n dad e r e v e r b e r a t i o na l g o r i t h mb a s e do nl o w p a s sf i l t e r i n go fc o m p l e xc e p s t r u m m i n i m u m p h a s ec o m p o n e n t i sa p p l i e d ，w h i c hh a v eb e e nt e s t i f i e db ye x p e r i m e n t s F i n a l l yac o m p l e t ee x p e r i m e n t a lt e s ti sc o n d u c t e do nt h eb i n a u r a ls o u r c e l o c a l i z a t i o n s y s t e mi nb o t ha n e c h o i cr o o ma n do r d i n a r yr o o mw i t h v a r i o u ss o u r c e s ，e g w h i t en o i s e ， m u s i c a n da u d i os i g n a l s S i m u l a t i o nr e s u l t ss h o wt h a tt h es y s t e mi s r o b u s tt or e v e r b e r a t i o n a n dh a sh i g hl o c a l i z a t i o na c c u r a c y K e y w o r d ：B i n a u r a ls o u r c e l o c a l i z a t i o n ，I n t e r a u r a l T i m eD i f f e r e n c e ，H e a d R e l a t e d T r a n s f e rF u n c t i o n g e n e r a l i z e dc r o s sc o r r e l a t i o n ，d e - r e v e r b e r a t i o n I l l 第一聋绪论第一章绪论 1 1 声源定位的研究背景及意义声源定位是近年来国内外研究的重点课题之一，是通过声学传感装置接收声波，再利用电子装置将声信号进行转化处理，以此实现对声源位置探测、识别并对目标进行定位及跟踪的技术。随着时代的发展和科技的进步，声源定位技术逐渐扩展到日常生活中来，例如机器人实时跟踪，地震波的检测，电视会议中的声音定位等。这些应用大多是在实验室的近场环境下进行的，并且技术还很不完善，因此研究室内声源定位具有很重要的理论和实践意义。 1 2 麦克风阵列声源定位的主要研究方法麦克风阵列是指由一定的几何结构排列而成的若干个麦克风组成的阵列。相对于单个麦克风而言具有更多优势，它能以电了瞄准的方式从所需要的声源方向提供高质量的声音信号，同时抑制其他人的声音和环境噪声，具有很强的空间选择性，而且不需移动麦克风就可获取移动的声源信号，同时它还可以在一定的范围内实现声源的自适应检测、定位及跟踪，这使得它在诸多领域有着广泛的应用1 4 J 。基于麦克风阵列的声源定位是指用麦克风阵列拾取声音信号，通过对多路声音信号进行分析与处理，在空间域中确定出一个或是多个声源的平而或空间坐标，即得到声源的位置。1 9 9 6 年S i l v e r m a n 和B r a n d s t e i n 开始将其应用于声源定位中，用于确定和实时跟踪说话人的位置，具体文献见 5 】，已经获得了广泛的应用。基于麦克风阵列的声源定位方法基本上可以分为三类：基于可控波束形成的声源定位技术，基于高分辨谱估计的声源定位和基于到达时延差( T D O A ) 的定位技术。 1 2 1 基于可控波束形成的声源定位技术波束形成的基本思想是对各麦克风所接收到的声信号滤波并加权求和形成波束，进而通过搜索可能的位置来引导波束，输出功率最大的点就是声源的位置。文献【6 】【7 】【8 】最早提出了该方法的理论基础，并引用于声源定位。基于可控波束形成的定位技术，主要分为延迟累加波束算法和自适应波束算法。前者运算量较小，信号失真小，但抗噪性能差，需要较多的阵元才有比较好的效果。后者因为加了自适应滤波，所以运算量比较大，而且输出信号有一定程度的失真，但需要的麦克风数目相对较少，在没有混响时有比较好的效果。 l 东南大学硕士学位论文基于可控波束形成器的定位方法是较早出现的实际的定位方法，现较多地用于雷达、声纳以及移动通信的信号处理中。在这些应用中信源往往是远场的窄带信号，这时的阵列入射波可视为平面波。当信源为宽带信号时，可使用频域的波束形成器来进行声源定位。波束形成技术虽己在麦克风阵列的语音拾取领域广泛应用，但其鲁棒性还是较差，特别是对噪声和混响声比较敏感。首先，实际中的可控波束定位技术较多使用最大似然估计( M a x i m u mL i k e l i h o o d ，简称M L ) ，基于M L 估计的可控波束形成其最优化准则绝大多数都需要背景噪声和声源信号的频谱特性的先验知识，并且该类算法都假设噪声和声源信号是不相关的，因此对混响的鲁棒性比较差；而基于相位变换的P H A T 方法在混响环境中有较强的鲁棒性，且不需要知道背景噪声功率谱，但是P H A T 法的缺点是对噪声比较敏感。而在实际应用中，这种先验知识往往很难获取。其次，该方法需要改变权值进行全局的搜索，因而运算量极大，很难实时实现。虽然可以采用一些迭代方法来减少运算量，但常常没有有效的全局峰值，而收敛于几个局部最大值，且对初始搜索值极度敏感。因此，该类方法在实际系统中性能差异很大，再加之计算复杂度高，限制了该类算法的应用范围。 1 2 2 基于高分辨率谱估计的声源定位技术高分辨率谱估计主要有自回归( A R ) 模型法，最大熵( M E ) 法，最小方差估计( M V E ) 法和特征子空间分解法。其中子空间技术是阵列信号处理中研究最多、应用最广、最基本也是最重要的技术之一。子空间类方法主要分两类【4 】，一类是利用阵列自相关矩阵主特征向量( 即信号子空间) 的丰分量方法，如A R 参数模型主分量法。B T 主分量法等；另一类方法是以信号子空间和噪声子空间的正交性原理为基础，利用组成噪声子空间的特征向量来进行谱估计，这类算法主要有多重信号分类( M U S I C ) 法【9 1 ，J o h n s o n 法，最小范数( M i n i - N o r m ) 法，旋转不变信号参数估计( E S P R I T ) 法【1 0 1 等。基于子空间估计的方法一般都具有很高的定位精度，但应用对象是远场的窄带信号，实际效果不是很理想。这主要是由于基于子空间的空间谱的相关矩阵是未知的，必须从观测信号中来估计，需要在一定时间间隔内利用信号平均来获得，同时假设接收信号处于声源、噪声、估计参数I 司定不变的环境中以及有足够多的信号平均值。但实际应用往往不满足这些条件，另外由于房间的混响作用，使信号和噪声有一定的相关性，也会降低该方法的有效性。该方法还需假定声源离传声器阵列的距离比较远，且传声器阵列是一个线性阵列，这样声波可以近似看成平面波，而这却往往不适用于近距离定位的系统。 2 第一章绪论 1 2 3 基于到达时延差( T D O A ) 的定位技术基于到达时延差( T i m eD e l a yo fA r r i v a l ，T D O A ) 的定位技术是目前声源定位中应用最广泛的方法，也可称为基于时间延迟的定位技术。所谓时间延迟】，是指阵列中不同接收器所接收到的同源带噪信号之问由于信号传输距离不同而引起的时间差。时间延迟估计是指利用参数估计和信号处理的理论和方法，对上述时间延迟进行估计和测定，并由此进一步确定其它有关参数，例如声源目标的距离、方位、运动方向和速度等。基于T D O A 的声源定位技术一般分为两个步骤进行：第一步，先进行时延估计并从中获得麦克风阵列中相应阵元对之间的T D O A 。第二步，利用T D O A 结合已知的麦克风阵列的空间位置用搜索或几何算法确定声源位置。 1 9 7 6 年，K n a p p 和C a r t e r 共同发表了一篇题为“广义相关法时延估计”的著名论文，具体见文献【1 2 】。这篇里程碑式的论文，将当时存在的多种基于相关分析的加权时延估计方法统一在广义相关时延估计的理论框架下，并给出了时延估计的性能下界克拉美罗下界。此后，关于时延估计的研究进入了一个新的高潮并在实际应用中获得了J 1 泛的应用。 1 9 9 4 年，O m o l o g o 提出了互功率谱相位算法l l 引，先将互功率谱进行白化，然后求其傅立叶逆变换，变换后的互相关函数在真实时延处会出现尖锐的峰值。这种方法对中低混响有很好的抑制作用，以后很多研究者对其进行了分析和改进，出现了很多基于 C S P 分析的定位算法和应用场合。在点声源的声音信号到达一对麦克风时，并计算出到达时间筹( T D O A ) 后，根据解析几何知识，可得三维空间的点声源位于以两麦克风为焦点，T D O A 为参数的双曲面上。如果给定一组麦克风对的时延估计，在理想的情况下，声源位置就是这些双曲面的交点。可以通过联立曲线方程求解。然而，实际上由于时延估计误差的存在，这个交集往往足空集。定位算法的重点就是如何采用优化的算法估计真正的声源位置，减小定位误差。目前的算法可以人致分为两类：基于搜索的定位算法和基于解析解的定位算法I I 4 1 。在现有麦克风器阵列声源定位中，基于到达时延差的定位方法精度相对较高，计算量是三种方法中最小的，可以考虑在实际中实时实现。不过由于该方法的定位分为2 个过程( 时延估计和定位) ，在定位时所使用的参数是过去时间，因此该估计只是一个次最优的定位。同时该定位比较适合单声源的定位，对多声源的定位效果4 i 是很好，房间的混响也会影响定位的准确性。 1 3 双耳声源定位概述语言交流在人类生活中的作用不言而喻，而听觉在交流中占着举足轻重的作用。一个有正常听觉的人甚垒可以在很恶劣的环境下进行交流，而一个有听力障碍的人却要面东南人学硕士学位论文临许多的困难。因而，人们一直在研究人类的听觉系统，希望可以帮助有听力障碍的人们。现在，基于双耳的声源定位已获得了广泛的研究和应用，相比较麦克风阵列声源定位而言，它试图模拟人类的听觉系统，不仅在帮助有听力障碍的人们方面，而且在人机交互系统、自动语音识别系统等领域获得了应用。 1 3 1 双耳声源定位的研究背景 ( 1 ) 听觉场景分析一般来说，人类听觉系统所具有的检测、定位、识别和分辨不同声源信息的功能都与听觉场景分析( a u d i t o r ys c e l l ea n a l y s i s ，简称A S A ) 息息相关。听觉场景代表了听者的周围物理环境，包括声源信息。传统的A S A 研究主要集中在声学、生理学和心理学等方面，当把以上各个方面的研究综合起来时就产生了心理声学。B r e g m a n 和B l a u e r t 等学者对心理声学进行了大量的研究，极大的促进了心理声学的发展。在A S A 系统中，一个物理声源发出的信号被称为源事件，每一个源事件都有一系列相关的源属性。源属性都与声源的特性有关，比如空间物理位置、时间状态及频域状态等。在听觉场景中，听者接收到的是多个源事件的混合，直接到达听者的声音信号称为直达声。除此之外，混合声信号中还包括反射声和衍射声等。因此，原始的声信号也就受到了污染。尽管如此，混合声中包含了一些足够有用的重要信息，以至于人类的听觉系统还是能够依靠这些信息来提取声源信息，A S A 的核心就是获取这些重要信息，这些信息称为听觉线索。 ( 2 ) 听觉线索简介简单来说，主要分为两组听觉线索。第一组听觉线索仅与声源的特性有关，这些特性主要包括声源的时域状态和频域状态，因此也称为信号线索。这些信号线索主要包括起止时间、偏移时间、幅度调制、频率调制和谐度等。第二组听觉线索涉及到听觉场景的物理情况，主要反映了声源相对于传感器的物理位置。基本的听觉线索有时间差、强度差和相位差等。这些线索对于估计声源的方位角及仰角等信息都是极其重要的。 ( 3 ) 计算听觉场景分析计算听觉场景分析( C o m p u t a t i o n a lA u d i t o r yS c e n eA n a l y s i s ，简称C A S A ) 描述了关于模拟人类听觉系统行为或者其中某一方面特性的计算方法。根据对人类如何实现A S A 研究侧重点的不同，这些计算方法差别很大。一些计算方法直接对人类听觉处理过程进行建模，另外一些则是纯粹的计算方法，而与A S A 无关。1 9 9 8 年，R o s e n t h a l 和O k u n o 对C A S A 作了一个全面的总结。 4 第一章绪论 1 3 2 双耳声源定位的主要研究方法双耳声源定位即在双耳处采集声音信号并进行声源方位的估计。对于水平面卜的方位估计，即方位角估计，双耳间的差异是至关重要的。双耳间的差异主要由与头部相关的传递函数( H R T F ) 来描述，H R T F 将在下一章详细讨论。 J e f f r e s s l 2 】于1 9 4 8 年提出了基于神经脉冲的碰撞模型，开创了双耳声源定位的里程碑。当声音信号到达双耳处时，经过鼓膜产生震动后传递全0 内耳，刺激神经末梢产生神经脉冲信号。左右耳的神经脉冲信号就会沿着不同的路径向相反的方向传播，当然左右耳产生神经脉冲的时间会有一个差异。当恰巧左右耳的神经脉冲碰撞时，此处的神经元就会被激活，而相对延时信息也被转化为空间信息。J e f f r e s s 假说利用双耳信号的短时互相关函数来计算耳间时间差( I n t e r a u r a lT i m eD i f f e r e n c e ，简称I T D ) 。C o l b u m 于1 9 7 3 年和1 9 7 7 年对J e f f r e s s 假说进行了量化，称为J e f f r e s s C o l b u m 模型。带通滤自动门低通滤非线性泊松处波器限控制波器整流器理左图1 1 听觉神经未梢活动模拟图次数图I - 2J e f f r e s s C o l b u m 模型神经脉冲碰撞模型 J e f f r e s s C o l b u r n 模型包含两个方面，神经末梢活动特征和中央处理部分。其I | l 神经末梢活动模拟如图卜l ，声音信号首先通过一个带通滤波器，进行个人化的频率选择，然后经过一个自动门限控制，以限制一些较大的信号响应，再通过一个防止出现相位锁相的低通滤波器，而后再经过非线性整流器的模拟神经末梢非线性的作用，最后再进行泊松处理。泊松处理是一种较简单的可以用来模拟神经元激发时间的随机过程，因此可以用来表征听觉神经的特性。东雨大学硕士学位论文中央处理部分则分析和处理来自双耳的神经脉冲活动，如图1 2 所示。其中C C 表示来自两耳的神经脉冲的巧合碰撞。神经脉冲的传递延时在图中是概念化表述的，经过一系列的延时、特征频率选择和碰撞，时间信息转化为空间信息传递给大脑。此后大部分研究都是基于J e f f r e s s C o l b u m 模型展开的，可参考文献【1 5 1 6 】。在 J e f f r e s s 模型的基础上，L i n d e m a n n 1 7 J 和G a i k 1 8 J 等考虑了耳间级别差( I n t e r a u r a lL e v e l D i f f e r e n c e ，简称I L D ) 提出了一些扩展模型。而近年来的研究则侧重于把I T D 和I L D 联合起来进行方位估计，具体见参考文献【1 9 】 2 0 】 2 l 】。W i i b e r t 利用了个人化的学习参考模型，但是计算量偏大，且在实际中不宜应用，此处不再具体讨论。 L i 和L e v i n s o n 利用贝叶斯准则来进行三维空间中的声源方位估计。算法流程如图 1 3 所示，第一步利用I T D 和一些先验信息计算定位概率，筛选出一些可能的声源方位。第二步将此前得出的定位概率作为先验信息再利用耳间强度差I I D ( I n t e r a u r a iI n t e n s i t y D i f f e r e n c e ) 重新修正，进一步缩小可能的声源方位。第三步将修正后的概率再一次作为先验信息，利用双耳谱信息进行最后的判决，确定声源方位。该方法在忽略噪声和混响的前提下获得了良好的定位效果，但在实际环境中的应用还需要进一步实验。先 I T Dl i D 谱信息方位角、仰角方位角、仰角图1 3 基于贝叶斯准则的方位判决 R o m a n 和W a n g 利用隐马尔可夫模型( H i d d e nM a r k o vM o d e l ，简称H M M ) 进行全局搜索来追踪多声源方位。具体算法流程如图1 - 4 ，共分为四步。( 1 ) 建立听觉系统模型并进行双耳线索估计。( 2 ) 在每一个时间帧内进行频率带选择，得到可靠的特征频率子带。( 3 ) 利用多个频率子带产生一个目标子空间的函数，即最大似然函数。( 4 ) 利用连续H M M 模型进行多声源追踪。此方法利用H M M 全局搜索进行声源追踪得到了很好的定位效果，但是实际应用中计算量偏大，耗费时间较长，大大降低了实时性。双耳信号双耳线索估计H 频率选择卜叫整合 H M M 模型l 方位角追踪声源I 卜图l - 4 基于H M M 的多声源追踪系统 V i s t e 1 】和E v a n g e l i s t a 在对双耳信号进行短时傅立叶变换的基础上计算I T D 和I L D ，并结合两者估计声源方位。一方面利用I L D 估计方位有一个较大的标准差，特别是在低频情况下。另一方面基于I T D 的方位角估计标准差较小，但是在傅立叶变换时会产生相 6 位卷绕问题，最终会产生几个可能的估计方位。因而两者可以结合起来，利用I L D 来解决I T D 的相位卷绕问题。具体算法见图卜5 ，分为四步。( 1 ) 利用短时傅立叶变换分别计算双耳定位线索I T D 和l i D 。( 2 ) 根据H R T F 数据库分别计算相应角度的I L D 和I T D 模型，以作为方位参考。( 3 ) 对计算得到的I L D 和1 T D 进行模型查找，分别估计出声源方位。( 4 ) 利用I T D 和I L D 联合估计出最终的声源方位。图l - 5 基于I L D 和I T D 的联合方位估计本文主要研究室内环境下的水平面上双耳声源定位问题，即方位角估计。本文借鉴了基于双麦克风信号模型到达时延差的定位技术，莺点研究了基于双耳信号模型的时延差估计算法，利用改进的广义互相关方法来估计I T D ，最后利用H R T F 数据库匹配来估计方位角。为了提高双耳声源定位的抗混响性能，本文还重点研究了在复倒谱域上的去混响算法。 1 4 双耳声源定位的实际应用现在双耳声源定位已获得了广泛深入的应用，在听觉声场分析、助听器、仿生机器人、增强现实音频和多声源分离及追踪等领域发挥了重要作用，下面略举一二。近年来，日本的一些大学和研究院所在对机器人听觉进行研究，并采用双耳听觉系统拓宽机器人利用听觉所能实现的功能。2 0 0 1 年日本京都大学研制了能实时跟踪多说话者的机器人，称为S I G 仿人形机器人l3 1 。该机器人采用两个麦克风作为两个“耳朵”来获取声音信息，通过基音周期的提取进行语音的定位和分离，利用视觉改善声源分离。增强现实音频技术是一个由真正的声学环境和虚拟听觉环境相结合的扩展技术。引入增强现实音频的一个基本框架是基于一个特定配置的耳机，其中双耳麦克风信号和立体声相结合。当麦克风信号到达耳机时，用户感受到一个真实的声学环境。然后把虚拟声混合到麦克风信号中以达到增强现实音频的作用。相关听力系统表明，该系统的性能测试结果非常令人感兴趣。例如，发现在一些情况下听众存增强现实音频中很难确定哪个音源是真实的，哪些是虚拟的。 7 东南大学硕士学位论文 1 5 论文的研究方向和内容安排本文主要基于室内环境。卜的双耳声源定位技术做了一些研究和工程化的工作，以后的内容都是基于室内实际声源定位所遇到的实际问题展开的。第一章主要介绍了声源定位技术的背景、研究现状及实际应用。第二章主要介绍双耳声源定位算法的研究及关键技术。首先简单叙述了声音定位原理和定位线索以及人耳的听觉感知理解过程，这对本文研究双耳定位有着极其重要的指导作用。然后重点研究了基于双耳声信号的定位算法，即定位线索估计和H R I T 数据库匹配，此算法即是双耳声源定位算法的理论基础。第三章重点研究了双耳时延估计算法。首先在双麦克风信号模型的基础上讨论了经典的广义互相关，并详细研究了其加权函数的抗噪性能。在此基础上，将经典广义互相关法推广到双耳信号模型，并研究了影响算法性能的几个因素。最后通过实际的室内声源定位实验，提出了简单的基于低通滤波的改进时延估计方法，并给出了具体的实验结果。第四章主要研究混响对于室内声源定位的影响及如何尽可能消除混响的影响。首先简要介绍了混响的概念、特征及影响，然后详细探讨了基于复倒谱最小相位分量滤波的去混响方法，最后把此方法成功应用到双耳声音定位中来，并在室内混响环境下的声源定位中验证了其效果。第五章则在室内环境下对双耳声源定位系统进行了全面的测试，包括系统测试和结果分析。首先简要介绍了本文实验使用的K E M A R 人体模型及整个系统测试方法，然后分别在消声室和普通房间内进行声源定位实验并加以比较分析。此外实验还选取了白噪声，音乐，语音信号分别进行了实验和对比。最后对测试结果进行综合分析，着重讨论了方位角、音源、及混响因素的影响，并对整个系统的性能进行了评价。第六章是全文总结，并提出了下一步的工作方向。第二章双耳声源定位算法第二章双耳声源定位算法本章重点讨论基于双耳的声源定位算法。简要介绍了人耳听觉定位的原理，即双工理论和耳廓滤波理论，并着重讨论了听觉定位线索耳问时间差和耳问强度差。再由耳廓滤波理论引出了H R T F ，重点讨论了H R T F 的定义、性质以及在声音定位中的重要作用。然后简要介绍了人耳对声源的感知和理解过程，并讨论了听觉系统的重要特性及混响的影响作用。最后提出了本文的基于双耳的声源定位算法框架，即定位线索估计和H R T F 数据库匹配。 2 1 人耳声音定位原理及定位线索 2 1 1 双工理论人耳对声音的空间定位是听觉感知的一个基本功能，不仅可以提供声源的方位信息，还可以作为辅助信息线索来引导视觉注意力。为了更深入地理解人类的听觉机制，下面简毕阐述人耳的听觉定位原理。 1 9 0 7 年L o r dR a y l e i g h 在没有耳廓的球形人头假设基础上，利用音叉产生的单音激励，研究了水平方位上的声音定位，首次提出了基于耳间线索差的声音定位理论，称为双工理论( D u p l e xT h e o r y ) 2 2 】。人耳分布在头部的两侧，凶而具有不例的空间位置，由于声源到达左右耳的距离不相等，导致了到达同侧( 靠近声源的一侧) 和异侧( 远离声源的一侧) 耳朵的声信号存在时问差和强度差，分别称为耳问时间差I T D ( I n t e r a u r a lT i m e D i f f e r e n c e ) 和耳问强度差l i D ( I n t e r a u r a lI n t e n s i t yD i f i e r e n c e ) 。图2 lI T D 、I I D 原理罔 I T D 和l i D 的形成原理如图2 1 所示，设有两个空间点声源A 和B ，A 点位于O 。方位角处，由于A 点声源到左右耳的路径是相等的，因此声音到达两耳的时间和强度都是相同的：而B 点方位角向右侧偏移，则声信号到达两耳的路径不再相等，因此信号到达两耳的时间和强度也都不再相同，这就产生了I T D 。同时又由于头部、人耳对高频信号的掩蔽效应就产生了I I D 。且随着声源位置方向的变化，I T D 和l i D 也是不I _ J 的，因 9 东南大学硕j ：学位论文此，可以根据I T D 、l i D 实现对不同方向声源的定位。 W i g h t m a n 等研究者从头部对声音是否起遮挡作用这个角度来研究这两个定位线索的作用。研究认为对于I T D 线索占优势的低频声音信号，声音的波长比头部尺寸大，声音因而发生“衍射效应“ 绕过头部，沿着头部没有衰减或很少衰减到达异侧耳朵。相反对于频率大于1 5 0 0 H z 的声信号，在传播到耳朵的路径中，除了空气的吸收外，人的头部就相当于一个障碍物，会对声波产生“遮掩效应”，高频信号将因此被衰减，并且随着频率的增加，衰减幅度也越来越大，具体参考文献见【2 5 】。同时，大量的生理学和心理声学实验证实了W i g h t m a n 的研究，I T D 和l i D 的作用范围是有所区别的。实验结果表明，在频率小于1 5 0 0 H z 时I T D 可能在声源定位中起主导作用，在频率大于1 5 0 0 H z 时I T D 作为方位角定位线索的作用逐渐减弱，l i D 逐渐成为声音定位的主要线索f 2 3 】f 2 4 】。 2 I 2 耳廓滤波效应理论概述双工理论明确指出双耳差线索I T D 和l i D 在声音定位中起着非常重要的作用，但只能解决前方水平方位的声音定位问题，无法解决人耳在三维空间中声音定位的所有现象。例如根据双工理论，对于分别位于听者右前方和右后方对称位置上的声源，它们产生的I T D 和l i D 相等，造成定位的锥面模型效应，但人耳是能够辨别声源方位。此外，自然听觉中即使只用一只耳朵( 即没有I T D 和l i D ) 也能对声源进行相当准确的判断。由于双工理论的缺陷，研究者提出了耳廓滤波理论【2 6 。人类耳廓的形状很特别，其在结构上无论对上下还是左右方向都是不对称的，是一个凹壳，里面有多个形状复杂的曲而。耳道入口不在耳廓中央，而是偏在一边被耳屏虚掩着。耳廓对声波的反射作用对声音的定位起着重要作用，当声波到达耳廓时，一部分声音直接进入耳道，另一部分则经过耳廓反射后才进入耳道。由于声音到达的方向不同，反射波和直达波之间的强度会发生变化，而且反射波和直达波之间在不同的频率上产生不同的时间差和相位差，使得反射波和直达波在鼓膜处形成一种与声源方位有关的频谱特性，听觉神经据此来判断声源的空间方位。这些主要由耳廓滤波效应产生的谱线索可以综合用与头部相关联的传递函数 ( H e a d R e l a t e dT r a n s f e rF u n c t i o n ，简称H R T F ) 来表达。与之相对应的时域表示称为与头部相关联的冲激响应( H e a d R e l a t e dI m p u l s eR e s p o n s e ，简称H R I R ) 。研究表明，H R T F 克服了双工理论只使用耳间时间差和强度差线索进行定位的局限性，在听觉定位中扮演着十分重要的角色。 1 0 第章双耳卢源定位算法 2 2H R T F 概述 2 2 1H R T F 的定义耳廓滤波效应理论说明人类的听觉系统在功能上相当于一个与声音空间方向有关的滤波器，对不同方向声音信号进行了频谱修正，而大脑则根据声音到达耳膜时的声信号频谱特性米辨别声源方位。因而H R T F 可以看作是一个声滤波系统的频域传输函数，描述了头部、耳廓、躯干等散射作用对声波的滤波特性。 H R T F 也称为自由场到耳道的传递函数，是空间听觉的重要线索。H R T F 是自由场到耳道某点位置的频率响应，是通过测量自由声场特定点到耳道特定点的频率响应得到。通过不同位置的扬声器播放声源信号，然后利用置于被测听者耳道的探针式麦克风测量就得到不同方位的H R I R ，再通过傅立叶变换得到H R T F 。通常H R T F 看作是线性时不变系统，频率形式定义为：或： H c = 日c c ，口，缈，口，= ! 学。2 ，峨咧r , 8 , ( p , c o , c r ) = 锴 P L = HL p oP R = - R P o ( 2 2 ) 式中，下标和尺分别表示左耳和右耳，只和B 分别表示点声源在左、右耳道入口处产生的复数声压振幅；P o 表示测量对象不存在时，头部中心位置的复数声压振幅。日，、日。分别表示声源到左、右耳的传递函数H R T F 。在一般情况下，日，、。是声源方位角臼、仰角矿，声源到头中心距离，以及声波角频率的函数( 当声源较远时，如， 1 4 m 时，H ：、H 。基本上与，无关) ，并且与头部等效尺寸口以及头和耳廓的形状有，综合了人耳听觉空间方位辨别信息，其中既包含了耳间时间差线索I T D 和l i D ，以及频谱特征。 2 2 2H R T F 数据库 H R T F 是描述声波从声源到耳道口传播特征的传递函数，反映了外耳、头部和躯干对于来在不同方位的声音信号的滤波作用。因而，H R T F 数据的精确获取对于本文的研究具有非常重要的意义。目前，进行H R T F 测量工作的有加州大学戴维斯分校图像处理和集成计算中心 l l 尔雨人学坝I j 宁位沱义 ( C I P l C ) 、麻省理工学院( M I T ) 的媒体实验窄、W i s c o n s i n 人学M a d i s o n 分校神经生理系的有关实验窜、N A S A 的A m e s 实验事等。他们对动物或人( 包括人体模堑! ) 的H R I R 进行了细致的测量，结果公布在I n t e r n e t 上以供研究。一般H R T F 数据主要依靠实验室对人体模型或真人进行测量得到的，在人体模型或真人头部的耳道内放置两个高灵敏度微型麦克风，再从各种角度播放确定的信号，同u 寸 i 己录麦克! I i 复I ! - J 白勺信号。比较源信号和麦克风的脉冲特| ，J ：曲线就可以得到H R T F 数据。住所有位置重复L 述过程，即可获取完整的H R T F 系统。人的听觉敏感度远远低于视觉敏感度，所以对三维声音的测量精度要求远远低于对图形反馈的精度要求。 H R T F 是耳道中信号与特定方向上自南声场信号的F o u r i e r 变换之比，H R I R 则是 H R T F 对应的时域脉冲响应信号，凶此可以通过在人耳中放簧特制的麦克风，进行H R I R 参数的拾取。目前麦克风有两种放置位置，一种是将麦克风放在耳廓与耳道的连接处，种是将麦克风放在耳道中接近鼓膜的地方，后一种方法测最的结果包含了耳道效应。耳道效应了方位无关，测量一次即可。 H R T F 的测量1 二作相当繁琐和细致，图2 2 为C I P I C 测量H R T F 的系统，需要专门的测量环境和设备，包括用于获得自由声场信号的消卢室，精确灵活的扬卢器，测量对象及其位霄网定系统，性能良好的传感器与数据采集和处理系统等。其中测量对象的选择是一个重要问题，【可以是真人、人体模型和动物，其中K E M A R ( K n o w l e sE l e c t r o n i c M a n i k i nf o rA c o u s t i cR e s e a r c h ) 人体模型由近乎真人的耳廓、耳道、头、颈及躯二f i 模型组成。一、图2 2C I P I C 的H R T F 测量系统豁丁以后的实验用到M I T 实验室的H R T F 数据库，冈而以下简要介绍M I T 实验室测鼋： I R T F 的方法及其数据库特点。 M I T 实验率使用的坐标体系如图2 3 所示：以两耳连线的中点为原点，原点通常位 _ J i 头部中心的后下方。仰角矽是声源矢最与水、卜而前半j | ，斯之间的央角，0 。仰角代表 2 第章双耳声源定位算法水平面，9 0 。仰角代表正上方；方位角臼是声源矢量与垂直中垂面的夹角，0 。方位角代表中垂面，从中垂面顺时针转动一周则方位角从0 。递增到3 6 0 。图2 - 3M I T 实验室测蹙H R T F 使用的坐标系 K E M A R 的H R I R 数据测量的仰角范围为- - 4 0 。( 平而以下) 到+ 9 0 。( 平而以上) 。对应每个仰角，在3 6 0 。的方位角范围内以相同的步长均匀采样，步长为5 。左右，共测量了7 1 0 个位置。其中对于水平面卜

人人文库> 全部分类> 应用文书 > 产品手册

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

室内环境下的双耳声源定位系统的研究与实现

文档简介

温馨提示

最新文档

评论

室内环境下的双耳声源定位系统的研究与实现

文档简介

温馨提示

最新文档

评论

相关文档