(电路与系统专业论文)室内麦克风阵列声源定位算法研究和实现.pdf_第1页
(电路与系统专业论文)室内麦克风阵列声源定位算法研究和实现.pdf_第2页
(电路与系统专业论文)室内麦克风阵列声源定位算法研究和实现.pdf_第3页
(电路与系统专业论文)室内麦克风阵列声源定位算法研究和实现.pdf_第4页
(电路与系统专业论文)室内麦克风阵列声源定位算法研究和实现.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(电路与系统专业论文)室内麦克风阵列声源定位算法研究和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着多媒体技术的进一步发展,语音在接收和处理信息方面的应用重要性得 到了广泛的关注,语音识别,语音增强,目标声源的定位等应用方兴未艾,而声 源的定位是实现语音增强,语音识别的前提和基础,基于麦克风阵列的声源定位 技术由于其广阔的应用前景得到了广泛的关注。 在本论文中,我们致力于研究室内环境下的基于麦克风阵列的声源定位系统 的研究和实现工作。在室内环境中,由于房间回响和背景的噪声的影响,麦克风 阵列的性能受到了极大的限制,再者,由于硬件条件的限制,一些定位算法所需 的计算量大,限制了其实时的应用。本文针对上述的两个问题,提出了自己的解 决方案,并在实际环境中搭建了系统,采集了数据,验证了提出算法的有效性。 鉴于预处理和语音活动检测对声源定位系统后续处理的重要性,首先我们介 绍了滤波,加窗预处理操作,解释了简单但有效的语音活动检测算法:能量法和 过零率法。 基于时间到达差的( t d o a ) 的g c c l m s 两步定位方法由于其计算量小, 因此在实际的系统中得到了广泛的应用。第一步的时延估计直接决定了定位的性 能,我们在实际中发现,由于采集卡同步噪声的原因,虚假的零峰值导致了错误 的时延估计,因此,我们对互功率谱滤波解决此问题。为了尽可能的削弱回响和 噪声对时延估计的影响,我们采取了几个措施,1 ) 减小搜索空间,按照麦克风的 距离设置搜索区间,2 ) 根据信噪比动态的调整权重函数的大小,仿真结果表明 了这些措施的采用提高了在高噪声和回响环境中时延估计的准确度。另外,我们 针对了采样率低的情况提出了对互相关函数的插值,提高了时延估计的空间分辨 率。在t d o a 的第二步中,目前广泛采用了最小二乘法( l m s ) ,为了增强系统 的可靠和稳健性,我们提出了一种轮流使用麦克风为参考麦克风,剔除误差较大 的位置估计,对剩下的取平均,提高了位置估计的鲁棒性。另外,我们介绍了基 于双曲线定位的平面几何法,并和最小二乘法( l m s ) 做了简要的对比。 目前另一种广泛使用的声源定位方法是可控波束法( s l 冲) ,一步定位的可控 波束法相对与两步定位的t d o a 法,推迟了做决策的阶段,综合了所有的麦克 风信息,具有更强的抗回响和噪声能力,而与之相随的代价是计算量大,难于实 时处理。基于随机区域收缩( s r p s r c ) 的可控波束法避免了全局的空间搜索, 极大的减少了计算量,在论文中,我们改进了s r p s r c 方法,称之为s r p r s r c 方法,1 ) 引入了塑形函数,提高了能量峰值和周围环境的对比度,2 ) 设定一能 量阈值,从能量大于此阈值的空间中选择能量最大的点,使s r p r s r c 算法具 有更快的收敛速度,更小的计算量。另外,我们将卡尔曼滤波和预测和s r p r s r c 联合使用,使系统的跟踪性能更为稳定。 最后,我们介绍了我们在室内环境中实现的系统的基本结构和软硬件的情 况,并用实际中采集的数据对基于t d o a 的两步g c c l m s 定位法和s r p s r c , s r p r s r c 做了对比分析。 关键词:麦克风阵列声源定位t d o a 可控波束随机区域收缩 中图分类号:t p 3 9 2 a b s t r a c t w i t ht h ed e v e l o p m e n t so fm u l t i m e d i at e c h n o l o g y , t h ei m p o r t a n c eo fu s i n gv o i c e i nr e c e i v i n ga n dd e a l i n gw i t hi n f o r m a t i o nh a sa r o u s e dw i l dc o n c e r n t h ea p p l i c a t i o n s o fv o i c er e c o g n i t i o n v o i c ee n h a n c e m e n ta n da c o u s t i cs o u r c el o c a l i z a t i o na r cs t i l l u n d e r d e v e l o p m e n t , w h i l e a c o u s t i cs o u r c el o c a l i z a t i o n i st h eb a s i sa n d p r e r e q u i s i t e a c o u s t i cs o u r c el o c a l i z a t i o nb a s e do nm i c r o p h o n ea r r a yh a sr e c e i v e d m o r ea n dm o r oa t t e n t i o nb e c a u s ei th a sp o t e n t i a lf o rab r o a dr a n g eo fa p p l i c a t i o n s i no u l t h e s i s w ed e d i c a t eo u r s e l v e st or e s e a r c ha n dr e a l i z a t i o no fa c o u s t i cs o u r c e l o c a l i z a t i o ns y s t e mb a s e do nm i c r o p h o n ea r r a yi nr o o me n v i r o n m e n t n ep e r f o r m a n c e o fm i c r o p h o n ea r r a yi sa f f e c t e ds e r i o u s l yd u et or o o mr e v e r b e r a t i o na n de n v i r o n m e n t n o i s e a n o t h e rq u e s t i o n , r e s t r a i n e db yh a r w a r ec o n d i t i o n s ,s o m el o c a l i z a t i o na l g o r i t h m i sc o m p u t a t i o n a lb u r d e n s o m e ,t h u sc a i ln o tb ea p p l i e di nr e a lt i m ea p p l i c a t i o n s t od e a l w i t ht h e s et w oc r u c i a lq u e s t i o n s ,w ep u tf o r w a r do u ro w ns o l u t i o n s ,a n dw ed e s i g n e da r e a la c o u s t i cs o u r c el o c a l i z a t i o ns y s t e m ,u s i n gw h i c h ,w ec o l l e c tv o i c ed a t a ,v a l i d a t e o u rp r o p o s e da l g o r i t h ma n ds o l u t i o n i nl i g h to ft h ei m p o r t a n c eo fp r e p r o c e s sa n dv o i c ea c t i v i t yd e t e c t i o nt ot h e f o l l o w i n gt r e a t m e n t si na c o u s t i cl o c a l i z a t i o ns y s t e m ,f i r s t ,w eg i v ea l li n t r o d u c t i o no f f i l t e r i n g , w i n d o w s ,e x p l a i n e d t w o s i m p l e b u te f f e c t i v e v o i c ea c t i v i t yd e t e c t i o n a l g o r i t h m s :e n e r g yd i s c r i m i n a t o ra n dz e r o c r o s s i n g t w os t e p sm e t h o d ,n a m e l y , g c c l m sb a s e do nt d o ai sw i d e l yu s e di nr e a l i s t i c s y s t e md u et oi t sl o wc o m p u t a t i o n a lc o s t t i m ed e l a ye s t i m a t i o ni nt h ef i r s ts t e pw i l l d e t e r m i n et h ep e r f o r m a n c eo fl o c a l i z a t i o n w ef i n do u tt h a tf a l s ep e a ka tz e r op o i n t w i l ll e a dt of a l s et i m ed e l a ye s t i m a t i o nd u et os y n c h r o n o u sn o i s e ,i no r d e rt os o l v et h i s p r o b l e m ,w ef i l t e rt h ec r o s ss p e c t r u m t or e s t r a i ne f f e c t so fr e v e r b e r a t i o na n dn o i s e ,w e t a k et h ef o l l o w i n gm e a s u r e s ,1 ) r e d u c et h es e a r c hr e g i o na c c o r d i n gt ot h ed i s t a n c e so f m i c r o p h o n e s ,2 ) a d j u s tt h ew e i g h tf a c t o rd y n a m i c a l l ya c c o r d i n gt os i g n a l n o i s er a t i o s i m u l a t i o nr e s u l t ss h o wt h a tt h ea c c u r a c yo ft i m ed e l a ye s t i m a t i o ni si m p r o v e di n e n v i r o n m e n tw i t hh i g hn o i s ea n dr e v e r b e r a t i o n i na d d i t i o n ,w ep r o p o s eam e t h o dt o i n t e r p o l a t et h ec r o s sc o r r e l a t i o nf u n c t i o ni nl o ws a m p l i n gr a t e ,w h i c hr a i s et h es p a c e r e s o l u t i o n i nt h es e c o n ds t e po ft d o a ,l m si sw i d e l yu s e d i no r d e rt om a k eo u r s y s t e mm o r er e l i a b l e a n dn l o r er o b u s t ,w eu s ee v e r ym i c r o p h o n ea sr e f e r e n c e m i c r o p h o n ei nr u m ,t h e nw eg e tac o u p l eo fs o u r c el o c a t i o n s g e t t i n gr i do f s o m e s o u r c el o c a t i o n sw i t hl a r g ee n - 0 r ,a v e r a g i n gt h er e m a i n i n gs o u r c el o c a t i o n s ,w eg e ta m o r er e a s o n a b l ea n dt r u s t ys 0 1 ic el o c a t i o n b e s i d e s ,w eg i v eab r i e fi n t r o d u c t i o no f t w o d i m e n s i o n a lg e o m e t r yl o c a l i z a t i o nm e t h o d ,a n dc o m p a r ei tw i t hl m s a n o t h e rp o p u l a rm e t h o di ss r p ( s t e e r e db e a m f o r m i n g ) ,w h i c hi s ao n e - s t e p l o c a l i z a t i o nm e t h o d ,a n di td e l a y st h ep h a s eo fm a k i n gad e c i s i o n ,i n t e g r a t e sa l lt h e m i c r o p h o n e i n f o r m a t i o n ,t h u sm a k e si t s e l fm o r er e s i s t a n t t on o i s ea n d r e v e r b e r a t i o n 1 1 1 ec o r r e s p o n d i n gs h o r t c o m i n gi si t sl a r g e rc o m p u t a t i o n a lc o s t ,h a r d l y s u i t a b l e f o rr e a lt i m ep r o c e s s i n g s t e e r e db e a m f o r m i n gm e t h o db a s e do ns t o c h a s t i c r e g i o nc o n t r a c t i o n ( s r p - s r c ) a v o i d se , l o b a ls e a r c h i n g , g r e a t l yr e d u c e sc o m p u t a t i o n a l c o s t i no u rt h e s i s ,w ep u tf o r w a r dan e wm e t h o d ,n a m e l ys r p r s r ct oi m p r o v e s i 冲s r c ,i nw h i c h ,1 ) as h a p i n gf u n c t i o ni sb r o u g h ti n ,t h u si n c r e a s et h ec o n t r a s to f e n e r g yp e a k ,2 ) s e tae n e r g yt h r e s h o l d ,s e a r c ht h eb i g g e s te n e r g yp o i n ti nt h ev o l u m e s w h e r et h e i re n e r g ya leg r e a t e rt h a nt h et h r e s h o l d ,m a k es r p s r cc o n v e r g e n c em o r e q u i c k l y , a n d i sm o r ec o m p u t a t i o n a le f f i c i e n t b e s i d e s ac o m b i n a t i o no fk a l m a n e s t i m a t i o na n df i l t e rw i t hs r p r s r ci sa l s or a i s e d ,w h i c hm a k e st r a c k i n gm o r er o b u s t a n ds t a l b e i nt h ee n d w ed e s c r i b l eo u rr e a la c o u s t i cl o c a l i z a t i o ns y s t e m i nr o o m e n v i r o n m e n t ,i n c l u d i n gi t sa r c h i t e c t u r e ,s o f t w a r e ,a n dh a r d w a r e v o i c ed a t ai sa c q u i r e d f r o mt h i ss y s t e m ,w i t hw h i c h ,ac o m p a r i s o ni sm a d eb e t w e e ng c c l m sa n d s r p s r c s r p r s r c k e yw o r d s :m i c r o p h o n ea r r a y , a c o u s t i c s o u r c el o c a l i z a t i o n ,t d o a ,s t e e r e d b e a m f o r m i n g , s t o c h a s t i cr e g i o nc o n t r a c t i o n 4 第一章绪论 本章主要介绍了基于麦克风阵列的声源定位的研究的背景和意义,详述了麦 克风阵列的应用领域,介绍了当前国内外各大学,研究机构,公司的最新研究理 论和产品。并对当前流行的麦克风声源定位研究做了简要的分类,着重介绍了当 前的主要算法。最后论述了本文的主要工作和创新点,给出了论文的结构。 1 1 研究背景及意义 视觉和听觉是人类接收外界信号的两个最主要的器官,据科学研究显示,声音 占人类接收信息的3 0 左右,尤为重要的是,当视觉信息的输入途径由于某种原因 被截断时,如没有光亮,或目标物体被遮挡时,声音信号尤其显示出其不可替代的 作用。再者,声音信息是对图像信息的一个重要的补充,因此对于声音的研究具 有重大的意义。 近年来,随着多媒体技术的进一步发展,语音已经成为人机交互的一个重要 方式。对语音智能化的需求日益提高,在噪杂的环境下,比如,大型会议室,新 闻采访,网络聊天等,我们需要对感兴趣的目标实现声音的定位和增强。随着智 能化程度的提高,机器人得到了广泛的使用,人类与机器人之间,以及机器人与 机器人之间通过声音定位到对方,从而执行下一步的操作,这就需要机器人能够 有效且正确的识别声源的位置,并且有可能与图像信息相配合实现,从而实现智 能化的操作。此外,语音识别也需要我们首先定位出感兴趣的声音,然后增强感 兴趣的声音,再而识别出特定的说话人。仿生听觉系统需要解决三个问题,1 ) 定位出声源的位置,2 ) 从众多信号出分辨出特定声源多产生的信号,3 ) 对分辨 出的信号进行处理,定位出声源的位置并抑制响应的噪声是仿生听觉系统的前提 和先觉。 仅有两个方向的输入信息是很难定位声源的位置的,人类的听觉系统主要靠 声波在头部和外耳廓声压差来实现声源的定位的。如果没有这种声压差,是可以 定位在平面上的声源位置的,但是就会分辨不清楚声音是从前面来的,还是从后 面来的。因此,从人类的听觉系统,我们得到了启发,使用多个麦克风的系统可 以定位出三维空间中的声源位置,麦克风的数量越多,所接收的信息也越多。 麦克风阵列信号处理是数字信号处理领域的研究热点问题,麦克风阵列接收 的信息量大,可以利用各阵元信号之间存在的先关性对输入数据进行融合处理以 实现对待测参数的估计,这种融合处理不仅可以在时域处理,也可以在频域处理。 5 麦克风阵列信号处理技术可以在统计学的意义上得到待测结果,该技术已经在无 线通信,雷达,声纳,工业控制监控【l j 等场合得到了广泛的应用。 由此可见,声源定位与声源增强是实现智能化处理的两个关键性问题,而声 源定位是实现声源增强的前提和基础。单个麦克风接收的信息量少,缺少声源定 位所需要的信息,而麦克风阵列克服了上述的缺点,利用了各个麦克风信号间的 相关性对数据进行融合从而可以实现声源的定位。 1 2 应用领域 基于麦克风阵列的声源定位系统在很多场合得到了广泛的应用,一些典型的 应用场合有 1 视频会议,视频监控和大型会场【2 4 】 在传统的视频会议和大型会场中,参会者发言时,如果只是在一个固定的位 置放置一个麦克风,当说话者距离麦克风的位置较远时,采集到的语音信号质量 很差,为了得到增强的语音信号,有两种方法可供选择,一种方法是谁发言时就 把麦克风传递给谁,这种方法最常见,源于其成本低,但使用不方便。另外一种 方式是为每个人配置一个麦克风,这种做法在参会人数较少时容易实现,但当参 会者众多时成本太高,不太现实。而基于麦克风阵列的声音系统不仅成本适中, 安装方便,参会者发言时可以自动的将麦克风阵列聚焦到说话者,增强说话者的 声音,抑制周围和环境噪声。 在视频会议和视频监控场合,麦克风阵列的声源定位系统可以自动的指导摄 像头转向热点区域,从而采集到更好的图像和声音,在很大程度上节省了人力。 2 车载电话系统【5 】 当车辆处于高速运行状态时,如果驾驶员用手去拿电话,可能话引发安全问 题,车载免提电话应运而生,然而当车人有多人说话,再者高速运行的车辆一般 噪声较大,车载电话的接收效果一般较差,如果运用麦克风阵列定位驾驶员位置, 增强此位置的声音,抑制其他方向的声音和周围的噪声,车载免提电话的通话效 果就会得到明显的提升。 3 故障诊断1 6 j 故障诊断的首要就是确定故障的位置,故障诊断中的声源定位是一种利用目 标的音频信号来实现定位的无源探测技术,声源定位系统采用被动方式工作,部 辐射电磁波,具有很强的隐蔽性,声源定位故障检测在军事领域和民用领域都得 到了广泛的应用。 4 声控机器人【7 】 6 机器人进入人类的家庭和办公环境中为人类进行服务已经从梦想变成了现 实,机器人的智能水平越来越高,对机器人进行控制,语音是一种最常见的手段 和方式,人类通过发出一系列的指令,机器人对语音识别后,完成人类交给的工 作后,移动到指定的位置。等待下一步的指令,因此安装在机器人身上的麦克风 阵列能够实时的定位出用户的位置。 在多机器人协作系统中,常见的有基于视觉,超声波,激光等协作定位方法。 与这些常见的定位方法相比较,基于麦克风阵列的声源协作定位具有可视距离远 的优点,并且在光线不佳和有障碍物遮挡的情况下发挥作用。 5 助听器【8 】 通常情况下,有两类麦克风可用于助听器:全向的麦克风和方向的麦克风, 全向的麦克风采集的声音容易受到环境噪声和回响的影响,方向的麦克风虽然可 以增强特定方向的声音,但是当说话者不在其方向上时,噪声就被放大了,采集 的语音信号很不理想。基于麦克风阵列的助听器可以根据声源的位置实时的改变 采音的方向,在最大程度上放大感兴趣的声音,抑制环境噪声。 1 3 国内外相关的研究和产品 很多的研究机构和公司致力与麦克风阵列的声源定位系统的理论研究和商品 化,这早我们介绍几个国内外典型的研究项目。 n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g yi n f o r m a t i o nt e c h n o l o g y l a b ) 的m a r k - i i i 阵列,该阵列是一种均匀线性的麦克风阵列 9 】。 图1 1n i s tm a r k i i 麦克风阵列 如图1 所示,该麦克风阵列由八个独立的模块组合而成,每个子模块8 个通 道,麦克风之间的问距为2 c m ,总通道数为6 4 。m a r k i i 系统的整体架构如图2 所示。 图1 2 m a r k i i 的系统结构图 数据采集,处理,传输分开,各自独立,有利于系统的模块化,m i c r o p h o n ed a t a a c q u i s i t i o nb o a r d 负责声音数据的采集和8 位量化,转化为线性数据流, m o t h e r b o a r d 从八个独立的模块中获得数据后对数据进行一定的格式化处理后, 通过以太网传送给远程的主机以供处理。我们知道,麦克风间距会影响到声源定 位的精度,当声源离麦克风阵列的距离较远时,间距小的阵列定位误差就比较大, 而当声源离麦克风阵列的距离较近时,间距大的阵列定位误差就比较大,所以均 匀麦克风阵列很难适应应对声源距离变化较大的情况。m a r k i i i 在一定程度上适 应了声源距离变化较大的情况,在估计声源位置时可以选用每个d a t aa c q u i s i t i o n b o a r d 上一定的麦克风组成适当间距的子阵列,这样就能适应不同作用距离的需 求。m a r k i i i 主要用于大型会场和视频会议的声源定位。 加拿大的s h e r b r o o k e 大学将麦克风阵列成功运用在机器人的声源定位中【1 0 j , 图1 3s h e r b r o o k e 大学的机器人声源定位系统 他们在p i o n e e r 2 机器人上装载了八个麦克风,此系统可以动态的跟踪定位2 到3 个发声体,可以用于机器人的周围声源探测和多机器人的协同等工作。 泛华测控【l l j 提供的噪声定位分析系统是辅助设备厂商进行设备降噪设计的理 想工具,能够帮助工程师快速地:找出设备上主要噪声源的位置、识别不同频带 上的噪声源、提取感兴趣噪声源发出的噪声信号等。 图1 4 泛华测控的噪声定位分析系统 阵列z h l 匕l - - , 够根据各种不同的声场状况进行灵活配置,以获得理想的分析效果, 独特的多声源定位:在允许的分辨率范围内,系统可同时对多个声源进行精确定 位。 斯坦福大学的b e m a r dw i d r o w 教授于2 0 0 1 年发明了基于麦克风阵列的助听 器【8 1 ,这种助听器由细小的麦克风安装在一个v 形状的项链中组成,这种基于麦 克风阵列的助听器与传统的助听器相比,可以根据声源的位置动态的调整麦克风 阵列的聚焦点,增强特定方向的声音,抑制其他方向的噪声,比普通的助听器具 有更好的识别效果。 图1 5 基于麦克风阵列的助听器 1 4 麦克风阵列研究分类 1 ) 根据麦克风阵列典型的结构可分为线性麦克风阵列,t 型麦克风阵列,圆 形麦克风阵列,球形麦克风阵列,平面麦克风阵列,其中应用最多的是线性和平 9 面麦克风阵列。 图1 5 几种典型的麦克风阵列结构 2 ) 近场模型和远场模型 在远场情况下,声源与参考麦克风之间的距离大于2 d 2 l m i n ,k m i n 是声源的 最短波长,d 为相邻麦克风之间的距离,此时认为声源信号为平面波,到达各个 麦克风的方向几乎是相同的,均匀线性麦克风阵列在这种环境中得到了广泛的应 用。然而在室内环境中,声源一般认为是以球面波的形式传播的。 s l 瓢1 1 。 s l 趴 。i a 卜b - 叫q 珥卜一b 叫q 图1 6 声源的近场模型和远场模型 3 ) 理想环境下的声源定位与低信噪比,强混响环境下的声源定位 在理想的情况下,声源到麦克风到每个麦克风阵列只有一个传输通道,但在 真实的环境中,声音除了通过直接途径到达麦克风阵列外,还可以通过各种障碍 物如墙壁,地板,天花板,室内物品等反射,衍射到达,这样麦克风阵列接收到 的是原始直达声音和经过延迟和衰减的声音的混合信号12 1 。 图1 7 有噪声和回响情况下的声源传播模型 1 5 麦克风阵列声源定位算法分类 文献【l 4 】对基于麦克风阵列的声源定位算法作了详细的分类和介绍。 1 ) 基于达到时间差的方法( t d o a ) 基于达到时间差的方法分为两步,首先计算出声源到达各个麦克风的相对时 间差,然后结合麦克风阵列的物理结构得到声源的位置。第一步中时延估计的准 确与否直接决定为第二步定位的精度。 对于时延的估计,目前已经提出了很多的方法,由于背景噪声和声音多径反 射引起的回响使准确的时延估计变的困难。1 9 7 6 年c a t e r t l 5 】发表了一篇对日后研 究具有深远影响的论文,提出了利用互相关函数估计时延的广义互相关法,将两 路信号的互功率谱进行滤波,傅里叶逆变换后提取峰值作为时延估计。这一方法 被称为g c c 方法,g c c 方法尽管考虑了噪声的影响,但它假定声源到麦克风阵 列之间的通道响应为一简单的延迟和衰减,文献【1 6 1 指出这样的近似是不准确的, 特别当回响超过一定限度时,t d e 估计的异常百分比会增加。这是由于随着混 响程度的增加,反射波在相关函数计算中的峰值会随之增加,加上噪声的影响最 终很有可能超过真实的峰值,造成相关估计器的输出产生大的误差。 文献【1 7 - ”】对g c c 算法做了进一步的改进。文献 1 7 】提出了一种c e p 的预处理 滤波技术,论文中指出任何一个系统都可以表示为最小相位系统和全通系统的级 联,路径中混响主要包含在系统的最小相位分量中,而全通分量则解释了信号传 播的时延。 基于自适应的l m s 的时延估计方法也被引入了t d e 中来【”。2 0 】,自适应的l m s 滤波器能够根据当前输入信号的采样来自适应的调整滤波器系数,使输出误差信 号达到最小,而不需要输入信号谱的先验知识,在麦克风阵列中,可以以一个通 道的信号为目标信号,另一个通道信号为参考信号,就可以利用l m s 方法进行 t d o a 估计。l m s 方法的缺陷在于,自适应算法需要一个学习过程,而且运算 量要远远大于g c c 方法,不适合跟踪快速移动的声源。 文献 2 1 2 3 提出了基于子空间分解的时延估计方法。基于子空间分解的时延 估计方法主要包括了自适应的e v d 算、法【2 1 1 和自适应广义e v d 算法【2 2 - 2 3 1 ,e v d 方法用于处理空间非相关噪声,而广义e v d 算法将其扩展到空间相关噪声的情 形。 近年来,很多结合语音自身特性的算法被相继提出。文献【2 4 】提出了一种基于 声学传递函数比的时延估计方法,这种方法计算两个通道传递函数的比值,并且 不需要做语音活动检测,也不需要有关噪声统计特性的先验知识。 文献【2 钮6 】提出了一种基于语音激励信息的时延估计方法,这种方法利用语音 的激励信号不易受环境的干扰的特点,将不同位置麦克风所接收的语音源的激励 信息提取出来,计算激励信息的互相关,得到声源到达不同位置的麦克风的时间 * z o 此外,文献【2 7 。2 8 】提出了应用高阶统计量解决t d o a 问题的方法,高阶统计量 可以用来区分非高斯声源和相关性的高斯噪声环境。 第二步,当得到麦克风阵列之间的时延差后,几何麦克风阵列的物理位置, 就可以得到声源的物理位置了。在实际中使用较多的是文献【2 9 】中提到的方法。这 种方法的基本原理是,根据解析几何知识,三维空间中的点声源位于以两麦克风 为焦点,t d o a 为参数的双曲面上,如果给定一组麦克风对的时延估计,在理想 的情况下,声源位置就是这些双曲面的焦点,我们可以通过联立曲线方程求解, 而在实际情况中,由于时延估计的偏差,这些方程都是有偏差的,因此可以通过 使误差均方最小的最d - - 乘法来得到方程组的解。 文献【3 0 】提出了一种改进的称为线性纠正的最d - 乘法,这种方法提出了一 种加性的测量误差模型,不需要关于噪声的先验统计知识。 2 ) 基于高分辨率谱估计的声源定位【3 1 都】 在雷达,声纳,导航和地理信息系统中,声源的到达方位角的确定尤为重要, 在过去的几十年中,基于空间谱估计的方法在此类应用中得到了广泛的重视,如 自回归( a r ) 模型,最大熵( m e ) 法,最小方差估计( m v e ) 法和特征分解( m u i s c ) 法,e s p r i t 法,这些方法通过求解麦克风信号间的相关矩阵来定位出声源的方 向角。但是在室内环境中,麦克风阵列的声源定位的效果并不理想,这是因为语 音信号和传统的雷达声纳信号有一定的区别【5 7 1 。 由于处理的信号本身特性不同,把传统的雷达使用的阵列处理方法引入到麦 克风阵列中就会遇到一定的挑战。高分辨率谱估计算法需要获得各麦克风信号的 1 2 时空相关矩阵,而这个矩阵未知,需要通过时间平均来估计各麦克信号之间的相 关矩阵,这就需要信号是平稳的,而且对于声源和噪声的估计参数是固定不变的, 语音信号往往不能满足这个条件,因此该方法的效果和稳定性不如传统的可控波 束法。同时,该方法假设声源是理想的信号源,而各麦克风信道参数相同,这些 假设在实际应用中是不可能获得的。该方法的另一个假设是到达麦克风阵列的声 波是平面波,也就是符合远场声源模型,这就要求声源离麦克风阵列的距离比较 远,而麦克风阵列必须是线性结构的。虽然m v 谱估计算法和m u s i c 算法可以 扩展到近场声源模型和非线性阵列结构,但是近场声源模型中的球面波模型使这 些算法的计算代价很高。高精度谱估计算法一般只针对窄带信号,而语音信号是 宽带信号,这就需要把语音信号根据频率划分成几个窄带信号的组合,对各个窄 带信号进行算法,然后通过求平均值或其他算法得到声源定位结果。 近年来,一些研究成果将这些远场中的方法迁移到近场的声源定位中,如 b e n c s t y j 3 1 提出的e v d ( e i g e n v a l u ed e c o m p o s i t i o n ) 方法,此方法求取麦克风阵 列的相关矩阵的特征值,特征值最小的所对应的特征向量包含了两个信号到达时 间差的冲击响应。j o ec c h e r t 提出了一种参数化的最大似然方法( a m l ) 3 3 】, 这种方法首先将宽带信号变换到频域,然后将整个频谱分为一系列单独的频率区 间,在每个频率区间,就可以把信号当作窄带信号来对待,通过频域能量和最大 化确定声源的位置。 由上可见,高精度谱估计算法应用于麦克风阵列的声源定位时,计算复杂度 很高,实时处理比较困难。 3 ) 可控波束方法 可控波束方法最早运用在雷达,声纳和通信等军事和国民经济领域,在这些 应用领域中,声源的模型是远场的模型,目标是得到声源的方向角。基于可控波 束的声源定位中最简单的一种方法是延迟求和波束形成法。该方法对麦克风信号 进行延迟,以补偿声源到麦克风的传播延迟,这些信号通过时间的延迟来形成叠 加后的混合信号,当各个补偿后的信号是同向的,即在时间上是对齐的,则叠加 后信号输出的能量是最大的。该方法对麦克风所接收的声源信号求和来形成波 束,进而通过搜索声源可能的位置来引导该波束,最总使波束输出能量最大的点 就是声源的位置。 波束形成的基本思想是将各个阵元采集来的信号加权求和,通过调控权值使 麦克风阵列的输出功率最大。在传统的可控波束形成器( c o v e n t i o n a l b e a m f o r m e r , c b f ) 中,权值取决于各阵元信号间的相位延迟,而相位延迟又与 时延和到达方向有关,故又称之为延时求和波束形成器( d e l a y - a n d s u m b e a m f o r m e r ) 。在现代波束形成器( a d v a n c e db e a m f o r m e r , a b f ) 中,权值可以突 破上述限制,根据某种调整权值的判据获得对应的最佳波束形成器,常用的判据 有m m s e ( 最小均方误差) 等。从广义上来讲,信号的加权求和过程可以看作是滤 波过程。故也称这类波束形成其称为滤波求和波束形成器( f i l t e r - a n d s u m b e a m f o r m e r ) 。 文酬3 4 。3 5 】最早提出了可控波束方法的理论基础,文献进一步得到了可控波 束定位的理论和实际上的方差,文献【3 7 】将该方法应用于多声源的定位。 论文【3 & 3 9 】将可控波束形成的方法运用在室内的声源定位系统中。论文【3 8 】提 出了一种避免全局搜索的称为由粗糙到精细的搜索方法( c o a r s e - t o f i n e ) 方法, 文中的观点认为语音信号的波长是和频率成反比的关系,频率高,波长短,频率 低,波长长,同时能量分布图中的峰值和波长有一定的关系,峰值具有不精确性, 占据一定的空间大小,因此可以先从低频段搜索粗糙的空间,然后逐步提高频率, 缩小搜索空间,最后搜索高频段对应的小空间。论文【3 9 】将上述的c o a r s e - t o f i n e 搜索的方法运用到机器人的室内声源定位中,同时结合概率的方法,可以同时定 位和跟踪多个发声物体。文献 4 0 一钉】提出了一种将随机区域搜索的方法运用到可控 波束声源定位中,基本思想是随机的撒下一些特征点,这些随机点中的至少一个 点位于能量最高点所在的不确定性空间,根据这些点的能量的大小,逐步放弃一 些能量较小的点,收缩搜索的空间,直到这个空间足够小,就找到了声源所在的 位置。 可控波束方法与两步定位的相比,推迟了做决策的时间,综合了所有的麦克 风信息,不太受单个麦克风失效的影响,因此对噪声和回响的抗干扰性更强,缺 点是计算量相比与两步定位的方法要高一些。 4 ) 基于粒子滤波的方法 粒子滤波算法,也叫顺序m o n t ec a r l o 算法是一种基于b e y e s i a n 的概率统计算 法,最初应用了大型混沌无规律系统的仿真实验中,如原子弹爆炸等的模拟,由 于粒子滤波算法对计算机的运算性能要求高,通常程序是在大型机上运行的。文 献1 4 2 4 4 】对粒子滤波算法进行了深入的介绍。 随着计算机硬件性能的提高,粒子滤波算法在微机上的应用逐步广发。两步 定位的算法,可控波束法,以及高分辨谱的方法中,都假设噪声是白噪声,和信 号没有相关性,在实际中,噪声的分布可能是非高斯的分布,上面提到的几种方 法都会有很大的误差,粒子滤波方法针对了非线性,非高斯噪声信号进行处理, 文献 4 5 - 4 9 】将粒子滤波算法应用在室内声源的跟踪定位中,这些方法结合了t d e 或s r p 的方法,实验结果表明了在室内高回响,高噪声的情况下,粒子滤波算 法具有更高的鲁棒性。 1 4 粒子滤波算法的缺点是计算量大,粒子的收敛速度慢,粒子贫乏,如何加快 粒子的收敛速度,减小计算量是实际运用中需要解决的问题。 1 5 本论文的主要工作和创新点 本文主要研究了在室内环境下的麦克风阵列的声源定位和跟踪的问题。论文 深入的探讨了当前麦克风声源定位中使用的主流技术,并深入的分析了当前使用 的最为广泛的两种技术基于t d o a 的两步g c c l m s 定位法和一步s r p ( 可控 波束法) ,对这两种技术在实际应用中做了相应的改进,最后我们在实际中实现 了整个系统,对比了这两种技术以及改进后的技术的定位性能。 鉴于预处理语音活动检测在声源定位中的重要作用,这些前期工作对声源定 位的性能有者重要的影响,我们首先分析了目前使用的简单的并且行之有效的语 音活动检测技术,如能量法和过零率法,然后介绍了声源定位中必不可少的诸如 加窗,选取帧长,前置滤波等操作。 在此基础上,我们针对目前的两步定位的g c c l m s 方法做出了改进,1 ) 对 引入互功率谱的滤波,避免位于零点的伪峰值,2 ) 为了限制噪声和回响的影响, 减小搜索空间,比如按照麦克风的距离设置搜索区域,3 ) 根据信噪比的变化改变 权重函数的大小4 ) 在采样率比较低的情况下引入插值。我们还发现,当运动的 声源远离参考麦克风时,参考麦克风的信噪比就会很低,此时以此麦克风作为参 考麦克风计算得到的时延误差就会较大,因此提出了轮流使用麦克风作为参考麦 克风的改进的g c c l m s 算法,计算得到的所有声源位置的平均值,剔除异常的 声源位置,改进后的算法的鲁棒性得到了提高。最后我们对比分析了最小二乘法 和几何法在第二步定位中的优缺点。 针对目前第二种广泛使用的s r p ( 可控波束法) 存在的计算量大的缺点,我们 采用并改进了s r p s r c ( 随机区域收缩) ,1 ) 引入了塑形函数,增强了能量函数 峰值和周围环境的对比度,2 ) 设定一能量阈值,从能量大于此阈值的空间中选 择能量最大的点,此改进提高了原有方法的收敛速度,减少了计算量。在 s r p r s r c 方法的基础上,我们引入了卡尔曼预测和滤波,两种方法的联合使用, 增强了系统的抗噪声和回响能力,提高了系统的鲁棒性。 最后,我们对整个系统的实现做了一个完整的介绍,对比了在实际环境中 g c c l m s 和s r p 的定位准确度,并且对比了s r p s r c 和改进后的s r p r s r c 的时间复杂度。 1 6 本文组织 在第一章中,我们着重介绍了基于麦克风阵列的声源定位方法的研究意义和 背景,对目前国内外的研究现状和成果作了一个详细的介绍,并且详细解释了当 前研究技术的分类。后续章节的分布如下: 鉴于预处理和语音活动检测在声源定位中的重要作用,第二章主要介绍了一 些声源信号的准备处理工作,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论