




已阅读5页,还剩52页未读, 继续免费阅读
(信号与信息处理专业论文)基于麦克风阵列低信噪比下的多语音源测向技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文基于麦克风阵列低信噪比下的多语音源测向技术研究 摘要 近年来,随着语音信号处理技术的发展,语音源测向已成为麦克风阵列信号处理 中的一个热点和难点。基于麦克风阵列的测向技术不同于传统阵列信号处理中的测向 技术,在一维测向系统中,一般采用到达两麦克风的时差估计来反推语音源的方向, 因此时延估计的精度是此测向技术的关键。时延估计的方法很多,传统的时延估计方 法如基本互相关、广义互相关等方法易受噪声的影响,在低信噪比情况下几乎失效, 且大都只适用于单源情况。 针对上述情况,本文研究一种新的时延估计方法,该算法把两麦克风接收的信号 从时域变换到时频域,把宽带多语音源信号变成多个单时频点信号的叠加。由于语音 信号是时频稀疏的,语音信号的能量主要集中在某些窄带上,且各语音源的能量集中 区域不交迭。本方法利用语音信号的这一特性,以时延为分类的依据,对每个频点进 行能量加权聚类,能量集中的窄带频率里的频点由于能量大,容易聚类出能量得到时 延估计。同时由于每个语音源的时延不一样,聚类出的能量峰值所对应的时延不同, 从而可以分别得出各个语音源的时延估计,因此该方法适合多语音源情况下的时延估 计。由于语音信号能量主要集中在某些窄带,即使信噪比很低,窄带内的频点信噪比 仍然较高,还是能够聚类出语音源的能量,得到时延估计,因此本方法也可以在低信 噪比情况下正确估计出时延。在实际运用中,为了获得高的角度分辨力,一般采用大 孔径的麦克风阵列。随着频点频率的增大,频点互功率谱所得的相位会出现模糊,导 致频点的时延估计不能唯一确定,聚类中出现伪峰。本论文采用逐次标注法来消去由 于相位模糊导致的伪峰,使峰值与语音源一一对应。 本文首先阐述了该算法的原理和步骤,然后用仿真数据对这种算法进行了仿真, 分析其各个参数对算法的影响。仿真结果表明,选取合适的能量门限,即使在低信噪 比情况下,此方法也可以比较准确的得出多个语音源的时延估计,从而得出多个语音 源的方向估计。最后用实测数据进行仿真,仿真结果表明此算法在实际噪声环境中也 是可行的。 关键词:麦克风阵列;多语音源测向;时延估计;加权聚类分析;解测向模糊 硕士论文基于麦克风阵列低信噪比下的多语音源测向技术研究 a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to ft h es p e e c hs i g n a lp r o c e s s i n gt e c h n o l o g y ,t h e v o i c es o u r c e s d i r e c t i o nf i n d i n gh a sb e c o m eah o ta n dd i f f i c u l ts t u d yi nt h em i c r o p h o n e a r r a y ss i g n a lp r o c e s s i n g t h et e c h n o l o g yo fd i r e c t i o nf i n d i n gb a s e do nm i c r o p h o n ea r r a y s i sd i f f e r e n tf r o mt h et r a d i t i o n a la r r a y ss i g n a lp r o c e s s i n g g e n e r a l l y , i nt h eo n e d i m e n s i o n a l d i r e c t i o nf i n d i n gs y s t e m ,i tg e t st h ed i r e c t i o n so ft h ev o i c es o u r c e sb a s e do nt h et d o a ( t i m ed i f f e r e n c eo fa r r i v a l ) b e t w e e nt h et w om i c r o p h o n ea r r a y s i ti s c l e a rt h a tt h e a c c u r a c yo f t i m ed e l a ye s t i m a t i o ni st h ek e yt e c h n o l o g yo ft h i ss y s t e m c u r r e n t l y , t h e r ea r e m a n yt i m ed e l a ye s t i m a t i o nm e t h o d s ,t h et r a d i t i o n a lt i m ed e l a ye s t i m a t i o nm e t h o d ss u c ha s t h ec c ( t h ec r o s sc o r r e l a t i o n ) ,t h eg c c ( t h eg e n e r a l i z e dc r o s sc o r r e l a t i o n ) a r ee a s yt ob e v u l n e r a b l et on o i s e ,i n e f f e c t i v ei nt h el o ws n r ,a n dm o s t l yo n l yf i tf o rs i n g l e s o u r c e s i t u a t i o n i nr e s p o n s et ot h e s es h o r t c o m i n g s ,t h i ss t u d yp r o p o s e san e wm e t h o do ft i m ed e l a y e s t i m a t i o n , t h ea l g o r i t h mt r a n s f o r m st h es p e e c hf r o mt i m ed o m a i nt ot i m e f r e q u e n c y d o m a i n ,b r i n g i n gt h eb r o a d b a n d ,m u l t i v o i c e s o u r c e si n t ot h es u p e r p o s i t i o no fm a n ys i n g l e t i m e - f r e q u e n c yp o i n t s t h es p e e c hi ss p a r s ei nt i m e - f r e q u e n c yd o m a i n ,s ot h ee n e r g yo f v o i c es i g n a lo n l yc o n c e n t r a t e so ns o m en a r r o wf r e q u e n c y , a n dt h ee n e r g yo fv o i c es o u r c e s a r en o to v e r l a pe a c ho t h e r w i t ht h ec h a r a c t e r i s t i c so ft h es p e e c hs i g n a l s ,t a k i n gt h et i m e d e l a ya st h eb a s i so f t h ec l a s s i f i c a t i o n ,t h i sm e t h o dd o e sp o w e r w e i g h t e dc l u s t e r i n ga n a l y s i s f o re a c hf r e q u e n c yp o i n t t h ee n e r g yc o n c e n t r a t i n go nt h en a l t o w - b a n df r e q u e n c ye n e r g yi s s ol a r g et h a ti ti se a s yt ob ec l u s t e r e d ,a n dw ec a ng e tt h et i m ed e l a ye s t i m a t i o n b e c a u s eo f t h ed i f f e r e n c eo fe a c hv o i c es o u r c e ,t h ed e l a y sc o r r e s p o n d i n gt ot h ee n e r g yp e a k so ft h e m u l t i v o i c e - s o u r c e sa r ea l s od i f f e r e n t ,s ow ec a ng e tt h et i m ed e l a ye s t i m a t i o no fe v e r y v o i c es o u r c e t h a t st os a y , t h i sm e t h o di ss u i t a b l et og e tt h et i m ed e l a ye s t i m a t i o n so f m u l t i - v o i c e s o u r c e s i na d d i t i o n ,t h ev o i c es o u r c e s e n e r g yi sm a i n l yc o n c e n t r a t e di nc e r t a i n n a r r o wb a n d ,s oe v e ni ft h es n ri sv e r yl o w , t h es n ro ft h ef r e q u e n c yp o i n t sw i t h i nt h e n a r r o w - b a n df r e q u e n c i e si ss t i l ls ob i gt h a tt h ee n e r g yo ft h ev o i c es o u r c ei sa b l et ob e c l u s t e r e d ,a n dw ec a ng e tt h et i m ed e l a ye s t i m a t i o n a sar e s u l t ,t h i sm e t h o di ss u i t a b l et o g e tt h et i m ed e l a ye s t i m a t i o nc o r r e c t l yi nt h el o ws n r a n d i np r a c t i c e ,i no r d e rt oo b t a i na h i g ha n g l er e s o l u t i o n , i tg e n e r a l l ye m p l o y st h em i c r o p h o n ea r r a y so fl a r g ea p e r t u r e w i t h i n c r e a s i n gf r e q u e n c y ,t h ep h a s ef r o mt h ec r o s sp o w e rs p e c t r u mw i l la p p e a ra m b i g u i t y , l e a d i n gt i m ed e l a ye s t i m a t i o nn o tu n i q u e l yd e t e r m i n e da n d s o m es p u r i o u sp e a k si nc l u s t e r s t h i sp a p e ri n t r o d u c e st h em e t h o do ft a g g i n gf r e q u e n c yp o i n t ss u c c e s s i v e l yt oe l i m i n a t et h e i i i a b s t r a c t 硕士论文 s p u r i o u sp e a k sb e c a u s eo fp h a s ea m b i g u i t y a s ar e s u l t ,t h ep e a k sa l eo n e - t o - o n e c o r r e s p o n d e n c et ot h ev o i c es o u r c e s i nt h i sp a p e r , w ed e s c r i b et h ep r i n c i p l e sa n ds t e p so ft h ea l g o r i t h m ,a n ds i m u l a t et h e a l g o r i t h mw i t hs o m es i m u l a t i o ns i g n a l st oa n a l y s i st h ei m p a c to fv a r i o u sp a r a m e t e r so nt h e a l g o r i t h m s i m u l a t i o nr e s u l t ss h o wt h a t 晰mt h ea p p r o p r i a t ee n e r g yt h r e s h o l d ,e v e ni nt h e l o ws n r ,t h i s a l g o r i t h m c a l la l s od r a wm o r ea c c u r a t et i m e d e l a ye s t i m a t i o n o f m u l t i - v o i c e s o u r c e s ,a n dg e t st h ed i r e c t i o no fm u l t i v o i c e - s o u r c e se s t i m a t i o n t h ef i n a l s i m u l a t i o nr e s u r so nr e c o r d e dm u l t i - v o i c e - s o u r c e si nt h ee x p e r i m e n t a le n v i r o n m e n ts h o w m a tt h i sa l g o r i t h mi sa l s of e a s i b l ei nt h ea c t u a ln o i s ee n v i r o n m e n t k e yw o r d :m i c r o p h o n ea r r a y s ;d i r e c t i o n o fa r r i v a lo fm u l t i v o i c e - s o u r c e s ;t i m e d e l a y e s t i m a t i o n ;w e i g h t e dc l u s t e r i n ga n a l y s i s ;d i r e c t i o nd e a m b i g u i t y i v 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名: 加1 0 年钿媚 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名: 冽d 年多月汐 硕士论文 基于麦克风阵列低信噪比下的多语音源测向技术研究 1 绪论 1 1 研究意义 对声音探测系统和空间传输系统,空域信号的分析和处理是其基本任务之一。将 一组麦克风按一定方式布置在空间不同位置上,形成麦克风阵列,用麦克风阵列来接 收空间信号,相当于对空间分布的场信号采样,得到信号源的空间离散观测数据。麦 克风阵列信号处理的目的是通过对阵列接收的信号进行处理,增强所需要的有用信 号,抑制没用的干扰和噪声,并提取有用的信号特征以及信号所包含的信息。与传统 的单个定向麦克风相比,麦克风阵列具有灵活的波束控制、较高的信号增益、极强的 干扰抑制能力以及高的空间分辨能力等优点,这也是麦克风阵列信号处理理论近几十 年来得以蓬勃发展的根本原因。 近年来,用麦克风阵列对语音源进行测向和定位,已成为语音信号处理领域研究 的一个热点和难点。在国际上,将麦克风阵列技术运用到语音信号处理的研究源于二 十世纪八十年代。随后,许多的国家( 如美国、德国、法国、意大利、日本等) 和地 区相继开展了这方面的工作。1 9 8 5 年f l a n a g a n 将传声器阵列引入到大型会议的语音 增强中,1 9 8 7 年s i l v e r m a n 将传声器阵列引入到语音识别系统,1 9 9 2 年又将阵列信号 处理用于移动环境下的语音获取。1 9 9 5 年s i l v e r m a n 和b r a n d s t e i n 开始将其应用到声 源定位中,用于确定和实时更新说话人的位置1 2 。在人类通信系统中,给说话者定向 是一个非常重要的课题,其具有广泛的运用,包括视频会议、语音识别、车载识别系 统、大型场所的记录会议和助听装置等。如在电视电话会议中,系统探测和跟踪说话 者的方向,同时摄像机对准发言人,将其收入画面;在远程会议系统中,定位系统控 制一个语音波束指向说话者以此来提高语音质量;在自动语音识别系统中,用波束指 向说话者来提高系统识别的概率;在助听器系统中,通过对准一个最优声音波束的方 向来提高语音的可读性【3 】。因此,对语音信号方向估计算法的研究,不但具有重要的 学术意义,而且具有长远的经济效益和社会效益。 1 2 研究问题 很多的文献中,将上述的测向估计称为“d o a ( d i r e c t i o no f a r r i v a l ) 估计 ,即波 达方向估计,实际上它们是从不同角度的称谓。此处考虑的d o a 估计是指在一个平 面内对信号源的方位角进行估计,属于一维参数估计问题。随着信号处理技术的发展 和工程技术的应用需求,己经提出了许多适用于不同情况的方法来进行d o a 估计【l 】。 传统的波束形成方法:通过对各个传感器的输出进行加权,增强期望信号,消弱干扰 信号,进而得到入射信号的波达方向估计值。此方法虽然具有运算量小、实现简单的 1 绪论 硕士论文 特点,但需要较多的阵元才有比较好的效果,且其估计性能受瑞利分辨极限( 阵列的 波束宽度) 的制约,当两个信源位于阵列的波束宽度以内时,就无法分辨它们。 为更好的检测和定位信号,可使用超分辨的方法。超分辨波达方向估计算法,通 过对阵列的协方差矩阵进行特征值分解,得到信号子空间和噪声子空间。根据二者的 正交性,构造谱估计函数,经过谱峰搜索,就得到来波方向的估计值。然而在实际情 况中,白噪声的假设并不是总成立的,普通的高分辨方法则将引起严重的性能恶化, 即估计偏差增大甚至为有偏估计、以及弱信号源的不可检测性( 出现伪峰) 、角度分 辨力性能下降等。 上述方法是阵列信号处理中传统的波达方向估计方法,然而传统的阵列信号是基 于信号是窄带的【4 】:传统的阵列信号处理技术处理的信号一般是有一个调制载波的窄 带信号,如通信信号、雷达和声呐信号等,此时阵列接收信号的相位差由载波中心频 率和阵列结构决定,而麦克风阵列处理的信号没有载波,如语音信号其频率分布为 4 0 3 5 0 0 h z ,因此麦克风阵列是一个复杂的多频宽带信号。且上述传统的波达方向估 计算法都是基于信源个数已知、信源的个数小于传感器个数。因此当信源个数未知和 信源个数大于传感器个数时,不能运用超分辨算法。且超分辨的方法会由于噪声、混 响及语音信号非平稳性和有限观测数据的影响,噪声子空间和目标信号方向不再正 交,使得搜索出现伪峰或频谱变得平坦而出现了漏检。因此近年来基于麦克风阵列利 用声源到达两麦克风的时延差反推方向的测向方法得到了广泛的运用,这些算法的关 键都是时延估计( t d e :t i m ed e l a ye s t i m a t i o n ) l h l 题,时延估计是阵列信号处理中的一 项关键技术,其目的是要估计出同源信号到达不同麦克风时,由于传输距离不同而引 起的时间差。 在时延估计中,通常假定语音信号在信道中是以无色散球面波传播的,在此我们 只是单纯的考虑语音源在二维空间里的方向,即考虑信号源和麦克风是在同一个平面 内的。在二维空间中,球面波退化为柱面波,若与麦克风阵列的几何尺寸相比,信源 的距离很远,则可以认为信源发出的信号是以平面波的方式传播到麦克风的。 时差估计一般采用双麦克风阵元,利用其进行一维d o a 估计时其原理如图1 2 1 所示【5 】o 硕士论文 基于麦克风阵列低信噪比下的多语音源测向技术研究 图1 2 1 双麦克风测向的物理模型 其中a 、b 为两麦克风,d 为两麦克风的基线长度,设信号源距离麦克风很远,其距 离远远大于基线长度d ,即可认为达到两麦克风的信号波入射角相同。 根据上述的物理模型,即可得到时延反推方向的数学公式如下: 目= a r c c o s ( _ t c ) ( 1 2 1 ) 口 其中f 为信号达到两麦克风的时延差,c 为声速。 1 3 现状和发展 基于时延估计的声源测向方法是近几年发展起来的一种麦克风阵列声源定位方 法,因其相对较高的定位精度和在实际中可以实时实现而倍受关注,其中对两麦克风 接收同一声源信号所形成时间延迟的估计即时延估计的精度和鲁棒性是关系到下阶 段准确进行声源定向的关键。 时延估计是指利用参数估计和信号处理的理论和方法,对时间延迟进行估计和测 定,并由此确定其他有关参量,如目标的距离、方位以及运动速度等。时间延迟估计 的理论和技术,是随着目标定位问题的发展而出现的。该技术在石油勘探,地下管道 泄露检测,震动故障诊断等工业领域,在水声学,地震学以及生物医学等科学领域得 到了广泛的应用m 。 目前常采用的时延估计方法是基于互相关的方法,主要包括基本互相关f 7 1 、经典 的广义互相关方法【8 】、l m s 自适应时延估计法【9 】等。 通过计算不同麦克风所接收到的信号之间的相关函数,再通过检测此相关函数的 峰值获得时延估计的方法叫做直接互相关法( c c :c r o s s c o r r e l a t i o n ) 。基本互相关时 延估计算法计算简单、直观。实际应用中,由于存在噪声和干扰以及有限记录长度的 影响,使得普通的互相关函数存在一系列缺陷,主要有相关峰不够尖锐、出现伪峰、 相关峰互相重叠等,因此在多源情况下几乎失效。语音信号是准周期信号,因此它的 相关函数也是准周期信号,当真实时延差大于相关函数的周期时,会造成时延模糊, 无法唯一确定时延值。由于上述原因此方法一般不能用来准确估计语音信号的时延 、 _ 一 , 一 一 一 一 一 一一 , , 一 一 一 一 、 一 o s ,c 一 、 一 一 一 一 一 、 一 1 绪论 硕士论文 差。 鉴于上述c c 法存在的缺陷:由于声源信号的频谱结构往往是非白的等因素造成 旁瓣过大,尤其是对周期信号而言更是如此;由于噪声和混响的影响,相关函数的最 大峰会被弱化,有时候还会出现多个峰值。这些造成了实际检测的困难。为了解决上 述问题,k n a p p 和c a r t e r 于1 9 7 6 年提出了广义互相关( g c c :g e n e r a l i z e dc r o s s c o r r e l a t i o n ) 时延估计技术。广义互相关法通过求两信号之间的互功率谱,并在频域 内给予一定的加权来突出相关的信号部分而抑制受噪声干扰的部分,再反变换到时 域,从而得到两信号之间的互相关函数,该互相关函数的峰值位置即两信号之间的相 对时延。此方法通过选择不同的加权滤波器,使主瓣更加尖锐来提高时延估计的分辨 力,对旁瓣加以抑制,从而有效地解决了一般的互相关法所存在的缺陷,然而尖峰对 有限时间段引起的错误更加敏感,特别是在低信噪比的情况下是如此,所以在选择频 率加权函数时,应在好的分辨力和稳定性之间进行折中考虑。但由于实际应用中一般 不能预先得到有关信号和噪声的先验知识,只能用其估计值来代替,因此,实际性能 与理论性能有较大差距。基于相位转换的广义互相关( g c c p h a t :p h a s et r a n s f o r m ) 是目前最广泛的一种广义互相关,它去除了信号的幅度信息,只保留了信号的相位特 性,对于噪声和混响都有一定的抑制效果。对于一个单语音源的时延估计来讲,此种 方法性能优于其他方法,但随着信噪比的降低其性能急剧下降。 自适应滤波法是基于一定的误差准则,在收敛的情况下给出时延估计。相当于加 权函数取1 g ( ) ( 其中g ( c o ) 为两信号的互功率谱函数) 的g c c 法,两者的差别在 于g c c 算法计算量较小,是基于信号和噪声的先验知识,这需要通过较长的数据才 能准确的估计出来。但自适应滤波可以处理时变信号,根据信号统计特性的变化,自 动调节滤波器系数,但运算量较大。且自适应滤波器虽然不需要预先知道输入信号的 统计特性,但却依赖于其统计特性,信号分布越接近于白化,时延估计的性能越好。 上述方法得出的时延估计都是采样周期的整数倍,也就是说上述方法的时延估计 精度取决于采样周期,当采样频率固定时,其精度也定了,可知这些方法的精度不高。 且上述的时延估计方法都是基于单源的、信噪比较高、信号是平稳信号的非周期信号 下的时延估计,且一般一些先验知识如信号的功率谱易得到。因此在先验知识不足的 低信噪比、多语音源的情况下对语音的测向有着很重要的实际意义。近些年来,随着 语音定向定位技术的广泛运用,国外慢慢有相关的文献,许多的文献对用麦克风阵列 去估计语音到达两麦克风的时延差问题进行了研究,但大都的文献都是解决了单源的 问题,如文献【1 0 】用8 个麦克风阵元解决了移动机器人对单语音源定位问题。多语音 源的时延估计文献很少,当两源或更多源同时说话时,找出每个源到达两麦克风的时 延差是个非常艰难的问题。近年来,有许多盲源分离中的文献对多语音源进行了时延 估计问题,但大都是阵列个数大于语音源的个数,如文献 1 1 。文献 1 2 解决了欠定 4 硕士论文 基于麦克风阵列低信噪比下的多语音源测向技术研究 时( 语音源个数大于麦克风阵列个数) 的多源的时延估计问题,且此文献中只采用两 个麦克风的时延估计进行测向。文献【3 】中b a r u c hb e r d u g o 等用实验得出结论:即使任 意两语音源是在同时刻用同样力度说话,两语音源在0 - 5 k h z 频带范围内的语音谱将 近百分之四十的语音谱是不同的,即不同语音的频谱可以分离。因此把时域语音信号 转换到频域进行分析,可以把上述的多源、宽频带语音信号转化成了一系列单源、单 频点。且当环境处于低信噪比情况下时,文献中采用了一种数据融合的技术一聚类方 法对语音信号进行了分离和测向,此方法解决了多源的测向问题。随着人们对语音信 号的进一步了解,把语音信号转换到时频域进行分析,可知语音信号是在时频域是稀 疏的,满足近似的加窗互不重叠正交性( w - d o :w i n d o w d i s j o i n to r t h o g o n a l ) 1 1 3 1 。 近年来,利用语音信号的稀疏性,很多欠定盲源分离的相关文献提出了多语音源的时 延参数的估计方法,如文献【1 4 】。但此方法都没有考虑到时延大于个采样间隔的情 况,即没有考虑相位模糊问题。最新的文献 1 5 1 采取了一种利用部分时频点( 满足 i 伽一l 7 1 的时频点) 进行能量聚类来消去相位模糊,从而得到唯一确定的时延大 于一个采样间隔的时延估计。但随着麦克风的孔径的增大,满足上述关系式的频点很 少,几乎聚不起理想的能量,达不到所需的性能。 鉴于上述方法的缺陷,此课题寻求一种只用双麦克风阵列即可在低信噪比环境下 估计出多语音源到达两麦克风的时延算法,且时延大于一个采样间隔。目前,国内有 关的相关文献和研究几乎是空白。此课题是在导师带领下进行的一个完整课题,前期 的一些研究工作如传统时延估计算法的缺点总结、基于互功率谱聚类的时延估计方法 具体的原理介绍等是由实验室的师兄已经完成。前期师兄论文的算法只是简单的进行 了仿真语音信号下的可行性验证,没有进行算法的性能分析。在各种参数下对算法进 行性能分析其实是更进一步地叙述了算法的原理和实质,可以去合理的解释在实际运 用中所得具体结果的原因。对仿真信号进行仿真时假设噪声是简单的高斯白噪声,然 而在实际应用中,噪声一般不是简单的高斯白噪声,验证其算法在实测数据环境下是 否可行显得尤为重要。 1 4 论文的结构和安排 本论文是基于双麦克风阵列在低信噪比、多语音源情况下的测向技术研究,测向 分两个阶段完成,首先进行时延估计,然后根据时延估计去反推方向。此论文的主要 任务是估计出每个源到达两麦克风的时延差。所做的主要工作和结构如下: 第l 章:绪论。介绍了课题研究的意义,简介了双麦克风阵列利用时延差进行研 究问题的原理和模型。简介了国内外的现状和发展,分析了目前基本时延估计算法的 缺点与不足。最后对本论文的主要结构进行了简单的阐述。 第2 章:基于互功率谱加权聚类的多语音源测向原理。本章介绍了本论文算法的 1 绪论硕士论文 原理和实现步骤。首先简单地介绍语音信号的时频稀疏性、时延参数估计器及其相位 模糊时的周期展开时延估计。其次介绍了聚类的原理以及用加权聚类的方法去进行参 数估计。聚类过程中,因为相位的周期展开造成测向模糊,本章介绍了逐次标注解模 糊方法。最后对整个算法的流程和操作步骤进行了总结。 第3 章:基于仿真数据算法的性能分析。对仿真数据进行仿真,分析某些参数对 测向性能的影响,如能量门限、信噪比、功率比、不同麦克风孔径,同时总结了各个 参数对算法影响的原因,从而更进一步地了解算法的实质。 第4 章:基于实测数据的算法验证。介绍了实测语音数据采集方案、采集过程。 用实测的数据对算法进行可行性验证,且对仿真结果进行分析。 第5 章:总结全文,并对本课题的进一步研究做了展望。 1 5 小结 本节主要介绍了本课题的研究意义和研究问题,讨论了双麦克风系统测向的关键 技术正确估计到达两麦克风的时延差,即本文将主要探讨的问题。介绍了国内外 麦克风测向系统的研究发展现状,同时描述了本论文的主要工作和论文的结构安排。 6 硕士论文基于麦克风阵列低信噪比下的多语音源测向技术研究 2 基于互功率谱加权聚类的多语音源测向原理 常用的麦克风信号产生的模型有理想模型和实际模型两种。前者只考虑环境噪 声,而不考虑信号衰减和由各种原因引起的信号畸变,比如多径反射噪声,如图2 1 所示。后者既考虑环境噪声,又考虑多径反射噪声。 源2 源3 图2 1 多语晋源延迟混合模型 本课题研究的是基于麦克风阵列多声源测向,暂且不考虑多径反射噪声,仅考虑 多源静止目标情况下的测向。信号产生模型如图2 1 所示,因此在远场中的间距为d 的两个麦克风m 1 和m 2 接收到的信号x ,( n ) ( i - - 1 ,2 ) ( 因为实际中利用麦克风接收的信 号经过前置系统的放大与采集后,得到的是离散的时间信号,所以后文都是用离散的 信号表示) 可以表示为【1 6 】: 卫 x l ( 刀) = s i ( n ) + n l ( n ) 闰 ( 2 1 ) n x 2 ( 刀) = s 一口) + 他( 刀) i = i 其中n 为声源数目,五( 刀) 和x 2 ( n ) 为麦克风所接收到的信号,以麦克风l 所接收 的信号x l ( n ) 为参考信号,s ,( 刀) 为目标声源传到麦克风l 处所接收的信号,d 为麦克 风2 相对于麦克风1 的相对时间延迟,( 刀) 和n 2 ( n ) 为加性噪声,且是不相关的。由 于每个语音源到达麦克风的时间不同,这样就造成了麦克风接收源信号的相对延迟; 并且由于语音源到达麦克风的路径不一样,造成了麦克风接收信号的相对时延不同。 在此我们假定当f ,时d ,d ,因此我们可以根据声源的不同时延参数区分出各个 源。 2 1 语音信号的时频稀疏性 在室内环境中,用普通麦克风在笔记本电脑上录取两个语音信号,截取其相同长 度的两段语音信号波形图如图2 1 1 的上、中图所示,下图为两段语音信号的叠加。 7 2 基于互功率谱加权聚类的多语音源测向甄理硕士论女 可以看作是同时说话的语音波形。从图2i1 可知在时域中,两混合信号虽然混合, 但是还是能找到某些帧是不混合的,即某些帧只有一个单源在发声,这就是语音信号 的时域稀疏性。一般来说,混合语音信号在时域是不稀疏的1 ”】。 嚣f 瓦= 巧丐一! g :_ o5l l 】! 一j 一 煞 坚 一 时间( s ) 时间 舞同i 刁f 百习 掣 枷锑恻_ 脚叫 士- 05 7 1 15 2 时间f s ) 图2li 两语音信号波形图及其混合后的波形图 在语音信号信号处理中,傅里叶变换表示在传统上一直起主要作用,对语音信号 进行频谱分析是认识语音信号和处理语音信号的重要方法。然而语音信号是一个非平 稳的过程,因此适用于周期、瞬变或平稳随机信号的标准语音傅里叶变换不能用来直 接表示语音信号,对语音信号来说,短时分析的方法是有效地解决途径。由于语音信 号的特性是随时间缓慢变化的,因而可以假设它在一段时间内保持不变。短时分析方 法应用于傅里叶分析就是短时傅里叶变换( s 1 下t ,s h o r t t i m e f o u r i e r t r a n s f o r m ) 即 有限长的傅里叶变换。相应的频谱称为“短时谱”。语音信号的短时谱分析是以傅里 叶变换为核心的,其特征是频谱包络与频谱细微结构以乘积的方式混合在一起1 1 8 1 0 给定一个窗函数w ,如果信号s 和岛通过加此宙的短时傅里叶变换是正交的,则 称此两源是w d o 的 l ”。加窗傅里叶变换如下: f ”( ( ) x r ,w ) = iw ( t 呵) 丑o ) p m 西 ( 211 ) 且记为5 ,( f ,们,其中w 是进行短时傅里叶变换韵加窗函数。可见短时傅里叶变换是窗 选信号的标准傅里叶变换,这里的f 区别于标准的傅里叶变换。则w - d o 的描述如下: j ( r ,w ) s 2 ( r ,w ) = 0 ,v w ,f ( 212 ) 当= 1 时上式变换即为傅里叶变换,由傅里叶变换的定理可知: 硕士论文 基于麦克风阵列低信噪比下的多语音源测向技术研究 f 缈( 墨( 一万) ) ( w ,r ) = e - 加t s f 矿( 量( ) ) ( w ,r 一万)( 2 1 3 ) 假设置的加窗傅里叶变换f ( s ( 一万) ) ( w ,f ) 符合窄带假设,当w ( t ) 1 也可满足: f ( s ,( - 一万) ) ( w ,f ) = e - i w t 8 f ( s ,( ) ) ( w ,f 一万) e - i w t , 5 f ( s ,( ) ) ( w ,f )( 2 1 4 ) 这种假设是符合实际情况的,可以通过选择一个合适的窗函数来实现,上式表达 式对所有仃,只要p i a ( 其中为阵列的最大时延) 也成立。把上面所描述模型中 的式( 2 1 ) 中的* 信号转换到时频域表示: 而 ,w ) = 墨( f ,w ) + s 2 ( f ,w ) + 屯p ,w ) + 一j | v ( f ,w ) ( 2 1 5 ) s ,( r ,w ) 和s j ( r ,w ) 是其中任意两源的时频表示,则称这些源都满足w - d o 性的描述如 下: ( r ,w ) s j ( r ,w ) = 0 ,v w ,f ( 2 1 6 ) 即每个时频点上至多存在一个信号源。 然而,同时说话的语音信号并不满足式( 2 1 6 ) ,但是语音信号在时频域里呈现良 好的稀疏性,信号的稀疏性是指在时频域中,一个信号的能量主要集中在特定的时频 区域中,而在其他区域近似为零。由于每个人发出的语音都有不同的基音频率和共振 峰频率,而语音信号的能量分布又与基音和共振峰位置有关。不同语音信号的能量分 布有很大的差异性,相互重叠的区域很小,因此语音信号的时频域稀疏性是普遍存在 的【1 6 1 ,即语音信号满足近似的w - d o 性。实际中运用中,当式( 2 1 7 ) 满足时,我们称 最在此频点起主导作用,且称此频点是属于第i 个语音源的频点。近似w d o 的假设 使问题得到简化,即使得大部分时频点上至多存在一个语音源。 i s j ( t ,c o ) l 只( ,计i ( 2 1 7 ) 其中y j ( t ) = s i ( f ) 。 k = l ,j i 图2 1 2 中的上图和中图分别表示上述两段语音在时频域( 帧长为2 5 6 个点,帧 移位1 2 8 个点) 的能量分布图i s ,( 国,f ) i 、l s :( 缈,f ) l ,下图是它们在时频域相乘后 l s t ( c o ,r ) i s :( c o ,f ) 9 的能量分布。颜色深浅代表能量大小,且可知颜色越深,能量越大。 从图可以看出语音信号的时频稀疏性,且可知两个语音的i s t ( t o ,f ) s :( 国,f ) i 的能量相对 于i j 。( c o ,f ) i 或i s :( c o ,f ) i 而言非常小,也就是时频谱相互重叠的部分非常少,即近似的满 足上式( 2 1 6 ) ,近似满足w - d o 。 9 2 摹于功率请加权聚粪的多吾音源测向原理 顿+ 论女 芏2 i 器 时间( s ) 蔓:巨垂。一:j 攀:至。委琴 垂! 一国豪茎 嚣。三三三蝥。三兰 o“51 时黼 225 时间( s ) 一耋。耋一f _ 釜二 嚣萋曩罄娶。 鹄n - - 皇置皇互= _ - _ _ - 正己i i - _ _ - 蛊i ;- - _ 一 图2 l2 图2 i 1 中所示波形图对应的时额表示 短时傅里叶变换是分析缓慢时变频谱的一种简便方式,是用稳态分析方法处理非 平稳信号的一种方法,在语音处理中是一个非常重要的工具。语音信号是非平稳信号, 但是短时平稳的,在2 0 m s 3 0 m s 内是平稳的,一般对语音信号处理都采取一帧一帧处 理的方式,由于语音信号的局部平稳,所以可以对一帧信号进行傅里叶变换。但有时 候希望相邻帧之间的变化不是太大,帧之间就要有重叠,帧之间的重叠往往取帧长的 1 2 或者l ,3 。当采样频率为$ k h z 时,一般帧长为2 5 6 个点,且帧移1 2 8 点。上述时 频表示图21 2 是对整个语音信号进行滑动加窗的短时傅里叶变换袭示图。取出图 2 1 1 中的第2 6 帧,其频谱图如下: 1 4 1 2 1 0 8 6 4 图2 13 频谱不交迭示意图 从上图213 可以看出,语音信号虽然是宽带信号,但是在一帧语音信号中它的 煞誊整嚣 硕士论文基丁:麦克风阵列低信噪比下的多语音源测向技术研究 能量主要集中在几个窄带内,即语音源在频域上是稀疏的,把这些集中语音主要能量 的频率区域称为频率支撑区间。且可知不同语音源的频率支撑区间不同,相互交迭的 部分很少。所以上述的语音信号时频稀疏性,从本质上来说就是每一帧语音信号中不 同的语音源之间频谱不交迭。 2 2 基于互功率谱加权聚类的多语音源测向 由理想单源模型可知,两麦克风接收信号五( 刀) 和x z ( n ) 的互功率谱q 。,:沏) 为: :g = , , x z ( c o ) = 。x , ) ( _ c o s 。( c o ) s 2 ( c op ) s 。y , ( 2 c o ( ) 6 n 口) z 。( 颤9 ) _ pj ( 颤口) & 。( c o ) - t - ,( 6 。) - 也。( c o ) ( 2 2 1 ) = ) +( 国) + l ( 国) & ) 1 ( 国) 2 ) 。 由于声源信号与噪声之间、噪声与噪声之间是不相关的,且是( c o ) = i s l ( c o ) e j 晒,所 以q 。,:( 缈) 可以简化成: q l ,2 ( c o ) = i s ( 国) r e m , 8 ( 2 2 2 ) 从式( 2 2 2 ) 可知,某频点的时延信息可以由其对应的互功率谱相位得到,即 万= 么q l ,2 ( 缈) 国。我们以艿= 么q m ( 缈) 国= i s l ( r ,国) 1 2e 问7 c o 为此频点的时延参数估 计器占,式子中的么表示求的在一万和万中的幅角。 从这里开始我们都采用离散傅里叶变换形式,如s ,( 尼,) ,可知 墨( 七,) = 墨( 砜,z ) = s 如,国) ,其中f o 和是时频空间分辨力参数。 为了避免在时域去解决问题,我们对混合信号( 即麦克风所接收的信号) 进行时 频变换,通过固定窗函数的短时傅里叶变换,式( 2 1 ) 的模型我们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 切分音(一)教学设计-2023-2024学年小学音乐五年级下册人音版(主编:曹理)
- 2025年合同审查关键点剖析
- 2025农业合作经营合同违约情形及法律责任(合同范本)
- 2025二手设备买卖合同范本下载
- 第19课 部屋の鍵を忘れないでください教案 -2024-2025学年新版标准日语初级上册
- 5.1.2《等式的性质》说课稿-2024-2025学年人教版七年级数学上册
- 本单元复习与测试教学设计-2023-2024学年中职语文拓展模块语文版
- 印刷厂员工住房补贴管理规定
- 6.22 抗日战争的胜利 说课稿 2025-2026学年部编版八年级历史上册
- 2025年西安幸福测试题目及答案
- 罗才军《少年闰土》省公开课一等奖全国示范课微课金奖课件
- 放射科造影剂过敏反应应急处理预案
- 触电事故应急演练方案
- 2025年上海市高考英语热点复习:阅读理解说明文
- (完整版)八上新闻拟标题专项训练题
- 国家管网集团合同范本
- 《新能源汽车动力电池及管理系统检修》全套教学课件
- 妇产科三基三严培训内容
- 中医全科学科
- 2024年《招标采购专业知识与法律法规》考前必刷必练题库500题(含真题、必会题)
- 《张仲景活血通络法研究》
评论
0/150
提交评论