已阅读5页,还剩83页未读, 继续免费阅读
(通信与信息系统专业论文)室内被动声源定位算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华东师范大学硕士学位论文摘要 摘要 室内被动声源定位是一门新兴的技术,在适合远场模型的传统波束形成法的 基础之上,现在又发展出了基于高阶统计量的定位法、自适应滤波延迟估计定位 法、高分辨定位算法等许多种方法。波束形成法虽然不受相关性的限制,但是在 增强信号的同时也增强了该方向的噪声,且受基阵孔径限制;自适应滤波延迟估 计法可以解决声源移动的实时问题,然而是基于噪声不相关的假设,且收敛速度 慢;高分辨定位算法分析的对象是平稳信号,并且算法复杂,运算量大。 为研究如何提高室内声源定位的性能,本文在单传感器雷达回波的时延估计 的基础上,改进出了基于小波变换的二元传感器阵列的时延估计算法。它免除了 互相关法中噪声不相关的假设条件,克服了由于强随机噪声干扰所带来的误差。 但因为小波分析本身的局限性( 需要依靠经验去选取小波,且当小波基确定时, 小波分解只与分解尺度和信号的采样频率有关,不具有自适应性) ,使得这种方 法性能较低。 在对多种算法研究的基础上,本文根据室内语音信号非平稳、有反射和混响 等相干噪声的特点,提出了一种新方法基于h i l b e r t h u a n g 变换的时延定位 法。希尔伯特一黄交换这种时频局部化分析法,非常适合处理非平稳信号,它从 信号自身出发,自适应的产生信号固有的基函数,而不是人为的设定变换的基函 数。本文提出的这种创新性算法首先对传感器阵列采集到的信号做经验模态分解 ( e m d ) ,得到各个阶的固有模态函数( i m f 分量) ,然后对这些分量进行小波 的软域值去噪以提高系统精度,再根据互相关原理并加最优极大似然窗求得时间 延迟估计,最后用几何插值法即可得出声源的方位角。由于i m f 是信号本身的 固有分量,使得系统在噪声和信号未知的情况下,具有很好自适应性;并且 h i l b e r t 谱对信号细节的表达十分精确,非常易于语音信号和干扰噪声的分离, 进而减小了混响对整个定位系统的影响。 通过对麦克风阵列的分析,本文建立了室内声定位的二元阵列模型在此基 础上,将本文提出的创新性方法进行了实验仿真,得出的相关峰值尖锐,旁瓣抑 制效果较好。文章最后分别对不同方位、不同讲话人的情况进行了仿真分析,分 别比较了h h t 的广义互相关法、h h 丁的全息图法、h h t 的互累计量法,发现 均有较好的性能。其均方误差分别为:0 7 0 4 、0 6 7 4 、2 4 1 3 。 关键字:声源定位,时延估计,波束形成法,希尔伯特黄变换,小波分析,传 感器阵列,互相关 华东师范大学硕士学位论文 a b s t r a c t a c o u s t i cl o c a l i z a t i o ni nr o o m si san e wt e c h n o l o g y , m a n yn e wm e t h o d s n o wh a v eb e e nd e v e l o p e d ,s u c ha sh i g h e r - o r d e rs p e c t r a la n a l y s i sm e t h o d , a d a p t i v e - f i l t e rd e l a y - e s t i m a t i o nm e t h o d 。a n dh i g hr e s o l u t i o ns p e c t r a le s t i m a t i o n a l t h o u g hb e a m - f o r m i n gm e t h o di sn o t l i m i t e db yc o r r e l a t i o n ,b u ti tw i l li n c r e a s e t h en o i s ew h i l ei ti n c r e a s et h eu s e f u ls i g n a l ,a sw e l la si tw i l lb el i m i t e db yt h e b a s ea r r a ya p e r t u r e ;a d a p t i v e - f l l t e rd e l a y - e s t i m a t i o nm e t h o dc o u l dr e s o l v et h e r e a l - t i m ei s s u ef o rl o c o m o t i v ea c o u s t i cs o u r c e 。b u ti t sb a s e do nn o i s e n o n - c o r r e l a t i o na n di t sc o n s t r i n g e n c ys p e e di ss l o w ;, h i g hr e s o l u t i o ns p e c t r a l e s t i m a u o nh a sc o m p l e xa l g o r i t h m sa n di t sp e r f o r m a n c ew i l lb er a p i d l y d e g r a d e dw h e ns i g n a l sa r en o n s t a t i o n a r l t y i no r d e rt om a k et h ea c o u s t i cl o c a l i z a t i o ns y s t e mi nr o o m sb e t t e r , a b i - s e n s o ra r r a yt i m e d e l a ye s t i m a t i o nb a s e do nw a v e l e tt r a n s f o r mi sd e s i g n e d i nt h i st h e s i s i ti sg o o df o rd e l a y - e s t i m a t i o no fs i g n a lf r o mc r o s s - c o r r e l a t i o n n o i s e b u tt h i sm e t h o dh a sl o w e rp e r f o r m a n c ed u et ot h el i m i t a t i o no fw a v e l e t a n a l y s i si t s e f t ( w a v e l e ti s c h o s e na c c o r d i n gt o e x p e n e n c e a n d 北j s n o n - a d a p t i v e ) a f t e rs t u d y i n go nm a n ya l g o r i t h m s ,an e wm e t h o dn a m e dt i m e - d e l a y l o c a l i z a t i o nb a s e do nh i l b e r t - h u a n gt r a n s f o r mi sd e s i g n e di nt h i st h e s i s ,w h i c h i sm a i n l yu s e dt oo v e r c o m et h en o n s t a t i o n a r l t yo fs p e e c hs i g n a l s t h i s m e t h o dw o r k st h r o u g hp e r f o r m i n gat i m ea d a p t i v ed e c o m p o s i t i o no p e r a t i o n n a m e de m p i d c a lm o d ed e c o m p o s i t i o n ( e m d ) o nt h es i g n a l s ;t h e nt h es i g n a l s w i l lb ed e c o m p o s e di n t oas e to fc o m p l e t ea n da l m o s to d h o g o n a lc o m p o n e n t s n a m e di n t d n s i cm o d ef u n c t i o n ( i m f ) t h ei m fs i g n a l sw i l ll a t e rb ed e - n o i s e db y w a v e l e ts o f tt h r e s h o l dm e t h o dt oi m p r o v ea c c u r a c y i nt h i sw a y , t h et i m e - d e l a y e 鲥m 鲥o nc a nb ec a l c u l a t e dt h r o u g hc r o s s c o r r e l a t i o np r i n c i p l e 1 1 1 ea c o u s t i c a z i m u t ha n g l ei sl a s tg o tt h r o u g hg e o m e t r yi n t e r p o l a t i o n t h es y s t e mi s a d a p t i v eb e c a u s eo fi m f _ i na d d i t i o n 。t h ed e t a i l so fs i g n a l sc a rb ei l l u s t r a t e d a c c u r a t e l yi nh i l b e r te d g es p e c t r u m 。 ab i - s e n s o ra r r a ym o d ei se s t a b l i s h e di nt h i st h e s i s o nt h ef o u n d a t i o n ,t h e n e wm e t h o dn a m e dt i m e - d e l a yl o c a l i z a t i o nb a s e do nh h t , h a sb e e n i m p l e m e n t e d ,w h i c hh a ss h a r pc o r r e l a t i o np e a k ,a n dn si o c e l i z a t i o ne r r o ri s 华东师范大学硕士学位论文 0 1 4 k e y w o r d :a c o u s t i cl o c a l i z a t i o n ,t i m e - d e l a ye s t i m a t i o n 。b e a m - f o r m i n gm e t h o d , h i l b e r t - h u a n gt r a n s f o r m ,w a v e l e ta n a l y s i s ,s e n s o ra r r a y , c r o s s - c o r r e l a t i o n 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及 取得的研究成果据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研究成果对本文的研究做出重 要贡猷的个人和集体,均巳在文中作了明确说明并表示谢意 作者签名:必日期: 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在 解密后适用本规定 学位论文作者签名:匀治 匆7 日期:丑! :! 摊名:引百7 4 日期: 华东师范大学硕士学位论文第一章绪论 第一章绪论 声源定位是多年来国内外研究的重点课题,刚起步时主要应用在军事方面, 如直升机定位,雷达探测,水下潜艇定位随着时代的发展,这种技术也逐渐 扩展到日常生活当中,例如机器人眼追踪,摄像机式的眼睛可以聚焦到声源处; 电视会议中通过接收追踪发言者的语音信号,自动使摄像头对准发言者等等。这 些应用大多是在室内的近场环境下进行的,并且技术还很不完善,因此研究室内 声源定位具有很强的理论和实践意义。 1 1 声源定位概述 在信号传输系统中,传输的主体是信号,而系统中包含的各种电路、设备则 是实现信号传输的手段。因此,电路、设备的设计和制造要求,必然取决于信号 的特征。而一个信号,在传输的过程中,往往会夹杂进许多干扰和噪声,我们必 须尽可能的去除这些干扰和噪声,才能提取出有用的信号。所以,信号的分析和 处理是非常重要的。在信号分析中,通常需要进行参数估计,因为在非理想的情 况下,是不可能得到参数1 0 0 的准确值的。参数估计包括了对振幅、相位、频 率、距离、方位、速度等信息的分析和估计。比如在雷达探测中,根据发射信号 和接受信号的时间延迟信息,来估计反射物的方位、速度等参数。在本文中,我 们就来讨论接收声音信号并估计相关参数,以达到定位目的的一些技术和算法。 目标定位可以分为主动定位和被动定位。雷达和主动声纳是主动定位的典型 例子雷达和主动声纳发出电磁波或者声波搜寻目标,当这些信号遇到目标后, 其中的一部分返回到雷达或是声纳的接收系统。根据信号发射与接收的时间延 迟,可以估计出目标的方位、距离和速度等参量。与主动估计不同,被动系统不 主动发出信号,而是仅凭接收目标发出的信号来进行目标的定位。这种方法在军 事领域、科学研究、日常生活中被广泛应用: 1 、水声被动定位 水声被动定位的任务是根据声纳系统接收到的目标信号,确定目标信源的准 确位置,包括方位、距离和运动速度等信息。 2 、生物医学中的微检测 测量血管中红血球速度、检测神经系统的病变 3 、地震波的监测 通过对到达不同接收器的地震波的时间延迟的测定,分析判断地震波的形成 华东师范大学硕士学位论文第一章绪论 原因。 4 、管道泄漏的检测定位 管道泄漏时发出的振动会延管壁两侧传播,只要在管道泄漏点的两侧检测到 这个振动信号,就可以通过估计这两个信号之间的时间延迟来确定泄漏点的位 置。 5 、电话会议中的声源定位 接收不同的发言人的语音信号,根据不同传感器的位置以及接收的功率、相 位信息,来确定发言人的位置。 6 、室内监测系统 在楼道、房间内安装拾音器,根据接收到的声音信号确定目标方位,或者录 制目标声音和图像信息。 1 2 声源定位的关键技术及国内外研究现状 利用目标发出的声音信号来确定目标的方位,是被动声探测系统测定目标位 置的关键技术,系统以被动方式测出目标声音的参数,利用声程差等信息来确定 目标方向和距离。被动声定位的基本原理是将传声器在空间布置成有一定几何形 状的阵列,以接收目标声音信号的声场信息、通过检测或计算出各传声器所测信 号的时延量来确定目标的方位和距离。 在无噪声、无混响的情况下,距离声源很近的高性能、高方向性的单麦克风 可以获得高质量的声源信号。但是,这要求声源和麦克风之间的位置相对固定。 若声源相对麦克风运动,或位于选择方向之外,就会引入大量的噪声,导致参数 估计的精确度下降。而且,当麦克风距离声源很远,或者存在一定程度的混响及 干扰的情况下,也会使拾取信号的质量严重下降。 如果改变传统的单个麦克风使用方式,利用多个麦克风来拾取语音,把多个 麦克风排成线形或环形阵列,则可以通过结合阵列信号处理而达到智能的语音信 号处理。阵列式麦克风在时域和频域的基础上增加一个空间域,对接收到的来自 空间不同方向的时空信号进行处理,以“电子瞄准”的方式使所形成的波束对准 声源,这抑制了其他说话人的声音和环境噪声,从而获得高品质的声源信号嗍 2 0 世纪年代以来,传感器阵列信号处理技术得到迅猛的发展,并在雷达、 声纳及通信中得到广泛的应用。这种阵列信号处理的思想后来应用到语音信号处 理中。在1 9 8 5 年f l a n a g a n 将麦克风阵列引入到大型会议的语音增强应用中, 并开发出多种实际产品。之后,s i l v e r m a n 和b r a n d s t e i n 将其应用于语音识别和 声源定位中。进入9 0 年代以来,基于麦克风阵列的语音处理算法正逐渐成为一 个新的研究热点。基于麦克风阵列的产品能够广泛利用于具有复杂背景的语音通 2 华东师范大学硕士学位论文 第一章绪论 信环境,例如会场、多媒体教室、车载免提电话和助听器等。目前国外从事麦克 风阵列相关研究的机构主要有:i n t e l 、宝利通、东芝等。但是国内并没有类似的 具有自主知识产权的产品,所以对于该技术的研究具有较为领先的意义。 出现较早,并且在实际中应用的传感器阵列的信号处理方法是波束形成法翻, 在这种方法中,基阵的输出是各个阵元输出的简单的加权求和,通过调整权系数 可以在希望的方向上形成波束,而对其余的方向产生较小的响应。然后对整个观 测空间做波束扫描即可确定信号的方位。但是,基阵的分辨率受瑞利准则的限制, 是这种方法自身无法解决的问题。 针对常规波束形成信号处理中存在的分辨率问题,许多研究工作者进行了大 量的理论研究工作,以期改善基阵的分辨率,最终形成了各种高分辨算法。如最 大熵谱法、信号子空间法、特征结构法和最小方差法等。与常规波束形成法相比, 这些高分辨算法都有效地改善了基阵的分辨率,但这些方法都有一个共同的缺 点,即无法解决相干源问题。 为了解决相干源情况下的高分辨问题,研究人员又寻找了其它的方法和技 术,出现了最大似然估计法、递增阶数多参数估计法、信号参数估计旋转不变技 术、空间平滑技术、子空间拟合类算法等,这些算法获取了较佳的性能,但是计 算量相对庞大 s c h m i d t 的多重信号特征法( m u s i c ) 基于对信号参数估计问题的几何解释, 其主要思想是把观测空间化分为信号子空间和与之正交的噪声子空间。信号子空 间由基阵接收到的采样协方差矩阵中与信号对应的特征向量张成,而噪声子空间 则由该协方差矩阵中所有与最小特征值( 噪声方差) 对应的特征向量张成。多重 信号特征法利用这两个互补空间之间的正交性来估计方位。 基于传感器阵列的参数估计法除了上述这些技术之外,还有一种常用方法就 是时延估计法i s b 佃 所谓时问延迟,是指阵列中不同接收器所接收到的同源带噪信号之问由于信 号传输距离不同而引起的时间差。时间延迟估计是指利用参数估计和信号处理的 理论和方法,对上述时间延迟进行估计和测定,并由此进一步确定其它有关参数, 例如信源目标的距离、方位、运动方向和速度等。 时延估计的理论和技术是由水声目标定位及信号处理发展脱颖而出的。现代 声纳的研究始予2 0 世纪初,到第二次世界大战时,各种声纳装置己经被广泛地 用于水中兵器。自2 0 世纪五十年代以来,随着信息论、信号检测理论和计算机 技术的飞速发展,以及各个应用领域对时延估计的需求,时延估计理论得到了迅 速的发展。 1 9 7 6 年,a d p 和c a t e r 共同发表了一篇名为:“广义相关法时延估计”的 3 华东师范大学硕士学位论文 第一章绪论 著名论文,把时延估计的研究推向新的高潮并使时延估计获得了广泛的应用。这 篇论文从理论的高度,将当时存在的多种基于相关分析的加权时延估计方法统一 在广义相关时延估计的理论框架下,并给出了时延估计的性能下界一克拉美罗 下界。 进入八十年代,时延估计的研究有了进一步的发展。1 9 8 1 年,i e e e ,a s s p 学会专门出了一期关于时延估计问题的专刊,汇集了当时多篇重要研究论文,内 容涉及主、被动时延估计问题、广义互相关时延估计方法的理论研究和性能分析、 时变时延问题和自适应时延估计等问题。其中包括p i e r s o l 首次提出的相位谱时 延估计方法,c h o w 等人研究的时延估计的b a r a n k i n 界,r o d r i g u e z 等人通过仿 真研究了相位估计用于生物医学时延估计的应用问题,t h e d a u l t 等人提出了避 免有偏差的被动方位法,r e e d 等人首次提出了自适应时延估计的原理和方法。 其它多种方法,如广义双谱法、参量模型法等都从无到有,得到了迅速的发展。 进入上个世纪九十年代以来,除了对以往的方法进行扩展和深入研究以外, 又发展了基于人工神经网络的时延估计方法,基于谱相关理论的时延估计方法和 各种自适应时延估计方法等。 近几年,在时频分析工具的发展下,为了更准确的分析非平稳信号,又出现 了基于短时傅立叶变换的时延估计、基于小波变换的时延估计 4 1 等方法。使得时 延估计的精确度以及声定位的性能都有较大提高。 1 3 室内被动声源定位需要解决的问题 在室内被动声源定位的实际应用中,仍然存在一些尚未很好解决的问题,并 且要实现高精度、实时性,还有许多难点需要克服; 1 、语音是非平稳信号,传统的傅立叶变换等无法进行时域分析; 2 、信号和噪声之间、噪声和噪声之间可能相关,而高分辨率谱估计等方法 都假设它们是不相关的; 3 、在室内,声音传感器会接收到三种信号:直线传播过来的信号、早期反 射声、混响。 由图1 1 可知,定位系统不仅受到噪声的干扰,而且由于墙面的反射作用, 会产生相关干扰。这样每个传感器噪声的互相关函数就不等于零,从而增大了定 位的难度。这时麦克风不仅收到声源的直接部分还收到反射部分。而声音的反射 会导致互相关函数或者波束的尖峰扩展,难以确定最大值,增加了定位的误差 4 华东师范大学硕士学位论文 第一章绪论 图1 1 典型的室内单位冲激响应 对于单面墙上摆放的线性接受器,当声源在方向角比较小的位置时,会影响 几何近似的精度,从而给接受器与声源间距离的确定引入了比较大的误差。因此 声源与接受器的相对位置也会极大的影响定位的精度。 1 4 本文的主要工作 由于语音信号的非平稳性和室内反射、混响等相干干扰的影响,导致室内声 源定位算法很复杂,至今没有很好的定位精度。本文在算法方面提出了一种解决 方案,就是把瞬时频率分析法希尔伯特一黄变换睁目和时延估计法有机的结合 起来,对语音这种非平稳信号进行更有效的处理。并且因为i m f 固有模态分量 的特点,使系统在噪声和信号未知的情况下,具有很好自适应性。 本文内容的安排如下: 1 、分析并提出室内被动声定位的难点和需要解决的问题。介绍本文的研究 背景、室内被动声定位涉及到的关键技术及其国内外的研究现状。 2 、分析室内语音信号和室内噪声的特点,并提出相应的去噪方法。结合语 音信号的特点,研究处理非平稳信号的几种方法,并使用这几种方法对实际声音 信号进行仿真分析,为本文定位系统的建立打下基础。s t f t 和小波分析是依赖 于先验函数基的方法,而希尔伯特- 黄变换( h h t ) 作为一种新兴的瞬时频率分 析法,更适合处理非平稳信号,它从信号自身出发,自适应的产生信号固有模态 函数本章将对h h t 进行详细的研究。 5 华东师范大学硕士学位论文第一章绪论 3 、通过对传声器及其阵列的分析,选取适合本文的传声器,并建立起室内 声定位的二元阵列模型。同时介绍一种经典的传声器阵列的信号处理法波束 形成法。 4 、改进了基于小波的时延估计算法,在麦克风二元阵列的基础上实现并仿 真该算法,并证实了其可行性。研究互相关时延估计、互累积量时延估计等算法, 对实际信号给出仿真,并推导几种时延算法之间的关系。 5 、为解决非平稳信号以及噪声与信号相干的问题,本文采用时域、频域、 空域相结合的方法,提出一种基于h i l b e r t - h u a n g 变换的时延定位法,建立基于 该算法的定位模型,实现并分析其结果。 6 、对本论文的工作进行总结,指出本文的创新点和意义,提出有待进一步 解决的问题。 6 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理 第二章室内语音信号的前期时频处理 语音是时变的、非平稳的随机过程,而在室内,噪声又具有多样性。如何解 决冲击噪声、低频噪声、墙面反射以及混响的问题呢,信号的前期处理无疑是非 常重要的一部分。 2 1 语音信号和室内噪声信号的特性 2 1 1 语音信号的特性 声音是由物体振动产生的,但是人耳并不是所有的声音或者说所有的频率都 能听的见,通常人耳能感知到的频率范围为2 0 匦2 0 捌2 。 人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内, 声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位 等特性。其中响度、音高、音色可以在主观上用来描述具有振幅、频率和相位三 个物理量的任何复杂的声音,故又称为声音“三要素”;而在多种音源场合,人 耳掩蔽效应等特性更重要。下图为音高与频率的关系 s i n u s o i df o mw a v e f o r mg e n e r a t o r f f ts i z e 4 哺 一f n s i z e 8 1 9 2 n o t e e x p e c t e d m e a e u r e de r r o r1 1m e a s u r e de r r o r 【e 2 5 5 0 。 5 4 b 田3 65 4 9 扣 c 36 5 46 5 40 0 0 :陌3旬 d 桕7 7 87 7 90 1 3 l”80 【 f 婀9 2 59 2 60 1 1 l9 2 ,50 【 加 0 01 8田1 b |1 1 0 00 c a 1 81 7_ 0 i1 80 c d # 4 1 5 561 5 5 80 1 3 i1 5 5 6 0 c f # 41 皓01 8 4 b- 0 1 11 晒0 :0 c mz 扣02 1 9 日田0 9 2 2 0 0 ;0 c 52 6 1 62 6 1 70 0 42 6 1 60 d 塥3 ”13 ”20 3 ”10 c f 衢3 7 0 03 7 0 10 3 7 0 00 艏4 4 0 04 加10 0 24 4 0 00 c g 强35 力40 0 2 l5 2 3 3 i0 c d 惦6 挖36 2 2 40 0 2 。6 = 盈30 口 f 桶7 加07 4 0 10 0 17 4 0 00 口 图2 1 音高与频率的关系 振动要传播,才能成为波。因此,波比振动要更为复杂些,有四个要素:振 幅,相位,频率和波长声速是声波在媒质中每秒钟传播的距离,用“c ”来表 7 华东师范大学硕士学位论文 第二章室内语音信号的前期时频处理 示。另外需要注意的是声速的大小与振动无关,而与媒质的材质,密度和温度有 关当室内温度为1 4 口1 5c 时,声速为3 4 0 m s 。所以在不作精确要求时, 通常认为空气中的声速为3 4 0 m s 。 在声学中声音的强度或压力常用级来表示,它的单位是d b ( 分贝) 这样 人耳能听到的最小的声音与最大声音之间强度相差1 0 1 2 倍,也就是声级相差 1 2 0 d b 。一个声音在听觉感受上有多高,主要与它的频率有关,但是它的强度也 起很大作用。如果一个声音信号里包含越多的频率成分,它的音调高低就越复杂 嗍。 人们判断声源的方向与距离,要靠两个耳朵来接收,特别是觉察声源运动, 从嘈杂的环境中倾听一个较弱的声音等,靠的都是两个耳朵的功能,这称之为双 耳效应。双耳效应的主要作用来自于声音到达两个耳朵的时间差,这也是二元麦 克风阵列定位的依据。 本论文主要研究室内说话人发出的信号,也就是语音信号把语音信号作为 目标信号进行分析处理的时候,信号的频谱特征是一个重要的内容。 人日常谈话的功率平均为1 0 m 孵语言信号的频带约在1 0 0 肛1 0 0 0 0 五b 主要频段在1 0 0 - z 一4 0 0 0 - z 。而男女声也有不同,男声一般在9 5 - z 一1 4 2 h z , 女声大部分则集中在2 7 2 6 酗5 5 8 & 。 语音又可分为清音和浊音两大类。浊音在时域上呈现出明显的周期性,在频 域上有共振峰结构,而且能量大部分集中在较低频段内。共振峰对语音的感知十 分重要,特别是第二共振峰比第一共振峰更为重要。而清音没有明显的时域和频 域特征,类似于白噪声在语音信号的研究中,可利用浊音的周期性特征,采用 梳状滤波器提取语音分量或抑制非语音信号,而清音则难以与宽带噪声区分 语音信号携带着各种信息,在不同的应用场合下,人们感兴趣的信息是不同 的。对于不同的信息,处理方法当然也随之改变常用的语音信号处理方法有: 短时时域处理技术、短时频谱分析技术、小波分析等。 2 1 2 室内声场 同一时刻,同相位的振动传播到达点的集合叫做波阵面。波阵面是平面的叫 平面波,波阵面是球面的叫球面波。一般情况下,平面振动发出的是平面波,点 源振动发出的是球面波。但是,对于声源和接受器之间距离较远的系统( 基阵孔 径相对于声源和接收器的距离可以忽略的室外远场模型) ,可以近似认为声波是 以平面波的形式传播的。近场模型和远场模型的最大区别在于:近场模型需要考 虑传播路径的不同带来信号幅度衰减的不同,即近场模型除了要考虑信源的到达 方向之外,还必须考虑信源到各个麦克风的距离。 8 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理 声波在传播过程中要发生幅度衰减,其幅度衰减因子与传播距离成正比。麦 克风阵列的各个阵元到信源的距离不同,因此声波波前到达各个阵元时,幅度也 会不同对于远场信源,麦克风阵元接收的信号之间幅度差别很小,可以忽略不 计;但对于近场信源,麦克风阵列的各个阵元因接收信号幅度衰减的不同所带来 的影响较大,必须予以考虑。因此在近场情况下,必须采用球面波前模型,来代 替远场的平面波前模型 从室外某一声源发出的声波,以球面波的形式连续向外传播,随着接收点与 声源距离的增加,声能迅速衰减。在无反射面的空中,声压级的计算遵循下式: 1 l - k + 1 0 1 9 兰(2-1-1)_2 , 式中:功空间某点的声压级,d b , 己r 声源的声功率级,扭; 删点与声源的距离,m 。 在这种情况下,声源发出的声能无阻挡地向远处传播,接收点的声能密度与 声源距离的平方成反比,即距离每增加1 倍衰减6 扭,性质极为单纯。 但是在很多情况下,都要涉及到声波在一个封闭空间的传播,如剧院的观众 厅、播音室、会议室等,声波在传播时将受到封闭空间各个界面( 墙壁、天花、 地面等) 的反射与吸收,这时所形成的声场要比露天复杂得多,这种声场将引起 一系列特有的声学特性刚 室内声场的显著特点是: ( 1 ) 距声源有一定距离的接收点上,声能密度比在自由声场中要大,常不 随距离的平方衰减。 ( 2 ) 声源在停止发声以后,在一定的时间里,声场中还存在着来自各个界 面的迟到的反射声,产生所谓“混响现象”。 对于室内声场的分析,用波动声学的方法分析十分困难,但是在一个比波长 大得多的室内空问中,如果忽略声音的波动 性,使用几何学的方法分析,其结果就会十 分简单明了 几何声学的方法就是把声波波阵面相 垂直的直线作为声音的传播方向和路径,称 为“声线”声线与反射性的平面相遇,产 生反射声反射声的方向遵循入射角等于型图2 2 室内声音传播的几何模 反射角的原理。用这种方法可以简单和形象地分析出许多室内声学现象,如直达 声与反射声的传播路径、反射声的延迟以及声波的聚焦、发散等等。 9 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理 图2 3 是声音在室内传播的图形。从图中可以看到,对于一个收听者,接收 到的不仅有直达声,还有陆续到达的来自天花板、地面以及墙面的反射声,它们 有的是经过一次反射到达收听者的,有的则是经过二次甚至多次反射到达的。下 图表示了房间内可能出现的四种反射声图中a 与b 均为平面反射,所不同的 是;离声源较近者a 由于入射角变化较大,反射声线分散大;离声源较远者b 各入射线近于平行,反射声线的方向也接近一致。c 与d 是两种反射效果截然 不同的曲面,凸曲面c 使声线束扩散;凹曲面d 则使声音集中于一个区域,形 成声音的聚焦。 d 凹曲面的聚焦作用 图2 3 室内声音反射的几种典型情况 a ,畔面反射;o 一凸曲面的发散作用;d 一凹曲面的聚焦作用 在室内声场下传播的时间特性分三部分:直达声、近似反射声、混响声嗍。 当声源发声后,声源的辐射波未经任何反射直接传播到某位置的声波叫做直达 声这时声能密度( 1 i p 声强) ,大致与距离平方成反比。直达声路程最短,声音 最清晰,最接近原始声。它可以用来确定声源的方向 在室内所有声能的总和,可能要比直达声大许多倍,但人们可以判断出声源 的方位,这符合哈斯效应的优先性准则一个声场有两个声源( 这两个声源发出 的声音是同一音频信号) ,当这两个声音传入人耳的时间差在5 0 毫秒以内时, 人耳不能明显辨别出两个声源的方位,人耳的听觉感觉是:哪一个声源的声音首 先传入人耳,则断定全部的声音都来自于这个方位。 一般直达声过后,经一次、二次的反射称作早期反射声,也称近似反射声。 这种反射声可以加强直达声、展宽声源、决定声场大小。 除了早期以外的所有反射声的总和就是混响声,也就是在5 0 毫秒以外的反 射声。混响时间的定义是声能密度衰减6 0 d b 所需的时间。它的特点是声音停止 后依然持续,密度越来越大,声能越来越小。 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理 根据声能密度的台形衰减,可以推出混响时间为: r 型( 2 1 2 ) - s 1 ( 1 一刃 式中:萨一室的容积,: j - ( - 与声速有关的常数,一般取o 1 6 1 ; 卜室内总表面积, 厅一室内表面平均吸声系数。 在大多数实际的厅堂中,声源发声后,大约经过1 - 2 秒,声能密度即可接近 最大值( 稳态声能密度) 。一个室内吸声量大,容积也大的房间,稳态前某一时 间的声能密度,比一个吸声量或容积小的房间声能密度要小。还可以看出,室内 总吸声量较大,衰减就越快,室容积越小,衰减越缓慢。 一一- 一 i - 塑态埘!l l 菇长过程 心 , 多态过程 y , _ 声源开始声源停止 图2 4 室内吸收不同对声音增长和衰减的影响 a 吸收较少;b 一中等吸收;c 吸收较强 室内声音的增长、稳态和衰减过程可以用图2 4 形象地表示出来,这一过程 为指数曲线。图中实线表示室内表面反射很强的情况。此时,在声源发声后,很 快就达到较高的声能密度并进入稳定状态。当声源停止发声,声音将比较慢的衰 减下去。虚线与点虚线则表示室内表面的吸声量增加到不同程度时的情况。 图2 4 的纵坐标是声能密度( d ) 的直线标度,衰减曲线呈负指数曲线;如 果纵坐标以分贝( 扭) 标度,则衰减曲线就呈直线。 图2 5 曲线上有细微的起伏曲折是室内声场不完全扩散的结果。 1 1 拇协蛐拍持 声能密度 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理 图2 5 室内声能密度用d b 标度的混响时间曲线 2 1 3 室内噪声分析 噪声抑制方法很多,要视不同的情况进行选择。比如:如果知道有用信号的 频率分布宽度远小于噪声频谱分布宽度,可以采用频域滤波的方法( 如带通滤波 器) ;如果知道信号的表达式,则采用匹配滤波的方法比带通滤波效果更好;如 果信号是非平稳的,无法用解析表达式表示,但其状态迁移可以用一个矩阵方程 表示,可以采用k a l m a n 滤波;如果噪声的统计参数是时变的,则要采用自适应 滤波,动态估计噪声的分布参数等等。 自相关和互相关也是抑制噪声的两种经典方法。自相关适用于周期信号中含 有相关性很弱的随机噪声的情况。由于周期信号自相关函数也是周期性的,而噪 声的自相关函数却随着时延的增大快速衰减,因此,只要时延取得足够大,就能 很大程度地抑制噪声;互相关则是适用于能够取得不含噪声的有用信号样本的情 形,但它并不局限于周期信号,对非周期信号也适用。比如医生用听筒听胎儿的 心音,还有雷达接收机的匹配滤波,实际上都是互相关原理。 在室内语音信号处理中,除了要考虑前文叙述的反射声、混响声,还存在各 种干扰噪声,要想实现很好的消噪效果,不仅要掌握消噪方法,更重要的是必须 对我们所面临的噪声有所了解。 在实际中,很多噪声也是非平稳的随机过程。根据能量序列的变化特点,在 这里我们将加性噪声分为五类:稳定噪声、缓交噪声、脉冲噪声、波动噪声和阶 跃噪声。它们相互独立并且相互叠加,共同组成输入噪声。 稳定噪声主要是指能量分布基本不随时间交换的噪声,如:热噪声、机器轰 鸣声等等,它们是具有各态历经性的平稳高斯过程:缓变噪声是能量分布随时间 华东师范大学硕士学位论文 第二章室内语音信号的前期时频处理 缓慢变化的噪声,例如风声、驶来的汽车,在一定的短时间内可以近似为稳定噪 声;脉冲噪声就是大家平常熟悉的敲击声、咳嗽声等,它们的能量只在短时间内 为零;波动噪声是指能量持续升降变化的噪声;阶跃噪声则是能量分布呈梯状的 陡变噪声,象键盘敲击声、脚步声等 我们可以把上述所有噪声分为平稳和非平稳两部分,其中平稳噪声较好处 理,而因为语音信号的非平稳性,使得非平稳噪声很难被分离出来。但是,根据 前文提到的浊音的特性,可以通过浊音检测来区分语音信号和非平稳噪声。浊音 是由周期性声门脉冲激励声道而产生的,因为基频变换较慢,测特性在窄带语谱 图上表现为一系列均匀平行亮线,而噪声一般不具有这种特性,因此在基音和谐 波上集中了主要能量的浊音信号在噪声干扰下仍能保持突出特性。 下面先分析一下在一般的室内( 如会议室) ,存在的具体噪声及其频谱。 图2 6 室内空调噪声信号 1 、稳定噪声 在会议室内很可能会有电脑机箱的嗡鸣声、空调声音等,这些噪声一般是一 直稳定存在的。前后变化不大。图2 6 是使用心型指向性麦克风在小型会议室内 采集到的某品牌空调发出的声音信号。 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理 图2 7 室内空调噪声信号的频谱 由图2 7 可知,该室内空调机的噪声基本上集中在低频部分,由于人的说话 声一般不会低于8 0 h z ,因此可以直接用滤波器将它滤除 图2 8 咳嗽声及其频谱 在会议中经常会出现一些突发性的脉冲噪声,比如人的咳嗽声和掉笔的声 响。 图2 8 是在小型会议室内录制的女声的咳嗽声,图2 9 为笔掉在地上发出的 声响。分析其频谱,发现频率主要为3 0 0 - 玉- - 5 0 0 h z ,单从频域上很难与说话声 信号区分,不过可以发现,语音信号较为圆润,而这种脉冲信号变化快,且作用 时间短。这时就必须采用时域和频域相结合的方法去分析,如果信号能量时域分 1 4 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理 布较集中,可能为冲击性噪声;而如果信号能量的时域分布较平均,频谱又较平, 则有可能是白噪声。 图2 9 掉笔的声音信号及其频谱 2 2 非平稳信号的时频分析法与短时傅立叶变换( s t f t ) 1 8 0 7 年,法国的热学工程师j b j f o u r i e r 提出了傅立叶信号分析理论,发 明了傅立叶变换方法,搭建了从时域分析到频域分析的桥梁,使在时间域内难以 观测到的信号特征,可以在频域内十分清楚地显示出来。傅立叶分析理论虽然在 信号分析理论的发展的过程中起了重要作用,但随着研究的深入,研究者发现傅 立叶变换是一种整体积分变换,得不到信号的时域特征。此外,傅立叶变换是典 型的线性变换,并且是一种稳态变换因此傅立叶分析适合分析频率不随时间变 化的线性、平稳信号,以及对信号做全局分析;不适合频率随时间交化的非线性、 非平稳信号,以及对信号作局部分析。不巧的是,在实际应用中,采集的信号许 多都是非稳态、非线性的时变频率信号。 为解决这个缺陷,一部分学者把时间和频率进行联合分析,通过研究时问和 频率的联合分布,可以达到研究时变频率的目的。按照这一思路,人们取得了大 批的研究成果,提出了像短时傅立叶变换、w i n g e r - v i l l e 分布和小波分布等卓有 华东师范大学硕士学位论文 第二章室内语音信号的前期时额处理 成效的信号分析方法,使信号分析理论前进了一大步。 2 2 1 语音信号的短时傅立叶变换 在时延估计算法中,一般会假设信号是平稳的,但事实常常并非如此,语音 信号以及一部分室内噪声都是非平稳的时变信号。而以往的频谱分析中,任一频 率分量, w w o ) 都是对信号善在整个定义区间上的积分,其无法有效地反映信 号在窄区间上的突变以及信号在时域的特性。也就是说,根据频谱,可以知道哪 些频率在信号中出现,但不知道这些频率在什么时候存在。这样看来,信号的频 域分析是不适合于非平稳信号的,信号的时频分析也就成为必然。 短时傅立叶变换( s h o r t - t i m ef o u r i e r t r a n s f o r m ,s t f t ) 口1 1 是一种常用的 信号时频分析方法。它假设信号在窗函数的一个短时间内是平稳( 伪平稳) 的, 移动窗函数,使信号在不同的时间宽度内为不同的伪平稳信号。 对于给定的信号x ,其s t f t 定义为: s t f t ( t ,q ) - p o ) 9 0 p y f 。p 扣) g _ o 弦书“咖 ( 2 2 1 ) 工o ) ,g 扣一f 弦闺7 , g t 丑( f ) - g ( f f ) e m 式中 g ,鼻o ) - g p f k 胁,恬o - 1 ,怙埔扛* 1 并且窗函数g ( f ) 应取对称函数 在时域用窗函数g ( r ) 去截工( r ) ,对截下来的局部信号作傅立叶变换,即在t 时刻对该段信号做傅立叶变换。不断的移动t ,也即不断的移动窗函数9 0 ) 的中 心位置,就可得到不同时刻的傅立叶变换。这些傅立叶变换的集合就是s t f t 交 换。如图2 1 0 所示。 这样,透过窗口可以观察到信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年防城港市殡葬管理服务系统事业单位人员招聘考试备考试题及答案详解
- 2026年博尔塔拉蒙古市自然资源系统事业单位人员招聘考试备考试题及答案详解
- 质检职业规划
- 2026年安全生产月活动方案
- 2026北京化工大学科学技术发展研究院招聘1人笔试参考题库及答案详解
- 2026年5月贵州贵阳市观山湖区第一批招聘城镇公益性岗位工作人员24人考试备考题库及答案解析
- 主题教育反馈机制
- 2026年大理市劳动保障监查系统事业单位人员招聘考试备考试题及答案详解
- 2026年本溪市气象系统事业单位人员招聘考试备考试题及答案详解
- 2026福建福州城投新基建集团有限公司权属企业社会招聘4人考试模拟试题及答案解析
- YY/T 1986-2025一次性使用无菌神经用导管及附件
- 拍卖公司绩效考核制度
- 苏教版科学四年级下册第二单元第8课 太阳钟(教学课件)
- 成都高投集团招聘笔试题
- 2025年广东省职业病诊断医师考试(职业性化学中毒)在线题库及答案
- 2026年中国化工经济技术发展中心招聘备考题库及1套完整答案详解
- 2025至2030中国商用车用摄像头和监视器更换后视镜行业调研及市场前景预测评估报告
- 2025年武汉铁路局集团招聘笔试参考题库
- 工程管理的决策论
- 代谢相关脂肪性肝病相关肝细胞癌诊疗进展
- 医美代运营合同协议书
评论
0/150
提交评论