（通信与信息系统专业论文）室内被动声源定位算法的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：88 大小：2.83MB 积分：0 举报 版权申诉

已阅读5页，还剩83页未读，继续免费阅读

（通信与信息系统专业论文）室内被动声源定位算法的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华东师范大学硕士学位论文摘要摘要室内被动声源定位是一门新兴的技术，在适合远场模型的传统波束形成法的基础之上，现在又发展出了基于高阶统计量的定位法、自适应滤波延迟估计定位法、高分辨定位算法等许多种方法。波束形成法虽然不受相关性的限制，但是在增强信号的同时也增强了该方向的噪声，且受基阵孔径限制；自适应滤波延迟估计法可以解决声源移动的实时问题，然而是基于噪声不相关的假设，且收敛速度慢；高分辨定位算法分析的对象是平稳信号，并且算法复杂，运算量大。为研究如何提高室内声源定位的性能，本文在单传感器雷达回波的时延估计的基础上，改进出了基于小波变换的二元传感器阵列的时延估计算法。它免除了互相关法中噪声不相关的假设条件，克服了由于强随机噪声干扰所带来的误差。但因为小波分析本身的局限性( 需要依靠经验去选取小波，且当小波基确定时，小波分解只与分解尺度和信号的采样频率有关，不具有自适应性) ，使得这种方法性能较低。在对多种算法研究的基础上，本文根据室内语音信号非平稳、有反射和混响等相干噪声的特点，提出了一种新方法基于h i l b e r t h u a n g 变换的时延定位法。希尔伯特一黄交换这种时频局部化分析法，非常适合处理非平稳信号，它从信号自身出发，自适应的产生信号固有的基函数，而不是人为的设定变换的基函数。本文提出的这种创新性算法首先对传感器阵列采集到的信号做经验模态分解 ( e m d ) ，得到各个阶的固有模态函数( i m f 分量) ，然后对这些分量进行小波的软域值去噪以提高系统精度，再根据互相关原理并加最优极大似然窗求得时间延迟估计，最后用几何插值法即可得出声源的方位角。由于i m f 是信号本身的固有分量，使得系统在噪声和信号未知的情况下，具有很好自适应性；并且 h i l b e r t 谱对信号细节的表达十分精确，非常易于语音信号和干扰噪声的分离，进而减小了混响对整个定位系统的影响。通过对麦克风阵列的分析，本文建立了室内声定位的二元阵列模型在此基础上，将本文提出的创新性方法进行了实验仿真，得出的相关峰值尖锐，旁瓣抑制效果较好。文章最后分别对不同方位、不同讲话人的情况进行了仿真分析，分别比较了h h t 的广义互相关法、h h 丁的全息图法、h h t 的互累计量法，发现均有较好的性能。其均方误差分别为：0 7 0 4 、0 6 7 4 、2 4 1 3 。关键字：声源定位，时延估计，波束形成法，希尔伯特黄变换，小波分析，传感器阵列，互相关华东师范大学硕士学位论文 a b s t r a c t a c o u s t i cl o c a l i z a t i o ni nr o o m si san e wt e c h n o l o g y , m a n yn e wm e t h o d s n o wh a v eb e e nd e v e l o p e d ，s u c ha sh i g h e r - o r d e rs p e c t r a la n a l y s i sm e t h o d ， a d a p t i v e - f i l t e rd e l a y - e s t i m a t i o nm e t h o d 。a n dh i g hr e s o l u t i o ns p e c t r a le s t i m a t i o n a l t h o u g hb e a m - f o r m i n gm e t h o di sn o t l i m i t e db yc o r r e l a t i o n ，b u ti tw i l li n c r e a s e t h en o i s ew h i l ei ti n c r e a s et h eu s e f u ls i g n a l ，a sw e l la si tw i l lb el i m i t e db yt h e b a s ea r r a ya p e r t u r e ；a d a p t i v e - f l l t e rd e l a y - e s t i m a t i o nm e t h o dc o u l dr e s o l v et h e r e a l - t i m ei s s u ef o rl o c o m o t i v ea c o u s t i cs o u r c e 。b u ti t sb a s e do nn o i s e n o n - c o r r e l a t i o na n di t sc o n s t r i n g e n c ys p e e di ss l o w ；, h i g hr e s o l u t i o ns p e c t r a l e s t i m a u o nh a sc o m p l e xa l g o r i t h m sa n di t sp e r f o r m a n c ew i l lb er a p i d l y d e g r a d e dw h e ns i g n a l sa r en o n s t a t i o n a r l t y i no r d e rt om a k et h ea c o u s t i cl o c a l i z a t i o ns y s t e mi nr o o m sb e t t e r , a b i - s e n s o ra r r a yt i m e d e l a ye s t i m a t i o nb a s e do nw a v e l e tt r a n s f o r mi sd e s i g n e d i nt h i st h e s i s i ti sg o o df o rd e l a y - e s t i m a t i o no fs i g n a lf r o mc r o s s - c o r r e l a t i o n n o i s e b u tt h i sm e t h o dh a sl o w e rp e r f o r m a n c ed u et ot h el i m i t a t i o no fw a v e l e t a n a l y s i si t s e f t ( w a v e l e ti s c h o s e na c c o r d i n gt o e x p e n e n c e a n d 北j s n o n - a d a p t i v e ) a f t e rs t u d y i n go nm a n ya l g o r i t h m s ，an e wm e t h o dn a m e dt i m e - d e l a y l o c a l i z a t i o nb a s e do nh i l b e r t - h u a n gt r a n s f o r mi sd e s i g n e di nt h i st h e s i s ，w h i c h i sm a i n l yu s e dt oo v e r c o m et h en o n s t a t i o n a r l t yo fs p e e c hs i g n a l s t h i s m e t h o dw o r k st h r o u g hp e r f o r m i n gat i m ea d a p t i v ed e c o m p o s i t i o no p e r a t i o n n a m e de m p i d c a lm o d ed e c o m p o s i t i o n ( e m d ) o nt h es i g n a l s ；t h e nt h es i g n a l s w i l lb ed e c o m p o s e di n t oas e to fc o m p l e t ea n da l m o s to d h o g o n a lc o m p o n e n t s n a m e di n t d n s i cm o d ef u n c t i o n ( i m f ) t h ei m fs i g n a l sw i l ll a t e rb ed e - n o i s e db y w a v e l e ts o f tt h r e s h o l dm e t h o dt oi m p r o v ea c c u r a c y i nt h i sw a y , t h et i m e - d e l a y e 鲥m 鲥o nc a nb ec a l c u l a t e dt h r o u g hc r o s s c o r r e l a t i o np r i n c i p l e 1 1 1 ea c o u s t i c a z i m u t ha n g l ei sl a s tg o tt h r o u g hg e o m e t r yi n t e r p o l a t i o n t h es y s t e mi s a d a p t i v eb e c a u s eo fi m f _ i na d d i t i o n 。t h ed e t a i l so fs i g n a l sc a rb ei l l u s t r a t e d a c c u r a t e l yi nh i l b e r te d g es p e c t r u m 。 ab i - s e n s o ra r r a ym o d ei se s t a b l i s h e di nt h i st h e s i s o nt h ef o u n d a t i o n ，t h e n e wm e t h o dn a m e dt i m e - d e l a yl o c a l i z a t i o nb a s e do nh h t , h a sb e e n i m p l e m e n t e d ，w h i c hh a ss h a r pc o r r e l a t i o np e a k ，a n dn si o c e l i z a t i o ne r r o ri s 华东师范大学硕士学位论文 0 1 4 k e y w o r d ：a c o u s t i cl o c a l i z a t i o n ，t i m e - d e l a ye s t i m a t i o n 。b e a m - f o r m i n gm e t h o d ， h i l b e r t - h u a n gt r a n s f o r m ，w a v e l e ta n a l y s i s ，s e n s o ra r r a y , c r o s s - c o r r e l a t i o n 学位论文独创性声明本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成果据我所知，除文中已经注明引用的内容外，本论文不包含其他个人已经发表或撰写过的研究成果对本文的研究做出重要贡猷的个人和集体，均巳在文中作了明确说明并表示谢意作者签名：必日期：学位论文授权使用声明本人完全了解华东师范大学有关保留、使用学位论文的规定，学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅有权将学位论文的内容编入有关数据库进行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在解密后适用本规定学位论文作者签名：匀治匆7 日期：丑! ：! 摊名：引百7 4 日期：华东师范大学硕士学位论文第一章绪论第一章绪论声源定位是多年来国内外研究的重点课题，刚起步时主要应用在军事方面，如直升机定位，雷达探测，水下潜艇定位随着时代的发展，这种技术也逐渐扩展到日常生活当中，例如机器人眼追踪，摄像机式的眼睛可以聚焦到声源处；电视会议中通过接收追踪发言者的语音信号，自动使摄像头对准发言者等等。这些应用大多是在室内的近场环境下进行的，并且技术还很不完善，因此研究室内声源定位具有很强的理论和实践意义。 1 1 声源定位概述在信号传输系统中，传输的主体是信号，而系统中包含的各种电路、设备则是实现信号传输的手段。因此，电路、设备的设计和制造要求，必然取决于信号的特征。而一个信号，在传输的过程中，往往会夹杂进许多干扰和噪声，我们必须尽可能的去除这些干扰和噪声，才能提取出有用的信号。所以，信号的分析和处理是非常重要的。在信号分析中，通常需要进行参数估计，因为在非理想的情况下，是不可能得到参数1 0 0 的准确值的。参数估计包括了对振幅、相位、频率、距离、方位、速度等信息的分析和估计。比如在雷达探测中，根据发射信号和接受信号的时间延迟信息，来估计反射物的方位、速度等参数。在本文中，我们就来讨论接收声音信号并估计相关参数，以达到定位目的的一些技术和算法。目标定位可以分为主动定位和被动定位。雷达和主动声纳是主动定位的典型例子雷达和主动声纳发出电磁波或者声波搜寻目标，当这些信号遇到目标后，其中的一部分返回到雷达或是声纳的接收系统。根据信号发射与接收的时间延迟，可以估计出目标的方位、距离和速度等参量。与主动估计不同，被动系统不主动发出信号，而是仅凭接收目标发出的信号来进行目标的定位。这种方法在军事领域、科学研究、日常生活中被广泛应用： 1 、水声被动定位水声被动定位的任务是根据声纳系统接收到的目标信号，确定目标信源的准确位置，包括方位、距离和运动速度等信息。 2 、生物医学中的微检测测量血管中红血球速度、检测神经系统的病变 3 、地震波的监测通过对到达不同接收器的地震波的时间延迟的测定，分析判断地震波的形成华东师范大学硕士学位论文第一章绪论原因。 4 、管道泄漏的检测定位管道泄漏时发出的振动会延管壁两侧传播，只要在管道泄漏点的两侧检测到这个振动信号，就可以通过估计这两个信号之间的时间延迟来确定泄漏点的位置。 5 、电话会议中的声源定位接收不同的发言人的语音信号，根据不同传感器的位置以及接收的功率、相位信息，来确定发言人的位置。 6 、室内监测系统在楼道、房间内安装拾音器，根据接收到的声音信号确定目标方位，或者录制目标声音和图像信息。 1 2 声源定位的关键技术及国内外研究现状利用目标发出的声音信号来确定目标的方位，是被动声探测系统测定目标位置的关键技术，系统以被动方式测出目标声音的参数，利用声程差等信息来确定目标方向和距离。被动声定位的基本原理是将传声器在空间布置成有一定几何形状的阵列，以接收目标声音信号的声场信息、通过检测或计算出各传声器所测信号的时延量来确定目标的方位和距离。在无噪声、无混响的情况下，距离声源很近的高性能、高方向性的单麦克风可以获得高质量的声源信号。但是，这要求声源和麦克风之间的位置相对固定。若声源相对麦克风运动，或位于选择方向之外，就会引入大量的噪声，导致参数估计的精确度下降。而且，当麦克风距离声源很远，或者存在一定程度的混响及干扰的情况下，也会使拾取信号的质量严重下降。如果改变传统的单个麦克风使用方式，利用多个麦克风来拾取语音，把多个麦克风排成线形或环形阵列，则可以通过结合阵列信号处理而达到智能的语音信号处理。阵列式麦克风在时域和频域的基础上增加一个空间域，对接收到的来自空间不同方向的时空信号进行处理，以“电子瞄准”的方式使所形成的波束对准声源，这抑制了其他说话人的声音和环境噪声，从而获得高品质的声源信号嗍 2 0 世纪年代以来，传感器阵列信号处理技术得到迅猛的发展，并在雷达、声纳及通信中得到广泛的应用。这种阵列信号处理的思想后来应用到语音信号处理中。在1 9 8 5 年f l a n a g a n 将麦克风阵列引入到大型会议的语音增强应用中，并开发出多种实际产品。之后，s i l v e r m a n 和b r a n d s t e i n 将其应用于语音识别和声源定位中。进入9 0 年代以来，基于麦克风阵列的语音处理算法正逐渐成为一个新的研究热点。基于麦克风阵列的产品能够广泛利用于具有复杂背景的语音通 2 华东师范大学硕士学位论文第一章绪论信环境，例如会场、多媒体教室、车载免提电话和助听器等。目前国外从事麦克风阵列相关研究的机构主要有：i n t e l 、宝利通、东芝等。但是国内并没有类似的具有自主知识产权的产品，所以对于该技术的研究具有较为领先的意义。出现较早，并且在实际中应用的传感器阵列的信号处理方法是波束形成法翻，在这种方法中，基阵的输出是各个阵元输出的简单的加权求和，通过调整权系数可以在希望的方向上形成波束，而对其余的方向产生较小的响应。然后对整个观测空间做波束扫描即可确定信号的方位。但是，基阵的分辨率受瑞利准则的限制，是这种方法自身无法解决的问题。针对常规波束形成信号处理中存在的分辨率问题，许多研究工作者进行了大量的理论研究工作，以期改善基阵的分辨率，最终形成了各种高分辨算法。如最大熵谱法、信号子空间法、特征结构法和最小方差法等。与常规波束形成法相比，这些高分辨算法都有效地改善了基阵的分辨率，但这些方法都有一个共同的缺点，即无法解决相干源问题。为了解决相干源情况下的高分辨问题，研究人员又寻找了其它的方法和技术，出现了最大似然估计法、递增阶数多参数估计法、信号参数估计旋转不变技术、空间平滑技术、子空间拟合类算法等，这些算法获取了较佳的性能，但是计算量相对庞大 s c h m i d t 的多重信号特征法( m u s i c ) 基于对信号参数估计问题的几何解释，其主要思想是把观测空间化分为信号子空间和与之正交的噪声子空间。信号子空间由基阵接收到的采样协方差矩阵中与信号对应的特征向量张成，而噪声子空间则由该协方差矩阵中所有与最小特征值( 噪声方差) 对应的特征向量张成。多重信号特征法利用这两个互补空间之间的正交性来估计方位。基于传感器阵列的参数估计法除了上述这些技术之外，还有一种常用方法就是时延估计法i s b 佃所谓时问延迟，是指阵列中不同接收器所接收到的同源带噪信号之问由于信号传输距离不同而引起的时间差。时间延迟估计是指利用参数估计和信号处理的理论和方法，对上述时间延迟进行估计和测定，并由此进一步确定其它有关参数，例如信源目标的距离、方位、运动方向和速度等。时延估计的理论和技术是由水声目标定位及信号处理发展脱颖而出的。现代声纳的研究始予2 0 世纪初，到第二次世界大战时，各种声纳装置己经被广泛地用于水中兵器。自2 0 世纪五十年代以来，随着信息论、信号检测理论和计算机技术的飞速发展，以及各个应用领域对时延估计的需求，时延估计理论得到了迅速的发展。 1 9 7 6 年，a d p 和c a t e r 共同发表了一篇名为：“广义相关法时延估计”的 3 华东师范大学硕士学位论文第一章绪论著名论文，把时延估计的研究推向新的高潮并使时延估计获得了广泛的应用。这篇论文从理论的高度，将当时存在的多种基于相关分析的加权时延估计方法统一在广义相关时延估计的理论框架下，并给出了时延估计的性能下界一克拉美罗下界。进入八十年代，时延估计的研究有了进一步的发展。1 9 8 1 年，i e e e ，a s s p 学会专门出了一期关于时延估计问题的专刊，汇集了当时多篇重要研究论文，内容涉及主、被动时延估计问题、广义互相关时延估计方法的理论研究和性能分析、时变时延问题和自适应时延估计等问题。其中包括p i e r s o l 首次提出的相位谱时延估计方法，c h o w 等人研究的时延估计的b a r a n k i n 界，r o d r i g u e z 等人通过仿真研究了相位估计用于生物医学时延估计的应用问题，t h e d a u l t 等人提出了避免有偏差的被动方位法，r e e d 等人首次提出了自适应时延估计的原理和方法。其它多种方法，如广义双谱法、参量模型法等都从无到有，得到了迅速的发展。进入上个世纪九十年代以来，除了对以往的方法进行扩展和深入研究以外，又发展了基于人工神经网络的时延估计方法，基于谱相关理论的时延估计方法和各种自适应时延估计方法等。近几年，在时频分析工具的发展下，为了更准确的分析非平稳信号，又出现了基于短时傅立叶变换的时延估计、基于小波变换的时延估计 4 1 等方法。使得时延估计的精确度以及声定位的性能都有较大提高。 1 3 室内被动声源定位需要解决的问题在室内被动声源定位的实际应用中，仍然存在一些尚未很好解决的问题，并且要实现高精度、实时性，还有许多难点需要克服； 1 、语音是非平稳信号，传统的傅立叶变换等无法进行时域分析； 2 、信号和噪声之间、噪声和噪声之间可能相关，而高分辨率谱估计等方法都假设它们是不相关的； 3 、在室内，声音传感器会接收到三种信号：直线传播过来的信号、早期反射声、混响。由图1 1 可知，定位系统不仅受到噪声的干扰，而且由于墙面的反射作用，会产生相关干扰。这样每个传感器噪声的互相关函数就不等于零，从而增大了定位的难度。这时麦克风不仅收到声源的直接部分还收到反射部分。而声音的反射会导致互相关函数或者波束的尖峰扩展，难以确定最大值，增加了定位的误差 4 华东师范大学硕士学位论文第一章绪论图1 1 典型的室内单位冲激响应对于单面墙上摆放的线性接受器，当声源在方向角比较小的位置时，会影响几何近似的精度，从而给接受器与声源间距离的确定引入了比较大的误差。因此声源与接受器的相对位置也会极大的影响定位的精度。 1 4 本文的主要工作由于语音信号的非平稳性和室内反射、混响等相干干扰的影响，导致室内声源定位算法很复杂，至今没有很好的定位精度。本文在算法方面提出了一种解决方案，就是把瞬时频率分析法希尔伯特一黄变换睁目和时延估计法有机的结合起来，对语音这种非平稳信号进行更有效的处理。并且因为i m f 固有模态分量的特点，使系统在噪声和信号未知的情况下，具有很好自适应性。本文内容的安排如下： 1 、分析并提出室内被动声定位的难点和需要解决的问题。介绍本文的研究背景、室内被动声定位涉及到的关键技术及其国内外的研究现状。 2 、分析室内语音信号和室内噪声的特点，并提出相应的去噪方法。结合语音信号的特点，研究处理非平稳信号的几种方法，并使用这几种方法对实际声音信号进行仿真分析，为本文定位系统的建立打下基础。s t f t 和小波分析是依赖于先验函数基的方法，而希尔伯特- 黄变换( h h t ) 作为一种新兴的瞬时频率分析法，更适合处理非平稳信号，它从信号自身出发，自适应的产生信号固有模态函数本章将对h h t 进行详细的研究。 5 华东师范大学硕士学位论文第一章绪论 3 、通过对传声器及其阵列的分析，选取适合本文的传声器，并建立起室内声定位的二元阵列模型。同时介绍一种经典的传声器阵列的信号处理法波束形成法。 4 、改进了基于小波的时延估计算法，在麦克风二元阵列的基础上实现并仿真该算法，并证实了其可行性。研究互相关时延估计、互累积量时延估计等算法，对实际信号给出仿真，并推导几种时延算法之间的关系。 5 、为解决非平稳信号以及噪声与信号相干的问题，本文采用时域、频域、空域相结合的方法，提出一种基于h i l b e r t - h u a n g 变换的时延定位法，建立基于该算法的定位模型，实现并分析其结果。 6 、对本论文的工作进行总结，指出本文的创新点和意义，提出有待进一步解决的问题。 6 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理第二章室内语音信号的前期时频处理语音是时变的、非平稳的随机过程，而在室内，噪声又具有多样性。如何解决冲击噪声、低频噪声、墙面反射以及混响的问题呢，信号的前期处理无疑是非常重要的一部分。 2 1 语音信号和室内噪声信号的特性 2 1 1 语音信号的特性声音是由物体振动产生的，但是人耳并不是所有的声音或者说所有的频率都能听的见，通常人耳能感知到的频率范围为2 0 匦2 0 捌2 。人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内，声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度、音高、音色可以在主观上用来描述具有振幅、频率和相位三个物理量的任何复杂的声音，故又称为声音“三要素”；而在多种音源场合，人耳掩蔽效应等特性更重要。下图为音高与频率的关系 s i n u s o i df o mw a v e f o r mg e n e r a t o r f f ts i z e 4 哺一f n s i z e 8 1 9 2 n o t e e x p e c t e d m e a e u r e de r r o r1 1m e a s u r e de r r o r 【e 2 5 5 0 。 5 4 b 田3 65 4 9 扣 c 36 5 46 5 40 0 0 ：陌3旬 d 桕7 7 87 7 90 1 3 l”80 【 f 婀9 2 59 2 60 1 1 l9 2 ，50 【加 0 01 8田1 b |1 1 0 00 c a 1 81 7_ 0 i1 80 c d # 4 1 5 561 5 5 80 1 3 i1 5 5 6 0 c f # 41 皓01 8 4 b- 0 1 11 晒0 ：0 c mz 扣02 1 9 日田0 9 2 2 0 0 ；0 c 52 6 1 62 6 1 70 0 42 6 1 60 d 塥3 ”13 ”20 3 ”10 c f 衢3 7 0 03 7 0 10 3 7 0 00 艏4 4 0 04 加10 0 24 4 0 00 c g 强35 力40 0 2 l5 2 3 3 i0 c d 惦6 挖36 2 2 40 0 2 。6 = 盈30 口 f 桶7 加07 4 0 10 0 17 4 0 00 口图2 1 音高与频率的关系振动要传播，才能成为波。因此，波比振动要更为复杂些，有四个要素：振幅，相位，频率和波长声速是声波在媒质中每秒钟传播的距离，用“c ”来表 7 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理示。另外需要注意的是声速的大小与振动无关，而与媒质的材质，密度和温度有关当室内温度为1 4 口1 5c 时，声速为3 4 0 m s 。所以在不作精确要求时，通常认为空气中的声速为3 4 0 m s 。在声学中声音的强度或压力常用级来表示，它的单位是d b ( 分贝) 这样人耳能听到的最小的声音与最大声音之间强度相差1 0 1 2 倍，也就是声级相差 1 2 0 d b 。一个声音在听觉感受上有多高，主要与它的频率有关，但是它的强度也起很大作用。如果一个声音信号里包含越多的频率成分，它的音调高低就越复杂嗍。人们判断声源的方向与距离，要靠两个耳朵来接收，特别是觉察声源运动，从嘈杂的环境中倾听一个较弱的声音等，靠的都是两个耳朵的功能，这称之为双耳效应。双耳效应的主要作用来自于声音到达两个耳朵的时间差，这也是二元麦克风阵列定位的依据。本论文主要研究室内说话人发出的信号，也就是语音信号把语音信号作为目标信号进行分析处理的时候，信号的频谱特征是一个重要的内容。人日常谈话的功率平均为1 0 m 孵语言信号的频带约在1 0 0 肛1 0 0 0 0 五b 主要频段在1 0 0 - z 一4 0 0 0 - z 。而男女声也有不同，男声一般在9 5 - z 一1 4 2 h z ，女声大部分则集中在2 7 2 6 酗5 5 8 & 。语音又可分为清音和浊音两大类。浊音在时域上呈现出明显的周期性，在频域上有共振峰结构，而且能量大部分集中在较低频段内。共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要。而清音没有明显的时域和频域特征，类似于白噪声在语音信号的研究中，可利用浊音的周期性特征，采用梳状滤波器提取语音分量或抑制非语音信号，而清音则难以与宽带噪声区分语音信号携带着各种信息，在不同的应用场合下，人们感兴趣的信息是不同的。对于不同的信息，处理方法当然也随之改变常用的语音信号处理方法有：短时时域处理技术、短时频谱分析技术、小波分析等。 2 1 2 室内声场同一时刻，同相位的振动传播到达点的集合叫做波阵面。波阵面是平面的叫平面波，波阵面是球面的叫球面波。一般情况下，平面振动发出的是平面波，点源振动发出的是球面波。但是，对于声源和接受器之间距离较远的系统( 基阵孔径相对于声源和接收器的距离可以忽略的室外远场模型) ，可以近似认为声波是以平面波的形式传播的。近场模型和远场模型的最大区别在于：近场模型需要考虑传播路径的不同带来信号幅度衰减的不同，即近场模型除了要考虑信源的到达方向之外，还必须考虑信源到各个麦克风的距离。 8 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理声波在传播过程中要发生幅度衰减，其幅度衰减因子与传播距离成正比。麦克风阵列的各个阵元到信源的距离不同，因此声波波前到达各个阵元时，幅度也会不同对于远场信源，麦克风阵元接收的信号之间幅度差别很小，可以忽略不计；但对于近场信源，麦克风阵列的各个阵元因接收信号幅度衰减的不同所带来的影响较大，必须予以考虑。因此在近场情况下，必须采用球面波前模型，来代替远场的平面波前模型从室外某一声源发出的声波，以球面波的形式连续向外传播，随着接收点与声源距离的增加，声能迅速衰减。在无反射面的空中，声压级的计算遵循下式： 1 l - k + 1 0 1 9 兰(2-1-1)_2 ，式中：功空间某点的声压级，d b , 己r 声源的声功率级，扭；删点与声源的距离，m 。在这种情况下，声源发出的声能无阻挡地向远处传播，接收点的声能密度与声源距离的平方成反比，即距离每增加1 倍衰减6 扭，性质极为单纯。但是在很多情况下，都要涉及到声波在一个封闭空间的传播，如剧院的观众厅、播音室、会议室等，声波在传播时将受到封闭空间各个界面( 墙壁、天花、地面等) 的反射与吸收，这时所形成的声场要比露天复杂得多，这种声场将引起一系列特有的声学特性刚室内声场的显著特点是： ( 1 ) 距声源有一定距离的接收点上，声能密度比在自由声场中要大，常不随距离的平方衰减。 ( 2 ) 声源在停止发声以后，在一定的时间里，声场中还存在着来自各个界面的迟到的反射声，产生所谓“混响现象”。对于室内声场的分析，用波动声学的方法分析十分困难，但是在一个比波长大得多的室内空问中，如果忽略声音的波动性，使用几何学的方法分析，其结果就会十分简单明了几何声学的方法就是把声波波阵面相垂直的直线作为声音的传播方向和路径，称为“声线”声线与反射性的平面相遇，产生反射声反射声的方向遵循入射角等于型图2 2 室内声音传播的几何模反射角的原理。用这种方法可以简单和形象地分析出许多室内声学现象，如直达声与反射声的传播路径、反射声的延迟以及声波的聚焦、发散等等。 9 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理图2 3 是声音在室内传播的图形。从图中可以看到，对于一个收听者，接收到的不仅有直达声，还有陆续到达的来自天花板、地面以及墙面的反射声，它们有的是经过一次反射到达收听者的，有的则是经过二次甚至多次反射到达的。下图表示了房间内可能出现的四种反射声图中a 与b 均为平面反射，所不同的是；离声源较近者a 由于入射角变化较大，反射声线分散大；离声源较远者b 各入射线近于平行，反射声线的方向也接近一致。c 与d 是两种反射效果截然不同的曲面，凸曲面c 使声线束扩散；凹曲面d 则使声音集中于一个区域，形成声音的聚焦。 d 凹曲面的聚焦作用图2 3 室内声音反射的几种典型情况 a ，畔面反射；o 一凸曲面的发散作用；d 一凹曲面的聚焦作用在室内声场下传播的时间特性分三部分：直达声、近似反射声、混响声嗍。当声源发声后，声源的辐射波未经任何反射直接传播到某位置的声波叫做直达声这时声能密度( 1 i p 声强) ，大致与距离平方成反比。直达声路程最短，声音最清晰，最接近原始声。它可以用来确定声源的方向在室内所有声能的总和，可能要比直达声大许多倍，但人们可以判断出声源的方位，这符合哈斯效应的优先性准则一个声场有两个声源( 这两个声源发出的声音是同一音频信号) ，当这两个声音传入人耳的时间差在5 0 毫秒以内时，人耳不能明显辨别出两个声源的方位，人耳的听觉感觉是：哪一个声源的声音首先传入人耳，则断定全部的声音都来自于这个方位。一般直达声过后，经一次、二次的反射称作早期反射声，也称近似反射声。这种反射声可以加强直达声、展宽声源、决定声场大小。除了早期以外的所有反射声的总和就是混响声，也就是在5 0 毫秒以外的反射声。混响时间的定义是声能密度衰减6 0 d b 所需的时间。它的特点是声音停止后依然持续，密度越来越大，声能越来越小。华东师范大学硕士学位论文第二章室内语音信号的前期时频处理根据声能密度的台形衰减，可以推出混响时间为： r 型( 2 1 2 ) - s 1 ( 1 一刃式中：萨一室的容积，： j - ( - 与声速有关的常数，一般取o 1 6 1 ；卜室内总表面积，厅一室内表面平均吸声系数。在大多数实际的厅堂中，声源发声后，大约经过1 - 2 秒，声能密度即可接近最大值( 稳态声能密度) 。一个室内吸声量大，容积也大的房间，稳态前某一时间的声能密度，比一个吸声量或容积小的房间声能密度要小。还可以看出，室内总吸声量较大，衰减就越快，室容积越小，衰减越缓慢。一一- 一 i - 塑态埘!l l 菇长过程心 , 多态过程 y ， _ 声源开始声源停止图2 4 室内吸收不同对声音增长和衰减的影响 a 吸收较少；b 一中等吸收；c 吸收较强室内声音的增长、稳态和衰减过程可以用图2 4 形象地表示出来，这一过程为指数曲线。图中实线表示室内表面反射很强的情况。此时，在声源发声后，很快就达到较高的声能密度并进入稳定状态。当声源停止发声，声音将比较慢的衰减下去。虚线与点虚线则表示室内表面的吸声量增加到不同程度时的情况。图2 4 的纵坐标是声能密度( d ) 的直线标度，衰减曲线呈负指数曲线；如果纵坐标以分贝( 扭) 标度，则衰减曲线就呈直线。图2 5 曲线上有细微的起伏曲折是室内声场不完全扩散的结果。 1 1 拇协蛐拍持声能密度华东师范大学硕士学位论文第二章室内语音信号的前期时频处理图2 5 室内声能密度用d b 标度的混响时间曲线 2 1 3 室内噪声分析噪声抑制方法很多，要视不同的情况进行选择。比如：如果知道有用信号的频率分布宽度远小于噪声频谱分布宽度，可以采用频域滤波的方法( 如带通滤波器) ；如果知道信号的表达式，则采用匹配滤波的方法比带通滤波效果更好；如果信号是非平稳的，无法用解析表达式表示，但其状态迁移可以用一个矩阵方程表示，可以采用k a l m a n 滤波；如果噪声的统计参数是时变的，则要采用自适应滤波，动态估计噪声的分布参数等等。自相关和互相关也是抑制噪声的两种经典方法。自相关适用于周期信号中含有相关性很弱的随机噪声的情况。由于周期信号自相关函数也是周期性的，而噪声的自相关函数却随着时延的增大快速衰减，因此，只要时延取得足够大，就能很大程度地抑制噪声；互相关则是适用于能够取得不含噪声的有用信号样本的情形，但它并不局限于周期信号，对非周期信号也适用。比如医生用听筒听胎儿的心音，还有雷达接收机的匹配滤波，实际上都是互相关原理。在室内语音信号处理中，除了要考虑前文叙述的反射声、混响声，还存在各种干扰噪声，要想实现很好的消噪效果，不仅要掌握消噪方法，更重要的是必须对我们所面临的噪声有所了解。在实际中，很多噪声也是非平稳的随机过程。根据能量序列的变化特点，在这里我们将加性噪声分为五类：稳定噪声、缓交噪声、脉冲噪声、波动噪声和阶跃噪声。它们相互独立并且相互叠加，共同组成输入噪声。稳定噪声主要是指能量分布基本不随时间交换的噪声，如：热噪声、机器轰鸣声等等，它们是具有各态历经性的平稳高斯过程：缓变噪声是能量分布随时间华东师范大学硕士学位论文第二章室内语音信号的前期时频处理缓慢变化的噪声，例如风声、驶来的汽车，在一定的短时间内可以近似为稳定噪声；脉冲噪声就是大家平常熟悉的敲击声、咳嗽声等，它们的能量只在短时间内为零；波动噪声是指能量持续升降变化的噪声；阶跃噪声则是能量分布呈梯状的陡变噪声，象键盘敲击声、脚步声等我们可以把上述所有噪声分为平稳和非平稳两部分，其中平稳噪声较好处理，而因为语音信号的非平稳性，使得非平稳噪声很难被分离出来。但是，根据前文提到的浊音的特性，可以通过浊音检测来区分语音信号和非平稳噪声。浊音是由周期性声门脉冲激励声道而产生的，因为基频变换较慢，测特性在窄带语谱图上表现为一系列均匀平行亮线，而噪声一般不具有这种特性，因此在基音和谐波上集中了主要能量的浊音信号在噪声干扰下仍能保持突出特性。下面先分析一下在一般的室内( 如会议室) ，存在的具体噪声及其频谱。图2 6 室内空调噪声信号 1 、稳定噪声在会议室内很可能会有电脑机箱的嗡鸣声、空调声音等，这些噪声一般是一直稳定存在的。前后变化不大。图2 6 是使用心型指向性麦克风在小型会议室内采集到的某品牌空调发出的声音信号。华东师范大学硕士学位论文第二章室内语音信号的前期时频处理图2 7 室内空调噪声信号的频谱由图2 7 可知，该室内空调机的噪声基本上集中在低频部分，由于人的说话声一般不会低于8 0 h z ，因此可以直接用滤波器将它滤除图2 8 咳嗽声及其频谱在会议中经常会出现一些突发性的脉冲噪声，比如人的咳嗽声和掉笔的声响。图2 8 是在小型会议室内录制的女声的咳嗽声，图2 9 为笔掉在地上发出的声响。分析其频谱，发现频率主要为3 0 0 - 玉- - 5 0 0 h z ，单从频域上很难与说话声信号区分，不过可以发现，语音信号较为圆润，而这种脉冲信号变化快，且作用时间短。这时就必须采用时域和频域相结合的方法去分析，如果信号能量时域分 1 4 华东师范大学硕士学位论文第二章室内语音信号的前期时频处理布较集中，可能为冲击性噪声；而如果信号能量的时域分布较平均，频谱又较平，则有可能是白噪声。图2 9 掉笔的声音信号及其频谱 2 2 非平稳信号的时频分析法与短时傅立叶变换( s t f t ) 1 8 0 7 年，法国的热学工程师j b j f o u r i e r 提出了傅立叶信号分析理论，发明了傅立叶变换方法，搭建了从时域分析到频域分析的桥梁，使在时间域内难以观测到的信号特征，可以在频域内十分清楚地显示出来。傅立叶分析理论虽然在信号分析理论的发展的过程中起了重要作用，但随着研究的深入，研究者发现傅立叶变换是一种整体积分变换，得不到信号的时域特征。此外，傅立叶变换是典型的线性变换，并且是一种稳态变换因此傅立叶分析适合分析频率不随时间变化的线性、平稳信号，以及对信号做全局分析；不适合频率随时间交化的非线性、非平稳信号，以及对信号作局部分析。不巧的是，在实际应用中，采集的信号许多都是非稳态、非线性的时变频率信号。为解决这个缺陷，一部分学者把时间和频率进行联合分析，通过研究时问和频率的联合分布，可以达到研究时变频率的目的。按照这一思路，人们取得了大批的研究成果，提出了像短时傅立叶变换、w i n g e r - v i l l e 分布和小波分布等卓有华东师范大学硕士学位论文第二章室内语音信号的前期时额处理成效的信号分析方法，使信号分析理论前进了一大步。 2 2 1 语音信号的短时傅立叶变换在时延估计算法中，一般会假设信号是平稳的，但事实常常并非如此，语音信号以及一部分室内噪声都是非平稳的时变信号。而以往的频谱分析中，任一频率分量, w w o ) 都是对信号善在整个定义区间上的积分，其无法有效地反映信号在窄区间上的突变以及信号在时域的特性。也就是说，根据频谱，可以知道哪些频率在信号中出现，但不知道这些频率在什么时候存在。这样看来，信号的频域分析是不适合于非平稳信号的，信号的时频分析也就成为必然。短时傅立叶变换( s h o r t - t i m ef o u r i e r t r a n s f o r m ，s t f t ) 口1 1 是一种常用的信号时频分析方法。它假设信号在窗函数的一个短时间内是平稳( 伪平稳) 的，移动窗函数，使信号在不同的时间宽度内为不同的伪平稳信号。对于给定的信号x ，其s t f t 定义为： s t f t ( t ，q ) - p o ) 9 0 p y f 。p 扣) g _ o 弦书“咖 ( 2 2 1 ) 工o ) ，g 扣一f 弦闺7 ， g t 丑( f ) - g ( f f ) e m 式中 g ，鼻o ) - g p f k 胁，恬o - 1 ，怙埔扛* 1 并且窗函数g ( f ) 应取对称函数在时域用窗函数g ( r ) 去截工( r ) ，对截下来的局部信号作傅立叶变换，即在t 时刻对该段信号做傅立叶变换。不断的移动t ，也即不断的移动窗函数9 0 ) 的中心位置，就可得到不同时刻的傅立叶变换。这些傅立叶变换的集合就是s t f t 交换。如图2 1 0 所示。这样，透过窗口可以观察到信

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）室内被动声源定位算法的研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）室内被动声源定位算法的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档