（信号与信息处理专业论文）语音去混响研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：67 大小：1.90MB 积分：0 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

（信号与信息处理专业论文）语音去混响研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

四川大学硕士学位论文语音去混响研究语音去混响研究信号与信息处理专业研究生苏先礼指导教师何培字教授摘要在相对封闭的室内空间，使用免提电话、助听器和电话会议等场合，当麦克风和音源距离较远时，过强的混响会使音节之间产生掩蔽效应，导致音质下降，因而去混晌成为语音信号处理的主要任务之一。语音去混响是明晰音频通信技术的重要内容，是语音增强的重要组成部份，同时也作为许多语音信号处理( 如声源定位、语音识别等) 的预处理。语音去混响的技术也广泛地应用在多径传播、建筑声学、海洋声学、地震数据分析，超声波检测、生物医学、振动声学、雷达声纳等许多声学领域。国内的去混响研究主要集中在海洋混响的声纳应用方面，而且大部份是针对短时脉冲或单频信号情况下的混响消除；国外对不平稳的语音信号去混响研究较多，特别是在最近十年形成了研究热点。本论文主要做了六个方面的工作： l 、阐述了混响的产生机理、特征和数学模型，概述了去混晌技术的诸多应用领域，特别是在语音信号处理中广阔的应用前景； 2 、提出了几种去混响方法的设想，用六种方式将国内外已有的3 0 多种去混响方法进行分类； 3 、介绍了两种主观语音去混响效果评测方法、一种常用的时域客观评测方法和三种频域客观评测方法。大量的仿真实验表明：三种频域客观评测方法有时比时域客观评测方法更适于反映主观感受； 4 、论述了复倒谱的定义、性质和计算方法，在单通道和较强混响条件下， i 拜援太学硬士掌藏论文器毒老覆睫礴览对单频衰减信号的复例谱滤波去混镌、语音信号基于复倒谱滤波浯蠹去混嗨方法年n 基于复例谱均值藏语音去混晌方法分剐进行了仿真说明： 5 、介绍了在多遴道和较强混响条件下的波束形成疆音去漫嚷方法秘时鲻延迟估计的方法，详细院明了倒谱时惩估计法，提出了一种利用估计的时延计算各路麦克风的加权缎，以加强波束搬向性的延时加权求和波寐形成方法，劳将倒谱时延估计法应粥到涉及波束形成的四种语音去混响方法中； 6 、叙述丁基于分解相位的语音去混响方法，提出了两种改进型的语音去涩晌方法：使混晌信号最小稽伍亿的捂数加窗法和和用离散余弦变换去混响的方法讨论了影响两种改进型方法去滟响性能的因素。通过丈鬣的仿真实验，艨用西种客理音簇评价指标帮两种主观警质评价指标比较上面提到的六种语音去混响方法结粱表明提出的酲种改进方法的去混确毪能都有麓显酶改善，且计算量均仅为霖方法的一半。芙毽词：渡束形成；跨诞估计；复倒谱；语音信号处理；指数窗；离散余弦变换；去混响；性能评测 i i 四j h 大掌_ 回jt 学位论文语音去涅响研究 t h er e s e a r c ho ns p e e c hd e r e v e r b e r a t i o n s i g n a la n di n f o r m a t i o np r o c e s s i n g p o s t g r a d u a t e ：s u x i a n - l is u p e r v i s o r ：h e p e i - y u a b s t r a c t w h e na m i c r o p h o n ei sp l a c 埘t o of a rf r o mas p e a k e r , f o re x 锄p l e ，i nh a n d s 一如e t e l e p h o n e ，h e a r i n ga i da n dt e l e - c o n f e r e n c i n gs y s t e m s ，p e o p l e o f f a ls u f f e rf r o m r e v e r b e r a t i o ni n d o o r s t r o n gr e v e r b e r a t i o nm a k e sp i n c h e so fs p e e c ho v e r l a pe a c h o t h e r , a n df u r t h e r m o r er e s u l t si nd e g r a d a t i o ni ns p e e c h s o ，d e r e v e r b e r a t i o nb e c o m e s o n eo f t h em a i nt a s k si ns p e e c hs i g n a lp r o c e s s i n g s p e e c hd e r e v e r b e r a t i o n ( s d r li s a ni m p o r t a n tp a r ti nt r a n s p a r e n ta c o u s t i c c o m m u n i c a t i o n ( t a c ) ，w h i c hi sa l s oak e yt e c h n o l o g yf o rs p e e c he n h a n c e m e n t s i m u l t a n e o u s l y ，i tp r o v i d e sp r e p r o c e s s i n gf o rm a n ys p e e c hs i g n a lp r o c e s s i n gs u c h a ss p e e c hs o t t r c el o c a l i z a t i o na n ds p e e c hr e c o g n i t i o n s d rt e c h n o l o g yi sa l s ow i d e l yu s e di nm a n ya c o u s t i cf i e l d ss u c ha sm u l t i p a t h p r o p a g a t i o n , a r c h i t e c t u r ea c o u s t i c s ，o e e a ba c o u s t i c s ，s e i s m i cd a t aa n a l y s i s ，u l t r a s o n i c m e a s u r e , b i o m e d i c i n e , v i b r a t i o na c o u s t i c s ，r a d a ra n ds o n a r t h er e s e a r c ho nd e r e v e r b e r a t i o ni nc h i i l am a i n l yf o c u s e so n o c e a n r e v e r b e r a t i o n , w h a 孳t h es o l l r c e su s e da ”o f t e ns h o r t t i m eh u p u l s e so rs i n g l et o n e s w h i l ei nf o r e i g nc o u n t r i e s ，m o r er e s e a r c hi so nn o n - s t a t i o n a r ys p e e c hs i g n a l d e r e v e r b e r a t i o n , w h i c hb e c o m e sah o tf i e l di nt h el a s tt e ny e a r s t h i st h e s i si sa r r a n g e da sf o l l o w s ： 1 t h ep r i n c i p l eo fr e v e r b e r a t i o na n di t sc h a r a c t e r i s t i c sa n dm a t h e m a t i cm o d e l a r ef i r s ti n 廿o d u c e d al o to fd e r c v e r b e r a t i v ea p p l i c a t i o n s ，e s p e c i a l l yi n c l u d i n g s p e e c hs i 伊1 a lp r o c e s s i n g ，a r es u m m a r i z e d i l l 靼川大学额卡学垃论文语音盎茬确研究 2 s e v e r a lp o s s i b l ed e r e v e r b e r a t i v em e t h o d sa r ep r o p o s e d ，f u r t h e r m o r e , a b o u t 3 0e x i s t i n gd e m v e r b e r a t i v em e t h o d sa l ed i v i d e di n t os i xc l a s s e s 3 t w os u b j e c t i v ee v a l u a t i o nm e t h o d sf o rs p e e c hq u a l i t y 勰d e s c r i b e d , o h e o b j e c t i v em e t h o di nt i m ed o m a i ni nc o m m o nu s ea n dt h r e eo b j e c t i v eo n e si n f r e q u e n c yd o m a i na r ed e s c r i b e dt o o , al o to fs i m u l a t i o nr e s u l t si n d i c a t et h a tt h r e e o b j e c t i v eo n e si n 丘e q u e n c yd o m a i na r em o r ef i t t e rf o rs u b j e c t i v es e r g et h a nt h e o b j e c t i v em e t h o di nt i m ed o m a i n 4 t h ed e f i a l f i o na n dp r o p e r t i e so fc o m p l e xc e p s t r u r na n di t sc o m p u t a t i o n m e t h o da r ed i s c u s s e d i nt h es i n g l ec h a n n e l ，t h ec o m p l e xc e p s 甘u mf i l t e r i n g ( c f ) m e t h o di su s e df o rd c r e v e r b e 矗o ni ns i n g l ea t t e n u a t i o nt o n e c fm e t h o da n dc o m p l e x c e p s t r u mm e a ns u b t r a c t ( c m s ) m e t h o da r ca p p l i e dr e s p e c t i v e l y t o s p e e c h d e r e v e r b e r a t i o nw i t i ls t r o n gr e v e r b e r a t i o ne n v i r o n m e n t 5 t h eb e a m f o r m i n g ( b f ) d e r e v e r b e m t i o nm e t h o di sd e s c r i b e & t i m ed e l a y e s t i m a t i o nb a s e do nc e p s t r u mw i t hs t r o n gr e v e r b e r a t i o ne n v i m m n e n ti se x p l a i n e d a m e t h o df o re n h a n c i n gb e a md i r e c t i o ni sp m v i d e di nw h i c ht h ew e i g h tv a l u eo f e a c h m i c r o p h o n ei so b t a i n e df r o mt h et i m ed e l a yv a l u e 6 n es d rm e t h o db a s e d0 1 1t h em i n l m u n l p h a s ea n da l l - p a s sc o m p o n e n t s ( m a ) i sd e s c r i b e d t w on e ws d rm e t h o d sa f ep r o p o s e dr e s p e c t i v e l y ，i 飞ef i r s to n e m a k e ss p e e c hs i g n a l sb e c o m em i n i m u m - p h a s eb yi n t r o d u c i n g 缸e x p o n e n t i a l w i n d o w 辑w ) t h es e c o n do d eu s e sd i s c r e t ec o s i n et r a n s f o r mf d c d 。s o m ef a c t o r s a f f e c t i n gt h ep e r f o m l a o c 露o f d e r e v e r b e m t i o no f t h et w ou e w m e t h o d sa r ed i s c u s s e d f o u ro b j e c t i v ea n dt w os u b j e c t i v ee v a l u a t i o nm e t h o d sf o rs p e e c hq 猢i 匆a r e u s e dt oc o m p a r et h ep e r f o r m a n c e so fs i xs d rm e t h o d sm e n t i o n e da b o v e t h e s i m u l a t i o nr e s u r si n d i c a t et h a tt h ep e r f o r m a n c e so f t w on e wm e t h o d sa l es u p e r i o rt o t h o s eo fo t h e rm e t h o d s ，a n dt h e i rc o m p u t a t i o n a lc o m p l e x i t i e sa l er e d u c e dt oo n l y a b o u tt h eh a l f o f m a s k e yw o r d s ：b e a m f o r m i n g ；t i m ed e l a ye s t i m a t i o n ；c o m p l e xc e p s t r u m ；s p e e c h s i g n a lp r o c e s s i n g ；e x p o n e n t i a lw i n d o w ；d i s c r e t ec o s i n et r a n s f o r m ；d e r e v e r b e r a t i o n ； p e r f o r m a n c ee v a l u a t i o n j v 四川大学硕士学位论文语音去混响研究 1 绪论 1 1 语音去混响的应用背景在相对封闭的室内空间，当麦克风( m i c r o p h o n e ) ，以下均简称m i c ，与音源的距离较远( d i s t a n t - t a l k e r ) 的场合，如使用免提电话( h a n d s - f r e e t e l e p h o n e s ) 、助听器( t h eh e a r i n ga i d ) 、电话会议( t e l e c o n f e r e n c i n g s y s t e m s ) ，或者在录制声音、以及要美化处理有些带有混响的声音信号时，混晌的存在使声音混淆不清、难于分辩，导致音质下降。室内的体育比赛、文艺汇演、歌唱比赛、召开会议或者音乐厅、酒巴等，混响的存在也是不容忽视的。在自动语音识别( a s r ，a u t o m a t i cs p e e c hr e c o g n i t i o n ) 系统中，混晌问题严重影响了语音识别的正确率。例如连续数字识别系统中，当用纯净语音训练时，误识率为7 8 ，但用混响语音的误识率却达到6 4 1 。同时语音去混响也是语音增强的一个重要方面。因此很有必要进行语音去混响。 “去混响”( d e r e v e r b e r a t i o n ，有时也称为r e v e r b e r a t i o nc a n c e l l i n g ) ，就是要消除混响的影响。何培宇等在文献 2 指出：音频去混响( a d r ，a u d i o d e r e v e r b e r a t i o n ) 是明晰的音频通信技术( t a c ，t r a n s p a r e n ta u d i o c o m m u n i c a t i o n ) 中的重要内容；是语音增强的重要组成部份；同时也为许多语音信号处理( 如声源定位、语音识别等) 提供预处理( p r e p r o c e s s i n g ) 。文献 1 中称为声学去混响( a r c ，a c o u s t i cr e v e r b e r a t i o nc a n c e l l a t i o n ) 。而严格地说：本文研究的的内容主要是针对语音的语音去混响( s d r ，s p e e c h d e r e v e r b e r a t i o n ) 。随着人们对世界范围即时语音通信需求的增加，对语音质量，如保真度 ( f i d e l i t y ) 和可懂度( i n t e l l i g i b i l i t y ) 的要求也越来越高，人们都希望语音通信能够提供“c d 音质”( c o m p a c td i s cq u a l i t y ) ，因而去混响成为语音信号处理的主要任务之一。因此需要使用语音去混晌技术。国内的去混响研究主要集中在声纳应用于海底混响的场合，而且大部份是针对短时脉冲或单频音源情况下混响的消除。国外对不平稳的语音信号去混响研究较多，特别是上世纪九十年代和本世纪初形成了研究热点。四川大学硕十学位论文语音去混响研究 1 2 去混响技术的应用前景语音去混响技术越来越受重视，它可广泛应用在许多声学领域。甚至可以说凡是有波( 不管是声波还是非声波) 存在的地方就有混响现象存在，也就有可能需要用去混晌的方法进行信号的提纯。因此去混响有很广阔的应用前景，并逐渐成为科研工作的研究热点。下面列举几个典型应用的例子：多径传播( m u l t i p a t hp r o p a g a t i o n ) ，无论是短波电离层反射信道、对流层散射信道，还是水声信道，都存在多径传播问题。它会产生多径衰落现象，其主波与反射回波叠加构成的一个复杂的混响波。需要去混响技术滤除干扰，减小输出信号均方误差，改善传输信号质量，提高数据传输性能。建筑声学，混响时间是建筑声学设计中一个重要指标0 1 ，混响时间也是评价体育馆音质效果的重要参量。体育馆不同的使用功能适用的混响时间不同。海洋声学，混响是水声学中的基本物理现象之一“1 ，海洋混响是海底、海面的不平整性和海水中随机分布的不均匀性散射造成的，是主动式声呐或鱼雷声制导系统主要背景干扰之一，特别在浅海的情况下，干扰尤其严重。由于海洋混响信号的特殊性，去混响一直是一个“永恒”的难题。地震数据分析( s e i s m i cd a t a a n a l y s i s ) ，有效地消除多次波等相关噪声是地震勘探资料处理中由来己久，但一直没有很好解决的问题8 1 。其中，如何有效地消除产生于地层间的多次反射波又是地震资料叠前去噪的核心问题。生物医学数据分析、成像技术( b i o m e d i c a ld a t aa n a l y s i s ) ，人体脉搏信号可看成是由心脏激励源信号与脉搏系统冲激响应的卷积，提取脉搏源特征与脉搏系统的传播特性是一个“盲去混响”问题。此外在x 射线、c t 断层摄影术等生物医学领域的应用中也要用到去混响。振动声学、机械故障诊断，在机械设备状态监测和故障诊断中，利用激励源信号的敏感特征点拾取的二次信号( 如振动信号) 来判别机器的状态”1 ，实现在发动机、柴油机等混晌系统的激励源波形和故障信息的直接测取”1 。雷达通信，由它的工作方式，决定了接收的信号中包含有大量的混响背景干扰信号”。因此雷达主要解决的问题就是去混响的问题。声呐通信，在海洋信道中，对于主动式声呐或鱼雷声制导系统、实现混响干扰背景中动目标的检测等水声通信领域的应用，都要应用到去混响技术“”。 2 四川大学硕士学位论文语音去混响研究归纳去混响技术的应用领域如下：、地球科学：海洋声学、水温探测、地质勘测、大气物理；、工程科学：信号处理、图像处理、多径效应、振动声学、超声探伤、机械故障诊断、地震数据分析、噪声控制、雷达制导，声纳探测；、生命科学：超声检测、生物医学；、艺术科学：建筑声学、声效合成。以上应用领域有各自的应用特点，但方法都是相通的，可以互相借鉴。 1 3 论文的内容和结构本论文分为七章：第一章是绪论，简述了语音去混晌的应用背景和去混响技术的应用前景；第二章是介绍混响的产生机理、特征、混响时间和数学模型，从语音通信过程中“信源”、“信道”、“采信”和“信号处理”四个阶段分别着眼于“回避混响”和“减弱混响”两个方向考虑去混响，提出了几种去混响方法的设想，用六种方式将国内外已有的3 0 多种去混响方法进行分类；第三章介绍了两种主观评测方法( 去混响度和自然度) 、一种常用的时域客观评测方法( 信混噪比改善) 和三种频域客观评测方法( 线性预测倒谱系数距离改善、h e l 频率倒谱系数距离改善和它们的组合距离改善) 。大量的仿真表明：三种频域客观评测方法有时比时域客观评测方法更适于反映主观感受；第四章论述了复倒谱的定义、性质和计算方法，通过单频衰减信号的复倒谱滤波去混响仿真说明了复倒谱的重要性质：分别在单通道的混响条件下对语音信号基于复倒谱滤波( c f ) 和基于复倒谱均值减语音去混响方法( c m s ) 进行了两种仿真实验且进行性能评测。第五章介绍了基于波束形成的多通道去噪和去混响方法，针对较强混响条件下波束形成中时间延迟估计这个基本问题，重点阐述了倒谱时延估计法，仿真实验肯定了其性能，提出了一种利用估计的时延计算各路麦克风的加权值，以加强波束指向性的延时加权求和波束形成方法。并将倒谱时延估计法应用到基于波束形成的语音去混响方法( b f ) 中，同时进行了仿真实验。第六章详细说明了基于分解相位去混响方法( 姒) 的原理、步骤、流程；提出了指数加窗语音去混响方法( e w ) 和离散余弦变换语音去混响方法( d c t ) 3 四川大学硕士学位论文语音去混响研究这两种改进型方法，三种方法都进行了仿真，仿真结果表明改进方法的去混响性能有明显的改善，且提出的两种改进方法均使计算量减少了约一半；最后还通过仿真实验详细讨论了指数加窗语音去混响方法中三个参数( 指数窗的底数、复倒频域的低通滤波器的最高截止点、麦克风位置) 对其去混响方法性能的影响和离散余弦变换语音去混响方法中加不同窗对其性能的影响。第七章综合比较了文中六种去混响方法的仿真性能，对本论文进行了总结，并展望了去混响的发展方向，提出以后要做的工作。本论文的仿真实验有：单频衰减信号的复倒谱滤波去混响；基于复倒谱滤波的语音去混响方法；复倒谱均值减语音去混响方法；倒谱时延估计；基于波束形成的语音去混响方法；基于分解相位的语音去混响方法；指数加窗语音去混响方法及三个参数对其去混响方法性能的影响；离散余弦变换语音去混响方法及加不同窗对其性能改善的影响。几种语音去混响方法仿真都是在较强混响条件下进行，各个仿真均给出了对应去混响方法中原始的纯净语音信号和混响语音信号处理前后的时域波形对照图和对应的语谱图，以及应用两种主观音质评价指标和四种客观音质评价指标评测的结果。本论文的创新点有五个方面：、从语音通信过程中“信源”、“信道”、“采信”和“信号处理”四个阶段分别着眼于“回避混响”和“减弱混响”两个方向考虑去混响，提出了几种去混响方法的设想，用六种方式将国内外已有的3 0 多种去混响方法进行分类；、除了常用的去混响度、自然度和信混噪比改善外，使用了三种频域客观评测方法( 线性预测倒谱系数距离改善、m e l 频率倒谱系数距离改善和它们的组合距离改善) ，对语音去混响仿真效果进行评测。大量的仿真实验表明；三种频域客观评测方法有时比时域客观评测方法更适于反映主观感受；、提出了一种利用估计的时延计算各路麦克风的加权值，以加强波束指向性的延时加权求和波束形成方法：、将倒谱时延估计法应用到涉及波束形成的四种去混响方法中；、提出了指数加窗最小相位化混响信号和利用离散余弦变换去混响的两种改进方法，简化了去混响步骤，形成的改进方法使计算量减少约一半。应用上述六种方法进行性能评测，结果表明改进的两种去混响方法性能有明显改善。 4 四川大学碗t 学位论文语音去混响研究 2 混晌和去混晌的方法 2 1 混响 “余音绕梁，三日不绝”为人们描绘了美妙的音乐萦绕于耳际，长久都不会散去的绝美境界。其实“余音”就是指“混响”( r e v e r b e r a t i o n ) 。上推至战国时期，我们的先人就知道厅堂中的混响现象。梁代( 约纪元5 5 0 年) 的“千字文”内：“空谷传声、虚堂习听”一句，表明古代国人已将空旷深谷的回声和高堂大厦的混响看作是一回事嗍。 2 1 1 混响的产生引起混响的主要原因之一就在于室内各反射面( 墙壁、天花扳、地面) 等硬质界面对于可闻声波波段存在反射，并且这种反射界面以及传播路径的吸收衰减都比较小，反射信号和原声信号相比幅度仍然很大，波形相似，相位不同。前期声音产生的各反射波面及其多次反射波面和后续原声信号在各空间点叠加，因此造成对后续声音信号的“污染”。在相对闭合的空间，声音信号的传播过程中由于反射等原因，到达接收点的声音信号除了直达声音信号外还存在着许多其它路径传来的回响声音信号。这种过程与现象称为混响，即交混回响之意。这一系列的非直达信号之和构成了混响信号( 如图2 - 1 所示) 。图2 - 1 混响的产生图2 2 一个真实房间的冲激响应房间冲激响应( r i r ，r o o mi m p u l s er e s p o n s e ，有的文献也称之为房间传四川i 大学硕七学位论文语音去混响研究输函数r t f ：r o o mt r a n s f e rf u n c t i o n 或者声学传输函数a t f ：a c o u s t i c a l t r a n s f e rf u n c t i o n ) 体现了混响。文献 1 1 利用t i 公司开发的e 板 ( t $ 3 2 0 c 6 7 0 1 芯片) 在一个真实房间里进行实时的r i r 测试，此处截取其中一幅，如图2 - 2 所示。由图可见，脉冲响应信号的前段，能量较大，体现为许多脉冲( 这里的一个脉冲代表一个反射信号) 较为稀疏；随着时间的延迟，响应幅度按指数规律衰减，脉冲却越来越密终至不可分辨。图中延迟最小、幅度最大的一根线条表示的是“直达声” ( d i r e c ts o u n d ) ，其传播路径较短，所以能量损失少，幅度很强：箭头所指的几根幅度明显较大的线条是声音信号在距离接收者最近的物体上反射而得来的，叫做“早期反射声”或者称为“前期反射声” l c 世奄一疆5 母 t ( e a r l yr e f l e c t i o n s ) ，是由一次或几次反射的声波所组成，此时声 1 波能量由于声波被物体表面吸收有所减少；之后的一段密集的线条是罢由于声音信号经过周围物体的多次疆反射后叠加造成的结果，叫做“后期反射声”( l a t er e f l e c t i o n s ) ，又叫做“后期混响”( l a t e r e v e r b e r a t i o n ) ，是由声波经过了多次反射叠加在一起形成的，声波能量呈指数递减“”。含 2 1 2 混响的影响混响的多少给人的心理感觉不同。室内适当的混响能使语音或者音乐的声音明朗响亮，节奏清楚，层次明显，声音丰富、温暖而亲切，奄一曩日 6 ( 8 ) 投育混响的露天：t 删秒 io 时同【秒) 图2 - 3 不同混响下的掩蔽效应四川大学硕士学位论文语音去混响研究音色优美动听，有烘托作用0 1 ，可以明显的改善声音质量，改变音乐的音色和风格。混响时间太短时，在屋子里讲话就好像在旷野里讲话一样，听起来显得低弱无力，声音干涩、沉闷、枯燥、生硬，听不清楚。尤其是欣赏音乐时感到音乐的声音枯躁乏味，干涩，不丰满，失去了声音的色泽。但混响时间很长时，语音感觉混浊，音节之间产生掩蔽效应( m a s k i n g ) ，这就是一般说的屋子里“发嗡”，影响人的理解能力。例如，在没有混响声的野外，连发四个音节给听者的印象可用图2 - 3 ( a ) 中的图案来表示。如果在混响时间较长的室内发出同样的四个音节，如图2 - 3 ( b ) 所示，前一个音节在室内尚未衰减到听不出时，后面的几个音节己紧跟而来，于是前一个音节的“混响声”就要掩蔽后几个音节。混响时间越长，掩蔽越大；发音速度越快( 即各音节之间的时间间隔越小) 掩蔽越严重。对第三个较弱的音节来说，则几乎完全被第一和第二个音节的混响所掩蔽。第四个音节由于时间间隔长，受前面三个音节的混响掩蔽作用才大幅度下降。如果把室内的混响时间缩短，掩蔽效果就有了改善，如图2 - 3 ( c ) 所示。曾有人用实验得出混响时间与语言清晰度的关系，混响时间越短，语言清晰度越高。 2 1 3 混晌时间 “混响时间”( r e v e r b e r a t i o nt i m e ) ，家赛宾( w c s a b i n e ) 基于统计声学原理，也称“持续时间”1 9 0 0 年，声学通过研究后提出了混响时间瓦。，并定义为：当声源停止发声后，残余的声能在室内往复反射，经吸收衰减，其声能密度下降为原来值的百万分之一所需要的时间。如公式2 1 所示“。 * 了k v = 芸 ( 2 - 。) v 为室内容积，s 为室内表面的总面积，历为室内所有表面材料的平均吸声系数；k 为和室内空气温度有关的常量。混响时间很容易求解，并且混响时间测量和房间位置无关，而l 。表征着周边环境的空旷程度，它透露了室内体积、吸声系数这两个特定房间内的特征参数的情况。 2 1 4 混晌的特征由混响的产生可知：混响信号是声源信号经反射后的一种变体，是一种有 7 四川大学硕卜学位论文语音去混响研究规律可循的干扰，本质上不同于随机于扰，其频谱除相位和幅值外，同原声信号有很大的关系，因此混响信号与声源信号是强相关的。混响大小与声波在空气中传播衰减率4 m ( d b k m ) 和墙面吸收率厅有关。4 m 常态下为0 2 1 0 0 d b k m ，它与声源频率的平方( f 2 ) 成正比，与空气温度r 和湿度r h 成反比，即：4 脚厂2 ( n g ) ；墙面吸收率口与墙面的材质、厚度、形状及声源的频率有关( 普通建筑材质为1 3 ) ，材料的孔隙和窄缝对厉的贡献比较大埘。混响具有以下四个特征：、源信号经反射和传播后的混响信号会产生频率和相位的偏离，声源信号中的低频分量较高频分量更易受到混响的污染。原因是墙壁、地面等反射体对低频分量的吸收系数相对较小，空气中传播衰减系数也要小一些，导致反射信号( 含多次反射) 中低频分量仍然很强。、混响随发射信号强度的增大而增大，其谱结构与发射信号具有一定的相似性，常被视为是一种非平稳的有色干扰噪声。但由于人的口腔肌肉运动相对于语音频率来说是非常缓慢的，一般认为在l o 3 0 m s 的短时间内，混响的特性基本保持不变，即可看成是准稳态过程( 短时平稳性) ；、由于声波的波长与房间的尺寸是同数量级或短一些，声波一经声源发出将往返反射于各墙壁之间多次而形成驻波，因而声强在有些远点处会比近声源处还高，而不是自由空间中声强与距离平方成反比；、刘海波用统计的观点对混响信号进行了特征分析，得出混响信号时频域的三个特征“”：混响信号瞬时值服从高斯分布，而包络服从瑞利分布；混响包络的时间相关半径与发射信号的带宽成反比；混响信号和发射信号的频谱具有一致性。这给消除混响的工作带来了很多麻烦f 2 1 5 混晌的模型混响的数学模型可用式2 - 2 描述。 x 【刀】= 甜【胛】+ 以5 【玎一七】) ( 2 2 ) 其中j m l 是纯净语音( c l e a ns p e e c h ) 源信号，仇是第七( k = o ，l ，2 ，o o ) 次反射后语音信号的延时单元数，s i n 一魄】就是经过第t 次反射后的语音信号，岛是第次反射时的反射系数，u n 】是噪声信号，x t n 】是到达传声器的直 b 四川大学硕士学位论文语音去混响研究达声音信号和所有其它路径传来的回响声音信号之和( 本文简称它为“混响信号”，此前所指的混响信号没有包括直达声在内) 。一为了论述主要的混响机理，先不考虑噪声，因此混响的模型简化为： m 2 】= 溉疗一概】) ( 2 3 ) k - o 式2 - 3 也可以写成如下混响的简易模型的形式：虹船】一s 【门】宰见研刀一】) = 以】木组，2 】 ( 2 4 ) t i o 其中。宰”号表示卷积，研”】表示冲激函数，m 疗】就是房间冲激响应，它等于一系列位置为五仇并分别衰减成倍后的连续冲激函数研玎】之和。混响信号 x n 】等于纯净语音虹疗】与房间冲激响应b i n 】的卷积。由上式可知，混响其实也可以看成是噪声的一种，只是它不是加性噪声，而是卷积噪声。从混响的简易模型可以看到混响语音x n 1 是到达传声器的直达声音信号和所有其它路径传来的回响声音信号之和，在不考虑噪声信号u n 1 时可以表示为纯净语音珂】与房间冲激响应h n 】的卷积。所以去混响就是要从x n 】中去除 h n 】的影响以恢复s n 】，因此去混响核心问题就是求h n 】的逆的过程，其实质是一个解卷积( d e c o n v o l u t i o n ) 的过程。 2 2 去混响方法室内声音的传播涉及许多生理声学、心理声学、音乐声学、语言声学、听觉声学、噪音等多方面综合的因素。混响信号与声源信号相关度较大，采用传统的频率滤波方法无法消除混响。一辨啪图2 - 4 语音通信的各个阶段示意图为了说朗语音去混响的方法，本文根据语音通信过程的几个阶段，绘制了 9 一四川大学硕士学位论文语爵去混响研究语音通信的各个阶段示意图，如图2 4 所示。本文从语音通信过程中“信源”、“信道”、“采信”和“信号处理”四个阶段分别着眼于“回避混响”和“减弱混响”考虑去混响，提出了几种去混响方法的设想，用六种方式将国内外已有的3 0 多种去混响方法进行分类。 2 2 1 从“信源”方面考虑语音去混响信源有即时发声和延时发声两种声源。即时发声声源指即时说话和现场直播等情况；延时发声声源指电话会议等已经采集了声源后再次重放等情况。对于即时发声声源采用其它语音信号采集方式，如用贴片接触式装置采集人体喉节等声道发声时的振动，或用振动、位移、图像等检测装置采集人类在发声时体征的变化，以得到语音信号，从而回避语音采集的声波混晌问题。对于延时发声声源，可以采用反相抵消装置减弱声音的混响。事先已经知道纯净声源，在重放时可以延时播放纯净声源的反相衰减信号，以抵消或减弱声音的混响。如对于电话会议。直接利用远端传来的已知信号在抵消装置上调节延迟混响时间和衰减率并反相输出抵消混响。但这需要对r i r 有先验知识。对于即时发声声源就必需加装自适应装置才能起到反相抵消混响的作用。 2 2 2 从“信道”方面考虑语音去混响声波的频率比较低，波长比较大，相对室内房间的尺寸差别不大，容易产生反射等现象。如果提高载波的频率，如：采用射频、红外等载波或有线传输等其它传输方式，一方面可以减少反射，另一方面波长比较小，相对室内房间的尺寸差别较大，在室内容易被吸收衰减，因而可以回避语音信道的声波混响问题。此外，人类发声时是否在更高频率上也有语音的完整信息? 是否存在可以采集更高频率的m i c 采集设备? 这涉及到基础学科的问题。从“信道”方面减弱声音混响其实就是缩短混响时间。它是一种最常用也是最早的方法，它广泛应用于建筑声学和日常生活中。进行建筑声学设计，采用吸声材料( 通常是橡胶、塑料密闭条、毛毡等) 或带孔隙和窄缝的墙面，设计房间形状为圆柱形、球形或锥形等非矩形形状，吸收室内声能。从而用缩短混响时间的办法来提高语言清晰度。四川大学颂l 学位论文语音去混响研究 2 2 3 从“采信”方面考虑语音去混响采用方向性强的超指向性w i c ，可以回避混响问题。单通道m i c 去混响难度较大，超指向性m i c 采用声干涉原理或抛物面反射原理设计。目前最常用的类型是干涉管式超指向m i c ，也称枪式w i c ，方向性极强“”。可以从三个方面来减弱声音混响。一是减少声源和接收者的距离，接收到的声音中直达声的比重就占得很大；二是采用麦克风阵列( w i c r o p h o n ea r r a y ，以下简称w i c 阵列) 。多通道w i c 可以获得一些参考信号。采用波束形成方法 ( b e a m f o r m i n g ) 的空间阵列处理技术，可调整最大指向到声源。设备简单，针对污染的鲁棒性较强! 但是在采信早期需要大致知道信源方向。三是采用自适应m i c 装置，自动辨识音源方向并将采集到的幅度最大处信号做为直达声音信号，此后反相抵消混响的作用，这需要对r i r 有先验知识。 2 2 4 从“信号处理”方面考虑语音去混响从。信号处理”方面考虑s d r 是现在研究得最多的方面，也是本文研究的主要内容。因为已经得到的是混响语音信号，所以不可能再有回避声音混响的方法，只能减弱声音混响!相关处理的示意图中，图2 - 5 是单w i c 语音去混响的情况，图2 - 6 是多m i c 语音处理去混响的情况。去剞努气毳宁信号处理去混响剞麦舰棚飞图2 - 5 单麦克风语音去混响示意图晶剞笏童誓盘譬- 信号处理去混响司i j ) 以怎囊暑鲁朋飞图2 - b 多麦克风语音去混响示意图 l i 旦坐! 查! 塑主兰堡垒苎一堡童圭堡堕里塑去四川大学硕士学位论文语音去混响研究从“信号处理”方面考虑s d r 的分类方法很多，此处将国内外在“信号处理”方面的一些去混响研究成果，归纳为六大类去混响方式( 如图2 7 所示) ，涉及到3 0 多种去混响方法：本文只是提及了国内外部份语音去混响方法，其中许多种s d r 方法还没有仔细研究，此外，还有许多其它的信号处理方法可以借鉴到s d r 中来，例如移动通信控制衰落的三大技术，即：分集、均衡和信道编码就分别对应上述s d r 方法中的波束形成、均衡和从“信道”的“回避混响”方向考虑s d r 中的更高频率上挖掘语音完整信息的方法。以上的各类去混响方法是相互交织的，可以彼此组合，没有明确的界线。各种去混响方法也可以相互补充，甚至使用数据融合技术提高去混响的质量。正因为混响的复杂性，在上述这些去混响方法中普遍都采用了自适应技术。王永德等译b w i d r o w 的文献 1 6 阐述了自适应信号处理的原理和许多种方法。 2 3 小结本章介绍混响混响的产生机理、特征、混响时间和数学模型，本文了从语音通信过程中“信源”、“信道”、“采信”和“信号处理”四个阶段分别着眼于 “回避混响”和“减弱混响”考虑去混响，提出了几种去混响方法的设想，用六种方式将国内外已有的3 0 多种去混响方法进行分类。四川大学硕士学位论文语音去混响研究 3 语音去混晌性能评测指标及仿真条件判断一个语音去混响系统性能的好坏，主要看去混响的效果如何去混响的效果可以由主观和客观两方面来评价。为了衡量各种方法的去混响性能，参照文献 1 7 ，本文选择了四种客观和两种主观去混响性能评测方法。客观测量方法能够更直观、更准确的表示出去混晌系统的性能。人们可以直接观测去混响语音的时域波形或频域波形，也可给出客观的数值度量。其特点是计算简单，但并不完全反映人对语音质量的感觉。本文所有客观性能改善指标都是值越大说明去混响性能越好。三种频域客观评测都是谱失真测度，它们都只与谱形状有关，而与谱的能量无关，使用除原点外的1 2 阶倒谱系数( 原点的第l 阶倒谱系数是反应频谱能量的，没有计算在

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）语音去混响研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）语音去混响研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档