（信号与信息处理专业论文）语音分离和语音增强方法研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：55 大小：1.33MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

（信号与信息处理专业论文）语音分离和语音增强方法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大连理工大学硕士学位论文摘要现实生活中。语音信号经常会受到噪声和房间混响的干扰，这不仅影响人们的听觉质量，而且对语音处理的其它环节也会产生影响。因此，必须采用信号处理技术对带噪语音信号进行增强处理。实际上，除了语音增强之外，语音分离也可以用来减小噪声和混响的影响。信号盲源分离是一项具有挑战性的研究课题，也是信号处理领域近年来的研究热点之一。目前，对该问题的研究已经取得了很大的进展。但是，还远未达到成熟的地步，其中，对于实际环境下的卷积语音信号分离问题的研究可以说还处于起步阶段。本论文对语音分离和语音增强方法进行了研究，主要内容包括以下三个方面：针对基于独立分量分析的盲源分离算法不能解决瞬时延迟混合模型和欠定情况下的盲源分离问题，本文研究了基于信号稀疏性的时频掩蔽算法和线性取向分离算法。理论分析和仿真实验结果表明。它们都达到了比较理想的分离结果。但是，时频掩蔽算法构造的m a s k 中存在大量零点，为了解决这一问题，本文对其进行了改进，进一步提高了语音信号的质量。研究了带参考信号的盲源分离算法。在盲源分离算法中，人们对源信号多多少少会有一点了解。利用源信号的先验知识分离出感兴趣的信号是带参考信号的盲源分离算法的研究内容。实验结果表明该算法能够比较好地提取出与参考信号在某种意义下相关性最强的原始信号，同时，与传统的独立分量分析方法相比，节省了计算量。基于子带盲源分离和后置处理的语音增强方法。在噪声和混响情况下，研究了基于子带盲源分离和后置处理的语音增强方法。该方法噪声的抑制效果较好，但增强语音有失真。针对这一问题，对其进行了改进，即在语音能量集中的低频子带内用时频掩蔽代替独立分量分析算法，从而减少了语音信号的失真。仿真实验结果表明，与原方法相比，改进方法在信噪比和听音测试上都有提高。关键词：语音增强；时频掩蔹；子带；盲琛分离大连理工大学硕士学位论文 s t u d y o i ls p e e c hs e p a r a t i o na n ds p e e c he n h a n c e m e n tm e t h o d s a b s t r a c t i no u rl i v e s ，s p e e c hs i g n a l sa r eo f t e nd i s t u r b e db yv a r i o u si n t e r f e r e n c e ss u c ha s b a c k g r o u n dn o i s ea n dr o o mr e v e r b e r a t i o n t h ee x i s t i n go fn o i s ea n dr e v e r b e r a t i o nn o to n l y a f f e c t sh u m a nh e a r i n g , b u ta l s oh a si n f l u e n c eo no t h e rs t e p so fs p e e c hs i g n a lp r o c e s s i n g s oi t i si m p o r t a n tt oe n h a n c es p e e c hu s i n gs i g n a lp r o c e s s i n gt e c h n o l o g y i nf a c t ，b e s i d e ss p e e c h e n h a n c e m e n t , s p e e c hs e p a r a t i o nc a l la l s og e tr i do ft h ei n f l u e n c eo fn o i s ea n dr e v e r b e r a t i o n b l i n ds o u r c es e p a r a t i o n ( a s s ) i sac h a l l e n g i n gs u b j e c ta n db e c o m e st ob eap o p u l a rr e s e a r c h & r e ai ns i g n a lp r o c e s s i n gf i e l di nr e c e n ty e a r s i nt h el a s tt w od e c a d e s , an u m b e ro fa l g o r i t h m s a d d r e s s i n gt h ei n s t a n t a n e o u sa s sp r o b l e m sh a v eb e e np r o p o s e da n dg a i n e ds o m er e s u l t s h o w e v e r , c u r r e n tr e s u l t sa r ef a rf r o mi t sm a t u r es o l u t i o n m o r e o v e rn 爆e 砌o nr e a l - w o r l d c o n v o l u t i v es p e e c hs i g n a l sh a sj n s tb e g u n t h i st h e s i sf o c u s e so l lt h em e t h o d so fs p e e c hs e p a r a t i o na n d 郾l c c c he a l u m c e m e n tw h i c 知 nb ed i v i d e di n t ot h r e ep a r t s ： s i g n a ls p a r s i t yb a s e du n d e t e r m i n e db l i n ds o n r e es e p a r a t i o na l g o r i t h m i nt h ec a s eo f a n e c h o i ca n du n d e t e r m i n e dm i x i n gm o d e ，t h ei n d e p e n d e n tc o m p o n e n ta n a l y s i sb a s e db l i n d $ o u r s e p a r a t i o na l g o r i t h m 啪n o ta c h i e v ed e s i r e dp e r f o r m a n c e t os o l v et h i sp r o b l e m , s i g 埘a ts p a r s i t yb a s e dt i m e - 矗e q u e n c ym a s k i n ga l g o r i t h ma n dl i n eo r i e n t a t i o ns e p a r a t i o n t e c h n i q u ei ss t u d i e d t h e o r ya n a l y s i sa n dc o m p u t e rs i m u l a t i o n si n d i c a t et h a tb o t ho ft h e a l g o r i t h m sh a v ea c h i e v e dd e s i r e dp e r f o r m a n c e h o w e v e r , t h e r ei sal a r g en u m b e ro fz e r o si n t h em a s kc o n s t r u c t e db yt i m e - f r e q u e n c ym a s l 【i n ga l g o r i t h m t os o l v et h i sp r o b l e m ，s o m e i m p r o v e m e n th a sb e e nm a d eo ni t a sar e s u l t , t h eq u a l i t yo ft h ee n h a n c e ds p e e c hs i g n a lh a s b e e ni m p r o v e df u r t h e r i n d e p e n d e n tc o m p o n e n ta n a l y s i sw i t hr e f e r e n c e i nt h eb l i n ds o u r c es e p a r a t i o na l g o r i t h m , p e o p l eu s u a l l yk n o ws o m e t h i n ga b o u tt h es o u r c e s u s i n gt h i sap r i o r ii n f o r m a t i o ns oa st o e x t r a c tt h ed e s i r e ds o u r c e ：i st h es u b j e c to ft h ea l g o r i t h m ，i n d e p e n d e n tc o m p o n e n ta n a l y s i s w i t hr e f e r e n c e e x p e r i m e n tr e s u l t si n d i c a t et h a tt h ea l g o r i t h mc a np e r f e c t l ye x t r a c tt h e i n t e r e s t e do r i g i n a ls i g n a lw i t c hh a st h es t r o n g e s tr e l a t i o n s h i pw i t ht h er e f e r e n c es i g n a li ns o m e s e n s e a tt h es a m et i m e , c o m p a r i n gt ot h ec o n v e n t i o n a li n d e p e n d e n tc o m p o n e n ta n a l y s i s a l g o r i t h m ，i th a sl e s sc o m p u t a t i o nc o n s u m i n g s p e e c he n h a n c e m e n tb a s e do nb l i n ds o u r c es e p a r a t i o nw i t hp o s t - p r o c e s s i n gi ns u b b a n d i nt h ec a s eo fn o i s ea n dr e v e r b e r a t i o nc o e x i s t i n g , t h ew h o l ea l g o r i t h mi ss t u d i e d t h em e t h o d h a sa c h i e v e dh i g hp e r f o r m a n c ei nd e p r e s s i n gn o i s ea n dr e v e r b e r a t i o n r e g r e t t a b l y , t h en o i s e l l i 语音分离和语音增强方法研究 w a s d e p r e s s e da tt h ee x p e n s e o fs p e e c hd i s t o r t i o n t os o l v et h i sp r o b l e m , s o m ei m p r o v e m e n t s h a v e b e e nm a d eo ni t t h i si st h a ti n d e p e n d e n tc o m p o n e n ta n a l y s i so p e r a t i o n si nl o w f r e q u e n c ys u b b a n d s a r e r e p l a c e db y t h ee f f i c i e n t t i m e f r e q u e n c ym a s k i n gm e t h o d e x p e n m e n t a lr e s u l t si n d i c a t et h a tah i g h e rp e r f o r m a n c eh a sb e e na c h i e v e dt h r o u g ht h e s e i m p r o v e m e n t s k e yw o r d s ：s p e e c he n h a n c e m e n t ；t i m e f r e q u e n c ym a s k i n g ；s u b b a n d ；b l i n ds o u r c e s e p a r a t i o n l v 独创性说明作者郑重声明：本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名：匹4 斗日期：垒塑乞_ 一l 人连理= 大学硕士研究生学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”，同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版，允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名：刻，f 、空作者签名：测型! 堡导师签名一j 兰仨】塑近年上月卫月大连理工大学硕士学位论文 1绪论语音作为语言的声学表现，是人类交流信息最自然、最有效和最方便的手段之一。然而，人们在获得语音信号的同时，不可避免地会受到环境噪声，房间混响乃至其他说话人的话音干扰。这些干扰最终使接收到的语音信号并非纯净的原始语音信号，而是受噪声污染的语音信号。例如，安装在汽车、街道和机场的公用电话，常受到背景噪声和其他说话人话音的干扰，严重影响通话质量。而且环境噪声和混响的污染使得许多语音处理系统性能急剧恶化。例如，语音识别已取得了重大进展，正在步入实用化阶段。但目前的语音识别系统大都是在安静的环境下工作的，在噪声环境尤其是强噪声环境和混响环境中，语音识别系统的性能将大幅度下降。语音编码，特剔是低速率语音编码，也遇到类似的问题，由于语音生成模型是低速率编码的基础，当模型参数的提取受到混杂在语音中背景噪声和混响严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在实际需要的推动下，各种语音增强方法应运丽生。所谓语音增强就是从带嗓语音信号中尽可能提取纯净的语音信号或消除混响的影响，从而改善语音质量，提高语音的可懂度。实际上，除了语音增强以外，盲分离技术也可以用来减小噪声和混响的影响。只不过它与语音增强的立足点和考虑问题的方式不同而已。当考虑从带噪语音信号中提取纯净的语音信号时，是在考虑语音增强；可是当考虑的是从多路混合信号中分离各个原信号或某个特定信号时，就是在考虑语音分离了 1 1 语音增强研究概述由于各种语音处理系统在噪声或混响的情况下的性能得不到保证，导致这些处理系统的商业化脚步较缓慢。因此，从带噪语音中尽可能去除噪声和消除混响就成了目前信号处理领域的一个热门课题【1 l 。随着语音增强研究的深入，人们越来越认识到：由于噪声通常都是随机的，因而要想从带噪语音信号中提取出完全纯净的原始语音几乎是不可能的。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪声，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音的可懂度，这是一种客观度量。这两个目的往往是不能兼得的。有时候，人们为了尽可能的降低背景噪声、改进语音质量，可能不得不以降低语音的可懂度为代价，有时候又不得不反其道而行之。这两者中牺牲哪一个，主要取决于算法的目的。比如，为了进行语音识别，最重要的是语音的特征参数，那么就要尽可能提高语音的客观度量。相反，如果语音增强的目的是为了使人们昕起来更舒语音分离和语音增强方法研究适，那么就要重点考虑语音的主观度量。由此可见，语音增强是一项复杂的技术，它不仅仅是个数字信号处理技术方面的问题，而且还涉及人的听觉感知和语音学。由于噪声的多样性，应用场合不同，特性也各不同，这也增加了语音增强的复杂度。因此，要想一劳永逸地设计出个算法是不可能的，只能是针对不同的噪声情况，采取不同的语音增强算法。在国际上，进入九十年代以来，基于麦克风阵列的语音增强算法继承了天线阵列的有关算法，同时也吸收了一些单麦克风语音增强方法，取得了较好的增强效果，成为一个新的热点。经过二十多年的研究，这部分理论已经相对成熟，其基本算法包括： ( 1 ) 波束形成算法。1 9 7 2 年，f r o s t 提出了线性约束自适应波束形成方法【2 l ， g r i f f i t h s 和j i m 在其基础上提出了广义旁瓣抵消( g e n e r a l i z e ds i d e l o b ec a n c e l 。g s c ) 算法 i 例。成为波束形成的经典算法。此后，不少学者在此基础上提出了各种改进方法。如 h o s h u y a m a 等人1 3 对g s c 算法中的阻塞矩阵进行改进，使得泄露到噪声参考信号中的语音信号最小，达到进一步改善语音质量的目的。对于混响情况下，g a n n o t 等人【4 】提出基于传递函数的广义旁瓣抵消器( t r a n s f e rf u n c t i o ng e n e r a ls i d e l o b ec a n c e l 。t f - g s c ) 算法，通过对传递函数进行估计，构造了新的阻塞矩阵，同时把g s c 算法推广到频域。 ( 2 ) 基于麦克风阵列的谱相减法。谱相减法是语音增强的经典算法。与传统的基于单麦克风谱相减法不同，c h o 等人1 5 1 提出了基于麦克风阵列的谱相减法，取得了比较好的语音增强效果。由于谱相减法不可避免地带来音乐噪声，且音乐噪声难以消除，因此，该方法还有待于进一步改善。 ( 3 ) 基于子带的语音增强算法。对于同时存在混响和噪声的情况下，s i o wy o n g l o w 等人州1 提出了基于子带的语音增强算法，在子带中去除噪声和消除混响，得到了较好的语音增强效果，但语音信号有失真。另外，人们也在尝试将人工智能和神经网络等理论用于语音增强，但是目前尚未取得实质性进展。 1 2 盲分离技术研究概述在信号处理领域，经常遇到这样的问题，需要从一组由未知随机信号混合得到的观测信号中分离出原始信号，如果分离过程不需要关于原始信号和混合模型的任何先验知识，这个过程就称为。盲分离。 6 - 3 5 t 。盲分离技术是近年来信号处理中新涌现出来的热点问题之一，具有非常广泛的应用前景。从多路语音混合信号中分离出各路原信号仅是其中一个方面，除此之外，它还有大连理工大学硕士学位论文更广阔的应用，例如，在l f 缶床应用中，从置于皮肤表层的探头接收的信号中分析出肌动电流图的神经信号；在背景噪声存在时用于分离出纯净的源语音信号等等。近十几年来在国内外发表了很多关于信号盲分离技术的文章。从混合方式上这些文章大致可以分为四类：( 1 ) 瞬时混合信号的盲分离i 跗1 l ；( 2 ) 延时混合信号的盲分离1 1 2 - 1 5 | ； ( 3 ) 卷积混合信号的盲分离【摇1 9 l ；( 4 ) 非线性混合的盲分离。从观测信号的数目和源信号的数目上又可以分为：( 1 ) 观测信号的数目等于源信号的数目；( 2 ) 观测信号的数目小于源信号的数目( 欠定盲源分离) ；( 3 ) 观测信号的数目大于源信号的数目( 超定盲源分离) 。从盲分离算法上可以分为：( 1 ) 基于独立分量分析的盲分离算法；( 2 ) 基于信号稀疏性的盲分离算法。其中对瞬时混合且观测信号的数目等于源信号的数目情况研究的比较深入，发展的也比较完善；目前，对于卷积混合情况下的盲分离问题还没有实质性的进展a 所有的盲源分离算法对原始信号和混合模型都有特定的假设条件，这与实际的应用中信号特点和信道特征是有区别的，从而影响了算法的实用性。因此，需要发展对模型的限制条件尽可能宽松的新算法，同时，解决源信号数目多于观测信号数目的算法以及带参考信号的盲源分离算法也是目前盲分离问题研究的主要课题 1 3 本文的主要工作及章节安排本文主要研究基于信号稀疏性的欠定盲源分离算法、带参考信号的盲源分离算法以及子带和时频掩蔽相结合的语音增强算法。在回顾和总结前人工作的基础上，结合实际情况给出了改进的方法，仿真实验表明了这些方法的有效性本论文的章节安排如下：第1 章主要介绍了课题有关的背景知识、研究历史以及发展现状。第2 章简单介绍了后续章节所用到的基础知识和基本原理。包括噪声和嗓声场一些特性、麦克风阵列模型及语音增强效果评价方法等。第3 章主要分析和研究了基于信号稀疏性的语音分离方法。研究了时频掩蔽算法和线性取向分离算法，结合实际情况，对时频掩蔽算法进行了改进，并给出了合理的解释。第4 章结合独立分量分析的方法，研究了带参考信号的盲源分离算法( i n d e p e n d e n t c o m p o n e n ta n a l y s i sw i t hr e f e r e n c e i c a r ) ，并对该方法的性能进行了分析。第5 章研究了基于子带的语音增强算法，针对语音信号的能量主要集中在低频带的实际情况，给出了一种改进方法。在对实验结果进行客观评价的同时，对增强后的语音信号也进行了主观评价，表明了该方法的有效性。语音分离和语音增强方法研究 2 语音信号处理的基本知识语音信号是携带信息的语音声波。语音声波如果经过声电转换就得到语音的电信号。在研究语音分离和语音增强算法之前，首先应该了解语音信号的一些基本特性，阵列信号模型，噪声和噪声场，语音的分析技术以及语音增强和语音分离效果评价方法本章介绍语音信号处理的基本知识。 2 1 语音信号的主要特性语音是由一连串的音组成的，这些音以及它们之间的相互过渡就是代表信息的符号。这些音的排列是由语音的规则和发声器官决定的。语音具有以下主要特性【1 l ： ( 1 ) 语音信号的频谱分量比较集中通过对语音信号发声过程的研究以及观察记录的语音波形，可以发现语音信号的频谱分量主要集中在3 0 0 - 3 4 0 0 i - i z 的范围内。这是因为人类声道的变化不可能太快。这一点给语音的研究和计算带来了很大的便利。进行研究时，只需把注意力集中在这一区域即可。 ( 2 ) 语音是一个时变的、非平稳的随机过程人类发声系统生理结构的变化速度是有一定限度的。在一段短时问内( 5 5 0 0 m s ) 人的声带和声道形状具有相对稳定性，可近似认为其特征不变，因而语音的短时谱也有相对的稳定性，短时谱的这种稳定性是很多语音处理算法和技术的基础。 ( 3 ) 语音大体上可以分为清音和浊音两大类一般而言，人类的语音信号往往在短时段表现出周期性( 如浊音) ，这种语段在频域上有共振峰结构，其能量大部分集中在较低频段内；而在另一段表现出完全的随机性( 如清音) ，这种语段在频域上没有共振峰结构，其频谱类似于白噪声；其余时段由两者混合而成。 ( 4 ) 作为一个随机过程，语音信号可以用统计分析特性来描述语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量如均值和自相关函数来描述。语音信号统计特性的概率密度的估算方法是根据长时间范围内一段语音信号大量取样数据的幅度绝对值计算出其幅度直方图，然后根据统计的振幅直方图，寻找近似的概率密度函数表达式。通过对语音信号统计特性的研究表明，语音信号振幅分布的概率密度有三种常用的逼近方法，一种是修正伽玛分布概率密度函数：大连理工大学硕士学位论文忡赫似，式中k 是一个常数，与标准差瓯有下列关系 “参 ( 2 2 ) 另一种是拉普拉斯分布概率密度 p 0 ) - 0 5 a e l h( 2 3 ) 式中，口是一个由标准差以决定的常数口鱼 ( 2 4 ) 也可以用高斯分布来近似。在高斯模型假设下，其概率密度函数是均值为零，芳差时变的高斯随机变量。对于长期的统计来说，在这三个分布函数中，伽玛函数逼近的效果最好，其次是拉普拉斯函数，而高斯分布逼近效果最差。应当注意，语音信号的振幅通常都趋向于集中在低电平的范围内，振幅的概率分布不仅反映从一个瞬时到另一个瞬时的采样值的分布，还反映出语音强度总的变化 2 2 声学模型 2 2 。1 理想声学模型理想情况下，个麦克风接收到的信号而( f x f - 1 , 2 , ) 可以表示为而o ) 一a , s ( t t ) + o )( 2 j ) 其中s g ) 为语音源信号，a ，是语音源信号传播的衰减因子，t 是语音源信号传播到第f 个麦克风所需要的时间，啊( f ) 为干扰，r s ( o ， o ) 和厅，( f s f ，i 一，) 之间彼此不相关。在某些情况下，由于室内空调和投影等设备的存在，使得干扰具有方向性，即式( 2 5 ) 中一( f ) 和厅。o ) 彼此之问相关，相互之间有一点时延，此时信号模型为而( f ) - a p ( t 一耳) + 属捍( f 一)仁6 ) 语音分离和语音增强方法研究式中万o ) 为相关噪声，届是相关噪声传播的衰减因子，t 是相关噪声传播到各个麦克风所需要的时间。由于语音源信号与干扰一般是由不同的信源产生，因此可以认为二者之间互相独立。 2 2 2 实际的声学模型图2 1 实际声学模型 f i g 2 1r e a la c o u s t i cm o d e l 如图2 4 所示，实际环境中，考虑混响的存在，麦克风阵列接收的信号可以用实际模型来描述，其矢量形式表达如下 x 加) - h 0 ) s 加) + l l 伽)( 2 7 ) 这里，h ( n ) 是与麦克风阵列相关的房间传递函数向量，算子“”表示卷积操作。式( 2 7 ) 在频域的对应形式是x ( ，) - h ( f ) s ( f ) + b ( f ) 。 2 3 噪声与噪声场语音增强的主要目的之一就是去除噪声。噪声场不同，噪声的类型就不同，对语音信号的影响也就不同。下面介绍几种常见的噪声和噪声场。大连理工大学硕士学位论文 2 3 1 噪声噪声来源于实际的应用环境，因而噪声特性可以说是变化无穷的。噪声可以是加性的，也可以是非加性的。对于非加性噪声，可以通过一些相应的变换( 如同态变换和伪随机扰动) 将其转化为加性噪声，所以本章主要讨论加性噪声。加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和其他说话人语音干扰四种。 ( 1 ) 周期性噪声其频谱的特点是具有许多离散的线谱。周期性噪声主要来源于发动机等周期性运转的机械、电器干扰以及电源交流电声等。这种噪声可以通过梳状滤波器予以抑制。实际环境中的周期性噪声并非简单的只含线谱分量，而是由许多窄谱带组成，并且往往是时变的。 ( 2 ) 脉冲噪声脉冲噪声表现为时域波形中出现的窄脉冲。它来源于爆炸、撞击和放电等。对这类噪声可以通过在时域上设置阈值来加以抑制，也可以通过内插法进行平滑处理 ( 3 ) 宽带噪声宽带噪声来源很多如熟噪声、气流噪声及各种随机噪声源等，归一化噪声也可视为宽带噪声。由于宽带噪声在时域和频域上均与语音信号完全重叠，因而消除它最困难。这种噪声只有在语音间歇期才独立存在。对于平稳的宽带嗓声，通常可以认为是白色高斯噪声，而对于非平稳的宽带噪声，情况就更为复杂 ( 4 ) 话音干扰在有多人同时说话的情况下，不需要的语音就形成了同声道干扰，人耳可以根据需要分辨出其中某个人的声音，这种能力称为“鸡尾酒会效应”。噪声会使语音质量下降，可懂度降低。其中强噪声会使人产生听觉疲劳。不仅如此，强噪声环境还对说话人产生影响，即使发相同的语音，其语音的特征参数也会与在安静环境或低噪声环境中的不同。 2 3 2 噪声场在语音增强中，噪声场也是一个很重要的概念。不同的方法可能适用于不同类型的嗓声场。所以，对不同类型噪声场的适用性，也是衡量语音增强算法消噪性能的一个重要标准。通常情况下主要考虑三种噪声类型：相干噪声场，非相干噪声场和散射噪声场噪声场可用噪声的时空相关函数来描述。语音分离和语音增强方法研究麦克风阵列中各个麦克风所接收到的噪声如图2 2 所示。其中e 和一表示麦克风阵列中第i 个和第，个麦克风的位置向量，m o ) 和n j o ) 为每个麦克风所接收到的噪声。定义噪声的空间时间互相关为 r ( p t j ，f ) - ep o ) 一o + f ) 】 ( 2 8 ) 其中，“- r j 一弓表示两麦克风问的距离向量。由相关函数r ( 如，f ) 的傅立叶变换为m ( ，印，可以得到在空间频率上的相干函数为 _ 。蔫 ( 2 9 ) 其中中犯，和m q ，) 分别为噪声j o ) 和n ，o ) 的自功率谱。图2 2 麦克风阵列中噪声场 f i g 2 2n o i , _ m i v e db ym i c r o p h o n ea r r a y 模平方相干函数定义为 q 佃，h c ) 1 2 - 龋但- 由相干函数或模平方相干函数，可以对麦克风阵列中的噪声场进行分类。相干噪声场中假设只有一个噪声源，而且次噪声源离麦克风很远，麦克风接收到的噪声信号是相大连理工大学硕士学位论文关的，这时q ，细) 一1 ，称之为相干噪声场；当各个麦克风上的噪声彼此间不相关时， c ，( 们o ，这时称之为非相干噪声场。在实际环境中，这两种噪声场会同时存在，而散射场是最接近于实际噪声场的模型。在散射场中，平面波在所有方向上随机传播，噪声是无限多个平面的叠加。其模平方相干函数为q 和) - s i n c 2 ( 呷b ，c ) 。可看出其噪声在低频段强相干，在高频段弱相干 2 4 语音信号处理的分析工具语音信号具有短时平稳性，因而常用短时傅立叶变换对信号进行短时分析；本节除了介绍短时傅立叶变换及其反变换以外，还介绍了盲源分离等基本知识 2 4 1 短时傅立叶变换及其反变换信号x ( o 的短时傅立叶变换工( f ，) 定义为 f - l 2 工o ，叻一罗工o ) 矿( r f 弘一胁如 ( 2 1 1 ) f ：r ，2 显然，短时傅立叶变换( s h o r t t i m e f o u r i e r t r a n s f o r m ，s t f d 的思想是将经典谱分析理论中的直接法引入到非平稳信号处理中。具体做法是：如式( 2 1 1 ) 所示，将信号x ( 0 乘上一个以t 为中点的窗函数，( f f ) ，然后做傅立叶变换。加窗的目的是将数据截短，以便提取感兴趣时间段内的信息。为了克服数据截短带来的g i b b s 效应等不利影响，窗函数通常需要具有低通性质。由于短时傅立叶变换中隐含了信号工o ) 是短时平稳这一假设，为了取得好的时频分析结果，需要对窗函数进行精心选择，一般窗函数宽度应该与信号短时平稳长度相适应 2 4 2 盲源分离简单的说，盲源分离就是根据观测到的混合数据确定某一变换，以恢复原始信号的技术。典型情况下，观测数据是麦克风阵列的输出，其中每个麦克风接收到的是源信号的不同组合。术语“盲”有两层含义嗍：( 1 ) 源信号不能被观测；( 2 ) 源信号如何混合是未知的盲源分离的核心问题是分离( 或解混合) 矩阵的学习算法，它属于无监督学习，其基本思想是抽取统计独立的特征作为输入的表示，同时保证信息不丢失。当混合模型为非线性时，一般是无法从混合数据中恢复源信号的，除非对信号和混合模型有进一步的先验知识可以利用。因此在大多数的研究中，只讨论线性混合模型线性，瞬时、无噪声的盲源分离问题可以用下面的混合方程描述：一9 语音分离和语音增强方法研究 i ( f ) a s o ) ( 2 1 2 ) 式中：x q ) - k ( f ) ，而( f ) ，粕o ) 】r 为维观测数据，上标r 表示矩阵或向量的转置； s o ) - 【毛o ) ，s ：o ) ，p 订为肼个源信号组成的向量；a 为n x m 维矩阵，称为混合矩阵。式( 2 1 2 ) 的含义是m 个源信号通过混合得到维观测数据。盲源分离所要解决的问题就是在源信号和混合矩阵未知的情况下，只根据观测数据向量x o ) 确定分离矩阵w 和变换后的输出y o ) ，使得y ( f ) 是源信号s o ) 的拷贝或估计。 y ( f ) 一w x ( t ) ( 2 1 3 ) 由于其广泛的应用，导致了国际上出现了一股对盲源分离的研究高潮，同时也出现了大量的盲源分离算法。其中独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ，脱) 方法，介绍如下： i c a 是近几年才发展起来的一种新的统计方法。该方法的目的是，将观察到的数据进行某种线性分解，使其分解成统计独立的成分。 i c a 的出发点非常简单，它假设各成分是相互统计独立的，而且还必须假设独立成分最多只有一个是高斯分布的。如果能计算出a 的逆矩阵w 。这样独立成分可由式( 2 1 3 ) 计算得到。对于线性混合的解混合模型，通常对问题作如下假设：源信号向量的各个元素是统计独立的肘个源信号； m 个源信号均为平稳随机信号；膨个源信号至多有一个高斯信号；矩阵a 是非奇异矩阵；观测信号向量的维数不小于源信号向量的维数m 。 i c a 算法：中心化中心化其实就是去均值，去均值只是为了简化i c a 的估计算法。用均值处理后的数据估计独立分量s ，再把s 的均值a 。k 加回去即可，m 为x 的均值。白化将观测向量x 通过一个白化滤波器，碍到白化后的i 。i 的元素是不相关的，而且具有单位方差。也就是说i 的协方差矩阵是一个单位阵e i f 。i 。大连理工大学硕士学位论文白化处理采用特征值分解的办法。假定e 珏7 ) 一q a q ，其中q 为e 7 ) 的特征向量阵，a 为特征值对角阵，则下式可完成对数据的白化处理， i = q a 牡q 7 x ( 2 1 4 ) 分离算法近几年来出现了一种快速i c a 算法( f a s ti n d e p e n d e n tc o m p o n e n ta n a l y s i s ， f a s t l c a ) 嘲，它是基于定点递推算法得到的。这种算法已经相对成熟。可以通过下面的迭代公式直到收敛来提取出独立的源信号 _ + 。之碍7 x ) ) 一 g y 矿i ) ) w ( 2 。5 ) w - w + l l w + i 7 其中，e 是求数学期望的操作，向量w 是解混和矩阵w 的一行，i g ( u ) 为非二次函数。 2 5 语音增强效果评价方法判断一个语音增强系统性能的好坏，主要看语音增强的效果如何语音增强的效果可以由主观和客观两方面来评价 2 5 1 主观测评方法主观测评方法是对语音质量的综合评估，主要包括有：平均意见得分( m e a no p i n i o n s c o r e t m o s ) 、判断韵字测试( d i a g n o s t i c r h y m e t e s t ，d r t ) 和判断满意度测试( d i a g n o s t i c a c c e p t a b i l i t ym e a s u r e ，d a m ) 。其中，m o s 采用五级评分标准，参加测试的实验者在听完所测语音后，从五个等级中选择某一级作为他对所测语音质量的评定。全体实验者的平均分就是所测语音质量的综合得分。d r t 是反映清晰度或可懂度的一种测试方法，让受试者每次听到一对相同韵母字中的某个音，然后判断所听到的音是哪一个字，全体实验者判断正确的百分比就是d r t 得分。d a m 是对话音质量的综合评估，它是在多种条件下对话音质量可接受程度的一种度量，也采用百分比评分。但是由于主观上和客观上的原因，主观测评法每次得到的结果之间波动较大，参与测试者个体的差异对测评结果也有很大影响。因此想要得到可信的结果就要求参加测试的实验者人数要足够多，所测语音材料也要足够丰富，测试环境要尽量保持相同，并且要在多种条件下对话音质量进行测评。语音分离和语音增强方法研究 2 5 2 客观测评方法相对于主观测量方法的抽象性、随意性，客观测量方法能够更直观、更准确的表示出语音增强系统的性能。人们可以直接观测增强语音的时域波形或频域波形，也可以给出客观的数值度量。其特点是计算简单，但是并不完全反映入对语音质量的感觉。本文主要通过比较各种算法增强后信号的信噪l t ( s i g n a l t o n o i s er a t i o ，s n r ) 来从理论上分析算法性能。信噪比是度量信号性质最普遍和最传统的方法，其定义是：姗( x , y ) - 1 0 崦m ( 矗器) 回这里x o ) 是未失真的理想参考信号，_ ) ，( f ) 是失真后的信号。 2 6 小结在本章中，主要从以下几个方面简要介绍了随后各章中所要用到的一些基础知识：语音信号的主要特性、声学模型、噪声和噪声场特性、语音信号的处理工具、短时傅立叶变换、盲源分离、语音增强效果评价方法等。大连理工大学硕士学位论文 3 基于信号稀疏性的欠定盲源分离算法 3 1 问题的提出近几年来，盲源分离已成为信号处理学界和神经网络学界共同感兴趣的研究热点领域，并获得了迅速的发展。对于观测信号个数大于源信号个数，这种情况称为超定盲源分离，已经有了比较好的解决方法；对于观测信号个数等于源信号个数，这种情况是研究得最多的盲源分离问题，主要方法为独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s 。 l e a ) ，i c a 的主要思路是求一个分离矩阵使得分离后的信号问统计独立。而对于观测信号个数小于源信号个数，这种情况称为欠定盲源分离算法闭，由于它不能像i c a 那样求出分离矩阵，所以必须找出另外的突破点。经过大量研究发现，有的信号，特别是语音信号在时频域中具有稀疏性，基于这个特性，欠定盲源分离问题就有了一个比较好的解决方法。，本章主要研究两种基于信号稀疏性的欠定盲源分离方法：( 1 ) 时频掩蔽算法；( 2 ) 线性取向分离算法，并对时频掩蔽算法进行了改进 3 2 时频掩蔽算法 3 2 1 时频掩蔽算法主要应用领域语音舅1 图3 1 瞬时延迟混合模型 f i g 3 1i n s t a n t a n e o u s - d e l a ym i x i n gm o d e l 壹克风1 麦克风2 在欠定盲源分离问题中，根据源信号的混合模型可以分为：( 1 ) 瞬时混合模型，其数学式表达为x a s ，其中a 为一个列数大于行数的扁矩阵：( 2 ) 卷积模型，属于最难解决的盲源分离问题，至今还没有比较好的方法。( 3 ) 瞬时延迟混合模型，是时频掩蔽算法的主要应用领域。语音分离和语音增强方法研究瞬时延迟混合模型如图3 1 所示。由于每个语音源到达麦克风的时间不同，这样就造成了麦克风接收源信号的相对延迟；并且，由于语音源到达麦克风的路径各不相同，造成了麦克风接收源信号的相对衰减不同。实际上，这是一种特殊的卷积混合模型，属于卷积因子只有一个数值的情况。 3 2 2 时频掩蔽算法简介盲源分离的目的就是从观测数据中确定源信号。当源信号的数目大于观测信号的数目时，传统的求混合矩阵的逆矩阵的方法就不适用。但是，如果源信号在变换域中存在一种表达式，使它们具有互不重叠的基函数，就可以解决欠定盲源分离问题：( 1 ) 确定源信号在变换域中互不重叠的表达式；( 2 ) 在变换域中分离出各个源信号。选择的线性变换应具有以下性质： ( 1 ) 线性变换丁必须是可逆的，即t 。1 ( 办) - 南v s e s ，s 是感兴趣信号的集合； ( 2 ) a f n a i - 妒，- 七，a f 表示交换域信号乃，卜s ，的基函数； ( 3 ) s u p t s ( - 6 ) - s u p t s ，s e s ，v 例； ( 4 ) 存在函数f 和g 使得a ，- f ( r 五q ) ，z ( a ) ) 和6 ，一g ( t x 2 ：( a ) ) ， a a ，j - 1 ，2 ，5 其中，a 为麦克风之间距离造成的最大延迟，利用性质( 3 ) 和( 4 ) 可以标注每个 a s u p 巩为妒c ( n z k ( a ) ) 和g ) ，z b d ) ) ，a ，为标注( 4 ，6 ，) 的集合，这样就能从观测信号毛( f ) 一二s ，o ) 中分离出第，个源信号 5 ，- t 1 ( 1 玩) ( 3 1

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）语音分离和语音增强方法研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）语音分离和语音增强方法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档