（通信与信息系统专业论文）语音增强算法的研究与实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：58 大小：3.51MB 积分：0 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

（通信与信息系统专业论文）语音增强算法的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要实际中，语音常常受到各种环境噪声的干扰而使通话质量下降，严重时会使语音处理系统不能正常工作。在这种情况下，必须采用信号处理方法进行语音增强，抑制背景噪声，以提高语音通信质量。因此，研究语音增强技术在实际中有重要价值。一个完整合理的语音增强系统包括几个必要过程。首先需要对噪声进行估计，将所得噪声估计应用于合适的增强算法中，增强算法是整个系统的核心部分。最后根据不同的增强系统的要求对所得的结果进行后期处理。一般的噪声估计是对噪声的方差进行估计，本文着重对最小值跟踪法的噪声估计做了详细的研究，通过实验仿真对其估计效果进行评价。最终以最小值跟踪算法作为设计的语音增强系统的噪声估计部分。在语音增强算法上本文重点研究短时谱估计的各种方法，比较了谱相减法、改进型谱相减法，最小均方误差等方法。综合比较了各自的增强信噪比和主观感受，最佳修正短时对数谱估计( o m l s a ) 算法的增强性能最佳，并将其作为整个系统的主要增强算法。通过研究单通道条件下基于语音短时对数谱的最小均方误差( m m s e l s a ) 估计的语音增强算法，简化了算法难度，改进了实时性。我们引入了o m l s a ，能在信号存在的不确定性下最小化语音信号对数谱的均方误差。试验证明此方法的语音增强效果较好，尤其在较低信噪比时效果更明显。算法用浮点 d s p t m s 3 2 0 v c 3 3 实现，能有效抑制背景噪声。关键字：语音增强短时对数谱最小均方误差t m s 3 2 0 v c 3 3 a b s t r a c ti i i a b s t r a c t i ng e n e r a l ，s p e e c hi so f t e nc o r r u p t e da c o u s t i c a l l yb ya m b i e n tn o i s e t h er e s u l ti s t h ed e g r a d a t i o no ft h ep e r f o r m a n c eo fd i g i t a lv o i c ep r o c e s s o r , s u c ha ss p e e c hc o d e r , s p e e c hr e c o g n i t i o n s oas y s t e mf o rs p e e c he n h a n c e m e n t i sn e e d e ds t r o n g l yt os o l v et h e p r o b l e m t h eo b j e c t i v eo fs p e e c he n h a n c e m e n tm a yb et oi m p r o v et h eq u a l i t y , t o i n c r e a s et h ei n t e l l i g i b i l i t y , t oe n s u r et h er e l i a b i l i t yo fd i g i t a lv o i c es y s t e m t h e r e f o r e ，t h e s t u d yo i ls p e e c he n h a n c e m e n tt e c h n o l o g yh a si m p o r t a n tv a l u ei nr e a l i t y a c o m p l e t ee n h a n c e m e n ts y s t e mh a st h r e ep a r t s ：an o i s ee s t i m a t o rw h i c hi su s e dt o t r a c en o i s ee s t i m a t i o n ，an o i s er e d u c t i o na l g o r i t h mw h i c hi st h ec r u c i a lp a r ti nt h e s y s t e ma n d ap o s t p r o c e s s o rw h i c hi sn e c e s s a r yi fs p e c i f i cd e s i g ni sr e q u i r e d g e n e r a l l ys p e a k i n g ，an o i s ee s t i m a t i o na l g o r i t h mi san o i s ev a r i a n c ee s t i m a t o r a n o i s ee s t i m a t i o nb a s e do nm i n i m u ms t a t i s t i c si sd e e p l ys t u d i e di nt h i st h e s i s t h es p e e c h e n h a n c e m e n ts y s t e mo ft h i st h e s i sw i l la d o p tt h en o i s ee s t i m a t o rb a s e do nm i n i m u m s t a t i s t i c s t h i sp a p e rf o c u s e so ns p e e c he n h a n c e m e n ta l g o r i t h m si nt h es h o r t - t e r ms p e c t r a l e s t i m a t i o nm e t h o d s t oc o m p a r et h es p e c t r a ls u b t r a c t i o n ，i m p r o v e ds p e c t r a ls u b t r a c t i o n a n dm i n i m u mm e a ns q u a r ee r r o rm e t h o d s ，t h e o p t i m a l l y m o d i f i e dl o g s p e c t r a l a m p l i t u d ee s t i m a t o r ( o m l s a ) m e t h o di st h eb e s to n eo ft h et h r e em e t h o d sa f t e r m a k i n gac o m p r e h e n s i v es u r v e yo fi n c r e a s i n gs n ra n da u d i t o r yp e r c e p t i o n t h e o m - l s ai sc h o s e ni nt h es p e e c he n h a n c e m e n ts y s t e mo ft h i st h e s i s i nt h i sp a p e r , t h ea u t h o r ss t u d yt h es p e e c he n h a n c e m e n ta l g o r i t h mb a s e do n m i n i m u mm e a n s q u a r e e r r o rs h o r tt i m e l o g - s p e c t r a la m p l i t u d e e s t i m a t i o n ( m m s e - l s a ) u n d e rt h es i n g l ec h a n n e lc o n d i t i o n ，a n ds i m p l i f yt h ea l g o r i t h mi no r d e rt o i m p r o v et h er e a l - t i m ep r o c e s s i n g w ei n t r o d u c ea l lo p t i m a l l y - m o d i f i e dl o g s p e c t r a l a m p l i t u d ee s t i m a t o r , w h i c hm i n i m i z e st h em e a n - s q u a r ee r r o ro ft h el o g - s p e c t r af o r s p e e c hs i g n a l su n d e rs i g n a lp r e s e n c eu n c e r t a i n t y e x p e r i m e n t ss h o wt h a tt h ea l g o r i t h m e n h a n c e st h es p e e c hv e r yw e l l ，e s p e c i a l l yi nt h ec o n d i t i o n so fl o ws n r t h ea l g o r i t h m i si m p l e m e n t e do nd s p t m s 3 2 0 v c 3 3 ，a n d c a ne f f i c i e n t l yd e c r e a s eb a c k g r o u n dn o i s e k e y w o r d ：s p e e c he n h a n c e m e n t ；s h o r t t i m el o g - s p e c t r a l ；m i n i m u mm e a ns q u a r ee r r o r ； t m s 3 2 0 v c 3 3 学位论文创新性声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切的法律责任。本人签名：二主曼整日期竺! z ：! ：! ! 关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密，在一年解密后适用本授权书。本人签名：二主曼垫日期导师签名：日期 0 1 。| fo 第一章绪论第一章绪论 1 1 语音增强的应用背景随着现代科学的蓬勃发展，人类社会愈来愈显示出信息社会的特点。通信或信息交换已成为人类社会存在的必要条件，正如衣食住行对人类是必要的一样。语音作为语言的声学表现，是人类交流信息最自然、最有效、最方便的手段之一。然而，人们在语音通信过程中不可避免地会受到来自周围环境和传输媒介引入的噪声、通信设备内部电噪声、乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音不再是纯净的原始语音，而是被噪声污染过的带噪语音。例如，汽车、街道、机场中的电话，常受到强背景噪声的于扰，严重影响通话质量。而且环境噪声的污染使得许多语音处理系统的性能急剧恶化。例如，语音识别已取得重大进展，正步入实用阶段。但目前的语音识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码，也遇到类似问题。由于语音生成模型是低速率编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，必须加入语音增强系统，或者抑制背景噪声，以提高语音通信质量；或者作为预处理器，以提高语音处理系统的抗干扰能力，维持系统性能。因此，研究语音增强技术在实际中有重要价值。目前，语音增强已在语音处理系统、通信、多媒体技术、数字化家电等领域得到了越来越广泛的应用。 1 2 语音增强的研究历史语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常都是随机的，从带噪语音中提取完全纯净的语音几乎不可能。在此情况下，语音增强的主要目的就是通过对带噪语音进行处理，以消除背景噪声，改善语音质量，提高语音的清晰度、可懂度和舒适度，提高语音处理系统的性能。这些目的往往不能兼得，通常要根据语音处理系统的具体需要而定。语音增强方法的研究始于2 0 世纪7 0 年代中期。随着数字信号处理理论的成熟，语音增强发展成为语音信号处理领域的一个重要分支。1 9 7 8 年，l i m 和o p p e n h e i m 提出了语音增强的维纳滤波方法1 1 ，一1 。1 9 7 9 年，b o l l 提出了谱相减方法【3 】来抑制噪声。1 9 8 0 年，m a u l a y 和m a l p a s s 提出了软判决噪声抑制方法【4 j 。1 9 8 4 年，e p h r a i m 2 语音增强算法的研究与实现和m a l a h 提出基于m m s e 短时谱幅度估计的语音增强方法【5 1 。1 9 8 7 年，p a l i w a l 把卡尔曼滤波引入到语音增强领域【6 1 。在近3 0 年的研究中，各种语音增强方法不断被提出，它奠定了语音增强理论的基础并使之逐渐走向成熟。近些年来，随着 v l s i 技术的发展和高速d s p 芯片的出现，语音增强方法逐步走向实用，同时新的语音增强方法又相继涌现。 1 3 语音和噪声特性语音增强研究的基础是对语音和噪声特性的了解和分析。下面简述语音和噪声的主要特性。 ( 一) 语音和人耳感知特性语音是时变的、非平稳的随机过程。人类发音系统的生理结构的变化速度是有一定限度的，在一段时间内( 1 0 - - - 3 0 m s ) ，人的声带和声道形状是相对稳定的，可以认为其特征是不变的，因而语音的短时谱具有相对稳定性。在语音分析中，可利用短时谱的这种平稳性。语音可分为清音和浊音两大类。浊音在时域上呈现出明显的周期性；在频域上有共振峰结构，而且能量部分集中在较低频段内。而清音段没有明显的时域和频域特征，类似于白噪声。在语音增强研究中，可利用浊音的周期性特征，采用梳状滤波器提取语音分量或者抑制非语音信号，而清音则难以与宽带噪声区分。语音信号可以用统计分析特性来描述。由于语音是非平稳的随机过程，所以长时间的时域统计特性在语音增强的研究中意义不大。语音的短时谱幅度的统计特性是时变的，只有当分析帧长趋于无穷大时，才能近似认为其具有高斯分布。高斯分布模型是根据中心极限定理得到的。将高斯模型应用于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中，可将这种假设作为分析的前提。语音感知对语音增强研究有重要作用。人耳对语音的感知主要是通过语音信号频谱分量幅度获得的，对相位谱则不敏感。人耳对频率高低的感受近似与该频率的对数值成正比。共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要。人耳在两个人以上的说话环境中有能力分辨出需要聆听的声音。 ( 二) 噪声特性噪声来源于实际的应用环境，因而其特性变化无穷。噪声可以是加性的，也可以是非加性的。考虑到加性噪声更普遍且易于分析问题，并且对于非加性噪声，有些可以通过变换转变为加性噪声，例如，乘积性噪声或卷积性噪声可以通过同态变换而成为加性噪声。这里我们仅讨论加性噪声。加性噪声大致可分为周期性噪声、冲激噪声、宽带噪声和语音干扰。 1 周期性噪声第一章绪论 3 周期性噪声的特点是有许多离散的窄谱峰，它往往来源于发动机等周期运转的机械。如5 0 或6 0 h z 交流声会引起周期性噪声。周期性噪声引起的问题可以通过功率谱发现，并通过滤波或变换技术将其去掉。 2 冲激噪声冲激噪声表现为时域波形中突然出现的窄脉冲，它通常是放电的结果。消除这种噪声，可以根据带噪语音信号幅度的平均值确定阀值。当信号幅度超过这一阀值时，判为冲激噪声，然后进行消除。 3 宽带噪声宽带噪声的来源很多，热噪声、气流( 如风、呼吸) 噪声及各种随机噪声源，量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠，因而消除它最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声，通常可以认为是白色高斯噪声。不具有白色频谱的噪声，可以先进行白化处理。对于非平稳的宽带噪声，情况就更为复杂一些。 4 语音干扰人耳可以在两个以上讲话环境中分辨出所需要的声音，这种分辨能力来源于人的双耳输入效应，称为“鸡尾酒会效应 1 4 语音增强方法简述语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通道的语音增强算法。单通道语音系统下语音与噪声同时存在于一个通道中，语音信息与噪声信息必须从同一个信号中得出。如果语音系统是一个多通道的语音系统，各个通道之间存在着某些相关的特性，这些相关特性对语音增强的处理十分有利。如在自适应噪声对消法的语音增强方法中，采用了两个话筒作为输入，一个采集带噪的语音信号，另一个用来采集噪声。从噪声通道所采集的噪声直接当作带噪语音中的噪声，并将它从带噪声语音信号中减去就可得到纯净的语音。 3 0 多年来，人们研究了各种语音增强算法，如噪声对消法，谐波增强法，语音短时幅度谱估计法，语音参数模型法等。下面对其进行简单介绍。 ( 1 ) 噪声对消法显而易见，如果能直接从带噪语音中，在时域中或者在频域中，将噪声分量减去，则能有效增强带噪语音。噪声对消法就是以此作为出发点。其最大特点是需要采集背景噪声作为参考信号，参考信号准确与否直接决定着噪声对消法的性能。在采集背景噪声时，往往采用自适应滤波技术，以便使参考信号尽可能接近带噪语音中的噪声分量。 ( 2 ) 自适应梳状滤波 4 语音增强算法的研究与实现由于语音中的浊音具有明显的周期性，这种周期性反映到频域中则为一系列分别对应基频( 基音) 及其谐波的一个个峰值分量，这些频率分量占据了语音的大部分能量，我们自然可以利用这种周期性来进行语音增强。这时可采用自适应梳状滤波器来提取基音及其谐波分量，抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的，语音的基音周期也是不断变化的，能否准确地估计出基音周期以及能否及时跟踪基音变化，是这种基于谐波增强法的关键。 ( 3 ) 幅度谱相减法对带噪语音信号进行傅立叶变换，在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱。利用人耳对语音相位的不敏感性，语音相位谱则近似用带噪语音的相位谱代替。 ( 4 ) 功率谱相减法这种方法是从带噪语音功率谱中减去噪声的功率谱，从而得到语音信号的功率谱，进而决定语音信号各频谱分量增益，最终得到语音信号的估计。 ( 5 ) 维纳滤波法维纳滤波法是为得到语音信号的时域波形，在最小均方误差准则下得到的最优估计器。实际应用中，多采用非因果维纳滤波器的频域实现形式。 ( 6 ) 语音参数模型法语音的发声过程可以建模为一个线性时变滤波器。对不同类型的语音采用不同的激励源。例如对于浊音，激励源为周期与基音周期相同的脉冲串；而对于清音，激励源为高斯白噪声。在语音的生成模型中，应用最广泛的是全极点模型。基于语音生成模型可以得到一系列语音增强方法，比如时变参数维纳滤波及卡尔曼滤波方法。卡尔曼滤波就是基于语音生成模型的一种有效语音增强方法，它能有效消除有色噪声。近些年又涌现出一些新的语音增强方法，如隐性马尔可夫模型方法【7 l 、神经网络方法【8 1 、信号子空间方法【9 1 等。此外，人们还尝试在进行语音增强时更多地考虑人耳听觉特性。 1 5 语音增强的质量评价消除噪声是语音增强算法的主要目的之一，信噪比( s n r ) 的提高就自然而然地成为衡量语音增强系统性能的重要准则。但值得注意的是，人是语音信号的最终接受者，人的听觉系统最后负责来处理语音信号，因而信噪比并不一定是最合适的准则。因为每个人对语音质量、语音的可懂度都有不同的理解，而这类对处理过的语音信号所作的主观评价是不容易量化的。经过研究人员几十年的努力，目前已经有了好几种对语音质量和可懂度进行评价的有效手段，大致上可以分为第一章绪论 5 客观评价和主观评价两种。 1 5 1 主观评价 ( 1 ) 平均意见分( m o s 得分) m o s 得分采用五级评分制，即将重建语音质量分为优( 5 分) 、良( 4 分) 、中( 3 分) 、差( 2 分) 及坏( 1 分) 共5 个等级。质量优表示重建语音和原始语音只有很少的细节差异，且若不进行对照听比就觉察不出这种差异；质量良表示重建语音的畸变或失真不明显，不注意听意识不到；质量中表示重建语音有比较明显可感知的畸变或失真，但语音自然度和清晰度仍很好。且听起来没有疲劳感；质量差表示重建语音有较强的畸变或失真，听起来略有疲劳感；质量坏表示重建语音的质量极差，听觉无法忍受。 ( 2 ) 判断韵字测试判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法使用若干对同韵母进行测试，让受试者每次听到一对韵字中的某个音，然后让他判断所听到的音是哪一个字，全体实验者判断正确的百分比就是d r t 得分，通常认为d r t 为9 5 以上时清晰度为优，8 5 9 4 为良，7 5 8 4 为中，6 5 7 5 为差而6 5 以下为不可接受。 ( 3 ) 判断满意度测量( d a m ) d a m 是对语音质量的综合评估，它是在多种条件下对话音质量的接受程序的一种度量。这种评分体系相当全面，也相当复杂，这里就不再赘述。 1 5 2 客观评价语音质量客观评价是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏。 ( 1 ) 信噪比( s n r ) s n r 一直是衡量针对宽带噪声失真的语音增强算法的常规方法。假设y ( f ) 表示带噪信号，s “) 表示其中的纯净语音信号，i ( i ) 表示相对应的增强信号，经典形式的信噪比定义为：罗s 2 ( ，1 ) 姗旬0 1 0 9 1 0 暴雨丽 q 1 厶l 。、一，。、一，o 在上式中可以看出，要计算信噪比必需知道纯净语音信号，但在实际应用中这是不可能的。因此，上述方法主要用于纯净语音信号和噪声信号都是己知的算 6 语音增强算法的研究与实现法的仿真中。经典信噪比只能给出一个大致的信噪比。因为语音信号是时变的，而噪声的能量是均匀分布的，因而在不同时间段上的信噪比也应不一样。 ( 2 ) 分段信噪比( s e g s n r ) 为了改善上面的问题，可以采用分段信噪比。它的定义如下： s e g s n r l 吉1 差1 0 l o g 幢1 尚i ”2 ，。一y ，。iv 乌i ( 卜2 ) m 翩 “i ；皂s 一；“) 1 2i 其中，m 表示语音帧数，n 是语音帧长度，m 。表示语音帧的开始点。为了克服计算出来的信噪比过高或者过低，对于每帧计算出来的信噪比设定高低门限，分别为3 5 d b 和o d b 。 1 6 本文内容和结构本文重点是研究现有的语音增强方法，设计一种实际应用的增强方法。增强过程不以单纯提高信噪比为目标，而是提高语音的舒适度，可懂度和自然度，保证语音不失真和无“音乐噪声。本文的主要研究工作包括： ( 1 ) 广泛地研读了国内外相关文献资料，介绍了语音增强技术背景与常用方法。 ( 2 ) 研究噪声估计方法，重点是基于最小值跟踪方法( i m c r a ) ，并分析了该方法的特点和跟踪特性。 ( 3 ) 对常用的语音增强算法及基于短时谱的方法( 谱减法，m m s e ，o m l s a ) ，进行了研究并分析各种算法的性能，通过各种语音增强算法的比较与分析，确定不同算法在不同信噪比下增强的优劣。 ( 4 ) 设计和实现一个完整的语音增强系统。完整实现语音增强功能。内容结构安排如下：第一章简单介绍了本文的课题背景、意义、语音增强在国内外的研究现状及分析。第二章主要介绍不同环境下的噪声估计。包括有声无声检测算法的分析和基于连续更新噪声谱的噪声估计方法。第三章主要介绍基于短时谱估计的语音增强方法。重点研究o m l s a 算法的性能。第四章介绍算法在m a t l a b 软件平台的仿真，包括软件设计。第五章基于d s p t m s 3 2 0 v c 3 3 ，设计硬件和软件的系统实现。第六章总结全文。第二章噪声估计 7 第二章噪声估计大多数语音增强算法，例如谱减法，自适应滤波等方法，都需要正确估计背景噪声的性质。而在大多数实际噪声环境中，噪声是不稳定的。只有及时找到最新的噪声，才能保证这些方法的有效使用。在基于单声道的语音增强技术中，噪声信息是不能直接获得的，所以背景噪声的特性只能从带噪语音中获得。因此噪声估计就成为语音增强技术中非常关键的环节，对噪声估计方法的研究也是非常必要的。传统的噪声估计方法就是使用语音激活检测( v o i c ea c t i v i t yd e t e c t i o n ) 技术分离出无音段，这时无音段主要表现为噪声特性，然后再通过某种统计方法，即可获得对背景噪声特性的近似估计。但是在低信噪比下，v a d 的误检率会增大，在不能正确判断出无音段的情况下，系统极易出现残留噪声和回声。基于连续更新噪声谱的噪声估计算法，省去了对语音端点的检测，对非平稳噪声有较好的适应性，即使在有语音存在的情况下，也能较快地适应噪声的变化。 2 1 语音激活检测语音激活检测【3 2 l ( v o i c ea c t i v i t yd e t e c t i o n ，v a d ) 是一种检测输入信号是否为语音的技术。这项技术在很多方面具有用途，如语音编码、语音识别、回波抵消、噪声抵消、语音合成等等，同时也是语音增强中的一个关键问题。目前，v a d 的主要应用是在语音通信应用领域，如可变速率语音编码、不连续传输和数字语音插空等。在单声道的语音增强系统中，通过对语音端点的检测来判断有声无声，以便更新噪声。在多声道的系统中，为正确补偿各声道间时延的不同，也必须找到理想的语音激活检测方法。另外，在一些系统中，对于语音和噪声的处理方法不同，如果不能判断当前帧是带噪语音还是噪声，就不能进行适当的处理，这种系统对语音存在性的判断要求就更高一些，通常要求把每一帧噪声都判断出来。通常的语音激活检测是基于语音帧来进行的，语音帧的长度在1 0 - - 3 0 m s 不等。基于帧的语音激活检测的原理框图如图2 1 所示。型叫一磊h 蒜毒il 函斗五磊秽 1 二甲l 8 语音增强算法的研究与实现输入信号经过预处理后的信号帧一方面送到特征提取模块提取特征参数，如短时能量、过零率、l p c 参数、倒谱系数和基音延迟( 检测周期性) 等。另一方面送到门限计算模块，计算参数判决门限( 一般情况下，门限电平需要自适应调整) ，而后经过v a d 中间判决后，再经过v a d 的判决纠正，最后判决得出信号帧是有话还是无话。一般情况下，纠正措施采用拖尾延迟保护方案，即有话判决帧后的n 帧无话仍然判决为有话，以避免低能量的清音帧判为噪声帧，这里n 一般可取3 一1 0 。一般情况下，v a d 算法基本原则假定如下： ( 1 ) 语音是非平稳信号，在较短的时间( 例如2 0 3 0 m s ) 后频谱就会变化： ( 2 ) 在相当长的时间内，背景噪声频谱是平稳的，并随着时间缓慢地变化： ( 3 ) 语音信号电平通常高于背景噪声电平。在上面的假设情况下，v a d 算法检测无话区间，并同时区分有话和无话情况下的背景噪声。在背景噪声电平很低的通信系统中，一个简单的信号能量门限就可以用来检测无话区间。但当在一个背景噪声电平较高，并且不断变化的通信系统中，通过一个简单的能量门限函数是不可能区分带噪语音和背景噪声的。既然背景噪声的电平不断地改变，因此门限应该能自适应的调整，以便对输入信号进行准确的分类。一般情况下，门限仅当在无话区间时才能更新。语音激活检测可通过检测信号的频谱特征进行，也可以分析输入信号是频谱不断变化的语音还是具有相对稳态频谱相应的噪声来检测。此外，借助诸如语音的短时能量、基音、过零率、倒谱系数等其他特征参数也有助于有话、无话的判断。一个好的语音激活检测算法必须具备对各种噪声的鲁棒性，同时要简单，适应性好，易于实时实现。本章将分别对两类噪声估计方法进行讨论。 2 1 1 语音激活检测方法分类由于语音激活检测方法是各种技术的大融合，所以到目前为止并没有统一的分类方法，比如可以按照应用的范围分类，可以按照所使用的特征量分类等。按照所采用的技术或原则的不同，可以进行如下的分类。 1 基于短时能量的判决方法该方法主要检测大于一定门限值的短时功率是否持续了规定的时间。其依据是信号的功率比噪声的功率大。通过对无声期间噪声信号的估计，确定相应的门限阀值v 。当输人信号的短时能量( 功率) 超过阀值并持续预定时间t 后，则认为是语音段起始点。而当信号的短时能量( 功率) 低于阀值v 并持续一定时间，就可测定语音段的终止点。预定时间t 的取值要合适，取值过大，则信号的检测时延相应增加；过小，则不能正确检测出语音段和噪声段，该方法在短时冲击的干扰下处理容易出现错误的结果。第二章噪声估计 9 2 基于背景噪声估计的判决方法在这种方法中，通过无音段中对噪声能量的测量，然后使用一阶a r 模型预测当前帧中的噪声能量来修正判决门限，或者通过信噪比来判决。这种方法简单，运算量小，可以应对各种不同的信噪比，有音段错判为无音段率高，比较适合于语音增强系统中。 3 基于小波变换的判决方法由于小波变换在不同的频段具有不同的分辨率，同时不同的信号在不同的分辨率下相关性不同等的一系列特点，在语音处理中越来越受重视，人们也将其引人到语音端点检测中来。在不同的尺度下使用上述两种判决方法进行判决。这种算法能够在不同的时间和尺度上计算用于语音活动检测的参数，根据这些参数得到稳健的语音活动决策，因此能够更准确地检测到语音，使得语音剪切率大为减少。 4 基于模糊理论的判决方法语音有音无音判决过程，实际上是对语音和噪声特性的学习和认识过程。模糊理论模拟了人的思维过程，通过对己有语音的自动学习，总结出用于描述当前语音特点的几条模糊规则，将输人语音按照模糊理论的规则进行描述，然后对模糊系统的输出进行门限处理，得出当前输人的v a d 判决。 5 模式识别法语音端点检测可采用统计模型分类方法，隐马尔柯夫模型( h m m ) 可以作为语音特征的统计模型。基于h m m 的方法已应用于语音端点检测，并得到较高的正确率。原始的想法来自词的分割算法，即在一段不受限制的语音中检测出一个或多个词的存在位置。而语音端点检测则可以看成是一个分割词的特例。在这种 h m m 语音检测器中，一个为语音作标记的连续h m m 和一个为背景噪声作标记的连续h m m 被训练来分别表示一般语音与噪声的特征。训练采用基于b a u m w e l c h 算法的倒谱向量来进行。h m m 与一个语法模型相连接，在端点检测阶段，对带噪语音进行预处理以得到输人特征矢量，每一个矢量由倒谱系数、倒谱系数的增量或时间导数以及当前帧的短时能量增量等组成，然后引入v i t e r b i 解码，按照模型参数与输入语音特征流得到与正发生的语音非常相似的语音，由v i t e r b i 解码器给出语音的端点。综上所述，对信噪比高的带噪语音，可以通过短时能量来检测。这是因为，信噪比高时，语音的短时能量一般比噪声的短时能量大，用短时能量作为判据，距离的测度比较简单，物理意义也很明确。信噪比较低时，必须采用比较复杂的噪声检测算法。可以先在训练时提取噪声的特征值，这个特征值在一般的模式识别方法中就是特征矢量或码本，在基于统计模型的方法中，比如h m m ，就是一组统计量，通过特征值间的距离，判别信号中是否含有语音。 1 0 语音增强算法的研究与实现从实用性、易实现性等方面考虑，大部分算法都是建立在相对理想的实验室条件下的，要求背景噪声保持平稳，信噪比较高，而且需要一定的训练算法以预先得到背景噪声及语音的统计信息。在实际工作中，这些条件很难得到满足，而且经常会遇到信噪比较低，背景噪声缓慢变化的情况，也不可能预先得到背景噪声或语音的统计信息。本节针对缓变的非平稳噪声情况介绍一种基于短时能量的语音激活检测算法。 2 1 2 基于短时能量的语音激活检测算法 3 3 1 设带噪语音信号中的噪声为加性高斯噪声，则带噪语音可表示为： x ( i ) 一s o ) + d ( f ) ( 2 1 ) 其中，s o ) 、d ( f ) 分别为语音信号和噪声信号的样值，s o ) 、d o ) 不相关，选取帧长为k 点，一帧信号可表示为 x w ( i ) 一s 。( f ) + d 。a ) ，0 sisk - 1 ( 2 - 2 ) 、s d 。表不经过分帧加面处理的信号。当s w ( i ) 一o ( o s i s k 一1 ) 时 ( f ) 一d 。a ) ( 2 - 3 ) 该帧信号为不含语音的纯噪声，信号能量可以表示为巳。k 荟- 1 h o ) 2 = k 荟- 1 d 。g ) 2 ( 2 4 ) 一般认为噪声为一零均值高斯过程，则d 。( f ) 的概率密度为 “阱研1 e x p ( 丢) ( 2 - 5 ) 其中，仃为噪声均方差。令e n o 一巳0 2 ，d w o q ) ad 。( i ) l a 2 则巳ozw d 。o o ) 】2 箭 ( 2 6 ) 如果d ( f ) ，d ( i + 1 ) ，d ( i + k - 1 ) 互不相关，即截( o ) ，d o ( 1 ) ，d ：( k 一1 ) 互不相关，由于d ：( i ) 服从标准正态n ( o ，1 ) 分布，所以以。o ( o ) ，d o ( 1 ) ，截僻一1 ) 相互独立，则鳄为一k 维z 2 分布，记为z 2 ( k ) ，其概率密度为 f j z 三一x 聊- l e 一，2 工 0 ，。 ) = 2 刖2 r ( k 2 ) “ 。 ( 2 7 ) 4 【0 x 0 p 。的概率密度则可表示为第二章噪声估计删。蕊知( 圹一e 寺删协8 ，【0 zso 对于语音帧，能量可表示为巳一萎【z 。( f ) 】2 t i 磊c - i 【s 。o ) 2 + 善【矗。g ) 】2 + 2 蓦s 。o ) 矗。o ) ( 2 9 ) o a t s 。( i ) 与d 。o ) 不相关，当k 值较大时，式( 2 9 ) 中右边第三项可近似为零，即巳一蓦 5 ( f ) 】2 + 蓦 d ( f ) 】2 ( 2 1 。) 已知薹【s ( f ) 】2 时，g 的条件概率密度函数即气的概率密度函数经过一定平移。对于一帧带噪语音，假设语音能量s ；薹 s o ) 】2 ，则该帧信号能量的条件概率分布为：删驴蕊知( 爿m e 等硝 l 0z ss 根据全概率公式，乞的概率密度函数可以表示为：厶 s ) 。工l ( y ) l ( x ly ) a y ( 2 1 2 ) 其中，f ( y ) 为s 的概率密度函数。由式( 2 1 1 ) 、( 2 1 2 ) 可作出厶o ) 、l ( x s ) 及误判概率图如图2 2 所示。图2 2 厶o ) 、厶o s ) 及误判概率由图可见，矗o s ) 是将厶o ) 向右平移了s 。选取适当的门限白，计算某帧 1 2 语音增强算法的研究与实现信号的能量e ，若e 岛，判定该帧为噪声，否则判定该帧为语音。本文中称将一帧纯噪声误判为语音的概率为e ，将一帧纯语音误判为噪声的概率为e 打。 ( 1 ) 未知参数口2 的确定为了得到参数仃2 ，对 ) 求导，令疋o ) 一0 ，可得。 ) 最大值点为： x i l l l k 一2 ，相应的厂0 ) 最大值点为 l k 一( k 一2 ) 盯2 ( 2 1 3 ) 如果我们能够统计出e n 概率密度最大点，即可求出口2 = i ( k 一2 ) 。为此对一定长度的带噪语音进行统计，得到短时能量的直方图，记作：一警， j 缸s 州j + 1 ) 缸 j = ，一2 ，刈，垅( 2 - 1 4 ) 其中a x 为直方图分割间隔，n 为分析帧数，q u ) 为能量位于i ，缸，( j + 1 ) 缸l 的帧的数目。求出q ( x ) 的最大值及其对应的j 一，令 z 一= ( j 一+ 1 2 ) a x ( 2 1 5 ) 从图2 2 可以看出，厶o ) 与丘 s ) 有部分重叠，但是由于语音信号的非平稳性，不同帧的s 值不同，其短时能量的概率密度尤o ) 将比较分散的分布在x 轴上。这样，对带噪语音进行统计，其短时能量的概率密度最大值点仍对应着乞概率密度最大值点。这一结论可以从图2 3 得到验证。图2 3 中图( a ) 为5 秒背景噪声短时能量方图，缸一4 3 0 1 0 5 ；图( b ) 为5 秒带噪语音( s n r 一0 ) 短时能量直方图，带噪语音由语音信号与图( a ) 所绘背景噪声相加而得，缸一4 3 0 x 1 0 5 ，第1 2 7 点为溢出点。两图所得x 嘲相等，均为2 7 3 x 1 0 7 。我们可用近似：一菇一一( 歹。+ 1 2 ) a x ( 2 1 6 ) l l l ii i 。l蛰l j 舢| i 。鬈j 立图2 3 短时能量直方图 ( b ) 耋| 嗽：懈量| 。耋| 嗽瓮等懈量| 。第二章噪卢估计我们通过连续统计一定长度的带噪语音信号的能量作出能量直方图，得到其短时能量概率密度的最大值，由此计算出口2 后，即可得出e n 的概率分布函数，根据所需的e ，可求出相应的门限白。 ( 2 ) 判决门限白的选取 z ：概率分布的图形如图2 4 所示。e n 的概率分布也可用图2 4 表示，只是x 轴， y 轴的单位应分别为仃2 和1 o 2 。对于指定的正数a ( 0 口 z 悸) 2 厶( 置) 厂o ) 出 ( 2 1 7 ) 的z ( k ) 为z 2 ( k ) 分布的上口分位点，如图2 5 所示。费歇( r a f i s h e r ) 曾证明，当k 充分大时，近似有： z ( 伞丢( z 。+ 2 4 t f i - 1 ) 2 ( 2 - 1 8 ) 图2 4z 2 ( k ) 分布图2 5z 2 ( k ) 9 布的_ l z a 分位点其中z 。为标准正态分布的上口分位点，相应的，巳分布函数的上口分位点为：气= 手( z 。+ - 1 ) 2 ( 2 - 1 9 ) 当k ；2 5 6 时，由式( 2 1 8 ) 可得： 2 。( 2 5 6 ) = 三1 ( 1 2 8 5 + 4 9 - x 2 5 6 - 1 ) 2 _ 2 8 5 ( 2 2 。) 所以巳o 1 2 8 5 a 2 ( 2 2 1 ) 由式( 2 - 1 3 ) 可得所以 = ( k 一2 ) 盯2 = 2 5 4 口2 ( 2 2 2 ) 1 4 语音增强算法的研究与实现 2 8 5 。瓦 ( 2 - 2 3 ) 因此，要求e t - , 1 0 时，e r = 2 8 5 2 5 4 ，其中可由式( 2 1 6 ) 得到。设某帧带噪语音中的语音信号能量s 与噪声的平均能量相等，即该帧信噪比s n r o d b ，则s 可表示为 s1 巳o 5 一x 0 5 ( 2 5 6 ) c r 2 2 5 6 x 2 ( 2 2 4 ) 由图2 2 可知： 2 正1l , ( x ) a x ( 2 2 5 ) 经数值积分得e h 一3 x 1 0 ，可见，对于s n r o d b 的带噪语音帧，将其误判为噪声的概率几乎为零。在实际的带噪语音信号中，一帧语音的能量有大有小，在语音起止部分，语音能量很小，s n r o d b ，对于这些帧的误判率也比较大；理论计算可得，s n r ；8 d b 时，e ，约为3 0 。总体来说，浊音信号能量较大，误判率低；清音信号能量较小，误判率高。以上推导中假设d o ) ，d ( i + 1 ) ，d ( i + k 一1 ) 互不相关，对于实际噪声，如果不满足此条件，e o 的概率密度函数将不同于式( 2 7 ) ，式( 2 2 3 ) 中的巳。的取值应根据e o 的概率密度函数及对应的概率最大值点的上a 分位点重新推导。但是，对于相关性弱的噪声，仍可采用式( 2 7 ) 近似e ：的概率密度函数。实验亦表明对于实际噪声，如果采用式( 2 2 3 ) 所示的判决门限，由此引起的e ，的误差并不大。判决门限岛计算得到之后，还要每隔t 秒进行更新，使其适应噪声特征的变化，达到更好的自适应消噪的效果。该算法最大的优点在于不需要预先给出噪声统计信息，且适用于缓变的非平稳噪声情况。从确定判决门限的方法可以看出，语音误判概率与口的选取有关。口越小，对噪声的误判越小，但对语音的误判则会增大。因此，在实际应用中，应该根据环境的不同来确定口的大小。在语音增强系统中，由于要从含噪语音中提取背景噪声，所以对嗓声识别率要求较高，口值应取得小一些。在语音识别系统中，由于要求提高语音识别率，例如语音识别中起止点判决，

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）语音增强算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）语音增强算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档