(信号与信息处理专业论文)基于emd方法的语音增强的研究.pdf_第1页
(信号与信息处理专业论文)基于emd方法的语音增强的研究.pdf_第2页
(信号与信息处理专业论文)基于emd方法的语音增强的研究.pdf_第3页
(信号与信息处理专业论文)基于emd方法的语音增强的研究.pdf_第4页
(信号与信息处理专业论文)基于emd方法的语音增强的研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(信号与信息处理专业论文)基于emd方法的语音增强的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于舳方法的语音增强的研究 摘要 随着通信技术的飞速发展,语音增强技术的研究越来越受到人们的关注,语音增强 主要是对带噪语音进行处理,从而达到改善语音质量,提高语音的清晰度、可懂度,易 于被人接受的目的。它在语音识别与编码、语音通信等领域中有着广泛的应用。而语音 在通信过程中不可避免地会受到各种噪声的干扰,使最终接受者无法接收到纯净的语音 信号,因此对语音增强技术的研究具有非常重要的理论意义与实际价值。 语音增强的算法多种多样,本文针对近几年比较流行且增强效果比较好的经验模态 分解方法进行了研究。它是一种新的、基于信号局部特征的和自适应的信号处理方法, 因而具有高效性,它特别适用于分析大量频率随时间变化的非线性、非平稳信号。具有 重要的理论价值和广阔的应用前景,目前已在语音增强领域中得到了广泛的应用。 本文首先详细阐述了语音增强的相关理论,及经验模态分解的基本原理和算法步骤, 总结了当前存在的四个问题:曲线拟合问题、端点效应问题、模态混迭问题、筛选终止 条件问题,并对基于e m d 方法的语音增强进行了深入的研究与实现。在此基础上,针 对e m d 中存在的端点效应问题,研究了其改进算法极值域均值模式分解,并提出了基 于极值域均值模式分解的语音增强的方法。通过实验证明了极值域均值模式分解方法可 以消除局部数据中隐含的直流分量,能够有效地抑制在e m d 方法中存在的端点效应问 题,明显提高带噪语音的信噪比。 针对增强后的语音中存在音乐噪声的问题,本文提出了将e m m d 与m m s e 相结合 的语音增强方法,通过理论分析和实验验证,表明该算法在低信噪比的条件下,对于带 噪语音可以在提高信噪比的同时,有效的改善语音信号的清晰度和可懂度。通过在0 d b 、 5 d b 条件下与谱减法、基于e m d 方法的语音增强、基于e m m d 方法的语音增强进行 对比,表明该方法在对带噪语音的处理方面具有一定的优越性。 关键词:语音增强;经验模态分解;极值域均值模式分解;最小均方误差 基于e m d 方法的语音增强的研究 a b s t r a c t t h er e s e a r c ho fs p e e c he n h a n c e m e n tt e c h n o l o g yi sm o r ea n dm o r ep o p u l a r , w i t ht h e r a p i dd e v e l o p m e n to fc o m m u n i c a t i o nt e c h n o l o g y s p e e c he n h a n c e m e n tc a nf i l t e rt h en o i s y s p e e c hs i g n a lt oi m p r o v et h eq u a l i t yo fi t ,a n dm a k et h es p e e c hm o r ec l e a r l ya n di n t e l l i g i b i l i t y s oa st ob ea c c e p t e de a s i l y s p e e c he n h a n c e m e n ti sw i d e l ya p p l i c a t i o ni ns p e e c hr e c o g n i t i o n a n dc o d i n g , s p e e c hc o m m u n i t ya n do t h e rf i e l d s b u ti nt h ep r o c e s so fs p e e c hc o m m u n i c a t i o n , t h es p e e c hs i g n a l sa r eo f t e nc o r r u p t e du n a v o i d a b l eb yv a r i o u sn o i s e s ,w h i c hm a k et h er e s u l ti n an o i s ys p e e c hs i g n a li n s t e a do ft h eo r i g i n a lp u r i t ys p e e c hs i g n a l t h e r e f o r e ,t h er e s e a r c ho n t h et e c h n o l o g yo fs p e e c he n h a n c e m e n tp l a y sa ni m p o r t a n tr o l ei nt h ep r a c t i c a ll i f ea n dp l a y sa g r e a tv a l u ef o rs o c i e t y t h e r ea r ev a r i e t i e so fs p e e c he n h a n c e m e n ta l g o r i t h m s i nt h i sp a p e r , t h et e c h n o l o g yo f s p e e c he n h a n c e m e n tm e t h o d b a s e do nt h e e m p i r i c a lm o d ed e c o m p o s i t i o n ( e m d ) i s r e s e a r c h e d t h ee m d p o p u l a ra n dh a sag o o dp e r f o r m a n c ei ns p e e c he n h a n c e m e n tf i e l d , w h i c hi san e w s i g n a lp r o c e s s i n gm e t h o d s i n c e i ti sb a s e do nl o c a lc h a c t e r i s t i co fas i g n a la n d a d a p t i v e ,i t i s h i g h l y e f f i c i e n ta n d e s p e c i a l l y s u i t a b l ef o r a n a l y z i n gn o n l i n e a ra n d n o n s t a t i o n a r ys i g n a l t h i sm e t h o dh a sa ni m p o r t a n tt h e o r e t i c a lv a l u ea n dw i d ea p p l i c a t i o n p r o s p e c t s c u r r e n t l yi ti sw i d e l yu s e di ns p e e c he n h a n c e m e n t f i e l d t h i sp a p e re l a b o r a t e st h eb a s i cc o n c e p t so fs p e e c he n h a n c e m e n ta n dr e l a t e dt h e o r i e s ,t h e b a s i cp r i n c i p l ea n dt h es t e p so fe m d s u m m a r i z e dt h em a j o rp r o b l e m si ne m d ,i n c l u d e d c u r v ef i t t i n g , e n d p o i n te f f e c t s ,m o d em i x i n ga n ds t e pc r i t e r i o n t h e nd o e sd e p t hr e s e a r c hi n s p e e c he n h a n c e m e n tb a s e do ne m d f o rt h ep r o b l e mo fe n d p o i n te f f e c t ,s t u d yt h ei m p r o v e a l g o r i t h me x t r e m u mf i e l dm e a nm o d ed e c o m p o s i t i o n ( e m m d ) ,a n dp r o p o s e dt h es p e e c h e n h a n c e m e n tm e t h o db a s e do ne m m d e x p e r i m e n tr e s u l t ss h o wt h a tt h ee m m dm e t h o dc a n e l i m i n a t et h ed c - c o m p o n e n ti m p l i e di nl o c a ld a t a ,r e s t r a i nt h ee n d p o i n ti ne m d e f f e c t i v e l y a n di sc a p a b l et oi m p r o v et h es n r f o rt h ee x i s t e n c em u s i c a ln o i s ei ne m m dm e t h o d ,m a k es o m ed e p t hr e s e a r c hi ns p e e c h e n h a n c e m e n tb a s e do nc o m b i n ee m m dw i t hm m s e t h r o u g ht h e o r e t i c a la n a l y s i sa n d e x p e r i m e n t a ls h o wt h a ti nl o ws n rc o n d i t i o n s ,t h ea l g o r i t h mi sp e r f o r m a n c eg o o dq u a l i t y , w h i c hi sn o to n l yc a ni m p r o v et h es n r ,b u ta l s o e f f e c t i v e l yi m p r o v et h ec l a r i t ya n d 哈尔滨工程大学硕士学位论文 i n t e l l i g i b i l i t yo ft h es p e e c hs i g n a l t h r o u g hm a k ec o m p a r i s o nw i t ht h em e t h o db a s e do n s p e c t r a ls u b t r a c t i o n ,e m d ,e m m d ,w ec a bc o m et o t h ec o n c l u s i o nt h a tt h ea l g o r i t h m p r o p o s e di nt h i sp a p e ri ss u p e r i o rt oo t h e rm e t h o di nt h es i g n a lp r o c e s s i n gf i e l d k e y w o r d s :s p e e c he n h a n c e m e n t ;e m p i r i c a lm o d ed e c o m p o s i t i o n ;e x t r e m u mf i e l dm e a n m o d ed e c o m p o s i t i o n ;m i n i m u mm e a ns q u a r ee r r o r 第1 章绪论 第1 章绪论 1 1 研究背景、选题的目的及意义 随着科技的发展,在人们实际生活中,语音通信已成为人们日常交流中必不可少的 一种方式。语音信号是信息交流最通常、最普遍的表达方式,目前语音信号已经在众多 领域都有着广泛的应用。然而,在现实生活中语音信号不可避免的会受到周围环境的影 响,比如背景噪声、传输媒介噪声、通信设备噪声、以及其它讲话者的干扰等,由于 存在这些噪声干扰,所以我们最终接收到的语音信号并不是完全纯净的语音信号,而是 受噪声污染后的信号,在实际应用之中,这些噪声会在很大程度上影响语音处理系统的 性能。 在语音编码系统中,由于低速率编码技术大多是基于语音生成模型的,而混合在语 音信号中的噪声会影响到我们对提取的语音模型参数,使提取的模型参数的准确度降 低,从而使重建后的语音的质量下降,可懂度降低。 对于语音通信系统来说,如果存在噪声就会影响有用语音信号的声学特征,使我们 很难分辨出语音信号,不易辨识,而且容易使人产生听觉疲劳。 在语音识别系统中,由于大部分的识别算法都是基于高信噪比或无噪声的环境的假 设进行的。然而,由于在实际环境中有噪声的存在会使输入信号的信噪比降低,从而使 整个语音识别系统的识别率降低,识别性能下降。 为了在强噪声环境下,从含噪语音信号中获得尽可能纯净的语音信号,为了提高语 音处理系统的稳定性,降低噪声对系统的影响,目前切实可行的办法就是在对信号的预 处理时增加语音增强这一步骤口 ”1 ,来减少噪音对算法性能的干扰。 语音增强是解决语音信号中的噪声污染的一种有效方法,它有两个主要目的:一是 改善带噪语音的质量,消除噪声干扰,使听者乐于接受,没有疲劳感,这是一种主观度 量;二是提高语音的可懂度,便于理解,这是一种客观度量心丌。采用语音增强算法,可 以提高语音处理系统前端预处理的抗噪声能力和输入信号的信噪比,它是语音处理与识 别系统的重要组成部分,而且在解决噪声干扰、改进带噪语音信号的质量、提高语音的 可懂度等方面发挥着非常重要的作用。因此寻求一种有效的语音增强算法对带噪语音信 号进行处理具有重要的研究价值。 哈尔滨工程大学硕士学位论文 1 2 国内外研究现状 语音增强的发展始于1 9 6 0 年f a n t 发表的著名的论文语音产生的声学理论t s l , 该论文初步建立了语音信号的数学模型,从而使人们开始注意语音增强的研究。语音增 强的研究到二十世纪七十年代达到了一个高潮,并取得了一些基础性的研究成果。其中 包括在七十年代末期,l i m 和o p p e n h e i m 提出的基于维纳滤波器的语音增强算法p 1 ;1 9 7 9 年s t e v e ne b o l l 提出的经典的谱相减法们;到了八十年代中期,e p h r a i m 和m a l a h 提出 的又一个经典算法基于最小均方误差估计( m i n i m u mm e a ns q u a r ee r r o r ,m m s e ) 的 语音增强方法川,在八十年代后又出现了许多较为经典的算法,其中m a u l a y 和m a l p a s s 提出的基于软判决的噪声抑制算法u 列具有较为深远的影响。 最近二十年的研究中,随着语音信号处理技术的发展,又涌现出许多新的语音增强 算法,如p f i l w a l 将卡尔曼滤波器副的思想引入到语音增强领域;e p h r a i m 提出的基于隐 马尔可夫模型的语音增强算法4 1 、此外还有小波变换“1 、麦克风阵列信号们、人工神经 网络u 7 1 、基于子空间的方法n 引、及离散余弦变换观等,然而在现实生活中的噪声的种类 千差万别、特性各不相同,这就使得实际中的语音增强算法趋于多样化,如某种算法在 某一特定的噪声环境下效果较好,但是在其它的噪声下,该算法的性能可能就会下降, 所以,到目前为止,还没有找到一种效果较好的统一算法能处理所有类别的噪声。所以 对语音增强的研究仍有很大的发展空间及研究价值。 1 3 论文的主要工作和结构安排 本课题主要是对基于经验模态分解方法的语音增强技术进行了深入研究。首先介绍 了通用的语音增强算法和经验模态分解的基本理论知识,在此基础上提出了基于极值域 均值模式分解的语音增强方法,该方法在提高分解速度的同时解决了经验模态分解中存 在的端点效应问题。但是仍然存在音乐噪声的问题,因此本文又实现了基于e m m d 与 m m s e 相结合的语音增强方法,取得了很好的语音增强效果。 本论文分为五章,组织方式如下: 第1 章:介绍本文的研究背景、选题的目的及意义,以及语音增强的国内外研究现 状,并给出了本文的主要工作和组织结构; 第2 章:介绍了语音增强的相关知识对语音特性、噪声特性、人耳感知特性进行了 分析,探讨了几种目前主流的语音增强算法的实现及其优劣,最后给出语音增强算法的 评价方法。 2 第1 章绪论 第3 章:介绍了经验模态分解的基本理论知识,e m d 的具体实现步骤及其存在的问 题,及e m d 在语音增强之中的应用。 第4 章t 在分析e m d 的不足之后,深入分析了其改进算法极值域均值模式分解及常 用的边界处理算法,提出了基于极值域均值模式分解的语音增强算法,通过实验证明 e m m d 可以解决e m d 中存在的端点效应问题,并且通过对比得出e m m d 在语音增强方 面优于e m d 的结论。 第5 章:针对基于e m m d 的方法的语音增强后的语音中存在音乐噪声的问题,提出 了基于e m m d 与m m s e 相结合的语音增强方法。并通过理论和实验验证了本文所提出方 法的有效性和可行性。 3 哈尔滨工程大学硕士学位论文 第2 章语音增强概述 2 1 语音和噪声特性 语音作为一种非平稳信号在实际环境中不可避免的会受到噪声的干扰,影响语音处 理系统的正常工作,为了抑制背景噪声、改善输出信噪比、提高语音通信质量使得语音 增强具有重要的应用价值,而且语音增强效果的好坏将直接影响到语音识别、语音编码 等后续研究工作。而在实际环境中由于噪声种类繁多,特性各不相同,而且语音处理系 统的应用非常广泛,因此实际之中不可能存在一种通用的算法,可以在处理各种噪声信 号中都能取得较好的效果。所以我们在研究语音增强算法的时候,为了得到较好的增 强效果,必须考虑其应用的场合及噪声的特性,还应充分了解语音和噪声的特性及人耳 的感知特性。 2 1 1 语音特性 语音信号是一种典型的非平稳信号,具有很强的时变特性渊,但是由于人类的语音 信号的形成过程与发音器官的运动关系密切,一般在短时间l o - - - 3 0 m s 内我们可以认为 信号是短时平稳的。在这段时间内我们可以近似的将语音的频谱特性和某些物理特征参 量看作是不变的。语音信号的这种短时平稳性是我们对语音信号进行分析处理的基础, 正是由于这种特性的存在,我们通常可以采用处理平稳随机过程的方法来对语音进行分 析和处理。 语音信号可以被分成清音和浊音两类信号,从如何产生语音的原理的角度上来讲, 两者的特性上具有有明显的差异,浊音的短时谱具有如下两个特点伫”: ( 1 ) 在时域上具有明显的周期性,而且语音的大部分能量都集中在低频段内; ( 2 ) 频谱表现为共振峰结构,共振峰按频率由低到高排列为第一共振峰、第二共振 峰,依次类推。 清音则没有明显的时域和频域特性,它类似于白噪声。 2 1 2 噪声特性 在实际生活应用之中,由于噪声环境的不同,噪声特性也各不相同,噪声可以是窄 带的或宽带的噪声、白噪声或有色噪声、声学的或电学的噪声、加性的或乘性的噪声, 甚至可以是其它无关的语音。经过人们多年的研究发现,对于某些非加性噪声,可以将 4 第2 章语音增强概述 其通过一定的变换转变为加性噪声。如乘性噪声( 或卷积噪声) 可以利用同态变换将其变 成加性噪声;而对于某些与信号相关的量化噪声则可通过伪随机噪声扰动的方法将其转 换成与信号独立的加性噪声。而加性噪声通常分为如下四类:周期性噪声、脉冲噪声、 宽带噪声及语音干扰2 2 2 3 1 。 ( 1 ) 周期性噪声 周期性噪声的频谱的许多离散的线谱。它的来源主要是发动机、电风扇等周期性运 转的机械设备以及电气干扰,特别是电源交流声等。我们可以采用梳状滤波器的方法来 抑制这类周期性噪声。 ( 2 ) 脉冲噪声 噪声脉冲即是在信号的时域波形中突然出现的窄脉冲。主要是由爆炸、撞击和放电 及突发性干扰等引起的噪声。消除该种噪声的影响的方法通常有两种:一为求出含有噪 语音信号幅度的平均值,然后将此均值作为去除脉冲噪声的判断阈值,当信号幅度大于 阈值时,则为脉冲噪声,我们需要在时域中将其滤除,反之则为有用信号;二为当脉冲 不太紧密的时候也可以根据相邻信号的采样值通过内插的方法将脉冲噪声在时域上进 行平滑,从而能在重建语音信号中去掉脉冲噪声。 ( 3 ) 宽带噪声 宽带噪声只在语音间歇期才单独存在,而且与语音信号在时域和频域上几乎完全重 叠,所以要消除宽带噪声是非常困难的。它的的来源众多,如热噪声、气流噪声、随机 噪声和量化噪声等。对于平稳的宽带噪声,我们可将其认为是高斯白噪声,可以进行白 化处理来去除;对于非平稳的宽带噪声,一般需要采用非线性处理的方法来去除。 ( 4 ) 语音的干扰 干扰语音信号和待处理的语音信号同时在同一个信道中传输时所形成的干扰称为 语音干扰。我们可以利用他们的基音差别来对有用语音信号和干扰语音进行区分,去除 干扰语音的方法是首先利用梳状滤波器提取基音及语音信号的各次谐波成分,然后再通 过一定的方法恢复出有用的语音信号,从而就达到了去除语音干扰的目的。 2 1 3 人耳的感知特性 由于语音增强效果的最终度量是人的主观感受,所以了解人耳的感知特性、理解其 原理将有助于我们对语音增强技术的深入了解,这将有助于语音增强的发展。 经过很多学者的研究,人们对于人耳的感知特性目前已有一些有用的可以用于语音 增强中的结论2 3 即习: 哈尔滨工程大学硕士学位论文 ( 1 ) 人耳通过语音信号中各频谱分量幅度来获得对语音的感知,而且人耳对相位不 敏感,我们可以利用这一特性来对语音进行恢复。 ( 2 ) 人耳对频谱分量强度的感受可以看成是频率与能量谱的二元函数,而响度则与 频谱幅度的对数成正比。 ( 3 ) 人耳对频率感受与频率的对数值成正比的关系。 ( 4 ) 人耳具有掩蔽效应,所谓听觉掩蔽现象是指当两个强度不同的声音作用于人耳 时,一种声音成分由于另一种声音成分的存在而不被人所感知m 1 。掩蔽程度的高低取决 的于声音强度与频率,频率越是接近于临近分量着掩蔽效应越好,反之亦然。 ( 5 ) 在语音的短时谱分析中,共振峰是对语音的感知的一个非常重要的影响因素。 特别是第二共振峰的作用尤为重要,基于这一特性在对语音信号进行处理时,进行高通 滤波并不会对语音信号的可懂度造成影响。 ( 6 ) 人耳除了可以感受声强、音调、音色和空间方位外,入耳还可以在两个人以上 的讲话环境下分辨出听话者所感兴趣的声音,这种感知能力是由人体内部语音理解机制 决定的,这种能力常被称为“鸡尾酒会效应州2 2 1 。 2 2 常用语音增强算法 语音增强作为抗噪声技术中的一种,是一种有效的解决噪声污染的途径。目前语音 增强已经发展为语音信号数字处理的一个重要分支。由于噪声种类的繁多,特性也各不 相同,因此针对各类噪声的语音增强的方法也有所不同。为了能够较好的了解这些算法 的性质,为之后进行进一步研究打下基础,本节简要介绍和分析几种目前常用的语音增 强处理算法。 2 2 1 谱减法 语音增强的经典算法之一谱减法,它的基本思想是,它是基于加性噪声与短时平稳 的信号相互独立的假设的前提下进行的,利用目标语音处于静音或无声状态时刻,对背 景噪声的统计特性进行估计,然后再从带噪的语音功率谱中减去噪声谱功率谱,这样就 得到了纯净的语音信号的频谱。由于人耳对于语音相位不敏感,所以该方法主要针对的 是短时幅度谱,在对语音信号的相位进行恢复时采用的相位是带噪语音信号的相位伫7 1 。 假设离散的带噪语音信号为y ( n ) 可以表示为: j ,( 刀) = j ( 刀) + d ( 刀) 一o c ,z ( 2 2 3 ) 增益函数可以通过下式计算得到: q = r ( 1 5 ) 型生m ( _ 0 5 ;1 ;一圪) 7 ,量 :r ( 1 5 ) 婴唧( 一马们+ 圪) 厶( 娶+ 圪( 马】222 圪 ( 2 2 4 ) 增益函数瓯受先验信噪比磊的影响很大,在实际中,通常情况下磊又是未知的, 所以我们必须先对其进行估计。 最= 日隅 1 2 ) ( 2 - 2 5 ) 我们可以在语音处于无声段的时候通过求噪声的统计平均得到以( 后) ,由于语音是 时变的,所以在求取以( 七) 时就必须对每一帧进行重新估计例。 1 、最大似然估计 死( 肌) = m a x a 死, ( 朋一1 ) + ( 1 一口) 以( 聊) 夕,1 + 善】善0 ( 2 2 6 ) 岛( 朋) = m a x z k ( m ) - i ,鲷善0 ( 2 2 7 ) 其中,瓦( 优一1 ) 表示上帧的后验信噪比,善为一个非负数,口、的值是可调的 1 0 第2 章语音增强概述 主要由经验或者主观试听锁决定,通常取0 口1 ,1 。 2 、 回馈估计 “肌) = 磷沏一”一口) m a x y k ( 肌) - 1 ,纠 ( 2 - 2 8 ) 式中利用了包( 聊一1 ) 为上一帧的处理结果,所以这种方法叫回馈估计。 音乐噪声一问题是许多语音增强算法都会出现的问题,m m s e 法在求取信号控制 增益的过程中,充分利用了输入信号的先验信噪比,并且这是一个非线性的平滑过程, 所以m m s e 法能够解决前面所介绍的增强方法中存在的“音乐噪声 的问题p 2 1 。同时, m m s e 算法得到了语音的提高可懂度与提高信噪比的折衷,而且适用于低信噪比的环 境,使语音增强的应用范围更加广泛,但是由于要事先统计各种参数的特征,所以算法 运算量大,实时性不好,这就限制了m m s e 算法的应用。基于上述原因,很多学者对 其进行了深入研究,如考虑语音可以认为是短时平稳的特性,帧间频谱的相似性,前后 两帧的频谱分布的相互约束等因素,人们提出了一种基于帧问频谱分布约束的m m s e 估计方法;又有人受人耳对声音强度的感受与语音信号的频谱的幅度的对数成正比的关, 系的启发,研究了得到了基于频域分布约束条件下的短时对数谱的m m s e 估计方法。 实时性不好川。 2 2 4 子空间分解法 1 9 9 5 年,e p h r a i m 等人将子空间方法用于语音增强n 叼,该方法是根据子空间准则, 将带噪信号分解成为信号子空间和噪声子空间,其中信号子空间是含有信号和噪声的成 分,而噪声子空间仅含有噪声的成分,这样我们就可以通过抑制噪声子空间同时在信号 子空间中利用最优估计对原始语音进行估计来达到降噪的目的1 ,进而实现了语音增强 的目的。由于在对信号进行估计时不能同时在减小信号失真和减少噪声上取的很好的 效果,因此就有在时域上加限制条件和在频域上加限制条件的两种估计方法例。 时域限制: r a h i n ( 一2 - 一2 9 一) h () 1, i 靠s 眠o 口1( 2 3 0 ) 频域限制: r a i n e l 甜;r w1 2 ) 吼靠 k = 1 ,2 ,m e i 1 2 ) = 0 k = m + 1 ,一k ( 2 - 3 1 ) 哈尔滨工程大学硕士学位论文 其中,分别为信号失真能量及残余噪声能量,足表示含噪信号空间的总维数, m 为信号子空间的维数,而相应的残余噪声的第k 个谱分量用蚝t 厂w 表示,噪声方差用露 表示。 在基于子空间的语音增强算法是基于下面的假设例: ( 1 ) 语音信号的短时平稳信号,且均值为零; ( 2 ) 噪声为随机白噪声; ( 3 ) 语音信号与噪声信号相互正交; ( 4 ) 所有的信号的统计评价都可以由时间平均来代替,即信号具有各态历经的性质; 我们可以通过信号的时域约束条件推导出语音信号在失真最小时候的最优估计器。 纯净语音信号在线性信号模型可以表示为: s = 少y ( 2 3 2 ) 其中1 l ,为k x m 的矩阵,其秩为m ( m ) ,y 是m 1 的矩阵。s 的协方差矩阵 为: r s = e s s 丁 = y 墨y 7 ( 2 3 3 ) 其中墨为】,的协方差矩阵,且墨为正定的,匙的秩为m 。 带噪语音信号可以表示为: x = s + n = y 】,+ ( 2 3 3 ) 其中x 、s 和分别表示k 维的带噪语音、纯净语音及噪声向量。 纯净语音信号的估计用蜃表示,露= h x ,其中日为一个k x k 阶的矩阵。则估计 误差占为: 占= s - s = ( h - i ) s + 日n = + 知 ( 2 3 4 ) 其中,和s 分别表示语音信号的失真和残留噪声。相应的能量分别为: 菇= 研】_ 护( 研岛】) = t r ( h r s 一舰s 一匙日丁+ 匙) ( 2 3 5 ) 氐- - 2 = 研t e n = 护( 研知】) = t r ( h r n h r ) ( 2 3 6 ) 因此,最优估计我们就可以通过求解( 2 3 7 ) 式得到, 在爵k 占2 的条件下 h o p , = a r g r a i n - - 2 ( 2 3 7 ) h p 2 是一个正的常量。利用l a g r a n g e 乘子法最终可以得到: k = 匙( 咫+ 如) - 1 ( 2 3 8 ) 式中的i t 为l a g r a n g e 乘子。利用r s 的特征分解匙= u a s u r ,可重写为: = u a s ( s + 7 r x u ) 一1 u r ( 2 3 9 ) 第2 苹语音增强概述 其中,【厂表示归一化的特征向量矩阵,。为足的对角特征值矩阵。设白噪声的方 差为:则有灭= 仃j ,增强后的语音信号可以为: s = h o 暾x ( 2 - 4 0 ) 基于子空间的语音增强方法的优点是产生的残余噪声较小,缺点是由于要分解 n xn 维的协方差矩阵,其运算复杂度为o ( n 3 ) ,运算的复杂度较大网。子空间法由于 其可以本身具有控制信号失真和残留噪声的平衡机制,并在消除音乐噪声方面有很好的 效剽3 3 1 ,因此采用各种改进的子空间方法实现语音增强成为趋势。 2 2 5 小波分析 小波变换是分析和处理非平稳信号的一种时频分析方法,它是一种以信号的时间一 尺度为特征的分析方法,它的优点是能有效的从信号中提取有用的信息,小波变换克服 了短时傅立叶变换固定分辨率的缺点,具有多分辨分析的特点田1 。小波变换在时域、频 域都可以交换的表征信号的局部特征,我们可从信号的高频部分得到较好的时间分辨 率;而在信号的低频部分信号则具有较好的频率分辨率瞄引,而小波变换的这一特征正好 与语音信号的特征相一致,目前小波变换已经在语音处理、图像处理、地震信号分析、 数据压缩等方面得到了广泛的应用1 。现今,人们已经开始将小波变换理论应用到语音 增强上来,有不少人正在对此进行研究,也提出了一些新的算法,并取得了一些成果p 剞。 在数学上,小波去噪问题的本质是一个函数逼近问题,即如何在由小波母函数伸缩 和平移版本所展成的函数空间中,根据提出的衡量准则,寻找对原信号的最佳逼近,以 完成原信号和噪声信号的区分。因此,小波去噪方法也就是寻找从实际信号空间到小波 函数空间的最佳映像,以便得到原信号的最佳恢复。从信号学角度看,小波去噪是一个 信号滤波的问题,而且尽管在很大程度上小波去噪可以看成是低通滤波,但是由于在去 噪后,还能成功地保留图像特征,所以在这一点上又优于传统的低通滤波器。由此可见, 小波去噪实际上是特征提取和低通滤波的综合。其去噪的基本思路可用下面的框图来概 括,即带噪信号经过预处理,然后利用小波变换把信号分解到各尺度中,在每一尺度下 把属于噪声的小波系数去掉,保留并增强属于信号的小波系数,最后再经过小波逆变换 恢复检测信号。其流程框图如下p 引: 图2 3 小波语音增强流程图 基于小波变换的语音增强方法通常是基于阈值的方法,最常用的有硬阈值法、软阈 哈尔滨工程大学硕士学位论文 -i i 一 值两种方法闻。 硬阈值法主要是保留信号的低频成分,去除大部分的高频成分,对于带噪语音来说 主要是去除高频噪声,但语音信号中的清音部分和噪声很接近,这样就会使信号产生失 真3 6 1 。 软阈值法主要有四种:( 1 ) 采用无偏似然估计原理阈值选择;( 2 ) 采用极大、极小 原理阈值选择;( 3 ) 启发式阈值选择;( 4 ) 固定形式阈值选择p q 。在这4 种方法中,前 两种阈值选取规则只将部分系数置0 ,当信号的高频信息有一部分在噪声范围内时,可 以用这两种方法将弱小信号提取出来;而后两种阈值在去除噪声时,显得更为有效,但 有可能把有用的高频特征当作噪声去除。 小波变换在实现信号的时频分析局部化的同时能够使信号保留很高的时域、频域特 征分辨特性,这是通过小波基的伸缩和平移来实现的,由于在合适的尺度下,带噪声信 号中的有效成分和噪声成分二者会呈现出截然不同的特性,所以小波变换利用了信号和 噪声在多尺度空间中可以呈现出的不同的传递特性这一特征来对信号和噪声加以区分; 如今,小波变换技术已经分析和处理非平稳信号方面显示了很高的优越性,但它是仍然 是以f o u r i e r 变换为基础的,因此有不能同时保留时间和频率的信息这一缺陷,同时还 有选择匹配小波基的困难,这都限制yd , 波变换的应用p ”。 2 2 6 听觉掩蔽用于语音增强 当两个响度不同的声音同时作用于人耳时,人耳对于响度较低的频率成分的接收会 受到响度较高的频率成分的影响,使响度较低的成分变得不易被察觉,这种现象被称为 人耳听觉的掩蔽效应口嵋7 1 。基于这种思想,我们可以对噪声和信号同时存在于某一频带 内的现象,用某种信号来掩蔽没用的噪声;也可以用信号的快变成分来掩蔽加性噪声。 基于听觉掩蔽效应的语音增强方法是在频域基于一种听觉掩蔽门限的不等式准则进行 的,依据该准则动态的选择一个参数自适应变化的非线性函数估计来得到语音短时谱幅 度,最终实现我们语音增强的目的【3 1 1 。基于人类听觉特性的语音增强就是基于这样的思 想,它在减少语音的听觉失真与加强噪声抑制之间取得了良好的折衷p 1 。当我们利用人 耳听觉的掩蔽效应在进行语音增强时,实际上没有必要将所有的噪声全部抑制掉,我们 只有依据人耳的掩蔽效应去除一部分噪声,是最后的残留噪声不被人所感知即可,这种 方法的优点是:在消除噪声的同时可以减少语音失真现象的产生。 1 4 第2 章语音增强概述 2 2 7 卡尔曼滤波 维纳滤波器只能保证在平稳条件下最小均方误差意义的最优估计,同时采用维纳滤 波并没有完全利用语音的生成模型,卡尔曼滤波器可以弥补这些缺陷。 卡尔曼滤波同样也是在非平稳条件下对信号的最小均方误差意义下求取最优估计, 在对语音信号的观测模型进行估计时,它是用线性状态空间方程来表示的,卡尔曼滤波 引入了卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立 的问题瞄1 ,其具体实现过程如下为口: 在f 时刻,可以利用由当前抽样值和此前的p 个相继的抽样只构建一个向量x ( f ) , 定义为: x ( ,) = 【s o ) ,s ( t - 1 ) ,s ( t p ) 】7 ( 2 4 1 ) 此时,可以用( 2 - 4 2 ) 所示的状态空间模型来表示语音信号a r 生成模型: x o + 1 ) = 乃o ) + g u ( t ) ( 2 - 4 2 ) z ( t ) = 9 7 x o ) + v ( f ) ( 2 4 3 ) 其中,为一个( p + 1 ) ( p + 1 ) 的状态转移矩阵: f = 一q 一 1o o0 00 鸭0 0o 00 10 攀 ( 2 - 4 4 ) g 是一个( p + 1 ) x l 的向量,由下式给出: g - 1 0 0 1 ( 2 4 5 ) 由以上,的表达式我们可以发现矩阵f 具有下面特征,除了第一行及下对角线全部 为1 外,其它的元素都是0 。所以,的第一行表示的应该是语音信号模型参数,其它的 每一行起到对信号进行单位延迟作用;向量g 的作用是用来提取当前抽样值的。 条件均值表示为: j ( f ) = e g 。x ( t ) iz ( 0 ) ,z ( 1 ) ,z o ) ) = 9 7e x o ) iz ( o ) ,z ( 1 ) ,z o ) ( 2 4 6 ) 在已知语音参数喁,口。,西、噪声参数蠢的条件下,式( 2 4 6 ) 中的条件均值 就可以利用卡尔曼滤波器计算得到。 1 5 哈尔滨工程大学硕士学位论文 下面是卡尔曼滤波算法的具体过程口引: 曼( rf ) 表示在时刻f 对t 时刻的状态向量的最优估计,与这个估计值所对应的误差协 方差矩阵表示为p ( t 1 7 ) ,当f 篁f 时,有: 量( ft ) = e x ( f ) lz ( 0 ) ,z ( 1 ) ,z ( f ) ) ( 2 4 7 ) p ( t i f ) = e ( 曼o l f ) 一x ( f ) ) ( 曼( f lr ) 一x ( ,) ) r ) ( 2 4 8 ) 曼( fir ) 及p ( tlf ) 可以通过经典的卡尔曼滤波方程在时间上递归求取,在每个抽样时 间间隔内,递归计算可分为时间更新和测量更新,即: ( 1 ) 时间更新: 时间更新是在已知先验噪声统计特性、动态系统的参数的情况下,当前时刻的估计 由其前一时刻状态估计和它的误差协方差矩阵得到,即: k ( t i t - 1 ) = 威o 一1 i t - 1 ) ( 2 4 9 ) p(tf 一1 ) = f p o 一1i ,一1 ) f 7 + g g 7 ( 2 5 0 ) ( 2 ) 测量更新: 测量更新是依据当前测量值的信息对传播到当前状态的的状态估计及误差协方差 矩阵进行调整,即: 曼o lr ) = 曼o i t 一1 ) + 尼o ) ( z o ) 一9 7 j ( t i t - 1 ) ) ( 2 5 1 ) p ( t ir ) = p ( t i t - 1 ) - k ( t ) 9 1 p ( t i t - 1 ) ( 2 5 2 ) 上面的更新方程中向量颇) 称为卡尔曼增益,它的计算公式为: 砸,2 熬 5 3 ) 从式( 2 5 3 ) 可以看出,只有误差协方差矩阵p ( tlf 1 ) 的第一列与卡尔曼增益有 关,而增益向量后( f ) 则表示了在,一1 时刻对其之前连续的p 个时间间隔内接收到的观测 数据对s ( f ) 的估计误差及对s ( t - 1 ) ,s ( t 一2 ,s ( t - p ) ) 的估计误差的相互关系,同时我 们也可以看到卡尔曼增益向量的每个元素都与测量噪声的平均功率成反比的结论,因 此,当噪声分量比较强的时候,仅仅需要对预测状态向量做很小的改动即可,反之亦 然口1 1 。 在使用卡尔曼滤波的情况下,估计的语音信号可以表示为 j ( f ) = 9 7 曼( r l f ) ( 2 5 4 ) 通过上述分析我们可知卡尔曼滤波器由两部分组成,一是动态过程模型,由状态 转移矩阵实现预测功能;二是回馈修正环节,它把增益和预测误差的乘积作为强制函数 作用在模型上。正因为如此,卡尔曼滤波可以在非平稳条件下保证最小均方误差意义下 1 6 第2 章语音增强概述 的最优。卡尔曼滤波的一个显着特点就是具有递归性,这个特点的优点是一旦得到观测 值就可以进行处理,而不需要把任何观测值存储起来。然而在滤波过程中,要分别求出 最佳增益矩阵、预测误差协方差矩阵和估计误差协方差矩阵,运算量太大,因此限制了 它的应用例。 2 3 语音增强的质量评价 语音增强的主要目的是尽可能地消除带噪信号中的噪声,得到纯净的语音信号,衡t 量语音增强性能好坏的一个重要准则就是信噪比( s i g n a ln o i s er a t i o ,s n r ) 的提高,当 它不是唯一准则,由于人是语音信号的最终接受者,根据人的主观感受,通常将清晰度 和可懂度作为衡量语音质量的两种标准,清晰度是衡量语音中字、单词和句子的清晰程 度;可懂度则是对讲话人的辨识水平p ”。对语音质量的评价涉及的内容比较多,它不但 涉及到语音学、语言学和信号处理等领域,还与心理学、生理学等有着密切的联系,因 此对语音质量的评价是一个相当复杂而且困难的问题,经过国内外很多学者多年的研 究,到目前为止已经提出了很多种语音质量评价的方法,大体上可以以将语音质量评价 的方法分成下面两类:主观评价和客观评价【3 7 j 8 1 。 2 3 1 主观评价 主观评价就是以人为主体来对语音的质量进行评价的一种方法,评价结果更加接近 人类听觉系统对语音质量的真实感受,基本原理是一组测试者通过对原始语音和测试语 音的对比,然后再根据某种事先约定的尺度的等级来对失真语音的质量进行等级划分, 它是测试者对我们所测语音质量好坏程度的一种主观印象的反映p q 。目前常用的语音质 量主观评定方法主要有,平均意见得分( m e a no p i n i o ns c o r e ,m o s ) ,判断韵字测试得 分( d i a g n o s t i cr h y m et e s t ,d r t ) ,判断满意度测量得分( d i a g n o s t i ca c c e p t a b i l i t y m e 2 l s u r e ,d a m ) 等p 引。 ( 1 ) m o s 得分法 m o s 得分法是在绝对等级评价法的基础上发展起来的,它是对语音整体满意度及 语音通信系统质量的一种评价方法p 们。m o s 得分法采用的是5 级评分标准,测试者首 先是知道这五个等级的划分规则,然后再对待测语音进行评价,从这已知的5 个等级中 选择一个与待测试语音比较符合来作为对它的语音质量的评价结果,这样在所有的评听 者对待测试语音评价之后,将他们的评价结果进行加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论