(电路与系统专业论文)基于听觉掩蔽效应的小波包语音增强方法研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于听觉掩蔽效应的小波包语音增强方法研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于听觉掩蔽效应的小波包语音增强方法研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于听觉掩蔽效应的小波包语音增强方法研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于听觉掩蔽效应的小波包语音增强方法研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(电路与系统专业论文)基于听觉掩蔽效应的小波包语音增强方法研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘赞 摘要 随着时代的进步,各种计算机语音应用系统与通信技术飞速发展。许多性能 优良的语音系统使用了语音增强技术。语音增强的目的是消除背景噪声的影响, 改善语音质量,提高人们问的通话的清晰度,提高各种后续语音处理系统的运行 效果等。随着小波分析的提出,在时频小波域进行的语音增强成为人们的研究热 点之一。 随着对小波分析研究的展开,人们提出了在语音处理领域有重要作用的听觉 小波包分解方法,为语音增强方法丌辟了一片令人期待的新领域。鉴于人耳听觉 特性与最小值统计方法在频域语音增强方法中运用已经取得的良好效果,本文将 在小波域中对这些方法的基本原理进行研究并将这些方法修改应用于时频小波 域的语音增强处理中。 本文系统研究了基于各种听觉感知特性的小波时频域语音增强算法,主要研 究工作如下: 1 分析了听觉小波包分解在语音增强中的应用。本文介绍的单通道语音信 号的听觉小波包分解方法,依掘现实中人耳存在临界带的特性,把语音信号分解 到各个与临界带对应的听觉小波子带当中,便于迸一步的去噪处理。 2 给出了在小波域运用最小值统计方法进行小波阈值估计的方法。此方法 利用修改的最小值统计方法在各个听觉小波子带中动念跟踪估计出噪声能量,并 根据此噪声能量计算小波阈值。实验表明,本文的闽值估计算法能够在有色时变 噪声环境下,动念跟踪噪声能量并设置阈值,为后续的小波闽值函数去噪方法提 供有效保证。 3 提出了基于人耳听觉掩蔽效应的阈值函数方法。根据不同频率i b j 的信号 会出现掩蔽,影响入耳的听觉阀值这一特性,构造一种能够根据当日,j - 语音信号在 各个频率段的分布而产q 三的掩蔽闽值,动态调节函数参数以控制抑制噪声的强度 的阈值函数。实验表明,本文方法可以达到良好的背景噪声抑制与产生较小的处 理失真,取得了较好的增强效果。 关键词:语音增强听觉感知听觉小波包分解最小值统计听觉掩蔽阈值函数 a b s t r a c t ab s t r a c t w i t ht h ep r o g r e s so fs o c i e t y , s p e e c hp r o c e s s i n gs y s t e m sa n dc o m m u n i c a t i o n t e c h n o l o g ya r er e q u i r e da n dd e v e l o p i n gv e r yq u i c k l y m a n yo ft h es p e e c hs y s t e m sa r e u s i n gt h es p e e c he n h a n c e m e n tt e c h n o l o g y t h ep u r p o s eo fs p e e c he n h a n c e m e n ti st o r e m o v et h eb a c k g r o u n dn o i s ea n di m p r o v es p e e c hq u a l i t y , r a i s et h ed e f i n i t i o no ft h e s p e e c ha n di m p r o v et h er o b u s to ft h ef o l l o w u ps p e e c hp r o c e s s i n gs y s t e m s a st h er e s e a r c hg o i n go ni nw a v e l e ta n a l y s i s ,t h er e s e a r c h e r sh a v eb e e np r o p o s e d a na u d i t o r yw a v e l e tp a c k e t s p e e c hd e c o m p o s i n gm e t h o di nt h ef i e l do fs p e e c h p r o c e s s i n gs y s t e m s a n di tp l a y sa ni m p o r t a n tr o l ea n do p e n su pa ne x c i t i n gn e wf i e l d i nt h es p e e c he n h a n c e m e n t g i v e nt h eh u m a na u d i t o r yc h a r a c t e r i s t i c sa n dt h e m i n i m u mv a l u eo fs t a t i s t i c a lm e t h o d si nt h ef r e q u e n c yd o m a i ns p e e c he n h a n c e m e n t m e t h o dh a sb e e nm a d eg o o dr e s u l t s ,t h i sa r t i c l ew i l ls t u d yt h eb a s i cp r i n c i p l e so ft h e s e m e t h o d sa n dm o d i f yt h e s em e t h o d st oa p p l yi nt h et i m e f r e q u e n c yw a v e l e td o m a i n s p e e c he n h a n c e m e n tp r o c e s s i n g t h i sp a p e rs t u d i e dt h es p e e c he n h a n c e m e n ta l g o r i t h m sb a s e do nt h ec h a r a c t e r i s t i c s o fa u d i t o r yp e r c e p t i o ni nt i m e - f r e q u e n c yd o m a i n ,t h em a i nw o r ka r ea sf o l l o w s : 1 a n a l y z et h ea u d i t o r yw a v e l e tp a c k e td e c o m p o s i t i o ni nt h es p e e c he n h a n c e m e n t , i n t r o d u c eaa u d i t o r yw a v e l e tp a c k e td e c o m p o s i t i o nm e t h o di nt h es i n g l e - c h a n n e l s p e e c hs i g n a l s t h i sd e c o m p o s i t i o nm e t h o di sb a s i n go nt h er e a l i t yt h a tt h e r ea r e c r i t i c a lb a n d si nt h eh u m a ne a r s d e c o m p o s i n gt h es p e e c hs i g n a lt oe v e r yc r i t i c a lb a n d a n dt h ec o r r e s p o n d i n gw a v e l e ts u b b a n d sm a k e st h es p e e c h s i g n a le f f e c t i v e l y c o n c e n t r a t e da n de a s yt od e a lw i t hi nt h ef u r t h e rd e - n o i s i n gp r o c e s s i n g 2 p r o p o s eat h r e s h o l de s t i m a t i o nm e t h o du s i n gt h em i n i m u ms t a t i s t i cm e t h o d i t c a nt r a c kt h en o i s ee n e r g yd y n a m i c a l l yi nt h ea u d i t o r yw a v e l e ts u b - b a n d sa n ds e tu pa r e a s o n a b l et h r e s h o l d e x p e r i m e n ts h o wt h a tt h i sm e t h o dc a nd y n a m i c a l l yt r a c kt h e n o i s ee n e r g ya n ds e tt h ew a v e l e tt h r e s h o l di nt h et i m e v a r y i n gc o l o r e dn o i s e e n v i r o n m e n t ,p r o v i d i n ga l le f f e c t i v eg u a r a n t e et ot h ef o l l o w u pw a v e l e td e - n o i s i n g p r o c e s s 3 p r o p o s eam a s k i n gt h r e s h o l df u n c t i o nb a s e do nh u m a na u d i t o r y a c c o r d i n gt ot h e p h e n o m e n o nt h a tt h es i g n a l si nd i f f e r e n tf r e q u e n c i e sw i l li n f l u e n c ee a c ho t h e ra n d e f f e c tt h eh u m a ne a r sh e a r i n gt h r e s h o l d at h r e s h o l df u n c t i o ni sp r o p o s e dt h a tc a n a d ju s tt h et h r e s h o l dp a r a m e t e rt oc o n t r o lt h es u p p r e s s i o no ft h en o i s ea c c o r d i n gt ot h e m a s k i n gt h r e s h o l dr e s u l t e db yt h ec u r r e n td i s t r i b u t i o no ft h es p e e c h t h ee x p e r i m e n t s s h o wt h a tt h i sm e t h o dh a v eg o o dd e n o i s i n ga b i l i t ya n dh a v eas m a l ls p e e c h a b s t r a c t p r o c e s s i n gd i s t o r t i o n ,a c h i e v eag o o de n h a n c e m e n tr e s u l t k e yw o r d s :s p e e c he n h a n c e m e n t ;a u d i t o r yp e r c e p t i o n ;a u d i t o r yw a v e l e tp a c k e t d e c o m p o s i t i o n ;t h em i n i m u ms t a t i s t i c a l ;a u d i t o r ym a s k i n g ;t h r e s h o l df u n c t i o n 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名:塑白厶巷一 签字同期: 竺21 苎! 么星 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 口公开口保密( 年) 作者签名猃瞄4 丞 签字日期: 翌21 篁:墨 导师签名: 签字日期: 2 互:篁:丛 第一章绪论 第一章绪论 1 1 语音增强的应用背景及目的 二十一世纪是信息技术飞跃发展的世纪,人类不断通过各种手段交换着各种 信息。语音作为人类交流最主要的信息,也在不断出现新的传递方法。从古代面 对面的交流,到后来用留声器和录音机,再后来电话的普及,到现在更是以移动 通讯,网络电话为载体进行更方便、快捷和有效的传递。可以看出人类的每一次 重大的技术革命都会带来通讯手段的新的飞跃,这是人类渴望交流的需要。通信 或信息交换己成为人类社会存在的必要条件,正如衣食住行对人类是必要的一 样。语音作为语言的声学表现,是人类交流信息最自然、最有效、最方便的手段 之一。自动语音处理系统的应用也越来越广泛,例如车载声控设备的应用,说话 人识别,有声语言学习等。 然而,人们在语音通信过程中不可避免地会受到来自周围环境和传输媒介引 入的噪声、通信设备内部电噪声、乃至其他讲话者的干扰。这些干扰最终将使接 收者接收到的语音不再是纯净的原始语音,而是被噪声污染过的带噪语音。例如, 汽车、街道、机场中的电话,常受到强背景噪声的干扰,严重影响通话质量。而 且环境噪声的污染使得许多语音处理系统的性能急剧恶化。例如,语音识别己取 得重大进展,正步入实用阶段。但目前的语音识别系统大都是在安静环境中工作 的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。 低速率语音编码,特别是参数编码,也遇到类似问题由于语音生成模型是低速 率编码的基础,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建 语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,必须加入语音增 强系统,或者抑制背景噪声,以提高语音通信质量;或者作为预处理器,以提高 语音处理系统的抗干扰能力,维持系统性能。因此,研究语音增强技术在实际中 有重要价值。目前,语音增强己在语音处理系统、通信、多媒体技术、数字化家 电等领域得到了越来越广泛的应用。 语音增强的主要目标是从带噪语音信号中尽可能恢复纯净的原始语音。然 而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。 因此,语音增强的目的主要有两个:一是改进语音质量,消除背景噪音,使听者 乐于接受,不感觉疲劳,这偏于主观度量;二是提高语音可懂度,这偏于客观度 量。这两个目的往往很难同时满足。目前有一些对低信噪比带噪语音进行语音增 强的方法,可以显著地降低背景噪声,改进语音质量,但并不能提高语音的可懂 度,甚至略有下降。 随着数字信号理论的成熟,语音增强发展成为语音信号处理的一个重要分 第一章绪论 支。进入9 0 年代后,d s p 技术的发展和成熟使语音增强的实时实现成为了可能。 语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学 范畴。 1 2 语音和人耳的感知特性 语音是一个时变的、非平稳的随机过程。人类发声系统的生理结构的变化速 度是有一定限度的,在一短段时i q 内( 1 0 - 3 0 m s ) 人的声带和声道形状有相对稳定 性,可以认为其特征是不变的,因而语音的短时谱分析也有相对稳定性。在语音 增强中可以利用短时谱的这种平稳性。 语音大体上可分为清音和浊音两大类。从语音产生的机理上看,两者有明显 的差异,因而在特征上也有区别。浊音在时域上呈现出明显的周期性:在频域上 有共振峰结构,因而能量大部分集中在较低频域内。清音则不同,它没有明显的 时域和频域特征,类似于白噪声。在语音增强中,可以利用浊音的周期性特征, 采用梳状滤波器提取语音分量或抑制非语音分量,而清音则难以与宽带噪声区 分。作为一个随机过程,语音信号可以用统计分析特性来描述。语音信号是非平 稳的随机过程,长时间时域统计特性在语音增强中意义不大。其短时谱幅度的统 计特性是时变的,只有当分析帧长趋于无穷大时,彳能近似地认为它具有高斯分 布。高斯统计模型是根据中心极限定理得到的。在高斯模型的假设下,傅立叶展 开系数被认为是独立的高斯随机变量,均值为0 ,而方差是时变的。这种高斯模 型应用于有限帧长时只是一种近似的描述。 1 3 噪声的性质及特点 噪声可能是平稳的或周期平稳的,也可能是缓慢变化甚至剧烈变化的。噪声 干扰语音的方式可以分为加性,卷积和非线性叠加等。对于非加性噪声。有些可 以通过变换,转变为加性噪声。例如,卷积噪声可以通过同态变换而成为加性噪 声。某些与信号相关的量化噪声可以通过伪随机噪声扰动的办法变换成与信号独 立的加性噪声。如果没有特别指出,本文所讨论的噪声都是指加性噪声。加性噪 声大致上有 1 : 1 ) 周期性噪声。周期性噪声的特点是有许多离散的窄谱峰,它往往是由汽车 发动机和飞机发动机等旋转机械引起的。电气干扰,特别是5 0 h z 或6 0 h z 交流 声也会引起周期性噪声。 2 ) 冲激噪声。冲激噪声通常是放电的结果,如点火噪声。只要干扰脉冲之问 不太靠近,就可以根据相邻样本数值,简单地通过内插法把它们从时间函数中去 掉。宽带噪声通常可以假定为高斯噪声和白噪声。 3 ) 宽带噪声。宽带噪声源包括j x l 、人的呼吸和一般随机噪声,有时也包括人 4 第一章绪论 为干扰。量化噪声通常作为白噪声处理。 4 ) 语音干扰。语音干扰可能是由于话筒拾得的其它语音引起的或传输时串话 引起的周期性噪声可由滤波方法滤除,条件是噪声可以精确估计,并且可以设 计一种虑波器,滤除干扰噪声而又不产生影响语音可懂度的副作用。 有三种滤波器可以消除周期性噪声:固定滤波器、自适应滤波器和傅立叶变 换滤波器。固定滤波器仅在干扰噪声是平稳的时候才用。自适应滤波能自动滤除 干扰噪声,如果噪声是平稳的或缓变的,则在无语音期问便可以对噪声进行估计, 并根据估计的结果调整滤波器。傅立叶变换滤波器是采用变换技术通过直接变换 频谱来消除周期性噪声的。当周期性噪声没有得到精确估计,但却能得到它的参 考信号,就可以用自适应抵消技术。 消除脉冲噪声通常可以在时域内进行,其过程如下:根据带噪语音信号幅度 的平均值确定阈值。当信号幅度超出这一阈值时,判别为脉冲噪声。然后对它进 行适当的衰减,甚至完全消除,也可以根据相邻信号采样值通过内插的方法将脉 冲噪声在时域上进行平滑。 由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最为困难。 这种噪声只有在语音问歇期才单独存在。对于平稳的宽带噪声,通常可以认为是 白色高斯噪声。不具有白色频谱的噪声,可以先进行白化处理。对于非平稳的宽 带噪声,情况就更为复杂一些。降低宽带噪声的主要方法有三类:非线性处理、 减谱法和自适应抵消法。主要的非线性处理包括削波或波形变换。处理宽带噪声 的最通用技术是减谱法,即从带噪语音估值中减去噪声频谱估值。自适应抵消法 需要有一个噪声参考信号,在大多数语音增强问题中,一般只有一个输入信号可 以加以处理。 除以上方法外,降低宽带噪声的方法还有自相关相减法和其它自适应技术。 自相关相减法是利用自相关相减来进行语言增强的。由于噪声的来源众多,它们 的特性也各不相同。即使在实验室仿真条件下,也难以找到一种通用的语音增强 算法,能适用于各种噪声环境。必须针对不同噪声,采用不同的语音增强对策。 1 4 带噪语音信号模型 实际应用环境中的噪声,具有多样性。噪声可以是加性的,也可以是非加性 的。考虑到加性噪声更普遍且易于分析,对于有些非加性噪声,可以通过变换转 变为加性噪声。因此,为简化讨论,本文主要研究加性噪声干扰。 带噪语音x ( ,2 ) ( 模型见图1 1 ) 可以表示为: x ( ,z ) = s ( 行) + w ( ,z )( 1 1 ) 这里s ( ,z ) 和以刀) 分别代表纯净语音和干扰噪声。 5 第一章绪论 田 园齿田 图1 1 简单加性带噪语音合成图 1 5 语音增强的历史和发展现状 语音增强一直是语音通信和语音信号处理研究领域中的一个重点研究课题, 倍受国内外研究人员的关注,已有几十年的研究发展历史。其研究起与2 0 世纪 6 0 年代,随着数字信号理论的成熟,在7 0 年代曾形成一个理论高潮,取得了一 些基础性成果,并使语音增强发展成为语音信号处理的一个重要分支。1 9 7 8 年, l i m 和o p p e n h e i m 提出了基于维纳滤波的语音增强方法【2 】。1 9 7 9 年,b o l l 提出 了谱相减方法来抑制噪声。1 9 8 0 年,m a u l a y 和m a l p s s 提出了软判决噪声抑制方 法。1 9 8 4 年,e p h r a i m 和m a l a h 提出了基于m m s e 短时幅度谱估计的语音增强 方法。1 9 8 7 年,p a l i w a l 把卡尔曼滤波引入语音增强领域。 3 】 4 5 】 6 1 9 9 5 年, d o n o h o 等人把小波分析应用到图像、语音等领域当中,这又成为语音增强方法 的一个方向。1 9 9 5 年,e p h r a i m 提出了基于信号子空问分解的语音增强方法。近 年来基于神经网络和小波变换的新方法也逐渐成为研究的热点。 7 8 】 语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通 道的语音增强算法。单通道语音系统在实际应用中较为常见,如电话,手机等。 这种情况下语音与噪声同时存在一个通道中,语音信息与噪声信息必须从同一个 信号中得出。一般这种语音系统下要求噪声要比较平稳,以便在非语音段对噪声 进行估计,再依据估计出来的噪声对带噪声的语音段进行处理。如果语音系统是 一个多通道的语音系统,各个通道之间存在着某些相关的特性,这些相关特性对 语音增强的处理十分有利。下面简要介绍一下各种语音增强算法: 1 ) 基于语音谱特征的谐波增强法 9 】9 语音中的浊音具有明显的周期性,在频域中表现为一系列对应基频( 基音) 及 其谐波的峰值分量,这些频率分量占据了语音的大部分能量。因此,可采用自适 应梳状滤波来提取基音及其谐波分量,抑制其他周期性噪声和非周期的宽带噪 声。由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基 音周期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。 2 ) 基于短时谱估计的增强算法 1 0 11 基于语音短时谱估计的增强方法利用语音信号的短时平稳性,对其进行短时 谱分析。考虑到人耳对相位失真的不敏感,因此不处理带噪语音的相位,从带噪 6 第一章绪论 语音的短时幅度谱中得到语音信号短时幅度谱的估计值,再结合带噪语音的相位 恢复出增强语音。根据实现估计的方法不同,可以分为谱相减法、维纳滤波法、 最小均方误差( m m s e ) 法等。该类方法具有适应信噪比范围大、方法简单、易于 实时处理等优点,成为应用最广泛的语音增强方法。【1 2 】 3 ) 基于信号子空间的增强算法【9 】 经典的检测理论中有一项信号子空间处理技术,在谱估计和阵列信号处理中 经常使用这种技术。语音信号处理的大量实验表明,语音矢量的协方差矩阵有很 多零特征值,是个非满秩的矩阵,这说明干净语音信号矢量的能量只分布在它对 应空间的某个子集中。而噪声的方差通常都假设已知且严格正定。噪声矢量存在 于整个带噪信号空间中,即噪声的协方差矩阵是满秩的。因此带噪语音信号的矢 量空间可以认为由一个信号加噪声的子空间和一个纯噪声子空问构成。可以利用 信号子空间处理技术,先消除纯噪声子空问,然后在信号加噪声的子空问中对语 音信号进行估计,实现语音增强。 4 ) 基于小波变换的增强算法 1 3 1 4 1 5 1 6 】 由于小波分析有多分辨率,易于实现等特点,自从小波分析被提出以来,人 们就致力于把小波运用于图像、语音等信号处理中的研究中。小波变换在高频处 显现出高的时间分辨率,而在低频处显现出高的频率分辨率,这与人耳的听觉感 知能力不谋而合入耳在低频的分辨能力比在高频处的强,所以在低频处应该设 置更多的分辨子带,基于此的听觉小波包系统也被人们发展并应用于语音增强 中。小波的语音增强的基本思路在于经过小波变换,语音信号趋向于集中于某些 时频域,而白噪声原则上来说应该均匀地分柿于各个时频域。根据此特点,可以 把各个时频域中的信号进行一个收缩,便可以去除小的信号,也就是被认为是噪 声的信号,最后进行小波反变换得到增强了的语音。这个收缩决定了增强系统的 性能,人们也提出硬阈值法、软阈值法、自适应阈值法等,不断地对方法改进以 得到更好的增强效果。 5 ) 基于听觉掩蔽的增强算法【1 7 】 1 8 1 9 】 听觉掩蔽( a u d i t o r ym a s k i n g ) 是人的听觉系统所固有的一个重要感知特性, 其表现是一个本来可以听到的声压级较低的声音,会因一个同时存在或时间上很 接近的声压级较高的声音的存在而变得听不到。研究人员发现,无论在多么恶劣 的环境下,人耳总能在极大的程度上对语音信号中的噪声进行抑制,以提取到感 兴趣的信息。语音增强的效果最终是通过人的主观感受体现的,因此随着对人听 觉系统生理机制的研究深入,近年来基于听觉感知的语音增强算法得到了长足的 发展。但在实际环境下,从带噪语音中很难准确计算语音的掩蔽门限,这也限制 了基于听觉掩蔽的语音增强算法的应用。听觉掩蔽方法通常和其他语音增强方法 第一章绪论 结合使用,先用其他语音增强方法处理带噪语音后再利用听觉掩蔽方法进一步抑 制噪声 1 6 本文主要研究工作和结构安排 本文主要研究基于听觉掩蔽效应的听觉小波包语音增强。在对国内外的相关 方法进行分析研究后,试图设计出一个能够在信噪比、听觉舒适度、听觉可懂度 都有一定提高的语音增强方法,而且要求出现的语音失真与“音乐噪声 都比较 小,以满足人们的实际需求。 主要研究工作如下: a 分析国内外语音增强的方法,在了解语音增慢各个方向的大概现状基础 上,重点研究小波相关的语音增强方法。基于当前小波语音增强的传统方法,分 析各个主要环节的作用并了解其中的不足之处。 b 在小波变换阶段,分析并使用一个根据入耳听觉模型设计的听觉小波包分 解方法,使得能够在时频域上对语音进行处理,而且还能够把语音分解到听觉 b a r k 域中,使得语音的相关信号得到更好的统一处理。 c 传统小波处理中使用噪声方差来设置闽值,噪声方差的估计显得很重要, 传统的方法都存在一定的不足之处,本文把传统频域中噪声方差的估计方法,即 最小统计噪声能量估计方法引入到时频域当中。然后利用计算出的方差设置阈 值。 d 阂值收缩函数的设计是小波增强处理的关键,它的性能决定了增强语音的 质量。人们已经提出了各种各样的阈值收缩函数,它们改进了最丌始提出的方法, 得到了一定的成效,然而却也存在不足之处,有可能出现产生大量“音乐噪声”, 或语音过度失真的情况。本文根据人耳的频问听觉掩蔽原理,设计一个可以在语 音失真与产生“音乐噪声”间折中的阈值收缩函数。 本文的组织如下:第二章介绍类谱减语音增强系统基本原理;第三章介绍小 波变换基本原理;第四章研究了小波阈值估计方法;第五章进行小波阈值函数的 设计;第六章对本文进行总结与展望。 1 7 本章小结 在介绍语音增强的意义与背景后,分析了语音与噪声的特征,之后粗略描述 语音增强方向中人们已经提出的各种有效方法,最后,列出本文主要研究工作和 结构安排。 第- 二章类黹减语音增强系统的接奉原理 第二章类谱减语音增强系统的基本原理 2 1 引言 一般来说,语音增强系统的方法大约可以分为两类,一类是非信号生成参数 的方法,另一类则是基于信号生成模型的方法。第一类方法一般是从带噪语音的 特征中移除出噪声,例如谱减方法和基本的小波去噪法。另一类方法是基于信号 生成模型,利用信号生成的模型进行参数处理方法,这些参数模型一般可用来描 述、预测信号的生成。谱减法的基本思想是基本假设是基于噪声与语音信号完全 无关,原始带噪语音通过某一变换后,得到语音信号与噪声信号某种程度上的分 离,使他们处在不同的频率、大小、子带、空间等等,然后通过简单减法、带参 数的减法、各种收缩等把噪声信号移除,最后反变换得到时域上的语音信号。谱 减法相对简单,应用适应性比语音生成参数化模型强。传统的标准谱减法是频域 上实现的,即通过短时傅罩叶变换把语音分解到频域中,保留傅里叶变换的角度 大小以备后用,然后在频域中通过特定方法估计出噪声信号能量的大小,并把带 噪语音信号能量减去噪声能量得到假设干净的语音能量,最后这个能量与保留的 角度值一起进行傅罩叶反变换得到增强了的时域语音信号。这里,反变换使用的 依旧是是带噪语音的角度值,实际上人耳对角度并不敏感,实验证明这个方法是 有效的。其后的语音增强系统中,标准的谱减法派生出大量的不同规则的算法, 其中不少算法是通过增加、修改减法的参数以提高他们的性能,即把减法看成 是一个根据被减数( 有时称为阈值) 对原信号进行收缩的方法,这样就可以根 据需要控制去除噪声能量的力度。我们把这类从标准的谱减法派生出的方法称 为类谱减算法。如今的关注点在于误差准则下去除残留噪声方法的改善,但目前 这些方法都还存在一些问题,比如,在去除噪声的同时不可避免的丢失了一些重 要的语音信号,导致语音信号听觉上的进一步模糊,更有甚者,由于在频域或时 频域等的减性处理,会引入时域上的一些周期性多余信号,也称作“音乐噪声, 这是人耳非常反感的噪声,这就有可能导致增强后的语音比原始语音更令人难以 接受,是不可取的,所以人们利用各种方法来改进收缩方法,比如利用人耳的掩 蔽效应,利用语音信号的清浊音等特点来控制去除噪声的力度,这些方法取得了 一定成效。 自从小波分析提出以来,人们就关注于小波在实际的信号处理的各种应用, 早在1 9 9 4 年就由d o n o h o 等学者提出了用于图像、语音等增强系统的算法,那 时称为小波阈值收缩算法,这是一种与谱减有某种程度上相似的算法。随着时代 的发展,小波语音增强系统的主要部分信号的小波分解与合成方法、小波系 数的去噪方法,都得到了改进,随后的章节里,将会分析人们的各种改进并提出 9 第一二章类i 誓减语爵增强系统的皋奉原理 自己的方法。 为了能够在后面章节中阐明听觉小波包变换中类谱减法的使用以及各种改 进措施,在本章中,首先会介绍谱减法的基本原理以及它的一些推广方法如多子 带谱减法,之后会特别介绍听觉掩蔽效应在频域谱减法中的应用,最后简要叙述 小波中类谱减方法的大概流程,以便与频域罩的方法作比较。 2 2 谱减方法 谱减法 2 0 1 2 1 是处理宽带噪声较为传统和有效的方法,其基本思想是在假定 加性噪声与短时平稳的语音信号相互独立的条件下,在频域将带噪语音的功率谱 减去噪声的功率谱得到语音功率谱估计,开方后就得到语音幅度估计,将其相位 恢复后再采用逆傅里叶变换恢复时域信号。考虑到人耳对相位的感觉不灵敏,相 位恢复时所采用的相位是带噪语音的相位信息。谱相减法的基本原理图如图2 1 所示: 图2 1 谱减法的基本原理 2 2 1 基本谱减法 假定噪声是加性平稳噪声,并且和纯净语音信号不相关,那么带噪语音可表 示为: j ,( 一) = 工( 疗) + d ( 丹) ( 2 1 ) 对式( 1 2 ) 进行傅立叶变换: 】,( 七,) = x ( k ,) + d ( k ,)( 2 2 ) 其中】,( 七,) ,x ( k ,) ,d ( k ,) 分别是带噪语音、干净语音、背景噪声的幅度谱。 在不引起混淆的情况下,为简单起见,将帧数l 省略,同时频率k 写为下标形式: k = 以+ q( 2 3 ) 由式( 1 4 ) 可得: k1 2 = i 以1 2 + iq1 2 + 以磷+ z q 由于语音和噪声相互独立,q 满足高斯分布且均值为零,所以 e i 砭1 2 = i 以1 2 + i 么1 2 ( 2 4 ) 对于一帧内的短时平稳过程,有:一 l o 第二章类谱减语啬增强系统的堆奉原理 口= f ( 口盂,口一,7 ) ; ( 2 5 ) 口= ,( ,掰) ;( 2 6 ) 其中,i 反i :是为无语音时i qi :的统计平均值,由此可得原始语音的估计值: i x 6k 郇kh 卦1 j 2 ( 2 7 ) l _ lk 1 2 一ia1 2 i ( 2 7 ) 这罩i 氟j 为增强后语音信号的幅度。这就是谱减法的基本原理。由于基本谱 减法中,噪声估计是以无声期间的统计平均的噪声方差代替当前分析帧的噪声频 谱,当前帧的噪声采用的是噪声的统计均值,而实际上噪声频谱服从高斯分布: p ( 工) = i i _ e 一”刚。2 一 ( 2 8 ) 二兀d 其中,m 为x 的均值,仃为标准偏差。噪声的帧功率谱随机变化范围很宽, 在频域中的最大、最小值之比往往达到几个数量级,而最大值与均值之比也达 6 8 倍。因此,在减去噪声谱后会有些较大的功率谱分量的剩余部分,在频域上 呈现出随机出现的尖峰,相应地在时域上就呈现出一些类j 下弦信号的叠加,呈现 出音乐的特性。此类残留噪声具有一定的节奏性起伏感,被称为“音乐噪声 。 而音乐噪声对音的自然度的损伤比残留背景噪声的影响更大,往往是不能接受。 所以,需要噪声谱估计和谱减规则做相应的调整: ( 1 ) 在噪声谱估计中,尽量避免出现噪声估计过大,即过估计的情况。 ( 2 ) 在谱减规则中,引入能量子带的调整规则。因为能量分布的不均匀,所 以必须避免对所有帧语音的通频带范围内使用统一的谱减法。 2 2 2 多子带谱减法 基本谱减法假定噪声对语音信号整个频谱的影响是一致的,然而实际情况并 非如此。现实生活中的噪声多为有色噪声,有色噪声对语音信号整个频谱的影响 是不均匀的,而且语音的能量也是主要分布在低频段,所以语音信号在不同频段 受到的噪声影响是不一样的,某些频段语音信号受到噪声影响比别的频段要大得 多。所以有必要针对不同的频段分别进行修正,针对不同的频段分别乘以估计噪 声过减因子。这样不仅可以降低语音失真,而且可以部分抑制音乐噪声和残留噪 声。为此本文采用了多带谱相减算法,即将带噪语音、估计的噪声按频率划分成 互不交叠的几个频带,然后根据每个频带内带噪语音相对于噪声信号的信噪比来 确定该频带噪声的过减因子。2 2 1 节讨论的基本谱减法估计得到的语音信号功 率谱,一种形式如下 2 2 】: i x ( k ) 1 2 z i y ( k ) 1 2 一口1 6 ( 七) 1 2( 2 9 ) 式中i b ( k ) l :为估计的噪声谱,k 为频率,口为谱减因子。它在一帧内保持不变。 第一二章类谱减语音增强系统的皋奉原理 不同频带内语音的分段信噪比随不同语音帧的变化,高频段分段信噪比比低 频段的分段信噪比要低很多,语音信号的能量大部分集中在低频段。考虑到语音 信号在不同频段受到的有色噪声影响是不一样的,某些频段语音信号受到噪声影 响比别的频段要大得多。所以为了使语音失真最小,采用多子带谱相减算法后, 增强语音信号的功率谱可以表示为: i z ( 七) 1 2 z i r ( 七) l z q 巧i 毒( 七) 1 2岛七弓( 2 1 0 ) 其中匆和弓分别为第i 个频带的起始频率点和结束频率点。q 和4 分别为第i 个频带的噪声过减因子和旋转因子。4 是第i 个频带信噪比s n r , 的函数,可以表 一、f 不为: f 5 s n r , 2 0 其中第i 个频带信噪比,由下式计算得到: f 艺ir ( 七) if s n r , ( a s ) = 1 0 l o g ,。i 等一l ( 2 1 2 ) f 艺l 两舭) lf 旋转因子万为各个频带噪声抑制度的另一个控制因子,它的取值反映了语音 信号能量分布的特点,万是一个分段常数,k a m a t h 根据实验得到艿的值为: i i 0 f 4 = 2 5 | 1 1 5 ,l k h z l 眦,s 手一2 眦 ( 2 1 3 ) d 手一2 触 撕卜黜3 f 2 i 搿如 亿 其中z 为第i 个频带上的上限频率值,f 为采样频率。 因为语音信号的能量 大部分集中在低频段,为了使语音失真最小,因此在低频段取较小的值,同时为 了保持语音的清晰度,在高频段i 也取较小的值。 当式( 2 6 6 ) 中出现负值时, 院( 膏) i z 用带噪语音的频谱乘以一个频谱基代替: i 舅肚坪= f 置茧磊:i 甏富| 2 o c 2 。5 , 其中典型值取为o 0 0 2 。 2 2 3 频域中基于掩蔽效应的类谱减算法 。上文中提到的标准谱减公式: 1 2 第二章类谱减语爵增强系统的皋奉原理 滢心| 2 _ l 茂| 2 i ,2 (216)xki = -1 6 ) | ik1 2 一l 协1 2 ( 2 也可以表达成另一种形式: i 舅t 掌1 2 一i 西川2 。g 曲l d y k w l 2 拈 p 1 6 刈2 ( 2 1 7 ) 以后将会看到,这个式子与小波增强方法中的软阈值收缩法几乎一样。这个 标准谱减函数,又可以看成是另一种随时间变化的对带噪语音进行处理的滤波 器,而这个滤波器的特性是根据不同时间上带噪能量与估计出的噪声能量设定 的。这个处理过程就可以看成一个噪声抑制的过程,由原始信号乘于一个增益因 子完成: i 殳女| - lg1 | kl w i t ho q l ( 2 1 8 ) 这里的滤波器或称作增益因子的计算公式为: q :肝群 巾砰驯 ( 2 1 9 ) 【0f 画阳k1 2 这里,锋等也可以看成是后验信噪比洲,。 把标准的谱减法看成是乘法运算后,人们又对此方法进行了改进,提出了可 以调节的增益因子,即增益因子可以根据不同情况而设置不同的值,来抑制去除 背景噪声噪声的力度。这时的增益因子表达如下: q = g s n r 。( 七) 】 卜褂 ,2 矿褂 南 亿2 。, 硎“。 这是一个柔韧性很好的谱减类型计算公式,它具有标准谱减的特性,而且它 可以更灵活地调整抑制噪声的力度、曲线,那么在实际的语音增强中,它就可以 根据某种准则调整口与,设置抑制噪声的力度,达到在去除噪声与减少语音失 真间进行折中,而,l 与y 2 的值由实验调整最佳值。有了这个函数,在v i r a g 的文 章f 1 7 】中,便可以利用掩蔽效应来设计o t 与的值,表达式如下: 嘶= f ( a 。,o t m a x ,t h k ) ; ( 2 2 1 ) 屏= f ( 氏,虬,t h ) ; ( 2 2 2 ) 其中与是口可取的最大与最小值,而巩是计算出来的当前帧的k 频 率的掩蔽阈值,f 是一个插值函数,即根据巩的值在口。与口。间选取一个值。 这样,入耳听觉掩蔽这一重要效应便可以应用到了实际的语音增强系统中。具体 的算法流程图如图2 2 所示: 第- 二章类谱减语音增强系统的聚奉原理 z ( 行) 图2 2 频域中基丁掩蔽效应的类谱减算法流程图 2 3 小波语音增强类谱减方法 本文介绍的是基于人耳听觉掩蔽效应的听觉小波包语音增强方法。在参数推 导方面来说,它部分继承了频谱中的谱减法,但它却是在时频域( 即听觉小波域) 中完成的。它能使更多有用的信号集中处理,理论上它的去噪效果比频域的系统 更加优秀。【1 3 1 4 】 2 3 】 2 4 】【2 5 】这是一种结合了人耳听觉临界特性与掩蔽特性进 行语音增强的算法,可用于处理各种有色噪声污染的语音。它根据人耳听觉临界 特性设计听觉小波包的分解方法,并根据听觉特性设计类减法的增益因子,目标 是使残留噪声的强度低于某个阈值,在去除噪声和处理造成的语音失真以及引起 的音乐噪声问折中,达到良好的语音增强目的。这里,先介绍基本的流程图,各 个关键部分的介绍见于后续章节。 图2 3 小波域中基丁掩蔽效应的类谱减算法流稃图 语音增强系统的流程图如图2 3 所示。带噪语音首先被矩形窗口分帧, 。 1 4 第- 二章类i : 减语占增强系统的皋奉原理 然后通过听觉小波包变换,得到各个听觉小波子带的小波系数;接着使用修改了 的m a r t i n 的最小统计算法估计每个子带罩噪声的小波系数能量( 这个算法在小 波域早语音存在或不存在的情况下都能够更新噪声能量的跟踪值) ;那么将得到 粗略的干净的语音信号的小波系数能量值,这样,便可根据与频域中类似的掩蔽 算法原理计算出各个小波子带的掩蔽阈值,计算出各个小波子带的增益因子;最 后,带噪小波系数与增益因子相乘得到增强的小波系数,再对系数进行听觉小波 包反变换,得到增强的语音。在某种程度上,这个方法与2 2 3 节介绍的频域中 基于听觉掩蔽的类谱减算法比较类似,具体的过程见后续章节。 2 4 本章小结 为了使读者能更深刻的理解本文系统,本章在介绍分析传统语音增强算法, 特别是类谱减算法的基本原理与过程后,再研究基于人耳听觉效应的听觉小波包 语音增强算法是大概流程。他们在原理上有很大的相似度。 第三章小波变换堆奉原理 3 1 引言 第三章小波变换基本原理 为了在语音增强中利用小波分析的能力,首先理解小波分析的特点。小波具 有波动性和衰减性的特点,小波分析是一种时频分析,它具有多分辨率分析的特 点,在测不准原理下,时域与频域的分辨率之和为一个常数,这就意味着时域分 辨率高时频域分辨率低,相反,时域分辨率低时时域分辨率高。可以根据人耳的 特点设置时域与频域的分辨率为不同值,从而满足模拟人们对语音信号的接收。 传统的信号分析是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论