




已阅读5页,还剩62页未读, 继续免费阅读
(电路与系统专业论文)基于声学模型和小波变换的语音增强方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 现实生活中,语音不可避免的要受到周围环境的干扰,严重时使语音处理系 统不能正常工作。在这种情况下,必须采用信号处理方法进行语音增强,抑制背 景噪声,以提高语音通信质量。因此,研究语音增强技术在实际中有重要价值。 本文旨在寻求一种低信噪比条件下的单通道语音增强方法,这是一项具有重 要的实际意义的课题。本文旨先回顾了一些传统的语音增强方法,重点介绍了基 于短时谱的谱减法和最小均方误差的方法,以及基于语音生成模型的卡尔曼滤波 法,分析了这几种方法的优缺点。小波变换具有多尺度特性,其时域和频域均具 有表征信号局部特性的能力和多分辨率分析的特点,适用于非平稳信号、时变信 号,如语音信号。因此本文对基于小波变换的语音增强方法进行了深入的研究。 本文的主要工作包括以下几个方面: 一详细研究了小波变换在语音增强处理中的应用,并提出将基于n e y m a n p e a r s o n 准则的小波阈值去噪法用于语音增强,实验证明这种阈值规则优于传 统的阈值方法。 二分析了语音的听觉模型,并研究了传统的模拟基底膜频率特性的方案。 小波变换的时域和频域均具有表征信号局部特性的能力,即低频段具有较好的频 率分辨率,高频段具有较好的时间分辨率,其特点讵好与人耳的频率特性相似, 因此可以用来模拟人耳基底膜对声音进行频率分析的功能,实验表明基于小波包 子带来模拟基底膜b a r k 频率群更为实用。 三通过分析小波阈值去噪法和卡尔曼滤波器的优缺点,提出了将卡尔曼滤 波器a n d , 波变换相结合的语音增强方法,将卡尔曼滤波引入到小波域对噪声信号 进行跟踪处理,避免了小波阈值选取不当的问题,即保留了小波变换时频分析和 多尺度分析的功能,同时又保持了卡尔曼滤波器对未知信号的线性、无偏、最小 方差估计的特点。并利用听觉系统的掩蔽效应来指导除噪阈值的选择。文中采用 汽车噪声对系统进行了实验分析,并对增强后的语音质量进行了客观的评价。 关键词:语音增强卡尔曼滤波小波变换声学模型掩蔽效应 ab s t r a c t a b s t r a c t i ng e n e r a l ,s p e e c hi so f t e nc o r r u p t e di n e v i t a b l yb ya m b i e n tn o i s e ,s oas y s t e mf o r s p e e c he n h a n c e m e n ti sn e e d e ds t r o n g l yt os o l v et h ep r o b l e m t h eo b j e c t i v eo fs p e e c h e n h a n c e m e n tm a yb et oi m p r o v et h eq u a l i t y ,t oi n c r e a s et h ei n t e l l i g i b i l i t y ,t oe n s u r e t h er e l i a b i l i t yo fd i g i t a lv o i c es y s t e m d e p e n d i n go nt h es p e c i f i ca p p l i c a t i o n ,t h e e n h a n c e m e n ts y s t e mm a yb ed i r e c t e da td i f f e r e n to b j e c t i v e s t h i st h e s i sa d d r e s s e st h ep r o b l e mo fs i n g l ec h a n n e ls p e e c he n h a n c e m e n ta tl o w s i g n a l t o - n o i s er a t i o s a tf i r s t ,t h ec o n v e n t i o n a le n h a n c e m e n tm e t h o d sa r er e v i e w e d , f o c u s i n go ns p e c t r a ls u b t r a c t i o na n dm i n i m u mm e a n - s q u a r ee r r o rm e t h o d ,a sw e l la s k a l m a nf i l t e rm e t h o dw h i c hb a s e do ns p e e c hm o d e l t h ea d v a n t a g ea n dd i s a d v a n t a g e o ft h e s em e t h o d sa r ei n t r o d u c e d w a v e l e tt r a n s f o r mh a st h ec h a r a c t e ro fm u t i l r e s o l u t i o n ,i ti sa p p l i e dt on o n - s t a t i o n a r ys i g n a l s ,s u c ha ss p e e c hs i g n a l s i nt h i sp a p e r , t h em e t h o db a s e do nw a v e l e tt r a n s f o r mf o rs p e e c he n h a n c e m e n ti sr e s e a r c h e di n d e p t h t h em a i np o i n t so ft h i st h e s i sa r eg i v e na sf o l l o w i n g : 1 t h ea p p l i c a t i o n so fw a v e l e ti n s p e e c hs i g n a lp r o c e s s i n ga r es t u d i e d an e w t h r e s h o l d i n gv a l u e ,n e y m a n p e a r s o nc r i t e r i o ni sp r o p o s e dc o m p a r e dw i t h th ec o n v e n t i o n a lc r i t e r i o n e x p e r i m e n ts h o wt h a tt h ep r o p o s e da p p r o a c hh a st h e b e s tp e r f o r m a n c e 2 aw a v e l e t b a s e da u d i t o r ym o d e li sr e a l i z e dw i t hap e r c e p t u a lw a v e l e tf i l t e r - b a n k t om a pt h ef r e q u e n c yr e s p o n s eo fh u m a na u d i t o r ys y s t e mi n t ot h ew a v e l e td o m a i n p s y c h o a c o u s t i ce x p e r i m e n t sh a v er e v e a l e dt h a tt h ep e r i p h e r a la u d i t o r ys y s t e m b e h a v e sa saf i l t e r - b a n k t h ec o n c e p to ft h ea u d i t o r yf i l t e ri sc l o s e l yl i n k e dt ot h e b e h a v i o ro ft h eb a s i l a rm e m b r a n ei nt h ei n n e re a r s i n c ew a v e l e tt r a n s f o r m s0 f f e r t h ec a p a b i l i t yo fp r o d u c i n gag o o df r e q u e n c yr e s o l u t i o na tl o w f r e q u e n c ya n d g o o dt i m er e s o l u t i o na th i g h - f r e q u e n c y ,i t sc h a r a c t e r i s t i c i ss i m i l a rt oh u m a n a u d i t i o n s ow ep r o p o s ean e wm o d e la d o p t i n gt h eb a s i cs t r u c t u r eo ft r a d i t i o n a l a u d i t o r y m o d e lb u tr e p l a c et h et i m e i n v a r i a n t b a n d p a s s f il t e r sw i t hw a v e l e t t r a n s f o r m s b yv i r t u eo fm a t c h i n gt i m e f r e q u e n c yr e p r e s e n t a t i o n s ,t h em a s k i n g e f f e c tc a nb ei n t e g r a t e di n t ot h ep r o p o s e dm o d e lf o re f f e c t i v en o i s es u p p r e s s i o n 3 an e ws u b b a n da d a p t i v ef i l t e rb a s e do nw a v e l e tf i l t e r b a n kf o rs p e e c he n h a n c e m e n ti s p r o p o s e d t h ea d a p t a t i o no fk a l m a nf i l t e r i nw a v e l e td o m a i nh a s a b s t r a c t e f f e c t i v e l yr e d u c e dt h en o n s t a t i o n a r y n o i s e ap e r c e p t u a l w e i g h t i n gf i l t e r e x p l o i t i n gt h em a s k i n gp r o p e r t i e so fp s y c h o a c o u s t i cm o d e li sc o n c a t e n a t e dw i t h t h ek a l m a nf i l t e rt of u r t h e ri m p r o v et h ei n t e l l i g i b i l i t yo fs p e e c h t h ep r o p o s e d m e t h o do w n si t sm e r i t sf r o mt h es u c c e s s f u lp o r t i n go fk a l m a nf i l t e ri n t ot h e w a v e l e td o m a i ns ot h a ts p e e c ha n a l y s i sa n de n h a n c e m e n tc a nb ec a r r i e do u ti n t i m e f r e q u e n c ys p e c t r u mb a s e do nt h e h u m a na u d i t o r ym o d e l e x p e r i m e n t a l r e s u l t ss h o wt h a tt h en e ws p e e c he n h a n c e m e n ts y s t e mi sc a p a b l eo fr e d u c i n gn o i s e w i t hl i t t l e s p e e c hd e g r a d a t i o ni na d v e r s en o i s ee n v i r o n m e n t sa n dt h eo v e r a l l p e r f o r m a n c ei ss u p e r i o rt oc o n v e n t i o n a lm e t h o d s k e yw o r d s :s p e e c he n h a n c e m e n t ,k a l m a nf i l t e r i n g ,w a v e l e tt r a n s f o r m ,p s y c h o a c o u s t i cm o d e l , m a s k i n ge f f e c t 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名: 罕乏世垒 签字同期: i习出l 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 9 公开口保密( 年) 作者签名: 签字同期: 笋 导师签名: 墨雾 签字同期:堡丝! ! 么: 第一章绪论 第一章绪论 1 1语音增强研究的背景和意义 二十一世纪是信息技术飞跃发展的世纪,信息处理技术与人类的日常生活联 系也越来越紧密。语音作为人类交流最主要的手段,因此在现代通信及信息处理 中语音信号处理也俞发的重要。 然而,人们在语音通信过程中不可避免地会受到来自周围环境和传输媒介引 入的噪声、通信设备内部电噪声、乃至其他讲话者的干扰。这些干扰最终将使接 收者接收到的语音不再是纯净的原始语音,而是被噪声污染过的带噪语音。例如, 汽车、街道、机场中的电话,常受到强背景噪声的干扰,严重影响通话质量。而 且环境噪声的污染使得许多语音处理系统的性能急剧恶化。例如,语音识别已取 得重大进展,正步入实用阶段。但目前的语音识别系统大都是在安静环境中工作 的,在噪声环境下尤其是强背景噪声环境下,其识别率将受到严重影响。低速率 语音编码,特别是参数编码,也遇到类似问题。由于语音生成模型是低速率编码 的基础,当模型参数的提取受到混杂在语音中背景噪声的严重干扰时,重建语音 的质量将急剧恶化,甚至变得完全不能理解。在这些情况下,必须对含噪语音信 号进行预处理,以抑制背景噪声,提高通话质量,增强语音处理系统的抗干扰能 力,保持系统的稳定性。 语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。由于噪声信号 都是随机产生的,完全消噪几乎是不可能,因此实际语音增强的目标主要是:改 进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦;提高语音的可懂度, 方便听者理解。其主要应用范围是降低听觉噪声,识别系统和线性预测编码的预 处理,因此语音增强技术的研究在实际应用中有着非常重要的意义。目前语音增 强技术已经广泛应用于各种语音信号处理系统和通信系统中。 1 2国内外研究历史与现状 早在2 0 世纪6 0 年代,语音增强这个课题就已经开始引起人们的注意,随 着数字信号处理理论的成熟,7 0 年代曾形成一个研究高潮,取得了一些基础性 成果,并使语音增强发展为语音信号数字处理的一个重要分支。进入8 0 年后, 随着v l s i 技术的发展,使得语音增强的实时实现成为了可能。 噪声来源众多,随应用场合不同,其特性也各不相同,因而难以找出一种通 第一章绪论 用的语音增强算法适用于各种噪声环境。为此,必须针对不同噪声,采取不同的 语音增强方法。几十年来,人们针对加性噪声研究了各种语音增强算法。尽管目 前语音增强在理论上并不十分完善,还有待发展,但某些增强方法己被证明是有 效果的。 1 9 7 4 年,w e i s s 等人成功开发了个实时语音增强系统( i n t e ls y s t e m ) 【1 1 。 1 9 7 9 年,l i m 和o p p e n h e i m 全面总结了此前的语音增强方法【2 】,包括谱减法、维 纳滤波法和一些基于模型的语音增强方法。1 9 8 4 ,e p h r a i m 等人提出了语音短时 谱幅度( s t s a ) 的最小均方误差( m m s e ) 【3 】,1 9 8 7 年,p a l i w a l 把卡尔曼滤波引 入了语音增强中【4 j 。之后,新的语音增强方法相继涌现,如基于神经网络1 5 1 、子 空间分解【6 1 、小波变换【7 【8 1 和基于听觉模型【9 】【l o 】【1 1 】【1 2 】的语音增强方法等。 就语音增强算法而言,具体方法大体分为下面几类:基于短时谱幅度估计的 增强方法,基于语音生成模型的增强算法,基于信号子空间的语音增强技术,基 于人耳掩蔽阈值的增强算法等等。 ( 1 ) 基于短时谱幅度估计的增强算法 s b o l l 3 假设噪声是平稳的或变化缓慢的加性噪声,并且语音信号与噪 声信号不相关的情况下,提出了谱减法,但是在低输入信噪比情况下,残留的音 乐噪声往往较大;e p h r a i m 口1 等将最小均方误差估计引入到谱减法中,部分解决 了音乐噪声问题,但是在信噪比较低时,背景噪声、音乐噪声和语音失真较大。 b e r o u t i 4 1 在传统谱减法的基础上增强了调节噪声功率谱大小的系统和增强语 音功率谱的最小值限制,搞高了谱减法的性能,但其修正系数和最小值是根据经 验确定的,适应性较差。 ( 2 ) 基于语音生成模型的增强算法 语音的发声过程可以建模为一个线性时变滤波器。对不同类型的语音采用不 同的激励源,例如对于浊音,激励源为周期与基音周期相同的脉冲串;而对于清 音,激励源为高斯白噪声。在语音的生成模型中,应用最广泛的是全极点模型。 基于语音生成模型的语音增强方法有时变参数维纳滤波及卡尔曼滤波方法m 1 。 ( 3 ) 基于信号子空间的语音增强技术 e p h r a i m 6 1 提出了一种基于信号子空间的语音增强算法,其基本的思想是把 带噪语音信号的矢量空间通过k l t 变换分解到噪声子空间以及信号加噪声的子 空间,去除噪声子空间后,在信号加噪声子空间中滤波估计出语音信号。y ih u 和p h i l i p o s c l o i z o u 1 5 1 在信号子空间分解的基础上提出了在时域和频域上的 针对有色噪声的语音增强算法。 ( 4 ) 基于人耳掩蔽阈值的增强算法 语音增强不仅涉及信号检测,波形估计等传统信号处理理论,而且与语音特 2 第一章绪论 性,人耳感知特性密切相关,语音信号能够掩蔽与其同时进入听觉系统的一部分 能量较小的噪声信号,而使得这部分噪声不为人所感知。p e t e r s e n 和b o l l 1 6 1 把谱减法用到人耳感知域,他们用系列带通滤波器模拟人耳感知效应,在降噪过 程中,把带噪语音分解于各个关键频带中,然后将在各个关键频带内处理过后的 输出信号重新组合,以便获得输出语音信号。j o h n s t o n 1 提出了一种感知模型, 起先应用于语音编码中,这个模型后来被v i r a g 和t s o u k a l a s 应用于语音增强, 取得了较好的语音增强效果。 由于语音增强算法是随着信号处理的发展而不断发展完善的技术,许多新方 法层出不穷。目前,除了基于信号处理理论的研究外,针对人的昕觉感知系统的 生理特性研究、语言学中上下文联想智能的研究等,都在进一步推动着语音增强 的研究。 1 3 本文的主要研究工作及论文结构 本文提出了一种基于小波变换和卡尔曼滤波相结合的语音增强方法,这样既 保留了小波变换时频分析和多尺度分析的功能,同时又保持了卡尔曼滤波器对未 知信号的线性、无偏、最小方差估计的特点。为提高语音信号的可懂度,再引入 基于声学模型的感知滤波器。本文所提出的算法成功的将卡尔曼滤波器引入小波 域,从而可以使对语音信号的分析和增强可以同时在时频域进行。 本论文的主要研究工作如下: ( 1 ) 系统的学习了语音增强的基础理论知识,了解语音增强的技术背景和 常用的语音增强方法。 ( 2 ) 研究了基于语音短时谱的语音增强方法,包括谱减法和最小均方误差 的方法。 ( 3 ) 分析了语音全极点生成模型和卡尔曼滤波方法。 ( 4 ) 研究了小波变换理论以及基于声学模型的小波变换包变换,结合卡尔 曼的线性特点,提出基于声学模型的小波卡尔曼相结合的语音增强算法。 本文的组织结构如下: 第一章:绪论,主要介绍语音增强的研究背景和国内外的研究现状与历史。 第二章:介绍语音增强的基础知识,包括语音生成机理以及语音和噪声的特 性,以及语音增强的评测标准。 第三章:介绍几种常用的语音增强方法,主要讲解了谱减法、基于最小均方 误差( 删s e ) 的方法和卡尔曼滤波法的语音增强原理。 第四章:本章主要内容包括小波变换理论,以及基于小波变换的语音增强方 第一章绪论 法,并提出基于能量元和新阈值规则的语音增强方法。 第五章:首先介绍小波包的理论,并提出基于声学模型的小波包变换,并利 用卡尔曼线性、无偏估计、最小均方误差的特点,将基于听觉模型的小波包变换 与卡尔曼相结合,用于语音增强。 第六章:对本文的研究内容和方法进行总结,并提出了对以后的研究工作的 展望。 4 第二章语音增强的基础知识 第二章语音增强的基础知识 语音增强主要研究如何在带噪语音信号中提出语音信息。它的主要目的是对 带噪语音进行处理,以消除背景噪声,改善语音的清晰度和舒适度,提高语音处 理系统的性能。语音增强不但涉及信号检测、波形估计等传统信号处理理论,而 且与人的语音特性,入耳感知特性密切相关。本章将首先介绍语音的产生机理, 再主要讨论语音和噪声的不同特性,这也是实现语音增强的理论依据。 2 1语音信号产生机理 媾 墩 鑫遗 人类的语音由人体发音器官在大脑控制下的 生理运动产生的。人的发声器官包含肺、气管、 喉( 包括声带) 、咽、鼻和口等,如图2 1 所示。 在发声机制中,肺的作用相当于一个动力源,将 气流送至喉部,喉将来自肺部的气流调制为周期 脉冲或类似随机噪声的激励源,并送入声道。声 道包括口腔、鼻腔和咽腔,它们对声源的频谱进 行整形而产生不同音色的声音。严格来说,声源 还可能由声道的收缩和内壁产生,这一作用发生 在声道内部。这样,除随机噪声和周期性声源之 外还产生一个冲击声源。在发音过程中,随着发 音器官如口腔运动、舌位不同等因素使得声道的 图2 1 人的发声器官示意图传输函数发生相应的变化,从而产生了不同的音 素的发音u 踟。 图2 2 给出了语音信号产生的离散时域模型。它包括三个部分:激励源、声 道模型和辐射模型。激励源又分为浊音和清音两部分,由浊音清音开关所处的 位置来决定产生的语音是浊音还是清音。对于浊音语音,激励信号是一个周期脉 冲发生器发生的,产生的序列是一个频率等于基音频率r 的冲激序列。为了使 浊音的激励信号具有声门脉冲的实际波形,上述的冲激序列还需要通过一个声门 脉冲模型滤波器g ( z ) 。可令g ( z ) = 1 ( 1 一g 。z - 1 ) ( 1 一g :z - 1 ) ,其中g 。、9 2 很接近 于l ,这样形成的浊语音激励信号的频谱很接近于声门脉冲的频谱,乘系数a , 的作用是调节浊音信号的幅度。清音语音,激励信号是由一个随机噪声发生器产 生的,且噪声信号服从均值为0 ,均方差为1 的g a u s s 分布,自相关函数是一个 黢氛 潦 瓣馘群 糍嘴张垤笏 黼 第二章语音增强的基础知识 单位冲激函数1 钔。 图2 2 语音信号产生模型 信号 声道模型v ( z ) 给出了离散时域的声道传输函数,把实际声道作为一个变截 面声管加以研究,其传输函数可用一个全极点函数来表示,即: 矿( z ) :百一 2 a i z 一 t = o ( 2 1 ) 式中a o = 1 ,a i 为实数;把截面积连续变化的声管近似为p 段短声管的串联,每段 短声管的截面积是不变的,p 称为这个全极点滤波器的阶,当p 取值越大,模型 的传输函数与声道实际传输函数越吻合的,在实际应用中,p 值一般取8 1 2 。 辐射模型r ( z ) 与嘴形有关。它可以用一阶差分方程近似描述: r ( z ) = ( 1 一昭一) ( 2 2 ) 在这个模型中,除了g ( z ) 和尺( z ) 保持不变以外,激励源参数和声道模型中 的参数都是随时间变化的。由于发声器官的惯性使这些参数的变化速度受到限 制。对于声道参数,在l o - - 3 0 m s 的时间间隔内,可以认为它们保持不变。对于 激励源参数同样如此。 2 2 语音和噪声特性 2 2 1语音和人耳的感知特性 语音是时变的、非平稳的随机信号。语音的生成过程与发音器官的运动过程 密切相关,考虑到人类发声器官在发声过程中变化速度具有一定的限度而且远小 于语音信号的变化速度,因此可以假定语音信号是短时平稳的,即在1 0 3 0 m s 的 6 第二章语音增强的基础知识 时间段内其某些物理特性和频谱特性可以近似看作是不变的,从而可以应用平稳 随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱时的平 稳特性。 根据语音产生的激励信号不同,语音可以分为清音和浊音两大类。浊音由声 带振动在声门处产生的准周期脉冲序列激励声道而产生,它在时域上呈现出明显 的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内。而清音 段没有明显的时域和频域特征,类似于白噪声,很难与宽带平稳噪声区分引。 作为一个随机过程,语音信号可以利用许多统计分析特征进行分析。但由于 语音信号非平稳、非遍历,因此长时间时域统计特性语音增强算法的意义不大。 语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无穷大时,才能近似 具有高斯分布。在高斯模型的假设中,可以认为傅里叶展开系数是独立的高斯随 机变量,均值为o ,而方差是时变的。在有限帧长时这种高斯模型只是一种近似 的描述,可以作为分析的前提在宽带噪声污染的带噪语音增强中应用。 人耳对于声波频率高低的感觉与实际频率的高低不呈线性关系,而近似为对 数关系;人耳对声强的感觉很灵敏且有很大的动态范围,人耳对于频率的分辨能 力受声强的影响,过强或者太弱的声音都会导致对频率的分辨力降低;并且,入 耳对语音信号的幅度谱较为敏感,对相位不太敏感。这一点对于语音信号的恢复 较为有用。 人耳具有掩蔽效应,即会产生一个声音由于另外一个声音的出现而导致该声 音能被感知的阈值提高的现象,这一部分内容将在第五章中具体介绍。 语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人 耳感知特性来减少运算代价。 2 2 2 噪声特性 噪声可以是加性的,也可以是非加性的。加性噪声通常分为冲激噪声、周期 噪声、语音干扰噪声等。非加性噪声主要是残响及传送网络的电路噪声等引。 ( 1 ) 冲激噪声:例如放电、打火、爆炸都会引起冲激噪声,它的时域波形 是类似于冲激函数的窄脉冲。消除冲激噪声影响的方法通常有两种:对带噪语音 信号的幅度求均值,将该均值作为判断阈,凡是超过该阈值的均判为冲激噪声, 在时域中将其滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方法避开 或者平滑掉冲激点,从而能在重建语音信号中去掉冲激噪声。 ( 2 ) 周期噪声:最常见的有电动机、风扇之类周期运转的机械所发出的周 期噪声,5 0 h z 交流电源哼哼声也是周期噪声。在频谱图上它们表现为离散的窄谱, 通常可以采用陷波器方法予以滤除。 7 第二章语音增强的基础知识 ( 3 ) 宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪 声,以及量化噪声等都可以视为宽带噪声,应用中常近似为g a u s s s 噪声或白噪声。 其显著特点是噪声频谱遍布于语音信号频谱之中,导致消除噪声较为困难。一般 需要采取非线性处理方法。 ( 4 ) 语音干扰:干扰语音信号和有用语音信号同时在一个信道中传输所造 成语音干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基 音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳 状滤波器提取基音和各次谐波,再恢复出有用语音信号。 ( 5 ) 传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域 里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声 变换为加性噪声来处理。 2 3 带噪语音模型 本文研究的主要是加性噪声干扰,带噪语音模型( 图2 3 ) 为: y ( n ) = s ( ,z ) + a ( n ) ( 2 3 ) 式中s ( n ) 为干净语音信号,a ( n ) 为干扰噪声。 2 4 语音增强的评测标准 图2 3 带噪语音模型 衡量语音增强效果分别涉及语音的主观度量和客观度量两个不同方面,有主 观评测和客观评测两种方法。主观评测包括平均意见得分( m o s ) 眩们眩、判断韵 字测试( d r t ) 和判断满意度测量( d a m ) 等。客观评测方法主要根据增强语音的 时域波形或频域语谱,给出客观的数值度量。例如常用的方法是采用信噪l l ( s n r ) 来度量,还有对数谱失真度( l s d ) 及语音感知评价( p e s q ) 也可用来评测增强 语音的质量。 第二章语音增强的基础知识 2 4 1 主观i n 贝, j j 方法 主观评测以人为主体来评价语音的质量,它是在一组评听者对原始语音和失 真语音进行对比测听的基础上,根据某种事先约定的尺度对失真语音来划分质量 等级,它反映了测听者对语音质量好坏程度的一种主观印象。 ( 1 ) 平均意见得分 平均意见得分法( m o s ) 从绝对等级评价法发展而来,用于对语音整体满意 度或语音通信系统质量的评价。m o s 采用5 级评分标准( 如表2 1 所示) ,评 听者在听完受测语音后,从5 个等级中选择其中一级作为他的评价。全体评听者 的加权平均分就是被测语音的m o s 分。 表2 1m o s 评测等级分 m o s 判分质量级别失真级别 5 优不察觉 4 良刚有察觉 3中有察觉稍觉可厌 2差 明显察觉,可厌可忍受 1 坏 不可忍受 ( 2 ) 判断韵字测试 判断韵字测试( d r t ) 是反映话音清晰度或者可懂度的一种测试方法,它主 要用于低速率语音编码的质量测试,这种测试方法使用若干对同韵母进行测试, 测试中,让受试者每次听到一对韵母中的某个音,然后让其判断听到的音是那个 字,全体试验者判断正确地百分比就是d r t 得分。 通常认为d r t 为9 5 以上时清晰度为优,8 5 - - 9 5 为良,7 5 8 5 为 中,6 5 - - 7 5 为差,6 5 以下为不可接受。 实际通话中,由于整旬中有较多的冗余度,即使个别字听不清楚,也能理解 整句话的原因,当清晰度为9 0 时,整句话的可懂度接近于1 0 0 。 ( 3 ) 测试满意度测量 测试满意度测量( d a m ) 是对话音质量的综合评估,它是在多种条件下对话 音质量可接受程度的一种度量,也是采用百分比评分。 2 4 2 客观评测方法 主观评测方法需要大量的时间和人力,受人的主观影响较大,因此,需要寻 找一种客观的评测标准,并且易于实现。现在常用的客观方法主要有信噪比、对 9 第二章语音增强的基础知识 数谱失真2 2 1 和语音感知评测方法等,下面将对这几种方法作简单的介绍。 ( 1 ) 信噪比( s n r ) 信噪比是衡量针对宽带噪声失真的语音增强算法的一种常用的方法,其定义 为: x 2 ( ) 舳= 1 0 l o g t o 豇翻 ( 2 4 ) 式中,x ( n ) 表示干净语音信号,曼( 刀) 表示增强后的语音信号。 ( 2 ) 对数谱失真度( l s d ) 对数谱失真度,顾名思义,用来评测语音的失真程度,评测得分越小,说明 增强语音与原始语音相比失真越小。其计算公式如下: 三肋2 了i 荟a - - t 志篆 m l 0 9 1 0 i x ( k , 1 ) - 1 0 x l o g olj ( l oi 2 ) 2 2 式中x ( k ,) 和碧( 尼,) 分别为干净语音和增强语音的短时傅里叶变换,为帧 长,j 为帧数。 ( 3 ) 语音感知质量评测( p e s q ) 语音感知评测是国际电信联盟( i t u t ) 推出的e 8 6 2 标准,是客观m o s 值 评价方法,能够较好的反映语音信号的听觉质量。 p e s o 的算法结构见图2 4 。其总的思路是:对原始信号( 参考信号) 和通过 测试系统的信号进行电平调整到标准听觉电平,再用输入滤波器模拟标准电话听 筒进行滤波。对通过电平调整和滤波后的两个信号在时间上对准,并进行听觉变 换,这个变换包括对系统中线性滤波和增益变化的补偿和均衡。两个听觉变换后 的信号之间的不同作为扰动( 即差值) ,分析扰动曲面提取出两个失真参数,在 频率和时间上累积起来,映射到对主观平均意见分的预测值。 图2 4p e s q 算法结构图 1 0 第二章语音增强的基础知识 2 5 本章小结 本章主要介绍了语音增强的基础知识,包括语音的生成机理,语音和噪声的 特性,因此我们了解到,如果知道激励参数和声道滤波器的参数,就能利用语音 生成模型合成“纯净”的语音,针对于不同的性质的噪声,可采用不同的语音增 强方法来实现语音去噪。最后介绍了语音质量的评测标准,用来对语音增强的效 果进行评测。 第三章基本的语音增强算法 第三章基本的语音增强算法 语音增强是语音信号处理系统的重要组成部分,一般都作为预处理或前端处 理模块存在于语音处理系统中,其处理过程如图3 1 所示。由于噪声的种类很多, 因此针对各类噪声的语音增强的方法也不同。一直以来,人们都在宽带加性噪声 的模型上进行研究,并提出各种语音增强算法,具体可分为下面几类:基于短时 谱幅度估计的增强算法,基于语音生成模型的增强算法,基于人耳掩蔽阈值的增 强算法等,本章将介绍几种常用的增强算法。 图3 1 语音增强处理过程示意图 3 1语音幅度谱相减法 在处理未知噪声和线性滤波干扰的问题上,减谱算法具有非常重要的影响。 传统的语音增强算法也多采用基于短时谱估计的线性或非线性减谱算法 2 4 1 。由 于语音信号的短时谱具有较强的相关性,而噪声的前后相关性很弱,因此可以利 用短时谱估计的方法从带噪语音中估计原始语音。由于人耳对语音相位感受不敏 感,可将估计的对象放在短时谱的幅度上。 3 1 1幅度谱相减法 谱减法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪 声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功 率谱,从而得到较为纯净的语音频谱。其原理框图如图3 2 所示 1 2 第三章基本的语音增强算法 图3 2 谱减法的原理框图 差 如果设s ( ,) 为干净语音信号,2 ( f ) 为噪声信号,y ( t ) 为带噪语音信号,则有: y ( f ) = s ( f ) + 甩( f ) ( 3 1 ) 用k 、瓯、m 分别表示y ( f ) 、s ( f ) 、,2 ( r ) 的短时傅里叶变换,则可得下式 k = 瓯+ 以 ( 3 2 ) 由此可得: k1 2 = l 瓯1 2 + lm1 2 + 瓯啊+ s :m ( 3 3 ) 由于s ( t ) 、门( f ) 相互独立,所以瓯、m 独立,而m 为零均值的高斯分布,因此 有: e ik1 2 】= e i 瓯1 2 】+ e 1m1 2 】 ( 3 4 ) 对于一个分析帧内的短时平稳过程,有: k1 2 = l 瓯1 2 + 以( 尼) ( 3 5 ) 九( 七) 为无语音时lm1 2 的统计平均值,由此可得原始语音的估计值: l 文 1k1 2 一e ( 1m1 2 ) 1 陀= ik1 2 一乃( 尼) 】2 ( 3 6 ) 定义增益函数q = l & i iki ,及后验信噪比以= ik2 l ( k ) ,式( 3 6 ) 可写成: g = ( 1 1 y ) 2 ( 3 7 ) s 降g fkf ( 3 8 ) 因此可以看出,谱减的实质就是在带噪信号的每个频谱分量上乘以一个系数q 。 信噪比高的时候,衰减系数g 小,相反则衰减系数q 大。 该方法的缺点是增强后的语音中含有明显的“音乐噪声,这是由频谱相减 而产生的一种残留噪声,具有一定的节奏起伏感,故称“音乐噪声”。其产生的 原因是因为在谱相减法过程中,当前帧的噪声频谱分量是以无声期间统计得到的 噪声方差带替的,实际上噪声频谱具有高斯分布,即其幅度变化范围很宽,带噪 第三章基本的语音增强算法 信号在减去噪声谱后,噪声分量很大的那些频率点就会剩余较多的部分,在频谱 上呈现随机出现的尖峰,在听觉上形成有节奏性起伏的类似音乐的残留噪声。由 于“音乐噪声”的存在影响了语音的可懂度,因此在实际应用中更多的是采用谱 减法的改进形式。 3 1 2 改进的幅度谱相减法 与普通的谱减法相比,改进的谱减法增加了参数口和,其& 的估计式为: i & l - 1k1 2 一触? ( 后) 2 ( 3 9 ) 其对应的物理表示为: 疗 土 q = ( 1 一南) 口 ( 3 1 0 ) lk 引入系数可以对噪声估计值进行调整,在语音能量较高的区域,令f l l , 这样可以降低语音能量,更好的突出语音频谱。调节口也可以获得相似的结果。 当口- 2 ,= 1 时,改进的估计算法就退化为普通的谱减法。 通过调节这两个参数可达到比较好的增强效果,但过多的增加去噪程度会使 增强后的语音失真增大。 谱减法的优点在于运算量较小,容易实时实现,效果也较好。其缺点是会容 易产生“音乐噪声”,降低了增强语音的可懂度。 3 2语音短时谱的最小均方误差估计算法 由于语音增强中无法确定听觉意义上的失真准则和给定噪声情况下语音频 谱的后验分布,因此需要寻找针对特定的失真准则和对后验概率不敏感的估计方 法。对于相当多的失真度量函数以及信号与噪声的联合概率密度函数集合来说, 最小均方误差估计( 删s e ) 准则下的条件均值估计是最优的。而语音信号处理使 用的凸对称失真函数,以及给定噪声情况下的所有语音后验概率分布都符合这样 的集合的要求,因此可以采用m m s e 准则对语音信号的短时谱幅度进行估计【2 4 1 。 设带噪信号为y ( f ) = s ( 矿) + 力0 ) ,s ( t ) 为干净语音信号,2 ( f ) 为噪声信号,用 k = r 女e x p ( j o k ) 、m 和s k = a ke x p ( j a k ) 分别表示带噪信号、噪声和纯净 语音的第k 个频谱分量。短时谱幅度的估计式为: 4 = e 4y ( 玎) ) = e 4k ,_ ,l ,) ( 3 1 1 ) 假设各个频谱分量相互独立,由贝叶斯公式得: 1 4 第三章基本的语音增强算法 o。、,、【i 吼p ( 吼,a k ) p ( y kia k ,吼) 呶呶 4 = e a kk ) = 志# 2 = 二! 二二 量土p ( a k ,a k ) p ( , v kla k ,吼) 呶魄 则根据噪声和语音频谱的高斯分布假设可知: 州h 咖丽1e 朴坠铲 7 z 以【尼)九i 庀) 北州。丽a ke x p 一糟 ( 3 1 2 ) ( 3 1 3 ) ( 3 1 4 ) 将式( 3 1 3 ) 和式( 3 1 4 ) 代入式( 3 1 2 ) 后,简化可得: 盈:r ( 1 5 ) 巫m ( 蛳1 ;一圪) r ( 3 1 5 ) 以 式中r ( ) 是伽码函数,r ( 1 5 ) = i 2 。m ( a ,c ,x ) 为合流超几何函数,可以 利用式( 3 1 6 ) 级数求和计算。 m c 口,c ,x ,= ,+ 詈子+ 鼍芝詈三号专薯 ,工o o1 1 ,二: ( 3 1 6 ) 令圪为 弘以薏 q - 7 其中,先验信噪比彘= 以( 后) 以( 后) ;后验信噪比以= 群丸( 后) 。将式( 3 1 5 ) 改写增益函数q 的形式,定义增益函数g 七= 4 r ,则: q = 簪m ( - 0 5 ;1 ;- 圪) ( 3 1 8 ) 可以看出,这个增益只和先验信噪比磊与后验信噪比以有关。但由于实际 增强过程中磊未知,因此必须先对其进行估计,根据它的定义,以( 七) 可以通过 对无声段时噪声统计平均得到,五( 后) 是时变的,必须对每帧都进行估计,纯净 语音信号的频谱实际上也是未知的,因此实际应用中,可以采用前一帧经过处理 得到的增强语音作为替代。 3 3 卡尔曼滤波语音增强方法 卡尔曼滤波器最早由匈牙利数学家r u d o l fe m i lk a l m a n 提出晒1 ,并运用于 第三章基本的语音增强算法 控制领域,1 9 8 7 年,k k p a l i w a l 首先将卡尔曼滤波器应用到加性白噪声条件下 语音增强。卡尔曼滤波器具有跟踪的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 知识产权保护与企业合规的共赢模式
- 投资风险的识别与防范
- 2025年人力资源共享策划战略协议样本
- 提升农业科技创新体系的背景意义及必要性
- 春分节气的社交媒体营销
- 10.1 三维绘图基础(课件)-高二《Auto+CAD》同步课堂(机工社)
- 小寒节气解读
- 工程维保协议书范本
- 大蒜儿童美术课件
- 2025年汽车零部件供应协议
- 人教版五年级下册期末语文试卷答题卡及答案
- ZJUTTOP100理工类学术期刊目录(2018年版)
- F0值计算公式自动
- 《全国统一建筑工程基础定额河北省消耗量定额》宣贯资料
- (最新整理)《跨文化沟通》PPT课件
- 道路交通事故现场勘查课件
- 门店电表记录表
- 组态王双机热备
- 绿地图绘制指南
- 山体植被恢复项目绿化工程施工组织设计
- 初级长拳现用图解(第一路)
评论
0/150
提交评论