已阅读5页,还剩57页未读, 继续免费阅读
(信号与信息处理专业论文)基于改进噪声功率谱估计的单通道语音增强研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论文口 论文作者签名: 企龌日期:到2 :曼:苎f 导师签名:逢丝日期:竺生兰:7 皋十改进噪声功砗,c 杵f 占计的甲通道语舟增愠i l j f 究中义摘受 基于改进噪声功率谱估计的单通道语音增强研究 中文摘要 现实生活中的语音不可避免的要受到周围环境的影响,很强的背景噪声例如机 械噪声、其他 兑话者的话音等均会严重地影响语音信号的质量:此外传输系统本身 也会产生各种噪声,因此在接收端的信号为带噪语音信号。j 下是由于这些噪声的存 在,从而严重影响了语音处理系统的性能。为了提高语音处理系统的性能,从带噪 语音中尽可能的恢复原始纯净语音、去除噪声信号就成了语音信号预处理过程中的 重要环节。 本文首先简单介绍了语音增强的背景意义和现行的研究状况。在第二章中对语 音增强涉及的基本概念进行了阐述。概述了语音增强常用的几类算法。然后重点研 究了噪声功率谱估计算法。此外,本文还重点研究了改进的谱估计分别和谱减法、 维纳滤波法相结合的算法。谱减法是一种传统的语音增强算法,由于其复杂度小, 因此应用广泛。然而,传统谱减法仅仅利用无声段估计噪声功率谱,估计值与实际 值之间误差较大,从而导致去除噪声效果不佳。为了提高谱减法的性能,特别是在 非平稳噪声环境下的降噪性能。本文提出了一种改进的噪声功率谱估计算法,即时 间回归的最小值跟踪算法( t i m er e c u r s i v em i n i m a lt r a c l 【i n g ,t r 小i t ) 。该算法充分 考虑了频带之间的相关性,通过局部能量的平滑,保护强语音后面出现的弱语音, 减少了过估计;同时采用非固定窗长的跟踪最小值算法,降低了跟踪时延,引入了 与语音存在概率相关的平滑因子,对带噪语音加权后采用时域递归方法计算出噪声 功率谱。然而,采用谱减法增强后语音的残留噪声类似“音乐噪声”,易引起人耳 的听觉疲劳。采用维纳滤波的好处是增强后语音的残留噪声类似于白噪声,所以本 文进一步研究了维纳滤波算法,结合改进的谱估计算法和谐波重建算法,提出了新 的维纳滤波算法。该算法较好恢复了语音谐波成分,提高增强后语音质量。 关键词:语音增强,噪声功率谱估计,谱减法,谐波重建,维纳滤波 作者:余耀 指导老师:赵鹤鸣 s p e e c he n h a n c e m e n tb 嬲e do na ni m p r o v e dn o i s e 鹳t i m a t i o nm e t h o d a b s t r a c t s p e e c hi sf o rm em o s tan a m r a lm e a n so fc o 删【i l u n i c a t i o n c o 咖u n i c a t i o nc a nb e 伊e a t l yh i n d e r e d b yn o i s e w ea r es u 册u n d e db yn o i s ew h e r e v e rw e9 0 n o i s ei sp r e s e n t , f o ri n s t a n c e ,i nt h es t r e e t ( e 名,c a rp a s s i n gb y ,s t r e e tc o n s t m c t i o nw o r k ) ,t l l ec a r ( e g ,e n g i n e n o i s e ,w i n d ) ,t h eo f f i c e ( e g ,p cf a nn o i s e ,a i rd u c t s ) ,r e s t a u r a n t s ( e g ,p e o p l et a l l ( i n gi n n e a r b yt a b l e s ) ,a n dd e p a r t m e n ts t o r e s ( e 召,t e l e p h o n er i n g i n g ,s a l e sr e p r e s e n t a t i v e st a l k i n g ) i i lo r d e rt oi m p r o v es p e e c hp r o c e s s i n gp e 晌珊a n c e ,s p e e c he n h a n c e m e n ts y s t e mi s t o s u p p r e s so rc o m p l e t e l yr e m o v et h eu n w a n t e d n o i s ew h i l em a i n t a i l l i n gt h eq u a l i t ya n d i n t e l l i g i b i l i t yo ft h es p e e c h f i r s t l y ,m i sp a p e ri n 廿o d u c e st h eb a c k g r o u n da n dm e a n i n g o fs p e e c he n h a n c e m e n t 觚dc u r r e n tr e s e a r c hs t a t u s t h es e c 0 n dc h 印t e re x p o u n d st h eb a s i cc o n c e p ta b o u ts p e e c h e n h a i l c e m e m锄di n 仃0 d u c e s t h ec l a s s i f i c a t i o no fs p e e c he n h a n c e m e n ta l g o r i t h m s i n c o m m o n c h a p t e rt h r e ef u so nt h en o i s ep o w e rs p e c t m me s t i m a t i o n i i la d d i t i o n ,t h i s a n i c l e a l s of ;d c u s e do ni m p r o v e dn o i s ee s t i m a t i o nw i t hs p e c t m ls u b t r a c t i o na n dw i e n e r f i l t e r r e s p e c t i v e l y t h es p e c t i - a l s u b t r a c t i v ea l g o r i t h mi s h i s t o r i c a l l y o n eo ft h ef i r s t a l g o r i t h m sp r o p o s e d f o rn o i s er e d u c t i o n i ti sb a s e do nas i m p l ep r i n c i p l e a s s u m i n g a d d i t i v en o i s e 。o n ec 锄0 b t a j n 锄e s t i m a t eo ft h ec l 啪s i g n a ls p e c t m mb ys u b 仃a c t i n g 锄 e s t i m a t eo ft h en o i s es p e c 仃u m 饷mt h en o i s ys p e e c hs p e c t m m t h en o i s es p e c t n l mc 觚b e e s t i m a t e d ,卸du p d a t e d ,d u r i n gp e r i o d sw h e nt h es i g n a l i sa b s e n t h o w e v e r ,al a r g e d i f 佗r e n c eb e t w e e nt 1 1 ee s t i m a t e dv a l u e 柚dt h ea c t u a lv a l u e t h i sp a p e rp r o p o s e dan e w m e l h o df o rn o i s ee s l i m a t i o n t h em e t h o dc o n s i d e 体t h ec o r r e l a t i o nb e t w nf r e q u e n c y b 觚d s i i lc o n t r 弱tt ou s i n gaf i x e dw i n d o wf 0 r 仃a c l ( i n gm ei n i n i m u mo fn o i s ys p e e c hi n 0 t h e rm e t h o d s ,t h en o i s ee s t i m a t ei su p d a t e dc o n t i n u o u s l yb ys m 0 0 t h i n g t h en o i s ys p e e c h p o w e rs p e c 仃ai ne a c hn 朗u e n c yb i nu s i n ga n o i l l i n e a rs m 0 0 m i n gm l e - c o m p u t et l l et i m e f j 嗍u e n c y 司e p e n d e n ts m o o t h i n gf h c t o r 孔c o r d i n gt os p e e c hp r e s e n c ep r o b a b i l i t y t h e s u b 锄烈i o no ft i l en o i s es p e c n 谢舶mt l l e i s ys p e c n mi n 删u c e sad i s t o n i o ni nm es i g l l a l k n o w n 雒m u s i c a ln o i s e s o ,w et 哪o u ra t t e n t i o nt 0aw i e n e rf i l t e r i n g b 勰酣o nt l l e 舱w m e t l l o df o rn o i s ee s t i m a t i o n 卸dh a n n o n i c m e t h o d 咖m 弱kt l l er e s i d u a lm u s i c a l 陀g e 眦m t i o n ,w ep r o p o s e da n o v e lm e t l l o d n i s i s ee f f e 甜v e l yw i mt i l er e g e n e r a t e ds p e e c h 墨仑! 笠竖! 望塾璺望! 里呈翌! 垒璺! 鲤2 翌呈璺i 里翌鲤翌竺i ! ! 呈! ! i 望望! i 2 翌巴曼! 垒鲤 垒坠坚! 生 c o m p o n e n t s i h e l a s t c h a p t e ra n a l y z e s a l lk j n d so fs p e e c he n h a n c e m e n ta l g o r i t h m p e r 】f b m a n c ed e s c r i b e di nt h i sp a p e r k e y w o r d s :s p e e c he n h a n c e m e n t , n o i s ee s t i m a t i o n , s p e c t r a ls u b t r a c t i o n , h 删o i l i c r e g e n e r a t i o n ,w i e n e rn l t e r w r i t t e nb yy a oy u s u p e r v i s e db yh e m i n g z h a o m 目录 第一章绪论1 1 1 弓i 言1 1 2 语音增强的研究意义和现状2 1 3 本文的主要工作及创新点3 1 4 论文的结构安排3 第二章语音增强的基本原理及常用方法5 2 1 语音的特性5 2 。1 1 分l 帧。5 2 1 2 窗函数的形状和长度6 2 2 噪音的特性和分类7 2 3 常用的语音增强方法8 2 4 ,j 、结9 第三章基于t r 州t 算法的噪声功率谱估计1 0 3 1 语音活性判决与噪声估计_ l o 3 2 噪声功率谱估计算法分类1 1 3 3 时间回归的最小值跟踪算法( t r 州t ) l2 3 3 1 最小值跟踪算法l 2 3 3 1 1 基本原理。1 2 3 3 1 2 时频独立的平滑因子1 4 3 3 1 3 无偏因子1 6 3 3 1 4 搜寻最小值1 7 3 3 1 5 最小统计算法总结1 7 3 3 1 6 连续的最小值跟踪算法1 8 3 3 2 时间回归平均算法2 0 3 3 2 1 基于s n r 的时间回归平均算法2 l 3 3 2 2 加权噪声估计算法2 1 3 3 3 时间回归的最小值跟踪算法2 3 3 3 3 1 预处理2 3 3 3 3 2 跟踪功率谱的最小值2 4 3 3 3 3 语音存在概率2 5 3 3 3 4 算法的具体实现步骤2 5 3 4 小结2 7 第四章基于噪声功率谱估计的语音增强算法研究2 8 4 1 谱减法2 8 4 1 1 基本方法2 8 4 1 2 子带谱减法3 0 4 2 基于维纳滤波的改进算法3 2 4 2 1 直接判决( d e c i s i o n m i r e c t e d ,d d ) 算法3 4 4 2 2 改进后的算法3 5 4 3 小结3 8 第五章语音增强实验结果与分析3 9 5 1 实验的语音库3 9 5 2 语音增强实验3 9 5 2 1 时频图分析3 9 5 2 2 语音质量感知评价( p e s q ) 得分4 2 5 2 31 1 r u tp 8 3 5 测试方法4 4 5 2 4 输入- 输出信噪比4 7 结论与展望一4 8 参考文献5 0 攻读硕士期间公开发表的论文5 4 缩略语中英文对照表5 5 致谢5 6 慕_ i 二改进噪声助牢肿估计的甲通道语岛增强研究 第一帝绪论 1 1 引言 第一章绪论 语音信号是最普遍最直接的表达信息的方式。如今,该信号在许多领域具有广 泛的应用前景。在语音信号的理论和应用中,所用的语音数据大部分都是在接近理想 的条件下采集的。大多数语音识别和语音编码在丌始研究时都要在高保真设备上录制 语音,尤其要在无噪环境下录音。然而,在语音通信的过程中不可避免的要受到各种 噪声的干扰,所以接收者接收到的信号不是纯净的原始语音,而是受到噪声污染后的 带噪语音。j 下是由于这些干扰的存在,使得许多语音处理系统的性能急剧恶化。例 如,语音识别正在步入实用阶段,然而现有的识别系统大都是在安静环境中工作的, 在噪声环境中尤其是强噪声环境下,系统的识别率受到严重的影响。在单个孤立词识 别的系统中,用纯净语音训练后,其识别率可达到1 0 0 ,但在以行驶的汽车噪声为 背景的环境中,其识别率将会降至3 0 ;低速率编码,特别是参数编码例如基于语音 生成模型中涉及的u c c 系数求解,由于该系数对语音的编解码质量有重要的影响, 而噪声的干扰使得求得的u ,c c 系数的准确度下降,从而使重建后的语音质量大幅下 降,甚至变的完全不可懂。而特别指出的是,作为语音处理中最有效的手段线性预测 技术是最容易受到噪声影响的。因此,如何从带噪语音中尽可能的恢复原始纯净语 音、去除噪声信号就成了语音信号预处理过程中的重要环节。 早在6 0 年代,语音增强这个课题就已经引起了人们的广泛注意,此后人们一直 在对这方面进行深入的研究。随着数字信号处理理论的同渐成熟,人们取得了一些基 础性的成果,并且使语音增强成为了语音信号处理理论的一个重要分支。在这之后, 超大规模集成电路以及计算机技术快速的发展,为语音增强算法的实验仿真和实时实 现提供了可能,语音增强的研究进入了一个新阶段。 语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然 而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这 种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪音,使听者 乐于接受,不感觉疲劳:二是提高语音可懂度。然而这两个目的往往不能兼得。 笙二童缝堡 基于改进噪声功率讲估计的单通道语爵增强研究 1 2 语音增强的研究意义和现状 语音增强可以应用的领域比较广泛,如: ( 1 ) 移动终端中的应用。在最近几年罩,移动通信和互联网发展极其迅速,智能手 机和平板电脑成为移动互联网的主要终端形式。作为触摸屏和键盘等输入设备的补充 和完善,用户可以通过语音指令实现发送电子邮件、短信、拨打电话和获得驾驶导航 信息等功能。然而在嘈杂环境下,该类应用会因为严重的噪声干扰而影响到质量。有 效的语音增强系统能够大大提高语音的抗干扰能力,能有效的扩展移动终端设备的适 应能力和应用范围。 ( 2 )语音识别中的应用。目前的语音识别技术并不完美,其主要局限在于语音识别 对环境的依赖性过强。通常在实验室环境下或相对安静的环境下工作良好的识别器, 在噪声环境下性能会急剧恶化,所以必须采取有效的语音增强技术。 ( 3 )语音编码中的应用。语音编码技术是伴随着语音的数字化而产生的,目前主要 应用在数字语音通讯和数字语音存储两个领域。然而这两种情况都需要在无噪情况下 进行,所以也需要先对语音信号进行增强处理。 ( 4 )国家安全、军事中的应用。军事上需要对敌方的情况进行监听时,由于噪声可 能会大于所采集到的有用信息,语音增强技术有助于提高侦听系统的效果,可以帮助 侦察和获取情报。 正是因为语音增强具有上述多种应用价值,存在较好的应用前景,所以本文以语 音增强为研究课题。 通过几代学者的努力,各种语音增强算法不断涌现,大致可以分为以下三类: ( 1 )基于谱减法的增强算法1 2 j 们:谱减法的前提是假设加性噪声和语音信号是相互 独立的,从带噪语音的功率谱中减去估计出的噪声功率谱,从而得到较为纯净的语音 频谱。由于其运算量小,容易实时实现,从而得到了广泛的应用。实验证明谱减法的 增强效果很好,可以有效的去除背景噪声,其最大的缺陷就是会引入“音乐噪声 。 究其原因在于噪声功率谱估计的准确性,因而针对噪声功率谱估计衍生了大量算法及 改进算法。 ( 2 )基于统计模型的增强算法1 8 】唧:语音增强算法中很重要的一类就是基于语音生 成模型的参数化方法。其中,u m 与o p p e n h e i m 提出的基于全极点模型的迭代维纳滤 波器语音增强方法,采用最大似然方法估计出纯净语音的全极点模型参数,并由此构 2 幕十改进噪声功串讲估计的单通道语爵增强研究第一章绪论 造维纳滤波器对带噪语音进行滤波。但是该方法的不足之处在于相邻帧问的模型参数 不连续,影响了语音的自然度,所以后面衍生了很多方法引入了帧间相关信息,如 e p h r a i m 使用隐马尔科夫模型对信号进行建模的方法等。 ( 3 )基于信号子空间的语音增强算法1 1 0 】l 1 :该类算法主要基于线性代数理论。其基 本思想是将带噪语音信号的矢量空i b j 通过正交矩阵分解技术变换分解为噪声子空间和 信号加噪声的子空间,然后去除噪声子空问,在信号加噪声子空间中滤波估计出语音 信号。子空间算法主要包括两种方法:特征值分解( e v d ) 方法和奇异值分解 ( s v d ) 方法。s v d 算法是对带噪语音进行奇异值分解,e v d 算法是通过对带噪子 空间的特征值分解。 1 3 本文的主要工作及创新点 本文主要以滤波器方法为基础,结合改进的噪声功率谱估计方法和维纳滤波算法 实现噪声的消除。传统噪声功率谱算法基于语音活性检测( v a d ) 基础上,因而在低 信噪比和非平稳噪声环境下性能急剧恶化。相继提出的最小统计算法等方法,虽然不 需要进行v a d 判决,能较好跟踪瞬变噪声,然后均存在语音过估计或者欠估计问 题。基于最小统计算法基础之上,本文在对噪声进行估计前首先对带噪语音功率谱进 行二阶预处理,充分利用了频带相关性。搜寻最小值时,不局限于固定窗长,从而降 低了跟踪延迟,提高了跟踪速度。然后结合时间回归算法的思想,通过引入语音存在 概率,修i f 和调整估计噪声功率谱的平滑因子,从而得到较为准确的噪声功率谱值。 消除噪音部分,主要是根据维纳滤波法。采用维纳滤波的好处是增强后语音的残留 噪声类似于白噪声,而不是有节奏起伏的“音乐噪声 ,因而不会引起人耳的听觉 疲劳。然而传统的维纳滤波法增强后的语音谐波成分损伤严重,语音的质量和可懂 度不高。所以,本文在传统滤波方法基础上引入了谐波重建算法,较好的恢复语音 的谐波成分,从而提高语音整体质量。最后分析了评价语音的主客观方法,给出了 本文方法与传统方法之间的对比分析。 1 4 论文的结构安排 在绪论之后,各章节的安排如下: 3 第一章绪论皋十改进噪声功率i 誓估汁的甲通道语音增强研究 第二章语音增强的基本原理及常用方法。该章节主要介绍语音和噪声的基本特 性、带噪语音的模型以及常用的语音增强方法。 第三章噪声功率谱估计。主要介绍了常见的噪声功率谱估计方法以及其不足之 处,并介绍了改进的方法。 第四章语音增强算法研究。首先,介绍了几种传统的语音增强算法,并分析了其 优缺点。由于传统方法增强后的语音谐波成分损伤较大,影响语音的质量。本章主要 介绍在传统增强语音基础上进行谐波重建,从而提高语音的质量。 第五章增强后语音质量的比较分析。对本文涉及的各种语音增强方法分别进行主 客观的比较和分析。 第六章总结与展望。总结了全文的工作,提出存在的问题以及今后的研究方向。 4 生堕坐些苎些堂盟丛生婴兰塑些里旦堡垒! 堕! 里:至曼堂塑塑堕苎生堕些丛堂旦立些 第二章语音增强的基本原理及常用方法 2 1 语音的特性 由于在语音信号处理应用中语音信号的分析具有举足轻重的地位。所以,我们 首先要分析语音所具有的特性。从整体来看语音信号的特性及表征其本质特征的参 数均是随时日j 而变化的,所以它是一个非平稳态过程。对于非平稳信号不能简单用 处理平稳信号的技术进行分析处理。同时,由于不同的语音是由人的口腔肌肉运动 构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常 缓慢的,所以从另一角度看虽然语音信号具有时变特性,但是在一个短时间范围 内( 一般认为在1 0 - 3 0 m s 的短时自j 内) ,其特性基本保持不变即语音信号具有短 时平稳性。所以对语音信号的分析和处理须建立在“短时”的基础之上。“短时分 析技术”是指将语音信号分为一段一段来分析其特征参数其中每一段称为一帧, 帧长一般取为1 0 _ 3 0 m s 。对于整体的语音信号来讲,分析出的是由每一帧特征参数 组成的特征参数时间序列。 2 1 1 分帧 分帧虽然可以采用连续分段的方法但一般要采用如图2 - 1 所示的交叠分段的 疗法这是为了使帧与帧之日j 平滑过渡保持其连续性。前一帧和后一帧的交叠部 分称为帧移。帧移与帧长的比值一般取为旷1 2 。 n m :) a 1 n 为帧k ,m 为帧m 币甍长度 n m n 笙= 蔓堕! 望塑盟壁皇型丝j ! 旦立些 苎塾堂堕至些兰璺堕生盐鳖望垄堡童塑堂堡塞 2 12 窗函数的形状和长度 醇k 女 诧f k + 州4 1 玑f k + a 帕 畎搏| 口| j l l : 分帧的示例 图2 一l 帧长与帧移的示例 分帧是通过利用可移动的有限长度宙口进行加权来实现的,即用一定的窗函数 ( 月) 乘以5 ( n ) ,从而形成加窗的语音信号屯( n ) = j ( n ) m ( n ) 。窗函数m ( 一) 的形状和 长度的选择对于分析出的参数的特性影响很大。因此应选择形状和长度均合适的窗 函数,使分析出的短时参数能准确的反映语音信号的特性变化。 不同的短时分析方法对窗函数的形状和长度有不同的要求,但般来讲,一个 好的窗函数均要满足以下两点:( 1 ) 因为在时域是语音波形与窗函数相乘,所以要 减小时间窗两端的坡度,使窗口两端的边缘部分不引起急剧变化而平滑过渡到零。 因为这样可以使截取出的语音波形缓慢降为零,从而减小语音帧的截断效应: ( 2 ) 在频域要有较宽的3 d b 带宽以及较小的边带最大值。 在语音信号数字处理中常采用的是矩形窗或汉明窗等,它们的表达式如( 2 1 ) 和( 2 2 ) ( 其中n 为帧长) 。 矩形窗: 砌,= :羔肛o c :。, 汉明窗: ( n ) :j 0 5 4 一0 4 6 ”8 【2 ”,( 一1 ) l ,o ”5 ( 一1 ) ( 2 - 2 ) 1 0 n = e k 更为详细的矩形窗与汉明窗的参数参见表2 一l 。 堡土苎些堂苎些兰盟笪生盟望堡丝堕笪堕塑型塑 垫:堡重耋塑塑塑生生堡型些堂旦立些 表2 - 1 矩形窗与汉明窗的参数对比 晟小阻带衰减 窗类型旁瓣峰值( d b )士瓣宽度 ( d b ) 矩形窗 - 1 34 f 小 _ 2 l 汉明窗 _ 4 l8 口,n - 5 3 从表2 - l 中主瓣宽度那一列可以看出,汉明窗的主瓣宽度为矩形窗两倍,即带 宽约为其两倍,同时从最小阻带衰减那一列可以看出其带外衰减也约比矩形窗大一 倍多。从而可知矩形窗的谱平滑性能较好但因高频成分的损失,使得波形细节 丢失:而汉明窗则相反。从这一角度分析对比可知汉明窗比矩形窗更为合适。因而 在频谱分析中我们通常采用汉明窗。 采样周期i = l ,、窗口长度n 和频率分辨率三者之问存在如下关系: = 击 c z 弓, 可见,当采样周期一定时,随窗口宽度n 的增加而减小,即频率分辨率得到 提高的同时时间分辨率降低;如果减小窗口宽度,则频率分辨率下降,时日j 分辨率 提商,因而二者是矛盾的。例如从时域分析的角度来讲如果n 很大,则它等效于 很窄的低通滤波器,当语音信号通过时,反应波形细节的高频部分丢失短时能量 随时闻变化很小,不能真实地反映语音信号的幅度变化:反之,n 太小,滤波器的 通带变宽,短时能量随时间有急剧的变化不能得到平滑的能量函数。因此应该 根据需要的不同选择相适直的窗口长度。本文中窗口长度均采用2 5 6 点。 22 噪音的特性和分类 实际的环境中,噪声是繁杂的,变化无穷的。一般町将其分为两类,即加性的 和非加性的( 如乘积性噪声) 。然而对于非加性噪j 奸,可以通过一定的转换规则将 其变换为加性噪声。例如,町以通过h 惫变换将乘性噪声变换为加性噪声。所以在 对嵘“进行讨论时,通常假定为加性噪声模型,如| l | 2 _ 2 所币; d ( 州 y s ( n 】y ( n ) 圈2 - 2 加性噪声模型 7 第一幸语哥增强的幕奉堕理常用方法阜十改进十功半礴估计的单通道语葺增强研究 通过图2 - 2 可以看出加性噪声叠加在语音信号的波形上因此数学表达式如 下: y 扣) = s 加) + d ( n ) ( 2 _ 4 ) 其中,y ( 一) 表示带噪语音信号,5 ( 月) 表示纯净的语音信号,d ( n ) 表示噪声信号。 23 常用的语音增强方法 由于噪声特性各异所以语音增强算法也是五花八门。但其根本目标均是从带 噪语音信号中提取尽可能纯净的原始语音,如图2 4 所示: 、溷蛩斗忡+ h 蜘昏_ | 雌 ( a ) 含噪语音( b ) 增强语音 图2 _ 3 语音增强日标 目前应用的算法大致可以分为四类;参数方法、非参数方法、统计方法和其它 方法。下面对这几类方法进行简单分析。 ( 1 ) 参数方法:此类方法主要基于语音信号生成的数学模型,需要提取模型参数。 如果实际噪音或语音条件与模型有较大的差距或提取模型参数有困难时,则此类 方法容易失效。采用滤波器模型典型的有梳状滤波器、维纳滤波器、乍尔曼滤波器 等。 ( 2 ) 非参数方法:此类方法不需要从带噪信号中估计模型参数,因此这种方法的应 用范嗣较广。但是由于没有利用可能的语言统计信息,故结果一般不是塌优化的。 虽然语音信号具有时变特性,但是在一个短时间范围内( 一般认为在l 旷3 0 m s 的短 时问内) ,其特性基本保持不变即语音信号具有短时平稳性。同时人耳对相位 并不敏感。因此,该类方法重点主要是语音信号的短时谱幅度估计。该类方法主要 包括谱减法、自适应滤波法等。 ( 3 ) 统计方法:此类方法充分的利用了语音和噪音的统计特性,同时根据信号不同 采用不同模型,如高斯模型,拉普拉斯模型等。该类方法一般要建立模型库,通过 训练过程获得初始统计参数,然后在实际工作过程中更新这些统计参数。该类方法 主要包括如虽小均方误差估计( m l n 岫岫m e 卸s q u a 陀e m r 。m m s e ) 等。 8 一 桀十改进噪声功牢僻估计的甲通道语爵增强研究第一二帝语爵增强的皋奉原理及常用方法 ( 4 ) 其它方法:此类方法不如前述方法应用广泛,不需要对语音进行建模或是根掘 各种准则对噪声参数进行估计。常见的方法有基于小波变换,神经网络等,这些方 法均不像前三类方法那样成熟。 当然,也可根据时频域将语音增强算法分为两大类:一、时域,该类主要有基 于子空间的一系列算法:二、频域,该类算法较多,如谱减法,基于m m s e 的增强 算法等。此类算法较时域算法计算量较小。 2 4 小结 语音技术涉及声学、语言学、数字信号处理等多个学科,其中的语音增强技术 更是与语音特性,噪声特性紧密相关。由于在实际的应用环境中噪声的来源及种类 多种多样,因而处理方法也各有不同。本章节主要分析了语音和噪声的特性,介绍 了带噪语音的模型以及常用的语音增强方法。 9 塑:! 堡! 旦型! 蔓些盟些生些羔监! j 生 壁丝些堡皇些皇堂笪! 也! 些垡盟一! 堡丝! 堕 第三章基于t r - m t 算法的噪声功率谱估计 日前,大多数语音增强算法需要从带噪信号中估计噪声功率谱密度。噪声功率 谱估计的准确与否,很大程度上影响着增强算法的性能。如果对噪声功率谱估计过 太,则会导致语音失真,尤其是语音可懂度f 降:反之,估计值过小,则会产生大 量残余噪声。传统的背景噪声功率谱估汁是利用发声前所谓“寂静段”或者采用语 音活性判决( v o i c ea c t i v i t yd d e c t i o n ,v a d ) 算法判断出的无音段的加权平均值来代 替当前分析帧中各频率点的噪声频谱分布。该类算法通常只是在平稳的高信噪比条 件f 才会有良好的检测效果,在低信噪比条件下或者非平稳噪声环境下检测效果并 小佳。本章主要介绍了一系列新型的算法,这些算法不仅可以在无声段估计噪声 在语音存续期阳j 也可以连续更新噪声。 31 语音活性判决与噪声估计 语音活性判决( v o i c ea c t i v i t yd e t e c t i o n ,v a d ) 1 0 是指利用数字处理技术从语 音信号中分辨出语音帧和非语音帧。传统的v a d 算法是通过提取输八语音信号的部 分特征参数,如短时能量、短时过零率等,将参数值与设定的阐值进行比较,根据 比较结果判断帧类型。该类算法通常足以帧为单位进行一个二值判断。若参数值大 _ 闽值,则认为浚帧包含语音即输出1 ;反之,则为噪音帧,输出仉 该类算法的前提是,非语音帧不仅存在f 语音的丌始和结尾处,在语音中问也 存在着非语音帧。图3 - l 为e e 提供的男性语料的波形圈。 d4 1 时n j 】,b 5 2 图3 一l e e 提供的男性语科 从图中可以看出该语句古有多处无声段。每处无声段部可用来估计和更新噪 声。假没v a d 算法可以准确辨别出无声段,那么从第个箭头所指的无声处更新噪 声,到下一个箭头所指的无声处更新噪声至少存在着05 秒的时删差。由于实际噪 。 螭十改进噪声功牢m 估计的十通蝤语* 增强研究第= 带皋ft r 帅算自噪声岫牢卅估计 声往往是非平稳的,并且在语音段噪声电平也可能发生变化,所以仅仅依赖语音删 隙估计和更新噪声功率醋足远远不够的。同时,v a d 算法在低信噪比环境下的准确 率也偏低。 32 噪声功率谱估计算法分类 仅仅利用无声段进行噪声功率谱估计是不充分的,所以我们希望在语音存在期 b j 也能连续更新噪声。基于上述思想学者们提出了很多算法。基本可以分为以下 三类: ( 1 ) 最小值跟踪算法( m i l l i m l1 h c k i o 舀m t ) 。在不同频带内,带噪语音信号的能 量有时可以衰减至噪声能量的级别。所以我们可以利用一个时酬窗,跟踪带噪语 音功率谱不同频带内的最小值。由于最小值小于平均值,所以该类算法的估计值往 往偏小。 ( 2 ) 时日j 回归平均算法( t i m e r e c 峭i v e t r ) 。通过对带噪语音的统计特性和频 谱的研究发现:同一帧中不同频带内语音分量的强弱是不同的;不同频带内噪声 对语音的影响也不同,即同一帧内不同频带内的信噪比( s n r ) 或者语音存在的 概率均不同。如图3 _ 2 所示,n o 匝u s 语料库s p o lw a v 语音在不同频率点下的功率 谱值。 1 州v 、,以、沙、 0t 1 1 1 u 图3 - 2n o i z e u s 语料库s p 0 1w a v 语音在不司频率点下的功率谱值 再如1 域噪声,功率瞎分砸多在低频带所以该类噪声肿语音的高频部分影响 较小。圳制3 _ 3 所4 i 1 域环境f 信噪比为1 5 的带噪爵占语瞎圈。从图中- 以看 忆l 啭声多存杓:j :低频段。计j 二此类嵘声通过高频部分提取的信息进行噪声功率 估训的呵靠性要远人j 低频部分。时蚓i ! ;j j 归平均算法就足基ri 述的理论肚础, 撒就:4 ;频带内语抨存n :概率的人小米削断是订巫新噪声功率谐。当语音存订概率 、吲 一t: 笙i 空苎士翌苎! 兰生塑堡主些羔堂堕生生! 丝堂生兰堕堂堂生盐竺里望堂堕苣堕塑竺塾 较小时则更新噪声功率谱反之,则不更新。 语谱圈 ! 雾 一 篓,。雾 一 、- 羞皇k :三= :蠡鏊童一叁 f52 2 5 时间:8 图3 _ 3n 0 皿u s 语料库s p o l - c a r - s n l 5w a v ,即车载环境下s n r 互1 5 d b 的古噪语音 ( 3 ) 基于直方图的算法。直方图是统计语音信号中每一频率值与其出现频数关系 的图表,它包含了丰富的语音特征,反应了频率值的整体分布情况。基于直方图算 法的根本思想是噪声功率谱值与每个频段出现频数较多的频率值密切相关。 3 3 时间回归的最小值跟踪算法( t r 制t ) 331 最小值跟踪算法 该算法的核心思想是跟踪带躁语音功率谱不同颏带内的最小值,经无偏修j 下后 作为对噪声功率谱的估计i l 训8 】。该算法要求两个前提条件: ( 1 ) 语音和噪声从统计意义上讲是相互独立的,并且噪声谱变化的速度要远小于语 音谱变化的速度: ( 2 ) 带噪语音信号的能量可以衰减到噪声能量的级别,即噪声功率谱估计可以通过 对平拊后的带噪语音取屉小值柬获得。 基于这种思想两类不同的算法被提出。第一类算法通过利用一个固定的时问 窗跟踪带噪语音功率谱不同频带内的展小值,所以被称为最小统计算法【”】。相对第 一类算法,第二类算法则对时问窗没有要求。 33 li 基本原理 生塾坐堕兰些堂堂丛生堕茔望堂至童堂堂! 盥墨二苎至堡塑苎堕盟堂皇些羔盟笪生 假设y ( n ) = z ( h ) + d ( n ) 其中,( 月) 表示带噪的语音信号,j ( n ) 和d ( h ) 分别代表 纯净的语音信号和加性噪声信号,n 代表采样点。j ( n ) 和d ( n ) 统计独立且零均值。 采用窗函数w ( n ) 对带噪语音信号分帧后进行m 点的短时傅立叶变换( s h o n - t i m e f o 晡e r t h n s f 0 舯,s 1 竹) 得到带噪语音的频域表达式y ( ,i ) 。如公式( 3 一1 ) 所 示: m l y ( a t ) = y ( f + m ) w ( 卅) p 州 ( 3 一1 ) 其中,丑代表帧号,t ( = 0 ,l ,2 , f 1 ) 代表频率点。因为假设语音信号和噪声 信号统计独立所以带噪语音的周期图谱近似地等于纯净语音周期图谱和噪音周期 图谱之和。数学表达式如下: i y ( ,缉zi x ( ,女) 1 2 + f d ( ,州 ( 3 _ 2 ) 其中,l y ( 丑,驯2 ,i x ( 丑,t ) 1 2 和i d ( z ,女) 1 2 分g l | 代表带噪语音,纯净语音和噪声的周期图谱 由于这个假设,我们可以通过固定长度的时间窗跟踪带噪语音周期图谱l y ( 工, ) | 2 的最小值来估计噪声。该窗的长度不可小于语音信号中相邻的两个局部峰值。实验 i 正明,窗长宜取值o8 一l4s 之蚓。因为实际处理中带噪语音周期图谱阻( ,t ) r 变化较 为剧烈所以首先要对其进行一阶的平滑滤波: p ( 丑,t ) 。口p ( 一l ,t ) + ( 1 一口) l y ( 丑,t ) r ( 3 - 3 ) 其中8 为平滑常量。上述等式可以看成一个r 低通滤波器经过低通滤波使带噪 语音周期图谱i r ( f 。t ) 变得平滑。我们通过跟踪p ( 。t ) 的虽小值来获得噪声的功率谱 估计。图3 4 给出了口= o8 ,= a 】o 此时p ( t ) 和估计的噪声功率谱。 鲁 篓7 0 锝 嚣 ,卜卜u 加 6 0 帧导1 1 1 4 01 1 罔3 _ 4 粗实线为估训的噪声功率谱:细实线为p ( ,女) 上陶中,我们令口= 08 ,然而泼值并不是虽优的。根槲阁3 _ 5 ,可以看出不同 的“取值时埘p ( z ,女) 和噪卢助率谱估计的影响。从图中u ,以看 h ,随着“的驳值趋 第= 章基于t r w 算法的啤$ 功串潜估计摹十改进噪声功丰诺估计的单通道诗普增强研究 向于1 p ( , ) 越来越平坦,语谱的细节信息被消除。因为过度的平滑会使谱趋
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临床试验脱落率超预期时的风险应对预案
- 会计毕业论文选题
- 临床试验风险获益再评估的监管沟通
- 实验室改善课题
- 建筑工程质量监督管理研究论文3
- 会计学-上市公司内部控制问题及对策研究-以小米集团为例论文
- 毕业论文标准字体
- DRG下医院成本核算的信息化建设
- 武汉体育学院本科毕业论文格式
- 浅析林冲外号变化的深意
- 双方合作股东协议书
- 2025“黑龙江人才周”校园引才活动绥化市人才引进389人参考题库附答案
- 建筑工程委托代建合同模板
- 思政课129运动课件
- 企业公共关系管理维护方案
- 2025年城市污水处理厂智能化改造项目可行性研究报告
- 垂直大模型项目实施方案
- 2025精神麻醉药品处方权考试(试题及答案)
- 装载机安全作业培训课件
- 全国大学生职业规划大赛《新能源汽车技术》专业生涯发展展示【高职(专科)】
- 2023年贵州贵州贵安发展集团有限公司招聘考试真题及答案详解(各地真题)
评论
0/150
提交评论