（模式识别与智能系统专业论文）基于听觉特性的语音增强算法研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：59 大小：1.94MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（模式识别与智能系统专业论文）基于听觉特性的语音增强算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ab s tr a c t ab s t r a c t s p e e c h e n h a n c e m e n t is b e c o m in g a n im p o rta n t b r a n c h o f s p e e c h s ig n a l p r o c e s s , w h i c h i s a l s o a n i m p o r ta n t e l e m e n t i n p u t s p e e c h s i g n a l p r o c e s s s y s t e m i n t o p r a c t i c a l s y s t e m . b a s e d o n t h e m o s t w i d e l y u s e d m e t h o d s p e c t r a l s u b t r a c t i o n , t h i s p a p e r i n t ro d u c e s t h r e e a u d i t o r y p r o p e r t i e s t o i m p ro v e s p e c tr a l s u b t r a c t i o n : a b s o l u t e t h r e s h o l d , c r i ti c a l b a n d s a n d m a s k i n g p r o p e rt i e s , w h i c h r e a c h e s t h e s p e e c h e n h a n c e m e n t p u r p o s e s . f i r s t l y , a c c o r d i n g t o t h e c r i ti c a l b a n 氏t h e s p e c t r u m i s d i v i d e d i n t o a n u m b e r o f n o n - o v e r l a p p i n g fr e q u e n c y b a n d s . i n e a c h fr e q u e n c y b a n d , a c c o r d i n g t o m a s k i n g e ff e c t a n d a b s o l u t e t h r e s h o l d , w e d e s i g n s u b t r a c t i o n f a c t o r a n d s p e c t r a l s m o o t h i n g p a r a m e t e r , w h i c h m a k e s t h e e n e r g y s p e c t r u m o f n o i s e m u s i c b e lo w t h e m a s k i n g t h re s h o l d o r t h e a b s o l u t e t h re s h o l d , m a x i m u m s u p p r e s s e s n o i s e a n d g e n e r a t e a m i n i m u m l e v e l o f s p e e c h d i s t o r t i o n . a c c o r d i n g t o t h e c h a r a c t e r i s t i c s o f p e o p l e p r o n u n c i a t i o n , h i g h - f r e q u e n c y p o w e r s p e c t r u m o f s p e e c h s i g n a l s i s s m a ll . t h e s u b t r a c t i o n f a c t o r w h i c h i s d e s i g n e d 勿山 e m a s k i n g p r o p e r t i e s i s l a r g e w h e n 血 p o w e r s p e c t r u m i s s m a ll , s o i t w i l l d e s t r o y t h e s p e e c h i n f o r m a t i o n o f h i g h fr e q u e n c y , b u t t h e h u m a n e a r s i s v e ry s e n s i ti v e t o t h e s p e e c h i n t h e h i g h fr e q u e n c y b a n d , e s p e c i a ll y f o r t h e 2 k h z - 4 k h z . t h e r e f o re , w e u s e t h e s p e c t r a l fl a t n e s s m e a s u re , w h i c h c a n e s t i m a t e t h e s p e e c h c o n t e n t , t o re - a d j u s t s u b t r a c t i o n f a c t o r i n h i g h fr e q u e n c y b a n d f o r e a c h c r i ti c a l f a c t o r . e x p e r i m e n ts s h o w t h a t t h e i m p r o v e d m e t h o d p ro t e c t s t h e h i g h - fr e q u e n c y i n f o r m a t i o n i n t h e h i g h s i g n a l - t o - n o i s e r a ti o a n d r e d u c e s t h e s p e c t r a l d i s t o r ti o n . k e y wo r d s : m a s k i n g p r o p e r ti e s , c r i ti c a l b a n d s , s p e c t ra l f l a tn e s s m e a s u re , s p e e c h e n h a n c e me n t , s p e c t r a l s u b t r a c t i o n me t h o d 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定，同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文; 学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版; 在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名 : 参. 双问年， ” i t 日经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名: ti学位论文作者签名:清 . 双解密时间:年月日各密级的最长保密年限及书写格式规定如下: 内部5 年 ( 最长 5 年，可少于 5 年) 秘密1 o年 ( 最长 1 o 年，可少于 1 o年) 1 竺 1 0* zo 4 -:目 (jr 兰 2 0 年，可好20 4 ) 南开大学学位论文原创性声明本人郑重声明: 所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名 :告、欢二刁年，月 l t 日第一章引言第一章引言语音通信是人类交流最自然的方式，也是最有效、最重要的手段。当今世界正处于信息时代，计算机、电子和信息技术的高速发展，让机器能听懂人类的语言，实现人和机器之间自然语言的交流，是人类梦寐以求的。语音数字信号处理正是其中一项至关重要的应用技术，是一门涉及面很广的交叉学科，其研究领域涉及到信号处理、人工智能、模式识别、数理统计、神经生理学、声理学和语言学等许多学科。语音数字信号处理包含的内容十分广泛: 语音识别、语音识别、语音合成、说话人识别和语音增强等。在语音通信、声控、自动语音翻译和多媒体信息处理等许多应用领域语音数字信号处理都有重要的应用。语音数字信号处理中的语音增强是语音数字信号处理系统能够进入实用阶段的重要环节。第一节语音增强研究背景在语音通信过程中不可避免的会受到来自周围环境的背景噪声、传输媒介引入的噪声、通信设备内部噪声以及其他说话者的干扰。这些干扰和噪声使语音接受者接收到的语音已非纯净的原始语音信号，而是受到噪声污染的带噪语音信号。环境噪声污染使许多语音处理系统的性能急剧恶化。例如，语音识别已取得重大发展，正在步入实用阶段，但目前的识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。此外，语音编码等其他语音信号处理中也会遇到类似问题。在实际需求的推动下，语音增强这个研究课题早在6 0 年代即引起人们的注意，随着数字信号处理理论的成熟， 7 0年代取得了一些基础性成果，并使语音增强发展成为语音信号处理领域的一个重要分支。8 0年代以来，各种语音增强方法不断提出，进而奠定了语音增强理论的基础并使之逐渐走向成熟. 语音增强的一个主要目标，就是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常是随机的，从带噪语音中提取完全纯净的语音几乎是不可能。在这种情况下，语音增强的口的主要有两个:一是改进语音质量，消除背景噪声，使听者乐于接受，没有疲劳感，这是一种主观测量; 二是提高语音的可懂度，这是一个客观测量。但这两个目的往往不能兼得，所以实际应用第一章引言中总是视具体情况而有所侧重的。综上所述，语音增强已经成为语音数字信号处理的一个重要分支，也成为语音数字信号处理系统实用化的一个重要步骤。第二节语音与噪声的特性语音和噪声有着不同的特性，对这些不同特性的了解和分析，是学习和理解语音增强的前提和基础。语音增强算法利用和语音不同的噪声特性，在时域或频域抑制噪声。针对不同的噪声特性，有着不同降噪算法。 1 . 2 . 1语音特性 1 ) 语音信号是一种非平稳的随机信号人类发声系统在发声过程中的变化速度具有一定的限度，在一段时间段 ( 1 0 . 3 0 m s ) 内，人的声带和声道形状具有相对稳定性，可认为其特征是不变的，因而也可以认为语音信号在这段时间内是短时平稳的，其短时谱特性也具有相对的稳定性。从而可以应用平稳随即过程的分析方法来处理语音信号，并可在语音增强中利用短时频谱的平稳特性。 2 ) 语音作为一个随机过程，语音信号可以用统计分析特性描述语音信号作为非平稳、非遍历的随机过程，长时间时域统计特性在语音增强中意义不大，但其短时谱的统计特性在语音信号处理中有着举足轻重的作用。根据中心极限定理，语音的短时谱的统计特性服从高斯分布。在实际应用时，只能将其看作是在有限帧长下的近似描述。 3 )语音大体可分为浊音和清音两种浊音在时域上有明显的准周期性和较强的振幅，在频域上具有共振峰结构 ( 共振峰反映声道谐振特性的重要特征，代表了发音信息的最直接的来源，而且人在语音感知过程中也利用了共振峰信息 ) ，且能量大部分集中在较低频段内。而清音在时域和频域上没有明显的特征，没有浊音的共振峰结构，能量小且集中在高频部分，类似于白噪声。在信造比低的情况下，容易被噪声淹没。语音增强中，可利用浊音具有的准周期性来区分和抑制非语音噪声，而清音的特性使其很难和宽带噪声区分。第一章引言 1 . 2 . 2 噪声特性对于不同的环境，噪声是不同的。噪声可以是加性的，也可以是非加性的，如乘性噪声二卷积噪声，这类非加性噪声可通过变换变为加性噪声。加性噪声更普遍且易于分析，所以本文中仅讨论加性噪声。常见加性噪声通常可分为冲激噪声、周期噪声、宽带噪声和语音干扰。下面分别介绍各类噪声特性。 1 )冲激噪声: 表现为时域波形中突然出现的窄脉冲，通常由突发声音造成，如打雷、放炮、打桩等引起。根据带噪语音信号幅度的平均值确定阂值。当信号幅度超过这一阐值时，判为冲激噪声。通过平滑技术消除。 2 )周期噪声: 周期噪声的特点是有许多离散的窄谱峰，往往来源于发动机、风扇等周期性运转的机械。如5 0 h z 交流声会引起周期性噪声。通过功率谱发现噪声所在的频段，通过滤波将其除去。 3 )宽带噪声: 宽带噪声的来源很多，如说话时同时伴随着呼吸引起的噪声、随机噪声源产生的噪声，以及量化噪声都可视为宽带噪声。宽带噪声与语音信号在时域和频域上完全重叠，消除难度大。实际应用中近似为g a u s s 噪声或白噪声，一般需要采用非线性处理方法。 4 )语音干扰:千扰语音信号和待传语音信号同时在一个信道中传输所造成的干扰称为语音干扰。人耳可以在两人以上讲话环境中分辨出所需要的声音，这种分辨能力称为“ 鸡尾酒会效应” ，这种分辨能力是人体内部语音理解机理具有的一种感知能力。但是在单信道传输中，这种双耳信号因而并而消失。区别千扰语音和有用语音的基本方法就是利用它们的基音差别。可以用梳状滤波器提取基音和各次谐波，再恢复出有用的信号。 2 . 3 带噪语音模型加性噪声的模型图如图1 . 1 所示: 图1 . 1 带噪语音模型其中，y ( n ) , d ( n ) , s ( n )分别表示a d d转化后的带噪语音信号采样序列、第一章引言噪声信号采样序列和语音信号采样序列。带噪语音信号可以用噪声信号和语音信号的和表示: y ( n ) = 倒 n ) + d ( n ) ( 1 . 1 ) 针对带噪语音模型，语音增强算法有三个基本假设: 1 ) 噪声信号d ( n ) 和语音信号s ( n ) 统计不相关. 2 ) 噪声是局部平稳的.即带噪语音中的噪声统计特性和该语音前的一段无语音段统计特性相同，即可用该语音前的一段无语音段的噪声统计特性替代整个语音段的噪声统计特性。 3 ) 人耳对于相位不敏感。人们经过对语音的振幅谱和相位谱的大量研究表明，对人耳听觉起主要作用的是语音的振幅谱，而人耳对语音相位谱的误差并不敏感，因此研究语音增强的方法主要从幅度谱入手，这正是基于短时幅度谱语音增强方法的基础. 第三节语音增强 1 . 3 . 1语音增强的研究历史语音增强这个研究课题早在6 0 年代即引起人们的注意，随着数字信号处理理论的成熟， 7 0年代取得了一些基础性成果，并使语音增强发展成为语音信号处理领域的一个重要分支. 8 0 年代及9 0 年代初这十几年间，各种语音增强方法不断提出，进而奠定了语音增强理论的基础并使之逐渐走向成熟。语音增强方法的研究始于 2 0世纪7 0 年代中期。随着数字信号处理理论的成熟，语音增强发展成为语音信号处理领域的一个重要分支。1 9 7 8 年， l i m和 o p p e n h e im提出了语音增强的维纳滤波方法 112 1 . 1 9 7 9 年， b o ll 提出了谱相减方法来抑制噪声 3 1 0 1 9 8 4 年， e p h r a im和m a la h 提出基于m m s e 短时谱幅度估计的语音增强方法 0 1 0 1 9 8 7 年， p a l i w a l 把卡尔曼滤波引入到语音增强领域 5 ) 在3 0 多年的研究中，各种语音增强方法不断被提出，它莫定了语音增强理论的基础并使之逐渐走向成熟. 近些年涌现出来的语音增强新方法还有基于小波分解的增强算法问门，采用神经网络的方法 0 119 .，也有采用信号子空间方法 011 11等 . 这些方法成为近几年研究的热点。语音增强不但与语音信号处理理论有关，而且涉及到人的听觉感知和语音第一章引言学。噪声来源众多，随应用场合而异，它们的特性也各不相同。即使在实验室仿真条件下，也难以找到一种通用的语音增强算法，能适用于各种噪声环境. 所以必须针对不同的噪声，采取不同的语音增强对策。 3 . 2 语音增强方法常见的语音增强系统如下图1 . 2 所示，语音增强方法多种多样，根据不同的分类标准，可以划分为不同的类型:根据语音输入的信号通道数可分为单、多通道语音增强;根据增强时语音的处理域不同分为时域和频域语音增强:还可以根据是否自适应分为自适应和非自适应语音增强。但常用的划分是根据语音处理的不同阶段，划分为信号级抗噪处理方法、特征参数级抗噪处理方法、模型级抗噪处理方法p 气图 1 2 语音增强系统图下面我们介绍几类常见的语音增强算法 u 执 1 ) 噪声对消法:基本原理是从带噪语音信号中减去噪声，可以用于平稳噪声和准平稳噪声，但问题是如何得到说话者说话时的噪声. 一般采用两个话筒，一个收集语音，另外一个收集噪声，如果采集到的噪声足够逼真，可直接在时域上直接和带噪语音相减。该方法要求话筒间的距离不能太远或太近，太远收集的噪声和带噪语音中的噪声不同，太近收集的噪声容易受到说话人语音的影响。 2 ) 谐波增强法: 语音信号的浊音具有明显的周期性，利用这一特点进行语音的消噪处理，采用梳状滤波器法对信号进行滤波，允许基频和倍频处的语音成分通过，而对其它频率处的噪声成分进行衰减，从而达到增强语音的目的。第一章引言虽然语音的浊音部分具有良好的谐波结构，在频域中体现出一定的周期性。但语音的清音部分能量比较分散，具有和随机噪声相仿的性质，在频域上并未表现出周期性，导致此类方法往往对语音特别是语音的清音部分造成较大的损伤。另外语音基频的确定也是此类方法的一个难点，在缺乏先验知识的含噪信号中确定语音的基频是很困难的。而基频的失准又会带来灾难性的后果: 一方面语音成分会受到较大的损失，另一方面这种失准还会引入高频噪声到输出信号中。因此这类方法在实际环境中工作的效果和鲁棒性受到了极大的质疑。 3 ) 基于模型的语音增强方法: 如基于i a n m 的合成法、平行模型补偿法等等。该类方法利用噪声数据样本，依据一定的准则对语音模型中的参数估计、调整，使模型更加匹配含噪的环境。 4 ) 短时谱幅度估计类的语音增强方法:如谱减法、维纳滤波器法. 此类方法是在实时处理场合中应用最多的一类语音增强方法。一般来讲，信号的幅度信息比相位信息在保持语音质量和清晰度方面更为重要。根据这一点，此类方法首先对信号的谱幅度加以估计，进而得到更高阶的统计特性( 如功率谱) . 接着利用这些统计特性对含噪信号进行处理，最终得到增强后的语音信号。 5 ) 基于听觉模型的增强算法:此类方法的特点是结合了人耳的听觉感知模型，借助人耳听觉生理上的特性来抑制噪声、增强语音。该方法一般结合其他语音增强算法一起应用。 6 ) 麦克风阵列:该类方法不同上述几种语音增强方法，该类方法为多通道语音增强算法，模拟人耳的双耳效应，辨别目标语音和噪声干扰在空间位置上的差异，通过波速形成算法对来波方向上和语音不同的噪声干扰进行抑制，从而增强语音。其他的语音增强算法，比如小波降噪、神经网络等，目前也是语音增强算法的研究热点. 第四节主要内容和组织结构谱减法能够很好的提高语音的信噪比，以及较少的计算量和空间上的要求，使其成为目前应用最广的语音增强算法. 本论文的主要工作是在谱减法的基础上，结合人耳的听觉特性，动态的修正谱减中的参数，提高谱减法的语音增强效果。本文的主要内容和组织结构如下: 第一章引言第一章主要先讲述语音增强的研究背景、发展历史。在了解语音和噪声的特性的基础上，简单陈述了常用的各种语音增强算法。第二章主要讲解谱减法的基本原理，并针对基本谱减法的缺点，介绍了三种改进谱减法: b e r o u t i 提出的改进谱减法、非线性谱减法、多带谱减法。第三章在陈述人耳听觉系统的生理学的基础上，重点讲解人耳的三个听觉感知特性: 绝对听闽、临界频带和掩蔽效应。第四章主要将人耳三个听觉感知特性应用到谱减法，根据绝对听阐和掩蔽效应动态设计谱减法中的过减因子a 、谱平滑因子夕，提高谱减法语音增强效果。此外，根据针对高频段过减厉害的问题，利用谱平坦度重新调整过减因子，保护高频段的语音信息。第五章介绍了语音增强系统实验平台的搭建过程以及实验结果，并对实验数据进行了分析。第六章对本文进行了全面的总结，讨论了引入听觉感知特性谱减法存在的问题，并对以后基于听觉感知特性谱减法的改进方向进行了展望。第二章谱减法原理第二章谱减法原理谱减法首先由s . b o l l 于 1 9 7 9 3 年提出的，其针对的噪声是平稳的或变化缓慢的加性噪声，并且语音信号与噪声信号不相关。该方法能够抑制背景噪声，但由于其局部平稳性的假设与实际情况并不相符，因此效果不理想; 在b e ro u ti 1 a l 在传统谱减法的基础上，增加调节噪声功率谱大小的系数和增强语音功率谱的最小值限制，提高了谱减法的性能，但其修正系数和最小值是根据经验确定的，适应性较差: p l o c k w o o d 以后，有很多研究人员根据噪声对频率各频段的影响不一样提出了多带谱减【 1 6 , 其他研究人员也在谱减法的基础上提出了很多改进的办法【171 181 。本章探讨了谱减法的基本原理，并针对基本谱减法的缺点，介绍了三种改进谱减法。第一节基本谱减法 . 根据式1 . 1 所示的加性噪声模型，带噪语音信号可以用语音信号和噪声信号的和表示，由于语音信号是短时平稳的，所以在处理语音信号时，先将其分帧加窗，为了便于书写，仍用y t n ) , d ( n ) . s ( n ) 分别表示分帧后的一帧带噪语音信号采样序列、噪声信号采样序列和语音信号采样序列。首先将式 1 . 1 做离散傅里叶变换，将语音信号从时域转化到频域，得到变换后的表达式: y ( k ) = s ( k ) + n ( k ) ( 2 . 1 ) 其中，y ( k ) , s ( k ) , n ( k ) 分别表示y ( n ) , d ( n ) , s ( n ) 的离散傅里叶变换后的幅度谱。将 2 . 1 式等式两边求模得: iy ( k )r = is (k )卜1n (k )卜 s(k)n*(k) + s (k )n (k ) - is (k l 2 + in (k )i2 + 2 r e s (k )n (k ) ( 2 . 2 ) 根据加性噪声模型的假设，噪声信号和语音信号相互独立，即d ( 川、 s ( n ) 独立，根据傅里叶变换性质， s (k ) 与 n ( k ) 也独立 . 又假设d (n ) 服从均值为零的高斯分布，所以有: e (r e s ( k )n* (k ) 二 0(2 .3 ) 第二章谱减法原理对式2 . 2 等式两边求取期望并将2 . 3 式带入得 4 y (k f = e q s (k )iz + e o n (k )i2 + e ( r e s (k )n (k ) ) = e g s (k )12 十 e q n (k )r ( 2 .4 ) 其中， e iiy (k )i2 . e is (k )i2 . e iin (k )i2 ! 分别表示带噪语音信号、语音信号、噪声信号的功率谱，为了方便书写，我们用 p ,(k ) 、 p , ( k ) 、p ( k ) 分别表示。则可以得到带噪语音信号模型的功率谱表达式: p ,( k ) = p , ( k ) + p ( k ) ( 2 .5 ) 由于假设噪声是局部平稳的，所以其功率谱在发音前和发音期间可以认为基本没有变化。这样可以通过发音前的所谓 “ 寂静段”( 认为在这一段里没有语音只有噪声) 来估计噪声的功率谱p . ( w ) ，从而我们可以得到语音的功率谱计算公式: p , ( k ) = p ,( k ) 一 p ( k )( 2 .6 ) 根据上式计算出来的功率谱即可认为是干净语音的近似功率谱。然后，根据估计的功率谱求取幅度谱，利用人耳对相位不敏感的特性，结合带噪语音的相位，使用离散傅里叶逆变换，得到降噪后的语音时域信号。在具体运算时，为了防止出现负功率谱的情况，减谱时当p , ( k ) p ( k ) 时，令p , ( k ) = 0 ，即完整的谱减运算公式如下: “ ，= 1p,(w)= p0, ,(w ) 一 p . ( w ), p y (劝之 p ( m ) p , (w ) p . ( m ) ( 2 . 乃 an ) - ，，一 1 。声，、一 p ( w ) i i 1 9 t w r 图2 . 1基本谱减法的基本原理图基本原理图如图2 . 1 所示。图中频域处理过程中只考虑了功率谱的变换，而最后i f f t 变换中需要借助相位谱来恢复降噪后的语音时域信号。依据人耳对相位变化不敏感这一特点，可以用原来带嗓语音信号州n ) 的相位谱来代替估计之后的语音信号的相位谱来恢复降噪后的语音时域信号。第二章谱减法原理势。 p2 0 ( 2 . 9 ) p * k - alal几 rlesesseee 一一 “ 2 )谱平滑因子 ,b ( s p e c tr a l fl o o r p a ra m e t e r ) : 6 1 ，该参数能有效的抑制音乐噪声。音乐噪声的产生原因为语谱中出现孤立的谱峰，如果选取合适的, 6 , 可使孤立的谱峰周围具有较高的谱值，减少了孤立谱峰的存在，即减少了音乐噪声。选择q 也有一定的限制，如果16 过大，会增强背景噪声; 而过小，音乐噪声就会变得很明显 . 实验表明【14 1,夕一般取值在0 .0 1 -0.2 之间。 3 )指数r : 基本谱减法为功率谱减，增加参数y 可以得到更具一般性的谱减形式，更加灵活。当a = 1 ,声 -0, r = 1 时，算法就变为最简单的幅度谱相减，就是用含噪信号的幅度谱减去噪声信号的幅度谱，得到增强处理后语音信号的幅度谱。当a = 1 , q -0, r - 2时，算法就为本章第二节叙述的基本谱减法，也就功率谱相减。 2 . 3 . 2 非线性谱减法 b e r o u t i 提出的谱减法中参数a在谱减时为固定的，虽然针对不同信噪比的语音，可采用最优的“，但对于一段语音中所有的语音帧，采用相同的谱减规则。而一段语音中的不同语音帧，具有不同的信噪比，应采用不同的过减因子“。在p l o c k w o o d 确定该频带噪声的过减因子al. 采用多带谱减算法后，增强语音信号的功率谱可以用下式表示: 只( i , k ) = p y ( i , k ) 一 a ,.5 , p , ( i, k ) 刀凡 ( i , k ) , p ,( i, k ) z p ( i, k ) p y ( i, k ) 尺 ( i, k )b i 5 k 5 e , ( 2 . 1 3 ) 其中b , , e , 分别表示第i 个频段的起始频率点和结束频率点。a，和a ; 分别为第i 个频率带的噪声过减因子和旋转因子. a , 是第i 个频率带信噪比 p ; 的函数 0 6 1，可表示为， a 2 0 ( 2 . 1 4 ) 八 * 5 曰.几 0. - 541.1 fll - a，第二章谱减法原理其中第1 个频段信噪比a由下式计算得到 : 鑫 qp, (z+ k)r 一 pn (e, k)12 )_ . 八 = i o tg i宁尸2 i ( d b ) 乞p n ( 2, k ) l几构 ( 2 . 1 5 ) 旋转因子s , 为各个频带噪声抑制度的另一个控制因子，它的取值反映了语音信号能量分布的特点，氏是一个分段常数， k 16 根据实验得到药的值为 ( 2 . 1 6 ) r卜廿|枚|日犷 ee 氏上式中，石表示第i 个频率带的上限频率值， f , 为采样频率。因为语音信号的能量大部分集中在低频段，为了使语音失真最小，因此在低频段取较小的值. 多带谱减中最重要的是怎样划分频带，可以按照文献【，日中的划分，将频带按式 2 . 1 6 划分为三个互不重叠的部分，也可根据耳蜗的时频分析特性来划分，划分方法将在第三、四章介绍。第四节实验和小结我们以一段语音来分析基本谱减法和三种改进谱减法语音增强的效果。图 2 . 4 ( a ) 中显示的是一段采样率为1 6 k h z 的干净语音的语谱图.图2 . 4 ( b ) 显示的是该干挣语音混入噪声后的带噪语音的语谱图，从语谱图上可以看出，千净语音已经混入了大量的噪声。由于语音波形图对于鉴别干挣语音、带噪语音、增强语音没有太大的帮助，所以在本文中，只给出对应的语谱图。图2 .5分别显示了含噪语音经过基本谱减法、 b e r o u t i 谱减法、非线性谱减法和多带谱减法后，增强语音的语谱图。从图2 .5 可以看出，经过基本谱减后残留的噪声很多，而b e r o u t i 谱减法、非线性和多带谱减法不同程度的降低了噪声含量，特别是多带谱减，因针对不同频带，采用不同的过减因子，效果从语谱图上看要比b e r o u t i 、非线性和基本谱减法好。从图2 . 5 所示的语谱图也可以看出，增强语音的语谱图中均含有孤立的点，第三章听觉模型及听觉特性界带. 当掩蔽噪声的带宽窄于临界带的带宽时，能掩蔽住纯音f 的强度是随噪声的带宽的增加而增加的，但当掩蔽噪声的带宽达到临界带后，继续增加噪声带宽就不再引起掩蔽量的提高。临界带宽是随其中心频率而变的，被掩蔽纯音的频率 ( 即临界带的中心频率) 越高，临界带宽也越宽。但两者的变化不是一种线性关系。对于大部分人，临界频带带宽可用式3 . 4 近似描述。 b w ( f ) = 2 5 + 7 5 1 + 1 .4 (f / 1 0 0 0 ) r (h z ) ( 3 .4 ) 虽然上式中f 是连续的，不过实际系统中，均建立一组离散带通滤波器。通常人耳能感受到的频率范围为2 0 h z - 2 0 k h z ，在2 0 h z 到2 0 k h z 范围内有2 5 个临界频带，如表 3 . 1 所示表3 . 1 临界频带分布临界频带频; 率( hz) ( b a r k ) 中心频率低端高端宽度 15 02 0 1 0 08 0 21 5 01 0 02 0 01 0 0 32 5 02 0 03 0 0 1 0 0 4 3 5 03 0 04 0 01 0 0 54 5 04 0 051 0 1 1 0 6 5 7 05 1 06 3 01 2 0 77 0 06 3 07 7 0 1 4 0 88 4 07 7 0 9 2 01 5 0 91 0 0 09 2 01 0 8 01 6 0 1 01 1 7 01 0 8 01 2 7 0 1 oo 1 1 1 3 7 0 1 2 7 0 1 4 802 1 0 1 21 6 0 01 4 8 01 7 2 02 4 0 1 31 85 01 7 2 0 2 0 0 02 8 0 1 4 2 1 5 02 0 0 02 3 2 03 2 0 1 52 5 0 02 3 2 02 7 0 03 8 0 1 62 9 0 0 2 7 0 03 1 5 04 5 0 1 7 3 4 0 03 1 5 03 7 0 05 5 0 1 84 0 0 03 7 0 0 4 4 0 07 0 0 1 9 4 8 0 04 4 0 05 3 0 09 0 0 2 05 8 0 05 3 0 06 4 0 01 1 0 0 第三章听觉模型及听觉特性表3 . 1 ( 续) 临界频带分布 2 17 0 0 0 6 4 0 07 7 0 01 3 0 0 2 28 5 0 07 7 0 09 5 0 01 8 0 0 2 31 0 5 0 09 5 0 01 2 0 0 0 2 5 0 0 2 41 3 5 0 01 2 0 0 01 5 5 0 03 5 0 0 2 51 8 7 7 51 5 5 0 02 2 0 5 0 6 5 5 0 临界频带的单位叫b a r k ( 巴克 ) ， 1 b a r k 等于一个临界频带的宽度。当频率小于5 0 0 h z 时， l b a r k 约等于 f / 1 0 0 ; 频率大于5 0 0 h z 时， 1 b a r k 约等于9 + 4 1 o g v/ 1 0 0 0 ) ，即约为某个纯音中心频率的2 0 % . 频率由h z 转化为b a r k的计算公式 12 11如下: :。二，、曰.000 76n 3一 ( f 23arctran(0.00076f) + 3.5arctran 1 l(7500) j一， ( 3 . 5 ) 临界频带的划分是以听觉带宽信号的听觉特性为根据的，临界频带与频率的关系，与耳蜗中基底膜长度与频率关系完全相同。因此，将频率按临界频带划分，便于对听觉特性进行分析，便于找出人耳的主观感觉与声音的物理性质之间的关系，对于解决与听觉有关的各种问题以及建立听觉模型是十分有用的. 3 . 2 . 3掩蔽效应两个声音同时呈现时，一个声音因受到另一个声音影响而减弱的现象就是掩蔽现象。在日常生活中经常可以遇到声音的掩蔽现象，一个声音由于其它声音的干扰而使听觉发生困难，前者必须增加强度才能重新听到，这种听闽强度增加的过程和声音强度增加的量就叫声音的掩蔽效应。要听的声音叫做被掩蔽音，起千扰作用的声音叫掩蔽音。掩蔽现象可分为同时掩蔽( s i m u lt a n e o u s m a s k i n g ) 和瞬时掩蔽 ( t e m p o r a l m a s k i n g ) 。由于瞬时掩蔽效应主要利用在音联现象，目前还没有应用到降噪，所以我们重点讲解同时掩蔽效应。 1 ) 同时掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽( s i m u lt a n e o u s m a s k i n g ) 。当两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉。由于频率较低的声音在内耳耳蜗基底膜上行波传递的距离远于频率较高的第三章听觉模型及听觉特性声音，故一般来说，低频的纯音可以有效的掩蔽高频的纯音，而高频的纯音对于低频的纯音掩蔽作用很小。此外，试验证明对于中等掩蔽强度来说，纯音最有效的掩蔽是出现在它的频率附近。如图 3 .4所示，一个声强为 6 0 0 ,频率为 1 0 0 0 h z的纯音，另外还有一个 1 1 0 0 h z 的纯音，前者比后者高 1 8 d b ，在这种情况下我们的耳朵就只能听到那个1 0 0 0 h z 的强音。如果有一个1 0 0 0 h z 的纯音和一个声强比它低 1 8 d b的2 0 0 0 h z 的纯音，那么我们的耳朵将会同时听到这两个声音。要想让2 0 0 0 h z 的纯音也听不到，则需要把它降到比 1 0 0 0 h z 的纯音低 4 5 d b 。一般来说，弱纯音离强纯音越近就越容易被掩蔽。户强( b) 8 0。，一一 8 频率 ( e m) 1 2 1 4 1 6 图3 .4频率为】 0 0 0 h z 、声强为6 0 d b的纯音的掩蔽效应根据掩蔽音的不同，我们可以将频率掩蔽分为两种类型:纯晋掩蔽 ( t o n e - m a s k i n g ) , 噪音掩蔽 ( n o i s e - m a s k i n g ) ，下面我们将介绍这两种不同掩蔽类型的特点。 a ) 纯音掩蔽:以某个定额频率的纯音来掩蔽其它不同频率的纯音，再来观察后者阐值提高的情况.图3 . 5是佛莱奇尔 ( f l e t c h e r , 1 9 5 3 )的一个实验结果，从图上可以看到以下几种情况:( 1 ) 掩蔽音强度提高，掩蔽效果随之增加，当 4 0 0 h z 的掩蔽音是4 0 d b时， 8 0 0 h z 的纯音要达到1 3 d b时才能听到;当该掩蔽音提高到8 0 d b时， 8 0 0 h z 的纯音须增加到6 0 d b才能听到，而且掩蔽音愈强，它的影响范围也愈大。例如2 0 d b的4 0 0 h z ，掩蔽音只影响到2 0 0 - 8 0 0 h z 的频率范围，而8 0 - 1 0 0 d b的4 0 0 h z 掩蔽音可影响到4 0 0 0 h z 以上的频率范围。 ( 2 ) 掩蔽音对于频率相近声音的影响最大. 例如3 5 0 0 h z 掩蔽音对于3 0 0 0 - 4 0 0 0 h z 纯音的影响明显大于3 0 0 0 h z以下纯音的影响。( 3 ) 低频对高频的掩蔽效果大于高频第三章听觉模型及听觉特性对低频的掩蔽。例如4 0 o h z 掩蔽音对高频音的影响范围和效果相当大，而3 5 0 o h z 掩蔽音对低频音的影响范围和效果就相当小。丸4 0 d a z ion 100 二一日: 3 5 0 o r t u 月母 j纽j哺1 编厂解卜洁，!走叮阂值交化(db) 4020 / . . 丽0一1 6 0 0 2 4 0 0 3 2 0 0 4 0 0 0 丽0 1 6 0 0 2 4 0 0 3 2 0 0 4 0 0 0 数率 ( h z ) 撷率 (r z ) 图3 . 5纯音对纯音的掩蔽效果 b ) 噪声掩蔽: 在一个临界频带

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）基于听觉特性的语音增强算法研究.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）基于听觉特性的语音增强算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档