(通信与信息系统专业论文)语音增强的算法研究.pdf_第1页
(通信与信息系统专业论文)语音增强的算法研究.pdf_第2页
(通信与信息系统专业论文)语音增强的算法研究.pdf_第3页
(通信与信息系统专业论文)语音增强的算法研究.pdf_第4页
(通信与信息系统专业论文)语音增强的算法研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(通信与信息系统专业论文)语音增强的算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音增强的算法研究 通信与信息系统专业 研究生张睿指导教师高勇 语音处理系统都不可避免地要受到各种噪声的干扰。噪声不但降低了语音 员量和语音可懂度,而且还将导致系统性能急剧恶化。为了消除噪声的干扰, 营音处理系统广泛采用语音增强技术。因此,研究语音增强技术具有重要意义。 语音增强的主要目的有两个:一个是改进语音质量、消除背景噪声,使听 著乐于接受、不感觉疲劳,这是一种主观度量;二是客观度量,以提高语音信 桑比为目的。本文对语音增强方法的研究就是为在这两方面达到满意的结果所 韭行的一些探索研究。 本文借鉴已有的各种语音增强算法,对它们进行了探讨验证和一些改进, e 要工作包括以下几个方面: 一、在语音信号端点检测部分,对基于倒谱距离的端点检测算法进行了改 生,并提出了一种基于四种状态的判断机制,可以方便地用于有声无声检测。 二、研究了基于语音短时谱估计的语音增强方法,主要包括谱减法、维纳 基波法和基于语音短时谱m m s e 估计的语音增强方法。论文介绍了上述语音增强 法的基本原理、实现方法,并对它们进行了改进,给出了实验结果和比较, 示了这些方法之间的区别和联系。对谱减法的改进是根据帧频谱功率和频点 围来确定谱减系数;对维纳滤波法,尝试了两级维纳滤波和m c l t 域变换;对 m s e 方法,在传统对数m m s e 算法的基础上引入频点的有音无音概率、并对先 l 信噪比进行了改进,采用了新的增益函数,并提出了在l m s e 算法后进行基本 减后处理的构想,达到了在不损伤语音本身的前提下进一步抑制背景噪声、 高信噪比的目的,取得i 较好的效果。 三、对在图像处理中应用普遍的形态滤波法用于语音信号处理进行了探讨, 出了实验结果和一些结论,该方法对正负脉冲噪声的处理效果很好。 论文最后提出了总结、不足以及本课题今后的发展方向。 关键词:端点检测语音增强短时谱估计谱减法m m s e i i 曩 q 。 一 k j r e s e a r c hf o r t h ea l g o r i t h m so f s p e e c he n h a n c e m e n t m a j o rc o m m u n i c a t i o n & i n f o r m a t i o ns y s t e m g r a d u a t e z h a n gr u is u p e r v i s o r g a oy o n g h a r d l yc a na n ys p e e c hp r o c e s s i n gs y s t e ma v o i di n t e r f e r e n c ef r o mv a r i o u s n o i s e s n o i s ec a na f f e c tt h eq u a l i t ya n dt h ei n t e l l i g i b i l i t yo fs p e e c h w h a t sw o 璐c i t m a y d e t e r i o r a t et h e s y s t e m i t s e l f t or e d u c et h e i n t e r f e r e n c e , m a n y s p e e c h p r o c e s s o r sa d o p tt h es p e e c he n h a n c e m e n tt e c h n i q u ew i d e l y t h e r e f o r e ,i th a s am e a n i n go f g r e a tv a l u et of u r t h e rs t u d yt h i st e c h n i q u e i th a st w om a i na i m s :o l l ei st oi m p r o v et h ea u d i oq u a l i t y , e l i m i n a t et h e b a c k g r o u n dn o i s e s , a n dm a k et h el i s t e n e rf e e ll e s st i r e db u tm o r ew i l l i n gt ol i s t e n , a n dt h i si sas u b j e c t i v em e a s u r e m e n t 1 1 l eo t h e ri st oi n 口e a s et h es i g n a l t o n o i s e r a t i o , a n di ti sa no b j e c t i v em e a s u r e m e n t t b i se s s a y , h o p i n gt oa c h i e v es o m e p r o g r e s si nt h i sf i e l di nt e r m so ft h et w oa i m sa b o v e ,d i dal o to fs t u d yo nt h i s t e c h n i q u e h a v i n gs t u d i e da n db r o u g l l ti ns o m er e c e n ts p e e c he n h a n c e m e n ta l g o r i t h m s , t h i se s s a yd i ds o m et e s t sa n di m p r o v e m e n t sa sf o l l o w s : i t h i se s s a yi m p r o v e dt h ee n d p o i n td e t e c t i o na l g o r i t h mb a s e do nc e p s t r a l d i s t a n c ea n ds u g g e s t e daj u d g em e c h a n i s mb a s e do nf o u rc o n d i t i o n s ,w h i c hw i l lb e c o n v e n i e n to fv o i c ea c t i v i t yd e t e c t i o n i i t h i se s s a yd i ds o m er e s e a r c h e sa b o u tt h i st e c h n i q u eb a s e do ns h o r t t i m e s p e c t r u me s t i m a t i o n , i n c l u d i n gs p e c t r u ms u b t r a c t i o n 、w i e n e rf i l t e r i n ga n ds p e e c h e n h a n c e m e n ts c h e m eb a s e do nm i n i m u mm e a ns q u a r ee r r o re s t i m a t i o no fs p e e c h s h o r tt i m es p e c t r u ma m p l i t u d e n o to n l yt h ef u n d a m e n t a l so ft h e s em e t h o d sw e r e s t a t e d ,b u ta l s ot h ew a y st h e yc a l lb ep u ti n t op r a c t i c e b e s i d e s ,s o m ei m p r o v e m e n t w a sm a d e ,e x p e r i m e n tr e s u l t sw e r ec o m p a r e d ,a n dt h ec o n n e c t i o n sa n dd i f f e r e n c e s t t t w e r ea l s or e v e a l e di nt h i se s s a y t h ei m p r o v e m e n tf o rs p e c t r u ms u b t r a c t i o nw a st h e c o n f i r m a t i o no fc o e f f i c i e n t sa c c o r d i n gt os p e c t r a lp o w e rp e rf r a m ea n df r e q u e n c y i n d e x f o rw i e n e rf i l t e r i n ga l g o r i t h m ,t w os t a g ew i e n e rf i l t e r i n ga n dm c l td o m a i n t r a n s f o r mw a st e s t e di nt h i sp a p e r f o rm m s e a l g o r i t h m ,t h ei m p r o v e m e n t si n c l u d e i n t r o d u c i n gp r e s e n c ea n da b s e n c ep r o b a b i l i t yo ff r e q u e n c yi n d e xo nt h eb a s i so f t r a d i t i o n a ll o gs p e c t r a lm m s e ,i m p r o v e m e n t p r i o rs i g n a l t o n o i s er a t i oa n da d o p t i n g n e wg a i nf u n c t i o n w h a t sm o r e ,ac o n c e p t i o no f a d db a s i cs p e c t r a ls u b t r a c t i o na f t e r m m s e p r o c e s s i n gw a sp r o p o s e dw h i c ha i m e da tm o r ee f f e c t i v er e d u c t i o no ft h e b a c k g r o u n dn o i s ew i t h o u ts i g n i f i c a n ts p e e c hd e g r a d a t i o n i i i t h ea p p l i c a t i o no fm o r p h o l o g i c a la l g o r i t h mw h i c hw i d e l yu s e di ni m a g e p r o c e s s i n gi n t os p e e c hs i g n a lp r o c e s s i n gw a sd i s c u s s e di n t h i sp a p e r w i t ht h e e x p e r i m e n tr e s u l t sa n dc o n c l u s i o n s i tw a ss h o w e dt h ep e r f o r m a n c ew a sq u i t ew e l l i nr e d u c i n gt h ep u l s en o i s e f i n a l l y , w es u g g e g e d t h es h o r t a g ei nt h i sp a p e ra n dp r o s p e c ta b o u tt h ep r o j e c t k e y w o r d s :e n d p o i n td e t e c t i o n , s p e e c he n h a n c e m e n t ,s h o r tt i m es p e c t r u m e s t i m a t i o n , s p e c t r a ls u b t r a c t i o n , m m s e i v 妒 l - lrj、己 四川大学硕士学位论文 第一章绪论 1 1 引言 语音是人类进行交流的主要工具之一,是人与人、人与机器进行沟通的重 要桥梁。但语音在实际传输过程中不可避免地要受到来自周围环境和传输媒介 引入的噪声、通讯设备内部噪声、乃至其它讲话者语音的干扰。例如安装在汽 车、飞机、坦克和舰船上的电话,街道、机场上的公用电话,战场上的电台等 常常受到很强的背景噪声干扰,严重影响了通话质量。再比如深海潜水员在氦 氧面罩内讲话引起的失真,语言障碍的残疾人的语音失真,有历史价值的旧唱 片、旧录音带的噪声和失真等,都是带噪语音信号的例子。在这些情况下需要 对带噪语音进行语音增强处理,以消除背景噪声,提高语音质量。 除去通信领域,在语音识别、编码系统中语音增强也有极重要的应用。近 年来,语音识别技术获得突破性进展,它作为人机交互一种很自然、便捷的方 式,越来越受到人们的重视,特别是随着北京申奥的成功,移动式语音识别和 翻译系统将有一个很好的市场。但是目前的语音识别系统大多都工作在安静的 环境下,背景噪声的引入会严重影响识别系统的性能。正是因为实际环境中不 可避免出现的噪声,大大妨碍了语音识别技术在实际生活中的应用,这也是目 前语音识别暂时走入低谷的直接原因。目前语音识别技术的发展以及应用需求, 使得语音增强的研究愈发迫切了。此外低速率语音编码以较低的码率传输语音 信号,对节省传输带宽有重要意义,噪声的存在会严重影响模型参数的提取, 使得重建语音的质量急剧恶化,甚至变得完全不可懂,用经过语音增强的信号 输入声码器能提高其抗噪声能力。 此外,语音增强在多媒体应用、智能家电和国安、公安部门提高侦听效果、 帮助侦察破案方面等也正得至越来越广泛的应用。 在实际应用中,这些系统都在其前端加上语音增强系统作为预处理器,以 提高其抗干扰能力,维持其系统性能。总而言之,语音增强技术广泛应用在各 种语音信号处理领域中。 ,1-_ 皿川大学硕士学位论文 1 2 语音增强的目的 因为一般情况下干扰信号足随机信号,要完全消除是不现实的,这里有两 个度量标准:一个是主观度量,以改进语音质量、消除背景噪声,使听者乐于 接受、不感觉疲劳为目的;二是客观度量,以提高语音可懂度和信噪比为目的。 现有的某些语音增强算法,能显著降低背景噪声,提高信噪比,改善语音 质量,但一般都不能提高语音可懂度,在很多情况下处理后虽然信嗓比提高了, 但可懂度却下降了n 1 。所以改善语音质量和提高语音可懂度是难以同时达到的 两个目标,需要根据语音增强的具体应用场合作出不同的选择。也就是客观度 量和主观度量往往不能兼得,比如对语音处理系统( 识别器、声码器) 而言, 最重要的是语音特征参数,重点是提高系统的识别率和抗干扰能力,那么就要 尽可能提高语音的客观度量;相反,对于语音增强系统,最重要的是使人们听 起来更舒适,减少收听人的疲劳感,提高语音可懂度,那么重点考虑的是主观 度量。 1 3 语音增强的信号模型 在实际环境中,噪声成分可以是加性的,也可以是非加性的。考虑到加性 噪声更为普遍。而且对于一些非加性噪声可以转换为加性的,比如乘性噪声可 以通过同态滤波转化为加性噪声,所以本文的讨论以加性噪声为主。语音增强 的信号模型如图1 1 所示: 数学表达式为: 图1 1 语音增强的信号模型 y ( ”) = s ( n ) + d ( n ) 2 婴! ! ! 查兰堡! 兰焦堡苎 这里,y ( 刀) 、s ( n ) 和d ( 盯) 分别代表带噪语音、纯净语音和干扰噪声,一般还对 语音增强的信号模型做如下假设: 1 噪声和语音统计独立或不相关; 2 噪声是局部平稳的。局部平稳是指一段带噪语音中的噪声,具有和语音 段开始前那段噪声相同的统计特性,且在整个语音段中保持不变,即可以根据 语音开始前那段噪声来估计语音中所叠加的噪声的统计特性; 3 只有带噪语音可以利用,没有其他参考信号。 1 4 语音增强的发展历史和分类 由于计算机技术的迅猛发展,人们自7 0 年代开始提出基于数字信号处理 的语音增强方法。考虑到浊音的周期性,人们首先提出用梳状滤波器加强周期 性的语音而衰减非周期性的噪声n 1 ;在自适应噪声抵消的思想下发展了自适应 滤波的语音增强方案“;利用a r 模型能写出带噪语音的状态空间方程,从一 组状态方程出发能够进行卡尔曼滤波“1 :利用噪声的平均谱估计,用频谱减法 能够有效地抑制噪声,此方法简单实用,受到了研究者的一贯关注,到今天仍 然有不少的研究是围绕它展开的,本文也不例外,将在第四章详细介绍。总之 7 0 年代曾经形成了一个研究高潮,取得了一些基础性的成果,但由于各种算法 计算量比较大,导致它们的实用性受到影响。进入8 0 年代后,v l s l 技术的发 展为语音增强的实时处理提供了可能,同时也涌现了大量新的算法,在语音识 别中使用的概念和方法又被借鉴到语音增强算法中。8 0 年代末9 0 年代初,使 用统计方法的语音增强算法成为研究的中心,统计方法中最典型的是隐马尔科 夫模型( m 0 4 h i d d e nm a r k o vm o d e l ) 方法,它既是语音识别的主要方法,也可 以以概率方式将语音增强问题纳入其模型框架“1 。9 0 年代中后期,移动通信的 飞速发展对语音增强研究提供了现实的动力,由于对之前的增强效果仍然不够 满意,又进行了新的尝试。比如将小波变换用于语音增强中,或者进行卡维南 一洛维变换( k l t k a r h u n e n l o e v e t r a m f o r m ) “1 ,利用神经网络( a n n a r t i f i c i a l n e u r a ln e t w o r k s ) 进行语音增强,此外采用麦克风阵列输入多个带噪混合信号, 再通过计算进行滤波也受到很大重视,还有基于独立元分量分析用于语音信号 盲分离和增强也是目前研究的热点。 在参考了文献【7 ,8 】的分析后,对各种方法加以概括,大致将语音增强方 网川大学颂卜学位论文 法分成如下五类: 参数方法:如维纳滤波、梳状滤波器、卡尔曼滤波器等。此类方法依赖于 使用的语言生成模型( 例如a r 模型) ,需要提取模型参数( 如基音周期、 l p c 系数) ,常使用叠代方法。如果实际噪声或语音条件与模型有较大差距 或提出模型参数有困难,这类方法容易失效。 非参数方法:如谱减法、自适应滤波等。因为不需要从带噪信号中估计模 型参数,非参数方法应用范围广,限制较少。也因为约束条件少,没有利 用可能的统计信息,结果一般不是最优的。 统计方法:如隐马尔科夫模型、纯净语音谱和带噪语音谱对应映射、极大 后验概率估计( m a p m a x i m u ma - p o s t e d o r i ) 、最小均方误差估计 ( m m s e m i n i m u m m e a ns q u a r ee r r o r ) 等。统计方法较多地利用了语音和噪声 的统计特性,一般需要建立模型库。 多通道方法:如噪声抵消法、延迟一相加波束形成器( d e l a y s u l nb e a m f o r m e r ) 、自适应波束形成器( a d a p t i v eb e a mf o r m e r ) 、后滤波波束形成器 ( p o s t - f i l t e r i n gb e a mf o r m e r ) 、独立分量分析( i c a i n d e p e n d e n tc o m p o n e n t a n a l y s i s ) 等。多通道方法利用了更多的信息,包括空间信息,可以更好地滤 除噪声、分离语音,但对硬件设备要求高,算法一般较复杂。 其他方法:如小波滤波、卡维南一洛维变换、人工神经网络等。这些方法 不象前几类方法那样成熟。 1 5 论文的内容和结构 本论文在学习、借鉴已有的语音增强算法的基础上,着重探讨了在强噪声 背景下较有效果的基于短时谱估计的语音增强方法。首先介绍了语音增强的概 念、应用领域、目的和语音增强的发展历史及分类。第二章是语音信号的分析 和预处理,为下一步的工作做好准备;第三章是在语音信号的端点检测和噪声 谱估计方面进行的研究工作:而第四章是全文的重点,讨论了基于短时谱估计 的语音增强方法,并提出改进措施:第五章介绍了基于形态滤波的语音信号增 强方法,把这个用于图象处理的方法应用到语音信号处理中作了初步的尝试; 第六章是结束语,下面是- - n 六章的内容介绍: 4 网川大学硕i - 学位论文 第二章是语音信号分析及预处理的相关知识,是对语音进行处理的基础和 前提,从理论到实际应用都已十分成熟。主要包括语音信号的预加重、语音信 号的加窗分帧和语音信号的短时时域分析。 第三章介绍了常用的语音端点检测方法,提出了基于倒谱距离的端点检测 改进算法,把倒谱距离和短时能量结合起来作为特征参数,并给出了仿真结果。 制定了基于四种状态的合理的状态转换判决机制,从而保证端点检测的准确有 效。对于非平稳噪声,讨论了基于最优平滑和最小统计量的噪声谱估计方法。 第四章是全文的重点,着重探讨了基于短时谱估计的语音增强算法。首先 介绍了基本谱减法及其增强形式,并在此基础上提出了改进形式,根据每帧的 频谱功率和最大值的比值以及频点所在的频率范围来求谱减系数,而不是每帧、 每个频率分量都采用固定的系数。接下来,在谱减法的基础上,提出了基于先 验幅度比的语音增强方法,通过用先验幅度比来连续更新噪声谱的估计,相当 于动态调整了谱减系数。在维纳滤波算法中,介绍了二级维纳滤波和相当于f f t 的m c l t 算法,在语音增强的变换域上做了初步尝试。基于最小均方误差估计 的语音增强算法又是本章的重点,在前人对其进行改进的基础上提出了新的增 益函数,另外所做的一个尝试是把最小均方误差估计算法和谱减算法结合,以 期达到在不损伤语音本身的前提下进一步抑制背景噪声、提高信噪比。仿真实 验表明,本论文方法进一步优化了最小均方误差估计算法,同时并不额外增加 运算量。 第五章把一般用于图像处理的形态滤波方法用于语音处理,虽然对加性噪 声的处理结果远未达到满意的程度,但在滤除脉冲噪声方面具有明显优势,对 这种语音增强的非线性算法做了初步探讨。 第六章对全文进行了总结,指出了本论文的不足和进一步完善改进的设想。 7 四j i l 丈学硕士学位论文 第二章语音信号分析及预处理 2 1 语音特性、噪声特性和人耳感知特性 2 1 1 语音特性 1 语音是时变、非平稳的随机过程。 人类发声系统的生理结构的变化速度是有一定限度的,在一定时间内 ( 1 0 - - 3 0 m s ) 人的声带和声道形状有相对稳定性,可以认为其特性是不变的, 因此语音的短时谱分析也具有相对稳定性。在语音增强中,往往要利用语音的 这种短时平稳性。 2 语音可分为清音和浊音两大类。浊音在时域上呈现明显的周期性;在频 域上有共振峰结构,而且能量大部分集中在较低频段上。清音则不同,它没有 明显的时域和频域特性,有些类似于白噪声。在语音增强中,可以利用浊音的 周期性特征,而清音信号则很难与宽带噪声区分。 3 作为一个随机过程,语音信号可以用统计分析特性来描述,又由于语音 是非平稳、非遍历的随机过程,所以长时丑j 的时域统计模型意义不大。只有对 语音进行分帧处理,才能近似认为其具有高斯分布。在高斯模型假设下,傅立 叶展开系数被认为是独立高斯随机变量,均值为零,方差时变。这种高斯模型 应用于有限帧长只是一种近似的描述,在宽带噪声的语音增强中,这种假设成 为分析的前提“1 。 图2 1语音信号产生的离散时域模型 6 婴型盔兰竺主兰堡望兰 语音的发声过程可以建模为一个线性时变滤波器,激励源通过这个声道模 型形成语音。浊音情况下其激励源为一周期脉冲发生器,清音时则为一随机噪 声发生器。图2 1 示出了语音信号产生的离散时域模型n “,其中a v 和a u 分别 是浊音和清音的激励幅度。 2 1 2 噪声特性 噪声来源于实际环境,因此噪声特性变化无穷。大致可以把噪声分为加性 和非加性两类。加性噪声有周期性噪声、脉冲噪声、宽带噪声和同声道其他语 音的干扰等。 1 周期性噪声 其特点是具有许多离散的线谱。主要来源于发动机等周期性运转的机械、 电气干扰,特别是电源交流声也会引起周期性噪声。实际环境中产生的周期性 噪声并非简单地只含有谱线分量,而是由许多窄带谱组成。而且往往是时变的, 并与语音信号频谱重叠,必须采用自适应滤波的方法才有可能自动识别和区分 噪声分量。 2 脉冲噪声 脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于爆炸、撞击和放 电等。一般用阈值判断或平滑滤波即可消除。其过程如下:根据带噪语音信号 幅度的平均值确定阈值,当信号幅度超过这一阈值时,判断为脉冲噪声,然后 对它进行适当衰减,甚至完全消除;也可以根据相邻信号样值通过内插的方法 将脉冲噪声在时域上进行平滑,这是一种直接消除的方法。 3 宽带噪声 宽带噪声的来源很多,有热噪声、气流( 如风、呼吸) 噪声及各种随机噪声 源。量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完 全重叠,因而消除它最为困难。这种噪声只有在语音间歇期才单独存在。对于 平稳的宽带噪声,通常可以认为是白色高斯噪声。不具有白色频谱的噪声,可 以先进行白化处理。对于非平稳的宽带噪声,情况就更为复杂一些。 4 同声道语音干扰 人耳可以在两人以上讲话环境中分辨出所需要的声音,这种分辨能力是人 体内部语音理解机理具有的一种感知能力,来源于人的双耳效应。人类这种分 离语音的能力称为“鸡尾酒会效应”( c o c k t a i lp a r te f f e c t ) 。但当多个语音叠 7 四川大学硕十学位论文 合在一起,在单信道中传输时,双耳信号因合并而消失。故分辨能力下降。独 立分量分析i c a ( i n d e p e n d e n t c o m p o n e n t a n a l y s i s ) 是一种可行的方法。 5 传输噪声 这是传输系统中的电路噪声,在时域是声音和噪声的卷积。处理这种噪声 可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理。 总之,噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音 之间的差别,使语音质量下降,可懂度降低。强噪声会使人产生听觉疲劳。不 仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪声 环境中的发音方式,从而改变了语音的特征参数,这称为l o m b a r d 效应,它对 语音识别系统有很大影响。 2 1 3 人耳感知特性 语音感知对语音增强研究有重要作用,它涉及到生理学、心理学、语音学 等多个领域,是一个复杂的问题,有待进一步研究,目前已有一些有用的结论 可以应用于语音增强n “1 2 1 1 人耳对语音的感知主要是通过语音信号频谱分量幅度获得的,对相位谱 则不敏感。 2 人耳对频谱分量强度的感受是频率和能谱的二元函数,响度与频谱幅度 对数成正比。 3 共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重 要。也就是说对语音信号进行一定程度的高通滤波不会对可懂度造成影响。 人耳在两个人以上的说话环境中有能力分辨出需要聆听的声音。人耳具有 掩蔽效应,即强信号对弱信号有掩盖和抑制作用。掩蔽的程度是声音强度和频 率的二元函数,对频率临近分量的掩蔽要比频差大的分量有效得多。此外,截 去高频成分对于辅音的影响要比对元音的影响严重一些,而去掉低频成分对于 元音清晰度的影响则要比对辅音的影响大一些。 2 2 语音信号的短时时域分析 语音信号分析是语音信号处理的前提和基础,只有分析出可以表示语音信 8 婴型盔兰堡主兰竺堡苎 号本质特征的参数,才有可能利用这些参数进行有效的语音合成、增强和识别 等处理。由于语音信号是一个随机过程,但在一个短的时间范围内( 1 0 - - 3 0 m s ) , 其特性基本保持不变,可以看成一个准稳态过程。因此,可以将语音信号进行 “短时分析”,把语音信号分成每一帧来处理。 设语音波形的时域信号是s ( n ) ,为了利用语音信号的短时平稳性,将语音 信号划分为很多短时的语音段,每个短时语音段称为一个分析帧。一般每帧的 时间是l o - 3 0 m s ,分帧可以采用连续分段的方法,但一般采用交叠分段的方法, 这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的非交叠部 分称为帧移。帧移与帧长的比值一般取0 0 5 。分帧是用可移动的有限长度窗 口进行加权的方法来实现的,就是对语音信号进行加窗处理,用一定的窗函数 w ( n ) 来乘s ( 疗) 。加窗的主要作用是为了减少由分帧处理带来的频谱泄漏。因为 分帧是对语音信号的截断,相当于语音信号的频谱与矩形窗函数频谱的周期卷 积,由于矩形窗频谱的幅瓣较高,信号的频谱会产生“拖尾”,即频谱泄漏。采一 用适当的窗函数,可以减小频谱泄漏。一般采用汉明窗来进行语音分帧,函数 定义为: w ( n ) = 0 5 4 一o 4 7 + e o s 2 ;, m ( n 一1 ) 】 r = 0 , 1 ,2 n 一1 ( 2 一1 ) 对每帧加窗后,将相邻帧的重叠部分相加就得到相应的时域输出,这种叠加方 法利用了汉明窗函数的特性。图2 2 解释了帧长、帧移的概念和重叠相加的原 ”8 理。 。 图2 2 分帧和重叠相加示意图 最基本的语音信号时域参数有短时能量、短时过零率、短时自相关函数和 短时平均幅度等。 一 9 ,一|i-rr 四川大学硕卜学位论文 1 短时能量和短时平均幅度 设第i 帧语音信号为s ( i ,聆) ,帧长为,短时能量e ( i ) 的计算公式如下: ( f ) = j 2 ( f ,甩) ( 2 2 ) 月 0 短时能量对高电平非常敏感,为此可采用另一个度量语音赋值变化的函数, 即短时平均幅度函数,它定义为: m ( 驴i s ( ,胛) l ( 2 3 ) 2 短时过零率 短时过零率表示一帧语音信号波形穿过横轴( 零电平) 的次数,其计算式为: z ( f ) :i i1 r 乙u q i s g n b ( f 疗) 卜s g f l l ( 拥一1 ) m ( z - 4 ) l n = lj 其中,s g n ( ) 为符号函数。用上式计算短时过零率容易受到低频的干扰,尤其 是5 0 h z 交流干扰。解决的办法是设置一个小的门限值,即使存在小随机噪声, 只要选择合适的门限,就不会产生虚假的过零数。 文献【1 3 1 表明,清音的过零率较高,浊音和噪声次之,而且浊音和噪声 的过零率相当。因此短时过零率常用来检测清音,并且方法比较简单,缺点是 对语音信号中的浊音和噪声很难区分,对弱爆破音、摩擦音、末尾的鼻音拖长 的元音等不敏感。 3 短时自相关函数 设第i 帧语音信号为s ( i ,n ) ,帧长为,该帧短时自相关函数用r 。( f ,) 表示: 足,( f ,) = s ( i ,n ) s ( i ,聆+ ,) ( 2 5 ) 易证明:足,( f ,) 是偶函数,即r 。( f ,) = r 。( f ,一,) 。r ( f ,) 的最大值在,= 0 处, 且等于该帧语音的平方和。 此外,短时能零积是指帧能量与帧过零率的乘积,短时能零比是帧能量与 帧过零率的比,它们和短时自相关函数等其它时域特征参数常被用作语音端点 检测的指标量。 2 3 语音信号的预加重处理 为了消除低频干扰,需要进行高频提升,在对原始语音进行处理之前,先 进行预加重( p r e w e i g h t i n g ) 处理。将语音信号通过一个一阶高通滤波器( 也称 l o 婴坐查堂! 主兰壁堡苎 为预加重滤波器) ,预加重滤波器的数学表达式为1 一j 亿,一般0 9 3 a 0 。 2 4 2 主观评价 语音质量的一个重要的评价标准是主观评价。主观评价主要由实际测听来 完成,主要有平均意见得分( m o s 得分) 、压韵测试( d r t ) 等。 1 m o s 得分的评分标准如下: 表21m o s 得分等级 塑坐查兰堡圭兰竺堡苎 m o s 得分是语音质量的量化标准,m o s 分为4 4 5 分的语音为高质量语 音,达到长途通话网质量要求,称为网络质量;3 5 分左右的语音质量有所下降, 但不妨碍正常通话,称为通信质量;3 分以下的语音质量是一些合成声码器所达 到的质量,称为合成质量。 2 诊断压韵测试( d r t ) 压韵测试的试听者判断一对压韵词的音节,例如,试听者要分辨出一对词比 如m e a t b e a t ,p o o l t o o l ,s a w t h a w 等等中的一个词,然后要确定是读的哪一 个词。最后d r t 得分按下式计算得到百分数: p = 1 0 0 ( r w ) r( 2 一i o ) 其中r 是正确选择的数量,是错误选择的数目,r 是总共测试的单词对数目, 通常在7 5 9 5 的视为良好。 由于条件所限,本文不对语音的m o s 得分和d r t 进行估测。 2 5 本章小结 语音信号的分析和预处理是对语音进行处理的基础和前提,这方面前人已 经做过大量的工作,从理论到实际应用都已十分成熟。本文根据后续内容的需 要简单介绍了语音、噪声和人耳感知特性,对预处理中必要的预加重和加窗分 帧以及语音的短时分析这些基本步骤作了描述。最后介绍了目前常用的一些语 音客观、主观评价标准。 网川大学硕士学位论文 第三章带噪语音信号的端点检测和噪声谱估计 语音端点检测和噪声谱估计是数字语音信号处理的基础环节。在语音识别 中,准确的端点检测不仅可以减少计算量,而且可以提高语音识别的正确率: 而噪声谱估计的准确性将直接决定语音增强的效果。因此语音端点检测和噪声 谱估计也是语音增强算法和语音编码系统的重要组成部分。 本文研究语音端点检测来自于三方面的需求。首先,本课题取之于一个坦 克驾驶舱语音通信项目,该项目要求在强噪声干扰下,判断信号中语音的有无, 进而控制信道的开闭,并消除背景噪声;其次,本篇论文将要讨论的语音增强 算法中,将噪声准确地估计出来是难点之一,也是必不可少的环节;第三,目 前常见的语音端点检测方法,例如能量检测方法,在低信噪比情况下效果不理 想,本文提出了四态判断方法和基于倒谱距离的改进方法在低信噪比下检测效 果有了明显改进。对于非平稳噪声,本文讨论了基于最优平滑和最小统计量的 噪声谱估计方法。 3 1 语音端点检测算法综述 在信噪比比较高的情况下,一般分别或联合使用几种短时特征就能很好地 检测出语音的起始点,但在信噪比比较低的时候,很难对噪声信号和语音信号 作出准确的区分。因此,噪声环境下语音的端点检测问题近年来受到重视,许 多学者从不同侧面研究了这个问题,提出了包括基于时频参数的方法“、基于 基音信息的方法“”、基于h 删模型的方法“、基于模糊逻辑的方法“”和基于 高阶谱分析的方法m 1 在内的许多方法。 3 1 1 基于短时能量或短时平均幅度的检测方法 由于一般带噪语音中的噪声是加性噪声,因此语音段的能量比噪声段的 大,计算每帧的短时能量或短时平均幅度,取前一段纯噪声的短时能量或短时 平均幅度作为门限,就能把语音段和噪声段区分开来。但实际中信噪比比较低, 仅靠短时能量或平均幅度,甚至联合使用并采用双门限或者动态更新门限阈值 的方法也难以得到满意的结果。 t 4 四jt 1 人擘硕士学位论文 3 1 2 基于短时能量和短时平均过零率的检测方法 清音的过零率较高,而短时能量值不高,仅采用短时能量特征容易漏检话 音开始前的清音部分,因此采用短时能量和短时平均过零率相结合的方法可以 提高检测的准确度。 语音的端点检测方法还有很多,这里不再累述。本文对基于倒谱距离的端点 检测方法作出改进,并提出一种四态判断方法,实验证明,该算法具有较好的 性能。 3 2 基于倒谱距离的语音端点检测算法 在目前的许多语音识别系统中,倒谱系数包括线性预测倒谱系数 ( l p c - c e p ) 和m e l 亥l j 度倒谱系数( m f c c ) 被选作特征矢量,它同样可作为端 点检测的参数。 3 2 1 算法原理 我们采用l p c 倒谱系数。假设带噪语音的开始阶段是纯噪声,求出每帧的 倒谱系数,用开始阶段的倒谱系数的平均作为背景噪声系数的估计,然后计算 每帧信号倒谱系数与噪声倒谱系数的倒谱距离,采用类似能量方法中的门限判 决方法检测出语音段和噪声段。计算的步骤如下: ( 1 ) 语音进行有重叠的分帧; ( 2 )自相关分析,计算自相关系数: 一l r ( _ ,) = s ( n ) s ( n - j ) ( 3 1 ) ( 3 ) 计算l p c 系数,我们采用l e v i n s o n - d u r b i n 算法n ”: 轧初始化:e = r ( o ) ,k = r ( i ) r ( o ) ,硝1 = k b 第一循环:以i _ 2 ,p ,按以下各式计算: e = ( 1 一i 2 ) e k _ 【r ( f ) 一口p r ( i - y ) e 3 = 1 口1 1 ) = k ( 3 2 ) ( 3 3 ) ( 3 4 ) 四川大学硕七学位论文 c 第二循环;以j = l ,2 ,i - 1 ,按下式计算: d p = 口p 一后粥o ( 3 5 ) d 最后,令口= 口1 - ,p ,口,即为待求的各l p c 系数,p 是l p c 系数的阶数,一般取l o 。 ( 4 ) 计算每帧倒谱系数,采用迭代法: a ) 初始化:c ( o ) = l , c ( 1 ) = 口 b ) 迭代计算: t i c ( 七) = 吼+ ( 1 一 p c ( 后) - - - - a k + ( 1 一 月i l 生) c ( k 一甩) 2 七p 行 ( 3 6 ) 墨) 口。c ( k 一疗) p j i g 起 其中g 是倒谱系数的阶数,一般取1 2 。 ( 5 ) 计算每帧的倒谱距离: 。 用每帧的倒谱系数与噪声倒谱系数估计值计算倒谱距离,公式为伽1 : d e e p = 4 3 4 2 9 ( 3 7 ) 其中c 是第i 帧的倒谱系数,c 是噪声倒谱系数的估计值,一般取开始阶段噪 声倒谱系数的平均。c 0 是倒谱系数的直流分量,因为倒谱可以看成信号能量谱 密度函数的对数傅立叶级数展开,即 l o g s ( w ) = g p 删 ( 3 8 ) 其中,g 为倒谱系数,c = c 。,r c o = e l o g s ( 甜) 雾,所以c 0 用下式计算: c o = l o g r o ) 】 ( 3 - - 9 ) ( 6 ) 对带噪语音进行有声无声判决 。 对于非平稳噪声,为了使判决门限适应噪声的变化,在噪声帧应对估计的 噪声倒谱系数c 进行更新,采用平滑的办法,更新的原则是。1 : c = a c + ( 1 一口) c , ( 3 1 0 ) 图3 1 显示了一个端点检测的结果。一段纯净语音加上白噪声,s n r 约4 d b , 1 6 婴坐查兰婴兰兰竺堡壅 语音静4 0 0 0 点是纯噪声,语音为“不到长城非好汉”。其中( a ) 和( b ) 分别是纯净 语音和带噪语音的时域波形,横轴是采样点数( 1 0 4 ) ,纵轴是归一化幅度;( c ) 是每帧能量值,( d ) 是每帧倒谱距离值。根据图中倒谱距离曲线,可以清楚地找 到语音起始点和字与字之间的界限,而能量曲线则不能,也就是说倒谱距离比 短时能量具有更好的区分度。 0 1 0 1 0 5 o 00 204 0 6 0 8i 21l15 18 2 05 01 1 5 0劫2 5 0 0 5 0 1 1 5 02 0 d2 5 0 ( a ) 原始语音波形( b ) 带噪语音波形 ( c ) 帧能量值( d ) 帧倒谱距离值 图3 1 倒谱距离与短时能量的比较 3 2 2 算法改进 在低信噪比的时候,只采用倒谱距离的方法同样检测率不高,借用能零积 ( 帧能量与帧过零率的乘积) 的思想,我们提出用帧倒谱距离和帧能量值相乘 作为特征参数的算法,图3 2 是对一段真实录制于坦克驾驶舱的带噪语音的检 测结果,图( a ) 是带噪语音时域波形,横轴是采样点数( 1 0 4 ) ,图( b ) 是每帧的倒 谱距离,图( c ) 是改进后的特征参数,横轴代表帧序列,图( d ) 是端点检测后的时 1 7 o o , 帖 四川丈学绚卜学位论文 域波形。可以看到语音几乎完全湮灭于坦克噪声中,采用新的特征参数,明显 比帧能量值和帧倒谱距离值具有更好的准确性。实验结果表明:本方法能够准 确地检测出语音的端点,在传统方法已完全失效的情况下,用本方法仍能有效 检测出含噪语音的端点,所以本方法要优于传统的能量检测方法和未改进的倒 谱距离方法。 0020 40 60 8 f2 14 16l8 22 2 ( a ) 带噪语音波形( b ) 帧倒谱距离值 ( c ) 改进后的特征参数( d ) 端点检测后的时域波形 图3 2 基于倒谱距离的端点检测算法改进 3 3 “四态判断机制” 3 3 1 特征选取、 、 根据语音信号的特点,笔者将带嗓语音划分为4 种状态:“l ”代表噪声状 态,“2 ”代表语音状态,“3 ”代表由噪声过渡到语音的不确定状态,4 代表 由语音过渡到噪声的不确定状态。这样划分使得判决更加符合语音信号的特点, 逻辑关系更加清楚,有利于更准确、更有效的检测出语音的起始点。 我们采用两个特征参数:短时能零比和短时谱幅度,也可以采用3 2 介绍的 1 8 四l i | 大学硕士学位论文 倒谱距离与帧能量值的乘积作为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论