![(电路与系统专业论文)基于短时谱估计的语音增强算法研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/d1eab61c-ecb9-45e1-88a9-d80c8f5985b6/d1eab61c-ecb9-45e1-88a9-d80c8f5985b61.gif)
![(电路与系统专业论文)基于短时谱估计的语音增强算法研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/d1eab61c-ecb9-45e1-88a9-d80c8f5985b6/d1eab61c-ecb9-45e1-88a9-d80c8f5985b62.gif)
![(电路与系统专业论文)基于短时谱估计的语音增强算法研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/d1eab61c-ecb9-45e1-88a9-d80c8f5985b6/d1eab61c-ecb9-45e1-88a9-d80c8f5985b63.gif)
![(电路与系统专业论文)基于短时谱估计的语音增强算法研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/d1eab61c-ecb9-45e1-88a9-d80c8f5985b6/d1eab61c-ecb9-45e1-88a9-d80c8f5985b64.gif)
![(电路与系统专业论文)基于短时谱估计的语音增强算法研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/d1eab61c-ecb9-45e1-88a9-d80c8f5985b6/d1eab61c-ecb9-45e1-88a9-d80c8f5985b65.gif)
已阅读5页,还剩65页未读, 继续免费阅读
(电路与系统专业论文)基于短时谱估计的语音增强算法研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中田科学技术人学埘! f 学位论文 摘要 噪声环境下,许多语音处理系统的性能急剧下降。语音增强作为解决噪声污 染的一种有效的预处理技术,一直是语音信号处理领域中的热门课题。语音增强 的目的就是从带噪语音信号中提取尽可能纯净的原始语音信号,提高信噪比,改 善语音质量。 基于短时谱估计的语音增强由于具有适用信噪比范围大、方法简单、易于实 时处理等优点,是目前应用最广泛的方法。这种语音增强方法通常都采用精确的 噪声估计来采集噪声的特性,然后通过良好的增强算法来得到期望的估计语音。 本文立足于跟踪国内外的最新技术,系统深入地研究了短时谱增强方法中的各个 技术环节,主要实现工作如下: l ,深入地研究了三种基本的短时谱估计方法:谱减法、维纳滤波和最小均 方误差( m m s e ) 估计。在分析了基于语音短时谱估计增强方法的基础上,将先验 信噪比的直接判决法估计引入到增益函数的计算中,有效地解决了此类方法增强 语音中经常伴随的“音乐噪声”问题。 2 从语音活动检狈u c v a d ) 和连续更新噪声谱两方面入手,深入探讨了语音 增强系统中的噪声估计问题。在此基础上给出了两种有效的噪声估计方法;基于 统计模型v a d 的方法与基于最小值约束的快速自适应方法。实验表明,v a d 方 法计算量小,易于实现,但是对非平稳噪声跟踪力度不够;基于最小值约束的方 法能够及时地跟踪噪声变化,获得准确的噪声估计,有效地改善增强效果。 3 针对传统短时谱方法中存在的语音失真问题,研究了人耳的听觉感知特 性在语音增强中的应用,提出一种基于听觉掩蔽效应的s t s a 语音增强算法。该 算法根据掩蔽阈值与噪声之间的相对关系,对带噪语音谱分量有选择地进行处 理在抑制背景噪声的同时,有效地减少了对原语音信号的损伤。实验表明,听 觉掩蔽的利用能够很好地提高语音质量,改善增强效果。 关键词:语音增强,短时谱估计,先验信噪比,噪声估计,听觉掩蔽 中田w - 7 :让术人学坝i 学位论文 a b s t r a c t s p e e c he n h a n c e m e n ti sal o n g s t a n d i n gp r o b l e mw i t hn u m e r o u sa p p l i c a t i o n s r a n g i n gf r o mh e a r i n ga i d s ,t oc o d i n ga n da u t o m a t i cr e c o g n i t i o no fs p e e c hs i g n a l s a l t h o u g hm a n ya l g o r i t h m s h a v eb e e n d e v e l o p e do v e rt h e l a s tt w od e c a d e s , i m p r o v e m e n t sa r es t i l ls o u g h t n i em o s tc o m m o ne n h a n c e m e n tt e c h n i q u e s o p e r a t ei nt h es h o r tt i m es p e c t r a l d o m a i n ap r a c t i c a ls p e e c he n h a n c e m e n ts y s t e mg e n e r a l l yc o n s i s t so ft w om a j o r c o m p o n e n t s :t h ee s t i m a t i o no f n o i s ep o w e rs p e c t r u m ,a n dt h e e s t i m a t i o no f s p e e c h i n t h i st h e s i st h ef o l l o w i n gi s s u s e sh a v e b e e ni d e n t i f i e da n de x p l o r e d : i t h r e em a j o rs p e e c he n h a n c e m e n ta l g o r i t h m sb a s e do ns h o r tt i m es p e c t r a l e s t i m a t i o na r es t u d i e d ,i n c l u d i n gs p e c t r a ls u b t r a c t i o n ,w i e n e rf i l t e r i n ga n dm i n i m u m m e a ns q u a r ee r r o r ( m m s e ) e s t i m a t i o n t h e nw ep r e s e n tau n i f i e dv i e wo ft h e s e t e c h n i q u e sa n dp r o p o s et oi n c l u d et h ec o n c e p to fa p r i o r is n re s t i m a t i o ni nc l a s s i c a l s p e e c he n h a n c e m e n ts c h e m e s a sar e s u l t t h ev e r ya n n o y i n ga r t i f a c tk n o w na s m u s i c a ln o i s ei se f f e c t i v e l ye l i m i n a t e d 2 a sac r u c i a lp a r to ft h eo v e r a l le n h a n c e m e n ts y s t e m ,n o i s ep o w e rs p e c t r a l d e n s i t ye s t i m a t i o ni sc l o s e l ys t u d i e di nt h i sp a p e r t w oc o m p u t a t i o n a l l ye f f i c i e n t a l g o r i t h m sa r ep r e s e n t e da n dd i s c u s s e d :t h eo n eb a s e do nv o i c ea c t i v i t yd e t e c t o r s ( v a d ) a n dt h eo n eb a s e do nm i n i m u mt r a c k i n g s i m u l a t i o nr e s u l t ss h o wt h a tt h e t r a d i t i o n a ls n rb a s e dv a da r ed i f f i c u l tt ot u n ea n dt h e i ra p p l i c a t i o nt ol o ws n r s p e e c hr e s u l t so f t e ni nc l i p p e ds p e e c h ,w h i l et h ee s t i m a t o rb a s e d0 nt h em i n i m u m t r a c k i n gm e t h o d ,w h i c hi sv e r yr o b u s te v e nf o rl o ws n rc o n d i t i o n s ,c a nu p d a t et h e n o i s ee s t i m a t et h r o u g h o u tt h ee n t i r es i g n a l 3 t om i n i m i z es p e e c hd i s t o r t i o ni n t r o d u c e db yt h et r a d i t i o n a lf r e q u e n c yd o m a i n m e t h o d ,w ep r o p o s eas p e e c he n h a n c e m e n ta l g o r i t h mb a s e do nt h em a s k i n gp r o p e r t i e s o ft h eh u m a na u d i t o r ys y s t e m t h ei d e ab e h i n dt h ep e r c e p t u a l l yb a s e dm e t h o d sf o r s p e e c he n h a n c e m e n ti st os h a p et h er e s i d u a ln o i s es p e e :仃b mi ns u c haw a y s ot h a ti t f a l l sb e l o wt h em a s k i n gt h r e s h o l d ,t h e r e b ym a k i n gt h er e s i d u a ln o i s ei n a u d i b l e t h e t e s tr e s u l t ss h o wt h a tt h ei n c o r p o r a t i o no f a u d i t o r ym a s k i n gw o r k sw e l l k e y w o r d s :s p e e c he n h a n c e m e n t ,ap r i o r is n r , n o i s ee s t i m a t i o n , a u d i t o r ym a s k i n g 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权, 即:学校有权按有关规定向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅或借阅,可以将学位论文编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 年月日 中罔 l 学于上求,、学蛔i 学位论史第一章绪论 第一章绪论 实际环境中,语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境、 传输媒质中引入的噪声、电气设备的噪声以及其他说话人的干扰等等。环境噪声 会影响语音质量,严重的情况下语音将会完全淹没到噪声中,无法辨别。语音质 量的下降会使许多语音处理系统的性能急剧恶化。比如,语音识别系统在实验室 环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时, 系统的识别率将受到严重的影响;低速语音编码同样会受到噪声的影响,由于语 音生成的模型是低速率语音编码的基础,当语音受到严重干扰时,提取的模型参 数将很不准确,重建的语音质量急剧恶化。此时采用语音增强技术进行预处理, 将有效的改善系统性能。 语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。随着语音技术 研究的深入和实际应用的增多,各种语音处理系统都面临着迸一步提高性能的问 题。语音增强是其中的关键技术之一。从2 0 世纪6 0 年代开始,语音增强的研究 就一直没有停止。2 0 世纪7 0 年代由于数字信号处理理论的成熟语音增强曾经新 成了一个研究热潮,取得了一些基础性成果。2 0 世纪8 0 年代以后,v l s i 技术 的发展为语音增强的实时实现提供了可能。目前,除了基于信号处理理论的研究 外,针对人的听觉感知系统的生理特性研究、语言学中上下文联想智能的研究等, 都在进一步推动着语音增强的发展。 但是由于噪声来源众多,特性各不相同,而语音处理系统的应用场合又千差 万别,因此不存在一种可以通用于各种噪声环境下的语音增强算法。另一方面, 由于噪声信号都是随机产生的,完全地消除噪声也几乎不可能。因此实际语音增 强的目标主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦; 提高语音可懂度,方便听者理解。到目前为止,还没有哪种语音增强系统可以同 时很好的改善语音质量和可懂度这两个指标。 中周科学 土术人学埘! i 学位论文第一章绪论 1 1 语音增强的基本理论 语音增强不仅是一个数字信号处理技术方面的问题,还涉及到人的听觉感知 和语音学。因此要有效地增强语音,必须对语音和噪声的特性、人耳的感知特性 以及语音信号处理的一些基本方法有充分的了解。 1 1 1 语音和噪声的特性 这罩简单对语音增强处理时涉及到的一些语音和噪声的特性做个介绍: 1 语音特性 ( 1 ) 语音信号是准平稳的随机过程 人类发声系统产生不同语音时的生理结构并不相同,产生的信号也是一个非 平稳信号。但由于生理器官变化速度有限,在一段时间内( 1 0 3 0 m s ) 可以认为人 的声带和声道等特征基本不变,因此语音的短时谱具有相对稳定性。语音增强可 以利用这种短时平稳性。 ( 2 ) 语音信号基本可以分为清音和浊音两大类 从语音产生的机理上看,两者有明显的差异,因而在特性上也有明显区别。 浊音在时域上呈现出明显的周期性;在频域上有共振峰结构,而且能量大部分集 中在较低频段内。清音则完全不同,它没有明显的时域和频域特征,类似于自噪 声。在语音增强中,可以利用浊音的周期性特性,提取语音分量或者抑制非语音 信号。 ( 3 ) 语音信号可以用统计分析特征来描述 作为一个随机过程,语音信号可以利用许多统计分析特征进行分析。但由于 语音信号非平稳、非遍历,因此长时间时域统计特性对语音增强算法的意义不大。 语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无穷大时,才近似具 有高斯分布。在高斯模型的假设中,可以认为傅里叶展开系数是独立的高斯随机 变量,均值为o ,而方差是时变的。在有限帧长时这种高斯模型只是一种近似的 描述,可以作为分析的前提在宽带噪声污染的带噪语音增强中应用o l 。 2 噪声特性 噪声通常可以定义为通信、测量以及其他信号处理过程中的无用信号成分。 中圃“学投术j 、掌坝i 学位论史 第一章绪论 根据噪声的时域或频域特性,可以将噪声大致归为如下几类: ( 1 ) 窄带噪声:其特点是能量分布在一个较窄频带范围内,例如5 0 6 0 h z 的电 力线噪声。 ( 2 ) 白噪声:完全随机的噪声,具有平坦的功率谱。理论上,白噪声包含所 有频率,且每个频点的能量相同。 ( 3 ) 带限白噪声:指频带受限的白噪声,通常涵盖所处理信号的整个频带。 ( 4 ) 有色噪声:非自噪声或任何频谱不平坦的宽带噪声。例如,粉红噪声和 棕色噪声。粉红噪声指在给定频率范围内( 不包含直流成分) ,随着频率的增加, 其功率密度每倍频程下降3 d b ( 密度与频率成反比) 。棕色噪声指在不包含直流成 分的有限频率范围内,功率密度随频率的增加每倍频下降6 d b ( 密度与频率的平方 成反比) 。 ( 5 ) 脉冲噪声:表现为时域波形中突然出现的窄脉冲。 ( 6 ) 瞬态噪声:其时域特征表现为随机的起始脉冲以低频震荡形式衰减。 根据与输入语音信号的关系,噪声可分为加性噪声和非加性噪声。对某些非 加性噪声而言,可以通过一定的变换转化成加性噪声。例如乘性噪声( 或卷积噪 声) 可以通过同态变换转换为加性噪声;某些与信号相关的量化噪声可以通过伪 随机噪声扰动的方法变换成与信号独立的加性噪声。因此,为简化讨论,本文主 要分析加性噪声的干扰。 1 1 2 人耳的听觉感知特性 语音感知对语音增强的研究有重要作用。这是因为语音增强效果的最终度量 是人的主观感受。而人耳对背景噪声有惊人的抑制功能,因此了解其中机理将大 大有助于语音增强技术的发展。 语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,这是一个 复杂的问题,有待进一步研究。尽管如此,目前己有很多有用的结论可以应用于 语音增强2 删: ( 1 ) 人耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分量 的相位则不敏感。 中固科学 上求,、学顺f 等 位论文第一章绪论 ( 2 ) 人耳对频谱分量强度的感受是频率与能量谱的二元函数,响度与频谱幅 度的对数成币比。 ( 3 ) 人耳对频率高低的感受近似与该频率的对数值成正比。 ( 4 ) 人耳有掩蔽效应即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声 音强度与频率的二元函数。对频率临近分量的掩蔽要比频差大的分量有效得多。 ( 5 ) 短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共 振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影 响。 ( 6 ) 人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音这种分辨 能力来源于人的双耳输入效应,称为“鸡尾酒会效应”。 1 1 3 带噪语音的信号模型 语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通 道的语音增强算法。单通道语音系统在实际应用中较为常见,如电话,手机等。 这种情况下语音与噪声同时存在一个通道中,语音信息与噪声信息必须从同一个 信号中得出。一般这种语音系统下要求噪声要比较平稳,以便在非语音段对噪声 进行估计,再依据估计出来的噪声对带噪声的语音段进行处理。如果语音系统是 一个多通道的语音系统,各个通道之间存在着某些相关的特性,这些相关特性对 语音增强的处理十分有利。 单通道语音增强是语音增强的基础,本文将重点研究和实现单通道的语音增 强方法,带噪语音的信号模型( 见图l1 ) 为: y 0 ) = x ( n ) + d ) ( 1 - 1 ) 这晕y ( ) 、x ( n ) 和d ( 仃) 分别代表带噪语音、纯净语音和干扰噪声。可知,研究 的噪声是加性的,除此之外,本论文还对信号模型做如下假设: ( 1 ) 噪声是局部平稳的。局部平稳是指一段带噪语音中的噪声,具有相对平 稳的统计特性,且在整个语音段中保持不变; ( 2 ) 噪声与语音统计独立或不相关; ( 3 ) 只有带噪语音可以利用,没有其他参考信号。 4 中围科学技术j 、学硕f 学位论文 第一章绪论 图1 - 1 带噪语音的信号模型 1 1 4 随机理论中的参数估计 语音增强的实质是一个估计问题,即如何从带噪语音中估计出原始纯净语 音。在这罩,我们考虑给定观测矢量y 的条件下参数矢量口式的估计问题,其中 观测矢量与参数矢量有某种概率映射的关系。例如,a 是线性预测系数,而y 是 带噪语音矢量。 有三种常用的参数估计方法,分别是最大似然( m a x i l l l u ml i k e l i h o o d ,m l ) 估 计,最大后验概率( m a x i m u map o s t e r i o d ,m a p ) 估计和最小均方误差( m i n i m u m m e a ns q u a r ee r r o r , m m s e ) 估计”。 最大似然( m l ) :假设参数矢量a 是确定的,而j ,关于a 的条件概率密度是已 知的。在最大似然估计中,参数矢量被选择为使观测矢量y 最可能出现的参数。 这对应着在参数空怕】a 中搜索是条件概率密度函数p r l a ( y 口) 最大的参数口,其中 观测矢量y 来自空间y 。 最大后验概率( m a p ) :假设参数矢量a 是随机的,而a 关于y 的后验概率密 度p 。( d l y ) 是已知的。最大后验概率估计就是在参数空间4 上寻找使后验概率 p4 l r ( a l y ) 最大的参数矢量。当参数矢量口的先验概率密度n ( 4 ) 是均匀分布时, 最大后验概率估计与最大似然估计的结果相同。 最小均方误差( m m s e ) 估计:仍然假设参数矢量a 是随机的,而口关于y 的 后验概率密度p a , r ( 口l y ) 是已知的。在最小均方误差估计中,参数矢量被选择为 使均方误差 ( 舀一日) 2 】最小的参数,经推导可知该均方误差就是条件后验均值 中田f : 学让术人学帧i j 学位论文第一章绪论 e a 眇】。因此,当办。( a ly ) 的最大值等于其均值时,最大后验概率估计与最小 均方误差估计的结果相同。 1 2语音增强的发展现状 语音增强一般都作为预处理或前端处理模块存在于语音处理系统中。由于 噪声特性各异,语音增强的方法也各不相同。一直以来,人们都在宽带加性噪声 的模型上进行研究,提出了各种语音增强算法。尽管在理论上还没有完全解决语 音增强问题,但有些方法已经证明是有效的。从处理方法上分类,常用的算法大 体上有以下几类: ( 1 ) 基于语音谱特征的谐波增强法 由于语音中的浊音具有明显的周期性,这种周期性反映到频域中则为一系列 分别对应基频( 基音) 及其谐波的一个个峰值分量,这些频率分t 占据了语音的大 部分能童,我们自然可以利用这种周期性来进行语音增强。这时可采用自适应梳 状滤波来提取基音及其谐波分量,抑制其他周期性噪声和非周期的宽带噪声。由 于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周期 以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。 ( 2 ) 基于短时谱估计的增强算法【5 1 - “】 利用语音信号的短时平稳性,可以对其进行短时谱分析。基于语音短时谱估 计的增强方法考虑到人耳对相位失真的不敏感,因此不处理带噪语音的相位, 从带噪语音的短时幅度谱中得到语音信号短时幅度谱的估计值。根据实现估计的 方法不同,可以分为谱相减法、维纳滤波法、最小均方误差( k m t s e ) 法等。该类方 法具有适应信噪比范围大、方法简单、易于实时处理等优点,尽管该方法研究比 较早但仍具有很强的生命力,成为应用最广泛的语音增强方法。 ( 3 ) 基于语音生成模型的增强算法【4 】【2 2 l 语音的发声过程可以建模为一个线性时变滤波器。对不同类型的语音采用不 同的激励源。在语音的生成模型中,应用最广泛的是全极点模型。显然,如果能 够知道激励参数和声道滤波器参数,就能利用语音生成模型合成得到“纯净”语 6 中因学技术凡学坝i 学位论j 第一章结论 音,这种方法的关键在于如何从带噪语音中准确地估计语音模型的参数( 包括激 励参数和声道参数) ,这种增强方法称为分析一合成法。基于语音生成模型可以得 到r 一系列语音增强方法,比如时变参数维纳滤波及卡尔曼滤波方法【矗i - ”1 。但基 于语音生成模型的增强方法运算量比较大,系统性能也有待于进一步提高。 ( 4 ) 基于信号子空间的增强算法【2 6 i - ”1 经典的检测理论中有一项信号子空间处理技术。谱估计和阵列信号处理中经 常使用这种技术。语音信号处理的大量实验表明,语音矢量的协方差矩阵有很多 零特征值,这说明干净语音信号矢量的能量只分布在它对应空间的某个子集中。 而语音信号处理中,噪声的方差通常都假设已知且严格正定。噪声矢量存在于整 个带噪信号张成的空间中。因此带噪信号的矢量空间可以认为由一个信号加噪声 的子空间和一个纯噪声子空间构成。可以利用信号予空间处理技术,消除纯噪声 子空问,并对语音信号进行估计,实现语音增强。 ( 5 ) 基于听觉感知的增强算法1 - 【”1 听觉掩蔽法是利用人耳的听觉特性的一种增强算法。研究人员发现,无论在 多么恶劣的环境下,人耳总能在极大的程度上对语音信号中的噪声进行抑制,以 提取到感兴趣的信息。而语音增强的效果最终也是通过人的主观感受体现的,因 此随着对人听觉系统生理机制的研究深入,近年来基于听觉感知的语音增强算法 缛到了长足的发展。 综上,由于噪声来源众多,随应用场合而异,特性也各不相同,增加了语音 增强的复杂性。要想一劳永逸地设计出一种算法来解决所有的噪声是不现实的, 只能针对不同的噪声情况,采取不同的语音增强算法。所以对各种语音增强技术 的研究及实现是很有必要的。 1 3语音增强的质量评价 消除噪声是语音增强算法的主要目的之一,因此信噪比s n r 的提高自然而然 地成为衡量语音增强性能的重要准则。但值得注意的是,人是语音信号的最终接 受者,人的听觉系统最后负责处理语音信号,因而信噪比不一定是最合适的准则。 叶l 陶科学 上术人学坝l 。学位论文第一章绪论 语音质量包括两方面内容:清晰度和可懂度。前者是衡量语音中字、单词和 句的清晰程度。而后者则是对讲话人的辨识水平。语音质量评价不但与语音学、 语苦学和信号处理等学科有关,而且还与心理学、生理学等有着密切的联系,因 此语音质量评价是一个极其复杂的问题。对此多年来人们不断的努力,提出了许 多语音质量评价的方法,总体上看可以将语音质量评价可分为两大类:主观评价 和客观评价。 1 3 1 主观评价 主观评价以人为主体来评价语音的质量。主观评定方法符合人类听话时对语 音质量的感觉,目前得到了广泛的应用。常用的方法有平均意见得分( m e a n o p i n i o ns c o r e ,简称m o s 得分) 。判断韵字测试( d i a g n o s t i cr h y m et e s t ,简称 d r t 得分) ,判断满意度测量( d i a g n o s t i ca c c e p t a b i l i t y m e a s u r e ,简称d a m 得分) 等。主观评价的优点是符合人对语音质量的感觉,缺点是费时费力费钱,且灵活 性不够,重复性和稳定性较差,受人的主观影响较大等。 ( 1 ) m o s 得分法i 6 ”i m o s 得分采用五级评分制,即将重建语音质量分为优( 5 分) 、良( 4 分) 、中( 3 分) 、差( 2 分) 及坏( 1 分) 共5 个等级测验。 表l - i 啪s 评分等级表 m o s - 分质量级别失真级别 5优不察觉 4良刚有察觉 3 由 有察觉稍觉可厌 2 差明显察觉,可厌仍可忍受 l坏 不可忍受 m o s 评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进 行对照听比就觉察不出这种差异:质量良表示重建语音的畸变或失真不明显,不 中冈“学技术j 、学懈i 。学位论文第一章绪论 注意听意识不到:质量中表示重建语音有比较明显可感知的畸变成失真,但语音 自然度和清晰度仍很好,且昕起来没有疲劳感;质量差表示重建语音有较强的畸 变或失真,听起柬已有疲劳感:质量坏表示重建语音的质量极差,听觉无法忍受。 ( 2 ) 判断韵字测试 判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法使 用若干对同韵母进行测试,让受试者每次听到一对韵字中的某个音,然后让他判 断所听到的音是哪一个字,全体实验者判断正确的百分比就是d r t 得分,通常认 为d r t 为9 5 以上时清晰度为优,8 5 - 9 4 为良,7 5 一8 4 为中,6 5 一7 5 为差而6 5 以下为不可接受。 ( 3 ) 判断满意度测量( d a m ) d a m 是对语音质量的综全评估,它是在多种条件下对话音质量的接受程序的 一种度量。这种评分体系相当全面,也相当复杂,这里就不再赘述。 1 3 2 客观评价 语音质量客观评价是以语音系统的输入信号和输出信号之间的误差大小来 判别语音质量的好坏。是一种误差度量。目前,常用的客观评价方法有时域失真 测度:信噪比( s i g n a l t o n o i s er a t i o ,s n r ) 、分段信噪比( s e g m e n t a ls n r , s e g s n r ) 1 3 8 1 ;频域失真测度:如对数谱测度( l o g - s p e c t r a ld i s t o r t i o n ,l s d ) 、对数 似然比测度( l o gl i k e l i h o o dr a t i o ,l l r ) i 雏1 等:感知域失真测度:如语音感 知质量评价算法( p e r c e p t u a le v a l u a t i o n o fs p e e c hq u a l i t y ,p e s q ) 1 3 9 1 、巴 克谱失真测度( m o d i f i e db a r ks p e c t r a ld i s t o r t i o n ,m b s d ) 1 4 0 l 等。 ( 1 ) 信噪l t s n r 和分段信噪比s e g s n r s n r 一直是衡量针对宽带噪声失真的语音增强算法的常规方法。假设y ( n ) 表 示带噪信号。x ( 珂) 表示其中的纯净语音信号,y ( n ) 表示相对应的增强信号,经 典形式的信噪比定义为: x 2 ( 珏) 沁_ l o i o g l 0 豇葫 ( 1 - 2 9 中阅f : 学手上术j 、学埘 学位论文 第一章绪论 经典信噪比只能给出一个大致的信噪比。大量实验表明,s n r 预测主观评价值的 能力极差。因为语音信号是时变的,而噪声的能量是均匀分布的,因而在不同时 f 日j 段上的信噪比也应不一样。 为了改善上面的闯题,可以采用分段信嗓比。它的定义如下: s e g s n r = 罢篙1 丽x 2 丽( n ) o s , 其中,m 表示语音帧数,n 是语音帧长度,敞表示语音帧的开始点。为了克服计算 出柬的信噪比过高或者过低,对于每帧计算出来的信噪比设定高低门限,分别为 3 5 d b 和o d b 。s n r s e g 是时域测度方法中最常用的评价方法,与主观评价的相关度 有所提高。 ( 2 ) 对数谱测度l s d 频域失真测度也叫谱失真测度,这些测度与时域测度相比性能更可靠,对信 号时间同步要求也不高。若测度计算的结果值越小,则说明失真语音和原始语音 越接近,即语音质量越好。其中最常用的方法为对数谱失真测度l s d 。 l s d 计算如下: 脚= 捌志篓 1 0 l o g , , k , 1 ) l - 1 0 1 0 9 , , i x ( k , 1 ) i 2 2 ( 1 - 4 ) 其中x ( k ,f ) 和k ( k ,z ) 分别为干净语音和增强语音的短时傅立叶变换,为帧 长,j 为帧数。般l s d 值越小,其对数谱的失真度越小。 ( 3 ) 语音感知质量评价p e s q 1 语音感知质量评价p e s q 是国际电信联盟i n j t 的p 8 6 2 建议的算法,它是最 新评价主观语音质量的客观工具。该算法将话音的频率、响度等物理特性与人类 心理上的感知特性的对应关系用数学模型来表示,即用客观数学模型的评价来模 拟主观的评价( 如图卜2 所示) 。该算法采用时频映射、频率弯折和响度弯折等方 法,尽可能将语音中可以感知的特性在数学上完美的表达。 在p e s o 模型中,提取出的语音特征都是与主观感觉直接相关的,输入语音和 通过设备、网络或系统后的输出语音的任何“非感觉”的差别都不会对语音质量 评价产生影响。该算法首先对原始输入信号和受损输出信号进行一系列延时对 1 0 中圈 : 学救术大学碗i 。学位论文第一市绪论 齐,然后分别进行听觉转换,表示为人类心理生理学类似的内部形式,最后通过 认知模型处理得到客观评分结果。 p e s q 是一种主客观相关性较高的音质客观评价方法。p e s q 采用线性评分制 度,以一0 5 4 5 之间的数值表示被测语音与参考语音相比语音质量的高低。输 出语音质量越接近输入语音,则分数越接近4 5 ,否则评分越低。基于该模型的 评分结果与m o s 主观评分的相关度高达0 9 3 5 ,而且两者近似成线性关系,误差方 向一致,可比性非常强。通常认为,4 ,0 分的m o s 分数与3 7 - 3 9 的p e s q 分数的语 音质量相当。p e s q 由于用软件实现,具有易于操作和可重复进行的优势。 坠鼍塑习 输出语音 人 模型 输入语音:厂磊翮 叫明曰怛崔i 输出语 输入语音的 内部表示 图1 - 2p e s q 算法结构图 评分 1 4 论文研究内容与结构安排 本文主要研究基于短时谱估计的语音增强算法。立足于跟踪国外的最新技 术,设计实时实用的增强方法。增强过程不以单纯提高信噪比为目标,而是提高 语音的舒适度,保证语音失真小和无“音乐噪声”。本文的主要研究工作包括: 中田 学投术j 、学f i ! j ! i :学位论文 第一章绪论 ( 1 ) 广泛地参阅了国内外相关文献,了解语音增强技术背景与常用方法。 ( 2 ) 对常用的基于短时谱的增强算法进行了深入地研究,并分析比较各种算 法的性能,确定不同算法的优劣与适用条件。 ( 3 ) 针对短时谱方法中存在的音乐噪声,在统一的框架下,研究先验信噪比 的估计方法以及估计器的软判决改进。 ( 4 ) 针对语音增强系统中一个关键步骤,研究了各种噪声估计方法,并做出 比较和分析,重点是基于最小值跟踪的方法,分析了该方法的特点和跟踪特性。 ( 5 ) 针对语音增强方法中存在的语音失真,研究听觉掩蔽在语音增强中的应 用,给出掩蔽闽值的算法与基于听觉模型的增强方法。 本文的组织如下:第二章介绍基于短时谱估计的语音增强方法,包括谱相减 法、维纳滤波法和m m s e 语音增强方法。第三章介绍先验信噪比的直接判决法估 计以及增益函数的软判决改进。第四章介绍基于语音活动检测和最小值跟踪的噪 声估计方法,并给出两类噪声估计的结果。第五章介绍掩蔽效应在语音增强中的 应用,包括掩蔽阈值的计算和掩蔽效应的利用。最后第六章为总结与展望。 1 5小结 本章简单地阐述了语音增强的基本原理、发展现状以及语音增强的评价方 法,然后提出本论文的主要工作和结构安排。 1 2 中固科学技术人学坳i 学位论文第二章基于短时谱估计的语背增强 第二章基于短时谱估计的语音增强 从长时的角度来看,语音是非平稳随机过程,但在l o - 3 0 m s 的短时帧内可近 似看成是平稳的,这就是语音的短时平稳性。于是可以从带噪语音的短时谱中估 计出“纯净语音”的短时谱,从而达到语音增强的目的。由于人耳对语音的感知 主要是通过语音信号中各频谱分量的幅度获得的,而对各频谱分量的相位不敏 感,可证明在一定条件下语音相位的最小均方误差( m m s e ) 估计就是带噪语音相位 本身吲。因此,此类语音增强方法主要是针对短时谱幅度。本章将介绍各种基于 短时谱估计的增强算法。 2 1短时谱计算 假设带噪信号为: y ( 玎) = x ( n ) + d ( 以)( 2 1 ) 其中x ( n ) 为纯净语音,d ( n ) 为平稳加性噪声,两者不相关。y ( 功通常需要加窗 处理来削除分帧时带来的截断效应。这里为方便依然使用y ( 盯) 表示加窗处理后的 带噪信号。 使用k l 变换,将j ,( 胛) 变换到合适的分析域上,, - i p a 保证变换系数k 互不相 关。可以证明,在相关长度小于帧长的情况下,k l 变换就是离散傅里叶变换。 若分析帧长趋近于无穷大,则傅里叶系数趋近于互不相关。由于实际的分析 帧长有限,傅罩叶系数之间依然存在着一定的相关性。但为分析简便,我们仍假 设傅罩叶系数之白j 互不相关。 对式( 2 一1 ) 进行短时傅立叶变换( s h o r t t i m ef o u r i e rt r a n s f o r m ,s t f t ) ,在 下文不引起混淆的情况下,为简单起见,我们将帧数,省略,同时频率写为下 标形式: 中田 i 学技术人学坝i 。学位论文第二章基于短时谱估计的语爵增强 y ( k ,) = z ( 七,) + d ( 女,) 或者墨= 以+ 伍 ( 2 - 2 ) 其中,以和j :分别为: 蒡嚣e 唧x p ( j “0 刚k ) ( 2 3 ) 圪= r 、。 假设噪声d ( 胛) 满足均值为o 的高斯分布,其傅立叶系数b 相当于多个高斯样 本的加权和,仍可以认为满足高斯分布,方差可以通过无声期间的噪声分析得到。 基于短时谱估计的语音增强就是利用已知的噪声功率谱信息,从带噪信号k 中估计出语音m 。由于人耳对相位不敏感,因此只要估计出语音信号的幅度谱 4 = i 鼍i ,然后利用带噪语音的相位吼,进行傅立叶反变换就可以得到增强的语 音量( n ) 。 基于语音短时谱估计方法的一般原理如图( 2 1 ) 所示: 图2 - 1 基于短时谱估计的原理框图 根据实现估计的方法不同,可以分为谱相减法、维纳滤波法和最小均方误差 ( m i n i m u mm e a ns q u a r ee r r o r ,m m s e ) 估计等。下面分别加以介绍。 2 2谱减法l 谱减法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪 声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功 率谱,从而得到较为纯净的语音频谱。 1 4 中同科学技术人学 j - f 学位论文 第二章基于短时瓒估计的语哥增强 2 2 1 基本谱减法 根据式( 2 1 ) ,y ( 疗) 的功率谱为 i 盯= l 置 2 + b 1 2 + x k d ;+ 墨b ( 2 4 ) 由于语音和噪声相互独立,砬满足高斯分布且均值为零,所以 e 1 k i 2 = 附 + e 嗍2 ( z 5 ) 对于一帧内的短时平稳过程,有: i k f 2 = l 以1 2 + 乃( 七) ( 2 6 ) 其中,乃( t ) 是为无语音时l 砬1 2 的统计平均值,由此可得原始语音的估计值: m = 附一乃( ) l 2 ( 2 - 7 ) 这晕j 毫f 为增强后语音信号的幅度。这就是谱减法的基本原理。 定义第t 个频谱分量的增益函数g 刊丘k i ,及后验信噪比儿= 笔高, 则由式( 2 7 ) 可得: q = ( 1 一l 扎) 啦( 2 8 ) 式中当n 小于1 时,g 将取到负值,失去意义。因此将式( 2 8 ) 改写为: g = m 戤( s ,( 1 一l 扎广2 ) ( 2 - 9 ) 其中,s 是一个大于0 的常数。 从式( 2 - 9 ) 中可以看出,谱相减的实质就是在带噪语音的每个频谱分量上 乘以一个系数q 。信噪比高的时候,含有语音的可能性大。增益系数g 小;相 反则增益系数q 增大。 从另外一个角度来分析功率谱相减估计器,可以看出,若假设k 具有高斯分 柿,则谱减法相当于对l i 作最大似然估计( m a x i m u ml i k e l i h o o d ,m l ) j d ( 巧i x 。) 。此时结果与式( 2 8 ) 相同。 中固 学 上术j 、学f l ! ; i + 学位论文 第二章基于短时谱估计的语爵增强 2 2 2 音乐噪声 基本谱减法处理带噪语音有明显的效果,但也造成了容易觉察的损伤和失 真。最主要的听觉上的失真是产生了被称为“音乐噪声”( m u s i cn o i s e ) 的类似金 属机械的撞击摩擦噪声。这种噪声不能通过再次频谱减法来消除。算法导致的失 真的根本原因是噪声谱的随机变化。 由于传统谱减法中,噪声估计是以无声期间的统计平均的噪声方差代替当前 分析帧的噪声频谱,而实际上噪声频谱服从高斯分布: p ( x ) :去口廿“2 ( 2 - 1 0 ) 、fl 7 z - 0 - 其中,肌为x 的均值,d 为标准偏差。噪声的帧功率谱随机变化范围很宽,在频 域中的最大、最小值之比往往达到几个数量级,而最大值与均值之比也达6 8 倍。 因此,在减去噪声谱后会有些较大的功率谱分量的剩余部分,在频谱上呈现出随 机出现的尖峰,在听觉上形成残留噪声。这种噪声具有一定的节奏性起伏感,所 以称为“音乐噪声”。 图2 2 示意了形成“音乐噪声”的孤立频谱区。 图2 - 2 音乐噪声示例 因此在实际应用时,更多地使用谱相减法的改进形式1 。其l 以l 的估计式为 1 6 中旧科掌技术凡学绚! f 。学位论支 第二章基于短时凿估计的语晋增强 吲= 时一钟( 七) 啦( 2 - 1 1 ) 其对应的增益为 q = ( 1 2 ) 枷 ( 2 1 2 ) 与普通的谱减法相比,改进形式增强了两个参数口和来调节增益q 。引入系 数可以对噪声估计值进行调整,增大去噪程度,这样就能减少剩余的噪声, 从而减弱“音乐噪声”。但过多增加去噪程度会使增强后的语音失真增大。调节 参数g 也会达到类似的效果。显然,当口= 2 ,多= l 时就是普通谱相减法。 谱减法及其改进形式总体上运算量较小,容易实时实现,增强效果也较好, 是目前常用的一种方法。 2 3维纳滤波 从加性噪声d ( n ) 干扰的带噪信号y ( n ) 中恢复语音信号x ( 力,除了谱减方法 之外,另一种方法是寻找一个线性滤波器g ( n ) ,使得通过滤波操作后的序列 i ( 聆) = y ( 月) g ( 月) 达到【j ( 月) 一工( 胛) r 的最小期望值a 在x ( h ) 与d ( ,1 ) 不相关且均为 平稳信号的假设f j i 提下,对于这个随机优化问题的频域解可用抑制滤波器表示: q :而攀b ,盅:q k ( 2 - 1 3 ) ( 七) + 乃( 七) 2 其中,p d k ) 、乃( 七) 分别对应着语音和噪声的功率谱密度。然而语音信号 只有短时平稳性,而且由于语音功率谱也无法预先获得,因此计算时,将( 2 1 3 ) 式改写为: q = 蔫 任, 定义先验信噪比为彘= 0 以门乞( 后) ,则 印惫( 2 - 1 5 ) 1 7 中田f i 擘救术j 、学坝i 擘位论文 第二章基于短时谱估汁的语音增强 可以有多种方法计算得到e | 墨1 2 】,例如用谱减法或其他谱估计法先得到 毫i ! ,然后把相邻帧的l 丘1 2 进行平滑得到研i 以1 2 】。也可以先平滑i 圪1 2 得到 硎圪f 】的近似值後再减去噪声功率,作为语音信号的功率谱估计。最简单的方 法是直接以该帧谱相减的结果代替硎丘1 2 】,此时: q =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色环保低碳建材产业园建设项目建筑工程方案
- 《离婚后财产分割与子女成长关怀综合合同》
- 农村地区租车合同终止及道路救援服务范本
- 5G移动数据服务保密及知识产权保护协议
- 离婚协议书样板:房产、股权等资产评估及分配方法
- 江苏省二手车买卖与二手车交易风险管理协议
- 民俗体育文化发展的困境与应对策略
- 2025年劳动游园考试试题及答案
- 低品位铁精粉提纯项目建筑工程方案
- 2025年韩语专业试题题库及答案
- T-CUWA 20059-2022 城镇供水管网模型构建与应用技术规程
- GB/T 32066-2024煤基费托合成液体石蜡
- 雅典帕特农神庙古希腊建筑典范与历史见证
- GA/T 2019-2023公安视频监控视频存储技术要求
- 2024零碳建筑评价标准
- 机械设计基础(第六版)课件
- 口腔癌术后患者的护理查房课件
- 贸易融资典型案例介绍
- 机动车检测站仪器设备日常维护和保养作业指导书
- YY/T 0698.5-2023最终灭菌医疗器械包装材料第5部分:透气材料与塑料膜组成的可密封组合袋和卷材要求和试验方法
- 【小学生心理健康教育】开学第一课课件ppt
评论
0/150
提交评论