(信号与信息处理专业论文)基于子带的语音增强方法研究与实现.pdf_第1页
(信号与信息处理专业论文)基于子带的语音增强方法研究与实现.pdf_第2页
(信号与信息处理专业论文)基于子带的语音增强方法研究与实现.pdf_第3页
(信号与信息处理专业论文)基于子带的语音增强方法研究与实现.pdf_第4页
(信号与信息处理专业论文)基于子带的语音增强方法研究与实现.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)基于子带的语音增强方法研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 语音是信息时代重要的信息交互手段。随着通信和多媒体技术的发展和应用,人们 对通信中语音质量的要求越来越高。然而在实际的应用环境中,语音会不同程度地受到 环境噪声的干扰。环境噪声还会使许多语音处理系统的性能下降。使用语音增强作为语 音系统的前置处理可以从带噪语音信号中提取尽可能纯净的原始语音,抑制背景噪声, 提高语音的质量和主观听觉舒适度。这使得语音增强的应用越来越广泛,成为语音通信 中不可缺少的技术。 近年来,随着子带滤波理论和设计方法的日益成熟,一些科研工作者开始研究基于 子带滤波的新兴语音增强技术。但目前将这一理论应用到单通道语音增强领域的研究较 少,本论文以此为出发点,研究并实现了基于子带滤波的单通道语音增强方法。本文的 主要工作如下: ( 1 ) 概述了语音信号处理的基本理论,介绍了传统的语音增强方法及基于子带滤波 理论的语音增强方法的研究现状。 ( 2 ) 对几种传统的短时谱估计语音增强方法进行了仿真实验和性能比较,分析了现 有方法中存在的算法延时。 ( 3 ) 着重研究并实现了余弦调制滤波器组,推导出了一种最小延时余弦调制滤波器 组的完全重构条件,对利用子带处理实现单通道低延时语音增强方法的可行性进行了分 析。 ( 4 ) 将基于短时谱估计的增强思想与滤波器组理论相结合,设计出两种基于子带处 理的低延时语音增强方法。仿真实验结果表明,本文给出的方法可以取得较为理想的增 强效果。 ( 5 ) 将本文给出的方法进行定点化程序处理,并将代码移植到s a m s u n g 公司的基于 a r m 9 2 0 t 内核的$ 3 c 2 4 1 0 a 处理器上进行实现,增强了方法的实用性。 关键词:语音增强;短时谱估计;滤波器组:子带;低延时 基于子带的语音增强方法研究与实现 s t u d ya n di m p l e m e n t a t i o no ns p e e c he n h a n c e m e n tb a s e do ns u b b a n d a b s t r a c t s p e e c hi sa ni m p o r t a n tw a yf o ri n f o r m a t i o ne x c h a n g en o w a d a y s w i t ht h ed e v e l o p m e n t o fc o m m u n i c a t i o na n dm u l t i m e d i at e c h n i q u e s ,s p e e c hs i g n a l sw i t hh i g h e r q u a l i t y i n c o m m u n i c a t i o na r er e q u i r e d t h ee x i s t e n c eo fb a c k g r o u n dn o i s ec a ni n f l u e n c et h ee f f e c t so f l i s t e n i n g a n dt u r nd o w nt h ep e r f o r m a n c eo fm a n ys p e e c hp r o c e s s i n g s y s t e m s a sa p r e p r o c e s s i n gs c h e m eo ft h es p e e c hp r o c e s s i n gs y s t e m ,s p e e c he n h a n c e m e n tn o to n l yg m n s p u r es p e e c hf r o mn o i s ys p e e c hs i g n a l sa n di m p r o v et h eq u a l i t yo fs p e e c h ,b u ta l s oo f f e r s c o m f o r t a b l el i s t e n i n g a sar e s u l t ,s p e e c he n h a n c e m e n th a sb e e na p p l i e dm o r ea n dm o r e b r o a d l ya n db e c o m ei n d i s p e n s a b l ei ns p e e c hc o m m u n i c a t i o n r e c e n t l y ,t h et h e o r y o fs u b b a n di sm a t u r ea n d a p p l i e d t os o m en o v e l s p e e c h e n h a n c e m e n tm e t h o d s ,b u tt h er e s e a r c ho fr e l a t e dt e c h n i q u e si ns i n g l ec h a n n e ls y s t e m si sv e r y l i m i t e d i nt h i sp a p e r ,s e v e r a ls i n g l ec h a n n e ls p e e c he n h a n c e m e n tm e t h o d sb a s e do ns u b b a n d a r es t u d i e da n di m p l e m e n t e d t h ec o n t e n t so ft h i st h e s i sa r ed i s c u s s e da sf o l l o w s : f i r s t ,t h eb a s i ct h e o r yo fs p e e c hp r o c e s s i n gi ss u m m a r i z e d b e s i d e s ,t r a d i t i o n a ls p e e c h e n h a n c e m e n tm e t h o d sa n dt h ed e v e l o p m e n to fs p e e c he n h a n c e m e n tb a s e do ns u b b a n da r e b r i e f l yr e v i e w e d s e c o n d ,t r a d i t i o n a ls p e e c h e n h a n c e m e n tm e t h o d sb a s e do ns h o r t - t i m e s p e c t r u m e s t i m a t i o na r es i m u l a t e da n dt h ed e l a yo fe x i s t i n ga l g o r i t h m si sa n a l y z e d t h i r d ,t h et h e o r yo fc o s i n em o d u l a t e df i l t e rb a n k si sc a r e f u l l ys t u d i e d am e t h o df o rt h e d e s i g no f t h el o w e s t d e l a yc o s i n em o d u l a t e dp e r f e c tr e c o n s t r u c t i o ni sd e d u c t e d m o r e o v e r ,t h e f e a s i b i l i t yo fs i n g l ec h a n n e ls y s t e mw i t hs u b b a n dp r o c e s s i n gw h i c hc a no b t a i nl o w e r a l g o r i t h md e l a yi sd i s c u s s e d f o u r t h ,b yc o m b i n i n gf i l t e rb a n k st h e o r ya n dt h es p e e c he n h a n c e m e n tm e t h o db a s e do n s h o r tt i m es p e c t r u me s t i m a t i o n ,t w os p e e c he n h a n c e m e n tm e t h o d sw i t hl o w e ra l g o r i t h md e l a y a r ep r o p o s e d s i m u l a t i o nr e s u l t ss h o wt h a tt h ee n h a n c e m e n te f f e c t sa r es a r i s f y i n g f i n a l l y ,f i x e dp o i n tp r o g r a mp r o c e s s i n go ft h ep r o p o s e da l g o r i t h mi si m p l e m e n t e da n d t h ec o d e sa r et r a n s p l a n t e dt os a r n s u n g $ 3 c 2 4 1 0 am i c r o c o n t r o l l e r k e yw o r d s :s p e e c he n h a n c e m e n t ;s h o r t - t i m es p e c t r u me s t i m a t i o n ;f i l t e rb a n k s s u b b a n d ;l o wd e l a y 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:邀日期:竺乙! : 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 - 7 昭 作者签名: 毫 龟 导师签名 警 迸年j 月日 掳久 大连理工大学硕士学位论文 第一章绪论 1 1 语音增强的研究及应用背景 在实际的应用环境中,语音会不同程度地受到噪声的干扰。这些噪声包括从周围环 境媒质中引入的噪声、电器设备的噪声以及其他说话人的干扰等。环境噪声会影响语音 质量,严重的情况下语音将完全淹没到噪声中,无法分辨。语音质量的下降会使许多语 音处理系统的性能急剧恶化。语音增强就是要针对带噪语音进行处理,降低噪声的影响, 改善听觉的效果。采用语音增强技术进行预处理,可以有效改善系统性能。 在实际需求的推动下,早在2 0 世纪6 0 年代,语音增强这个课题就已经引起了人们 的注意。到了2 0 世纪7 0 年代,随着数字信号处理理论的不断发展,人们对语音增强技 术的研究形成一个高潮,取得了一些基础性成果,这使语音增强发展成为语音信号数字 处理的一个重要分支。经典的谱相减法和维纳滤波方法就是在这一时期提出来的。进入 2 0 世纪8 0 年代以后,超大规模集成电路技术的发展和高速d s p 芯片的出现,使语音增 强的实时实现成为可能,这就使得语音增强技术走向实用阶段【l 州。 四十年来,人们一直在研究语音增强技术,一些算法经过不断改进和完善已经成熟 并付诸实际应用;另外,还有一些新方法不断涌现【5 - 9 】。近些年来,随着子带滤波理论 的发展,部分学者开始研究基于子带的新兴语音增强技术。由于在子带中各个混响通道 的单位冲激响应函数可近似认为是固定不变的,2 0 0 4 年,s l o w y o n g l o w 等人提出了一 种基于盲源分离和后置处理的语音增强算法 1 0 l ,整个算法在子带中实现,从而减少了房 间混响对增强语音的影响。另外,还有一些学者将子带划分的思想引入到回声抵消算法 当中,但目前还极少有人将这些理论应用到单通道语音增强领域中,国际国内期刊上相 关的论文发表很少,更没有相关实际应用的例子,本文以此为出发点,对子带理论及单 通道语音增强技术作了较为深入的研究。 1 2 语音增强算法简介 语音增强算法从信号输入的通道数目上可分为单通道语音增强算法与多通道语音 增强算法。单通道语音系统在实际应用中较为常见,如电话等。这种情况下语音与噪声 同时存在于一个通道中,语音信息与噪声信息必须从同一个信号中得出。这种语音系统 一般要求噪声比较平稳,以便在非语音段对噪声进行估计,再依据估计出来的噪声对带 噪的语音段进行处理。而在一个多通道语音系统中,各个通道之间存在着某些相关的特 性,这些特性对语音增强的处理十分有利。如在自适应噪声对消法的语音增强方法中, 采用了两个话筒作为输入,一个采集带噪的语音信号,另一个采集噪声。从噪声通道所 基于子带的语音增强方法研究与实现 采集的噪声看作带噪语音中的噪声,从带噪语音信号中减去噪声即得到纯净的语音。另 一种多通道语音增强算法采用阵列信号,这种方法采用多个以一定方式排列的采集设备 接收信号,由于不同的独立信号源与各个采集设备之间的距离不同,各个接收设备中的 合成信号也会不同,最后根据这些信号将各个独立信号分离出来。 单通道语音增强是语音增强的基础,也是目前应用较为广泛的一个语音增强领域, 因此本文将重点研究单通道语音增强方法。 噪声的种类很多,因此针对各类噪声的语音增强方法也有不同。宽带噪声因其频谱 遍布于语音信号频谱之中,不易被消除,所以一直以来,很多研究都是建立在宽带加性 噪声模型上的,由此产生了各种语音增强算法。常用的单通道语音增强算法从处理方法 上大体可以分为如下几类:基于语音谱特征的谐波增强法、基于短时谱估计的增强算法、 基于信号子空间处理的增强算法、基于参数估计的语音合成法、基于神经网络的增强算 法和基于统计模型的增强算法等。下面分别对这些单通道语音增强方法作以简单的介 绍: ( 1 ) 基于语音谱特征的谐波增强算法 语音信号的浊音段具有明显的周期性,反映到频域中为一系列分别对应基音及其谐 波的一个个峰值。利用这一特性,可以采用自适应梳状滤波器 i m 2 来提取基音及其各次 谐波分量,抑制其它分量,达到增强语音的目的。然而,由于语音是非平稳信号,它的 基音周期不断变化。因此,如何准确地估计和跟踪基音周期是这种方法的关键。 ( 2 ) 基于短时谱估计的增强算法陋1 h 语音信号在l o - 一3 0 m s 的分析帧内可以近似看成是平稳的,因此其短时谱也具有较强 的相关性,这就使从带噪语音的短时谱中估计出“纯净语音”的短时谱成为可能,从而 达到语音增强的目的。本文将在第三章详细分析这类增强算法。 o ) 基于信号子空间处理的增强算法 1 s , i 9 1 子空间语音增强算法是通过将带噪语音分解为语音噪声子空间( 加噪声子空间) 和 噪声子空间( 纯噪声子空间) ,并将带噪语音投影到语音,噪声子空间,以该投影作为语音 信号的估计值的一种增强方法。 ( 4 ) 基于参数估计的语音合成法 2 0 - 2 2 1 语音的发声过程可以模型化为激励源作用于一个线性时变滤波器。基于参数估计的 语音合成法就是设法从带噪语音中准确地估计语音模型的参数( 包括激励参数和声道模 型参数) ,利用这些参数合成得到“纯净”的语音。 ( 5 ) 基于神经网络的增强算法【2 3 2 5 】 大连理工大学硕士学位论文 语音增强在一定意义上是一种说话人的区分问题,只是所区分的一方是在背景中的 噪声。因此可以在时域或变换域中利用带噪语音和纯净的目标语音信号对神经网络进行 训练,利用训练得到的神经元构造出可以对语音和噪声进行分类的分类器,从而实现抑 制噪声的目的。 ( 6 ) 基于统计模型的增强算法 2 6 , 2 ;q 目前应用在语音增强方面的统计模型以隐马尔可夫模型( h i d d e nm a r k o vm o d e l s , h m m ) 为主,h m m 中的各个状态可以对语音、噪声信号所有不同的区域进行充分的建 模。另外,为了准确将噪声估计出来,必须保证在只有带噪信号的情况下h m m 也可以 正确地进行分类。此时,利用删可以对状态转移概率进行建模,将可能为噪声的部 分滤除以达到语音增强的目的。 从以上的介绍可以看出,不同的增强方法处理的侧重点和处理问题的切入点各有不 同。其中基于语音短时谱估计的增强方法因具有适应信噪比范围大、方法简单、易于实 时处理等优点,成为最广泛应用的单通道语音增强方法,而短时谱估计的增强思想本身 更是被引用到许多实际应用中的语音处理系统前端用以抑制噪声。本文设计的语音增强 系统也建立在这种思想的基础上。 1 3 本文的主要工作 本文的研究工作主要包括: ( 1 ) 介绍了目前语音增强技术的发展状况以及语音增强的一些基本理论。 ( 2 ) 对传统的基于短时谱估计的语音增强方法进行仿真实现,并分析各种算法的性 能、总结此类算法的共性,讨论其存在较大延时的原因。 ( 3 ) 着重研究余弦调制滤波器组相关理论,分析其应用在语音增强系统中降低算法 延时的可能性,讨论并推导出最小延时余弦调制滤波器组的完全重构条件。 ( 4 ) 结合滤波器组理论及短时谱估计的语音增强思想,设计了两种基于子带的语音 增强方法,降低了算法延时。对不同噪声环境下的带噪语音进行了增强处理,在对实验 结果进行客观评价的同时,通过听音测试,对增强后的语音进行主观评价,增强效果较 为明显。 ( 5 ) 对本文给出的一种增强方法的浮点程序进行定点处理,并将代码移植到a r m 9 平台上实现。 基于子带的语音增强方法研究与实现 第二章语音增强的基础知识 对语音增强进行研究,需要对语音信号和环境噪声的特性有充分的了解,根据它们 特性上的差异,从带嗓语音信号中滤除噪声成分,从而达到增强语音的目的。本章将重 点介绍与语音增强相关的语音基础知识。 2 1 语音信号的产生模型 为了更好地了解语音信号的特性,下面给出语音信号产生系统的离散时域模型,如 图2 1 所示。 图2 1 语音系统的离散时域模型 f i g 2 1d i s c r e t et i m em o d e lo f s p e e c hs y s t e m 从图2 1 可以看出,语音系统的离散时域模型包括三个部分:激励源、声道模型和 辐射模型。 清音和浊音的激励源是不同的。在清音情况下,激励信号由一个伪随机噪声产生器 生成,其自相关函数为一个单位冲激函数。此外,假定它的幅度服从正态概率分布;在 浊音情况下,激励信号为一个周期脉冲发生器产生的周期序列,周期。取决于基音频 率f o 和语音信号的采样频率丘,即n o = 正f o 。为了使浊音的激励信号具有声门气流 脉冲的实际波形,需要使周期序列通过一个声门脉冲模型,该模型可表示为: q 力2 而两矗刁 q - d 大连理工大学硕士学位论文 模拟人的发音系统,除了构造以上的发音激励源模型以外,还需建立模型描述声道 特性及嘴形的变化。 声道模型给出了离散时域的声道传输函数,如式( 2 2 ) 所示,它是一个全极点函数, 把实际声道作为一个变截面声管加以研究,采用流体力学的方法导出。 l 矿o ) = 了二一 ( 2 2 ) , a t z 。 l f f i o 描述嘴形变化信息的辐射模型对应的函数表达式为: 月( z ) = l 一昭一,其中,* 1( 2 3 ) 另外,图2 1 所示的4 和4 分别用来控制浊音信号和清音信号的幅度或能量。 在整个模型中,声门脉冲模型和辐射模型是基本保持不变的,其它的声道模型参数 都是随时间变化而变化的。经过前人大量的研究和实践证明,这个模型可以满足大多数 语音信号研究和应用的要求1 。 2 2 语音和噪声特性 2 2 1 语音特性 通过分析语音系统的离散时域模型,可以发现语音具有以下特性】: ( 1 ) 语音信号为非平稳的随机过程,但具有短时平稳性 人类发声系统产生不同语音时的生理结构并不相同,产生的信号也是一个非平稳信 号。但由于生理器官变化速度有限,在段时间内( 1 0 3 0 m s ) 可以认为人的声带、声道 等特征基本不变,因此语音的短时谱具有相对的平稳性。 ( 2 ) 语音信号的频谱比较集中 通过研究语音信号的发声过程以及观察记录的语音波形,可以发现语音信号的频率 分量主要集中在3 0 0 3 4 0 0 h z 的范围内。这是因为人类声道的变化不可能太快。这一点 给语音的研究和计算带来了很大的便利。 ( 3 ) 语音信号基本可以分为清音和浊音两大类 语音可以分为清音和浊音两大类,两者在产生机理上存在非常大的区别,特征上的 差异也非常明显。清音没有明显的时域和频域特征,其频谱类似于白噪声;浊音在时域 上有明显的周期性,其能量大部分集中在低频段内,且在频域上表现出共振峰结构。 ( 4 ) 语音信号可以利用统计分析特性描述 基于子带的语音增强方法研究与实现 语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量( 如均值和自 相关函数) 来描述。 2 2 2 噪声特性 噪声来源于实际的应用环境,因而噪声特性可以说是变化无穷的。噪声可以是加性 的,也可以是非加性的。对于非加性噪声,可以通过一些相应的变换( 如同态变换和伪 随机扰动) 将其转化为加性噪声,所以这里主要讨论加性噪声。 加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和其他说话人语音干扰 四种1 1 。 ( 1 ) 周期性噪声 周期性噪声频谱具有许多离散的线谱。这种噪声主要来源于发动机等周期性运转的 机械、电器干扰以及电源交流电声等。这种噪声可以通过梳状滤波器予以抑制。实际环 境中的周期性噪声频谱并非简单地只含线谱分量,而是由许多窄谱带组成,而且往往是 时变的。 ( 2 ) 脉冲噪声 脉冲噪声表现为时域波形中突然出现的窄脉冲。它源于爆破、撞击和放电等。对这 类噪声可以通过在时域上设置阈值加以抑制,也可以通过内插法进行平滑处理。 ( 3 ) 宽带噪声 宽带噪声来源很多,如热噪声、气流噪声及各种随机噪声源等,归一化噪声也可视 为宽带噪声。由于宽带噪声在时域和频域上均与语音信号完全重叠,因而消除它最困难。 这种噪声只有在语音间歇期才独立存在。对于平稳的宽带噪声,通常可以认为是高斯白 噪声,而对于非平稳的宽带噪声,情况就更为复杂。 ( 4 ) 话音干扰 在多人同时说话的情况下,不需要的语音就形成了同声道干扰,人耳可以根据需要 分辨出其中某个入的声音,这种能力称为“鸡尾酒会效应”。 各种噪声使语音质量下降,可懂度降低。强噪声会使人产生听觉疲劳。不仅如此, 强噪声环境还对说话入产生影响,即使发出相同的语音,其语音的特征参数也会与在安 静环境或低噪声环境中的不同,这称为l o m b a r d 效应。 2 3 带噪语音模型 设s ( n ) 为纯净语音,j ( 疗) 为平稳加性噪声,则带噪语音模型表达式为: ) ,( 月) = s ( n ) + d ( n ) ( 2 4 ) 大连理工大学硕士学位论文 尽管噪声的特性各有不同,但宽带噪声因其频谱遍布于语音信号频谱之中,所以研 究怎样消除它是很有代表性的。本文的研究工作也都建立在宽带噪声模型的基础上,同 时对噪声信号做出如下假设: ( 1 ) 噪声是局部平稳的,局部平稳是指一段带噪语音中的噪声具有和语音段开始前 那段噪声相同的统计特性,且在这段语音段中保持不变,这样可以根据语音开始点前的 静音段来估计语音中所叠加的噪声统计特性。 ( 2 ) 噪声与语音是不相关的。 2 4 语音信号的短时处理 2 4 1 语音信号的分帧与加窗 语音信号可以认为是短时平稳的。因此可以将平稳过程中的处理方法和理论引入到 语音信号的短时处理当中,将语音信号划分为很多短时的语音段,每个短时的语音段称 为一个分析帧。对每一帧语音信号的处理相当于对特征固定的持续信号进行处理。帧既 可以是连续的,也可以采用交迭分帧,一般帧长取l o , - 一3 0 m s 。取数据时,前一帧和后一 帧的交迭部分称为帧移,帧移与帧长之比一般取为0 , - - i 2 。 分帧是对语音信号的突然截断,相当于语音信号的频谱与矩形窗函数频谱卷积,矩 形窗频谱的旁瓣较大,信号会产生频谱泄露( g i b b s ) ,而汉明窗旁瓣最小,对取出的语音 帧经过加汉明窗处理,可以有效地克服泄露现象。 汉明窗的表达式为: w m0 5 4 - 0 4 6 c o s ( 器j ,怄“_ l ( 2 5 ) w ( 功=l 一1 j 7 ( 2 5 ) o ,其它 2 4 2 语音信号的预处理 语音经过口腔和鼻腔辐射时,口腔和鼻腔会对语音产生影响,总的来说表现为语音 高频部分的衰减。为了加强高频分量,对输入语音进行预加重,在处理结束时进行去加 重,以免对语音造成失真。 预加重方式为: d ( n ) = s ( n ) + e a ( n 一1 ) ( 2 6 ) 去加重方式为: ;( h ) = x ( n ) 一西 - 1 ) ( 2 7 ) 基于子带的语音增强方法研究与实现 式中的口为加重因子,典型值为0 9 4 。 2 5 语音激活检测 语音激活检测( v o i c e a c t i v i t y d e t e c t i o n ,v a d ) ,又称语音活动检测,简称语音检测, 是指采用一定的信号处理技术检测信号是否为语音信号,或信号中是否包含语音信号。 也可以从一段包含语音的信号中确定出语音的起始点和终点o 引。 对于应用在不同领域的v a d 技术,其侧重点也是有区别的。在语音编码系统中, 使用v a d 技术检测出无音段是为了降低编码率,由于无音段没有任何语音信息,因此 在无音段内以尽可能低的码率传输;在语音增强系统中,利用这些无音段,可以得到更 多的背景噪声特性信息。 v a d 技术是各种语音处理系统中的重要环节,但激进的v a d 算法会导致话音的起 始段和终止段被截去,出现剪音现象,严重影响语音质量。因此精确地确定输入语音的 起始点和终点才能保证语音处理系统良好的性能。 通常的v a d 算法都是基于语音帧来进行的,它利用人类语音中的统计特性参数, 如幅度、能量、准周期性、过零率、频域特性等,按照最大似然的原则将这些参数与相 应的门限阈值比较,若超过闽值则将当前帧判决为有音段,否则判为无音段。 本文在5 2 节中,利用滤波器组划分子带,并结合i t u tg 7 2 9 附录b 中的v a d 技术相关内容判决更新噪声能量,给出一种语音增强方法,取得了一定的增强效果。 2 6 语音增强效果评价方法 判断一个语音增强系统性能的好坏,主要看语音增强的效果如何。语音增强的效果 可以由主观和客观两方面来评价。主观评估是最基本的评估方法。但对语音质量进行主 观评估往往需要一定数量的人参与大量次数的测听实验,才能得到普遍接受的评估结 果。这种方法耗费大,经历时间长。因此,常采用一些可靠的客观评价算法来对语音质 量进行评估。除了可以用主观和客观两方面来评价语音增强的效果外,还可以用消噪能 力从理论上来计算、分析语音增强算法的性能0 - 3 j 。 2 6 1 语音质量的主观评价方法 语音增强的目的是从带噪语音之中提取尽可能纯净的语音。由于噪声信号总是随机 的,完全消除噪声几乎不可能。在这种情况下,语音增强的目的主要有两个:一是消除 背景噪声,改进语音质量,使收听者乐于接受而不感到疲劳;二是提高语音的可懂度, 方便收听者理解。由此可见,语音增强不是单纯地提高语音信号信噪比的过程,而是将 提高语音的舒服度、保证语音不失真作为最终的目标。这就需要有比较准确合理的主观 大连理工大学硕士学位论文 评价的尺度来衡量语音实际的可懂度及舒适度。语音质量的主观评价方法有多种,常用 的方法有判断韵字测试( d i a g n o s t i cr h y m et e s t ,d r t ) ,平均意见得分( m e a no p i n i o n s c o r e ,m o s ) ( 1 ) 判断韵字测试法 判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法使用若干 对同韵母进行测试,测试中,让受试者每次听到一对韵字中的某个音,然后让他判断所 听到的是哪一个字,全体实验者判断正确的百分比就是d r t 得分。通常认为d r t 为9 5 以上时清晰度为优,8 5 一9 4 为良,7 5 一8 4 为中,6 5 一7 4 为差,而6 5 以 下为不可接受。在实际通话中,清晰度为5 0 时,整句的可懂度大约为8 0 。 ( 2 ) 平均意见得分 m o s 方法是由c c r r r 推荐的主观评价,现已广泛作为不同系统之间的比较标准。 它采用五级评分标准,测试方法为:参加测试的实验者在听完测试语音后,从这几个等 级中选择某一级作为他对所测语音质量的评定。全体实验者的平均分就是所测语音质量 的m o s 分。为使m o s 分更加准确客观,就必须保证有足够的人数参加测试,所测得 语音材料也要足够丰富,测试环境也要尽量保持相同。 表2 1u o s 判分五级标准及相应的用语描述 t a b 2 ,lm o ss t a n d a r da n dd e t a i l s 2 6 2 语音质量的客观评价方法 客观评价方法建立在原始语音和合成语音的数学对比之上,它采用某个特定的参数 来表征语音通过系统后的失真程度,并以此来评估处理系统性能的优劣。常用的方法可 分为时域客观评价和频域客观评价两大类。 ( 1 ) 时域法 客观评价方法的时域法考察输出语音相对输入语音的波形失真程度。常用的方法有 信噪比法、加权信噪比法和平均段信噪比法等。 基于子带的语音增强方法研究与实现 信噪比法 信噪比( s n r ) 一直是衡量针对宽带噪声失真的语音增强算法性能的常规方法,有许 多变种,如分段式信噪比、频率加权型信噪比等等。值得注意的是,基于信噪比的衡量 方法只对试图复制原来的输入波形的编码或者语音增强算法有效。时域误差信号可以表 示为: e ( n ) = j 0 ) 一j 加) ( 2 8 ) 式中,;( h ) 表示相对应的增强信号,并假设所有这些信号都为能量信号。 那么,经典形式的信噪比定义为: fs 2 ( m 舢删8 毒圳8 豇长丽 q 但经典形式的信噪比对语音质量给出的估计并不令人满意。这主要有两个原因,一 是因为经典形式的信噪比与语音质量的主观属性并没有很大的联系;二是因为它同等对 待时域波形中的所有误差。如果一段发音在它的浊音部分有很多能量聚集,这时就有可 能得到具有欺骗性的高信噪比值。而具有较少能量的清擦音部分受噪声的影响相当大, 使人对它的感知发生困难,分段式信噪比可以改善上述问题。 分段信噪比法 分段信噪比( s e g s n r ) 是用来衡量语音时域波形失真度的。它的定义如下: 2 击势怪。高备j c z 埘 其中,肘表示语音帧数,表示语音帧长度,坍表示语音帧的结束点。上式表示对每 一帧的信噪比进行计算,最后取平均。这里需要考虑两个问题:一是如何处理非语音帧, 它们的存在会降低信噪比;二是如何处理计算出的信噪比过高的帧,它们的存在会增加 信噪比。以上两个问题可以通过设置门限值来克服,对于区间外的数值可以强制设为门 限值。一般分段信噪比越大说明语音包含的噪声和失真越小,其时域波形越接近于纯净 语音。 ( 2 ) 频域法 一1 0 大连理工大学硕士学位论文 语音质量客观评价方法的频域法主要用来度量语音系统输出语音相对于输入语音 的频谱失真程度。由于可采用完整的频谱特性和频谱包络两种方法来表征频谱特性,因 此,语音质量客观评价方法的频域法可以分为频谱失真法和频谱包络失真法。 频谱失真法 频谱失真定义为: 肋=( 2 1 1 ) 式中,是( 厂,f ) ,s ,u ,f ) 分别表示输入输出语音的对数频谱。s d 反映了输入输出语音 对数频谱之间的距离。 频谱包络失真法 频谱包络失真法利用输入输出语音频谱包络失真程度来衡量语音的失真程度。频谱 包络一般用l p c 倒谱来表示,它的低时域部分包含了信号的傅立叶的包络信息。对这 些频谱包络参数采用不同的距离定义时,就得到不同形式的倒谱距离测试方法。 巴克谱距离评价法( b a r ks p e c t r u md i s t a n c e ,b s d ) 除上述两种方法外,为了更好地对语音处理系统性能作出客观评价,还可以采用基 于人耳听觉感知机理的巴克谱距离这一客观评价方法。 巴克谱距离评价方法考虑了人耳的多种听觉特性,并做了相应的加权校正。它的主 要内容包括如下几个方面:( 1 ) 声音的巴克域表示,它是一种主观听觉表示。( 2 ) 声音信 息的提取,它是声音在主观听觉感知上最初的信息表示。( 3 ) 声音信息的客观量度,它是 声强到响度级的变换。( 4 ) 声音信息的主观度量,它是响度级和响度级之间的变换。语音 处理算法的质量可以用原始语音和合成语音的主观听觉空间上的距离来表示,这就是巴 克谱距离法的实现原理。 基于子带的语音增强方法研究与实现 第三章基于短时谱估计语音增强方法的研究与实现 语音为非平稳随机过程,但在l o , - - 3 0 m s 的分析帧内可以近似看成是平稳的。所以能 够从带噪语音的短时谱中估计出“纯净语音”的短时谱,从而达到语音增强的目的。 在实际应用中,利用2 3 节中构建的带噪语音模型,式( 2 4 ) 中的y ( n ) 通常需要进行 加窗处理来消除分帧时带来的截断效应。将y ( 胛) 变换到合适的分析域上,其系数为: 一l - i y ( 珂) = k 仇( n ) ,k = y q ) 仇( 疗) ( 3 1 ) k = on = o 使用k l 变换,可以保证变换系数五互不相关。可以证明,在相关长度小于帧长 的情况下,k l 变换就是离散傅立叶变换。若分析帧长趋近于无穷大,则傅立叶系数 趋近于互不相关。由于实际的分析帧长有限,傅立叶系数之间依然存在着一定的相关性。 但为了分析简便,仍假设傅立叶系数之间互不相关。 设y ) 的傅立叶系数为k = i y 。 e x p ( j b ( i ) ) ,j ( 疗) 的傅立叶系数为 8 k = l s , l o x p ( j , , ,( ) ) ,d ( h ) 的傅立叶系数为n i ,则有: 圪= s t + n k ( 3 2 ) 假设噪声d ( n ) 服从高斯分布,其傅立叶系数m 相当于多个高斯样本的加权和,仍 然可以认为服从高斯分布。在基于短时谱估计的语音增强方法中,利用已知的噪声功率 谱信息,从e 中估计出s k 。由于人耳对相位不敏感,因此只要估计出慨f ,然后利用带 噪语音的相位,进行傅立叶反变换就可得到增强的语音。基于短时谱估计方法的一般原 理如图3 1 所示。根据实现估计的方法不同,可分为谱相减法、维纳滤波法和最小均方 误差估计等【m 1 r l 。 “n ) = “ 图3 1 短时谱估计方法框图 f i g 3 1b l o c kd i a g r a mo f s h o r tt i m es p e c t r u me s t i m a t i o n 大连理工大学硕士学位论文 3 1 谱相减语音增强法 由于人耳对语音相位不敏感,可以用带噪语音与噪声的幅度谱差值作为语音的幅度 谱,用带噪语音的相位来近似语音的相位【1 3 】,由式( 3 2 ) 可得到基本的表达式为: ( 七) = 0 】,( t ) l _ | d ( 枷e 吩仕 ( 3 3 ) 式中吼( ) 为带噪语音y ( m 的相位。在实际应用中,使用非语音段噪声谱的均值( ) 作 为对噪声谱i d ( 女) l 的估计,这时式( 3 3 ) 可改写为: ( 七) = 【| y ( _ i ) i 一( t ) 】e b “= 日( 后) y ( 七) ( 3 4 ) ( 七) = e o d ( 后) i 】 ( 3 5 ) 踯) - 1 一篇 ( 3 6 ) 以上就是谱相减增强方法的基本原理。 由式( 3 2 ) 可得: j y ( | i m 2 - - i s ( q 2 + l d ( _ j ) 1 2 + s ( i ) d ( | j ) + s ( j ) d ( 七) ( 3 7 ) 由于j ( 疗) 和d ( n ) 统计独立,且d ( n ) 为服从零均值高斯分布的噪声,因此有: 日i 】,( 硝】= 硎s ( 硝l + e i d ( k ) 1 2 】 ( 3 8 ) 根据幅度谱相减的基本原理,在一个分析语音帧内,可以近似得到: l y ( 钟= p ( 硝+ e o d ( m 2 】 ( 3 9 ) ( ) = l 】,( 七) 1 2 一e o d ( _ j ) i 2 】e 7 $ “= 月( 七) y ( 七) ( 3 1 0 ) 由此得到基于能量( 功率) 谱相减的方法,其中: 胃( | j ) = l e i l d 亚( k ) 2 l = 跞 ( 3 1 1 ) 式中,( t ) 可以看作语音的后验信噪比。增益表达式h ( | j ) 的物理意义是比较明显的。 在实际使用中,更多使用的是谱相减的改进形式: 基于子带的语音增强方法研究与实现 l ( 后) l = t i r ( k ) 1 8 一l d ( ) i “】i 此时增益表达式变成: h ( 七) :( 1 一善) r 一2 ( k ) 实际应用中,可能出现i y ( _ i ) j 4 小于纠d ( _ j ) | 口的情况,因此将式( 3 1 3 ) 改写为: 日( 七) = m a x 慨卜l,2 ( 后) ( 3 1 2 ) ( 3 1 3 ) ( 3 1 4 ) 式中占为大于零的数o 3 2 维纳滤波语音增强法 若语音s ( 胛) 是一个平稳过程,则维纳滤波方法对应着时域上的最小均方误差准则h 1 4 1 ,其频域表达式为: q = 看,珏q 耳 ( 3 - 1 5 ) 式中,g k 为维纳滤波函数,只( 七) 、以( 七) 分别为语音和噪声功率谱密度。 实际上语音只是短时平稳的,而且语音功率谱也无法预先得到,因此计算时,将式 ( 3 1 5 ) 改为: q = 崭法 c 。 靛义先验信噪比为磊= 糟删枷6 ) 可以姚 q 。青 。1 7 大连理工大学硕士学位论文 在上式中,e 【| s , 1 2 】的获得途径有很多种。例如,利用谱相减法或其它谱估计方法先得 到障1 2 ,然后把相邻几帧的限1 2 进行平滑作为研b 1 2 】。 3 3 短时谱幅度的m m s e 估计法 由于语音增强中无法确定听觉意义上的失真准则和给定噪声情况下语音频谱的后 验分布,因此需要寻找针对特定的失真准则和对后验概率不敏感的估计方法。对于相对 多的失真度量函数以及信号与噪声的联合概率密度集合来说,m m s e 准则下的条件均值 估计是最优的。而语音信号处理使用的凸对称失真函数,以及给定噪声情况下的所有语 音后验概率分布都符合这样集合的要求,因此可以采用b m s e 准则对语音信号的短时 谱幅度进行估计【1 孓啊。 为了方便起见,假设语音s ( n ) 的短时谱服从高斯分布。在m m s e 准则下,高斯分 布随机变量的估计值为其后验均值。因此短时谱幅度的估计式为: 五= a r g m i n ( 4 一硼y ( 3 1 8 ) = e 4 l y ( 栉) ) = e 4 i ,x ,) , o n n - i 假设各个频率分量相互独立,则: 训僻器篙糌 埘 根据噪声和语音频谱的高斯分布假设可知: 绯以) = 丽1 唧f _ 学 z 。, p k 引= 赢e x 十蔫 z - , 将式( 3 2 0 ) 和式( 3 2 0 代入式( 3 1 9 ) 后,简化可得: 五= r ( 1 5 ) 訾m ( - o 5 ;1 ;一圪) r ( 3 2 2 ) 基于子带的语音增强方法研究与实现 式中,r ( ) 是伽码函数,r ( 1 5 ) = 五2 。肘( 口,c ,x ) 为合流超几何函数,可以利用级数求 和计算,表达式为: 定义以为: 式中,先验信噪比磊 式,定义增益函数q 肼( 4 ,g = l + 詈亍+ = a 乏( a 丽+ 1 ) x 2 ( 3 2 3 ) 弘“。黄 ( 3 2 4 ) q :婴m ( 一0 5 ;1 ;一圪) ( 3 2 5 ) 二,t 可以证明,当先验信噪比彘很高时,g k = v _ l = ,l ,这个结果与维纳滤波结果相同。 ,i1 十5 t 在这种m m s e 估计算法中,先验信噪比缸的值对确定最终增益有很大影响。但由 于实际增强过程中彘未知,因此必须先对其进行估计。根据& 定义, ( 七) 可以通过对 无语音时的噪声统计平均得到, ( 七) 是时变的,必须对每帧都进行估计。可通过最大 似然估计、反馈估计等多种方法对五( 七) 进行估计。 3 4 各种短时谱估计算法的联系 由前几节的介绍可知,基于短时谱估计的语音增强方法都可以理解为对增益函数的 求解。对语音频谱的估计值可以写成统一的表达式: s ( k ) = g ( k ) y ( k ) ( 3 2 6 ) l ,( 女) 为观测信号在第h 个频率点上的频谱分量,6 ( k ) 为增益函数,s (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论