




已阅读5页,还剩60页未读, 继续免费阅读
(信号与信息处理专业论文)语音增强算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电学院硕上研究生学位论文摘要 摘要 语音增强是一种当语音通信系统的输入或输出信号受到噪声干扰时提高其性能的技 术。它的主要目的是降低背景噪声,提高语音质量或抑制同声道语音干扰。简单的讲,就 是从带噪声语音信号中提取尽可能纯净的原始语音。 人们在语音通信过程中,常常会受到环境噪声的干扰而使通话质量下降。噪声不仅影 响语音的质量和清晰度,而且还造成人耳的听觉疲劳,妨碍正常的语音通信。在这种情况 下,有必要采用语音信号处理的方法对带有噪声的语音进行增强处理,抑制背景噪声,提 高语音通信质量。因此,研究语音增强算法在实际中有广泛的应用价值。 本论文主要从以下两个方向进行增强算法的研究:短时i 普估计语音增强算法和在小波 包变换语音增强框架结构下的语音增强算溅传统基于短时谱估汁的语音增强算法尽管都 可以在一定程度上消除噪声,但是都会在不同程度上产生“音乐噪声 。e p h r a i m 和m a l a h 提出的基于m m s e 估计算法能够在一定程度上抑制残留的“音乐噪声 ,但是没有给出理 论的解释。o l i v e rc a p p e 研究得出结论:先验信噪比和后验信噪比有相似的轮廓,但是比 后验信噪比延迟了一帧。这个偏差是因为e m s r 中直接判决算法( d e c i s i o n d i r e c t e d ) 用前面 的语音帧功率谱来估计当前帧的先验信噪比,使得当前语音帧的噪声抑制增益估计不准 确,从而导致残留“音乐噪声的产生。本文结合谱增益观点和基于直接判决先验信噪比 估计算法,采用了一种基于谱增益迭代先验信噪比估计的改进算法。酋,庀利用先验和后验 信噪比的初始估计值算出谱增益的初始值,然后按照传统的谱增益语音增强方法,求出初 次纯净语音的估计值,然后利用纯净的语音估计值计算出新的先验信噪比,进而得到新的 谱增益,如此反复,逐步更新、逼近纯净语音信号估计值,达到语音增强效果。除此之外, 传统的语音增强算法如谱减法适用于信号是平稳的且具有明显区别于噪声的谱特性的情 况,若应用于非平稳信号时则存在着无法克服的弱点,并且消噪效果不明显;用维纳滤波 和卡尔曼滤波方法消噪时,需要知道一些先验知识。基于小波变换的语音增强算法可以很 好处理非平稳信号。它具有自适应性,先验知识需要的少;消噪效果明显。为了取得更好 的效果,本文采用基于小波包变换的语音增强算法,所作的工作包括基于人耳模型的小波 包分解;自适应阈值估计和软门限函数和改进的硬门限函数相结合三个方面。仿真试验证 明上述两种方法可以很好地解决传统语音增强算法中存在的相应问题,并且消噪效果明 显。 关键词:语音增强短时谱估计小波包分解 a b s t r a c t s p e e c he n h a n c e m e n ti s ak i n do ft e c h n i q u et h a ti m p r o v e s t h ep e r f o r m a n c eo fs p e e c h c o 眦l 砌c a t i o ns y s 觚o f w h i c ht h ei n p u to ro u t p u tp o r t sa r ec o r r u p t e db yn 0 1 s e l h ep n m 哪 a j m0 ft h cs p e e c he n h a n c e m e n ti st or e d u c eb a c k g r o u n dn o i s e ,i m p r o v es p e e c h q u a l l t ) r 凹s t m m d i 鲰b a n c e 如m 也eo t l l e rs p e e c hs o u r c e ,s i m p l y , t oe x t r a c tt h ec l e a n o r i g i n a ls p e e c ha sm u c h a s p o s s i b l ef r o m t h en o i s ys p e e c hs i g n a l 一 t h eq 吼畸o fs p e e c ho f t e nd e g r a d e sd u et o t h ec o r r u p t i o no fn o i s ef r o ms u 舯u 1 1 d i n g v i r o l l n l e n ti nt h ep r o c e s so fs p e e c hc o m m u n i c a t i o n t h en o i s en o to n l y a f f e c t st h eq u a l i t ya n d 觚l l i g i b i l 蚵o fs p e e c h , b u ta l s oc a u s e sh e a r i n gf a t i g u e ,w h i c h h i n d e r sn o r m a ls p c ha c t l v l t l e s u n d e rt h es i t u a t i o n ,i t sn e c e s 洲t oe n h a n c es p e e c h ,r e s t r a i nb a c k g r o u n dn o i s ea n d l m p r o v e t h e q u a l i t yo fs p e e c hc o r m n u n i c a t i o nb ya d o p t i n g a d v a n c e dm e t h o d so fs p e e c hs i g n a lp r o c e s st o n o i s ys p e e e h t h e r e f o r e ,t h er e s e a r c h e so na l g o r i t h m so fs p e e c he n h a n c e m e n t 它e x t e n s i v e a p p l i c a t i o nm e a n i n g t h ed i s s e i 协t i o np r i m a r i l yw o r k s o ns p e e c he n h a n c e m e n ta l g o r i t h m sf o l l o w i n g t 1 0 d i r e c t i o l l s :s p e e c he n h a n c e m e n ta l g o r i f l m a o fs h o r t t i m es p e e c hs p e c t r a le s t i m a t l o n 锄d t 1 1 e s p e e c he 1 1 l 啪c e m e n ta l g o r i t h mb a s e d o nt h ew a v e l e tp a c k a g et r a n s f o r m a t i o n u n d e rt h e 台a m e w o r ko ft h es p e e c he n h a n c e m e n t t h ec o n v e n t i o n a ls p e e c he n h a n c e m e n t “g o r i t h mb a s e d 0 ns h o g - t i m es p e e c hs p e c t r a le s t i m a t i o ng a l lr e d u c e n o i s ef r o mt h en o i s ys p e e e ht os o m ee x t e n t h o w e v e r ,i tw i l lp r o d u c e “m u s i c a ln o i s e s i m u l t a n e o u s l y t h es p e e c he n h a n c e m e n t mt h eb 弱1 so f m m s ee s t i m a t i o nb r o u 甜l tf o r w a r db ye p h r a i ma n dm a l a h c a l lr e f r a i nt h er e s i d u a l m u s i c a l n o i s e ,w i t h o u te x p l a n a t i o n si nt h e o r y c o n c l u s i o ni sr e a c h e db yo l i v e rc a p p e t h a tt h ep n o n 解d p o s t e r i o rs i 删t on o i s er a t i o st u r no u tt ob et h e s i m i l a ro u t l i n e ,a l t h o u g ht h ep 。0 ns l g n a i 幻 n o i s er a t i od e l a ) ,so n c 丘锄et ot h ep o s t e r i o r b e c a u s et h es i g n a l t on o i s er a t i o ,ft h ec u 玎e n t f r a m ei se s t i :1 1 a t e d 诎ht h ee 矾i e rs p e e c hf r a m e s i nt h ed e c i s i o n - d i r e c t e dm e t h o do fe m s r m e w i n d a g eo c c u r s ,w l l i c hc o m m i t st h ei m p r e c i s ee s t i m a t i o no f g a i nt ot h ec u r f e n ts p e e c ht r a m e t l l e r e f o r e ,i tr e s u l t s i nt h er e s i d u a l m u s i c a ln o i s e t h e d i s s e r t a t i o na d o p t sa i lm l p r o v e a a l g o r i t l l mt 0e s t i m a t et h ep r i o r is i g n a lt on o i s er a t i ob a s e do n t h er e c u r s i v ep r o c e s st 0t h es p e 删 g a i n ,b yc o m b i 血gt h ev i e wo f s p e c t r a lg a i na n dt h ee s t i m a t i o nt ot h ep r i o r is i g n a l t 0n 0 1 s er a 乜o b vd e c i s i o n - d i r e c t e dm e m o d f i r s to fa l l ,c o m p u t et h ei n i t i a lv a l u eo fs p e c t r a ig a i n w i t ht h e i n i t i a l 呻r ia n dp o s t e r i o rs i g n a lt on o i s e r a t i o s ,t h e n ,c o m p u t et h en e w p r i o r is i g n a lt on o l s er a t l o u s i n gt h ee s t i m a t i o n so fc l e a ns p e e c hs i g n a l ,w h i c h a r eo b t a i n e di nt h ec o n v e n t i o n a js p e e c n e n h a i l c e m e n t ,s u b s e q u e n t l y t h e l a t e s ts p e c t r a lg a i n i so b t a i n e d t h es 锄ep r o c e s s e s a r e i m p l 锄e n t e d ,t h ec l e a ns p e e c hs i g n a l a l eu p d a t e da n dc l o s e di nu p o n 试t h i sw a y b e s l d e s ,t h e c o n v e n t i o n a ls p e e c he n h a n c e m e n ta l g o r i t h ms u c h a ss p e c t r a ls u b t r a c t i o na l g o r i t h mi so i l l yf rf o r t 1 1 es i t u a t i o nt h a tt h es i g n a li ss t e a d ya n da p p a r e n t l yd i f f e r e n tw i t h t h es p e c t r a lc h a r a c t e r so tn o l s e 南京邮电学院硕士研究生学位论文摘要 w h e nt h eu n s t e a d yc a s ei sc o n c e m e d ,t h eu n c o n q u e r e df l a w se x i s t ,a n di tc a l l tb ed e n o i s e dv e r y w e l l ;w h i l ew i e n e rf i l t e ra n dk a l m a nf i l t e ra r eu s e dt oe n h a n c es p e e c hs i g n a l ,s o m ep r i o r i k n o w l e d g ea r er e q u i r e d t a k ea l lt h ea b o v ei n t oa c c o u n t , t h es p e e c he n h a n c e m e n tb a s e do nt h e w a v e l e tp a c k a g et r a n s f o r m a t i o nc a nd e a l 州t ht h eu n s t e a d ys i g n a l ,埘t hg r e a ts e l f - a d a p t i v e f e a t u r ea n dr e q u i r e sl i t t l ep r i o r ik n o w l e d g e d u ot oa l lt h em e r i t s ,t h ed i s s e r t a t i o nu t i l i z e st h e s p e e c he n h a n c e m e n ta l g o r i t h m ,w h i c ha b s o r b st h r e ea d v a n c e dm e t h o d s :1 t h ew a v e l e tp a c k a g e d e c o m p o s i t i o nb a s e do n e a r sm o d e l ;2 s e l f - a d a p t i v ee s t i m a t i o nt ot h r e s hv a l u e ;3 t h e c o m b i n a t i o no fs o f tt h r e s hf u n c t i o na n dt h em o d i f i e dh a r d t h r e s hf u n c t i o n t h ee x p e r i m e n t s p r o v et h a t t h e t w oa l g o r i t h m ss t a t e da b o v ec a ns o l v et h e c o r r e s p o n d i n gp r o b l e m si nt h e c o n v e n t i o n a ls p e e c he n h a n c e m e n ta l g o r i t h m s ,州ma l la p p a r e n td e n o i s e dr e s u l ta sw e l l k e yw o r d s :s p e e c he n h a n c e m e n t s h o r t t i m es p e c t r m ne s t i m a t i o n w a v e l e tp a c k a g ed e c o m p o s i t i o n 1 1 i 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名: 导师签名:- = 畔日期:删 南京邮电学院硕士研究生学位论文 第一章绪论 1 1 语音增强技术概述 第一章绪论 随着现代科学的蓬勃发展,人类社会愈来愈显示出信息社会的特点。通信或信息交换 已成为人类社会存在的必要条件,正如衣食住行对人类是必要的一样。语音作为语言的声 学表现,是人类交流信息最自然、最有效、最方便的手段之一。语音通信在生产和生活等 各方面起到越来越重要的作用。人们希望在任何时间和任何地点同任何人进行语音通信。 然而,人们在语音通信过程中,尤其是处于移动环境中,不可避免的会受到来自周围 环境和传输媒介引入的噪声、通信设备内部乃至其他讲话者的干扰。这些干扰最终将使接 收到的语音变成非纯净的原始语音信号,而是受噪声污染的带噪语音信号。例如安装在汽 车、飞机或舰船上的电话,街道、机场的公用电话,常受到很强背景噪声的干扰,严重影 响通话质量。又如有历史价值的旧唱片、旧录音带的噪声和失真等,都是带噪语音信号的 例子。而且由于环境噪声的污染,使得许多语音处理系统的性能急剧恶化。例如,语音识 别已取得重大进展,正步入实用阶段,但目前的语音识别系统都是在安静环境中工作的。 在噪声环境中,尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低速率语音 编码,特别是参数编码,也遇到类似的问题。由于语音生成模型是低速率编码的基础,当 模型参数的提取受到背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不 可懂。 在上述情况下,语音增强不失为一种预处理或者抑制背景噪声、提高语音质量解决 噪声污染的有效手段。因此,研究语音增强技术在实际中有重要价值。目前。语音增强已 在语音处理系统、通信、多媒体技术、数字化家电等领域得到了越来越广泛的应用。 语音增强可以定义为一种当语音通信系统的输入或输出信号受到噪声干扰时提高其性 能的技术。它的主要目的是降低背景噪声,提高语音质量或抑制同声道语音干扰。简单的 讲,就是从带噪声语音信号中提取尽可能纯净的原始语音。然而由于干扰通常是随机的, 从带噪声语音中提取完全纯净的语音几乎是不可能。在这种情况下,语音增强的目的主要 有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,没有疲劳感,这是一种主 观测量;二是提高语音的可懂度,这是一个客观测量。但这两个目的往往不能兼得,所以 实际应用中总是视具体情况而有所侧重。 在实际需求的推动下,早在6 0 年代,语音增强这个课题就已经引起了人们的注意。此 1 南京邮电学院硕士研究生学位论文 第一章绪论 后4 0 多年间,人们一直在锲而不舍的进行着这方面的研究。 随着数字信号处理理论的成熟,7 0 - 8 0 年代间曾形成一个研究高潮,并取得了一些基 础性成果。如:1 9 7 8 年,l i r a 和o p p e n h e i m 提出了语音增强的维纳滤波方法;1 9 7 9 年, b o l l 提出了谱相减方法来抑制噪声;1 9 8 0 年,m a u l a y 和m a l p a s s 提出了软判决噪声抑 制方法;1 9 8 4 年,e p h r a i m 和m a l a l l 提出了基于m m s e 短时谱幅度估计的语音增强方 法。1 9 8 7 年,p m j w 羽把卡尔曼滤波引入到语音增强领域。在近3 0 年的研究中,各种语 音增强方法不断被提出,它奠定了语音增强理论的基础并使之逐渐走向成熟。语音增强发 展成为语音信号处理领域的一个重要分支。 8 0 年代以后随着v l s i 及高速d s p 的发展,使语音增强的实时实现成为可能。语 音增强逐渐走向实用,同时新的语音增强方法又相继涌现,如基于小波变换的方法,基于 人耳掩蔽效应的方法等。 语音增强不但与语音信号处理理论有关,而且涉及到人的听觉感知和语音学。噪声来 源众多,随应用场合而异,它们的特性也各不相同。即使在试验室仿真条件下,也难以找 到一种通用的语音增强算法,能适用于各种噪声环境。所以必须针对不同的噪声,采取不 同的语音增强对策。 1 2 论文的主要工作及内容安排 本论文主要包括以下几个部分:首先介绍了语音信号分析的基础知识,这有助于深入 理解和研究语音增强算法;然后研究了语音和噪声特性以及噪声的估计算法;在第四部分 描述了几种语音增强算法研究方向:基于语音生成模型、基于短时谱估计、基于统计和基 于小波变换的语音增强;接着详细介绍两种语音增强改进算法。最后总结并展望了语音增 强领域的研究。文中作了大量的仿真,希望可以为语音增强的后续研究提供些借鉴。 2 南京邮电学院硕士研究生学位论文第二章预备知识 2 1 概述 第二章预备知识 语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特性的 参数,才有可能利用这些参数进行高效的语音通信、语音合成、语音识别和语音增强等处 理。语音分析的好坏与否直接影响语音处理的各项技术指标。因此语音信号分析在语音信 号处理中具有举足轻重的地位。 “短时语音分析技术 贯穿于语音分析全过程。因为语音信号从整体来看其特性及表 征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程,不能用处理平稳 信号处理技术对其进行分析处理。但是,由于不同语音是dj 人的口腔肌肉运动构成声道某 种形状而产生的相应,而这种口腔肌肉运动相对于语音频率来说是非常平稳的,所以从另 一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内( 一般认为在l o 3 0 m s 的短时间内) ,其特性基本保持不变及相对稳定,因而可以将其看作是一个准稳态过程, 即语音信号具有短时平稳性。所以任何语音信号的分析处理都必须建立在“短时 基础上, 即进行“短时分析 ,将语音信号分为一段、一段来分析其特性参数,其中每一段称为一 帧,帧长一般取为l o - - - 3 0 m s 。这样,对于整体的语音信号来讲,分析出的每一帧特征参数 组成的特性参数时间序列。 为了更好的进行语音增强技术的研究,本章对基本语音信号分析技术作了初步的总结 和实现工作。主要包括语音信号的预处理、语音信号的时域分析、语音信号的频域分析。 本章组织如下:第二部分介绍语音特性和人耳的感知特性:第三部分介绍语音信号的 预处理相关内容,四、五部分依次介绍语音信号时域、频域相关内容分析和实现。 2 2 语音特性和人耳感知特性 2 2 1 语音特性 语音是时变的、非平稳的随机过程,但由于一段时间内( 1 0 3 0 m s ) 人的声带和声道形 状的相对稳定性,可认为其特性是不变的,因而语音的短时潜具有相对稳定性。 语音可分为清音和浊音两大类。浊音在时域上呈现出明显的周期性;在频域上有共振 3 南京邮电学院硕士研究生学位论文 第二章预备知识 峰结构,而且能量大部分集中在较低频段内。而清音段没有明显的时域和频域特征,类似 于白噪声。在语音增强中,可以利用浊音的周期性特征,采用梳状滤波器提取语音分量或 者抑制非语音信号,而清音则难以与宽带噪声区分。 语音信号可以用统计分析特性来描述。由于语音是非平稳、非遍历的随机过程,所以 长时间的时域统计特性在语音增强中的意义不大。语音的短时谱幅度的统计特性是时变 的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。高斯分布模型是根据 中心极限定理得到的,将高斯模型应用于有限帧长只是一种近似的描述。在宽带噪声污染 的语音增强中,可将这种假设作为分析的前提。 2 2 2 人耳感知特性 语音增强的最终效果是用人的主观感受度量的,充分利用人耳对语音信号的感知特性, 可以有助于语音增强技术的发展。 1 ) 人耳对于语音信号的感知是通过语音信号中各频谱分量幅度获取的,对分量的相位则 不敏感。 2 ) 人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅度的对数成正比。 3 ) 人耳对频率高低的感受近似与频谱的对数值成正比。 4 ) 人耳有掩蔽效应,掩蔽效应是指一个声音的存在会对另一个声音的感知产生掩蔽作用, 即强信号对弱信号有掩盖的抑制作用。掩蔽效应主要发生在同时进入听觉系统的不同 频率的两个声音之间,即同时掩蔽效虚;也可以发生在时间上先后进入听觉系统的两 个声音之间,即前向掩蔽和后向掩蔽;还可以发生在两个耳朵之间,即双耳掩蔽。 5 ) 短时谱中的共振峰对语音信号的感知非常重要,特别是第二共振峰比第一共振峰更为 重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。 6 ) 人耳可以在两个以上讲话环境中分辨出所需要的声音,这种分辨能力来源于人的双耳 输入效应,称为“鸡尾酒会效应 。 7 ) 入耳有惊人的恢复基频的能力。 2 3 语音信号的预处理 在语音信号进行分析和处理之前,必须对其进行预处理。预处理主要包括语音信号的 数字化、放大、增益控制、反混叠滤波、预加重、加窗和分帧处理等。 反混叠滤波 4 南京邮电学院硕士研究生学位论文第二章预备知识 语音信号时随时间动态变化的,它占据的频率范围可达1 0 k h z 以上,对于语音信号的 清晰度和可懂度有明显影响的成分,最高频率约为5 7 姐z 。c c i 订建议利用3 4 k h z 内的 信号分量。 电话宽带语音的频带限于3 0 0 - - 3 4 0 0 h z 。按照奈奎斯特取样定理,取样频率约为8 k h z , 经常取为1 0 k h z 。需要更高质量的语音合成或者语音识别方面,可以取采样频率为 15 2 0 k h z 。 以上所述均为在语音信号的频带范围基本确定的情况下决定的取样频率,如果语音信 号频带范围未知,就必须在语音信号之前经过反混叠滤波操作。如一般语音( 浊音) 的主 要能量主要集中在4 k h z 以下,但实际上,由于噪声环境下,宽带随着噪声的叠加,语音信 号总是包含4 k h z 以上的成分。有时反混叠滤波器为带宽为4 k h z 的低通滤波器,有时为了 防止5 0 h z 市电频率的干扰,反混叠滤波器选择频率范围为1 0 0 4 0 0 0 h z 的带通滤波器。 预加重 由于语音信号的平均功率谱受到声门激励和1 2 1 鼻辐射影响,高频端大约在8 0 0 h z 以上 按6 d b 倍频程跌落,即6 d b o e t ( 2 个倍频程) 或者2 0 d b d e c ( 1 0 倍频程) ,所以求语音信号 频谱时,频率越高相应的成分越小,高频部分的频谱比眠频部分的难求,为此要在预处理 中进行预加重( p r e e m p h a s i s ) 处理。 预加重的主要目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整 个频带中,能用同样的信噪比求频谱,以便于频谱分析或者声道参数分析。预加重可以在 语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信 号的动态范围,有效地提高信噪比。但预加重一般是在语音信号数字化以后,在参数分析 之前在计算机里用具有6 d b 倍频程的提升高频特性的预加重数字滤波器来实现,它一般是 一阶的数据滤波器: h ( z ) = 1 一i t z q值接近于1 在恢复原信号的过程中,需要从做过预加重的信号频谱求实际的频谱,要对测量值进 行去预加重( d e e m p h a s i s ) 操作,即加上6 d b 倍频程的下降的频率特性还原原来的信号特性。 加窗和分帧 语音是时变非稳定信号,但是在一段很短的时间( 1 0 m s - - 2 0 m s ) 内,人体的发音器官 肌肉的变化相对于语音信号的变化相对稳定。因此对语音信号的分析和处理之前都要经过 加窗分帧处理。加窗分帧有连续分段方法和交叠分段方法。一般采用后者,因为这种方法 可以使得帧与帧之间平滑过渡如图2 1 所示。前一帧和后一帧的交叠部分成为帧移。帧移 与帧长的比值一般取为肚1 2 。分帧是用可以移动囱限长度的窗1 2 1 进行加权的方法实现的, s 南京邮电学院硕士研究生学位论文 第二章预备知识 就是用一定的窗函数w ( n ) 乘以s ( n ) ,形成加窗语音信号s 。( 玎) = s ( 珂) w ( 刀) 。 图2 1 帧长、帧移示意图 语音信号数字处理中常用的窗函数是矩形窗和汉明窗。表达式如下( 其中n 为帧长) 矩形窗:w ( n ,= :兰:丢二。 q m 汉慨删= 倍攀螂口翮州。1 刀0 如纠肛d ( 2 2 ) 窗函数选择主要取决于两个标准:形状和长度。这对于短时分析参数的特性有很大的 影响。 1 窗口形状 好的窗口标准是:在时域内要减小窗两端的坡度,因为语音波形乘以窗函数,使窗口 边缘两端不引起急剧的变化而平滑的过渡到零,这样可以使截取出的语音波形缓慢降为 零,减小语音帧的截断效应;在频域内要有较宽的3 d b 带宽以及较小的边带最大值。 矩形窗和汉明窗比较,汉明窗主瓣宽度比矩形窗宽一倍,即带宽约增加一倍,同时带 外衰减也比矩形窗大得多。矩形窗的平滑性能较好,但损失了高频成分,使波形细节丢失; 汉明窗则相反。 2 窗口长度 采样周期z - 1 z ,窗1 3 长度和频率分辨率厂之间有下列关系: a 厂= 斋 ( 2 3 ) n t , 、 可见当采样周期一定时,a 随窗1 3 宽度n 的增加而减小,即频率分辨率相应得到提高, 但同时时间分辨率降低;如果窗1 3 取短,频率分辨率下降,而时间分辨率提高,二者是矛 盾的。例如:如果n 很大,则等效于很窄的低通滤波器,语音信号通过时,反应波形细节 的高频部分被阻碍,短时能量随时间变化很小,不能真实地反映语音信号的幅度变化;反 之,n 取值太小时,滤波器的通带变宽,短时能量随时间有急剧的变化,不能得到平滑的 能量函数。 窗口长度的选择主要考虑语音信弓基音周期。通常认为在一个语音帧内应包含l 一7 个 6 爿j 南京邮电学院硕士研究生学位论文 第二章预备知识 基音周期。不同人的基音周期变化很大,从女性和儿童的2 m s 到老年男子的1 4 m s ( 即基 音频率变化范围为5 0 0 7 0 0 h z ) 。通常在1 0 k h z 的取样频率下,n 折中选择为1 0 0 - 2 0 0 点 为宜( 即1 0 - 2 0 m s 持续时间) 。 部分预处理的仿真 这部分主要针对分帧加窗操作进行实现。一帧语音信号加汉明窗、汉宁窗和矩形窗处 理结果如图2 2 所示( 其中抽样频率f s = 8 k h z ,帧长= 1 6 0 ,帧移= 8 0 ) ,可以看到一帧语音 信号的详细信息。 图2 2 语音信号加不同窗后波形 2 4 语音信号的时域分析 2 4 1 短时能量 原理介绍 语音信号的能量分析是基于语音信号能量随时间变化有相当大的变化,特别是清音段 的能量一般比浊音段的小得多。能量分析包括能量和幅度两个方面。 短时平均能量定义如下: e = 【x ( 肌) w ( 刀一m ) 】2 = 【x ( m ) w ( ,l m ) 】2 ( 2 4 ) 一 脚暑,卜+ l 7 南京邮电学院硕: :研究生学位论文第二章预备知识 e = 【x ( 聊) 以 一所) 】2 = 【x ( 朋) w ( 玎一m ) 】2 ( 2 4 ) m m t - - + l 上式有可以写成如下形式: e = 【x ( 埘) w 一聊) 】2 - - x 2 ( 刀) 厅( 刀) ,其中办( 刀) = 矿( 力) ( 2 5 ) 这表示短时能量相当于短时语音信号平方通过一个单位函数响应h ( n ) 的线性滤波的输出。 短时能量作为一个特性参数表现语音信号幅度变化特性。其特性由选择的窗口形状和 长度决定。详细情况参照加窗分帧章节的介绍。由于短时能量计算中涉及平方运算,因此 e 值对于高电平特别敏感。基于这种情况可以采用“短时平均幅度度量语音信号的 幅度值。其定义如下: 坂= i x ( m ) 1 w ( n - m ) = l x ( n ) l 以玎) ( 2 6 ) 注:在编程实现中的短时能量都由短时平均幅度代替。 短时平均能量主要用途 用于区分清音段和浊音段,因为浊音段的e 比清音时的大得多。 用于区分声母和韵母的分界,无声和有声的分界,连字( 字间无间隙) 的分界等。 如对于高信噪比的语音信号,e 用来区分有无语音。无语音信号的噪声能量e 很 小,而有声信号的e 显著地增大到某一数值,由此可区分语音信号的开始点或终止 点。 作为一种超音段信息,用于语音识别。 仿真 窗口宽度对于短时平均能量的影响 假设采用海明窗,采样频率f s = 8 k h z ,帧移帧长= 1 2 , 窗长分别是n = 5 0 ,1 0 0 ,2 0 0 ,4 0 0 南京邮电学院硕- j :研究生学位论文第二章预备知识 i n 暑1 0 0 v嘶 收?一。 n 飞 i令k八 h j :、。一、 o卯 1 0 0 1 加2 湖3 棚4 6 0 锄 图2 3 窗口宽度对短时平均能量的影响 ( 采用海明窗,采样频率f s = 8 k l t z ,帧移帧长= 1 2 , 窗口宽度分别是n = 5 0 ,1 0 0 ,2 0 0 ,4 0 0 ) 由图2 3 可知当n 太带大的时候,窗函数相当于一个带宽很窄的低通滤波器,此时e n 随时间变化很小,不能很好地反映语音信号幅度变化,丢失了很多波形变化细节;当n 太 小的时候,相当于滤波器的通;蒂变宽,短时能量急剧变化,不能得到平滑的能量函数。 窗口类型对于短时平均能量的影响 假设采样频率为f s = 8 k h z ,帧长= 1 6 0 ,帧移= 8 0 ,窗 选择海明窗、海宁窗和矩形窗。 9 南京邮电学院硕士研究生学位论文 第二章预备知识 原始语音 叫蚪瀚岭母啊。i r 。j八 祝嘲窗 b 凸 水、f ? 、f 。丽、 y 弋 r f 以k , h 1 a 嘶八 矩形亩 队 、八f 、。、以, v 、 扒 “ j l 一一,弋 图2 4 不同窗函数对语音信号平均能量的影响 ( 窗口选择海明窗、海宁窗和矩形窗 采样频率为f s = 8 k l i z ,帧长= 1 6 0 ,帧移= 8 0 ) 由图2 4 可以清楚地看出对语音信号加矩形窗分帧,获得的短时平均能量平滑性比加 海明窗和海宁窗都要好。 2 4 2 短时平均过零数 概述 短时平均过零数是指对窗1 3 范围内的过零数区平均。语音信号序列是宽带信号,可以 用短时平均过零数来得到其频谱的粗略估计。语音信号x ( n ) 短时平均过零数定义为: 乙= is g n x ( m ) - s g n x ( m 一1 ) 】1w ( n m ) ( 2 7 ) 爿s g n 【x ( ,2 ) 卜s 目1 刀一1 ) 】i w ( 刀) 肌s 卅脚号溅眺卧】= 仁蕊兰。; w m ) 为窗口函数,与短时能量和短时幅度分析中的操作一致,对语音信号加窗。 短时平均过零数的用途 用于区分浊音段和清音段。由于语音信号能量主要集中在低频约3 k h z 以下,平均 l o 南京邮电学院硕士研究生学位论文 第二章预备知识 过零数比较低,这个部分主要是浊音;高频部分,平均过零数比较高,主要是清音。 从背景噪声中找出语音信号,可用于判断寂静无语音和有语音的起点和终点位置。 孤立词识别中,用于确定一个单词的语音信号,即找出一个单词的开始和终止位置。 在高信噪比情况下,可以使用短时平均能量;低信噪比情况下,使用短时平均过零 数。一般情况下,两者同时使用。 仿真 1 h eo r i g i n a l 卸e e v - - hs i g n a l 图2 5 短时平均过零数 由图2 5 可以看出,浊音段主要是短时平均过零数在约3 0 以下的部分。其余部分为清 音部分。 2 4 3 短时白相关函数 概述 相关分析用来测定两个信号的相似度,如果两个信号完全不同,则相关函数接近零; 如果两个信号波形相同,则在超前或者滞后出现峰值。由此可以求出两个信号的相似度。 相关函数有如下的性质: 如果序列是周期的,则其自相相关函数也是周期函数。 l l 南京邮电学院硕士研究生学位论文第二章预备知识 它是偶函数,即r ( k ) = r ( 一k ) 。 当k = 0 时,自相关函数具有极大值,即r ( 0 ) = i r ( k ) i 。 r ( o ) 等于确定性信号序列的能量或随机性序列的平均功率。 在语音信号分析中,主要利用自相关函数的第一个最大值的位置来估计其周期。主要 是由于发浊音时,语音波形序列呈现周期性,因此可以利用自相关函数来求出周期,即基 音周期。自相关函数还应用于语音信号的线性预测分析等方面。语音信号的自相关分析, 主要采用短时自相关函数。其定义如下: 兄( 后) = x ( 聊) w ( 疗一所) x ( 肌+ 七) w ( n - m - k ) ( 2 8 ) 上式可以理解为对语音段作加窗分帧操作,然后把自相关函数应用到每帧语音信号。上式 可以简化为: 疋( 七) = 【x ( 丹+ 肌) w ( m ) 】【x ( ,+ 坍+ k ) w 。( ,押+ 七) 】 ( 2 9 ) n l = u 此式表示将输入序列移位到抽样时刻n 处,然后加窗耿一帧信号。 仿真 设定抽样频率f s = 8 k l - l z ,帧长= 1 6 0 ,帧移= 8 0 ,一帧语音信号的短时自相关函数如图 2 6 所示: t h e0 1 1 9 i n b ls l 豫e v - hs i g n a l r n d 尔i o nf u n o i o no f af r a m es p e e o hs i g n a l 图2 6 语音信号的短时自相关函数 南京邮电学院硕士研究生学位论文 第二章预备知识 设定抽样频率f s = 8 k h z ,帧长= 1 6 0 ,帧移= 8 0 ,一段时长为1 5 0 m s 清音信号的短时自 相关函数如图2 7 所示: 图2 7 语音信号的短时自相关函数 ( 抽样频率f s = 8 k h z ,帧长= 1 6 0 ,帧移= 8 0 ,时长为1 5 0 m s ) 由图9 可以看出,浊音信号的自相关函数成准周期变化,峰值出现在3 5 的倍数上,由 于抽样频率为8 k h z ,所以可以粗略确定基音周期为3 5 8 = 4 3 7 5 m s ,而清音信号的短时自相 关函数没有周期性,类似噪声频谱。观察清音自相关函数图时注意纵坐标的数量级。 2 4 4 短时平均幅度差函数 短时平均幅度差函数定义为: ( 七) = l z ( 刀+ 聊) c g ( m ) - x ( n + m - k ) c 0 2 ( m - k ) l ( 2 1 0 ) 特别地,当窗函数q ( 加) 和哆( 朋) 取窗长为n 和n + k 的矩形窗时,便有 | v l ,:,( 七) = i x ( n + m ) - x ( n + m 。- k ) l ( 2 1 1 ) m = o 如果 j ( 一) ) 是一个周期为p 的周期性信号,那么,当k = o ,p ,也p ,时,厶( 膏) = 0 ,由此 可见短时平均幅度差函数也可用于基音周期检测,而且计算上比自相关法更简单。 南京邮电学院硕士研究生学位论文第二章预备知识 2 4 5 端点检测 语音信号往往混有噪声的干扰,同时在语音通信中,通话过程中处于静默状态占有很 大的比重。为了能够有效地处理语音信号,语音信号的端点检测是行之有效的方法。这样, 在语音信号处理过程中,只需要将注意力放在语音段,非语音段可以忽略不计,提高了处 理的效率。 端点检测方法:( 1 ) 双门限前端检测算法;( 2 ) 多门限过零率前端检测算法。 1 ) 双门限前端检测算法 考虑到在语音的开始段语音信号能量和背景噪声的能量相差不大,很难区分,但是在 后续的检测中总会检测到能量较大的浊音。首先设置一个相对比较高的门限瓦用以粗略地 检测语音的端点,然后再设定一个较低的门限值r ,精确确定语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冷藏冷冻物流货物保险代理合同
- 电力系统节能减排补充协议
- 电动汽车用锂电池循环测试设备租赁及环保评估协议
- 航天产业园区招商引资与合作合同
- 互联网股权投资亏损风险控制与结算合同
- 企业合作伙伴忠诚协议中风险控制决策权重约定书
- 妇产科传染病病人的护理
- 校招水电站面试题目及答案
- 校招设计助理面试题目及答案
- 校招融资租赁面试题目及答案
- 《急性冠状动脉综合征》课件
- 武汉市2025届高中毕业生四月调研考试 试卷与解析
- 2025北京各区高三一模数学分类汇编解析 答案
- 第18课《井冈翠竹》 课件
- (四调)武汉市2025届高中毕业生四月调研考试 英语试卷
- 广西壮族自治区2025年4月高三毕业班诊断学考试英语试卷(广西三模)
- 2025年山东省枣庄市滕州市中考历史模拟试卷(一)
- 2025华阳新材料科技集团有限公司招聘(500人)笔试参考题库附带答案详解
- 2024年美睫技术考核试题及答案
- 运维岗笔试题及答案
- 余杭塘路(俞家圩路-光明路)工程环评报告
评论
0/150
提交评论