(电力系统及其自动化专业论文)基于dsp的实时语音增强系统设计与实现.pdf_第1页
(电力系统及其自动化专业论文)基于dsp的实时语音增强系统设计与实现.pdf_第2页
(电力系统及其自动化专业论文)基于dsp的实时语音增强系统设计与实现.pdf_第3页
(电力系统及其自动化专业论文)基于dsp的实时语音增强系统设计与实现.pdf_第4页
(电力系统及其自动化专业论文)基于dsp的实时语音增强系统设计与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(电力系统及其自动化专业论文)基于dsp的实时语音增强系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t i ns p e e c hc o m m u n i c a t i o ns p e a k e r so f t e ni n t e r f e r e db yb a c k g r o u n dn o i s e t h i si s p a r t i c u l a rt h e c a s ei ns o m es p e c i a lf i e l ds u c ha sp r o v i n gg r o u n dw i t hi n t e n s eb a c k g r o u n d n o i s e ,t h el o c a lo fm i l i t a r yo rn a v a lm a n e u v e ra n dh a n d f r e ec o m m u n i c a t i o ns y s t e mi nt h e c a l - t h ei n t e n s eb a c k g r o u n dn o i s ed i s t o r t st h es p e e c ha n dw o r d sa r eh a r d l yi n t e l l i g i b l e i n o r d e rt oi m p r o v et h ep e r f o r m a n c eo fs p e e c hc o m m u n i c a t i o na n d r e d u c et h en o i s e c o r r u p t e di ns p e e c han o i s er e d u c t i o no ra na l s oc a l l e ds p e e c he n h a n c e m e n ti sa p p l i e d a m o n go fm a n ya l g o r i t h m ss p e c t r a ls u b t r a c t i o nm e t h o dh a sb e e no n eo ft h em o s t w e l lk n o w nt e c h n i q u e sf o rn o i s er e d u c t i o nb e c a u s ei ti s s i m p l ea n de f f e c t i v e t h e e n h a n c e ds p e e c hw o u l db ec o r r u p t e db yar e s i d u a ln o i s ec o m m o n l yc a l l e dm u s i c a ln o i s e a n du n s u p p r e s s i b l eb a c k g r o u n dn o i s ew i t ht h i sm e t h o d al o to fm e t h o d sa p p e a r st o m o d i f yt h es p e c t r a ls u b t r a c t i o nm e t h o da n dm a k eag r e a tp r o g r e s so ns u p p r e s s i n gm u s i c a l n o i s e ,b a c k g r o u n dn o i s ea n dr e d u c i n gs p e e c hd i s t o r t i o n b u tt h ep e r f o r m a n c eo ft h e s e m e t h o d sg o tw o r s ew h e nt h es i g n a ln o i s er a t i oi sl o w t h i st h e s i sp r o p o s eam o d i f i e ds p e c t r a ls u b t r a c t i o na p p r o a c ht h a ta l l o w sb e t t e ra n d m o r es u p p r e s s i o no ft h en o i s ea n di m p r o v et h ei n t e l l i g e n c eo fe n h a n c e ds p e e c hi na p e r c e p t u a ls e n s ew i t hp e r c e p t u a lw e i g h t i n gf i l t e r t h e nar e a l t i m es p e e c he n h a n c e m e n t s y s t e mi si m p l e m e n t e do nt m s 3 2 0 v c 5 4 1 0d s e t h er e s u l t so fe x p e r i m e n t ss h o wt h a tt h i s s y s t e mc a ns u p p r e s st h en o i s ys p e e c h e f f e c t i v e l yo nt i m ew i t hal o wl e v e io fm u s i c a ln o i s ee v e na tal o ws n r k e yw o r d s :s p e e c h ;e n h a n c e m e n t ;s p e c t r a ls u b t r a c t i o n ;d s p 学位论文独创性声明 本人声明,所呈交的学位论文系本人在导师指导下独立完成的研究成果。 文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法律 意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的 论文或成果。 本人如违反上述声明,愿意承担由此引发的一切责任和后果。 论文作者签名:常大阢日期:游占月尸日 学位论文知识产权权属声明 本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属学 校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本 人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单 位仍然为青岛大学。 本学位论文属于: 保密口,在年解密后适用于本声明。 不保密融 论文作者 导师签名 以上方框内打“” ) 日期:沙年月尹日 日期:p 一6 年6 月西日 ( 本声明的版权归青岛大学所有,未经许可,任何单位及任何个人不得擅自使用) 第一章前言 第一章前言 当今世界正处于信息时代。计算机、电子和信息技术的高速发展,推动着人类 社会向信息社会不断进步。语音是人类相互之间进行交流最自然和最方便的形式之 一,语音通信是一种理想的人机通信方式。人们一直梦想有朝一日可以摆脱键盘或 遥控设备的束缚,拥有更为友好、亲切的人机界面,使得计算机或家用电器可以像 人一样听懂人的话语,看懂入的动作,执行人们所希望的任何任务。而语音数字信 号处理正是其中一项至关重要的应用技术。语音数字信号处理是一门涉及面很广的 交叉学科,其研究领域涉及到信号处理、人工智能、模式识别、数理统计、神经生 理学和语言学等许多学科。其在数字话音通信、声控打f p l f l , 、自动语音翻译和多媒 体信息处理等许多方面都有常重要的应用。语音数字信号处理包含的内容十分广泛: 如包括语音编码、语音识别、语音合成、说话人识别和语音增强等 1 。在语音数字 信号处理的诸多研究领域中,语音增强是语音数字信号处理系统进入实用阶段的重 要环节。 1 1 语音增强的课题研究背景 人们在语音通信过程中会受到来自周围环境、传输媒介引入的、通信设备内部 噪声,乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语声已非纯净的 原始语音信号,而是受噪声污染的带噪语音信号。如安装在汽车、飞机或船舰上的 电话,会受到发动机产生的噪声的干扰;在街道、机场或其他公共场合使用电话, 经常受到很强的背景噪声的干扰,严重影响通话质量;又如,室内会议电话的回声 随同语音广播到每个会议地点,影响收听效果;战场上存在着严重的噪声,使得战 地电话或电台无法进行正常的语音通信,这些都需要一种语音增强系统,使人们可 以在强背景噪声一f 可以正常通信。 环境噪声污染也使许多语音处理系统的性能急剧恶化。语音增强作为预处理, 可以改善这些系统的性能。例如语音识别正在步入实用阶段。但目前的识别系统大 都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别 率将受到严重影响,需要语音增强技术进行预处理。数字电话中需要进行语音编码, 在语音编码时,特别是参数编码,由于语音生成模型是低速率参数编码的基础,当 模型参数的提取受到混杂在语音中的背景噪声严重干扰时,重建语音的质量将急剧 恶化,甚至变得完全不可懂。 通常情况下,语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始 语音。然而,由于干扰往往都是随机的,从带噪语音中提取完全纯净的语音几乎不 第一章前言 可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景 噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高可懂度,这是 一种客观度量。这两个目的往往不能兼得。目前,些对低信噪比带噪语音进行语 音增强的方法可以显著地降低背景噪声,改进语音质量,但并不能提高语音的可懂 度,甚至略有下降 2 。 在实际需求推动下,早在上世 9 6 0 年代语音增强就引起人们的注意,随着数字 信号处理理论的成熟,7 0 年代曾形成一个研究高潮,取得了一些基础性成果,进入 8 0 年代后,超大规模集成电路( v l s i ) 技术的发展以及d s p 芯片的出现为语音增强 的实时实现提供了可能。 语音增强不但与语音数字信号处理理论有关,还涉及到人的听觉感知和语音学。 再则,噪声来源众多,随场合而异,它们的特性也不同。很难找到一种通用的语音 增强算法,能适用于各种噪声环境。必须针对不同噪声,采取不同的语音增强对策。 通常,噪声和语音在同一通道中( 单通道系统) 是最普遍的也是最难处理的一种情 形,在许多实际应用中,如移动电话、车载免提电话、助听器等都是单通道系统。 在这些系统巾的语音增强和噪声抑制算法,除了消除噪声和保证可懂度外,还有一 个重要的评价指标,即算法的复杂度。语音增强算法必须满足系统的实时性要求, 并且易于实现。 1 2 主要研究内容 在语音增强算法中,谱减法是最好的方法之一。谱减法主要思想是从带噪语音 的功率谱中直接减去噪声功率谱从而得到纯净语音的估计功率谱。谱减法由于其复 杂度很小,易于实现,一直是人们研究的热点。这种方法的不足之处是会产生“音 乐噪声”。语音信号数字处理是为人的听觉服务的,而人的听觉系统对声音信号有 其特有的感知特性。因此,要提高语音信号数字处理的效果应该结合听觉系统的感 知特性进行研究。听觉掩蔽效应是听觉感知中个重要的感知现象,许多研究人员 对听觉掩蔽效应进行了研究并提出了一些计算掩蔽闽值的模型。上世 e , 8 0 年代以后, 随着听觉模型的不断完善,人们开始将听觉掩蔽模型引入到语音信号数字处理的研 究中,并已经在语音编码、音频压缩和语音质量的评价等领域得到了成功应用。上 世纪9 0 年以来,随着听觉感知模型的完善及其在语音压缩编码中的成功应用,听觉 感知模型开始引入到语音增强的研究中,虽然已经取得了一定的进展,但一个公认 的最佳感知语音增强方法尚未形成。引入听觉感知实现语音增强的原理是根据掩蔽 闽值和噪声之间的相对关系对带噪语音谱分量有选择地进行处理,这样可以在对可 闻噪声进行抑制的同时还可以尽量减少对原语音信号的损伤。如果噪声谱处于掩蔽 阈值之下则噪声不可闻,一般不需要进行处理;如果噪声谱在掩蔽闽值之上则噪声 2 第一章前言 可闻,此时再用某种语音增强方法对它进行处理。但是,已有的基于听觉感知的语 音增强方法往往过于强调噪声抑制而忽视由此带来的语音失真,因此对噪声抑制和 语音失真之间的权衡原则尚需进一步的研究。 本文主要针对单通道系统,结合人耳听觉掩蔽效应对传统谱减法加以改进,在 更好地抑制噪声同时兼顾语音的可懂度。并在t m s 3 2 0 v c 5 4 1 0 d s p 芯片上用该算法 研制高性能语音增强系统。全文共分六部分: 第一章为前言,介绍语音增强的研究背景,及本文的主要研究工作。 第二章介绍了语音信号和噪声的特征及处理方法。 第三章介绍了主要语音增强算法,重点讨论谱减法的改进形式以及人耳掩蔽效 应。 第四章介绍t m s 3 2 0 v c 5 4 1 0 d s p 芯片和实现实时语音增强系统的硬件系统。 第五章介绍软件部分,主要为语音增强算法的具体实现。 第六章为结论部分。总结了所做的研究:i :作和得到的结沦,指出了研究的不足 和未来的研究方向。 第二章语音信号和噪声特征 第二章语音信号和噪声特性 语音增强算法的基础是对语音和噪声特性的了解和分析。下面分别叙述语音和 噪声的主要特性,语音增强方法及其效果的评测方法。 2 1 语音信号特征 1 语音是一个时变的、非平稳随机过程 人类发声系统的生理结构的变化速度是有一定限度的,在一段时间内 ( 1 0 m s 3 0 m s ) 人的声带和声道形状具有相对稳定性,可以认为其特性是不变的, 因而语音的短时谱分析也有相对稳定性。在语音增强中可以利用短时谱的这种平稳 性。 2 语音大体上可以分为清音和浊音两大类 从语音产生的机理上看,清音和浊音有明显的差异,因而在特性上电有明显的 区别:浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部 分集中在较低频段内。清音则完全不同,它没有明显的时域和频域特征,类似于白 噪声。在语音增强中,可以利用浊音的周期性特性,采用梳状滤波器提取语音分量 或者抑制非语音信号,而清音则难以与宽带噪声区分。 3 作为一个随机过程,语音信号可以用统计分析特性来描述 作为非平稳、非遍历的随机过程,长时间时域统计特性在语音增强中意义不大。 其短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,刁能近似地认 为它具有高斯分布。高斯统计模型是根据中心极限定理得到的。在高斯模型假设下, 傅立叶展开系数被认为是独立的高斯随机变量,均值为零,而方差是时变的。这种 高斯模型应用于有限帧长时只是一种近似的描述,在宽带噪声污染的带噪语音的语 音增强中,这种假设可用于分析的前提。 2 2 人的听觉系统 人的听觉系统即人耳,由外耳、中耳和内耳三部分组成 3 。其作用是将传入人 耳的声波转换为机械能,而后再将机械能转换为电脉冲以便人脑接受和处理。外耳 由最外面的耳廓、耳道和鼓膜所组成外耳用于收集空气中的声波和声源定位;耳道 形如一端封闭的管子,具有声音放大作用,对语音灵敏度有一定的增强作用:鼓膜 是接受声音的薄片,在声压的作用下振动,因而实现声波到机械能的转换。中耳内 含有由三块听小骨( 锤骨、砧骨和镫骨) 构成的杠杆链,主要用来完成外耳的空气介 质和内耳的液体介质之间的阻抗变换。此外中耳还有一些其它功能,如对过强声音 第二章语音信号和噪声特征 具有衰减作用,因而可保护内耳免受过强声音的伤害;对低频声音具有滤除作用。 因而降低了说话人对自身语音的灵敏度:中耳中还有一个通向咽腔的耳咽管,它可 以平衡中耳中的压强。内耳主要指的是听觉系统的耳蜗,是昕觉系统中最复杂的部 分。耳蜗是听觉接受器,它将来自中耳的机械振动转换为电脉冲信号。虽然人们己 经对耳蜗进行了多年研究,但其对频率的选择机理以及一些非线性特性的认识人们 至今仍不是十分清楚。耳蜗是一根密封的管子,内部充满了淋巴液。耳蜗通过其底 端的卵形窗和中耳中的镫骨相结合实现机械能从中耳到耳蜗的传递。在耳蜗内部有 一称为基底膜的隔膜将耳蜗分为前庭阶和鼓阶两部分。耳蜗对声波频率的分析是由 基底膜的机械运动完成的,其机理可以用广为接受的行波理论加以说明行波的最大 幅值随声音频率的不同而落在基底膜的不同部位上。高频信号引起的最大振幅在基 底膜靠近卵形窗处,低频信号引起的最大振幅位于靠近基底膜的顶端处。最后,耳 蜗还要将基底膜上的振动自动转换为电脉冲信号,这一转换是由位于基底膜上的柯 蒂氏器官完成的,电脉冲信号通过听觉神经纤维送往人脑,它载有声波的频率、强 度和音色等信号。 2 2 1 语音感知对语音增强研究有重要作用 语音增强效果的最终度量是人的主观感受。人耳对背景噪声有惊人的抑制作用, 了解其中机理将大大有助于语音增强技术的发展。语音感知问题涉及到生理学、心 理学、声学和语音学等诸多领域,这是一个复杂的问题,有待进一步研究。尽管如 此,目前己有一些有用的结论可以应用于语音增强:人耳对语音的感知是通过语音 信号中各频谱分量幅度获得的,对各分量的相位则不敏感;人耳对频谱分量强度的 感受是频率和能谱的二元函数,响度与频谱幅度的对数成正比;人耳对频率高低的 感受近似与该频率的对数值成正比:人耳有掩蔽效应,即强信号对弱信号有掩盖的 抑制作用。掩蔽的程度是声音强度与频率的二元函数。对频率临近分量的掩蔽要比 频差大的分量有效得多;短时谱中的共振峰对语音的感知十分重要,特别是第二共 振峰比第一共振峰更为重要。因此对语音信号进行一定程度的低通滤波不会对可懂 度造成影响;人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音。 2 2 2 掩蔽效应和临界带宽 掩蔽效应是使一个声音a 能感知的阈值因另一个声音b 的出现而提高的现象,这 时b 叫掩蔽声,a 叫被掩蔽声。被掩蔽音刚能听到时的掩蔽音的强度被称为掩蔽闽值。 一个纯音可以被以它为中心,并且具有一定频带宽度的连续噪声所掩蔽,如果在这 一频带内噪声功率等于该纯音的功率,且这时纯音处于刚能被听到的临界状态,则 第二章语音信号和噪声特征 称这一带宽为临界带宽。掩蔽效应具有临界带的现象可以从生理上找到依据。人耳 基底膜具有与频谱分析器相似的作用,在2 0 2 0 0 0 0 h z 范围内的频率可分成2 5 个频率 群。表2 ,1 给出了2 5 个频率群表及每个频率群的中心频率以及其带宽的数据。 表2 1 频率群表 频率群序号低频带( h z )中频带( h z )高频带( h z ) 1 o5 0 1 0 0 2 1 0 01 5 0 2 0 0 3 2 0 02 5 0 3 0 0 4 3 0 03 5 0 4 0 0 5 4 0 04 5 0 5 1 0 6 5 1 05 7 0 6 3 0 7 6 3 07 0 0 7 7 0 8 7 7 0 8 4 0 9 2 0 9 9 2 01 0 0 0 1 0 8 0 1 0 1 0 8 01 1 7 0 】2 7 0 1 1 1 2 7 01 3 7 0 1 4 8 0 1 2 1 4 8 01 6 0 0 1 7 2 0 1 3 1 7 2 01 8 5 0 2 0 0 0 1 4 2 0 0 02 1 5 0 2 3 2 0 1 5 2 3 2 02 5 0 0 2 7 0 0 1 6 2 7 0 02 9 0 0 3 1 5 0 1 7 3 1 5 03 4 0 0 3 7 0 0 1 8 3 7 0 04 0 0 0 4 4 0 0 1 9 4 4 0 04 8 0 0 5 3 0 0 2 0 5 3 0 05 8 0 0 6 4 0 0 2 1 6 4 0 07 0 0 0 7 7 0 0 2 2 7 7 0 08 5 0 0 9 5 0 0 2 3 9 5 0 01 0 5 0 0 1 2 0 0 0 2 4 1 2 0 0 01 3 5 0 0 1 5 5 0 0 2 5 1 5 5 0 01 9 5 0 0 2 3 噪声特征 噪声来源于实际的应用环境,因而噪声特性可以说是变化无穷。噪声可以是加 性的,也可以是非加性的。对于非加性噪声,有些可以通过变换而转变为加性噪声。 例如,乘性噪声( 或卷积噪声) 可以通过同态变换而成为加性噪声。又如,某些与信 第二章语音信号和噪声特征 号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声 【4 】。加性噪声大体上可分为:白噪声、周期性噪声、脉冲噪声、宽带噪声和同声道 其它语音的干扰等。白噪声的特性我们己经熟知,在这里就不做讨论。 1 周期性噪声 绝大部分背景噪声都是周期性噪声,其特点是具有许多离散的线谱。主要来源 于发动机等周期性运转的机械。电气干扰,特别是电源交流声,也会引起周期性噪 声。显然,这种周期性噪声可以用梳状滤波器予以抑制,这可以用数字信号处理的 方法来实现。然而,实际环境中产生的周期性噪声并非简单地只含线谱分量,而是 由许多窄谱带组成。而且,往往是时变的,并与语音信号频谱重叠,必须采用自适 应滤波的方法才有可能自动识别和区分噪声分量。 2 脉冲噪声 脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于爆炸、撞击和放电等。 消除脉冲噪声通常可以在时域进行,其过程如下:根据带噪语音信号幅度的平均值 确定阈值。当信号幅度超出这一阚值时,判别为脉冲噪声,然后对它进行适当的衰 减,甚至完全消除;电可以根据相邻信号样值通过内插的方法,将脉冲噪声在时域 上进行平滑。这是一种直接消除的方法。 3 宽带噪声 宽带噪声的来源很多,如热噪声、气流( 如风、呼吸) 噪声及各种随机噪声源, 量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠, 因而消除它最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪 声,通常可以认为是白色高斯噪声。不具有白色频谱的噪声,可以先进行预白化处 理。对于非平稳的宽带噪声,情况就为复杂一些。 4 同声道语音干扰 人耳可以在两人以上讲话环境中分辨出所需要的声音,这种分辨能力是人体内 部语音理解机理具有的一种感知能力。人类的这种分离语音的能力称为“鸡尾酒效 应”,这种能力来源于人的双耳输入效应。但当多个语音叠合在一起,在单信道传 输时,双耳信号园合并而消失。如同人的指纹那样,每个人因发音系统生理构造的 差异,也有不同的“声纹”,这种“声纹”在于他们的语音生成模型参数不同。 各种背景噪声对发音会产生一定的影响,破坏了语音信号原有的声学特征和模 型参数,模糊了不同语音之问的差别,造成了语音质量下降,可懂度降低。强噪声 会使人疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变了在安静 环境或低噪声环境中的发音方式,从而改变了语音的特性参数,这称为l o m b a r d 效 应,它对语音识别系统有很大影响。 8 2 4 语音信号短时傅立叶分析与综合 语音信号是一种典型的非平稳信号,但是其非平稳性是出发音器官的物理运动 过程产生的。这个物理运动过程与声波振动的速度比起来要缓慢得多,因此我们可 以假定它在l o 3 0 m s 这样短的时间段中是平稳的。 信号取 ) ) 短时傅立十变换的定义为: x 。扣一) = f x ( ) w 0 一m ) t 1 ” ( 2 1 ) ,知 其中 w ( n ) ) 是个窗序列,显然x 。扣) 是个二维函数,也称时频函数。盖。( e ) 可 以从两个角度来理解其物理意义【5 】: 第一种解释是:当n 固定时,例如”= n o ,则x 。0 。”) 是将窗函数的起点移至n 。处 截取信号x f ,1 ) ,再做傅立叶变换而得到的一个频谱函数。这是直接由式( 2 1 ) 从频 率轴方向来解释的。第二种解释足从时i 司轴方向来理解:当频率固定时,例如w = 帆, 则x 。( e 一) 可看作足信号经过一个中心频率为的带通滤波器后产生的输出。这是因 为式( 2 1 ) 中窗序列 w 0 ) ) 通常具有低通频率响应,而x ( n ) p ”的傅立叶变换为 x ,( e 小一) ,这里的指数e ”u 对x m ) 的调制作用,是使其频潜产生转移,即将x 0 ) 频谱中对应于频率w 的分量平移到零频。 由时频函数x 。( e 一) 重构信号x ( ”) ,可以采用叠接相加法a 叠接相加法与式( 2 ,1 ) 中第一种解释相对应的。前面已指出,x 。( e ) 可以看作是 y 。) = x ( m ) w ( n 一州) ( 2 2 ) 序列的标准傅立叶变换。假设在时间域上用周期为r 的抽样速率对短时变换抽样, 因此我们有: y ,皓h 、= x re “) 其中r 为整数,0sksn 1叠接相加法以下式为基础: + * r1n 一11 炯) - ,薹防荟引扣”i ( 2 3 ) ( 2 4 ) 第二章语音信号币i 噪声特征 这就是说,为了要恢复信号,对不同的r 值算出r ( p 以) 的反变换,得到下面的序列 y ,( m ) = x ( m ) w ( r r m ) , ( 2 5 ) 然后将在时间以上叠接的所有序列y r ) 在各个时间n 上的值相加就能得到在时间n 上 的信号值,即 y ( n ) = y ,( n ) = 戈( n ) 2 w ( r r n ) ( 2 6 ) 如果w m ) 的傅立叶的频带受限【2 】,同时设x 。0 。“) 在时间上被正确抽样,即r 选得足 够小以避免混叠。这时不论n 为何值都能满足 2 w ( r r n ) 一( e 扣) r ( 2 7 ) 因此式( 2 6 ) 变为 y ( n ) = 工( n ) 讳7 0 。o ) r ( 2 8 ) 它表明通过对波形叠接部分的相加,利用式( 2 4 ) 综合就能准确恢复出z ) 。图2 1 表明当使用l 点h a n m i n g 窗时如何实现叠接相加,r = l 4 。 。l 一兰蔷邋兰; l 蠡 1 c 。x 伽一址) ( 2 9 ) 鲡 这里,上为基频周期,m 为常数,x 是滤波器输入信号序列,y m ) 为输出信号序列, c 为系数,随刷期变化。输出信号是输入信号的延时加权和的平均值。当延时与周 期一致时,这个平均过程将使周期性分量得到加强,而其他非周期性分量或与信号 周期不同的其他周期性分量受到抑制或消除【9 】。 显然,上述方法的关键是要精确估计出语音信号的基音周期,这在强背景噪声 干扰下是很困难的事情。在基音发生变化的过渡段,这种方法会受到严重影响。选 择 = 1 町以减小影响,但增强效果下降。m 与梳状滤波器的带宽成反比。 梳状滤波器也可以在频域实现,对语音进行傅立叶变换后可以鉴别出需要提取 的各次谐波分量,然后经傅立叶反变换恢复为时域信号。梳状滤波器不但可增强语 音信号,也可以用于抑制各种噪声干扰,包括消除同声道的其他语音的于扰。同时 对两个语音进行梳状滤波的主要困难是:存在另一个人讲话干扰时,如何跟踪并精 确估计讲话者的基音。 2 基于语音生成模型的增强算法 语音的发声过程可以模型化为激励源作用于一个线性时变滤波器,激励源可以 分浊音和清音两类,浊音由气流通过声带产生。时变滤波器则是声道的模型。通常 认为声道模型是一个全极点滤波器,滤波器参数可以通过线性预测分析得到,但若 考虑到鼻腔的共鸣作用,采用零点一极点模型更为合适。显然,如果能够知道激励 参数和声道滤波器的参数,就能利用语音生成模型合成得到“纯净”语音,这种方 法得关键在于如何从带噪语音中准确地估计语音模型的参数( 包括激励参数和声道 参数) ,这种增强方法称为分析一合成法,另一种方法则是鉴于激励参数难以准确估 1 2 第二章语音信号和噪声特征 计,而只利用声道参数构造滤波器进行滤波处理。 语音模型参数的表示可以采用不同的方法,如自回归滑动平均( a r m a ) ,自回 归( a r ) 或滑动平均( m a ) 。对语音模型参数的估计目前主要有三类:最大似然估 计( m l ) ,最大后验估计( m a p ) 和最小均方误差估计( m m s e ) 。这些方法各有优 劣,分别有其适用条件。最大似然估计通常用作非随机参数估计,而最大后验估计 和最小均方误差估计通常用作已知随机变量的先验密度函数情况下的参数估计。 文献【1 0 】提出了一种这样的语音增强方法,对语音信号采用了时变自回归模型, 用最大后验估计法从带噪语音中估计模型和信号。这种方法假设已知噪声的功率蹭 密度并用时变自回归模型估计纯净信号,然后迭代使用合适的似然函数得到语音信 号。 基于隐马尔科夫模型( h m m ) 【1 1 ,1 2 】的增强技术也是另种基于模型的增强算 法。隐马尔科夫模型能很好的表达语音信号的二阶统计特性,如语音信号的不同谱 分量和信号的时频相关性。信号的时频相关性在语音增强上得到高度应用,它加强 了信号的平滑约束条件从而使估计出的信号鲁棒性显著提高。 3 基于人耳听觉掩蔽效应的方法 人对语音的感知是各种生理和心理效果共司作用的结果,迄今其过程还没被人 们完全理解。因此,即使可懂度与人的感知方面紧密相关,前述的语音增强算法中 在处理带噪语音时还没有应用人的感知能力。近些年来人耳感知模型在音频编码的 成功应用促使人们试图将类似的方法用于语音增强。利用人耳特性的研究已经在噪 声抵消和语音增强等领域得到应用。当两个能量不等的声音作用于人的听觉系统时, 能量较高的信号可以使较低的信号不易察觉,这就是人耳听觉系统的掩蔽效应。应 用听觉掩蔽效应进行语音增强,语音信号能够掩蔽与其同时进入听觉系统的一部分 能量较小的噪声信号,而使得这部分噪声不为人感知,利用一个功率谱域的基于听 觉掩蔽门限的不等式准则【1 3 】,动态选择一个参数自适应变化的非线性函数估计语 音短时谱幅度从而实现语音增强。这种方法在进行语音增强时,不需要把噪声完全 抑制掉,只要使残留的噪声信号不被人感知即可,所以这样在消噪的同时可以减少 不必要的语音失真。但是噪声掩蔽门限的计算是在纯净语音基础上得到的,在实际 中一般只能用带噪语音来估计掩蔽门限,这样估计的结果误差很大。 4 基于短时谱幅度估计的方法 语音是非平稳随机过程,但在1 0 3 0 m s 的分析帧内可以近似看成是平稳的。如 果从带噪语音短时谱中估计出“纯净”语音的短时谱,即可以达到增强的目的。人 耳对声音频谱的相位不敏感,因此可以只将估计的重点放在短时谱幅度上而不考虑 信号的相位,并且只估计信号的谱幅度比同时估计幅度和相位简单的多。短时谱估 计语音增强方法大致可分为两类,第一类将语音信号分成一帧帧连续的信号,在频 第二章语音信号和噪声特征 域上从带噪语音中减去在语音停顿期间估计出噪声谱,谱减法就是这类方法的代表。 第二类是让带噪语音通过一个滤波器来消除噪声,如w i e n e z 滤波器法。 谱减法是一种最常用的基于短时谱幅度估计的语音增强方法,也是本文采用的 方法的基础。在第3 章将对其作详细讨论。 2 6 语音增强效果的评测方法 语音增强的效果可以用主观测量或客观测量来评价。主观测试方法有:平均意见 得分( m o s ) 、判断韵字测试( d r t ) 和判断满意度测试( d a m ) 等f 1 4 ,1 5 1 。 主观评定方法符合人类听话时对语音质量的感觉,目前得到了广泛的应用。其 中,m o s 采用五级评分标准。参加测试的实验者在昕完所测语音后,从五个等级中 选择某级作为他对所测语音质的评定。全体实验者的平均分就是所测语音质量的 m o s 分。由于主观和客观上的种种原因,每次测试所得的m o s 分会有波动。为了减 小波动的方差,除了参加测试的实验者人数要足够外,所测语音材料【乜要足够丰富, 测试环境也要尽量保持相同。 。 d r t 是反映清晰度或可懂度的一种测试方法,它主要用于低速率语音编码的质 量测试,因为这时可懂度己成为主要问题。这种测试方法使用若干对同韵母进行测 试。测试中,让受试者每次听到一对韵字中的某个音,然后让他判断所听到的音是 哪一个字,全体实验者判断正确的百分比就是d r t 得分。 d a m 是对话音质量的综合评估,它是在多种条件下对话音质量可接受程度的一 种度量,也采用百分比平分。 至于客观测试方法人们可以直接观测增强语音的时域波形或频域波形,电可以 给出客观的数值度量:通常采用原始语音信号功率与归一化后的增强语音和原始语 音之羞的功率比值来度量,简称信噪比。另外,加权信嗓比、平均分段信噪比都是 建立在度量均方误差的基础上的。其特点是计算简单,但是并不完全反映人对语音 质量的感觉。还可以采用坂仓( i t a k u r a ) 距离来测试,这对于作为声码器或某些识别系 统预处理的语音增强算法来说是一个更为重要的度量。对于语音识别预处理而言, 识别率是更为直接也是最终的度量。 1 4 第三章谱减法的改进形式和人耳掩蔽效应 第三章谱减法的改进形式和人耳掩蔽效应 在语音信号处理系统中,语音增强算法除了要消除噪声,提高可懂度外,另一 个重要指标就是保证系统的实时性。这就要求增强算法具有较低的复杂度并且易于 实现。为达到上述目标,人们做了大量研究,提出了很多算法。谱减法就是其中一 种性能非常好的算法,一直是人们关注的焦点,并得到广泛应用。但是,谱减法也 有它的缺点,经过谱减法增强后的语音会带有大量“音乐噪声”。 3 1 基本谱减法 谱减法是。一种从带噪信号谱中减去估计噪声平均谱,从而恢复信号的幅度谱或 功率谱的方法 1 6 】。这是一种在频域上处理的方法。噪声谱的估计更新是在只有噪 声而没有信号的时候进行的。假设噪声是平稳的或变化缓慢,噪声谱在更新期间的 变化不显著。要从短时幅度谱恢复时域信号,需要综合带噪信号的相位信息,通过 傅立u 逆变换从频域变换到时域。带噪信号的相位无须修改,这是因为人耳对语音 的相位不敏感,并且估计信号的相位是非常困难的。 假话例为离散带噪语音信号,s 例和d 分别为纯净语音信号和加性噪声信号, 二者相互独立,则带噪信号可以表示为: y ( 儿) = s ( h ) + d ( n ) 一o 。 l o d b ) 时应用得很好。然 而当噪声增加时,掩蔽阈值太低无法完全掩蔽残留噪声。因此,该应用是基于以下 考虑的:如果掩蔽阈值较高,残留噪声会很自然地被掩蔽而使人耳听不见,所以没有 必要减小它来使失真尽可能地低。在这种情况下,过减参数口和口都取它们的最小 值。但当掩蔽阈值较低,残留噪声对人耳的影响很大,就有必要去减少它。下式表 示了谱减参数自适应调整的关系: 第三章谱减法的改进形式和人耳掩蔽效应 a j ( ) = ,【口,口咖。,l ( 山) ( 3 4 0 ) 卢,( m ) = f f l 。卢。,五( 珊) ( 3 4 1 ) 其中i 为帧指数,a 。卢。和“。;,卢分别为过减因子和频谱阶的最小值和最大 值,正 ) 是当前帧的掩蔽阈值,f 是求减少最大残留噪声的函数。恰当的选择如下 参数,即可在消除残留噪声和减小语音失真问找到平衡点: 口。= 1 , a = 6 ;( 3 4 2 ) 卢。;。= 0 ,卢。= o 0 2 ; ( 3 4 3 ) ”彳5 2 ( 3 4 4 ) 36 结合人耳感知特性加权

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论