（通信与信息系统专业论文）有色背景噪声环境下语音增强算法的研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：63 大小：2.15MB 积分：0 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

（通信与信息系统专业论文）有色背景噪声环境下语音增强算法的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要语音增强的研究是语音信号处理理论的一个重要分支，它可以用来消除噪声干扰，提高语音的可懂度，为语音编码、语音识别等应用提供预处理等。一直以来语音增强都是人们研究的热门课题，有着十分重要的理论研究和实际应用的意义。语音和噪声的特性是语音增强的基础知识，本论文首先对语音和噪声的特性进行了总结，提出了一种简化的语音生成模型。然后系统的研究了谱相减、维纳滤波、最小均方误差、基于人耳掩蔽效应的增强算法等语音增强算法，对这些算法，针对不同的噪声环境，进行了计算机仿真实验。在此基础上，本文提出了基于高阶累积量进行参数估计的增广卡尔曼滤波语音增强算法，该算法提出了将高阶累积量应用到语音增强中，利用高阶累积量对高斯噪声不敏感的特点，用其进行参数估计，克服传统的卡尔曼滤波器语音增强算法参数估计不准确的问题；同时也利用卡尔曼滤波器在平稳和非平稳噪声干扰下都能正常工作的优点，克服谱相减等算法在非平稳的有色噪声干扰下语音增强效果下降的缺陷。新算法结合了高阶累积量和卡尔曼滤波的优点，从理论分析和实验结果都可以证明，该算法很好的消除了噪声干扰，提高语音质量和可懂度。本文还针对算法的实际应用，设计了实现算法实际应用的硬件平台。利用t i 公司的t m s 3 2 0 c 6 7 1 1 d s p 芯片，和f p g a 芯片搭配，设计了一个可以实时应用的语音增强卡。关键词语音增强；高阶累积量；卡尔曼滤波华南理工大学硕士学位论文 a b s t r a c t s p e e c he n h a n c e m e n tr e s e a r c hi s a ni m p o r t a n tp o r t i o no ft h et h e o r yo fs p e e c h s i g n a lp r o c e s s i n g i ti sa l w a y su s e dt oc a n c e lt h en o i s e ，i m p r o v et h ei n t e l l i g i b i l i t yo f s p e e c ha n dp r o v i d ep r e t r e a t m e n tf o rs p e e c hc o d e r sa n ds p e e c hr e c o g n i t i o n s p e e c h e n h a n c e m e n tr e s e a r c hh a sa t t r a c t e dag r e a td e a lo fi n t e r e s t i n gi np a s tt w od e c a d e s s o i th a ss i g n i f i c a n tm e a n i n gt or e s e a r c hs p e e c he n h a n c e m e n ta l g o r i t h m s t h ec h a r a c t e r i s t i co fs p e e c ha n dn o i s ei st h eb a s i ck n o w l e d g ef o rs p e e c h e n h a n c e m e n t i nt h i sp a p e r ，w es u m m a r i z et h e i rc h a r a c t e r i s t i c ，a n dp r e s e n ta s i m p l i f i e db u i l d i n g m o d e lo f s p e e c h t h e n ，d i s c u s ss o m es p e e c h e n h a n c e m e n t a l g o r i t h m ss u c h a s s p e c t r a ls u b t r a c t i o n ，w i n n e r f i l t e r ，m m s ea n ds p e e c h e n h a n c e m e n tb a s e do nh u m a na u d i t o r ym a s k i n gp r o p e r t i e s ，a n ds oo n s i m u l a t et h e s e a l g o r i t h m sw i t hm a t l a bs o f t w a r e i nt h i sb a s i c ，w ep r e s e n tas p e e c he n h a n c e m e n t a l g o r i t h m sw i t hk a l m a n - f i l t e rb a s e do nu s i n gh i g h e r - o r d e rc u m u l a n tt oe s t i m a t et h e p a r a m e t e r o f s p e e c h t h i sa l g o r i t h m si n t r o d u c e s t h e h i g h o r d e r t o s p e e c h e n h a n c e m e n t ，u t i l i z et h ea d v a n t a g ei m m u n et og a u s s i a nn o i s eo ft h eh i g h e r o r d e r c u m u l a n t ，c a r r yo nt h ep a r a m e t e re s t i m a t e ，t oo v e r c o m et h ei n a c c u r a t ee s t i m a t e p a r a m e t e rp r o b l e mt h a tb r o u g h tb yt h et r a d i t i o n a ls p e e c he n h a n c e m e n ta l g o r i t h m s w i t hk a l m a n - f i l t e r ；a tt h es a m et i m e ，u t i l i z et h ek a l m a n - f i l t e rc a nw o r kw e l l r e g a r d l e s st h eb a c k g r o u n dn o i s ei ss t e a d yo rn o t ，t oo v e r c o m et h ed i s a d v a n t a g et h a t t h e s p e e c hq u a l i t yd r o p sn o t a b l y a f t e rt r a n s a c t e db yt h ea l t e r n a t i v e s p e e c h e n h a n c e m e n ta l g o r i t h m s t h en e wa l g o r i t h mh a sc o m b i n e dt h ea d v a n t a g et h a tt h e h i g h e r o r d e rc u m u l a n ta n dk a l m a n f i l t e r ，i tc a nb ep r o v e df r o mt h e o r ya n a l y s i sa n d e x p e r i m e n t a lr e s u l tt h a tt h i sa l g o r i t h m sc a ne l i m i n a t en o i s e ，i m p r o v eq u a l i t ya n d i n t e l l i g i b i l i t yo f t h es p e e c h i nt h i sp a p e r ，w ed e s i g nt h eh a r d w a r ep l a t f o r mw h i c hr e a l i z e sa l g o r i t h mp r a c t i c a l a p p l i c a t i o n w i t ht h et m s 3 2 0 c 6 7 1id s pc h i po ft ic o m p a n y ，m a t c hw i t hf p g a c h i p ， w ed e s i g nas p e e c he n h a n c e m e n tc a r dt h a tc a nb eu s e di nr e a lt i m e k e y w o r ds p e e c he n h a n c e m e n t ；h i g h e r - o r d e rc u m u l a n t ；k a l m a n - f i l t e r i i 华南理工大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名： _ 7i 审忉p 日期：印一衫月岁日日期：汐( 年痧月日 _ o 学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口，在年解密后适用本授权书。本学位论文属于不保密口。 ( 请在以上相应方框内打“、，”) 作者签名：导师签名：力瞻尹修矽日期：毋砗乡月廖目日期：年月日第一章绪论 1 1 语音增强的作用随着语音通通信的飞速发展，人们对语音通信的质量提出了更高的要求，怎样在低信噪比的环境下进行高质量的语音通信；怎样解决受噪声污染的带噪语音信号进行语音编码，语音识别所遇到的性能急剧下降的问题。语音增强技术就是一个很好地解决途径。它有很重要的使用价值，已经在语音处理系统，通信多媒体技术，数字家电等领域取得越来越广泛的应用。语音增强的一个主要目标，就是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常是随机的，从带噪语音中提取完全纯净的语音几乎是不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪声，使听者乐于接受，没有疲劳感，这是一种主观测量；二是提高语音的可懂度，这是一个客观测量。但这两个目的往往不能兼得，所以实际应用中总是视具体情况而有所侧重的。 1 2 语音增强的研究现状语音增强的发展，是伴随数字信号处理技术和集成电路技术的发展而不断前进的。由于数字信号处理技术在7 0 年代的成熟，对语音增强的研究也曾形成了个研究高潮，取得了一些基础性成果。进人8 0 年代后，v l s i 技术的发展才为语音增强的实时实现提供了可能。9 0 年代以后，随着数字信号处理技术的迸一步完善，并且出现了专门的用作数字信号处理的集成芯片d s p ，这些都大大的加快了语音增强的发展。现在广泛研究的语音增强技术大致可分为单通道语音增强和多通道语音增强两种，单通道语音增强指的是只用单一的通道来采集带噪语音信号，这样就没有单独的噪声信号可以利用，所有可以用来处理的信号只有带噪语音。而多通道语音增强技术指的是可以利用多个通道来进行语音采集，每个通道采集的语音有各自的特点，可以根据这些特点来设计各种滤波器组，来完成语音增强，有时还可以将背景噪声单独采集进来，这样就有了可以独立利用的噪声，便利于语音处理。由于单通道的语音信号处理具有普遍性，实现方法更困难，也比较切合实际的环境，因而成为比较流行的语音增强方法。下面将使用较多的语音增强的几种主要方法介绍如下： 1 噪声对消法噪声对消法，就是要直接从带噪语音中，在时域中或者在频域中将噪声分离出去。其最大特点是需要采集背景噪声作为参考信号，参考信号准确与否直接决定着噪声对消法的性能。在采集背景噪声时，往往采用自适应滤波技术，以便使参考信号尽可能接近华南理工大学硕士学位论文带噪语音中的噪声分量。其缺点也很明显，就是在真实环境中，要采集到纯净的背景噪声是非常困难的。 2 谐波增强法由于语音中的浊音具有明显的周期性，我们自然可以利用这种周期性来进行语音增强。这时可采用自适应梳状滤波器来提取基音及其谐波分量，抑制其他周期性噪声和非周期的宽带噪声。这方法的主要难点就是：能否准确地估计出基音周期以及能否及时跟踪基音变化。当环境噪声比较强，或者在基音发生变化的过渡段，跟踪基因周期的轨迹就变得非常困难，这也是这一方法的主要缺陷。 3 基于语音生成模型的增强算法语音的发声过程可以建模为个线性时变滤波器。对清音和浊音分别采用不同的激励源。我们将在第二章介绍语音的生成模型，将语音生成模型简化成一个全极点模型。基于语音生成模型可以得到一系列语音增强方法，比如时变参数维纳滤波及卡尔曼滤波方法。维纳滤波在白背景噪声下效果很好，卡尔曼滤波能有效消除有色噪声。这一算法的关键在于如何从带噪语音中准确地估计出语音和噪声的模型参数，本论文将对这一方法给出详细的论述。 4 基于短时谱估计的增强算法语音是短时平稳的信号，我们可以对语音进行短时频谱分析，如果能在频域得到纯净语音的频谱，则可以由这一频谱恢复纯净余音。基于语音短时谱估计的增强方法种类繁多，主要有谱相减法【1 1 1 2 1 、最小均方误差法 3 1 1 4 1 等。近些年来，人们尝试将小波变换陋1 ，神经网络 6 】，h m m 7 1 等技术应用到语音增强中，取得了一些成效，同时随着人们对听觉系统的升入了解，基于听觉掩蔽效应的方法也取得了较大的成功。 1 3 研究课题的来源本课题来源于信息产业部第七研究所和华南理工大学的合作科研项目战术电台综合入口设备，是其中的一个子课题。我军现在正在规划和实施三军协同无线电通信。当单工用户与其他用户之间进行通信时，如何保证通话的正确性、完整性与连续性；在野战环境下，要求语音能可靠、有效的接收和传输，以保证在恶劣的环境噪声下不会产生误操作，这就提出了对语音增强的需要。正是基于这样的实际需要，七所和华南理工大学音视频处理实验室开展了合作研究项目，本文课题有色噪声下语音增强的研究就是其中的一个重要部分。课题要求我们开发出一种增强技术，使得在有色噪声干扰下能达到6 d b 的语音增强效果，同时保证语音质量不会恶化。 2 第一章绪论 1 4 本论文所做的工作 1 总结了语音和噪声的特性，对语音生成模型进行了简化，使其有利于用来进行语音增强的处理。 2 在低信噪比有色噪声污染的条件下，用m a t l a b 仿真软件对谱相减，m m s e ，维纳滤波，基于听觉掩蔽效应等语音增强方法进行了算法的仿真实验，总结了其优点和不足。 3 将高阶累积量应用到语音增强中，用改进的卡尔曼滤波方法进行语音增强，取得了比较满意的结果。同时与本文所述的其他方法进行了比较，突出了基于高阶累积量参数估计的增广卡尔曼滤波语音增强算法的优点。 4 搭建了语音增强算法实时实现的硬件平台。华南理工大学硕士学位论文第二章语音增强的基础知识语音增强是一个前沿的，专业的课题，它不仅要用到信号处理的许多知识，而且包括声学，生理学方面的许多知识。下面对语音增强要用到的一些知识进行总结和归纳。 2 1 语音信号的特性 1 语音是时变的、非平稳的随机过程人类发音系统的生理结构的变化速度是有一定限度的。在一段时间内( 1 0 3 0 r e s ) 。人的声带和声道形状是相对稳定的，可以认为其特征是不变的。因而语音的短时频谱具有相对稳定性。在语音分析中，可利用语音短时谱的这种平稳性。 2 语音可分为清音和浊音两大类浊音在时域上呈现出明显的周期性，在频域上有共振峰结构，而且能量大部分集中在较低频段内。而清音段没有明显的时域和频域特征，类似于白噪声。在语音增强研究中可利用浊音的周期性特征，采用梳状滤波器提取语音分量或者抑制非语音信号，而清音则难以与宽带噪声区分。 3 语音信号可以用统计分析特性来描述由于语音是非平稳的随机过程，所以长时间的时域统计特性在语音增强的研究中意义不大。语音的短时谱幅度的统计特性是时变的，只有当分析帧长趋于无穷大时，才能近似认为其具有高斯分布。将高斯模型应用于有限帧长只是一种近似的描述，语音信号短时的高斯特性并不很明显。在宽带噪声污染的语音增强中，可将这种假设作为分析的前提。 2 2 语音的感知特性及作用语音感知问题是一个涉及交叉学科的复杂的问题，有待进一步研究。但是，了解其中机理将大大有助于语音增强技术的发展。人们对其的研究也取得了一些进展，目前已有一些有用的结论可以应用于语音增科8 1 ： 1 人耳对语音的感知是通过语音信号中各频谱分量幅度获取的，对各分量的相位则不敏感。 2 人耳对频谱分量强度的感受是频率与能谱的二元函数，响度与频谱幅度的对数成正比。 3 人耳对频率高低的感受近似与该频率的对数值成正比。 4 人耳有掩蔽效应，即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声音强度与频率的二元函数。对频率临近分量的掩蔽要比频率相差较大的分量有效得多。 4 第二章语音增强的基础知识 5 短时谱中的共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要，因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。 6 人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音。 2 3 噪声的特性噪声来源于实际的应用环境，对于不同的环境，噪声往往是不同的，因而噪声特性可以说是变化无穷。噪声可以是加性的，也可以是非加性的。对于非加性噪声有些可以通过变换而转变为加性噪声。例如，乘性噪声或卷积噪声可以通过同态变换，而成为加性噪声。又如，某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。本文实际讨论的噪声都是加性的噪声，即假设信号和噪声是无关的。加性噪声大体上有：周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰等。 1 周期性噪声其特点是具有许多离散的线谱。主要来源于发动机等周期性运转的机械、电气干扰等，电源的交流噪声，也属于周期性噪声。由于噪声具有周期特性，我们可以考虑用梳状滤波器予以抑制，也就是将含噪语音的时间序列作傅立叶变换，得到他的频谱，由于噪声频谱的周期性，很容易用一个周期性的滤波器来滤掉噪声。然而，实际环境中产生的周期性噪声并非简单地只含线谱分量，而是有许多窄带谱组成。而且，往往是时变的，并与语音信号频谱重叠，必须采用自适应滤波的方法才有可能自动识别和区分噪声分量。 2 脉冲噪声脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于爆炸、撞击和放电等。由于脉冲噪声的特性，消除脉冲噪声通常可以在时域进行，根据带噪语音信号幅度的平均值确定阀值，当信号幅度超出这一阀值时，判别为脉冲噪声。然后对它进行适当的衰减，甚至完全消除；也可以根据相邻信号样值通过内插的方法将脉冲噪声在时域上进行平滑，这是一种直接消除的方法。 3 宽带噪声宽带噪声的来源很多，热噪声、气流( 如风、呼吸) 噪声及各种随机噪声源，量化噪声也可是为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠，因而消除它最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声，通常可以认为是白色高斯噪声。不具有白色频谱的噪声，可以先进行预白化处理。对于非平稳的宽带噪声，情况就更为复杂一些，有时候要求跟踪噪声的变化，得到噪声的特性这往往很困难。 4 同声道语音干扰人耳可以在两人以上讲话环境中分辨出所需要的声音，这种分辨能力是人体内部语华南理工大学硕士学位论文音理解机理具有的一种感知能力。人类的这种分离语音的能力称为“鸡尾酒效应”，这种能力来源于人的双耳输人效应。但当多个语音叠合在一起，在单信道传输时，双耳信号因合并而消失，这就造成了同声道干扰。噪声对发音的背景的影响主要表现在：噪声破坏了语音信号原有的声学特征和模型参数，模糊了不同语音之间的差别，造成了语音质量下降，可懂度降低，强噪声还会使人疲劳。不仅如此，强噪声环境还对讲话人产生影响，使讲话人改变了在安静环境或低噪声环境中的发音方式从而改变了语音的特性参数，这称为l o m b a r d 效应，这些会给语音处理，特别是对语音识别系统有很大影响。 2 4 语音信号产生模型为了便于论文的后续章节的研究，我们在这里建立一个离散时域的语音信号产生模型，这个模型是非常重要的，它是一些语音处理分析的基础。图2 1 显示的就是这一语音信号的产生模型图：图2 1 语音生成模型图 f i 9 2 - lt h eb u i l d i n gm o d e lo f s p e e c h 可以看出图2 - l 给出了语音产生的离散时域模型，它包括三个部分：激励源、声道模型和辐射模型。激励源可分为分浊音和清音两个分支，按照浊音和清音开关所处的位置来决定产生的语音是浊音还是清音。在浊音的情况下，激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为n 的脉冲序列，即每隔n 点就有一个样值为1 ，而其它样值点皆为0 。为了使浊音的激励信号具有声门气流脉冲的实际波形，还需要使上述的冲激序列通过一个声门脉冲模型滤波器，其z 域传输函数为g ( z ) 。如果令： 1 g 2 矿雨可丽( 2 - t ) 其中g 。和g ：都很接近于1 ，那么由之形成的浊音激励信号的频谱很接近于声门气流脉冲的频谱。乘系数爿，的作用是调节浊音语音信号的幅度和能量。与浊音情况不同。清 6 第二章语音增强的基础知识音的激励信号由一个随机噪声发生器产生。可设定其平均值为0 ，其自关函数是一个单位冲激函数。这表明它的任何两个不同样点都不相关旦其均方差值为l 。此外还假定它的幅度具有正态概率分布( 高斯分布) 。同样乘系数4 ，的作用是调节清音语音信号的幅度和能量。声道模型v ( z ) 给出了离散时域的声道传输函数，把实际声道作为个变截面声管加以研究，采用流体力学的方法可以导出，在大多数情况下它是一个全极点函数，v ( z 1 可以表示为：矿( z ) ：士( 2 - 2 ) 叩1 j = l 这里，把截面积连续变化的声管近似为p 段短声管的串联，每段短声管的截面积是不变的。p 称为这个全极点滤波器的阶。显然p 值取得越大，模型的传输函数与声道实际传输函数的吻合程度越高。但是，对大多数实际应用而言，p 值取8 1 2 就足够了。辐射模型r ( z ) 与嘴型有关，我们可以将r ( z ) 大约的表示为： r ( z ) = 1 ( 1 一陀1 ) ，“l ( 2 3 ) 在这个模型中，除了g ( z ) 和r ( z ) 保持不变以外，其他参数都是随时间而变化的，由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数，在1 0 3 0 m s 的时间间隔内可以认为它们保持不变，因此语音的短时分析帧长一般取为2 0 m s 左右。对于激励源参数，大部分情况下这一结论也是正确的，但有些音的变化速度特别快，例如塞音或塞擦音的爆破段，2 0 m s 的时间间隔就过长，这时取5 m s 的间隔更为恰当。此外，这个模型将语音信号截然分为受周期脉冲激励和噪声激励两种情况，与实际情况也不完全符合。如果将图2 - 1 模型中的激励源改为两种激励按任意比例相叠加，这将更加符合实际情况。除了上面讨论的一些限制以外，这个模型的局限性主要表现在它的传输函数不包含有限传输零点，而像鼻音、擦音这样一些音的声道传输函数中是包含有限零点的。一种解决间题的方案是在v ( z ) 中引入若干有限传输零点，但是这将使模型复杂化。另一种方法是适当提高阶数p 使得全极点模型能更好地逼近具有此种零点的传输函数。根据这个模型，离散时域语音信号s ( n ) 的z 变换可以用一个统一的公式来计算： s ( z ) = a e ( z ) h ( z )( 2 4 ) 这一公式有清音和浊音的区别，当激励是浊音时，e ( z ) 是周期脉冲的z 变换。而激励是清音时，e ( z 1 表示的是一个随机噪声的z 变换。上述模型在实际应用中，还可以进一步简化，图2 2 给出这个模型的一种特殊形式，它适用于线性预测分析的讨论。在此情况下，辐射、声道以及声门激励的组合谱效应用一个时变数字滤波器来表示，其稳态系统函数的形式为： 7 华南理工大学硕士学位论文日( z ) ：( 2 - 5 ) 1 一即1 这个模型的主要优点在于可以用线性预测分析法对增益参数g 和滤波器系数进行非常直接而且高效率的计算。在以下的章节中，我们所说的语音生成模型都是基于刚才提到的简化的生成模型。图2 2 简化的语音模型生成图 f i 9 2 - 2t h es i m p l i f i e db u i l d i n gm o d e lo fs p e e c h 8 第三章基本的语音增强算法仿真与比较由于噪声的多样性，不可能找到一种语音增强方法，使得它适合所有的环境。语音增强方法的研究已经经过了近4 0 年的发展，出现了许多针对不同噪声环境的语音增强方法，有一些方法，如自适应噪声消除法，周期性噪声、脉冲噪声的消除方法、谐波增强法等，它们或是主要针对一种特别的噪声，或是对噪声和语音要求比较严格，应用具有一定的针对性，而基于语音短时特性和语音生成模型的方法，由于效果良好，适应性强，得到了广泛的应用。近年来得到利用的一些新方法，如基于听觉掩蔽效应的方法等，引起了人们的广泛关注。在这一章中，我们主要讨论的就是基于语音短时特性和语音生成模型的方法，同时也包括基于听觉掩蔽效应的语音增强方法，对这些算法进行仿真，对它们增强的结果进行比较，同时分析其不足之处，面对于自适应噪声消除法，周期性噪声、脉冲噪声的消除方法，谐波增强法等我们不进行叙述。我们主要采用信噪比来衡量算法的性能，同时用主观视听作为辅助方法。使用的原始语音材料为一段长约3 1 5 秒的女声普通话，采样频率为8 k h z ，由于白噪声的增强算法已经达到了比较理想的效果，在这里我们主要针对有色噪声进行实验。下面各节就来讨论这些增强算法。 3 1 语音幅度谱相减法 3 1 1 一般幅度谱相减法语音是非平稳随机过程，但在l0 m s 3 0 m s 的短时分析帧内可近似看成是平稳的。如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱，即可达到语音增强的目的。由于入耳对语音的感知主要是通过语音信号中各频谱分量的幅度获得的，对各分量的相位则不敏感。因此，此类语音增强方法主要是针对短时谱幅度。语音谱相减法的基本思想就是利用人耳对语音相位具有的不敏感性，在估计出噪声频谱和得到带噪语音频谱之后，可以直接从带噪语音幅度谱中减去噪声的幅度谱并将其作为语音的幅度谱，而用带噪语音的相位来近似语音的相位，用它们来恢复“纯净”语音的频谱，再经过傅立叶变化得到纯净语音。设带噪语音模型为 y ( 以) = s ( 船) + d ( h )( 3 - 1 ) 式中y ( n ) 是带噪语音，s ( n ) 是纯净语音，d ( n ) 是噪声。对式( 3 1 ) 两边进行傅立叶变换，得 = s 女+ 域( 3 - 2 ) 其中k ，瓯，d 。分别是y ( n ) ，s ( ”) ，d ( n ) 的傅立叶变换的系数，由上式可得：华南理工大学硕士学位论文附= l s 。1 2 + 1 4 1 2 + s k d k + 瓯b ( 3 - 3 ) 由于j ( ”) 与d ( ”) 独立，所以与d k 独立，而砬服从零均值的高斯分布，所以有 e i y k l 2 】_ e i s , i2 】+ e i d k 2 | 】( 3 - 4 ) 对于一个分析帧内的短时平稳过程，有 l 1 2 = l s , 1 2 + 五( 七) ( 3 - 5 ) 其中 ( ) 为无语音时l 坟1 2 的统计平均值。由此可得原始语音信号幅度谱的估计值： i t i = m 2 - e i d , 1 2 i = 1 k | 2 一九( 女) i ( 3 6 ) 如果假设y ( k ) 具有高斯分布，则谱相减法相当于对s ；做最大似然估计。实际计算中，为防止l 耳1 2 一 ( 七) 1 ，即有意识地多减去一些，这样可以更好地相对突出语音频谱。口的设定也是为了达到相同的效果。这样就可以得到改进的谱相减法的幅度估计值等式为：酬= 慨j 。一觑：( ) p ( 3 8 ) 其算法原理框图如下： 1 0 第三章基本的语音增强算法仿真与比较带噪语音增强语音图3 1 语音谱相减法原理图 f i 9 3 - lt h ep r i n c i p l ef i g u r eo fs p e c t r a ls u b t r a c t i o na l g o r i t h m s 通过仿真实验可以看到，引入的口和两个参数后，通过适当地调整口和的取值，能够获得比一般谱相减法更好的语音效果，适当的消除音乐噪声。除了上述的谱相减算法外，人们还尝试了在倒谱域进行谱相减语音增强算法，实验表明，取得了不错的增强效果【9 】。基于谱相减及其改进形式的语音增强算法因为其运算量较小，容易实现实时处理，且增强效果也较好，得到了广泛关注和深入研究。但是，由于需要对噪声进行估计，必须对噪声的方差有先验知识并假设嗓声是平稳的，而这一般在实际情况下必须靠在语音信号静默期进行噪声估计，当噪声为平稳噪声时，可以得到比较好的增强效果，而实际情况下噪声往往会是时变的，这样就会导致对噪声估计的错误，使得谱相减语音增强算法的性能急剧下降。下一节，我们主要通过m a t l a b 仿真实验来检验谱相减语音增强算法的性能。 3 1 3 谱相减语音增强算法的仿真实验由上一节的谱相减的基本原理，我们可以总结出幅度谱相减语音增强算法的实现步骤如下： 1 对含噪语音进行加窗处理，得到加窗后的语音y 。( h ) 。 2 对加窗处理后的语音做端点检测，在无语音段计算出噪声的统计平均值一( 女) a 3 对y 。( 行) 做f f t 变换，得到其频谱k ，并计算其幅度谱k 1 2 和相位谱吼，相位b 就作为纯净语音的相位。 4 根据式( 3 7 ) 得到1 文1 ，如果是改进的谱相减法，则利用式( 3 8 ) 来计算j 文，由1 文l 和华南理工大学硕士学位论文吼可以求得纯净语音的频谱。 5 对& 作i f f t 变化后，就可以得到纯净语音信号s ( n ) 。根据上面的谱相减语音增强算法的步骤，进行计算机模拟实验，如本章开始部分所述，选择的含噪语音为信噪比5 d b 的一段女生普通话，进行有色噪声的情况下的实验，图3 2 就是谱相减语音增强算法的原始语音和增强后的语音信号的波形对比图；图3 2 幅度谱相减算法仿真结果图 f i 9 3 2t h e s i m u l a t i o nr e s u l to fs p e c t r a ls u b t r a c t i o na l g o r i t h m s 从图中可以看出，在有色噪声污染条件下，谱相减语音增强算法的结果并不理想，主观试听后发现，其音乐嗓音比较严重。这主要是由于对有色噪声的估计已经不再准确，在实验时，只是取语音间歇期的噪声信号来估计噪声，面在语音和噪声重叠期，噪声的特性和语音问歇期相比已经具有不同的频谱了。对消除音乐噪声，人们已经进行了许多实验，如有人提出从音乐噪声的特点出发，认为音乐噪声是一种高频噪声，同时其能量在谱相减算法后会降低，这样可以通过短时过零率和短时能量组合成加权函数进行去噪【l o i 。还有人提出如能得到音乐噪声的估计帧，就能消除音乐噪声n 】。而改进的谱相减算法对于消除音乐噪声具有一定的效果，为了和一般的谱相减算法进行对比，我们也进行了改进的谱相减语音增强算法的计算机仿真实验，其仿真结果如下图3 3 所示：第三章基本的语音增强算法仿真与比较图3 3 改进的幅度谱相减算法仿真结果图 f i g3 - 3 t h e s i m u l a t i o nr e s u l to f i m p r o v e ds p e c t r a ls u b t r a c t i o na l g o r i t h m s 从实验结果可以看出，由于算法的本质没有改变，增强的效果变化很小，在后面的章节的对各种语音增强的算法的对比中可以看出，信噪比有了小幅度提升。多次调节t t g 和口的值，主观试听后发现对音乐噪声的减弱有一定的帮助，但是不能完全消除音乐噪声。 3 2 基于语音生成模型的最大后验概率估计法在第二章中提到了语音生成模型，根据生成模型可以将纯净语音信号表示为：上 s ( n ) = a k s ( n 一七) + g u ( n ) ( 3 - 9 ) - 1 a 。是l p c 线性预测系数，论文给出了在不同的已知条件下对参数a 。的四种估计情况，对应不同的估计情况，将会产生不同的分析方法。在这里选取其中一种来进行推倒，从而得出一种新的语音增强方法。 3 2 1 基本思想设带噪语音信号为y ( 胛) = s ( n ) + d ( n ) ，其中d ( n ) 为独立的加性高斯白噪声，方差为仃：。用后验概率p ( d i y ) 最大为准则，来求解日。y 是一帧带噪语音的全部样点值构成的矢量。先假设仃参数的统计分布为联合高斯分布，如果只在这种情况下求解p ( n l y ) ，可以证明，求解过程中后将导致组非线性方程，而非线性方程的求解将是十分困难的。华南理工大学硕士学位论文为此，现在可以考虑一个次最优的过程，即将上述最优化过程分为两步：第一步在假设 s 已知的情况下，按最大后验概率准则估计出a ；第二步在已知a 与y 的情况下，按最大后验概率准则估计出s 。这事实上意味着一种迭代过程。文献【8 ，3 9 1 3 9 3 1 将会证明这种迭代过程能够逐步增大后验概率p ( a ，s l y ) ) ，最终将收敛到p ( a ，s l y ) 的一个局部极大值点。事实上这样一种准最优化过程被分为两个步骤：第一步，即给定s 估计y 的过程，可以证明本质上等同于标准l p c 分析；而最优化过程的第二步，即求s 使p ( s l y ，订) 最大，就是求解下面的方程组：空塑苎型：0 r 3 1 0 ) a r t ( j ) 等式( 3 - l o ) 所得到的方程组是一组线性方程组，但是，由于方程组数目比较大，求解时运算量仍较大。考虑到p ( s l y ，口) 是联合高斯分布，因此m a p 估计等效于最小均方误差 ( m m s e ) 估计。而当语音帧长趋近于无穷大时，m m s e 估计又趋近于一个非因果的维纳 ( w i e n e r ) 滤波，其传递函数为：脚，= 意 b 式中的只( ) 就是语音s ( n ) 的功率谱，用l p c 求出a 。后，只( ) 可通过下式求解： f 3 1 2 ) g 是信号增益参数，其求解过程将在下一章详细叙述。这样一来，就可以用非因果的维纳滤波器进行语音增强，这也就是基于最大后验概率的增强方法。 3 2 2 仿真算法和结果在这一节给出基于最大后验概率的非因果维纳滤波语音增强算法的算法步骤和仿真结果，首先给出算法步骤： 1 用l p c 参数估计方法估计a 。； 2 计算出g ，根据式( 3 ，1 2 ) 计算语音信号的功率谱只( c o ) ； 3 根据等式( 3 1 1 ) 构造非因果维纳滤波器对y 进行滤波，得到处理后的语音s f n ) ； 4 将j ( h ) 作为带噪语音重复步骤l 一3 ，这样迭代3 次后结束循环，新得到的s ，( ”) 就是增强后的语音信号。如图3 4 给出了最大后验概率估计法原理图，在估计过程中既得n t 全极点滤波器预测系数，又得到了增强后语音。 1 4 第三章基本的语音增强算法仿真与比较 i 日图3 4 维纳滤波法原理框图 f i 9 3 4t h ep r i n c i p l ef i g u r eo f w i e n e rf i l t e r 对算法进行计算机仿真实验，所用的带噪语音与上节的谱相减法相同，m a t l a b 仿真后的语音增强结果图如下所示：图3 - 5 高斯色噪声下最大后验概率估计法仿真结果图 f i 9 3 5t h es i m u l a t i o nr e s u l to ft h em a x i m u mp o s t e r i o r ip r o b a b i l i t ya l g o r i t h m sd i s t u r b e db y g a u s s i a nc o l o r e dn o i s e 从增强后的语音信号波形图可以看出，最大后验概率维纳滤波由于利用了语音生成模型华南理工大学硕士学位论文参数，与语音的幅度谱相减法相比，增强效果得到了改善，但是，由于维纳滤波器只有在平稳噪声条件下才能保证最小均方误差意义下的最优估计，从图中增强的语音可以看出，增强后的语音存在不平稳性，在有些时段，残留了较大的背景噪声，如果用b a b b l e 噪声做实验，则效果更加明显，下图就是b a b b l e 噪声下语音增强的效果图：图3 5b a b b l e 噪声环境下最大后验概率估计算法仿真结果图 f i 9 3 5t h es i m u l a t i o nr e s u l to f t h em a x i m u mp o s t e r i o r ip r o b a b i l i t ya l g o r i t h m sd i s t u r b e db y b a b b l en o i s e b a b b l e 噪声环境下，用最大后验概率估计算法进行增强的结果残留的噪声更明显，除了参数估计不准确的原因外，主要原因还是与维纳滤波器只能在平稳噪声环境下才能达到最优估计的效果有关。在下一章中，将详细介绍另外一种基于语音生成模型的语音增强方法，即卡尔曼滤波语音增强，它更加适合非平稳的噪声下的语音增强。 3 3 语音短时谱的最小均方误差估计算法这一节主要介绍另一种基于语音短时幅度谱的语音增强算法，相比谱相减法放弃对语音频谱的分布假设不同，本节提到的最小均方误差估计( m m s e ) 对语音的短时幅度谱要么作了一个合理的分布模型的假设，要么用概率统计的方法得到了它的分布模型。语音短时谱的最小均方误差估计算法最先由y e p h r a i m 和s f b o l l 提出，经过多年的发展，增强算法得到了不断的改进，出现了帧间约束的最小均方误差( m m s e ) 语音增强算法【i ”，使得增强的效果也得到了提高。下面分别对这些算法进行阐述。 1 6 第三章基本的语音增强算法仿真与比较 3 3 1 一般的m m s e s t s a ( s h o r tt i m es p e c t r a la m p l i t u d e ) 算法设带噪语音信号y ( 疗) = j ( 珂) + d ( 疗) ，j ( ”) ) ，d ( n ) 分别代表纯净语音和噪声信号。用圪= r 。e x p ( j o 女) ，s i = a - e x p ( ，彘) 分别表示带噪信号，噪声和纯净语音的第k 个频谱分量。我们的任务是由己知信号v o ，i ，估计出a 。来，也就是如下的估计等式： a 。= e ( a 。i r o ，k ，k ) ( 3 1 3 ) 爿。：占( 4 。l k ) ：_ ；毒；! ! ! ! ! 生! 立兰! 燮( 3 一1 4 ) j jp ( y d a t ，磊) p ( 吼，缸胁m 嗾绯a _ 巩1 两e 斗陋舞丛 ( 3 1 5 ) 其中五。( t ) 为噪声的方差。同时我们设语音频谱的概率分布为p ( ) ，将上面的结果代入等式( 3 1 4 ) ，就得到：铲毕型竺挈型坐塑塑塑 ( 3 1 6 ) jp ( ) e x p ( 一口；2 ( k ) ) l o ( 2 r a t 以( 女) ) 呶 l o ( ) 为第0 阶修正贝塞尔函数。定义第k 个频谱的分量的增益系数瓯= 慨i r 。，可以通过上式来估计q ，即： g 。：争：! 墼：竺：兰竺竺型竺b 2 r f p ( ) e x p ( 一日2 , , ( k ) ) i o ( 2 r 。a 。x 。( k ) ) d a 。、定义= r ： ( 尼) 为后验信噪比，唧= 丸( t ) 以( ) 为先验信噪比，其中 ( 七) 为语音频谱的分布p ( ) 的方差，p ( 以) = p ( 页j 两) ，为归一化的语音频谱幅度分布。则式( 3 1 7 ) q ：盟拿丝塑坠! ：垒堕( 3 - 1 8 ) 其中可( 6 。，吼，以) = e x p ( 一6 。2 & ) i o ( 2 b + 再万) 这样就可以得到纯净语音幅度谱的估计为：以= r l g 女 ( 3 - 2 0 ) 华南理工大学硕士学位论文在将其进行傅立叶反变换，就可以得到增强后的语音信号。 3 3 2 帧间约束的m m s e - s t s a ( s h o r tt i m es p

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）有色背景噪声环境下语音增强算法的研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）有色背景噪声环境下语音增强算法的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档