(信号与信息处理专业论文)基于dsp的语音增强系统设计与实现.pdf_第1页
(信号与信息处理专业论文)基于dsp的语音增强系统设计与实现.pdf_第2页
(信号与信息处理专业论文)基于dsp的语音增强系统设计与实现.pdf_第3页
(信号与信息处理专业论文)基于dsp的语音增强系统设计与实现.pdf_第4页
(信号与信息处理专业论文)基于dsp的语音增强系统设计与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)基于dsp的语音增强系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士学位论文 基于d s p 的语音增强系统设计与实现 摘要 语音增强技术的研究对语音通信质量的提高起着至关重要的作 用。语音增强技术是指采用一定的信号处理技术将有用的语音信号从 噪声中提取出来,以提高语音信号的信噪比,增强可懂度,同时使人 听觉不感疲劳。 在短波串行无线通信过程中,宽带高斯白噪声与单频有色噪声是 非常常见的两类噪声。本课题研究的主要目的是:在理论研究与仿真 结果分析的基础之上,提出一套在工程上能够有效去除这两类噪声的 实现方案。 本文是课题研究成果的结晶。根据研究侧重点的不同,大体可以 分为两大部分。 第一部分为算法研究与仿真。首先,研究了宽带噪声语音增强的 算法,包括m m s e 算法,基于语音掩蔽效应的算法,并提出了基于 临界频带的子带滤波算法。重点进行算法研究与仿真结果分析。此外, 基于算法定点化和程序实时实现的需要,最终选定m m s e 算法在硬 件上实现。其次,研究了单频有色噪声的特点及增强原理,对其进行 仿真,并进一步提出改进方案。 第二部分为硬件平台搭建和算法移植,该部分主要介绍两芯片间 的通信机制、系统的d s p b i o s 配置与c 定点化软件编程与优化。本 课题选用t i 公司的t m s 3 2 0 v c 5 5 0 9 芯片与c 8 0 5 1f 4 1 0m c u 芯片作 为硬件平台。目前,已经实现宽带与单频语音增强算法在硬件平台上 的实时运行。 关键词:语音增强m m s e 掩蔽效应子带滤波单频有色噪声 北京邮电大学硕士学位论文 s y s t e md e s i g na n d 胛l e n 狲t a t i o no f s p e e c he n h a n c e d 衄n tb a s e do nd s p a bs t r a c t t h er e s e a r c ho fs p e e c he n h a n c e m e n tt e c h n i q u e sp l a y sac r u c i a lr o l e t ot h e q u a l i t y e n h a n c e m e n to f s p e e c hc o m m u n i c a t i o n s p e e c h e n h a n c e m e n tt e c h n i q u ei st os e p a r a t eu s e f u ls p e e c hs i g n a l sf r o mn o i s e w i t hs o m es i g n a lp r o c e s s i n gt e c h n i q u e ss oa st oi n c r e a s et h es i g n a l - n o i s e r a t i o ,t oe n h a n c et h ei n t e l l i g i b i l i t yo fn o i s e c o r r u p t e ds p e e c hs i g n a l sa n d t od e c r e a s et h ea u d i t o r yt i r e d n e s so fh u m a n se a r s b r o a d b a n dg a u s sw h i t en o i s ea n ds i n g l e - f r e q u e n c yc o l o r e dn o i s ea r e t w ok i n d so fv e r yc o m m o nn o i s e si ns h o r t - w a v es e r i a lw i r e l e s s c o m m u n i c a t i o n t h ep u r p o s eo ft h i sd i s s e r t a t i o ni st op r o p o s eas o l u t i o n t oe f f e c t i v e l ye l i m i n a t et h e mb a s e do nt h e o r e t i c a lr e s e a r c ha n ds i m u l a t i o n r e s u l ta n a l y s i s t h e r ea r et w o l o g i c a lp a r t so f t h i sd i s s e r t a t i o n t h ef i r s tp a r ti sa l g o r i t h mr e s e a r c ha n ds i m u l a t i o n f i r s t ,i ts t u d i e s t w ob r o a d b a n ds p e e c he n h a n c e m e n t t e c h n i q u e s s u c ha s m m s e , a l g o r i t h mb a s e do np e r c e p t u a la u d i t o r ym a s k i n ge f f e c t sa n d t h e np r o p o s e s s u b b a n df i l t e r i n ga l g o r i t h mb a s e do nc r i t i c a lb a n d t h ef o c u si sa l g o r i t h m r e s e a r c ha n ds i m u l a t i o nr e s u l ta n a l y s i s b e s i d e s ,m m s ei sc h o s e nt ob e f i n a l l yi m p l e m e n t e do nh a r d w a r ep l a t f o r ma c c o r d i n gt ot h en e e d so f f i x e d - p o i n tp r o g r a m m i n ga n dr e a l - t i m ei m p l e m e n t a t i o n s e c o n d l y , i t s t u d i e st h ec h a r a c t e r i s t i c sa n d s p e e c h e n h a n c e m e n t p r i n c i p l e o f s i n g l e f r e q u e n c yc o l o r e dn o i s e ,d o e st h es i m u l a t i o na n df u r t h e rp r o p o s e s a ni m p r o v e ds o l u t i o n t h es e c o n d p a r t c o n c e n t r a t e so nt h ec o n s t r u c t i o no fd s p c o m m u n i c a t i o n p l a t f o r m a n d a l g o r i t h mm i g r a t i o n ,i n c l u d i n g t h e c o m m u n i c a t i o nm e c h a n i s mb e t w e e nt h e s et w oc h i p s ,s y s t e md s p b i o s c o n f i g u r a t i o na n dcp r o g r a m m i n ga n do p t i m i z a t i o n i nt h i sp r o je c t ,t i t m $ 3 2 0 v c 5 5 0 9a n dc 8 0 51f 41om c i ,a r eu s e dt ob u i l dt h eh a r d w a r e 2 北京邮电大学硕士学位论文 p l a t f o r m u pt on o w , b o t ht h eb r o a d b a n da n dt h es i n g l e f r e q u e n c ys p e e c h e n h a n c e m e n ta l g o r i t h m sh a v er u n s u c c e s s f u l l y a tr e a lt i m eo nt h e h a r d w a r ep l a t f o r m k e yw o r d s :s p e e c he n h a n c e m e n tm m s e p e r c e p t u a la u d i t o r y m a s k i n ge f f e c t s u b b a n df i l t e r i n g s i n g l e - f r e q u e n c yc o l o r e d n o i s e 3 声明尸明 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:筝茜& 茹卜一 本人承担一切相关责任。 日期:迦宝冬圣日! 旦 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:签如查垒日期:塑翌墨垒墨旦! 旦 导师签名: 芷揖加 日期: 3 翻述冬墨目! 旦 j 匕京邮电大学硕士学位论文 1 1 语音增强概述 第一章绪论 在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、 通信设备内部电噪声、乃至其它讲话者的干扰,这些干扰最终将使接收到的语音 信号并非纯净的原始语音信号,而是受噪声污染的含噪语音信号。这里的“噪声” 定义为所需语音信号以外的所有干扰信号。干扰信号可以是窄带或宽带的、白噪 声或有色噪声、声学的或电学的、加性的或乘性的,甚至可以是其它无关的语音。 为了从含噪语音信号中获得尽可能纯净的语音信号,减少噪声的干扰,就需要进 行语音增强【2 】【3 】【4 】 5 1 。语音增强技术是语音信号处理的一个重要分支,它在解 决噪声污染、改进语音质量、提高语音可懂度等方面发挥着越来越重要的作用 2 1 。 语音增强有着广泛的应用,因此寻求一种有效的算法对带噪语音信号进行处理以 达到较高抗噪效果的研究意义很大。在一般情况下干扰信号是随机信号,要完全 排除噪声是不现实的,所以语音增强的目标对收听人而言主要是改善语音质量, 提高语音可懂度,减少疲劳感;对语音处理系统( 识别器、声码器、手机) 而言 是提高系统的识别率和抗干扰能力【l 】。 在短波串行无线通信系统中,宽带噪声f 2 】【3 1 及有色噪声是最常见的一种噪 声,因此,本文将主要针对这两种噪声进行处理。由于宽带噪声与语音信号在时 域和频域上完全重叠,因而滤除宽带噪声的难度较大。目前有一些对含宽带噪声 的语音进行增强处理的方法,虽然降低了背景噪声,提高了信噪比,但并不提高 语音的可懂度。因而设法增强被宽带噪声干扰的语音信号( 特别是在低信噪比情 况下) ,提高含噪语音的可懂度具有重要的意义,尤其是单话筒采集条件下如何 消除背景噪声的影响更是许多人研究的课题。 另一方面,在短波无线通信中,由于受到相邻电台载波的干扰,有色噪声是 非常常见的一种噪声,这种有色噪声表现在能量集中在某一或某几个频点上,因 此对于此类噪声的处理在短波无线通信中具有非常重要的意义。 北京邮电大学硕士学位论文 1 2 语音增强研究现状 在实际推动下,早在6 0 年代语音增强这个课题就已引起人们的注意,此后 3 0 年间人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟, 7 0 年代曾形成一个研究高潮,取得了一些基础性成果,并使语音增强发展成为 语音信号处理的一个重要分支。进入8 0 年代后,v l s i 技术的发展为语音增强的 实时实现提供了可能。 语音增强不但与语音数字信号处理理论有关,而且涉及到人的听觉感知和语 音学。再则,噪声来源众多,随着应用场合而异,他们的特性各不相同。即使在 实验室仿真条件下,也难找到一种通用的语音增强算法,能适用于各种噪声环境。 必须针对不同噪声,采取不同的语音增强对策。 语音处理国内外发展都较为迅速,每年都发表数以万计的论文,但其中非常 有价值的论文很少,例如其中提出的某些方法在实际运用中很难实现,或某些方 法只是对一些现存的方法进行改进,但很难使得语音处理效果有质的飞跃。在前 文中已提到,语音处理涉及到很多领域。要想使得语音处理能取得很好的效果, 那些被涉及的学科也必须要取得长足进步【4 1 。 1 3 论文结构安排 本课题主要关心两方面内容:第一,语音增强的理论和算法仿真;第二,语 音增强算法在d s p 上的实现。因此,本论文的写作也基本围绕这两条思路进行。 第一章,绪论。介绍了语音增强的背景知识、研究现状及本文结构安排。 第二章,宽带噪声语音增强算法研究与仿真结果对比,包括m m s e 法、基 于语音掩蔽效应的方法、基于临界频带的子带滤波法。 第三章,单频有色噪声语音增强算法研究与改进。 第四章,语音增强系统的d s p 实现,包括硬件平台的搭建、d s pb i o s 配置、 定点化软件编程与系统实时实现。 第五章,总结与展望。 2 北京邮电大学硕上学位论文 2 1 概述 2 1 1 算法概述 第二章宽带噪声语音增强算法与仿真 语音增强的一个主要目标是从含噪语音信号中提取尽可能纯净的原始语音。 降低宽带噪声的方法大体上分为4 类 1 1 :参数方法、非参数方法、统计方法、 其他方法。下面分别简介如下: 参数方法:此法主要依赖于使用的语音生成模型( 例如a r 模型) ,需要提 取模型参数( 如基音周期、l p c 系数) ,常常使用迭代方法。如果实际噪声或语 音条件与模型有较大的差距,或提取模型参数有困难,则此类方法失效。采用滤 波器模型典型的有维纳滤波法、卡尔曼滤波法等。此法对语音模型参数依赖型强, 在低信噪比条件下不容易得到正确的模型参数。 非参数方法:非参数方法无需从带噪信号中估计模型参数,因此,此法应用 范围较广,但由于没有利用可能的语音统计信息,故结果一般不是最优化的。这 类方法包括谱减法、自适应滤波法等。谱减法由于频谱相减会产生一种具有一定 节奏感的残余噪声,即“音乐噪声”。 统计方法:此法充分地利用了语音和噪声的统计特性,一般要建立模型库, 需要训练过程获得初始统计参数,它与语音识别系统的联系很密切。如最小均方 误差估计( m m s e m i n i m u mm e a ns q u a r ee r r o r ) 、听觉掩蔽效应等。此法缺点是 需要大量数据进行训练以得到统计信息。 其他方法:此法包括小波变换、卡亨洛维变换( l k d ) 、人工神经网络等。 这些方法不像前三类方法那样成熟,可以概括为非主流方法。小波变换以及离散 余弦变换的阈值选取困难,运算量大。 实际使用中常常根据具体的环境噪声和语音特性将不同方法结合起来应用, 通过方法互补取得更好的语音增强效果。 本文将对语音增强的如下几种方法做出研究以及仿真分析,并综合考虑增强 效果计算算法复杂度、可实现性等特点,最后选用m m s e 方法在d s p 硬件平台 北京邮电人学硕j :学位论文 上做出实现,它一种降噪效果不错并且计算量比较小、易实现的方法。 2 1 2 仿真与实现概述 语音是非平稳随机过程,但在1 0 3 0 m s 的分析帧内可以近似看成是平稳的。 语音信号在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧。绝 大部分情况下,实现语音增强方法时,语音处理帧长都是取2 0 3 0 m s 。取数据时 前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取0 o 5 。需要进 行分帧处理,且大多采用重叠相加法。采用重叠相加法的好处是:可以减少语音 分帧处理造成的不连续性。 设观察到的一帧带噪语音为灭刀) 哥( 船) + 硪刀) ,其中n 介于0 2 5 5 之间。其中s ( n ) 为纯净语音,讲,z ) 为白噪声。为了避免分帧时的截断效应,应对y ( n ) ,j h 窗处理。 在语音信号数字处理中常用的窗函数是哈i t y j ( h a m m i n g ) 窗,表达式如下: r ”1 w ( ,z ) :0 5 4 - 0 4 6 c o s 【( 嵩) 一1 m 聆= o ( 一1 ( 2 一1 ) l0 ,n = 其它值 在本论文的重叠相加法中,采用哈明窗;在众多窗函数中选用哈明窗,因为它可 以有效的降低吉布斯效应的震荡程度。窗的长度为2 5 6 点,重叠长度为1 2 8 点。 此窗的特点是旁瓣幅度小,旁瓣峰值小于主瓣峰值的1 。具体处理时语音文件 的前后帧必须要有交叠部分 5 1 。 该论文中抽样频率为8 k h z ,每帧的采样点数为2 5 6 ,即取3 2 m s 数据为一帧 进行处理。带噪语音通过长为2 5 6 点的哈明窗,相邻帧间重叠1 2 8 点,然后对每 帧带噪信号逐帧进行增强处理后再1 2 8 点重叠产生输出信号。 宽带噪声语音增强仿真采用的原始语音为一段长为6 s 左右的女生普通话, 在其中混合不同量的高斯噪声生成不同信噪比( 1 0 d b ,0 d b ) 的带噪语音。图2 1 图2 3 所示分别为实验所用的纯净语音信号、1 0 d b 、0 d b 含噪语音信号: 图2 1 纯净语音信号时频图 4 藜鬟冷曩疆 丁- 匕 ,o,伊 蓦、j二蘩叮o:。brn 北京邮电人学硕士学位论文 2 1 3 宽带噪声估计5 】 图2 - 30 d b 含噪语音信号时频图 大多数语音增强算法都需要正确估计噪声的性质,而在大多数实际噪声环境 中,噪声是不稳定的,只有及时准确地找到最新的噪声,才能获得比较理想的增 强效果。在基于单声道的语音增强技术中,噪声源是未知的,所以背景噪声的特 性只能从带噪语音中获得。因此噪声估计就成为语音增强技术中非常关键的环 节,对噪声估计方法进行讨论很有必要。 噪声估计的准确性直接对后续的算法有重大影响,因此预先准确地估计出噪 声对语音增强十分重要。在噪声估计时通常假设噪声的均值为零,需要估计的参 数就是噪声的方差。噪声的估计方法很多,一种做法是对语音信号进行语音的有 声无声检测,在无声时更新噪声估计,在有声时保持原有的噪声估计不变。另 一些方法不用有声无声的检测。无论在有声或无声时都对噪声估计进行更新。 本文使用的是一种有效的不用有声无声检测的语音参数估计的方法。 下面介绍自相关函数的一些特性。信号x ( 门) 的自相关函数尺( ) 、信号x ( n ) 与) ,( n ) 的互相关函数尺。( m ) 可定义为 北京邮电大学硕l :学位论文 尺( 优) = x ( 刀) x ( 以+ 垅) i ;l p ( 聊) = x ( ,z + m ) y ( ,z ) ( 2 2 ) ( 2 3 ) 相关函数的应用很广,例如噪声中信号的检测,也是描述随机信号的重要统计量。 论文中假设噪声是白噪声,同时一般噪声是随机的且与信号无相关。所以,带噪 语音的自相关函数r ,( 聊) 为: r r ( 肌) = r s ( 朋) + r d ( 聊) + r s o ( 朋) + 尺脚( 所) ( 2 - 4 ) 其中,r s ( m ) 、r d ( 聊) 分别为纯净语音信号、噪声信号的自相关函数值,( m ) 、 r d s ( m ) 分别为信号与噪声、噪声与信号间的互相关函数值,m 为样点数,r o ( 垅) 随m 的增大而迅速减小。后两项由于信号与噪声不相关所以为零。可以认为 墨( 聊) 几乎就是b ( 聊) 的值。 线性预测法( l p c ) 6 1 :设语音波形以一定的时问间隔t 采样得到的信号为j ( 咒) m = 0 ,1 ,n 1 ) ,根据预测的准确度在均方误差最小的意义上为最优的法则, 可以得出l p c 正则方程。用德宾递推算法可以解此方程,则预测后的信号为: ;( 刀) = 一a i s ( n - i ) ( 2 5 ) i = 1 其中,p 为预测阶数一般介于8 1 2 之间,口,为线形预测系数。线形预测算法按 照最小均方误差的准则给出问题的解,以疗) 可( 砂咯( 以) 等于得到的预测噪声。 记预测值;( 刀) 和真实值j ( 咒) 之间的误差为e ( n ) = s ( 疗) 一j ( 刀) ,则总的预测误差 功率为 f p = e e 2 ( ,2 ) _ e 似玎) + a k s ( n - k ) 2 ) ( 2 - 6 ) k = l 根据正交原理,为求得使p 最小的吼,k = - o ,1 ,p ,应使x ( n - p ) ,( 咒- 1 ) 和预测 误差序列p 俐正交,即 e s ( n 一聊) p ( ,z ) 一j ( 刀) ) = 0 ,m = 0 ,1 ,p ( 2 7 ) 由此式( 2 2 ) 可得 p 口a ,尺( i 七一ii ) :一尺( 尼) ,k _ 1 ,2 ,p ( 2 - 8 ) 归一化:r ( 1 ) = r ( 1 ) r ( o ) ,得到: 壹乏,( i 七一f i ) :一厂( 尼) ,k - l ,2 ,p 6 ( 2 - 9 ) 北京邮电人学硕上学位论文 德宾递推算法的计算过程如下: ( 1 ) 给定预测器阶数p ( 2 ) 计算r ( t ) ,1 = 0 ,l ,p ( 3 ) 计算k 1 = 一r ( 1 ) r ( o ) ( 1 ) ( 4 ) 计算口l = k 1 ( 5 ) := 1 一1 2 尺( o ) ( 6 ) 令m = 2 一i ( 一1 ) ( 7 ) k = - 尺( m ) + 口j r ( ii - mi ) x :1 7 - 1 i = 1 ( ,1 ) ( 8 ) 口。= k ( ” ( 肌) ( m 一1 ) ( m 1 ) ( 9 ) 口i= 口,+ k ”口。一f ,i = 1 ,2 ,( m 一1 ) ( 1 0 ) 计算妒= 1 一 k “ 2 ( 1 1 )m 。 o 乙l h ( ) = e 4 pi k ) 一:垒:! 墨圣! 竺:丝! 竺! 竺:垒! ! 竺! 竺 ( 2 1 4 ) j c 0r ”p ( y , la 。,a k ) p ( 啄,) 妇t d 啤 p ( k h ) = 赤e x p 一志肾e x p ( j a k ) 1 2 ) ( 2 - 1 5 ) p ( 吼,吼) 2 南e x p 一丽a k 2 ) ( 2 - 1 6 ) 其中,乃( 七) = e ( id 。1 2 ) ;疋( 露) = e l 瓯1 2 ) 。 a 引渺卜篙一 协 其中,i 。( ) 为零阶修正贝塞尔函数,咋= 丧以,磊= 龛,圪2 乏,并 且满足去= 丽1 + 丽1 。 e 毗旧= 盖g 驰( 乩。= j 11 n 丑+ 扣咋+ e 争r ) ( 2 - 1 8 ) 怠= 矗唧 署嘲 池 9 北京邮电大学硕士学位论文 2 2 2 先验信噪比的确定 上述计算所用到的乃廿) 可通过2 1 3 节中的算法计算得到,与噪声方差相比, 先验信噪比也是一个关键的量,下面来研究先验信噪比的计算方法。对于以( 七) , 由于于语音是时变的,必须在每一帧重新进行估计。在此,使用两种估计方法:最 大似然估计方法和直接判决估计方法。 最大似然估计方法:假设有价连续的量 瓦( m ) ,y k ( m - 1 ) ,y k ( m - l + 1 ) ) , 其中y k ( m ) 代表第m 帧的第衿频率点的带噪频谱值。由于语音是缓变的,上 述l 帧语音的第朴频率点的方差也是缓变的,可以近似认为保持不变。另外,假 设k ( f ) 与e ( j ) 是彼此独立的,由于k ( m ) = 最( m ) + b ( 朋) ,瓯( 朋) 与q ( m ) 均为 高斯分布,所以砭( m ) 也是高斯分布,方差为乃( 七) + 乃( 后) ,有 p 陬m 鹏。川脚地,:尊面e x p 黼 y k ( m - i ) _ 1 2 协2 。, 求最大似然估计,即求解 塑 互! 竺! ! 蔓! 翌二! ! ! = ! ! 互丝! ! 生丝! j :o( 2 2 1 ) 化简后可以得到的估计值以( 尼) 五( 七) :了1 l - i 疋z 沏一,) 一乃( 七) ( 2 2 2 ) 由于五( 尼) 总是非负的,所以将上式修正后得到蠡的估计式最为 袅:m a ) 【 了1 l - i 以( 珑一,) 一l ,占】 ( 2 2 3 ) 其中,s 为非负常数。 在实际使用中,式( 2 2 3 ) 的滑动平均用迭代平均来代替,即使用以下的估 允( ,1 ) = m a x 哌( 研一1 ) + ( 1 一口) 以( 肌) 7 l l + e ( 2 2 4 ) 彘( 聊) = m a x e l ( m ) 一1 ,占】 式( 2 2 4 ) 中增加了可调参数口、( o s 口冬1 ,1 ) ,它们的值由经验和主 观试听决定,在该课题中,取o z = 0 8 ,= 2 3 。 直接判决估计方法:由最大似然估计式( 2 2 3 ) ,当l = 1 时, = m a x 7 。( m - ) - 1 ,s 】;另一方面,由的定义及假设,有 1 0 北京邮电大学硕士学位论文 轰( 聊) 磊( 7 ,l 一1 ) = e 4 2 ( m 一1 ) a , a 盈2 ( ,l 一1 ) ia a 其中,( m 一1 ) 为上一帧处理的结果。所以,构造磊的估计式为 磊( 所) = 口盈2 ( m 一1 ) 五a + ( 1 一a ) m a x ( y k ( m 一,) 一1 ,8 ) p 此方法利用了上一帧的处理结果。 2 3 基于语音掩蔽效应的语音增强算法 ( 2 - 2 5 ) ( 2 2 6 ) m m s e 法解决了“音乐噪声”问题,但在带噪语音信噪比( s n r ) 较低时其剩余 噪声还是很大,尤其是当信噪比小于5d b 时。传统的语音增强方法往往只强调 对噪声的抑制,而忽视了由此引起的语音在主观听觉上的失真。因为一般说来, 对噪声去除的越多,则对语音的伤害就越大,越容易造成语音的失真,降低了语 音的可懂度;反之,为了减少对语音的损伤,降低失真,增加语音的可懂度,那 么所残余的噪声往往越多。因此,如何在减少语音的听觉失真和加强噪声抑制之 间取得良好的折衷是语音增强研究中的一个关键问题。 基于人类听觉特性的语音增强就是基于这样的思想,它在减少语音的听觉失 真与加强噪声抑制之间取得了良好的折衷。目前,在基于人类听觉特性的语音增 强中用得比较成功的是听觉掩蔽效应,它指出语音信号能够掩蔽与其同时进入听 觉系统的一部分能量较小的噪声信号,而使得这部分噪声不为人所感知到。因此, 从掩蔽效应的角度看,语音增强不是完全将噪声去除掉,而是通过改变带噪语音 的s t s a 使得所有噪声成分都能被语音信号掩盖掉,这样既实现了语音增强的 效果,又有效地避免了语音失真。 2 3 1 语音掩蔽阈值的计算方法吲 当两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响 到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。 由于频率较低的声音在内耳耳蜗及底膜上传输的距离远于频率较高的声音,故一 般来说,低音容易掩蔽高音,而高音掩蔽低音较难。掩蔽会造成因一个声音的存 在,而使另一个声音的听阂上升。 噪声的存在也会影响到纯音的接收,即对纯音产生掩蔽。为了描述这种掩蔽 的效果引入了临界带宽( c r i t i c a lb a n d ) 的概念,临界带宽可以通过实验测得。 临界带宽单位可以用b a r k 来表示,表2 1 1o 】表示了抽样率为8 1 d - i z 帧长 n = 2 5 6 点时对应f f t 频点与临界频带转换关系。 北京邮电大学硕士学位论文 表2 1f f t 频点与临界频带转换表 ( 抽样率为8 k h z 帧长n = 2 5 6 点) 为了计算对应各频点的掩蔽阈值,有如下步骤: 1 临界带宽分析:令r p ,砌分别为时域信号经过f f t 变换后得到的第 k 个频点复频域幅度值的实部和虚部,其中,k = 0 ,1 ,2 ,n 1 ,则复功率谱密度只d 可以表示为p ( k ) = r e2 ( 幼+ 砌2 ;然后,根据表2 1 ,在每个临界频带内的功率 谱密度总和b ;: 毋= p ( 助 ( 2 - 2 7 ) 其中,拍卜m 。分别为第i 个临界带宽的上界频点和下界频点。 2 扩展函数 为了产生连续的临界频带谱,临界频带分析必须跨越各临界频带对各k 求和, 这里就需要用到扩展函数这个概念。 扩展函数s 纠用来估计跨临界频带间的掩蔽效应。为了便于计算,可以 表示为: 1 0 1 0 l o s ( x ) = 1 5 8 1 + 7 5 奉”o 4 7 4 ) 一1 7 5 宰( 1 + ( 什0 4 7 4 ) 2 ) “2 d b( 2 2 8 ) 其中,沪( i 1 ) ,( i 2 ) ,0 ,( 1 - 2 ) ,( i - 1 ) ,i 为临界频带的总数,由表2 - l 可知这 里i 为1 8 ;进而通过将s ,与b ,卷积得到扩展临界频带谱c 。,即 c := q + s i - - 。+ j 木吃 ( 2 2 9 ) 其中i 为临界频带编号,i ,m 取值为1 i 之间的整数值。 3 计算噪声掩蔽阈值:有两种噪声掩蔽闽值存在,第一种是对于语音掩蔽 1 2 北京邮电大学硕士学位论文 噪声的情况,此时,噪声掩蔽阈值为c ;( 1 4 5 + f ) d b ;第二种是对于噪声掩蔽 语音的情况,此时,对于所有临界频带,噪声掩蔽阈值都为( c ;5 5 ) d b 。 因此,首先计算信号是语音还是噪声的概率,这里用谱平值( s p e c t r a lf l a t n e s s m e a s u r e ) 来衡量,即s f m ,有 s f m 翘= 1 0 g l o 罢 ( 2 3 0 ) 对于像语音的信号,如嗓音、正弦波、长笛等,s f m 搬接近或超过一6 0 ,而 2 0 0 3 2 0 0 h z 之间的语音信号的s f m 扭则在2 0 3 0 之间。 另外,定义另一个参数 口= m i n 丽s f m ,1 ) ( 2 - 3 1 ) 这里,当s f m 扭= - - 6 0 时表示信号完全是语音,当s f m 拈- - 0 时表示信号完全 是噪声。当s f m 棚= 一6 0 时表示信号完全是语音时口= o 5 。令 0 f = t 2 木( 1 4 5 + 力+ ( 1 一口) 宰5 5 ( 2 3 2 ) 从而得到噪声的扩展掩蔽闽值 t f - - 1 0 l g ( c i ) - 饼肿 定义丁 ,当b l , k 匕以力,是一随时间和频率改变的参数。把式( 2 4 2 ) 代入式( 2 4 1 ) , 得到a ( 屯f ) 的取值范围为: 当x 。陇力丁似力时,a ,代f ) 鱼他力血 ( k ,f ) ; 当x p ( 忽o o ,旯用于补偿a i ( 屯o 和a 。( 岛力的估计误差,它的取值通 过实验确定。 综上所述,基于听觉掩蔽效应的口以力值可由式( 2 - 4 3 ) 一( 2 4 7 ) 估计得到, 然后应用式( 2 - 4 2 ) 估计出语音的短时功率谱,从而得到语音的短时谱 岩传砂= 宕,e x p a r g y ( k ,f ) ,再经反f f t 并与前一帧作重叠加就可以得到增强 语音。 1 6 北京邮电大学硕士学位论文 2 3 3 语音掩蔽概率与m m s e 相结合的语音增强算法呲】 语音增强的目的是将所有噪声分量抑制于语音的掩蔽阈值之下,使之听觉不 可闻;同时应尽可能减少语音的听觉失真,提高语音的清晰度。这里采用双侧假 设模型的方法,令h 。表示噪声被语音信号所掩蔽,噪声不可闻,h ,表示对立假 设,表示噪声未被语音信号掩蔽。 在h 。条件下,噪声被语音信号所掩蔽,因此,此时可用带噪语音谱y 。阮d 作为增强语音的谱估计,这样,既达到了噪声不可闻,又有效地避免了语音失真。 在h 。条件下,即噪声未被掩蔽时,应用m m s e 语音增强方法,此时,增强 语音的谱估计为:g2 m m s e ( 后,f ) 木】,。 力。 设p ( k , o 为h 。成立的概率,则 1 - p 明为h 。成立的概率。 噪声的掩蔽概率是噪声和听觉掩蔽阈值的函数,因此,对每一格语音谱分量 的估计均使用噪声的掩蔽概率对上述两种情况加全求和得到: ( 蚋2 匕( 蚋木p ( k ,f ) + g 2 e ( 木匕( 蚋木 - - p ( k ,明 ( 2 4 8 ) = g 2 m m s e ( 后,f ) + 1 一g z u m s e ( 后,f ) 】掌p ( 后,f ) ) 木匕( 尼,f ) 这种方法有效利用了听觉掩蔽效应,在噪声未被掩蔽时用m m s e 增强方法 有效地抑制了噪声,而在噪声被掩蔽时不进行处理,从而既使噪声不可闻又减少 了语音失真,也就是说此法在尽可能减少语音失真的前提下有效地去除了噪声, 在有效抑制噪声与减少语音听觉失真之间作出了良好的折衷。 下面来考虑p ( 忽d 的计算方法。 根据听觉掩蔽模型和噪声的分布假设即可确定噪声被掩蔽的概率。设噪声均 值为0 ,方差为九( 后,i ) 的复高斯分布,可知噪声谱的幅度满足r a y l e i g h 分布, 其概率密度函数为: 脚) = 鬻晰嬲) ( 2 4 ” 噪声功率谱的概率密度函数可以表示为: f d ( k , i ) - - 志晰等) ( 2 - 5 。) 由此,可得到噪声被掩蔽的概率: 脚) _ 1 一时器) ( 2 5 1 ) 人的听觉系统对相位不敏感,增强语音相位直接采用带噪语音相位代替。 1 7 北京邮电大学硕士学位论文 2 4 基于临界频带的子带滤波语音增强算法【1 3 l 基于子带滤波器的思想,使用具有低时延的i i r 滤波器一1 2 阶的巴特沃思带 通滤波器组,将频带按照c r i t i c a lb a n d 划分为1 2 个频带,并进一步分别在每个子 带对信号进行m m s e 与语音掩蔽效应相结合的滤波处理,再将各自频带处理后 的信号进行合成,合成后得到处理后的信号。此方法将各子频带分别进行基于语 音掩蔽效应的处理,结合上述提及的各种方法的优点,可以得到比较满意的效果。 在语音增强中,非线性边界滤波器有着广泛的应用。通过恰当的设计,可以 建立一个对应于人耳听觉系统的模型。这个方法已经成功地被用于语音增强、语 音识别和语音编码。非线性边界滤波器也可以同时被用于子带自适应滤波中,本 文所采用的滤波器边界就是对频率进行非线性变换而产生的,即临界频带 ( c r i t i c a lb a n ds c a l e ) b 4 1 。 2 4 1 基于临界频带的子带分解 根据人耳的听觉特性,0 - 4 k h z 的频率范围对应于1 8 个临界频带。由于短波 无线通信中传输的语音频率标准为0 3 3 4k h z ,因此,我们可以取临界频带4 1 7 ,一共1 4 个临界频带,具体见表2 1 。 我们采用1 4 个利用切比雪夫最佳一致逼近法设计的f i r 滤波器。利用m a t l a b 中的r e m e z 函数【1 5 】仿真,得到1 4 个滤波器的各自的频率响应特性如图2 8 所示, 将1 4 个滤波器合成后得到的整体频率响应特性如图2 - 9 所示。 从图2 8 可以看出,各滤波器之间的混叠 瞄乙( n ) i ,则 乙( 咒) = p ( 玎) l ( 2 - 5 5 ) 否则, 乙) = ( 1 一b n ) 幸i x , ( n ) l + b n 毒乙( 胛一1 ) ( 2 5 6 ) 这里b n 为一个代表延时时间的常量值。 这里式( 2 5 5 ) 、式( 2 5 6 ) 中用) i 代替x m ( n ) * x m ( n ) 作为信号能量值的 估计,是因为平方运算在d s p 中实现时会受到定点化的限制。式( 2 5 5 ) 、式 ( 2 5 6 ) 使z m ( n ) l k _ 速跟踪足够大的i s m ( n ) l 峰值,而在0 ) l 较小时则慢慢减弱, 1 9 北京邮电大学硕士学位论文 减弱的速度取决于b n 值,这里b n 取值为0 9 9 2 2 ,产生的延时时间在8 0 0 0 h z 采样率时为1 6 m s ,这样足以跨越1 6 m s 以下的语音间隔。 然而,由于语音的存在,z m ( n ) 在有语音时迅速跟踪语音水平,而仅仅在很长 的语音间隔时才会跟踪到噪声水平,因此不能用它来跟踪噪声水平;但是,用如 下方法,可以使z m ( n ) 在语音存在时也能继续跟踪噪声值而不受语音的影响。研 究表明,即使是在连续说话的情况下,连续说话2 s 以上而不出现语音间隔是很 少见的,也就是说语音能量仅仅在信号中产生一种短时的增长。因此,这里引入 一个新的参数( n ) ,只有当噪声在2 s 或以上的时间内一直保持增长,t m ( n ) 才会 随着增长,这样,就可以避免语音对噪声跟踪的影响了。因此,得到如下公式【1 5 i : 如果( 一1 ) 2 5 0 m s ;当然时问t 取得越大效果越明显,但同时也会引入较大时延,因此, 实现时应综合考虑这两方面因素。在这大帧时长t 内分成若干小段,每小段为一 小帧,时问为t ,为了提高语音信号的利用效率,可以将每个小段与之后的段 5 0 重叠,利用时间t 内的所有小帧,时间平均代替统计平均计算功率谱的均值 湿 一一 黑瓣一 踊瑚硼10,=澜1_:=粥觚襟函蕾lll量净|对l冒tl矗-t冀t 北京邮电人学硕 j 学位论文 以助和方差d ( 助: 刚) 2 吉荟跏 ) ( 3 - 1 ) 西( 驴吉l 轰v l - i p ( m , k m ( 纠2俘2 ) 其中,k 为频域上的抽样点,拓0 ,l ,k 1 ,这里,k = 2 5 6 ;p ( m ,k ) 为第m 小帧 第k 频点上的功率谱值,m 为小帧帧号,m = o ,1 ,m l ;由于每大帧时长t 内共 有8 小帧t ,因此取m = 8 。 由于单频干扰信号表现为频点相对稳定,可以近似认为时间t 内保持不变, 因此在该单频频点上均值e ( k 。) 要比其他频点上大很多。而对于语音信号,在其 语音谱对应的单频频点上均值会也比其他频点大,因此,在各频点上均值较大的 点即为单频干扰所在的频点或语音谱所在的单频频点。 另一方面,区分是单频干扰所在的频点还是语音谱所在的单频频点就看在该 频点上的方差d ( 助,由于语音谱稳定的频点时间会小于t ,因此,语音谱对应频 点上方差会较大,而单频干扰所对应频点上方差d ( k 。) 会较小。 因此,取符号彳( 动有 彳( 动= 觑动2 d ( 动,k = - o ,l ,k l ; ( 3 3 ) 当某频点的a 值大于某个阂值时即可判为单频干扰。 以上就是找到单频干扰频点的基本原理。具体实现过程中,抽样率为8 0 0 0 h z , 取时间t 为2 5 6 m s ( 2 0 4 8 点) ,取时间f 为6 4 m s ( 5 1 2 点) ,与下一段重叠2 5 6 点, 每大帧时长t 内共有8 小帧。 本章主要分为两部分:第一部分介绍了如何自适应跟踪变化的单频干扰频 点,第二部分介绍了一种非常适合去除单个或几个频点的滤波籼o t c h 滤波器, 将跟踪到的单频噪声所在频点后滤除即可得到纯净的语音信号。 3 2 单频噪声跟踪 3 2 1 单频噪声频点跟踪的实现方法 根据实际语音谱不断变化的特点,跟踪单频干扰所在频点的具体实现过程要 更复杂些,实现过程如下: 1 利用傅立叶变换计算出带噪语音的功率谱p ( m ,助,并利用式( 3 1 ) 式 ( 3 3 ) 求出均值以d 、方差d ( d 及彳( 助。 2 6 北京邮电人学硕士学位论文 2 求出彳( 幼中前十个最大的峰值所对应的频点k ,将其存入a l ( t ) ,其中 t = - 0 ,1 ,9 。 3 求出使e a 1 ( 力】值较大的前f 个a l ( t ) ,将结果存在a 8 ( n 1 ,力中,这里变量 a 8 ( n ,d 为第r 帧找到的第t 个频点;刀为大帧帧号,n = 0 ,1 ,n 1 ,t - - - - 0 ,l ,f 一1 ; 这里取f = 4 ,由于只考虑8 帧之间的联系,因此,n =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论