




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 在现代信息技术中,语音信号处理技术发挥着越来越重要的作用。而语音信号预处 理是语音信号处理中不可或缺的环节,它能够提高语音信号处理的效果。本文详细阐述 了语音信号预处理技术中的几项关键技术,包括:放大和自动电平控制、自适应噪音抑 制、高电平补偿、h o w l i n g 抑制等。 自动电平控制( a u t o m a t i cl e v e lc o n t r o l ,a l c ) 技术是为了改善语音信号剧烈波动 而提出的一种跟踪调整语音信号电平至最优值的方法。该方法用于终端。它的具体实现 分为两部分:第一部分是基于两级动态的v a d 检测,第二部分是r m s 自动增益控制。 自适应噪声抑制是指从带噪语音信号中提取尽可能纯净的原始语音。本文在经典的 谱减法的基础上作了改进,利用人耳的掩蔽效应减小“音乐噪音 ,实现了改进的最小 控制谱减法。 本文利用人耳的听觉特性,提出了一种基于等响度曲线函数的高电平补偿方法。该 方法首先通过语音激活检测w a d ) 技术判断出语音帧,然后通过等响度曲线【l 】与语音信 号的声压级求得电平补偿参数,并对语音帧的高频和低频进行相应的补偿,以得到主观 听觉上的等响效果。 本文通过分析h o w l i n g 的形成条件,提出了一种破坏这种条件的随机相位h o w l i n g 抑制方法。该方法先用p o l y p h a s ei i r 滤波器将语音信号划分为子带信号,再利用l m s 自适应陷波滤波器检测对各个子带信号是否有h o w l i n g 的存在,判断出h o w l i n g 之后便 利用随机相位系统对其进行抑制。 以上各个语音预处理功能模块既具有独立的处理功能,又可以串联到一起以达到一 个完整的功能。这样可以有针对性地对具有不同问题的语音信号调用不同的模块,实现 不同的效果。 关键词:自动电平控制;入耳掩蔽效应;高电平补偿;h o w l i n g 抑制 大连理工大学硕士学位论文 t h ep r e t r e a t m e n to ft h es p e e c hs i g n a lb a s e do nm o d u l e s a b s t r a c t i nm o d e mi n f o r m a t i o nt e c h n o l o g y ,t h ep r o c e s s i n go ft h es p e e c hs i g n a li sb e c o m i n gm o r e a n dm o r ei m p o r t a n t , i nw h i c ht h ep r e t r e a t m e n to ft h es p e e c hs i g n a li st h en e c e s s a r yp a r t r w i l l i m p r o v et h eq u a l i t yo ft h ep r o c e s so ft h es p e e c hs i g n a l i tm a i n l yc o n s i s t so ft h e a u t o m a t i cl e v e lc o n t r o l ,a d a p t i v en o i s es u p p r e s s i o n , h i l g hl e v e lc o m p e n s a t i o na n dh o w l i n g s u p p r e s s i o n , w h i c ha r et h ek e yt e c h n o l o g yi nt h i sp a p e r a u t o m a t i cl e v e lc o n t r o l ( a l c ) i sm a i n l yu s e dt oc o n t r o lt h es t r o n gf l u c t u a t i o no f s p e e c h s i g n a l i ta d j u s t st h el e v e lo ft h es p e e c hs i g n a lt ot h eb e s tv a l u et i m e l y a l cm a i n l yc o n t a i n s t w op a r t s o n ei st w oc l a s s e s d y n a m i cv a d ,t h eo t h e ri sa u t o m a t i cg a i nc o n t r o lb a s eo nr m s a d a p t i v en o i s es u p p r e s s i o ni su s e dt op i c ku pt h er e l a t i v e l yp u r es p e e c hs i g n a lf r o mt h e s p e e c hs i g n a lw i t hn o i s e i nt h i sp a p e r , t h e r ea r es o m ei m p r o v e m e n t sb a s e do nt h es p e c t r a l s u b t r a c t i o n ,s u c ha se l i m i n a t i n gt h e m u s i cn o i s e b ym a s kl i n e ,c s 眦 yo u tt h en o i s e s u p p r e s s i o nb yl e a s tc o n t r 0 1 i na d v a n t a g eo ft h eh e a r i n gc h a r a c t e r i s t i c s ,ah i g hl e v e lc o m p o s i t i o nb a s e do ne q u a l s o u n d l i n ef u n c t i o n si s p r o p o s e d n l i sm e t h o dt h es p e e c hf r a m e sa r ec h o s eb yv a df i r s t ,t h e n c a l c u l a t et h ep a r a m e t e r so ft h el e v e lc o m p o s i t i o n a tl a s t , c o m p o s i t i n gt h eh i 曲f r e q u e n c ya n d l o wf r e q u e n c yo ft h es p e e c hs i g n a lm u l t i p l i e db yt h ep a r a m e t e r s s ot h ee q u a ls o u n di s o b t a i n e d p h a s er a n d o m i z e dt e c h n i q u ei sp r o p o s e dt h r o u g ha n a l y z i n gh o wt of o r mt h eh o w l i n g f i r s t , p u tt h eo r i g i n a ls i g n a li n t op o l y p h a s ei i rf i l t e r st og e tt h es u b b a n ds i g n a l ;s e c o n d ,t h ee x i t s o fh o w l i n gi sd e t e c t e db yl m s a d a p t i v en o a hf i l t e r ;i ft h er e s u l t so ft h ed e t e c t i o ni sh o w l i n g e x i t i n g ,r e s t r a i ni tb yp h a s er a n d o m i z e dt e c h n i q u e t h em o d u l e so ft h ep r e t r e a t m e n to ft h es p e e c hs i g n a lm e n t i o n e da b o v en o to n l yc a n p r o c e s ss e p a r a t e l y ,b u ta l s oc a nw o r kt o g e t h e ra saw h o l es y s t e m s oi tw i l lu s ed i f f e r e n t m o d u l e sa c c o r d i n gt od i f f e r e n ts i t u a t i o n st oa c h i e v et h ed i f f e r e n ta i m s k e yw o r d s :a l c ;h i d i n gf u n c t i o n ;h l c ;h o w l i n gs u p p r e s s i o n 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目盐亟型塑盟盘叠二显墨i 塾竺速垦些 作者签名: 导师签名: 日期:丑年j 月上e 1 日期:竺2 年月上日日期:竺2 年j 月上日 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:基王搓迭焦的适童焦曼亟处理塞拯 作者签名:量塑釜二_ 一日期:三竺t 年上月乒日 大连理工大学硕士学位论文 1绪论 1 1应用背景 随着人们进入数字信息时代,数字语音通信在生产和生活等各方面起到越来越重要 的作用。然而在数字语音通信中,背景噪声的干扰、信号传输的损耗以及语音信号的正 反馈所引起的信号不稳定,使得很多语音处理系统的性能急剧下降。例如语音编解码系 统中,信道噪声与线路噪声污染的影响是十分大的,又例如线路电平的不匹配造成音量 大小不一等等。为了消除现实环境的数字语音对人们主观听觉造成的负面影响,对语音 预处理技术及其实用化的研究是非常有必要的。语音预处理技术是数字语音信号处理的 重要分支,已经广泛应用于无线电话、电话会议与场景录音等领域。通过各个方面的预 处理可以大大改善原系统在外界环境干扰条件下的性能,提高语音通信质量。 语音预处理的目的就是为了在保持语音可懂度和清晰度的前提下,对语音信号进行 时域或频域的变换与处理,从而使语音在音强、音长、音调、音质与纯净度等方面得到 一定程度的提升。实用语音预处理系统主要包括噪声消除系统、电平控制系统和回声控 制系统等。噪声消除系统的作用是检测并降低语音信号中的背景噪声,提高语音的纯净 度:电平控制系统则能稳定信号传输电平,使双端或多端语音的音强与音质维持在一定 的水平上;回声控制系统则针对扩声系统中回声所引起的正反馈放大现象,采用自适应 滤波等方法进行回声对消,也起到提高语音纯净度的作用。本文研究的重点是数字通信 中的实用自动电平控制系统,自适应噪声消除系统,高电平补偿系统和h o w l i n g 抑制系 统。 1 2 语音分析方法 语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特性 的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。根 据所分析参数的不同性质,可将语音信号分析分为时域分析、频域分析、同态分析、线 性预测分析等i l j 。 ( 1 ) 时域分析方法 语音信号的时域分析就是分析和提取语音信号的时域参数,是一种比较直观的分析 方法。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理与分类等, 其实现简单、运算量也较小。 基于模块化的语音信号预处理 语音信号的时域参数有短时能量、短时过零率、短时自相关以及短时平均幅度差等, 这是语音信号的一组最基本的短时参数,在各种语音信号数字处理中都要应用。为了使 语音信号的短时能量与幅度变化相对平滑,在计算这些参数时使用的一般是矩形窗或汉 明窗。 ( 2 ) 频域分析方法 从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包 络分析等。常用的频域分析方法包括傅立叶变换法等。因为语音信号是一个非平稳过程, 因此适用于周期、非瞬变或平稳随机信号的标准傅立叶变换不能用来直接分析,丽应该 用短时傅立叶变换进行频谱分析,相应的频谱称为“短时谱 。 对第刀帧语音信号毛( 聊) 进行傅立叶变换,其定义如下: j 一l 以。归) = 毛( 脚) e 一脚 m = o 其中n 为变换点数,短时傅立叶变换实际就是窗选信号的标准傅立叶变换。选取不同的 窗口函数,就会得到不同的傅立叶变换结果。 如令角频率彩= 2 万七,则可得离散的短时傅立叶变换以( 七) 。在语音信号数字处 理中,一般采用矗( 所) 的离散傅立叶变换来替代以0 归) ,并且可以用高效的快速傅立叶 变换算法完成由而( 所) 至以( 后) 的转换。为了符合人耳的听觉特性,提高语音信号处理 系统的性能,还可以进一步将实际的线性频谱转化为临界带频谱矢量,从而根据人耳对 频率高低的非线性心理感受反映语音短时幅度谱的特征。 ( 3 ) 同态分析【4 】 同态分析实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行 解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征 和基音周期,用于语音编码、合成与识别等。 许多语音信号并不是加性信号,而是声门激励和声道冲击响应的卷积性信号,同态 信号处理可以将这类非线性问题转化为线性问题,在线性空间完成运算后再逆变换为卷 积信号。 对卷积信号x ( 甩) = x l ( n ) * x 2 ( n ) 进行如下运算处理: i z 【x ( ”) 】= 五( z ) j 巴( z ) i n x ( z ) = i n 五( z ) + i n 五= 五 ( 1 2 ) l z - 【x ( z ) 】= z 卅【墨( z ) + 五( z ) 】= 毫( 刀) + 岛( 胛) = 曼( 刀) 大连理工大学硕士学位论文 由于叠) 是加性信号,所以可对其进行需要的线性处理。例如在两个信号互不交替 的情况下,将声门激励信号和声道冲击响应分离开来。最后只需对分离信号进行逆变换 与指数运算即可恢复原来的卷积信号。 ( 4 ) 线性预测分析 线性预测【2 】分析的基本思想是:由于语音样点之间存在相关性,所以可以用过去的 样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它 们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达 到最小值来决定唯一的一组预测系数。现代语音编码的声道模型参数估计大多都基于线 性预测分析方法。 1 3 心理声学的概述 心理声学一词似乎很令人费解,其实很简单,它就是指“人脑解释声音的方式”。压 缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如,如果我 扯着嗓子喊一声,同时轻轻地踏一下脚,您就会听到我的喊声,但可能听不到我踏脚的 声音。通过去掉踏脚声,就会减少信息量,减小文件的大小,但听起来却没有区别。 心理声学模型【3 1 是对人听感的统计性质的数学表述模型,它解释人各种听感的生理 原理。由于人耳听觉系统复杂,人类迄今为止对它的机理和听觉特性的某些问题总是还 不能从生理解剖角度完全解释清楚。所以,对人耳听觉特性的研究目前仅限于在心理声 学和语言声学内进行。人耳对不同强度和不同频率声音的一定听觉范围称为声域。在人 耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、 高频定位等特性。其中响度、音度、音色可以在主观上用来描述具有振幅、频率和相位 三个物理是的任何复杂的声音,故又称为声音“三要素”【6 】;而对于多种音源场合的人耳 掩蔽效应等特性尤为重要,它是心理声学的基础。 心理声学的几个基本概念 ( 1 ) 等响度曲线【5 j 人的听觉的灵敏度随着频率而改变。即通常两个功率一样但频率不同的音调听起来 并不一样响。通过等响度曲线,我们可以看出,入耳对1 k h z 的频率最灵敏,即在1 k h z 下能被察觉出来的声音压力水平( 响度) ,在其他频率下并不能被察觉。这就给在一些不 太灵敏的频率下失真提供了条件。 ( 2 ) 屏蔽l 7 j 基于模块化的语音信号预处理 我们上高中物理时学过屏蔽,就是强的声音信号把弱的声音信号覆盖,导致我们无 法察觉。而且,当两个声音在时间和频率上很接近时,屏蔽效应就会很强。因此,我们 可以在编码时对被屏蔽的部分不编码、不传送。这样,音质依然没有大的损失,入耳也 不易察觉。 ( 3 ) 临界频带哺】 对于人类的听觉来说,对声音的感知特性并不是以线形频率为尺度来变化的( 人的 听觉还没那么好) ,而是可以用被称为临界频带的一系列有限的频段来表达。简单的说, 把整个频带划分成几段,在这每个频段里,人耳的听觉感知是相同的,即心理声学特性 都是一样的。 1 4 自动电平控制的理论背景 自动电平控铜 ( a u t o m a t i cl e v e lc o n t r o l ,简称a l c ) 由两部分组成:语音激活检测单 元和自动增益控制单元。这种a l c 技术可以实时、自动地调整装置增益变化( 放大或衰 减) ,使传输电路中的信号电平保持在预设值附近。该技术还可以通过改变信号的频率 响应或者频谱内容来使信号电平得到变化。 a l e 系统处理的信号是不连续的,例如在通话过程中,人讲话是间断的。当通话处 于空话阶段,传送的信号只含有噪声,这些噪声可能是背景环境噪声,也可能是某些语 音编码器输出的舒适噪声。即使不能从语音中分离噪声,系统也应能在空话时控制a l c 操作,不对噪声或静音进行电平控制;一旦再次检测到有伴随噪声的语音,a l c 装置应 被再次激活。 上述分析使用的方法就是语音激活检测( v a d ) 。该方法通过检测输入信号的特性, 在噪声环境下分辨当前语音信号是语音还是静音,并做出判决指示( v a d 的指令输出) 。 虽然v a d 的判决指示只是个开关量,但其对整个a l c 系统的控制优劣起到了非常重要 的作用。v a d 主要是利用人类语音的统计特性,如幅度、能量、准周期性、过零率、 频域特性等,按照最大似然的原则进行判决。各种算法的基本思想就是提取某种能够区 分语音和噪声的语音特征参数;或对语音信号加以变换,得到对语音和噪声有明显差别 的结果,从而找出二者的分界点。还可以同时利用多个语音特征进行语音检测1 9 j 。 按照协议规定,a l c 系统在不影响传输信号尤其是语音的质量的前提下,采用信号 增益控制,根据指定的输出电平,自动调整输入信号电平的大小。 1 5 噪声消除的应用背景和分类 人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通 信设备内部电噪声乃至其它讲话者的干扰。这些干扰最终将使接收者接收到的语音已非 一6 一 大连理工大学硕士学位论文 纯净的原始语音信号,而是受噪声污染的带噪语音信号。 由于噪声污染使许多语音处理系统的性能急剧恶化。在噪声环境中尤其是强噪声环 境,语音识别系统的识别率将受到严重影响。语音编码,特别是参数编码( 如:声码器) , 当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音的质量将急剧恶 化,甚至变得完全不可懂。在上述情况下,消噪作为一种预处理手段已经在语音处理中 必不可少了。 由于干扰的随机性,从带噪语音中提取完全纯净的语音几乎不可能。单信道语音消 噪方法种类繁多,它们都是根据噪音信号和语音信号的特征作具有针对性的研究。 对各种方法加以概括,大致将语音增强【1 1 1 方法分成如下五类: ( 1 ) 参数方法:如维纳滤波、梳状滤波器、卡尔曼滤波器等。此类方法依赖于使用的语 言生成模型( 例如a r 模型) ,需要提取模型参数( 如基音周期、l p c 系数) ,常使用叠 代方法。如果实际噪声或语音条件与模型有较大差距或提出模型参数有困难,这类 方法容易失效。 ( 2 ) 非参数方法:如谱减法、自适应滤波等。因为不需要从带噪信号中估计模型参数, 非参数方法应用范围广,限制较少。也因为约束条件少,没有利用可能的统计信息, 结果一般不是最优的。 ( 3 ) 统计方法:如隐马尔科夫模型、纯净语音谱和带噪语音谱对应映射、极大后验概率 估计( m a p m a x i m u ma - p o s t e d o d ) 、最小均方误差估计( m m s e m i n i m u mm e s _ ns q u a r e e r r o r ) 等。统计方法较多地利用了语音和噪声的统计特性,一般需要建立模型库。 ( 4 ) 多通道方法:如噪声抵消法、延迟相加波束形成器( d e l a y s u mb e a m f o r m e r ) 、自 适应波束形成器( a d a p t i v eb e a m f o r r n e 0 、后滤波波束形成器( p o s t - f i l t e r i n gb e a m f o r m e r ) 、独立分量分析( i c a i n d e p e n d e n tc o m p o n e n ta n a l y s i s ) 等。多通道方法利用 了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件设备要 求高,算法一般较复杂。 ( 5 ) 其他方法:如小波滤波、卡维南一洛维变换、人工神经网络等。这些方法不像前几 类方法那样成熟。 这些方法间没有太大的内在联系,各自有各自的优缺点。其中谱减法适用于平稳噪 声背景或者缓慢变化的非平稳噪声环境,且无需知道噪声的先验知识,以其简单有效而 深受人们的重视。本文就是基于谱减法的一种改进方法,利用听觉掩蔽的作用来减小音 乐噪音的影响。 基于模块化的语音信号预处理 1 6 自激的形成及孔p s f j 方法的概述 在扩声系统中如图4 1 所示,常存在正反馈而产生的振荡,即自激【1 3 j 。按照振荡形成 的原理,一个系统只有在满足以下两个条件时才能形成振荡,即振幅平衡条件和相位平衡 条件例。所谓振幅平衡就是当某频率的反馈信号幅度大于此频率原先输入信号的幅度时 引起的振荡,或者说,系统对某频率的闭环电压放大倍数大于1 。所谓相位平衡是当某频率 的反馈信号与此频率输入信号同相位时引起的振荡,即必须构成正反馈才能引起振荡。 在宽频带的噪音环境中,很容易产生满足振荡条件的信号频率点进入传声器变成电 信号,并且通过从调音台到功率放大器等设备的放大,再经过扬声器系统变成声信号辐 射出来,经过某个途径重新回到传声器,由于此频率信号在整个扩声系统中的闭环电压 放大倍数已满足大于1 的条件,所以再次进入传声器时,就比原先进入传声器的信号幅 度要大,那么经过一个新的循环后在幅度上比第一次从扬声器出来后返回传声器的信号 幅度大一些,如此一个循环、一个循环地反复放大,信号幅度也越来越大。通过若干次 循环后,从扬声器辐射出来的声音已达到可以感觉到的响度,此时就觉察到啸叫的苗头 纠。继续循环下去,声音会越来越大,最后达到不能忍受的程度。当然这个过程比电子 电路中振荡形成的时间要长得多。因为在扩声系统的闭环中有一个扬声器辐射出来的声 信号从扬声器系统经过空间传播,或者再加上传播到某个界面后反射出来的声波再在空 间传播后到达传声器这个过程,而声波在空间传播的速度比较低,按照每秒传播3 4 0m 的速度计算,如果扬声器辐射出来的声波通过某个途径返回到传声器需要走1 7m 路程的 话,并且不考虑电信号在设备电路中传播所需的时间,一个闭环循环需要5 0m s 。假设闭 环增益为ld b ,也就是闭环电压放大倍数为1 1 2 ,稍大于l ,假定最初进入传声器的该频 率噪声信号声压级为2 0d b ,则达n 6 0d b 这个已经能听出啸叫苗头的声压级需要循环4 0 次,即需要2s 。这时如果不尽快将系统对此频率的闭环电压放大倍数拉下来,使之闭环 电压放大倍数降到小于1 ,就形成了啸叫声。 “c “氇由 i o u db - p e a l l c a ) s ) a s t c r n 图1 1 音频放大系统中的反馈 f i g 1 1 t h ef e e d b a c ko fa u d i oa m p l i f ys y s t e m 引起扩声系统自激的条件:一是某一反馈频率的相位与输入频率的相位相同:二 是反馈的量要足够大。要防止声反馈就必须抑制它产生自激的条件,通常抑制啸叫的方 一8 一 大连理工大学硕士学位论文 法i b j 有: ( 1 ) 在扩声系统设计、安装时采取措施,尽量减小可能的声反馈。例如选择频率响应平 直的电声器件;利用电声器件的指向性降低声反馈;利用均衡技术抑制声反馈等。 ( 2 ) 利用中心频率位于啸叫频率点处的陷波滤波器对输入信号进行陷波处理,降低发生 啸叫频率点处的开环增益,抑制声反馈量。该方法简单有效,但对音质有影响。 ( 3 ) 采用移频技术,破坏啸叫的相位条件。然而这种方法的啸叫抑制效果并不好,常常 控制了一个频率点的啸叫,系统又会在另外一个频率点啸叫经试验表明,当移频较 大时,一句话的结尾处会出现金属拖尾声,对音质有一定的影响。 ( 4 ) 采用自适应回音抵消器,通过消除扬声器到传声器的回音来抑制啸叫。该方法效 果很好,同时也不会对语音音质产生任何影响,但是其算法很复杂。因此,实现所 需要硬件成本很高。 ( 5 ) 随机相位抑制啸叫方法,这也是本文所用的方法。这个方法利用了人类对语音相位 不太敏感的特点,破坏产生自激的条件,从而达到抑制啸叫的作用。这个方法也可 以提高传输增益。 1 7 高电平补偿的应用背景 人的耳朵听觉频率可以从2 0 h z 2 0 k h z ,它的下端次声波和它高端超声波是听不到 的。人们把2 0 h z 2 0 k h z 之间的频率划分为几个区,如高中低三个区【1 4 1 。不同的说话人 发出声音的频率范围也不同。男人的声音整体比女人声音的频率范围低,同一个人发出 不同的音时,频率值也不同。因为人耳所具有的特殊结构,对于不同的频率范围,语音 信号的主观感觉也不同,所以才会出现当一个人用同样功率大小的声音说话时,对方听不 清楚某个字或某个音的状况。等响度控制是一种带补偿的音量控制器。它能补偿人耳在 不同音量情况下对频率特性的主观差异,使音量不论开大开小,听觉感受只是声音的响 度发生变化,而其频响不变。声音的响度与声压有关。一般情况下,声压较高,响度也 越大。但人耳对不同频率声音的响度主观感觉是不同的。在音量较低的情况下,总是对 中音比较敏感,而对低音和高音的比较迟钝,而且音量越低,这种情况越显著。 从声学的角度来看,这一领域的研究人员通过长时间的实践研究,得出了等响度曲 线,找出了其中的规律。本文主要研究通过将等响度曲线的各点与语音信号的频域范围 的声压级各点加权来得到主观听觉上的等响效果。 一9 一 基于模块化的语音信号预处理 1 8 本文工作 本文首先介绍了语音信号处理的基本分析方法,并概述了心理声学对语音信号处理 的影响。然后,分别介绍了语音预处理的几个模块,其中为自动电平控制,自适应噪声 抑制,自激抑制,高电平补偿的基本原理,实现方法和性能分析评估。 本章是概述,本文的其他章节安排如下: 第二章介绍了自动电平控制方法中的两部分实现,其中v a d 的原理与d b m o 的 计算,以及该方法的性能分析。 第三章简介了谱减法和听觉掩蔽的基本原理,以及将其应用到其中的改进消噪法 的实现和评估。 第四章介绍了h o w l i n g 的形成和随机相位的h o w l i n g 抑制方法的实现与仿真评估。 第五章介绍了等响度曲线的概念以及高电平补偿的实现方法与结果分析。 最后部分是对全文工作的概括和总结,以及对语音信号预处理系统的下一步研究方向的 展望。 大连理工大学硕士学位论文 2 自动电平控制 2 1 基于r m s 自动电平控制方法的提出 自动增益控制( a u t o m a t i cg a i nc o n t r o l ,a g c ) 技术在数字通信、语音处理、测试设 备等多方面的应用十分广泛【i 引。传统的自动增益控制都是用模拟电路实现,其性能很大 程度上受电路本身如响应时间、动态范围等的限制。在a g c 系统中使用数字信号处理 方法,可避免控制电路的影响,设计灵活、精度高、控制范围大,更有效地提高自动增 益控制的性能。 对于经过通信传输或者放大系统的语音信号幅度经常发生很大波动这种现象,a l c 系统通过实现一种优化语音信号电平的方法,提高语音质量。自动电平控制( a u t o m a t i c l e v e lc o n t r o l ,a l c ) 与自动增益控制都是为了把信号电平调整至最优值【l5 1 ,但前者主要 用于语音信号处理上;传统a g c 则是连续地调整系统增益以控制传输信号幅度。 本文的a l c 系统是建立在语音激活检钡u ( v a d ) 基础上的实时调整语音信号电平的 技术。首先,根据语音信号的短时平稳性,将语音信号分段处理。利用语音帧之间的相 关性,计算出当前帧与相邻帧的长时功率值,再与预设值作比较得到增益值,用这个值 调整当前帧的电平。由于人的语音信号是不连续的,存在非语音帧的情况。如果不考虑 语音帧和静音帧的分类,直接计算增益值,就会将噪音信号帧作为参考计算进去。但背 景噪音与语音信号间没有必然的相关性,这样直接计算反而会引起语音信号的不稳定。 所以在自动增益控制之前加一个v a d 检测部分,先将语音信号分成两类,语音帧和静音 帧。再以归类为语音帧的信号作为参考计算长时功率值与一个标准值进行比较调整。如 果遇到静音帧则可忽略,利用其前一个语音帧作为下一个语音帧的调整参数。调整趋势 图如图2 1 ,结构图如图2 2 ,。 一一:二:二二:= = - 判决门限 一一一一一一 一 图2 1调整的趋势图 f i g 2 1 t h et r e n do ft h ea d j u s t i n gp r o c e s s 基于模块化的语音信号预处理 图2 2 自动电平控制的结构图 f i g 2 2 t h es t r u c t u r eo f a u t o m a t i cl e v e lc o n t r o l 2 2 两级动态v a d 检测 2 2 1 基本的v a d 检测参数 v a d ( v o i c ea c t i v i t yd e t e c t o r ) 语音激活检测,是指采用一定的信号处理技术检测信号 是否是语音信号,或信号中是否含有语音信号。v a d 的主要方法是利用人类语音的统计 特性,如幅度,能量,过零率,准周期性,频率特性等,按照最大似然的原则进行判决 1 1 6 j 。各种算法的基本思想是提取某种能够区分语音和噪声的语音特征参数,或对其加以 变换,得到对语音和噪声有明显差别的结果,从而找出两者的分界点,或依据多个语音 特征进行语音检测。 下面将分析各种经典检测算法提取特征参数【1 6 1 刀的有效性及其优劣。 1 短时能量检测 通常在信噪比较高的情况下,语音的能量总是要大于背景噪声的能量,所以短时能 量检测就利用语音和噪声能量上的差别进行检测。如果语音能量大于阈值,就判断为语 音,反之判为静音,判断过程如下 e = s 2 ( f ) w z 一f )( 2 1 ) z = - o o 其中,s ( f ) 是语音信号,w ( n ) 是短时窗设定一个判决门限口,则判决结果为 大连理工大学硕士学位论文 l o 苌: 亿2 , 但它不能非常有效地检测清音,即可能存在漏检的现象,将能量小的语音判为静音, 或把能量大的噪音误判为语音。 2 短时自相关函数检测 短时自相关函数是语音信号时域分析的一个重要参量,利用语音和噪声在相关性上 不同这个特性进行区别检测。大多情况下背景噪声是一种准白噪声,其相关度极低,而 语音是具有高度相关性的信号,并且相关性与信号的能量无关,所以当信号的能量大小 接近或低于背景噪声时,通过自相关检测也能很好的分别语音和静音。 r ( 七) = s ( i ) w ( n - i ) s ( i + k ) w ( n - i - k ) ( 2 3 ) 这里,窗长为0 刀n - i 。它的判断过程同短时能量类似,它的判决门限是利用前 2 0 帧计算得到: r 咒= 丽1 - vr ( f ) ( 2 4 ) 咒2 丽去r u ) 蟛4 但是由于清音的相关性也较小,有时会被判为噪声,所以在以清音开始或结束的语 音中使用短时自相关函数进行检测可能会产生断断续续的感觉。 3 短时平均过零率检测 语音信号是宽带信号,应用短时平均过零率的表示方法可以得到语音信号谱特性的 粗略估计。因为浊音语音能量约集中在3 k i - i z 以下,而清音语音的多数能量是出现在较高 的频率上,高频具有较高的过零率,而低频则较低。而噪声的过零率一般没有规律,是 随机分布的,过零率大小介于清音与浊音之间。大量的实验数据说明,清音的短时平均 过零率均值为4 7 过零1 0 m s 。浊音的短时平均过零率均值为1 4 过零1 0 m s 1 8 1 。用短时过零 率算法检测时,通常是通过计算每帧信号的过零率z ( n ) 再将它与设定的阈值相比较, 即 唧m = 二。= 亿5 , z ( 刀) = s g n 【x ( f ) 卜s g n x ( f 1 ) 】i ( 2 6 ) 基于模块化的语音信号预处理 利用过零率作检测所得到的结果如下 0 5 0 旬5 柏 2 0 0 u i 一 l f r t l ” 一 , 【 耳 如图2 4 所示,在背景噪声环境下,背景噪声的过零率明显大于浊音信号,我们可以 判断出当前帧是否为语音信号。但是由于混合语音中清音的过零率与噪声相当,所以很 多时候无法判断出以清音作为起点或者终点的语音。所以在某些语音环境中只使用过零 率检测可能正确率不会很高。 4 短时平均幅度差函数 短时自相关函数是语音时域分析的一个重要参数,但其运算量很大,对硬件要求也 较高。而短时平均幅度差函数与自相关函数有相似的作用,例如判断清音段和浊音段, 但是运算量和对硬件的要求可以降低很多。短时平均幅度差函数定义为: c ( 七) = i 1 i x o + 历) 嵋( 聊) 一x ( 疗+ 朋+ 七) ( 所+ 七) i ( 2 7 ) 式中,尺= l x ( 刀) l 是信号x ) 的平均值。这里使用矩形窗作为窗函数,两个窗长度不 n = 0 同,这样,上式可简化为: 大连理工大学硕士学位论文 驰) = 去篓m 叫枞) i ,七- 0 l ,一,一l ( 2 8 ) 由于短时平均幅度差函数只需要加、减法和取绝对值的运算,硬件实现较为简单。 0 一j l 】 l 眦。址一。山h i 芬 r 一?r l r r 一 开 耵1f i - 图2 6 语音信号的幅度差 f i g 2 6 s h o r t - t i m ea v e r a g em a g n i t u d ed i f f e r e n c e 综上,各个参数的性能指标归纳如下表。 表2 1 各种检测算法及性能指标 t a b l e 2 1a l lk i n d so fd e t e c t i o na l g o r i t h m sa n dp e r f o r m a n c ep a r a m e t e r s 性能指标 计算 区分清浊音有效性区分清噪音有效性 检测算法复杂度纯净语音混合语音纯净语音混合语音 短时能量 简单一般较低一般很低 短时自相关 复杂较高一般较高一般 短时平均过零率简单很高很高较低较低 短时平均幅度差简单较高较高较高一般 基于模块化的语音信号预处理 2 2 2 基于过零率和平均幅度差的二级动态语音激活检测算法 由于语音和噪音的多样性和各种静音检测算法提取的特征参数不同,使用单一的静 音检测算法在很多情况下并不能有效检测静音和语音;而多级静音检测算法综合多种特 征参数,检测效果比单一检测要好得多。但是每增加一级检测算法就增加一定计算量和 算法复杂度,导致处理时延增加,两在一定级数以后检测精度也不再增加,所以多级静 音检测的级数也不宜太多,一般选取2 、3 级为宜。 本文使用两级检测算法,从上表可以看出当短时能量在强噪声环境下进行检测时, 效果很差,不适合实际应用。短时平均过零率具有很强的区分清浊音的能力,可以将其 作为第一级检测,根据浊音的过零率远小于噪声的前提条件,直接将浊音部分判断为语 音。对于当清音的过零率与噪音的过零率比较接近的情况,将短时平均幅度差函数作为 第二级检测以提高清音在混合语音中检测的准确率。短时自相关检测算法性能较好,但 计算复杂度较大,而短时平均幅度差函数不仅可以达到与短时自相关函数相近的检测效 果,而且计算简单,所以选择短时平均幅度差函数作为第二级检测算法,如图2 7 所示。 首先,对语音信号进行分帧,利用前2 0 帧计算出短时平均过零率和短时平均幅度 差的判断阈值的初始值,即 2 0 = 去z ( 刀) ( 2 9 ) un = l 1 1 2 0 r f = 熹c ( 刀) ( 2 1 0 ) l v 开= l 其中n 为语音帧数。 第二,对输入信号帧作第一级检测,利用式( 2 5 ) 、( 2 6 ) 计算出该帧的过零率与阈值 比较。当大于阈值时,进入第二级检测;当小于阈值时,直接输出v a d 判断为l 。 第三,用式( 2 8 ) 计算进入第二级的信号帧,让它与阈值作比较。大于阈值时,v a d 输出l :小于阈值时,v a d 输出o 。 因为背景环境具有随机性,为使判断更加准确,在每次检测到静音帧时,就更新背 景噪声的过零率和短时平均幅度差的判决门限。这样的v a d 检测在变化的环境中就更 具有鲁棒性。 大连理工大学硕士学位论文 初始语音 i 信号分段 1r 阈值初始化 图2 7v a d 检测算法的结构图 f i g 2 7 t h es t r u c t u r eo fv a da l g o r i t h m 2 2 3 动态二级m a d 检测的性能分析 作为自动电平控制的前提条件,这部分性能的好坏直接影响到整个自动电平控制的 性能的好坏。要实现实时的调整信号电平的功能,就应该尽量减小v a d 检测所带来的时 延。该动态的二级检测算法就是从减小计算量,抗变化噪声环境的角度设计的。如图2 8 所示,这是一段信噪比为9 2 d b 的语音信号,从图中可以看出,该方法检测具有较高的 分辨率,能检测出语音信号间的间断部分。但该方法对于语音信号末端的缓变部分会有 一些损失,在a l c 系统中影响不大。 大连理工大学硕士学位论文 做,虽然计算简单,时延小,但也存在着风险。如果噪音能量很大,则很可能没办法准 确判断出参数计算帧,所以也不适合。 第三,采用v a d 检测,先判断出语音帧,再根据语音帧之间的相关性,利用前一语 音帧算得的调整参数帧,调整当前帧。如果判断出不是语音帧,则可使用上一次存储的 参数调整。直到下一个有效的语音帧更新的参数。这个方法很容易使调整参数变化太快, 而使语音信号失真。 2 4 2r m 8 增益控制算法的实现 a l c 系统必须具备以下技术特性: ( 1 ) 实时、自动地调整系统增益,控制话路中的信号以接近目标电平值传输。 ( 2 ) 可区分噪声与有用信号,仅对有效语音信号进行电平控制。 本文实现的是基于r m s 功率比较的自动增益控制算法,在保证语音质量的同时实现 自动电平控制,如图2 1 所示。对经v a d 检测被判断为语音信号的各帧作r m s 功率估计, 即 1 , 2 丘= 寺i 以( ,z ) l k = l 2 一 ( 2 1 2 ) 疗= l 是每帧语音的样点总数,以( ,z ) 是信号样点幅值,k 代表输入的帧序号。式( 2 1 2 ) 计算 的单帧语音功率用于更新长时r m s 功率估计值s ( k ) s ( k ) = o t s ( k - 1 ) + ( 1 - a ) x :,s ( o ) = 0 ( 2 1 3 ) 功率平滑因子0 口 l ,口值越大,最近输入的一帧语音能量对s ( 七) 影响越小,此时s ( 七) 变换趋于平缓,更利于反映较长时间内的信号能量均值。但口取值非常接近l 时,s ( k ) 的 变化相当缓慢而无法体现语音的瞬时变化,反而造成控制处理失真。 为求得功率估计与目标电平的偏差,要先将功率值转换到与目标电平相应的对数 域,即 d b s ( k ) = 1 0 l g s ( k ) ( 2 1 4 ) 利用目标电平与功率估计均值的偏差,可计算a g c 的增益因子 g ( 尼) = g ( k 1 ) + ( 卜) 1 0 卜册) | ,2 0 ( 2 1 5 ) 其中,g ( k ) 是当前一帧语音的增益。目标电平t 以d b 为单位,丁与d b s ( k ) 两者的差值 基于模块化的语音信号预处理 以及增益平滑因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宠物美容AI技术面试题库
- 2025年安全战略填空题库
- 2025年导盲犬训练高级面试实战题库
- 2025年广播电视台后期制作面试常见问题解答
- 2025年语音合成师职业发展面试题及答案
- 2025年高效学习方法与技巧高级笔试预测题
- 2025年地震救援面试重点题解析及答案
- 2025年建筑装饰设计师专业技术考核试卷及答案解析
- 课件中控件的使用
- 2025年环保工程技术师资格考试试题及答案解析
- 2025北京平谷区初三二模数学试题及答案
- 2025年中级会计职称考试经济法冲刺试题及答案
- 乐器供销合同范本
- 2025年辽宁省中考生物学试卷真题附答案
- 2025-2030牛肉分销渠道冲突与供应链协同优化报告
- 《法律职业伦理(第3版)》全套教学课件
- 2025年青岛市崂山旅游集团招聘考试笔试试题
- 2025年秋季新学期全体中层干部会议校长讲话:在挑战中谋突破于坚实处启新篇
- 2025年幼儿园保育员考试试题(附答案)
- 2025年上半年中国铁路兰州局集团有限公司校招笔试题带答案
- 《物联网导论》课程标准
评论
0/150
提交评论