(信号与信息处理专业论文)基于emd的语音信号检测与增强方法研究.pdf_第1页
(信号与信息处理专业论文)基于emd的语音信号检测与增强方法研究.pdf_第2页
(信号与信息处理专业论文)基于emd的语音信号检测与增强方法研究.pdf_第3页
(信号与信息处理专业论文)基于emd的语音信号检测与增强方法研究.pdf_第4页
(信号与信息处理专业论文)基于emd的语音信号检测与增强方法研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(信号与信息处理专业论文)基于emd的语音信号检测与增强方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于e m d 的语音信号检测与增强方法研究 摘要 语音检测和增强作为语音信号的前端处理方法,其准确性在很大程度上直接决定着 后续处理如语音识别、语音编码的效果。有效的端点检测方法不仅能够减少数据存储量、 缩短信号处理时间,而且能够排除无声片段的噪声干扰;语音增强则可以改善语音信号 质量、提高信号可懂度、方便听着理解。现有的语音检测和增强方法在弱背景噪声环境 下能够取得较好的效果,然而现实环境中的噪声成分往往较多,为此,低信噪比条件下 能否有效地进行语音信号检测和增强具有重要意义。 经验模态分解算法作为一种全新的信号处理方法,在对非平稳信号分析方面表现出 了较大的优越性,已成为了处理非平稳信号的种有效工具。语音信号作为一种典型的 非线性非平稳信号,基于经验模态分解的时频分析为语音信号处理提供了新的手段和方 法,为噪声环境中的语音端点检测和语音增强开辟了新的有效途径。本文针对经验模态 分解算法在语音信号检测和增强方面的应用,展开了深入的研究,提出了新的有效方法, 主要工作如下: 1 、详细阐述了语音信号处理的基本知识,对现有的语音检测和增强方法进行了对 比分析;针对经验模态分解算法进行深入研究,探讨其基本特性以及存在的问题,并利 用该算法对语音信号进行精细的时频结构分析。 2 、提出了一种基于经验模态分解和顺序统计滤波的语音端点检测方法,解决复杂 背景噪声环境下的低信噪比语音端点检测问题。该方法将含噪语音信号进行经验模态分 解,通过对固有模态函数进行自适应权重选取获得信号的希尔伯特能量谱,利用顺序统 计滤波器对每帧的能量谱进行平滑处理作为语音和非语音的鉴别特征。实验结果表明, 该方法适用于复杂噪声环境的端点检测,在低信噪比情况下仍然能够有效地检测出语音 信号,降低信号误检率。 3 、提出了一种基于经验模态分解的谐波重建语音增强方法,解决低信噪比情况下 经验模态分解质量下降以及去噪后语音谐波失真f = l 题。该方法采用自适应噪声抵消技术 进行预处理,利用噪声问的相关性,消除部分宽频干扰白噪声,针对高低频固有模态函 数采取不同的手段,利用语音信号中浊音的周期特性对语音信号进行谐波重建,恢复丢 失的高次谐波。实验结果表明,该方法能明显提高带噪语音的信噪比,改善语音的质量 使语音信号可懂度得到了进一步增强。 哈尔滨工程大学硕士学位论文 关键词:端点检测;语音增强;经验模态分解;顺序统计滤波;谐波重建 a b s t r a c t v0 1 c e a c t 1 t yd e t e c t i o na n ds p e e c he n h a n c e m e n ta r ef r o n ts p e e c hs i g n a l p r o c e s s i n g m e t h o d s , a n dt h e i r a c c u r a c yw i l ld e t e r m i n et h es u b s e q u e n t p r o c e s s i n g s u c ha ss d e e c h r e c o g n l t l o n ,s p e e c hc o d i n gr e s u l t sl a r g e l y e f f e c t i v ev o i c ea c t i v i t yd e t e c t i o nm e t h o dc a n n o t o n l yr e d u c et h ea m o u n to fd a t a s t o r a g e ,s h o r t e nt h es i g n a lp r o c e s s i n gt i m e ,b u ta l s oc a n e 1 1 m l n a t es i l e n t c l i p so ft h en o i s e ;s p e e c he n h a n c e m e n tc a ni m p r o v et h eq u a l i t vo fv o i c e s l g i l a l ,1 m p r o v es l g n a l i n t e l l i g i b i l i t ya n dh e l pl i s t e n e rt ou n d e r s t a n d n o w ,t h ec o m m o n l v u s e d m e t h o dc a na c h i e v eg o o dr e s u l t si nw e a kb a c k g r o u n d n o i s e ,b u tt h en o i s ec o m d o n e n t sa r e m u c hm o r e1 nr e a l i s t i ce n v i r o n m e n t w h e t h e rc a n d e t e c tt h ee n d p o i n ta n de n h a n c et h es d e e c h s l g l l a ie f f e c 1 v 刚yh a v et h ei m p o r t a n t m e a n i n gi nl o ws i g n a lt on o i s er a t i o ( s n r ) c o n d i t i o n s a 8an e ws l g n 引p r o c e s s i n gm e t h o d ,e m p i r i c a lm o d e d e c o m p o s i t i o n ( e m d ) s h o w st h e g r e a ts u p e n o n t yi n n o n - s t a t i o n a r ys i g n a la n a l y s i s ,i th a sb e c o m ea n e f i e c t i v et o o lf o r n o n - s t a t l o n a r ys l g n a lp r o c e s s i n g s p e e c hs i g n a li sat y p i c a ln o n 1 i n e a ra n dn o n s t a t i o n a r v s l g n a l ,t h et l m e - f - r e q u e n c ya n a l y s i sb a s e do ne m d p r o v i d e san e wm e a n sa n dm e t h o d sf o r s p e e c h8 1 9 n a lp r o c e s s i n g ,a n do p e nu pan e w e f f e c t i v ew a yf o rv o i c ea c t i v i t yd e t e c t i o na n d 8 p e e c he n h a n c e m e mi nn o i s ye n v i r o n m e n t t h i sp a p e rs t a r t i n d e p t hr e s e a r c ha n dp r o p o s e n e we f f e c t l v em e t h o df o rs p e e c hs i g n a l d e t e c t i o na n de n h a n c e m e n tb a s eo ne m d ,t h em a i n w o r ki sa sf o l l o w s : 1 1n 1 8p a p 盱d e s c r i b et h eb a s i ck n o w l e d g e o ft h es p e e c hs i g n a lp r o c e s s i n g ,a n a l y s et h e e x l s t m gv o i c ea c t i v i t ed e t e c t i o na n d s p e e c he n h a n c e m e n tm e t h o d ;i na l l u s i o n t oe m d a l g o n t h mm a k ea 如r t h e r r e s e a r c h ,d i s c u s s e st h eb a s i cc h a r a c t e r i s t i c sa n d e 蜥n gp r o b l e m s u s ee m d a l g o r i t h mt oa n a l y s et h ef i n et i m e f r e q u e n c ys t m c t u r eo f s p e e c hs i 酬 z l h eh 1 l b e n e n e r g ys p e c t r u mc u r v eo fs p e e c h s i g n a l i sf l u c t u a t ei n s t r o n gn 。i s e e n v l r o i l n l e n t i th a sa g r e a ti n f l u e n c et ov o i c ea c t i v i t yd e t e c t i o n s oa 1 1e f i e c t i v ev o i c ea c t i v i t v d e t e c t l 龇g o f i t h mi s p r o p o s e db a s e do nh i l b e r t - h u a n g t r a n s f o r m ( h h t ) a n d0 r d e r s a 1 8 t l c 8 f i l t e 。( o s f ) i nt h i sp a p e r t h i sm e t h o df i r s td e c o m p o s en o i s es i g n a ii n t o i n t r i n s i c m 。d em n c t l o n sb ye m d t h e n t h eh i l b e r t e n e r g ys p e c t r u mi ss y n t h e s i z e db ya d a p t i v ew e i 妫t s e l e c t l o no fe a c hi n t r i n s i c m o d ef u n c t i o n s ,t h r o u g ho s ft o s m o o t ht h ee n e r g ys p e c t r u m f i n a l l y , t h e8 p e e c ha n dn o i s ed i v e r g e n c ei sj u d g e db ym e a n s o ft h es m o o t h e de n e r g y s p e c t r u m e x p e r i m e n t a lr e s u l t ss h o wo b v i o u s l yt h a tu n d e rc o m p l e x n o i s ye n v i r o n m e n t t h i sm e t h o d1 5 s t i l la b l et oe f i e c t i v e l yd e t e c tt h es p e e c hs i g n a l ,a n dr e d u c et h ee r r o rd e t e c t i o nr a t e i nl o w s n rc o n d i t i o n s 3 d u et ot h ed e c r e a s eo fe m dq u a l i t ya n dt h ed i s t o r to f v o i c eh a r m o n i ca f t e rd e n o i s ei n 1 0 ws i g n a lt on o i s er a t i oc a s e s , a ns p e e c he n h a n c e m e n tm e t h o dw a sp r o p o s e d b a s e do ne m d t oi m d r o v et h es p e e c hi n t e l l i g i b i l i t y t h i s m e t h o df i r s t l yt h r o u g ht h ea d a p t l v e n 0 1 s e c a n c e l l a t i o nt e c h n o l o g yt op r e t r e a t m e n tt h es p e e c hs i g n a l ,e l i m i n a t e d i n t e r f e 。e n c eo fw h l t e n o i s ea n dp r o m 。t ee m dq u a l i t y , t h e ng o t d i f f e r e :n ts c a l e s 。fi n t r i n s i cm o d ef u n c t i o n sb ye m d , c h o s ed i 虢r e n td e n o i s i n gm e t h o dt oh i g ha n dl o w f r e q u e n c yi n t r i n s i cm o d ef u n c t l o n 8 ,h n a l l y , u s e dt h eh 锄o n i cr e g e n e r a t i o nm e t h o dt o r e c o n s t r u c tt h ee n h a n c es p e e c h8 i g n a l ,p e 慨t e d t h e1 0 s th i 出t i i i l e sh 锄o n i cc o m p o s i t i o n e x p e r i m e n t a l r e s u l t ss h o wo b v i o u s l y h a t t h i 8 m e t h o dc a nn o to n l yi m p r o v et h e s n rb u ta l s op r o m o t es p e e c h8 i g n a lq u a l i t y ,f u r t h e r s t r e n g t h e nt h es p e e c hs i g n a li n t e l l i g i b i l i t y k e y w 。r d s :v o i c ea c t i v i t yd e t e c t i o n ;s p e e c he n h a n c e m e n t ;e m p i r i c a l m 。d ed e c 。m p 。s i t 岫 0 r d e rs t a t i s t i c sf i l t e r ;h a r m o n i cr e g e n e r a t i o n 第1 章绪论 第1 章绪论 1 1 课题研究背景及目的意义 随着科学技术的飞跃发展,我们已经迈入信息化时代。语音作为人类信息交流主要 的载体,在社会发展和科技进步中起着不可替代的重要作用。语音信号处理是一门交叉 学科,作为信息领域的核心技术之一,它广泛结合了语音学、数字信号处理以及心理学、 计算机科学等的知识。目前在人机交互、数字通信、多媒体信息处理等各个领域,语音 信号处理都有举足轻重的地位。 然而在实际应用中,噪声情况非常复杂,如周围环境中的噪声、通信设备的噪声、 不同讲话者的干扰噪声等等,这些噪声是不可避免的,或多或少的作用在语音系统上。 噪声的影响使得接收到的语音信号并非纯净语音信号,这将对语音处理系统的性能造成 严重的影响,甚至导致系统失效。例如在语音识别系统中,目前的语音识别方法大都是 在无噪或者高信噪比( s i g n a lt o n o i s er a t i o ,s n r ) 条件下实现的,如果应用到实际生产 生活中,由于受外界强背景噪声环境的影响,识别率会急剧降低,很难得到准确的识别 结果;在语音编码系统中,特别是参数编码( 如声码器) 中,作为其基础的语音生成模 型一旦受到外界强噪声的影响,则会降低提取到的模型参数的精准度,对重建语音信号 的质量带来了较大的损伤,影响语音信号的可懂度。 为改变上述复杂声学背景环境对语音信号处理带来的巨大影响,研究低信噪比条件 下的语音检测及增强算法具有重要的理论意义和应用价值。语音端点检测的主要作用就 是在复杂的背景噪声环境下寻找出所需的语音段的起止点,判断出语音段和非语音段。 准确的端点检测能够节省数据的存储空间、避免资源浪费,仅处理需要的数据信息,提 高信号处理效率,同时防止无声片段的噪声干扰口。语音增强则能够去除带噪语音信号 中的噪声成分,使其中的语音部分更加清晰,有助于听者接受、消除听觉疲劳;同时通 过语音增强处理后的语音信号可懂度能够得到提升,易于听着理解具体的语义信息4 1 。 利用语音增强方法进行预处理,能够有效的提升输入信号的信噪比,为搭建高抗噪能力 的语音处理系统提供可靠保证。 语音信号处理技术作为门信号处理学科的前沿科学,受到了国内外学者广泛关 注。本文将主要研究语音信号处理领域的端点检测及增强技术,利用经验模态分解方法 ( e m p i r i c a lm o d ed e c o m p o s i t i o n ,e m d ) ,为低信噪比条件下的语音检测与增强提供新颖 的、有效的解决方案。 哈尔滨工程大学硕士学位论文 1 2 国内外研究现状 1 2 1 语音端点检测研究现状 语音信号检测技术在现代通信技术中,凡是涉及到语音通信的,都具有重要的应用, 如语音增强、语音编码、语音识别等都需要一个高性能的语音信号检测算法。随着研究 的不断深入,端点检测的方法也日渐增多,并且在不断的研究改进。 1 9 7 8 年,r a b i n e r 等提出了基于短时能量和短时过零率的语音检测方法口1 ,该方法利 用浊音与清音特性不同来区别语音信号与背景噪声。1 9 8 7 年,w i l p o n 将语音信号的短 时谱分析概念引入语音检测领域,利用语音谱的峰值特征区分子词的分段点1 ;同年, f r a n d k s o o n g 提出通过求解复倒谱系数来判断语音起止点的方法。 1 9 9 1 年j a np v a nh e m e r t 发现可以以两帧信号的l p c 系数为依据,实现语音分段【7 1 , 1 9 9 3 年v r a l p ha l g a z i 提出了基于似然比例关系的语音端点检测方法,该方法对每帧语 音信号建立模型,以相邻模型的似然比例关系峰值点为判断依据降1 ,1 9 9 4 年e r d a l 实现了 一种基于语音参数的检测方法,利用语音信号的参数特征,通过数学公式推导获得语音 段和非语音段的特征区别,1 9 9 7 年s t a r t m c c l e l l a n 提出了- 9 中具有高抗噪性能的谱熵检 测方法,1 9 9 8 年h o n g t a o h u 提出将小波变换的技术应用于语音的起止点判定中,这种 方法计算简单而且结果准确,在语音端点检测领域实现了重大突破,1 9 9 9 年s o h n 等人 根据语音信号统计模型的似然比,实现了语音端点检测技术。 进入2 1 世纪以后,专家学者们对端点检测方法进行了更深入的研究,提出了许多 新的方法及改进算法。例如2 0 0 3 年g a z o r 等人率先展开了基于模型匹配的端点检测方 法,利用拉普拉斯概率密度函数建立语音模型实现了端点检测p 1 ,2 0 0 5 年s h i n 等经理论 推导建立了广义的丫分布模型,该模型相比高斯分布、拉普拉斯分布、丫分布均具有较 好的优越性:2 0 0 6 年提出基于短时分形维数的带噪语音端点检测方法,该方法利用语 音和噪声的分形维数的不同进行区分。除了上述方法以外,近来来还有一些取了的较好 检测效果的方法,如:基于频带方差的检测算法、利用神经网络实现起止点检测的方法, 基于隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的方法、以倒谱系数为判断依据 的检测算法、以及基于e m d 的检测方法等。 由于基于e m d 的方法对语音信号进行检测的快速发展,近几年,很多学者对其进 行了深入研究,提出如基于e m d 和改进双门限法的语音端点检测”“,基于e m d 和 t e a g e r 峭度的语音端点检测等改进方法。但是,这些方法针对0d b 以下的语音信号 端点检测问题仍然束手无策,很难达到准确检测的目的,而在实际应用环境中,噪声情 第1 章绪论 况十分复杂,强背景噪声环境随处可见,因此有必要针对复杂环境下的低信噪比语音端 点检测问题进一步的研究。 1 2 2 语音增强研究现状 作为语音通信和信号处理领域的一个重点研究内容,语音增强已经有几十年的发展 历史,从2 0 世纪6 0 年代的理论提出,到7 0 年代的飞跃发展,以及日后的不断研究改 进,专家学者们在语音增强领域取得了较多基础性的研究成果。 1 9 7 8 年l i r a 和o p p e n h e i m 依据维纳滤波器理论提出了最早的语音增强算法”2 | ;1 9 7 9 年s t e v e nf b o l l 提出了一种经典的语音增强方法即谱减法,该方法采用谱相减法对噪声 进行抑制,是弱噪声环境下的一种有效的语音增强方法”引,1 9 8 0 年m a u l a y 和m a l p a s s 实 现了基于软判决的噪声抑制算法,该方法对语音增强领域产生了较为深远的影响”, 1 9 8 4 年,e p h r a i m 和m a l a h 提出基于短时平均能量的谱幅度估计语音增强方法,1 9 8 7 年, p a l i w a l 将卡尔曼滤波技术引入语音增强领域,该方法结合了语音的生成模型,能够减 少“音乐噪声”干扰”。 随着语音信号处理理论的逐步完善和移动通信技术的飞速发展,语音增强领域在近 几十年也得到了突破性的进展,这期间涌现了很多新的方法和改进算法:基于信号子空 间的语音增强算法、利用小波变换及其改进方法实现的语音增强”“、通过离散余弦变换 进行的语音增强【1 7 、基于人耳听觉掩蔽效应的增强算法、利用人工神经网络实现语音增 强的方法,以及基于k l 变换的语音增强方法等。 自1 9 9 8 年美国学者n e h u a g 提出了h i l b e r t h u a n g 变换之后”引,利用e m d 的时频 分析特性进行语音增强也成为了最近几年一个研究热点,如k a i sk h a l d i 提出的基于 e m d 的语音增强方法,c h a t l a n i n 实现的自适应e m d 增强方法等”引。然而由于现实生 活中的噪声种类千差万别、特性各不相同,到目前为止,还没有一种语音增强方法能够 适用于所有的噪声类型,而且也没有一种方法能够满足既不破坏语音信号模型又能够实 现语音降噪,各种算法也只能在语音质量和可懂度中折中选取,所以,对语音增强领域 的研究仍然具有非常重要的意义和价值,仍需学者们的不断努力。 1 3 论文的主要工作和结构安排 本文主要研究基于e m d 的语音信号检测与增强方法。首先从语音信号的特点和 e m d 算法原理、特性入手,在此基础上,针对语音端点检测方法检测率低、误检率高 的问题提出了结合e m d 与顺序统计滤波( o r d e rs t a t i s t i c sf i l t e r o s f ) 的语音端点检测方 哈尔滨工程大学硕士学位论文 法;针对语音信号增强后舒适度、可懂度降低的问题提出了基于e m d 与谐波重建的语 音增强方法。论文的结构安排如下: 第1 章:介绍了本课题的研究背景及目的意义,分析语音检测和语音增强方法的国 内外研究现状,并给出了论文的主要工作和结构安排。 第2 章:介绍了语音信号处理的基础知识。首先给出了语音信号的特点与模型、语 音信号的预处理方法,然后对目前常用的语音端点检测、语音增强方法进行了具体的分 析。 第3 章:详细阐述了e m d 的基本理论知识。深入分析了e m d 的一些关键特征如特 征时间尺度、固有模态函数等,并给出了针对语音信号特点的e m d 的具体实现步骤, 最后探讨了方法本身存在的问题。 第4 章:提出了基于e m d 的语音端点检测方法。首先分析了用来表征语音能量特 征的希尔伯特谱的特性,然后介绍了文中用来平滑滤波的顺序统计滤波器的内容,最后 提出了一种结合e m d 和顺序统计滤波的语音端点检测方法,给出了详细的方法分析及 实现步骤,并通过仿真实例及对比实验验证了本文算法的有效性。 第5 章:提出了基于e m d 的语音增强方法。首先介绍了谐波重建的基本知识,分 析了谐波重建用于语音增强的可行性,然后提出了结合e m d 和谐波重建的语音增强方 法,给出了具体的理论分析以及实现过程,并从主、客观两方面探讨了语音增强的评价 准则,最后给出了算法的仿真结果,并通过评价准则证明了本文方法的优势。 第2 章语音信号处理基础 第2 章语音信号处理基础 2 1 语音信号的特点与模型 语音信号的幅频特性随时间的变化而变化,是非平稳信号的典型代表之一。语音作 为声音信号的一种,它包含着音质、音调、音强和音长的特性,同时还具有语义信息、 情感色彩,语音信号的频率受到人类发生器官的限制,一般是在3 0 0 h z 3 4 0 0 h z 范围内。 ( 1 ) 短时平稳性:语音信号的是由人的发音器官的振动作用产生的,而声音信号 的振动速度相比发音器官所做的物理运动的速度要快的多,在5 m s 4 0 m s 的范围内,语 音信号的性能特征保持相对稳定,因此认为语音信号具有短时平稳性。 ( 2 ) 清浊音特征:语音信号包含清音和浊音两部分,正是由于他们的特性不同组 合出了千变万化的声音信息,通过对语谱图的观察表明浊音信号具有周期性,含有表征 共振峰信息的横向波纹;而清音信号的纹理杂乱,无章可循,类似于白噪声。 ( 3 ) 统计特性:对语音信号进行周期性取样得到的取样序列是离散随机过程的取 样序列,可以用振幅概率密度函数、均值与白相关函数等统计量来描述它的统计特性。 完整的语音信号产生模型包括激励模型、声道模型和辐射模型| 2 川,他们之间的关系 可由下图表示: 随机噪声发生器一x 卜 i 振幅 激励模型 a 。 图2 1语音信号产生的线性模型 2 2 语音信号预处理 2 2 1 预滤波与采样 语音信号中浊音信号的频谱一般处于4k h z 以下,而清音信号的频谱即使达到了4 k h z 仍然具有上升趋势,因此若要能够避免混叠失真现象以及减少噪声干扰必须进行预 哈尔滨工程大学硕士学位论文 滤波处理,通常情况下采用带通滤波器来实现预滤波功能,因为频率范围在1 0 0h z 3 4 0 0k l z 内的带通滤波器在实现上述功能的同时能够有效抑制市电频率干扰。 经过滤波后,需要对语音信号采样,n y q u i s t 采样定理指出当采样频率f s m a x 大于 信号中最高频率f m a x 的2 倍时,采样之后的数字信号能够完整地保留原始信号中的信 息,因此在设定采样频率时,一定要满足n y q u i s t 采样定理的要求。 2 2 2 预加重 语音信号在发音过程中会受到声门激励和口鼻辐射的作用,这种作用将影响8 0 0h z 以上的信号的高频部分,使其按6d b 倍频程衰减,虽然语音信号的高频成分较少,但 是却包含着许多重要的语音特征信息,因此我们要通过预加重来抑制这种高频衰减,平 坦信号的频谱,为后续的频谱分析或声道参数分析提供可靠保障。 预加重数字滤波器设计如下: h ( z ) = 1 一肛叫 ( 2 - 1 ) 式中的取值接近于1 。 2 2 3 分帧和加窗 预加重处理后,根据语音信号的短时平稳特性对信号进行加窗和分帧。分帧方法包 括连续分段方法和交叠分段的方法两种,为了使分帧后的每帧信号之间不会出现间隔, 能够平滑过渡,通常会选择交叠分段方法。 分帧的过程是通过滑动窗函数来实现的,窗函数的选择会影响到语音信号的分析结 果,广泛使用的窗函数有矩形窗、汉明( h a m m i n g ) 窗、汉宁( h a n n i n g ) 窗,其定义 分别如下: ( 1 ) 矩形窗: f 10 玎 n 一1 ( 刀) 2 o其他”值 2 2 ( 2 ) 汉明窗: 姒班0 5 4 - 0 4 6 c o s ( 2 肋“肛d 。凳潞1 ( 2 - 3 ) ( 3 ) 汉宁窗: 姒加0 5 1 1 - c o s ( 2 0 州一”1 。巍篇1 协4 ) 表2 1 给出了三种窗函数的比较,合理的选用窗函数,会使语音信号的特性分析更 第2 章语音信号处理基础 加准确,通过三种窗函数的比较可以得出,矩形窗的主瓣宽度是最高的,因此它具有最 好的频谱分辨率,谱平滑性能较好,但同时也对高频成分造成损失,使波形细节丢失; 而汉明窗和汉宁窗虽然主瓣宽度不够,但是他们的旁瓣衰减较大,可有效地克服泄露现 象,具有更平滑的低通特性,在实际应用最常选择的就是汉明窗。 表2 1 三种窗函数的比较 2 3 常用端点检测算法 现实环境纷繁嘈杂,如何在信号流中辨别出语音信号和非语音信号,是语音处理的 一个基本问题。端点检测的准确性直接决定着后续处理( 如语音编码、语音识别) 的时 间损耗、正确率等问题,具有重要的地位和意义。主要的端点检测方法分为时域参数端 点检测、频域参数端点检测以及模型匹配检测方法,本节将针对以上分类方法中代表性 的端点检测方法予以简要介绍。 2 3 1 基于短时能量和过零率方法 能量的不同是语音信号和噪声信号最显著的区别,语音段的能量包含了语音信号能 量和噪声信号能量两部分,在信噪比较高的情况下可以很容易的做出区分,由此便实现 了用能量进行端点检测的方法e ”。在计算时可以根据语音信号的短时平稳特性求得信号 的短时能量或短时平均幅度,对于信号x ( n ) ,短时能量定义如下: e ,= x ( 叫w ( 刀一朋) 2 = x 2 ( m ) h ( n - m ) - - - - x 2 ( 胛) 宰厶( ”) ( 2 5 ) 式中h ( n ) = w 2 ( ”) ,w ( n ) 代表窗函数的移动。 语音信号在起始和结束时刻的能量相对较弱,此时的语音信号能量和噪声信号能量 相近,很容易造成混淆,所以我们需要进一步的做出准确的判断,基于短时能量和过零 率的方法就是在这种情况下被提出的。短时平均过零率作为一种典型的语音时域特征, 它是指每帧信号通过零值的次数。针对连续信号和离散信号短时过零率分别指其时域波 形通过时间轴的情况和信号采样点正负变化的次数口1 。短时平均过零率的表达式如下: 哈尔滨工程大学硕士学位论文 z 。= 去l s g n x ( m ) 一s g n x ( m 一1 ) | w ( 玎一所) m = - - - ”( 2 - 6 ) 1 ”+ n 一1 = 去l s g n x 。,( m ) 一s g n x 。,( 聊一1 ) l 二m = v 式中,s g n 是符号函数。 通过以上分析可知,将短时能量和过零率的方法结合起来能够更好的实现语音端点 检测的目的,算法的具体步骤如下: ( 1 ) 语音段粗判。由于短时能量的方法可以区分出大部分的语音信号,在语音段 粗判阶段就设定一个高检测阈值a m p l ,大于此阈值的部分全部是语音信号,而且包含 了绝大多数的语音成分,但是要保证语音的端点在此阈值以下; ( 2 ) 判定起止点范围。利用背景噪声的能量进行噪声估计,确定一个噪声能量均 值,将此值作为低检测阈值a m p 2 ,并将此门限阈值与短时能量包络的交点分别设置彳、 b ,那么就可以确定语音段的端点在a b 范围内; ( 3 ) 确定检测门限。利用短时平均过零率方法在a b 范围内从两侧展开搜索,分别 找到首次小于阈值a m p 2 的过零率点c 和d ,这两点就是语音的端点。 1 蓝0 2 0 摧1 0 鲁 0 1 5 酬1 0 e i n b l5 口 蝴0 。龇:叫龇峨 啊_ ”啊,_ 2 0 0 d4 0 0 06 0 0 08 0 0 010 0 0 012 0 0 0 采样点数 ( a ) 纯净语音信号 j 、;r ,卜 2 04 06 08 01 d 01 2 01 4 0 帧数 ( b ) 短时能量图 。胁、弋。: 广 , 、 2 口4 口5 口吕口1 口d1 2 口1 4 口 帧数 ( c ) 短时平均过零率图 图2 2 基于短时能量和过零率的端点检测图 图2 2 给出了一个用双门限方法进行端点检测的实例,从图中可以看出,用短时能 量方法在语音起始和结束的时候判断不够准确,加上过零率后便可以准确的检测到语音 第2 章语音信号处理基础 信号的起止点。 基于短时能量和过零率的端点检测方法计算简单、快速、容易实现,但是这仅仅是 在弱背景噪声的条件下,如果噪声含量较大这种方法便起不到准确检测的作用,甚至方 法失效,而且该方法也不适用于需要对清浊音精确辨别、存在单频干扰等的语音信号中。 2 3 2 基于谱熵方法 1 9 9 8 年,s h e njl 通过研究发现语音信号属于有序信号,其熵值较小,而噪声信号 属于无序信号熵值较大,根据这一特点他提出了基于熵的语音端点检测方法。取帧长为 n ,每帧语音中信号幅度绝对值为m 的语音段s ( ,? ) ,通过统计s ( ”) = s ,的个数力,所占的比 率得到概率只,即p ,= 即,( p ,= 1 ,s ,( 一m ,m ) ) ,则此帧语音的熵为: 吖 h ,= 一p ,l o g p , ( 2 7 ) 蜊 佃 e 醚 佃匝 e 婆 如 图2 3 谱熵检测流程图 检测 结果 帧数 ( c ) 含噪声语音信号的谱熵值( 横线表示检测门限) 图2 4 基于谱熵的语音端点检测图 谱熵检测的原理是从信号的频域特征出发,依据语音信号的频谱变化程度来进行判 哈尔浜工程大学硕士学位论文 定的,语音信号的频谱和噪声信号的频谱具有明显的差异。背景噪声( 尤其是白噪声) 的能量分布在整个频带范围内较为平稳,起伏变化不大,如果用谱熵值来表示就表明背 景噪声的谱熵值较小;而语音信号的能量分布较为集中,不会均匀分布在整个频谱范围 内的,这样语音信号的谱熵值就比较小口引。图2 3 给出了具体的基于谱熵方法的端点检 测流程图。图2 4 给出了高信噪比时的基于谱熵的语音端点检测结果,从图中可以明显 地区别出语音熵和噪音熵,但是当信噪比较低时,语音信号的谱熵会降低,语音熵和噪 声熵混叠,这时就很难准确地判断语音信号的起止点。而且该方法对噪声环境的依赖性 较大,对噪声能量分布不平稳的噪声的复杂噪声环境则无法进行有效的端点检测。 2 3 3 基于隐马尔可夫模型方法 h m m 是目前在语音识别技术中最常选用的模型【24 1 ,利用h m m 进行语音识别首先 是针对于此模型各状态的统计特性来训练语音,获得被测信号的参数,此阶段为模型训 练阶段,然后将测试语音与训练模型进行比对,选择匹配度最高的作为识别结果,此阶 段为测试阶段。将h m m 的方法引入到语音端点检测领域,首先要对语音信号和噪声信 号分别进行模型训练,提取出相对应的模型参数;然后将带噪语音信号作为测试语音, 通过维特比( t e r b i ) 解码算法,求出测试语音中与噪声和语音分别匹配的帧,从而检 测出语音起止点的位置瞄5 1 。具体的基于h m m 进行端点检测的流程图如图2 5 所示。 r 厂一r r 预处理_ _ 一v i t e r b i 解码 光滑处理_ _ 叫端点输出 f 一 一一 噪声估计算法语音模型 图2 5 基于h m m 的端点检测系统 ( 1 ) 预处理,利用h m m 方法进行端点检测,对参数的要求十分严格,第一步就 是对每帧待测语音信号进行预处理,包括:预加重、加窗、倒谱计算( 求p 阶倒谱系数) 、 加权处理、求倒谱系数的一阶和二阶导数系数、能量及其他特征处理( 求对数能量及其 导数) ,通过预处理获得信号的特征值,构成特征矢量矩阵,此特征矩阵对端点检测结 果的好坏起着决定性的作用; ( 2 ) v i t e r b i 解码,将预处理结果输入v i t e r b i 解码器,通过b a u m w e l c h 算法获得 待测语音信号的端点检测结果; ( 3 ) 光滑处理,上述方法虽然得到了端点检测结果,但是处理过程中采用的是逐 第2 章语音信号处理基础 帧分析,因此会受到字间间隙的影响,通过是中值滤波进行平滑处理可有效避免这种影 响,获得准确的检测结果。 基于h m m 的端点检测方法的优点是:检测准确率高,在低信噪比情况下,效果更 加明显;能有效检测出清音、爆破音、鼻音成分,而不会出现由于其能量较低而被漏检 的现象。但是基于h m m 的方法也存在着无法克服的不足即算法的复杂度高、运算量大, 检测率高低取决于训练环境于实际环境的相符度,例如如果选用安静实验室环境进行训 练,而实际测试时的背景噪声是工厂噪声,由于噪声模型不相符就会对检测率噪声严重 的影响。 2 4 常用语音增强算法 语音增强作为一种有效解决噪声污染的方法,它的主要目的是从含噪声语音信号中 提取尽可能纯净的原始语音信号,同时保证增强语音信号的可懂度和清晰度。语音增强 涉及到信号处理理论、语音特性、人耳感知特性等,针对现实环境中的不同噪声来源和 噪声种类,存在着多种处理方法。主要的语音增强方法分为非参数方法、参数方法、统 计方法和其他方法,本节将针对以上分类方法中代表性的语音增强方法予以简要介绍。 2 4 1 谱减法 谱减法是非参数方法语音增强的典型代表,它能够有效处理宽带噪声带来的影响, 其基本思想是:假设加性噪声与短时平稳的语音信号是相互独立的,从含噪语音信号的 功率谱中减去噪声信号功率谱,获得纯净的语音信号频谱,噪声信号功率谱是通过对无 声片段的噪声估计得到的,在处理过程中忽略人耳不敏感的相位因素的影响,只针对短 时幅度谱进行处理,最后将含噪语音信号的相位作为增强语音信号相位口6 2 ”。 带噪语音、( n ) ) _ _ = 叫f f t 卜厂叫il ,( 6 9 ) | 2 卜一 ! 相位信息 卑一 减去估计噪声 id 。( u ) 立堕塑f i f f t i 蒜j l s 了f l 一 二j 峙_插入相位卜 。( 。) r 一一一 图2 6 谱减法的原理框图 具体的谱减法原理框图如图2 6 所示。在满足上述假定条件的前提下,设s ( ,) 为纯 哈尔滨工程大学硕士学位论文 净语音信号,胛( ,) 为噪声信号,则带噪语音信号少( f ) 为: y ( t ) = s ( t ) + n ( t ) ( 2 8 ) 用y ( w ) 、s ( w ) 和x ( w ) 分别表示y ( f ) 、j ( ,) 和门( ,) 的傅里叶变换,则有下式: r ( w ) = s ( w ) + n ( w ) ( 2 - 9 ) 然而,实际的语音信号是非平稳信号,所以只能用- 4 , 段加窗信号表示,则信号的 功率谱可以表示为: l ( w ) 2 = is w ( w ) 1 2 + l 。,( w ) 1 2 + s 。( w ) :( w ) + 文( w ) 。( w ) ( 2 1 0 ) 式中,下标w 表示加窗信号,:c 表示复共轭。若语音和噪声相互独立,则上式的最后一 项的值为0 ,语音信号的估计为: i 文( w ) | 2 = | k ,( w ) 1 2 一( k ( w ) f ) ( 2 1 1 ) 式中,“ ”表示估值,( 1 n 。( w ) 1 2 ) 为无语音时i 。( w ) 1 2 的统计均值。 为了得到增强语音信号,还需要进行傅里叶逆变换,用e 【s w ( w ) 表示s 。( w ) 的相位, 由于人耳对语音的相位不敏感,所以使用含噪语音信号的相位来近似,则最终的增强信 号为: s 。( w ) = 慨( w ) e x p ( j p h 陬( m 纠) ( 2 1 2 ) 1 罄0 t 一1 1 薹o _ 1 1 釜o 1 j。_ i l 1 矿 2 533 54455 采样点数 x1 口4 ( a ) 纯净语音信号 。 一一 1阿1 啊旷 2 533 544 55 采样点数 1 0 4 ( b ) 含噪声语音信号 山n d l i , j 唧r 。i l p ” 0051 1522 533 54455 采样点数 x 1 0 4 ( c ) 增强信号 图2 7 谱减法语音增强实验结果图 第2 章语音信号处理基础 图2 7 给出了基于谱减法的语音增强实验结果。谱减法算法简单、易于实现,然而 如果在非平稳噪声环境中,很难准确的估计出噪声信号的功率谱,因此该方法仅对平稳 噪声环境有效;而且在频谱相减中,如果在一些频率点上存在幅值较大的噪声功率谱, 在相减过程中会造成噪

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论