(检测技术与自动化装置专业论文)基于小波变换和听觉掩蔽特性的语音增强算法的研究.pdf_第1页
(检测技术与自动化装置专业论文)基于小波变换和听觉掩蔽特性的语音增强算法的研究.pdf_第2页
(检测技术与自动化装置专业论文)基于小波变换和听觉掩蔽特性的语音增强算法的研究.pdf_第3页
(检测技术与自动化装置专业论文)基于小波变换和听觉掩蔽特性的语音增强算法的研究.pdf_第4页
(检测技术与自动化装置专业论文)基于小波变换和听觉掩蔽特性的语音增强算法的研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(检测技术与自动化装置专业论文)基于小波变换和听觉掩蔽特性的语音增强算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

嬲粥必 s t u d yo fs p e e c he n h a n c e m e n ta l g o r i t h m b a s e do nw a v e l e t t r a n s f o r m a n dc h a r a c t e r i s t i c so f a u d i t o r ym a s k i n g m a j o r :d e t e c t i o nt e c h n o l o g ya n d a u t o m a t i ce q u i p m e n t d i r e c t i o no fs t u d y :s p e e c hs i g n a lp r o c e s s g r a d u a t es t u d e n t :l i uj i a l i n s u p e r v i s o r :p r o f e s s o rs e n i o re n g i n e e rc h e nz h o n g 研究生学位论文独创性声明和版权使用授权书 独创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人已经发表或撰写过的 研究成果,也不包含为获得其它教育机构的学位或证书而使用过的材料。对论文的完成提 供过帮助的有关人员已在论文中作了明确的说明并表示谢意。 十 学位论文作者( 签字) :逊j 4 王挂 签字日期:玉口! :亟:12 学位论文版权使用授权书 本学位论文作者完全了解( 学校) 有关保留、使用学位论文的规定,有权保留并向国家 有关部门或机构送交论文的印刷本和电子版本,允许论文被查阅和借阅。本人授权( 学校) 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到 中国学位论文全文数据库,并通过网络向社会公众提供信息服务。( 保密的学位论文在 解密后适用本授权书) 本论文是否保密:是 否如需保密,保密期限为: 学位论文储躲嘉彳耘 签字日期:明口年6 月j 7 日 翮繇7 孵 签字日期:必d 年占月f ,7 日 语音在通信 解决噪声污染的 噪声环境下的基 首先介绍语 统的语音增强算 分别作了简要的 再次对小波 缺陷及不足的基 同的特点,在增 然后对小波 测( m ) 对噪 与传统小波和小 声,在信噪比提 最后,在考 分解和人耳掩蔽 的清晰度和可懂 关键词:语 a b s t a c t s p e e c hs i g n a li si n e v i t a b l yi n t e r f e r e db yn o i s ef r o mt h es u r r o u n d i n g 铋v i r 0 啪e n t 粕d t r a n s m i s s i o nm e d i u m s p e e c he n h a n c e m e n ti sa l le f f e c t i v em e t h o dt os o l v et h en o i s ep o l l u t i o n s p e e d he n h a n c e m e n ti so n eo ft h em o s ti m p o r t a n tp a r t so ft h es p e e c hs i g n a lp r o c e s s i n g 血t l l i s p a p e r , s p e e c he n h a n c e m e n ta l g o r i t h mb a s e do nw a v e l e tt r a n s f o r mi s s y s t e m a t i c a l l yr e s e 卸r c h e d o na d d i t i v en o i s e f i r s t l y , t h ep a p e ri n t r o d u c e dt h eb a s i ct h e o r yo fs p e e c hs i g n a lp r o c e s s i n gw h i c hi st h eb a s i s f o rt h er e s e a r c ha n di m p l e m e n t a t i o no fs p e e c he n h a n c e m e n ta l g o r i t h m 1 1 b 翱廿1 e 仃a d i t i o n a l s p e e d he n h a n c e m e n ta l g o r i t h m ,s p e c t r a ls u b t r a c t i o n , w i e n e rf i l t e r i n g , t h em i n i m u mm e a ns q u a 陀 e n 0 r ( m m s e ) e s t i m a t i o n ,k a l m a nf i l t e r i n gm e t h o dw e r eg a v eab r i e fi n t r o d u c t i o na n da n a l v s i s o ft h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s s e c o n d l y , w a v e l e tt h r e s h o l ds p e e c he n h a n c e m e n ta l g o r i t h mw a sd i s c u s s e di nd e t a i l a p e r f e c tt h r e s h o l df u n c t i o ni sa l s op r o p o s e dt oo v e r c o m et h ed e f e c t so f t r a d i t i o n a ls o r l r e s h o l d f u n c t i o na n dh a r d - t h r e s h o l df u n c t i o n a f t e ra n a l y z i n gt h ec h a r a c t e ro fs p e e c h , aj u d 舯e 1 1 ti s m a d eb e t w e e nv o i c e l e s ss o u n d s a n d v o i c e ds o u n d sf o r s p e e c hs i g n a lb e f o r es p e e c h e n h a n c e m e n t ,r e t a i n e dt h eu n v o i c e dc o m p o n e n t so ft h es p e e c h ,s ot h a ts p e e c hi sm o r ef u l l t h e n ,t h et h r e s h o l do ft h ew a v e l e tp a c k e ta l g o r i t h mf o rs p e e c he n h a n c e m e n ti sd i s c u s s e d b r i e f l y , u s i n g v o i c ea c t i v i t y d e t e c t i o n ( v a d ) t od i s t i n g u i s hb e t w e e nt h e n o i s e g s p e e c h t r 锄e s e s t i m a t e dn o i s ee n e r g y , g i v e nt h ei m p r o v e da l g o r i t h mf o rw a v e l e tp a c k e tt h r e s h o l d 锄d c o m p a r e dw i t ht h et r a d i t i o n a lw a v e l e tt h r e s h o l da n dw a v e l e t p a c k e tt h r e s h o l ds p e e c h e n h a n c e m e n ta l g o r i t h m s i m u l a t i o nr e s u l t ss h o wt h a tt h e a l g o r i t h me f f e c t i v e l ys u p p r e s st h e m u s i cn o i s e , t h es i g n a lt on o i s em t i o ( s n r ) i m p r o v e m e n ta n ds o u n d e f f e c t sa r em u c hb e t t e rm a i l c o n v e n t i o n a le n h a n c e m e n ta l g o r i t h m s a tl a s t ,c o n s i d e r i n gt h a tt h ec l e a r n e s sa n di n t e l l i g i b i l i t ya r em o r ei m p o r t a n t ,w e p r o v i d ea i l 1 m p m v e da l g o r i t h mb a s e do nw a v e l e tp a c k e tt r a n s f o r ma n dh u m a n a u d i t o r ym a s k i n g p r o p e r t i e s s i m u l a t i o nr e s u l t ss h o wt h a ta f t e rt r e a t m e n tv i at h ee n h a n c e m e n ta l g o n t l l l t l t h e s p e e c hh a v ea b e t t e rc l a r i t ya n d i n t e l l i g i b i l i t y k e yw o r d s :s p e e c he n h a n c e m e n t ;w a v e l e t m a s k i n g ;t h r e s h o l df u n c t i o n t h r e s h o l d i n g ;w a v e l e tp a c k e tt h r e s h o l do f a u d i t o r y i i 桂林理工大学硕士学位论文 目录 摘量要i a b s t a c t i i 目蜀乏i i i 第1 章绪论。1 1 1 语音增强的研究背景及意义l 1 2 语音增强的研究现状及发展l 1 3 本文研究内容及论文结构安排2 第2 章语音信号处理基础4 2 1 语音信号产生的机理和语音、噪声及人耳感知特性4 2 1 1 语音信号产生的数学模型4 2 1 2 语音特性6 2 1 3 噪声特性。6 2 1 4 人耳感知特性7 2 2 语音增强的几种传统常用方法8 2 2 1 谱减法。8 2 2 2 维纳滤波法。9 2 2 3 最小均方误差( m m s e ) 估计法1 o 2 2 4 卡尔曼滤波法l l 2 3 语音增强效果评估方法13 2 3 1 客观评估方法一1 3 2 3 2 主观评估方法l5 2 4 本章小结l6 第3 章基于小波变换的语音增强算法1 7 3 1 小波分析的基本理论1 7 3 1 1 小波分析的概况l7 3 1 2 小波变换及其性质l7 3 1 3 多分辨率分析与m a l l a t 算法1 9 3 2 小波阈值语音增强算法2 3 3 2 1 阈值t 的选取2 3 3 2 2 阈值函数的选取2 5 3 2 3 清、浊音区分及无声区域判断2 7 i i l 3 3 3 4 第4 章 4 1 4 2 4 3 4 4 4 5 第5 章 5 1 5 2 5 3 5 4 第6 章 6 1 6 2 致谢 参考文 i v 桂林理工大学硕士学位论文 第1 章绪论 1 1 语音增强的研究背景及意义 语音信号是人类传播信息和感情交流的重要载体,是听觉器官对声音传媒介质的机械 振动的感知,也是人类最重要、最有效、最常用、最方便、最自然的通信方式。然而在语 音通信过程中不可避免地会受到来自周围环境和传输媒介带来的噪声、通信设备内部电噪 声乃至其他说话者的干扰。噪声污染使语音信号处理系统的性能急剧恶化,如语音识别系 统在强背景噪声时的识别率会大大下降,在机场、街道等嘈杂场所打电话,常会受到背景 噪声干扰,严重影响通话质量;同时在低速率语音编码中,特别是参数编码,也会遇到类 似问题。由于语音生成模型是低速率编码的基础,当模型参数的提取受到混杂在语音中背 景噪声的严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂等。这对我们所 关注语音信号中的有用信息带来了很大的困难,在不少领域中,影响了人们的工作效果, 这就需要提出语音增强技术来克服这些缺点i l j 。 语音增强就是对含噪语音进行处理,尽可能地从含噪语音信号中提取出纯净的原始语 音,以改善语音质量,提高语音的清晰度、可懂度和舒适度,使人乐于接受。8 0 年代以 后,随着高速d s p 的发展,使语音增强的实时实现成为可能,语音增强逐渐走向实用。目 前,语音增强广泛应用在语音处理系统、通信、多媒体技术、数字家电、军事、医疗、历 史资料等领域【2 1 。所以,语音增强的研究将是一项极具市场价值和挑战性的工作。 1 2 语音增强的研究现状及发展 语音增强的研究早在六七十年代就受到人们的关注,一直到现在仍然是研究的热点。 这期间取得了很多的成果,成为语音信号处理领域的一个分支。7 0 年代期间,l i m 和 o p p e n h e i m 提出了语音增强的维纳滤波方法【3 】。维纳滤波是平稳条件下时域波形的最小均方 误差准则估计。维纳滤波的优点是增强后的残留噪声类似于白噪声,而不是有节奏起伏的 音乐噪声。但维纳滤波没有考虑到语音频谱分量的幅度对人耳听觉的重要性;b o l l 提出了 谱相减方法来抑制噪声,其前提是噪声为平稳或缓慢变化的加性噪声,且语音信号和噪声 信号不相关【4 1 ;b e r o u t i 在传统谱减法的基础上增加了调节噪声功率谱大小的系数和增强语 音功率谱的最小值限制,提高了谱减法的性能,但是其修j 下系数和最小值是根据经验确定 的,故适应性较型5 】: 8 0 年代期间,m a u l a y 和m a l p a s s 提出了软判决噪声抑制方i ! 去【6 1 ,e p h r a i m 平l m a l a h 提出基 于最小均方误差( m m s e ) 短时谱幅度估计的语音增强方法【j 7 1 ,会产生剩余残留噪声且计 算量复杂; 1 桂林理工大学硕士学位论文 9 0 年代以后的最小均方误差估计法和谱减法继续得到改进,同时基于马尔可夫模型框 架下( h m m ) 的语音增强算法和基于小波变换的新方法也相继出现,基于信号子空间方法, 人耳听觉掩蔽效应的方法开始被广泛进行研究,同时数学形态学和独立分量分析的方法也 开始受到重视。p l o c k w o o d 在谱减法的基础上提出了非线性谱减法瞵j ( n s sn o n 1 i n e r s p e c t r a ls u b t r a c t i o n ) ,它根据语音信号的信噪比自适应调节语音增强的增益函数,提高了 语音的信噪比。2 0 0 1 年m a r t i n 提出了一种基于最优平滑和统计方法的噪声估计方法,对非 平稳噪声具有良好的抑制作用,但其算法及计算量相当复杂【9 1 。1 c o h c n 等人在它的基础上 进行了改进,首先估计语音信号概率密度函剡1 0 1 ,然后在此基础上对数谱估计算法进行改 进,使得改进的算法对非平稳噪声具有良好的抑制作用,该算法的缺点是语音信号的概率 密度函数较难估计,噪声参数估计的准确与否直接会影响谱减法语音增强效果。利用低方 差谱估计方法在先验信噪比估计上取得了良好的效果【l ,h a s a n 等研究学者提出了先验信 噪比估计改进的方法,使残余噪声明显减岁1 2 】。 然而,大多数方法在彩色噪声中仍然受到残留噪声的困扰。于是人们试图采用一些新 的策略,通过雇用人类听觉系统来减少音乐剩余噪声的影响。但这种方法都是与其它语音 增强算法结合在一起来实现的。1 9 9 9 年,v i r a g 将人耳的掩蔽特性应用到非线性谱减法的增 强算法中【l3 1 ,部分解决了谱减法残留音乐噪声大的问题,但在信噪比较低或非平稳的情况 下,其增强效果并不理想;1 9 9 5 年,d o n o h o 提出了针对白噪声的小波阈值法,之后引起了 许多学者对小波进行了广泛的研刭一4 - 引。 这期间,小波域最优线性估计法相继提出,这种方法运用人类听觉系统的掩蔽特性, 使人耳感觉不到残留噪声【l6 1 。此后,与仿生小波变换相结合的降噪技术被研究学者而提出, 构造出一种新的自适应语音增强小波阈值方法【l7 1 。经验模式分解( e m d ) 方法也被提出用 来语音增吲1 8 】。除了以上这几种算法之外,人们也在尝试将人工智能、神经网络等理论用 于语音增强。此外,随着盲源分离技术的发展,将语音信号和背景噪声作为源信号,通过 对信号进行分离来达到语音增强目的的方法也逐渐得到了各国学者的重点关注【1 9 。2 。 本课题是基于小波变换的语音增强算法的研究,而小波分析是一种有效的信号分析处 理技术,它在时域和频域都具有良好的局部化性质,即能够在整体上提供信号的主要特征, 同时又可以提取任一局部时间或频域内信号变化剧烈程度的信息,因而成为分析非平稳信 号( 语音信号) 的锐利工具。近年来,小波分析已经在信号分析、语音合成、图像识别、 计算机视觉、数据压缩、地震勘探、大气与海洋波分析等方面都取得了一定的研究成果。 因此,将小波分析理论应用于语音增强系统具有一定的理论基础和实用价值。 1 3 本文研究内容及论文结构安排 本论文在借鉴、学习己有的语音增强算法的基础上,着重探讨了基于小波变换的语音 增强方法。 桂林理工大学硕士学位论文 第一章:介绍了语音增强的研究背景及研究意义,概述了语音增强的研究现状以和发 展方向,最后给出了论文结构的安排。 第二章:对语音增强相关的知识及几种常见的语音增强算法进行了研究。 第三章:对小波阈值语音增强算法进行了研究。 第四章:对小波包阈值语音增强算法进行了研究。 第五章:为满足听觉舒适度的要求,研究了基于小波包b a r k 尺度分解和人耳掩蔽阈值 的语音增强算法。 第六章:全文总结与展望。 桂林理工大学硕士学位论文 第2 章语音信号处理基础 语音增强与语音信号处理理论有关,而且涉及到人的听觉感知和语音学。噪声来源众 多,随应用场合不同而特性各异,因此难以找到一种通用的语音增强算法可以适用于各种 噪声环境,必须针对不同环境下的噪声采取不同的语音增强策略。语音增强首先要了解语 音和噪声的有关特性【2 2 1 。 2 1 语音信号产生的机理和语音、噪声及人耳感知特性 人类的发声过程是人体的发音器官( 包括肺、气管、喉、咽、鼻、唇等) 在大脑控制 下的生理运动过程。具体地说,由于肺部的收缩,压迫气流由支气管经过声门和声道引起 音频震荡,最后从嘴唇或鼻孔,或同时辐射出来形成语音。其中,肺和气管是整个发音系 统的能源;喉也称为声门,是主要的声音形成机构;声道起始于声门,终止于嘴唇,是对 生成的声音进行调制。声带开启和闭合使气流形成一系列的脉冲,每次开启和闭合的时间 即振动周期称为基音周期,其倒数称为基音频率,也称为基频。基频决定了声音频率的高 低,范围一般为8 0 , - , 5 0 0 h z 。 由发声过程中声带振动与否,可以将声音分为浊音和清音。其中,浊音包括所有的元 音和部分辅音,清音则包括另一部分辅音。浊音具有明显的准周期性和较强的振幅,它的 周期所对应的频率就是基音频率:清辅音的波形类似于白噪声并具有较弱的振幅,在语音 增强中可以利用浊音具有的明显的准周期性来区别和抑制非语音噪声【2 3 1 。 2 1 1 语音信号产生的数学模型 在语音增强的研究和应用中,建立一个可以较好描述语音特征的模型显得十分重要。 根据数字技术产生的模拟语音信号,对语音信号数学模型进行建立。这种模型是一种线性 系统,选定其中一组参数则使系统的输出具有期望的语音性质,系统中的这些参数与语音 产生的过程式相互关联的。 分析发音器官和语音产生机理,结合信号处理理论,语音信号的数学模型由激励模型、 声道模型和辐射模型的三个子模型串联组成,表示如图2 1 所示: 4 桂林理工大学硕士学位论文 图2 1 语音信号产生的模型 此模型的传输函数日( z ) 表示为: 日( z ) = u ( z ) y ( z ) 尺( z ) 公式( 2 1 ) 其中,v ( z ) 是激励信号,浊音时u ( z ) 是声门脉冲即斜三角形脉冲序列的z 变换;清音时, v ( z ) 是一个随机噪声的z 变换。v ( z ) 是声道传输函数。r ( z ) 一般表示为一阶高通滤波器。 下面分别对语音信号的数学模型的各子模型进行讲述。 l 、激励模型 激励源由清音和浊音两个分支组成,根据清音浊音开关所处位置,决定产生的语音是 清、浊音。当发浊音时,周期脉冲发生器产生一个激励信号,周期n 由基音频率e 和语 音信号采样频率石决定,即n o = 磊石( h z ) ,为使浊音的激励信号具有声门脉冲的实际波 形,则需要上述的冲击序列另外通过一个声门脉冲模型滤波器,它的z 域传输函数为: g ( z ) = l ( 1 _ g l z 一) ( 1 一g :z 。2 ) 公式( 2 2 ) 其中,g 。和9 2 都接近于l 。这样斜三角波可以看作是加权的单位脉冲经过上述低通滤波 器后的输出。因此,整个激励模型可以表示为: g ( z ) e ( z ) 2 南而刮南刁 公式q 3 其中,e ( z ) 是单位脉冲的z 变换形式;4 是调节浊音的幅值或能量的参数。 在发清音时,声带处于松弛状态,没有振动,气流通过声门直接进入声道,所有的清 辅音都为这种情况。无论是擦音还是塞音,声道都被阻碍形成湍流,故此激励信号类似于 一个随机白噪声。这个噪声实际上可以表示为均值为0 、方差为1 ,在时间或幅值上的白 色分布的序列。 2 、声道模型 按照不同的发音性质,将声道分为两种情况分别为发元音和发辅音。在发元音时,声 道中的口腔为稳定的某种形状的谐振腔,由声门产生的准周期脉冲波激励声道产生响应, 所有的单元音、复元音及复鼻尾音的元音部分都为这种情况;发辅音时,可分为塞音、擦 音、鼻音等情况。发鼻音时,声道的某部分构成阻碍,使声道完全封闭,由声门产生的激 桂林理工大学硕士学位论文 励波在此处形成高压湍流,然后突然开放,发出声音;发擦音时,声道的某部分未构成完 全封闭的阻碍,则使激励在此处形成高速湍流,与该处摩擦发出声音;发鼻音时,软腭下 垂,鼻腔进行谐振响应。一般情况下,用一个全极点模型来对声道传输函数y ( z ) 进行描 述如下: 矿( z ) :了l 口f z f ;0 公式( 2 4 ) 其中,p 是全极点滤波器的阶数,一般在8 1 2 范围内取值,它的每一对极点对应一个共 振峰:q 是声道模型参数,声道惯性的存在使这些参数变化的速度受到限制,所以在 1 0 m s - 3 0 m s 的时间间隔内,认为这些声道参数保持不变,这是语音信号短时分析的理论 依据之一。 3 、辐射模型 声道的终端由口和唇组成。辐射引起的能量损耗正比于辐射阻抗的实部,通过研究表 明,口唇端的辐射效应在高频段有较为明显标志,而在低频段具有非常小的影响,这时可 以用一个高通滤波器来表示辐射模型,如下: 其中,接近于1 。 2 1 2 语音特性 尺( z ) = ( 1 一圮- 1 ) 公式( 2 5 ) 语音是时变的、非平稳、非遍历的随机过程。语音发声是一个时变过程,很多因素造 成了发声系统的时变性,例如声道的面积随着时间和距离改变,气流速度随着声门处压力 变化而变化等。但是声道形状有相对稳定性,在一段时间内( 1 0 m s 3 0 m s ) ,人的声带和 声道形状是相对稳定的,可认为其特征是不变的,因而语音的短时谱具有相对稳定性,在 语音分析中可以把语音信号分为若干分析帧,每一帧的语音可以认为是准稳定的。 语音可以分为周期性的浊音和非周期的清音。浊音和清音经常在一个音节中同时出 现。浊音部分和音质关系密切,在时域上呈现出明显的周期性,在频域上有共振峰结构, 而且能量大部分集中在较低频段内,是语音中大幅度高能量的部分;清音则具有明显的时 域和频域特征,类似于白噪声,能量较小,在强噪声中容易被掩盖,但在较高信噪比时能 提供较多的信息。在语音增强中,可以利用浊音的周期性特征,采用梳状滤波器提取语音 分量或者抑制非语音信号,而清音则难以与宽带噪声区分。 语音感知对语音增强研究有重要作用,人耳对语音的感知主要是通过语音信号频谱分 量幅度获取的,对各分量相位则不敏感,对频率高低的感受近似与该频率的对数值成正比。 2 1 3 噪声特性 6 桂林理工大学硕士学位论文 噪声来源取决于实际的应用环境,噪声可以是加性的,也可以是非加性的( 例如,非 加性噪声的乘性噪声可以通过同态滤波变换成为加性噪声,一些与信号相关的量化噪声可 以通过伪随机噪声扰动的方法转换成信号独立的加性噪声) 。加性噪声通常分为周期噪声, 脉冲噪声,宽带噪声,语音干扰噪声等。非加性噪声主要是残响及传输网络的电路噪声等 2 4 1 o 1 、周期噪声 电动机、电风扇之类的周期性运转的机械所发出的噪声是最常见的周期,交流电源声 也是周期噪声。在频谱图上它们表现为许多的离散窄谱,通常可以采用限波器方法予以滤 除。 2 、脉冲噪声 打火,放电,爆炸都会引起脉冲噪声,它们的时域波形类似于冲激函数的窄脉冲。消 除脉冲噪声影响的方法通常有两种: ( 1 ) 对含噪语音信号的幅度求均值,把该均值作为判断阈,凡是超过该阈值的均判为脉 冲噪声,在时域中予以滤除; ( 2 ) 当冲激脉冲不太密集时,也可以通过对某些点进行内插避开或者平滑掉冲激点,从 而能在重构语音信号时消除脉冲噪声。 3 、宽带噪声 说话时伴随的由呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等都可以视 为宽带噪声,在应用中可认为是高斯白噪声。其显著特点是噪声频谱遍布于语音信号的整 个频谱当中,导致消除噪声比较困难。一般需要采取非线性处理方法。 4 、语音干扰 语音干扰信号和语音信号同时在一个信道中传输所造成的干扰称为语音干扰。区别语 音和干扰语音信号的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音 不同,也不成整数倍,这样就可以用梳状滤波器提取基音和各次谐波,再恢复出有用的语 音信号。 5 、传输噪声 传输系统的电路噪声称为传输噪声。与背景噪声不同,它在时域罩是语音和噪声的卷 积。消除这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理。 2 1 4 人耳感知特性 人耳对于声波频率高低的感觉与实际频率的高低不呈线形关系,而近似为对数关系; 人耳对声强的感觉很灵敏且有很大的动态范围,人耳对于频率的分辨能力受声强的影响, 过强或者太弱的声音都会导致对频率的分辨力降低;人耳对语音信号的幅度谱较为敏感, 对相位不敏感,这一点对语音信号的恢复很有帮助【2 4 2 5 1 。人耳具有掩蔽效应,即会产生一 桂林理工大学硕士学位论文 个声音由于另外一个声音的出现而导致该声音能被感知的阈值提高的现象。 人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话 环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能 力。人类的这种分离语音的能力与人的双耳输入效应有关,称为“鸡尾酒会效应 。 2 2 语音增强的几种传统常用方法 通过语音增强技术来改善语音质量的过程如图2 2 所示: 图2 2 语音增强处理过程 由于噪声特性各异,语音增强方法各有不同。4 0 多年来,人们针对加性宽带噪声研究 了各种语音增强方法。下面介绍几种常用的语音增强方法【:矧】: 2 2 1 谱减法 谱减法的思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下直接从含 噪语音的功率( 幅度) 谱中减去噪声功率( 幅度) 谱,从而得到增强语音的功率( 幅度) 谱,并利用含噪语音相位进行重建得到增强后的“纯净语音”。 设s ( k ) 为纯净语音,n ( k ) 为噪声,y ( k ) 为含噪语音,y ( c o ) ,s ( o j ) ,n ( o ) 分别表示y ( k ) , s ( k ) ,n ( k ) 的傅立叶变换,语音信号与加性噪声是相互独立或不相关,则有: 灭后) = s ( 尼) + ,z ( 尼) 公式( 2 6 ) y ( c a ) = s ( 彩) + ( 国) 公式( 2 7 ) 其中,l 、缈分别表示时域、频率域采样点索引,表示语音帧的长度。因此有: ,l = 0 ,l ,2 一l 。又由于s ( k ) 和n ( k ) ,由式( 2 7 ) 求功率谱后得: l y ( 缈) 1 2 = i s ( 缈) 1 2 + i ( 缈) 1 2 + s ( 国) 。( 缈) + s ( 缈) ( 缈) 公式( 2 8 ) 其中,幸代表共扼复数。由于s ( k ) 和n ( k ) 相互独立或不相关,它们的互谱统计独立,即: e s ( c o ) n ( 缈) 】- e s 。( 缈) ( 缈) 】_ 0 公式( 2 9 ) 则估计的纯净语音为: 桂林理工大学硕士学位论文 i ( 缈) 1 2 = l 】,( 缈) 1 2 一i 对( 彩) 1 2 公式( 2 1 0 ) 其中:( 缈) 和对( 国) 分别是为s ( c o ) 和n ( o j ) 的估计。式( 2 1 0 ) 就是功率谱减的表达式。如 果考虑幅度谱,就直接由( 2 7 ) 式得到幅度谱减的计算公式表示为: l ( 功) i = i 】,( 功) l i 对( 彩) l 公式( 2 1 1 ) 从式( 2 1 0 ) 和式( 2 1 1 ) 可以看到,减去的噪声谱是估计值,因为真实的噪声谱是无法得到 的,它与当前帧的噪声谱是有出入的,经过谱减法计算的语音谱值有可能出现负值,最简 单的处理是直接令其为零,即: i ( 缈) | _ o 或l ( 缈) 1 2 :0 公式( 2 1 2 ) 它的优点是计算量小,容易实时实现,增强效果也较好。但是也存在一定的缺陷,谱 减法是一种最大似然估计,没有对语音频谱的分布进行假设,然而对入耳来说,频谱分量 的幅度才是最重要的。因此谱减法进行增强处理后,会带来音乐噪声,影响了语音的可懂 度和自然度。 2 2 2 维纳滤波法 维纳滤波法是在最小均方误差准则下实现对语音信号估计的滤波法。对于含噪语音信 号,确定滤波器的传递函数,使得含噪语音信号经过该滤波器后得到最接近于“纯净”的 语音信号。 设y ( k ) = s ( 七) + n ( k ) ( 其中y ( k ) 为含噪语音信号,s ( k ) 为纯净语音信号,n ( k ) 为噪声信号) , s ( k ) 能够满足m m s e 准则。假设s ( k ) 和n ( k ) 都是短时平稳随机过程,则由维纳霍夫积分 方程得到: = j 矗( ,z 如( f 一刀) d n 对式两边进行傅里叶变换得: 名( 功) = ( 缈) 易( 国) 所以有: 一器 由于乞( 缈) = ( 缈) 且s ( 七) 和,z ( 七) 相互独立,则有: 易( 缈) 2 e ( 国) + 只( 国) 将式( 2 1 6 ) 代入式( 2 1 5 ) ,则得到滤波器的传递函数h ( c o ) 如下式: 公式( 2 1 3 ) 公式( 2 1 4 ) 公式( 2 1 5 ) 公式( 2 1 6 ) 桂林理工大学硕士学位论文 m ,= 右 公式( 2 1 7 ) 维纳滤波是平稳条件下时域波形的最小均方误差准则估计。维纳滤波的优点是增强后 的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。由于维纳滤波没有考虑到语音 频谱分量的幅度对人耳听觉的重要性,因此采用维纳滤波来对语音进行增强存在一定的缺 陷,它对信噪比的提高没有谱减法那样明显,尤其是在低信噪比环境下,这种情况更为显 著。 2 2 3 最小均方误差( m m s e ) 估计法 最小均方误差( m m s e ) 估计法是通过假设一个合理的概率分布模型或者通过实际统计 的方法获得语音短时谱幅度分布。对于语音增强来说,听觉意义上的失真准则与给定噪声 情况下语音频谱的后验分布是无法预知的,因此,对于特定的失真准则和后验概率不敏感 的估计方法是很有用处的。最小均方误差( m m s e ) 估计正是一种对特定的失真准则和后 验概率不敏感的估计方法。它是利用已知的噪声功率谱信息,从含噪语音频谱分量中估计 出纯净语音的频谱分量,借助含噪语音相位得到增强的语音信号。 基本原理:设y ( k ) = s ( 后) + 刀( 七) ,若y ( o j ) ,s ( o j ) ,( 国) 分别表示y ( k ) ,s ( k ) ,n ( k ) 的傅立叶变换,】,( 国) 的幅值为4 ( 彩) ,相位是,s ( c o ) 的幅值为呜( 缈) ,假设噪声是加 性的高斯白噪声,以( 缈) 的估计值a s ( c o ) 为: a s ( c o ) = e a s c c o ) l y ( k ) ,0 七n - l = e a s ( 0 9 ) ly ( o ) ,y ( 1 ) ,y ( n - 1 ) ) = e 4 ( 缈) i 】,( 缈) ) 2 工p ( a o , i r ( 缈) ) 口m 比埘 公式( 2 1 8 ) = j c o 裂挚 上上a o p ( y ( 缈) a 。,) p ( 吒,a o ) d a 。犯甜 j :上p ( 】,( 缈) k ,o t 。) p ( a 。,屹) 如。d 其中,e ) 表示数学期望,p ) 表示概率密度函数,p ( a 。) 为a ( c o ) 的概率密度函数。 在假定的统计模型下,则有: p ( y ( 国) k ,) = 丽1e x p 一万两1 l y ( 缈) 一p 风1 2 ) 地川= 南唧 一高 公式( 2 1 9 ) 公式( 2 2 0 ) 桂林理工大学硕士学位论文 其中,p ( ,) 是幅值相位的联合分布,以( 缈) 垒e i s ( 国) 1 2 ) ,以( 国) 垒e ( ) | 2 ) 分别表示 语音和噪声第k 个频谱分量的方差。把式( 2 1 9 ) 和式( 2 2 0 ) 代入式( 2 1 8 ) ,可得; j s ( 国) :r ( 1 5 ) 监m ( - o 5 ;1 ;叱) a y ( c o ) j 7 蕾 = r ( 1 5 ) e x p ( - v , , 2 ) ( 1 + 屹) 厶( 2 ) + ( 屹2 ) a t ( 国) 公式( 2 2 1 ) = 4 ( 缈) 广 r ( ) 是伽马函数,且r ( 1 5 ) = - w 万;m ( 口;c ;工) 是合流超几何函数,1 0 ( ) ,( ) 分别表示零 阶和一阶修正贝塞尔函数。( 2 2 1 ) 式中的两个等式都可以计算估计的语音频谱,如果采用 合流超几何函数,m ( 口;c ;工) 的计算式为: 脚;c ;功= 喜撕 公式( 2 2 2 ) 式中,( 口) ,垒l o a 似+ 1 ) ( a + r - 1 ) ,( 口) o 全l 。k 的定义为: 一惫儿 其中,己和儿分别表示语音信号的先验和后验信噪比, ( 2 2 5 ) 所示: 皇垒五( 缈) 一万两 y :地 丑( 缈) 公式( 2 2 3 ) 各自定义分别如式( 2 2 4 ) 和式 公式( 2 2 4 ) 公式( 2 2 5 ) 其中,以( 国) 可由语音停顿的无声帧估计得到,也可以先计算出噪声功率谱,再求期望得 到。先验信噪比一般采用e p h r a i m 和m a l a h 提出的使用前一帧信号信息估计当前帧先验信 噪比的反馈方法求得,计算式如下式: t2 ,、 托c o ) :r 尘掣+ ( 1 _ 7 7 ) m a x ( r ( i ,彩) 一l ,o ) 公式( 2 2 6 ) 以l 缈j 最小均方误差m m s e 估计在降噪和提高语音可懂度、清晰度方面进行了折衷,适用信 噪比的范围较广,但是计算量较大,需要统计各种参数,实时性不好。 2 2 4 卡尔曼滤波法 卡尔曼滤波是基于语音生成模型的滤波方法,在已知状态方程和噪声统计特性的条件 l l 桂林理工大学硕士学位论文 下,用线性预测( l p c ) 分析参数,在非平稳条件下也可以保证最小均方误差意义下对语 音的最优估计。最常用的语音生成模型为a r 模型,将纯净语音用m 阶a r 语音模型写 成时域形式为【3 2 , j | i , j ( 七) = a , s ( k - i ) + u ( k ) 公式( 2 2 7 ) i = i 含噪语音模型如式( 2 6 ) j ,( 七) = j ( 七) + _ ,l ( 七) ,这里q 是第1 个彳r 系数,( 七) 是模型噪声, ,l ( 七) 是背景噪声。“( j | ) 和刀( 七) 是不相关的高斯白噪声,其均值和方差分别为二,荔和蠢, 蠢。把( 2 2 7 ) 写成规范的状态空间矩阵方程如下两式【3 3 】: 其中: x ( k ) = v x ( k 1 ) + g u ( k ) y ( k ) = h x ( k ) + g n ( k ) 公式( 2 2 8 ) 公式( 2 2 9 ) 工( 后) = 【s ( 七一m + 1 ) ,s ( 七) 】7 公式( 2 3 0 ) olo 0 olo o f = i ; ; l 1000 1 a ma | ! l ,一t a m 一2 a i 公式( 2 3 1 ) h = g r = 【o0 01 】公式( 2 3 2 ) 其中,m 为彳尺模型的阶数,f 为mx m 阶转换矩阵,g 和分别为m l 输入列向量和 l 膨观测行向量。卡尔曼滤波算法如下【3 4 】: e ( 尼) = y ( 七) 一日三( 冰一1 ) 一五 k ( 七) = p ( k l k - 1 ) h rx ( h p ( k l k - 1 ) h7 + 一) 一1 ;( 七i 七) = ;( 七i 七一1 ) + k ( 七) e ( 七) 尸( 七l 七) = ( ,一k ( 七) h ) p ( 尼i 七一1 ) ;( 七i 七) = x ( 七) 一二( j | l 七) ;( 七+ l l 七) = f 王( 小) + g 云 p ( 尼+ l l 七) = f p ( kk ) f 7 + g g 7 吒2 p ( kk 1 ) = 研;( 冰一1 ) ;7 ( k c 一1 ) 】 l 公式( 2 3 3 ) 公式( 2 3 4 ) 公式( 2 3 5 ) 公式( 2 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论