(检测技术与自动化装置专业论文)基于bp神经网络的耳语音增强的研究.pdf_第1页
(检测技术与自动化装置专业论文)基于bp神经网络的耳语音增强的研究.pdf_第2页
(检测技术与自动化装置专业论文)基于bp神经网络的耳语音增强的研究.pdf_第3页
(检测技术与自动化装置专业论文)基于bp神经网络的耳语音增强的研究.pdf_第4页
(检测技术与自动化装置专业论文)基于bp神经网络的耳语音增强的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(检测技术与自动化装置专业论文)基于bp神经网络的耳语音增强的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于b p 神经网络的耳语音增强的研究中文摘要 基于b p 神经网络的耳语音增强的研究 中文摘要 耳语音作为一种常用的语音形式,在很多学科中都有很重要的应用,近几年越来 越成为人们研究的热点。而耳语音增强作为提高带噪耳语音质量的手段,其重要性也 相对提升。相对于正常语音来说,耳语音在公共场合的信噪比较低,而且没有基音周 期,共振峰不明显,所以耳语音增强具有一定的难度。 本文在研究了正常语音增强的几种常用算法如谱减法、l m s 自适应滤波等方法的 基础上,把它们应用于耳语音增强,效果并不是非常好。 由于人耳对于耳语音具有特殊的处理方式,本文采用了具有自适应特性的非线性 神经网络b p 神经网络与符合人耳感知特性的m e l 频率滤波器相结合的处理方法 进行耳语音增强。首先根据耳语音的感知特性,对传统的m e l 频率划分进行修正,产 生一组抑制高、低频带,增强中间频带的非线性m e l 频率,以适应入耳敏感频段从耳 语音的第一共振峰移到第二共振峰附近的特点。然后利用修正的m e l 频率滤波器对耳 语音信号进行特征提取,把此特征矢量作为b p 神经网络的输入,利用神经网络进行 非线性逼近,产生相应频段的谱减因子,由此降低由谱减法产生的“音乐噪声”,并 且符合入耳听觉特性。 然后,本文对几种耳语音增强算法进行了计算机仿真,实验结果表明无论是从客 观标准( 信噪比) 还是主观听觉( m o s 分) 效果,本文提出的具有感知特性的b p 神经网络的耳语音增强方法取得的结果都比前几种方法好。 最后,提出了本论文方法的缺点及未解决的问题,给出了进一步研究和改进的方 向。 关键词:耳语音增强、b p 神经网络、m e l 滤波器、听觉特性 作者:孙静 指导老师;陶智 基于b p 神经网络的耳语音增强的研究 a b s t r a c t w h i s p e r e ds p e e c he n h a n c e m e n ta l g o r i t h mb a s e do n b pn e u r a ln e t w o r k s a b s t r a c t a san o r m a ls p e e c hf o r m ,w h i s p e r e ds p e e c hi sa p p l i e di nm a n yi m p o r t a n ts u b j e c t sa n d b e c o m e sah o ts t u d y p r o j e c t a sam e t h o do fi m p r o v i n gt h en o i s ys p e e c h s i g n a l s , w h i s p e r e ds p e e c he n h a n c e m e n ti sm o l ea n dm o r ei m p o r t a n t t h es n ri np u b l i c e n v i r o n m e n to fw h i s p e r e ds p e e c hi sl o w e rt h a nn o r m a ls p e e c ha n dt h ef o r m e rh a s h tp i t c h p e r i o da n d i t sf o r m a n t sa r en o to b v i o u s ,s ow h i s p e r e ds p e e c he n h a n c e m e n ti sh a r d e r a tt h eb e g i n n i n go ft h i sp a p e r , a u t h o ra p p l i e ss p e c t r u ms u b t r a c t i o na n dl m s a d a p t i v e f i l t e rw h i c ha r eu s u a l l yu s e di nn o r m a ls p e e c ht ow h i s p e r e ds p e e c he n h a n c e m e n t ,a n dt h e e f f e c t sa r en o tv e r yg o o d a c c o r d i n gt ot h a th u m a n se a r sh a v es p e c i a lp r o c e s s i n gw a yt od e a l 谢n lw h i s p e r e d s p e e c h ,t h i sp a p e rc o m b i n e sw i mt h en o n l i n e a ra d a p t i v en e u r a ln c :t w o r k s b pn e u r a l n e t w o r k sa n dm e lf r e q u e n c y - b a n kw h i c hi ss u i t a b l et op e r c e p t i o nc h a r a c t e r i s t i c st o e n h a n c et h ew h i s p e r e ds p e e c h f i r s t , o nt h eb a s i so fp e r c e p t i o nc h a r a c t e r i s t i c st ot h e w h i s p e r e ds p e e c h , m o d i f i e st h et r a d i t i o n a lm e lf r e q u e n c y b a n kt oan e wm e l f r e q u e n c y - b a n kw h i c hc a l ls u p p r e s st h eh i g h e ra n dl o w e rf r e q u e n c y b a n d sa n di m p r o v i n g m i d d l ef r e q u e n c y b a n d st om a k et h es e n s i t i v ef r e q u e n c y b a n dm o v ef r o mt h ef i r s tf o r m a n t t ot h es e c o n df o r m a n t t h e ne x t r a c tt h ef e a t u r eo f w h i s p e r e ds p e e c ha st h ei n p u tv e c t o r so f b pn e u r a ln e t w o r k sw i t ht h i sm o d i f i e dm e lf r e q u e n c y b a n d ,a n dp r o d u c es u b t r a c t i o n c o e f f i c i e n ti ne v e r yf r e q u e n c y - b a n d 、析t l ln o n l i n e a rn e u r a ln e t w o r k st or e d u c et h em u s i c n o i s et h a tp r o d u c e db ys p e c t r u ms u b t r a c t i o n t h e n ,s i m u l a t et h e s ee n h a n c e m e n tm e t h o d st h a tr e f e r r e dt oa b o v ew i t hc o m p u t e r , a n d c o m p a r e t h e s em e a l l sw i 廿1 o b j e c t i v e c r i t e r i 一s n r a n ds u b j e c t i v e p e r c e p t i o n c r i t e r i a m o ss c o r e t h er e s u l t sd e s c r i p tt h a tt h ew h i s p e r e ds p e e c he n h a n c e m e n t i i 基于b p 神经网络的耳语音增强的研究a b s t r a c t a l g o r i t h mb a s e do nn o n l i n e a rb pn e u r a ln e t w o r k si sb e t t e rt h a no t h e rm e t h o d ss u c ha s s p e c t r u ms u b t r a c t i o na n dl m sa d a p t i v ef i l t e r a tl a s t , t h i sp a p e rr a i s e st h es h o r t c o m i n g so ft h i sm e t h o da n dt h ep r o b l e m st h a th a v e n t b e e ns o l v e d ,a n dg i v e st h ed i r e c t i o no ff u r t h e rs t u d ya n d i m p r o v i n g k e y w o r d s :w h i s p e r e ds p e e c h ,b pn e u r a ln e t w o r k s ,m e lf r e q u e n c y b a n d ,p e r c e p t i o n c h a r a c t e r i s t i e s w r i t t e nb ys u nj i n g s u p e r v i s e db y t a oz h i 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行 研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其 他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或 其它教育机构的学位证书而使用过的材料。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责 任。 研究生签名:塑! 蝥日期:丝呈:坐 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保存期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 塾螫 日期: 趁! 呈:垒:玺 导师签名: 圭l 赁 日期:盘! 星:! 生 基于b p 神经网络的耳语音增强的研究第一章引言 第一章引言弟一早ji 商 1 1 耳语音增强研究的目的和意义【l - 5 】 语言是人类特有的功能,也是相互传递信息的主要手段之一。其中,耳语是一种 声带振动很弱甚至没有声带振动的耳语音模型。以往耳语音的研究主要为了语音基础 研究和医学工作的需要。随着移动通讯工具的广泛使用,耳语音也成为通讯中的一种 交流方式。在公共场合中,使用耳语音可以不影响他人并保证通话的保密性;对于喉 部切除的失音患者,如能将其发出的气声自动识别出来,无需电子喉就能转换为正常 音,对于每年上万人数量增长的失音患者来说,提供了一种更容易被接受的语言交流 方式;此外,耳语音在公安、司法等部门也有重要的应用前景,识别耳语音可有助于 公安部门语音的破译。 作为一种常用的语音形式,很多学科都在研究耳语音。例如:语音学家在语音处 理中利用耳语音来测定知性常量:内科医生希望了解使用耳语音对动过喉部手术病人 的恢复所产生的影响;语言障碍矫正学家希望通过对此语音模型的研究,有助于对失 音症患者的声音混乱程度的评估;刑事侦破专家希望通过耳语音能够辨别出说话者的 身份。除此之外,耳语音还被应用在北约组织的低比特率语音编码的评估数据库中。 但是由于环境中的噪声不可避免,比如飞机、直升飞机和汽车中的语音就混有噪 声。噪声的干扰不仅会降低语音通信的质量,而且也会使基于特征参数提取的语音处 理系统( 如低速率语音编码、语音识别等) 性能下降,而且耳语音自身具有的特点, 使得这种语音模型被污染的程度也比正常语音大。所以作为许多语音处理的前期处 理,采用语音增强技术不失为解决上述问题的有效途径。 尽管耳语音有如此多的应用,但是这种语音模型在语音处理的文献中却不多,耳 语音增强作为耳语音处理的重要组成部分,相关文献也很少,基本上只在耳语音前期 处理中简单提到。 基于b p 神经网络的耳语音增强的研究第一章引言 1 2 国内外耳语音增强的现状和发展 1 2 1 语音增强的发展 语音增强是语音信号处理与识别系统的重要组成部分,主要工作就是要从含噪信 号中提取纯净的语音。主要应用在嘈杂环境下的噪声抑制、语音压缩、语音识别等场 合中。语音增强的目的是降低噪声分量,提高语音清晰度和可懂度,减轻听觉疲劳。 事实上从带噪语音信号中提取完全纯净的语音是不可能的,因此语音增强的主要作 用是改进语音质量,消除背景噪声,提高语音的可懂度。 由于语音的非平稳性和随机性,在语音增强的过程中,很难有一种方法是在任何 情况下都能适用的。而且由于噪声特性各异,语音增强的方法也各不相同。在语音处 理的实际应用中,各类宽带噪声的污染较其它噪声更为普遍,也更难处理。因此,设 法增强带有宽带干扰的语音信号具有重要意义。 4 0 多年来,人们针对加性宽带噪声研究了各种语音增强方法。降低宽带噪声的方 法大体上分为4 类:噪声对消法、基于语音的周期性的增强方法、基于语音生成模 型的增强算法和基于短时谱幅度估计的增强算法。近些年也出现了一些诸如小波变 换、子空间分解等一些新方法。其中,基于语音幅度谱估计的增强算法一直是研究热 点。主要有谱相减法【8 15 1 、维纳滤波方法【6 】和卡尔曼滤波器以及最小均方误差 ( m m s e ) 2 2 , 2 a l 估计法等。 另一种分类方法大致也可以分为四种:参数方法、非参数方法、统计方法和其它 方法。 参数方法有梳状滤波器、维纳滤波器、卡尔曼滤波器等。 非参数方法不需要从带噪信号中估计模型参数,因此这种方法的应用范围较广。 但由于没有利用可能的语言统计信息,故结果一般不是最优化的。这类方法包括谱减 法、自适应滤波法 2 6 , 2 7 1 等。 语音统计特性的方法如:最小均方误差估计法( m m s e ) 和听觉掩蔽效应【5 0 , 5 q 等。 其他方法如小波变换粥9 1 、离散余弦变换( d c t ) t 4 0 , 4 q 、人工神经网络 4 2 - 5 6 1 等。 谱减法是频域上增强语音信号的有效方法,虽算法简单,便于实现快速处理,可 基于b p 神经网络的耳语音增强的研究 第一章引言 获得较高的输出信噪比,然而谱相减在滤除背景噪声的同时,会产生“音乐噪声”,由 于音乐噪声在短时帧里是非平稳的,所以很难被滤除。而且,耳语音信号本身的信噪 比很低,“音乐噪声”对信号产生的干扰就更大,严重影响耳语音的听觉效果。 为消除正常语音增强中产生的音乐噪声,人们提出过很多算法。最初是在谱减法 本身上面改进,如b e r o u t i 9 】根据经验确定噪声功率谱大小的系数和增强语音功率谱的 最小值限制,改变它的系数,改变窗等,但是适应性较差;l o c k w o o dp 和b o u d yj 【1 0 】 根据语音信号的信噪比自适应调整语音增强的增益系数,提高了语音的信噪比,但语 音质量没有大的提高;n a t h a l i ev i r a g 1 2 1 将人耳的听觉掩蔽特性应用到非线性谱减法语 音增强算法中,部分解决了谱减法残留音乐噪声大的问题,但在信噪比较低或非平稳 噪声的情况下,其增强效果不理想。在它趋于成熟后经常会与其他方法联合使用,会 取得比较好的增强效果。 wi d r o w 和h o f f 在1 9 5 9 年提出了l m s 算法,这种算法由于计算量小,易于实时处 理,广泛应用于各领域。但这种算法有一定的缺点:如收敛速度慢,对非平稳环境敏 感性强,而且需要谨慎地选择步长参数才能达到收敛和失调的折衷。同时,耳语音信 号的“噪语声”特性,使它很难与噪声明显区分开来,所以单独利用l m s 自适应滤波增 强的耳语音效果不是很明显。有人把它与谱减法结合起来处理耳语音取得较好的效 果。 单输入去噪可用维纳滤波器和卡尔曼滤波器来实现,运用主输入和参考输入的自 适应滤波方法是一种去噪的强有力的技术。 维纳滤波法和谱减法尽管导出的出发点不同,但形式上并没有太大的差别,可以 认为是统一的。 谱减法和维纳滤波法的缺点是完全放弃了对语音频谱的分布假设,1 9 8 4 年y a r i v e p h r a i m 和d a v i dm a l a h t l 7 】提出了一种基于短时幅度谱( s t s a ) 的最小均方误差估计 ( m m s e ) 的语音增强方法,有效地解决了这一缺点,经c a p e i l 8 】等人证实该方法能 有效地抑制音乐噪声,但s t s a 。m m s e 法在低信噪比时音乐噪声现象和语音失真现 象仍然存在。而且由于需要事先估计或假设语音频谱的分布,因而其计算量较大。针 对s t s a m m s e 的不足,许多改进方法被提出。y a r i ve p h r a i m 和d a v i dm a l a h 在文 献【1 9 1 中进一步给出了一个改进的算法,该算法中用短时对数幅度谱代替了原来的短时 基于b p 神经网络的耳语音增强的研究 第一章引言 幅度谱。因为对数幅度谱更适合于语音处理,增强效果得到提高。在文献【2 0 1 中介绍了 一种自适应m m s e 方法,通过用p 次幂代替原来的二次幂,调节1 3 来得到最佳增强 效果。文献1 2 1 】中通过计算每一频点的无音概率和一种软判决方法决定每个频点是否为 语音,再依此决定该频点的加权大小,最终改进m m s e 法。 为了减少音乐噪声,n a t h a l i ev i r a g 提出了基于声学掩蔽特性的单信道语音增强算 法【1 2 1 。该算法是利用人耳的听觉掩蔽效应 2 9 , 3 0 1 来去除“音乐噪声”,采用普通谱相减后 的能量谱来计算清洁语音的声学掩蔽门限,这种方法能在提高语音信噪比的同时,获 取最佳主观感知质量的重建语音,但是这个掩蔽门限与实际的清洁语音掩蔽门限存在 一定差异,性能受限于对背景噪声功率谱的估计准确性,在信噪比低时仍会造成音乐 噪声。 1 2 2 国内外耳语音增强的现状 耳语音的研究( 耳语音增强、耳语音识别等) ,比正常语音要困难得多。目前, 耳语音方面的研究相对较少,很多都是对于耳语音的基本特性的分析f 5 9 引】,在耳语音 增强方面也非常少,一般只在其他耳语音处理,如耳语音识别1 6 2 1 ,耳语音向正常语音 转换【6 3 , 6 4 1 过程中简单提及。虽然最早的关于耳语音的研究文献可追溯到1 9 7 1 年,但 是无论是在国内还是在国外,耳语音的处理都处于前期研究阶段。 根据上述语音增强算法的原理以及研究者们仿真测试的结果,人们知道,相对于 其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,而且经过改 进后效果也较好。因此,虽然谱相减法早在2 0 世纪7 0 年代末期就已经提出了,但直 到现在,仍有很多人对其进行研究。而且,近年来国内外耳语音研究者们在处理宽带 噪声时,一般也都是围绕谱减法展开增强算法的研究,利用谱减法来取得较高信噪比 后再对耳语音进行后续处理,同时,根据耳语音的特点,还可以利用截止频率为5 0 0 h z 的高通滤波器【8 】进行耳语音增强。南京大学声学所利用功率谱减法结合信号放大( 归 一化) 、高通滤波进行耳语音增强【l 】,提高其信噪比。在m o r r i s l 5 1 的研究中,利用参数 谱估计对耳语音进行语音增强。 但是由于耳语音的特殊性输入信噪比很低,运用这些谱减法算法消噪时,很 难做到既减少音乐噪声又不造成较大的耳语音失真。 4 基于b p 神经网络的耳语音增强的研究第一章引言 1 3 耳语音增强的难点分析 耳语音是近年来发展起来的新兴课题,还处在研究阶段,它在通信、医学、军事 等许多重要领域都有重要的利用价值。在耳语发音时,声带几乎没有振动,语音完全 靠气流与发音器官的摩擦来产生,乐音与噪音相间的耳语声变成了完全由噪音组成的 “噪语声”。没有基音周期,共振峰特征不明显,使得耳语音在公共场合的特征与背景 噪声区分不明显,所以提取明显具有耳语音特性的特征矢量更加困难。音量小,声级 低,使得耳语音的信噪比比正常语音更低,所以去噪同时会减去过多的清音信息,损 害耳语音的质量,这些耳语音的特性增加了耳语音增强的难度。 1 4 本文研究的主要工作 由于谱减法算法简单,易于实现,一直是语音增强研究的热点,但是由于“音乐 噪声”等问题具有自身的局限性;而神经网络在解决语音增强问题时,存在输入向量 太大,实时性差等缺点,但它能以任何值逼近期望输出的优点也是显而易见的。本文 把神经网络具有解决非线性问题的能力和谱减法的优点结合起来,利用谱减法中的能 量谱使得神经网络的输入向量大大减小,再利用神经网络的非线性逼近来获得谱减因 子,取得能够适应不同帧语音的值,使它具有自适应的能力,以达到较好的增强效果。 基于本课题的研究内容和主要工作,本文的结构如下: 第一章主要介绍了本课题研究的背景、目的和意义,同时介绍了耳语音增强的国 内外发展的历史、现状及存在的问题。 第二章从耳语音信号的特点出发,分析了耳语音和正常语音的相同点和不同点及 耳语音处理的难点,同时简要讨论了人耳听觉感知特性、噪声特性及耳语音增强的预 处理。 第三章在正常增强方法的基础上讨论了耳语音增强的几种方法及其原理。 第四章介绍了b p 神经网络的发展史、本文耳语音增强方法的理论基础:神经网 络的模型、训练方法及其特点。 第五章讨论了在谱减法前提下提取特征参数的方法,把此特征参数作为b p 神经 网络的输入的基础上,提出了一种利用b p 神经网络估计谱减法的谱减因子的方法。 5 基于b p 神经网络的耳语音增强的研究 第一章引言 第六章采用m a t l a b 7 0 进行增强结果仿真,比较了一般用于耳语音增强方法效果 和本文提出方法的效果,并对实验结果进行了分析。 第七章对本文提出的耳语音增强方法的总结和对下一步工作的展望及今后进一 步研究的方向。 6 基于b p 神经网络的耳语音增强的研究第二章耳语音增强的理论幕础 第二章耳语音增强的理论基础 2 1 耳语音的特点及其与正常语音的区别 耳语音作为一种语音模型,具有一般的语音特性【6 】: 语音信号是非平稳的随机信号。从整体来看,语音信号特信以及表征其本质特性 的参数均是随时间不断变化的,具有很强的“时变特性”,因此语音信号是一个非平稳 态过程,不能用处理平稳信号的数字信号处理技术对语音信号进行分析处理。但由于 人的发音器官在发声过程中的变化速度远远小于语音信号的变化速度,即在一段短时 间内( 1 0 3 0 m s ) 其物理特性和频谱特性可以看作是不变的。这样就可以应用平稳随 机过程来处理语音信号。这就是语音信号的“短时平稳性”。“短时分析”技术将始终贯 穿语音信号处理的过程。 但是耳语音作为一种特殊的语音模型,又具有自己的特性。 2 1 1 耳语音信号产生的模型 任何语言都有元音和辅音两种音素。元音的一个重要声学特性是共振峰,不同的 元音对应于一组不同的共振峰参数,而辅音没有明确的共振峰结构。根据激励形式的 不同,辅音分为清音和浊音两大类。当气流通过声门时,如果声带的张力刚好使声带 发生张弛振荡式的振荡,产生一股准周期的气流,这一气流激励声道就产生浊音;如 果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部分而产生湍流,就得 到清音。 图2 1 和图2 2 分别是正常语音和耳语音信号的产生模型,从图中可以明显看出 它们的区别。正常语音的浊音和清音是由两种不同的信号发出的,产生浊音的是周期 脉冲发生器,这说明正常语音的浊音具有基音周期,然后经过声门脉冲模型,加上振 幅形成浊音。产生清音的是随机噪声,加上振幅,形成正常语音的清音。 耳语音的清音和浊音都是由随机噪声发出的,它们都没有基音周期。不同的是浊 音具有共振峰,而清音没有。 7 基于b p 神经嘲络的耳语音增强的研究第二章耳语音增强的理论基础 基音频率a v 激励模型 图2 1 正常语音信号的产生模型 声道参数 声道模型辐射模型 图2 2 耳语音的产生模型 2 1 2 耳语音的特性【1 ,3 ,4 】 正是由于耳语音与正常语音的不同的发音方式,导致它们有着不同的声学特性。 汉语耳语音节一般由一个元音前后附加一个或两个辅音所构成,音节前部的辅音 称为声母,声母后面的部分称为韵母( 一般来说,汉语韵母对应于元音,虽然两者并 不完全等同) 。耳语音的清辅音部分( 清擦音、塞擦音和塞音等) 与正常语音的发音 方式没有大的区别,但是浊音( 元音和浊辅音) 却有较大的不同。 对于正常语音来说,声源为周期性脉冲。人们在发浊音时,声门完全关闭,因受 声门下气流的冲击而张开,又由声带韧性迅速闭合,随后又张开、闭合,不断重复, 使声门向上送出一连串喷流,故正常元音的声源为周期性脉冲,声带振动的周期即为 基音周期,声带振动的频率即为基频。正常语音的清音和浊音在特征上的差异也非常 明显,清音没有明显的时域和频域特征,近似于白噪声。而浊音在时域上具有明显的 基于b p 神经网络的耳语旨增强的研究 第二章耳语爵增强的理论基础 周期性,其能量大部分集中在低频段内,并且在频谱上表现为共振峰结构。在语音增 强处理中可以利用浊音的准周期性来区别和抑制非语音信号。 而耳语音的声源为噪声源,即耳语发音的浊音没有基频。耳语音发音时声门一直 保持半开的状态,声门前部完全靠拢,声带不振动,靠肺部出来的湍流通过开放区产 生摩擦噪声,所以耳语音的声源激励为噪声源。 由于耳语发音时,声道传输函数发生改变,耳语音元音共振峰的位置和带宽都发 生了变化,还使得耳语元音5 0 0 h z 以下的谱被衰减,2 0 0 h z 2 0 0 0 h z 的谱较之正常元 音的谱更平坦。另外,由于耳语音是气流发声,声级较低,它比正常发音约低2 0 d b , 并且耳语音发声时需要大量的气流及较低的肺活量和气管压力,使耳语音语速较慢。 正常音的浊音能量大于清音能量、浊音的过零率小于清音的过零率,由于耳语音 声韵母都是噪声激励,故没有了此规律。 耳语音“3 ”、“4 ”和正常语音“3 ”、“4 ”的时域信号、语谱图、短时能量和过零率分 别如图2 3 和图2 4 所示。 从图中可以看出,耳语音的幅度比正常语音低很多,更容易受机器噪声和环境噪 声的影响,尤其是类似汉语耳语音“4 ”这类的信号,更偏向于噪声信号。 在汉语普通话中,正常语音的声母可分为擦音、塞音、塞擦音、边音、鼻音、零 声母。虽然在耳语音中,由于不同的发音方式,不同类型的声母之间的区别也模糊化, 但是经过笔者的大量实验,发现对于耳语音增强来说,它们之间还是有区别的。 笔者利用l m s 自适应滤波算法对带噪( 白噪声) 的六类声母进行语音增强,发 现摩擦音( 如f 、h 、s 、s h 、x ) 的增强效果总体来说都不是很好,相对来说,塞擦音 ( 如z 、z h 、j 、c 、c h 、q ) 、塞音( b 、d 、g 、p 、t 、k ) 、边音( 1 ) 、零声母( i 、u 、y ) 的增强效果比较好。同时,笔者利用谱减法进行相同带噪耳语音的语音增强,虽然对 于摩擦音的增强效果与其它耳语音效果相当,但是音乐噪声相对于较低的耳语音信噪 比来说是难以忍受的。 9 基于b p 神经网络的耳语音增强的研究 第二章耳语音增强的理论基础 o 5 鬻0 口5 4 0 0 口 3 0 叩 口 j j i 峨岫_ 1 _ f r r 2 0 0 04 0 0 0 采样点 02 0 0 04 0 0 0 g 0 0 0 采样点 趔 1 咀【 号 采样点 采样点 ( a ) j :常语音“3 ”( b ) 耳语音“3 ” 图2 - 3 正常语音“3 ”与耳语音“3 ”的区别 1 0 阱罴得骚 基于b p 神经网络的耳语音增强的研究 第一二章耳语裔增强的理论基础 j 型 1 n n i 己卜 删 瑚 皿2 斟 脚 捌 采样点 采样点 0 5 趔l i n t 0 吾 斟 慷 捌 0 5 山 w 叩 0 2 0 0 04 0 0 06 0 0 口 采样点 醒 采样点 ( a ) 正常语音“4 ”( b ) 耳语音“4 ” 图2 4 正常语音“4 ”与耳语音4 的区别 醉骚 斜冁 基于b p 神经网络的耳语音增强的研究第二章耳语音增强的理论基础 2 2 人耳感知特性 6 1 人耳对于声波频率高低的感觉与实际频率的高低不呈线性关系,而近似为对数关 系,即在低频部分,人耳感受比较敏锐,在高频部分,人耳的感受就会越来越粗糙; 人耳对语音信号的幅度谱较为敏感,对相位不敏感。这一点对于恢复语音信号很有帮 助,这也是利用谱减法进行语音增强的基础。 语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感 知特性来减少运算代价。 利用人耳的感知特性,我们可以在语音的频谱范围内设置若干个带通滤波器,每 个滤波器具有三角形或正弦滤波特性,然后在特征矢量中纳入能量信息,计算相应的 滤波器组的信号能量作为耳语音信号的特征矢量。 对于耳语音的感知,入耳存在不同于正常音的感知特性【7 】,根据s a h a ra n dj o h n 的实验,在变异情况下,人耳的敏感区偏移到第二共振峰附近,对于耳语音则主要分 布于1 5 0 0 - - 2 5 0 0 h z 频段。s a h a ra n dj o h n 认为对于变异语音,人耳可以单独将变异信 息分离出来送到大脑的某一特殊神经中枢来判读,而将剩余的信息提交大脑语言神经 中枢,最后综合两方面的信息从而获得完整的信息内容,这充分体现了人耳对语音处 理的优越性。 2 3 噪声特性【6 】 噪声可以是加性的,也可以是非加性的( 非加性噪声往往可以通过某种变换,如 同态滤波,转为加性噪声) 。加性噪声通常分为冲激噪声、周期噪声、宽带噪声、语 音干扰噪声等。非加性噪声主要是残响及传送网络的电路噪声等。 ( 1 ) 冲激噪声:在时域中表现为类似冲激函数的窄脉冲,例如放电、打火、爆炸 都会引起冲激噪声。消除冲激噪声影响的方法通常有两种:对带噪语音信号的幅度求 均值,将该均值作为判断阈值,当信号超过该阈值时,判为冲激噪声,在时域中将其 滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点, 从而能在重建语音信号中去掉冲激噪声。 ( 2 ) 周期噪声:在频谱图上表现为离散的窄谱峰,往往来源于周期运转的机械, 1 2 基于b p 神经网络的耳语音增强的研究第一二章耳语音增强的理论基础 最常见的有电动机、风扇等发出的周期噪声,5 0 h z 交流电源哼哼声也是周期噪声。 这类噪声引起的问题可以通过功率谱发现,通常可以采用陷波器方法予以滤除。 ( 3 ) 宽带噪声:其显著特点是噪声频谱遍布于语音信号频谱之中,在时域中也与 语音信号完全重叠,只有在语音间歇期才单独存在。宽带噪声的来源很多,热噪声、 风引起的气流噪声、说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以 及量化噪声等都可以视为宽带噪声,应用中常近似为g a u s s 噪声或白噪声。消除宽带 噪声较为困难,一般需要采取非线性处理办法。 ( 4 ) 语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成语音 干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考 虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基 音和各次谐波,再恢复出有用的语音信号。 ( 5 ) 传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时域里是语音 和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪 声来处理。 2 4 耳语音增强的预处理 由于语音信号的平均功率谱受口鼻辐射的影响,需要对信号进行高频提升( 6 d b 倍频) ,便于进行频谱分析和声道函数分析,因而需要将信号进行预加重处理。 预加重滤波器形式为 j r ( z ) = l u z 叫( 2 1 ) 其中,u 的取值范围为o 9 3 0 9 7 之间。预加重的语音信号还能有效滤除低频干 扰,尤其是5 0 h z 的工频干扰,同时还能达到消除直流漂移、抑制随机噪声和提升清 音部分能量的效果。当语音信号在分析处理之后需要语音合成的时候,还需要进行去 加重处理以恢复原来的语音信号,去加重滤波器选为 h ( z 。1 ) = 1 ( 1 一舷_ )( 2 2 ) 语音信号分析全过程都是建立在“短时分析技术”的基础上的,根据对语音特点 的研究,其特性是随时间而不断变化,是一个非平稳信号。从另一个方面看,虽然语 基于b p 神经网络的耳语音增强的研究 第二章耳语音增强的理论摹础 音信号具有时变性,但是声道的形状变化频率相对于语音频率来说是相对缓慢的,所 以认为语音信号是一个准平稳信号,因而现在语音信号处理基本上都在时间帧内进 行,对其进行分帧加窗,帧长一般为1 0 m s 3 0 m s 。 窗和窗长的选择对于语音处理结果有很大的影响,窗可以选择矩形窗( r e c t a n g l e ) 、 哈明窗( h a m m i n g ) 等。 虽然矩形窗的谱平滑性比较好,但波形细节易丢失,并且矩形窗会产生频谱泄漏 现象,而哈明窗可以有效地克服频谱泄漏现象,所以在处理中一般都选择哈明窗。 设窗长为三,则哈明窗表达式 o 5 4 _ 0 6 c o s f ,堡、1 o ( 3 5 ) 为了用傅里叶逆变换再现语音,还需要s ,( ) 的相位,此时可借用带噪语音相位, 即l 佃) 的相位来近似,用砌 以( ) 】来表示。因而 s w ( ) 爿s w ( ) ie x p ( j 奉尸厅 。k ( ) 】)( 3 6 ) 则恢复的语音是估值的傅里叶反变换。 谱减法的原理框图如图3 1 所示。 “v ,一o v ,。v , ,一、一 f f t f 坝功f 2 7 l夕1 尸馒坝动】 鼻“、 1r 1r i f f t | _ 相位恢复 l s ( c o ) i i f ( 动f 2 图3 1谱减法的原理框图 谱减法的优点是方法容易理解,计算简单,实时性强。然而,其自身也同时存在着 难以克服的缺陷。 一是它要求被处理的噪声是加性的,否则,如果非加性噪声成分较大,那么处理效 果会受到影响。 二是它要求被处理的噪声的傅里叶谱是平稳的,至少比语音要有更好的平稳性。 但是,实际场合噪声的幅度和含噪信号的幅度相差可能很大,如果直接用噪声的统计 均值代替当前帧的噪声,在当前帧噪声的一些随机谱峰处,经过谱减后就剩下残余的 谱峰,而在当前帧的噪声谱谷处,由于采用了半波整流,残余噪声谱成份被设成接近 1 6 基于b p 神经网络的耳语音增强的研究第三章语音增强算法概述 于零的值,这样经过增强后的残余噪声在频域上就成为一些离散的谱峰,相应地在时 域上就呈现出一些类正弦信号的叠加,呈现出乐音的特性。这就是“音乐噪声”。这种 噪声比较难以消除而又不可避免,只能通过对实际情况进行分析,配置合理的参数, 或者结合其他降噪算法来加以减小,使之不影响增强后语音信号的听感,保证可懂度。 为了有效地减少音乐噪声,可对谱减法进行改进。噪声的能量往往分布于整个频 率范围,而语音能量则较集中于某些频率或频段,尤其在元音的共振峰处。因此可在 元音段等幅度较高的时帧去除噪声时,减去p ( d 1 ) ,则可更好地相对突 出语音的功率谱。这种改进也称为被减项权值处理。 同时,还可以把式( 3 5 ) 改为 is w ( ) i 。= jl ( ) 1 4 - 1 3 ( 3 7 ) 当a 2 时,具有与被减项加权处理相同的效果。适当调节仪、d ,可以获得比原始 谱减法更好的增强效果。因此,实际的增强过程中,更多地使用谱减法的改进形式, 试验结果证明效果比较好。 综上所述,提高谱减法的增强效果主要从两个方面改进:第一,提高噪声谱估计 的准确性;第二,选取适当的参数,以弥补噪声谱估计的偏差。本文就是从后者出发, 进而改进谱减法,减少“音乐噪声”,提高耳语音的质量。 3 2l m s 自适应滤波 wi d r o w 和h o f f 在1 9 6 5 年w i n d r o w 提出横型结构l m s 算法,这种算法由于计 算量小,易于实时处理,广泛应用于通信、系统辨识、信号处理和自适应控制等领域。 带自适应滤波器的噪声抵消器的工作原理阳实质上是以均方误差或方差最小为 准则,对噪声进行最优估计,然后从带噪语音中减去,达到增强语音的目的。 其原理图如图3 2 所示: 1 7 基于b p 神经网络的耳语音增强的研究 第三章语音增强算法概述 图3 2l m s 自适应噪声对消原理图 x o ) 为带噪信号,参考信号,( ,) 与j o ) 不相关,与刀( f ) 相关。则系统的均方输出为 e e 2 】= 研( j + 刀一y ) 2 】= e s 2 】+ e 【( 拧一y ) 2 】+ 2 e p ( 刀一少) 】 = e s 2 】+ e 【( 刀一y ) 2 】( 3 8 ) 通过l m s 自适应滤波器调整加权矢量,得到 玩妯k 2 】= e 二。p 2 】+ 瓦i 。 ( ,z y ) 2 】 ( 3 9 ) 当y 最接近拧时,等效于系统输出e 最接近j ,噪声被抵消。 其中,l m s 算法的加权矢量调整关系式为 y ( n ) = w r ( 胛) x ( 刀) ( 3 1 0 ) p ( 刀) = d ( n ) - y ( n )( 3 1 1 ) w ( n + 1 ) = w ( n ) + 2 1 a x ( n ) e ( n )( 3 1 2 ) d ( n ) 、y ( n ) 、e ( n ) 是滤波器的期望输出值、输出值和输出误差调节信号。是控 制自适应速度与稳定性的增益常数。 取值在收敛范围0 1 ) :形= 厂( 巧1 ) = ( 屹嘭一) ,直到哆= 艺 4 与0 ( 对应样本的第个期望值) 比较,计算其误差: 6 ;= f ( 矽) 一呼】= 略一蟛) 哆( 1 一彤) ( 4 2 1 ) 5 对于,= 厶l 一1 ,2 ,将误差反向传播,计算前一层误差: 6 夕1 = 厂( ) 喙i = 形一( 1 - v 一) 以6 : kt 6 蟛= t 1 6 ;矿 哼= 堞+ 断i ( 4 2 2 ) ( 4 2 3 ) ( 4 2 4 ) 7 若过程结束,转8 ;若过程未结束,则加入一个新样本,转2 ; 8 检查误差是否在允许范围。若是,则训练成功,结束;若不是,继续; 9 检查迭代次数。若超过最大迭代次数,结束,训练失败;若未超过,则转2 。 算法流程图如图4 - 3 所示: 基于b p 神经网络的耳语音增强的研究 第四章b p 神经网络 图4 3b p 神经网络算法流程图 4 4 神经网络在耳语音增强中的应用 神经网络在语音增强中的应用主要有以下两个方面: 1 、时域滤波 时域滤波的方法是基于测试语音和噪声环境的分布署l t l l 练时间相同的,且保持不 变的假设,需要利用含噪声语音信号和纯净语音信号分别进行训练,得到合适的预测 2 6 基于b p 神经网络的耳语音增强的研究 第四章b p 神经网络 神经元模型,将噪声抑制1 6 j 。 2 、变换域滤波 使用含噪声语音信号和纯净的目标语音信号在变换域中对神经网络进行训练。根 据需要变换域可以选择频谱域、倒谱域、m e l 倒谱域等。训练后的神经元具有数值逼 近的性能,基于这种性能,神经网络就能够把含噪语音信号参数逼近纯净语音信号参 数,从而达到语音增强的目的f 6 】。 当前,国外有科研者曾尝试利用神经网络与其他的滤波方法相结合进行语音增强 处理,但是这种算法比较复杂,不利于实时处理。 4 5 本章小结 本章主要介绍了b p 神经网络的基本内容以及在耳语音增强中的应用。 首先概括介绍了人工神经网络的发展史以及特点。神经网络的自学习和自适应能 力使其成为对各类信号进行加工处理的一种工具,主要用于解决信号处理中的自适应 和非线性问题。神经网络的发展经过了发展初期、第一个高潮期、过渡期、第二个高 潮期、平稳发展期几个阶段。 之后详细论述了b p 神经网络模型包括b p 神经元、拓扑结构及它的训练方法。 b p 神经网络由信号的正向传播和误差的反向传播两个过程组成。耳语音信号由神经 网络的输入层单元传到隐层单元,再由输出层单元处理后产生输出信号。若输出与期 望输出不符,则产生误差信号,此信号以某种形式通过隐层向输入层逐层反传,修正 各单元的权值和阂值。权值和阈值不断调整,构成符合要求的神经网络。 最后简单归纳了利用b p 神经网络方法来对耳语音信号进行增强的一般途径。 2 7 基于b p 神经网络的耳语音增强的研究第五章基于b p 神经网络的耳语音增强系统设计 第五章基于b p 神经网络的耳语音增强系统设计 5 1 基于m e l 滤波器组的耳语音信号的特征提取 由b p 神经网络的特点可知,利用神经网络进行数据处理的系统,运行速度及复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论