毕业设计基于信号消噪的语音增强系统设计.doc_第1页
毕业设计基于信号消噪的语音增强系统设计.doc_第2页
毕业设计基于信号消噪的语音增强系统设计.doc_第3页
毕业设计基于信号消噪的语音增强系统设计.doc_第4页
毕业设计基于信号消噪的语音增强系统设计.doc_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科毕业设计(论文)基于信号消噪的语音增强系统设计燕 山 大 学2014年6月本科毕业设计(论文)基于信号消噪的语音增强系统设计学 院: 专 业: 学生 姓名: 学 号: 燕山大学毕业设计(论文)任务书 学院:电气工程学院 系级教学单位:仪器科学与工程系学号学生姓名专 业班 级题目题目名称基于信号消噪的语音增强系统设计题目性质1.理工类:工程设计 ( );工程技术实验研究型( );理论研究型( );计算机软件型( );综合型( )。2.管理类( );3.外语类( );4.艺术类( )。题目类型1.毕业设计( ) 2.论文( )题目来源科研课题( ) 生产实际( ) 自选题目( ) 主要内容1. 学习信号消噪的方法2. 用matlab进行仿真实验基本要求1. 按电气工程学院本科生学位论文撰写规范的要求完成设计说明书一份(不少于两万字),A0图纸。2. 说明书及插图一律打印,要求条理清晰、文笔流畅、图形及文字符号符合国家现行标准。3. 按学院指定的地点进行设计,严格按照进度计划完成毕业设计任务。参考资料1. 语音信号处理方面资料2. Matlab在信号处理中的应用方面资料周 次第 1 4 周第 5 8 周第9 12周第1316周第1719周应完成的内容查阅资料学习语音信号处理基础知识语音消噪算法的设计编程,验证算法可行性及优越性撰写论文,准备答辩指导教师:王娜职称: 讲师 年 月 日系级教学单位审批: 年 月 日摘要语音是人们相互传递信息最重要的手段,然而人们在语音通讯的过程中不可避免的会受到周围环境、传输介质等带来的噪声的影响;在语音识别、语音合成等语音的应用过程中,使用的语音信号也会受到外来的各种噪声的干扰,所以有必要对含噪语音信号进行去噪处理。语音增强已成为当前语音信号处理的研究热点。而语音增强方法的小波阈值方法是目前较流行的去噪方法,本文在语音信号和噪声信号特性的基础上,对小波阈值去噪方法展开了以下研究:1.小波阈值去噪方法包含两个重要因素:小波函数和分解层数。首先对不同的小波系进行研究,其次就分解层数进行研究分析,最后得到了对于带噪语音信号来说去噪效果比较好的小波基和最佳的分解层数。2.传统阈值函数存在着一些不足之处,针对这些本文提出一种新的阈值函数。改进的阈值函数连续性和平滑性比较好,从理论上克服了传统阈值函数在小波系数绝对值小于阈值时直接置零,而引起震荡的缺点。3.研究了四种不同的阈值估计,在此基础上,本文研究了一种新阈值估计方法。这种估计方法比上面四种的去噪效果都更加优秀。关键词:语音增强;小波变换;阈值函数;阈值Abstract Speech is the mutual transfer of the most important means of information, however it is unavoidable in the voice communication in the affected by noise environment, such as the transmission medium of; in the application process of speech recognition, speech synthesis, speech, speech signal using interference can be various kinds of noise outside. So it is necessary for the noisy speech signal denoising. Speech enhancement has become a hot research topic in the speech signal processing. Speech enhancement, wavelet threshold method is one of the more popular denoising methods, based on the speech signal and noise signal characteristics, the wavelet threshold denoising method carries out the following research:1.Wavelet threshold denoising method contains two important factors: the wavelet function and decomposition layers. The first study of wavelet decomposition layers of different, then carries on the research analysis, finally obtained for noisy speech signal denoising effect is better wavelet and the optimal decomposition level.2.The traditional threshold function has some shortcomings, the paper proposes a new threshold function. Improved threshold function continuity and smoothness is good, from theory to overcome the traditional threshold function value is less than the threshold are set to zero in the wavelet coefficient, and shock shortcomings.3.Study four different threshold estimation, based on this, the paper studies a new method of threshold estimation. This estimation method than the above four kinds of denoising effect is more outstanding.Keywords: speech enhancement; wavelet transform; threshold function; threshold目 录摘要Abstract第1章 绪论11.1 研究背景及意义11.2 语音增强方法的研究现状21.3 基于小波变换的语音增强方法的研究现状31.4 文章主要内容和结构4第2章 语音增强方法研究62.1 语音和噪声主要特性62.1.1 语音特性62.1.2 噪声特性72.2 语音信号的数字化及预处理82.2.1 语音信号的预加重82.2.2语音信号的加窗和分帧82.3 经典语音增强方法102.3.1 谱减法102.3.2 维纳滤波法122.3.3 自适应对消语音增强132.4 基于听觉掩蔽效应的语音增强132.5 基于神经网络的语音信号增强142.6 语音质量的评价标准142.6.1 主观评价142.6.2 客观评价152.7 本章小结15第 3 章 小波变换的基本理论163.1 小波变换分类163.2 多分辨率分析183.3 常用小波函数183.4 本章小结19第 4 章 基于小波变换的语音增强204.1 小波变换语音增强的基本原理204.2 小波函数和分解层数的选择214.2.1 小波基选取214.2.2 分解层数的选取224.2.3 仿真结果与分析234.3 阈值函数研究244.3.1 常用阈值函数244.3.2 改进的阈值函数274.3.3 仿真结果与分析284.4 阈值估计294.4.1 常见阈值估计304.4.2 新阈值估计324.4.3 仿真结果与分析334.5 实验仿真效果344.6 本章小结38结 论39致 谢41参考文献42附录一 开题报告附录二 中期报告附录三 外文原文附录四 外文文献第1章 绪论1.1 研究背景及意义语言是人类相互交流、传递信息的重要形式,而语音则是人们传递消息时所用到的最基本的手段,也是人类最快捷、最重要、最便利的交流的形式。我们正处于并将长期处于一个信息化的时代,为了使语音信号的传递和获取更加有效率,所以提出了语音信号处理技术。语音信号处理就是,数字信号处理与语音学等技术相结合的,并根据语音的听觉、音位以及物理和语音感知特性,用数字化地方法对语音信号模型进行分析、存储、增强等研究的一种综合性的技术。而我们这里研究的语音增强正是语音信号处理的一个重要的分支。60年代初期语音增强就引起了人们的注意,而到了70年代时达到了一个研究高潮,取得了一系列成果,到了80年代语音增强的实时实现成为了可能。在语音信号处理过程中,语音增强是其它语音技术,如语音编码、语音合成、语音识别等技术实现的基础。由于语音的合成、编码和语音识别等技术都需要高质量的语音,然而我们在获取和传输语音信号时,都会不可避免的受到噪声信号的干扰,这导致语音系统地处理性能变差。语音增强就是要找到一种有效的去除噪声的方法,它的目的就是尽可能的从带噪语音中提取出较为纯净的原始语音,也就是去掉语音信号中的干扰和噪声,从而最终获取高质量的纯净的语音信号1。噪声具有很多来源,而且根据环境和应用场合的不同,噪声所具有的特性也不尽相同,所以想要找到一种通用的、适用于各种噪声环境的语音增强方法是非常困难的。因此在不同的噪声背景下就要采用不同的语音增强方法。但在实际应用过程中,噪声都是随机出现的,所以从带噪语音中提取纯净的语音是几乎不可能的。语音增强的目的主要有两个:一是改善语音质量;二是提高语音可懂度。但往往要同时实现这两个目的是不可能的。目前为止,人们针对加性噪声已经研究了各种语音增强方法,并适用不同的场合。在现代通信领域中,由于因特网和计算机被广泛应用到社会的各个领域,许多应用都要求自然、简单、便捷的人机界面,此时语音的优越性就使其成为一种理想的人机交互方式,在这种交互方式中也需要从含噪语音信号中提取出尽可能纯净地原始语音信号。在日常生活中,还存着着一些有语言障碍的人,他们发出的语音大多会存在着失真,而经过适当的语音增强处理后,他们的语音就能够被人听懂;在进行重要语音录音存储时,录音设备本身产生的噪声和周围环境的噪声都会对录音效果产生影响,也可以通过语音增强来滤除噪声,增加语音的清晰度,减少噪声的影响。综上可以看出,在现实生活中,语音增强技术能够帮助人们解决很多问题,它有着广泛的应用。所以对语音增强技术的研究和改进具有非常重大的意义,找到合适且有效的语音增强方法对科技进步和方便人们的生活都会产生积极的、深远的影响。1.2 语音增强方法的研究现状20世纪60年代科学家们就已经开始对语音增强方法进行研究。70年代中期随着电子技术和数字信号处理的飞速发展,语音增强不仅开始逐步形成理论,并且被应用到实际生活中。很多的语音增强方法在那时被提出,1978 年,Lim 和 Oppenheim 提出了维纳滤波法2,3;1979年,Boll 提出了谱相减法4。到了80年代,Maulay 和 Malpass 提出了软判决噪声抑制方法5;1984年,Ephraim 和 Malah 提出了基于 MMSE 短时谱估计的语音增强方法6;1987年,Paliwal 提出了卡尔曼滤波法7。随着科学技术的不断发展,当到了90年代,Ephraim 等人提出隐马尔可夫模型框架的语音增强算法8;后来,随着研究的不断深入,新思想的不断引入,又出现了一些新的很有研究前景的语音增强方法,如基于听觉掩蔽效应9、基于神经网络10、子空间分解11和小波变换12的语音增强方法等。其中的研究热点之一是基于小波变换的语音增强算法。小波分析方法是一种时频分析方法,具有很好的时频局部化的特点,非常适用于时变的、非平稳的语音信号13。小波变换就是对函数或信号进行多分辨率多尺度的细化分析,主要运用了伸缩和平移等运算,它解决了Fourier变换不能解决的许多困难问题。1.3 基于小波变换的语音增强方法的研究现状1807年 Fourier 提出傅里叶分析,1822年又发表了“热传导解析论文”。小波变换这一概念是由石油信号处理工程师J.Morlet于1980年首先提出的,他率先发现了平移伸缩的小波公式。在二十世纪七十年代,A.Caldero 表示定理的提出、Hardy空间的原子分解和无条件基的深层研究为小波变换的诞生做好了理论上的准备。同时J.O.Stromberg 还构造出了非常接近于现在小波基的小波函数;1986年著名数学家 Y.Meyer偶然构造出一个真正的小波基,并和稍后的比利时女数学家 I.Daubeichies提出了正交小波基,此后形成了小波研究的高潮14,15。1988年 Mallat提出了多分辨率分析理论(MRA)16,17;1992年与其他人提出了基于信号奇异性的信号和图像多尺度边缘表示法;1994年,Xu Yansun提出了一种基于空域相关信号去噪算法,这是一种基于信号尺度间相关性的算法18;1995年D.L.Donoho和 I.M.Johnstone等人提出了小波阈值信号去噪算法19;在国内,也存在着很多研究学者,如潘泉、张磊等对小波阈值去噪算法进行了改进,并拓展了其应用领域;2000年,Chang等人提出了一种空域自适应小波阈值信号去噪方法,这种方法是将自适应阈值和平移不变小波信号增强思想相结合20,21;2001年G Antonini和A Orlandi提出了小波包信号去噪算法22;近几年来,人们对上述算法进行了一些改进。目前,最常用的语音去噪方法是小波阈值去噪方法。小波变换语音增强方法包括有三大类:模极大值去噪23、空域相关去噪和小波阈值去噪24。模极大值去噪是,根据语音信号和噪声信号在不同尺度上的小波变换后的模极大值有不同的特性,语音信号的模极大值随着尺度的增大而增大(或不变),而噪声信号的模极大值则随着尺度的增大而减小。依据这个规律噪声的模极大值可以被滤除,而语音信号的模极大值被保留下来,最后用保留的模极大值重构语音信号。这种方法仅仅适合于白噪声和脉冲噪声。由于在实际应用中计算模极大值时,存在着许多影响计算精度的因素,所以用这种方法很难重构信号,去噪效果较差,且计算量大。鉴于此,国内外的学者提出了很多的改进算法25。 空域相关去噪是根据有用信号和噪声信号经过小波分解后,有用信号的小波系数在各个尺度上相关性较强且非常明显,在信号边缘附近相关性就更加明显;而噪声信号的小波系数在各尺度上相关性很弱且不明显。因此,对带噪信号小波分解后,从粗尺度到细尺度逐步搜索信号的边缘,去除相关性较弱的噪声信号,最终得到真实的信号。缺点是:容易将幅值较大的噪声系数判为有用信号的系数。鉴于此,学者们也提出了很多改进算法26。小波阈值去噪的原理:原始语音信号经小波分解得到的小波系数含有语音信号重要的信息,其幅值比较大,数目少;但是噪声信号经小波分解后的得到的小波系数幅值就比较小。基于此,通过在不同尺度上选择一个合适的阈值,将大于该阈值的小波系数保留,而小于该阈值的小波系数则置零,这样就可以有效地抑制噪声,最后用得到的新小波系数重构原始纯净的语音信号。对于这个阈值的确定,学者提出了很多方法,主要有:1981年,Stain提出了一种SURE阈值估计方法,即无偏似然估计;1994年,Donoho和 Johnstone等人提出了通用阈值算法;Gao和Bruee提出了极大极小阈值估计算法。 1.4 文章主要内容和结构语音增强是语音信号处理重要的基础部分,所以人们研究了许多语音增强的方法。本文简单地介绍了几种前人提出的经典语音增强方法:谱减法、维纳滤波法、自适应滤波法等,并且阐述了小波变换的基础知识和小波阈值去噪的基本原理。本文的研究重点是小波阈值语音增强方法。首先在前人研究的基础上,对小波消噪的两个重要环节:小波阈值和阈值函数两方面进行了研究和改进。其次,对小波基和小波分解层数两方面进行了研究,选择了合适的小波基和小波分解层数,以确保更加有效地进行小波去噪实验。 本文具体结构安排如下: 第1章,主要阐述了课题研究的背景、意义,介绍了语音增强方法的研究现状,回顾了基于小波变换的语音增强方法的研究现状,并对全文的章节做了具体安排。 第2章,阐述了语音增强的几种经典算法:谱减法、自适应对消法和维纳滤波法,并且总结、归纳了各种算法的思想及优缺点。还介绍了两种目前比较流行的算法:基于神经网络和基于听觉掩蔽效应的语音增强方法。 第3章,介绍了小波变换的的基础知识,分析了小波变换的基本原理,研究了多分辨率分析。 第4章,研究了小波变换语音增强方法。首先阐述了小波变换语音增强的基本原理,然后针对小波变换阈值去噪地四个关键问题进行了详细研究,包括小波函数、分解层数、阈值和阈值函数的选取,重点是研究了新的阈值函数和新的阈值估计方法。 最后,对本文进行了总结,概括了本文的主要工作,并指出需进一步研究和完善的地方。 第2章 语音增强方法研究所谓语音增强就是对接收到的含噪语音进行处理,尽可能的消除背景噪声、提高信噪比,最终使提取出的语音信号尽可能的和原始语音信号保持一致,从而达到提高语音的清晰度和可懂度的目的,使听者不会觉得疲劳。而语音信号处理系统,就是要提高其识别率和抗干扰能力。对于不同噪声的来说它们的特性也不尽相同,所以对不同噪声就要采用不同的语音增强方法。一直以来,主要是对加性噪声进行研究,并且提出了许多语音增强方法,比较常用的有:谱减法、自适应滤波法、维纳滤波法、卡尔曼滤波等。此外,随着技术的进一步发展出现了一些新的方法,如基于神经网络的语音增强、基于听觉掩蔽效应的语音增强、基于多分辨率分析的语音增强、基于小波变换的语音增强等。本章主要介绍我们常用的一些方法。 2.1 语音和噪声主要特性2.1.1 语音特性我们在对语音信号进行处理时,一定要先掌握语音信号的特性。语音就是人类发音器官所发出的一种声波,它具有声音的物理特性:音强、音长、音质和音调。发声的最小单位是音节,同时也是是语音流量的最小单位。语音就是由一个个连续的音节构成的,音节由两类构成:清音和浊音。清音的幅度比较小,而且和白噪声很像,时域和频域特征都不明显。浊音在时域波形上是周期性的,幅度较大;在频域波形上有共振峰,大部分的能量集中在低频段。语音是时变的、非平稳的、非遍历的随机过程1。在语音增强中,浊音部分可以比较容易的和噪声分辨出来,但清音却很难与宽带噪声区分。语音波形在时域里是连续的,所以语音信号的特性是随时间变化的,幅值随时间会有很大的变化。清音和浊音的波形具有很大不同:清音的波形类似于白噪声,振幅很弱;元音波形具有明显的周期性,且有较强的振幅。 虽然语音信号有时变特性,但是在较短时间间隔(1030ms)内其特性基本保持不变,所以语音可以被认为是短时平稳的。语音的短时谱幅度的统计特性,可近似认为的具有高斯分布。语音增强的目的是获取高质量的语音,而真正接收到去除噪声后语音的是人耳。人耳对声波的音强、音调、动态频谱有很强的分析感知能力。而且在嘈杂的环境中人耳有一定的抗噪能力,这样在语音增强中利用这种特性就可以减少一部分运算代价。语音感知特性很复杂,目前掌握的一些特性1有:语音感知主要是人耳通过语音幅度谱来获得的,但人耳对相位谱并不敏感;人耳对音频高低的感知,近似的与该频率的对数值成正比; 所谓听觉掩蔽效应,就是强信号对弱信号有抑制作用,是指一个较强声音的存在会影响人耳对另一个较弱声音的感知; 语音感知另一重要因素是共振峰,尤其是第二个共振峰比第一个要重要的多,因此语音信号经过高通滤波器的一定程度滤波后,其可懂度并不会受到影响;在两个人或两个人以上的多人说话环境中,人耳对他所需的声音很敏感。 2.1.2 噪声特性 噪声也是声音的一种,因此具有声波地一切特性。由于噪声来源多且杂,所以噪声的特性变化很大。一般噪声包括加性噪声和非加性噪声两种,加性噪声是指噪声和语音信号在时域表现为相加性,非加性噪声在时域则表现为两信号的相乘性。本文讨论的噪声主要是加性噪声,加性噪声一般分为:周期性噪声、脉冲噪声、宽带噪声和语音干扰1。 周期性噪声是由周期性运转的电气或机械干扰产生的,有很多离散的窄谱峰。周期性噪声带来的问题相对较少,可以通过滤波或变换技术将其滤除,但是在去除时必须要注意不能损害有用信号。脉冲噪声指由信号源产生的随机短时“通断”噪声脉冲,如通信系统中开关的通断产生地噪声、敲击电脑键盘时所产生的噪声等,在时域表现为突然出现的类似于冲激函数的窄脉冲。一般有两种方法用来消除此类噪声:一种是平滑滤波法,一种是阈值判断法。 宽带噪声的声源是随机噪声,包括风、呼吸噪声等,常被近似为高斯噪声或白噪声。但因为其与语音信号完全重叠,因此很难消除,在消除噪声的同时不可避免的的丢失有用信号。目前常用的方法是利用某些非线性处理的谱减法、自适应对消法等。 语音干扰可能是由于话筒拾得的其他语音或在通信中串话引起的,这种噪声去除也很困难,一般采用自适应技术跟踪某个人的特征方法来消除27。 2.2 语音信号的数字化及预处理2.2.1 语音信号的预加重声门激励和口鼻福射会对语音信号的平均功率谱造成很大影响,导致高频端大致在800 Hz以上以6dB/倍频下降,造成了高频部分占整个频谱的比例就会下降的很严重,这样也就会导致整个频带上的波形在高频段时变化比较巨大,最严重的是会对后续的参数分析或者是求取造成误差。所以这里需要一个系统来弥补这6dB/倍频下降的不足(我们可以使用一阶的数字滤波器来实现6dB/倍频提升),弥补之后的频谱就比较接近原始频谱,整个频谱的变化也不是很大,后续分析和求取的参数就会误差较小。 (2-1) 在恢复原信号的过程中,如果要从做过预加重的信号频谱中求取实际的频谱,需要对测量值进行去预加重处理,就是用能够以6dB/倍频程的下降的频率特性的数字滤波器来还原的被处理过的信号特性。2.2.2语音信号的加窗和分帧虽然语音信号是一种非平稳、时变的信号(包含了各种不必要的信息),但是清音和独音的参数在整个发声的过程中跟随时间的变化是十分微小的。既然如此,我们就可以选取一个微小的时间段(一般在语音处理中选取的时间段为1030ms),在这个时间段中各种语音参数可以认为是基本保持不变的。这样我们就可以把整个完整的语音信号截取为一段一段(每一段都是1030ms)进行处理,对于整个语音信号的截取我们可以选择使用加窗分帧来实现,因为我们要利用语音信号的短时平稳性来实现语音增强。使用较多的加窗分帧方法有两种:一种是连续分段方法,一种是交叠分段。如何选取加窗分帧的方法,要根据两种方法在实际应用的环境中所定,可是在这里需要做到段与段之间平滑过渡,即是要有较好的连续性,所以选择交叠分段。顿长的选取一般是要为顿移的2倍。图2-1给出了帧长与帧移(前后两帧之间的交叠部分)的关系。 第K帧 第K+1帧 第K+2帧 帧长 帧移图2-1 帧长、帧移示意图语音信号的加窗算式为: (窗是有限长的)。下面给出了一些常用窗函数有两种,一种是矩形窗(rectangular)、一种是汉明(Hamming)窗,矩形窗的表达式如下:矩形窗: (2-2) 汉明窗(Hamming)的表达如下: (2-3) 窗的形状会对短时分析参数的特性有很大影响。矩形窗的主瓣宽度小于汉明窗,具有较高的频谱分辨率,矩形窗的高频成分必定会影响语音信号的高频部分,容易造成频谱泄露。如果选用高频分量幅度较小的汉明窗,汉明窗的带宽大约是矩形窗的一倍,但他的旁瓣衰减却比矩形窗大得多,具有更平滑的低通特性。它们各有优缺点。因此应根据实际应用的要求来选择合适的窗形,从而达到好的效果。若采样周期,我们可以得到如下关系式: (2-4) 所以当釆样周期保持不变时,是随着窗口宽度N的增加而减小,但是频率分辨率显然会提高,却是以时间分辨率降低为代价的;反之窗口取短,频率分辨率下降,会得到时间分辨率的提高,二者是相互矛盾的。若窗长N比较大的时候,其输出就像是经过了一个低通滤波器(频带比较窄),对原始语音信号的平滑作用太过厉害,这样就会造成短时能量几乎没有太大的变化,无法反应语音信号的时变特性;另一方面,若N取值太小时,对原始语音信号的平滑作用又不能满足需要,信号一些瞬时信息全被保留了下来,短时能量积聚变化,得不到效果较好的语言信号振幅包络。2.3 经典语音增强方法2.3.1 谱减法谱减法是基于人的感觉特性的,也就是人的听觉系统对语音信号的短时幅度比短时相位更敏感,从而估计语音短时幅度谱,然后从带噪语音的估计值中减去噪声的估计值,得到较为纯净的语音谱,其效果相当于在变换域对带噪语音信号进行了均衡化处理。这都是在假设噪声和语音信号相互独立的条件下进行的。谱减法的约束条件比较少,运算量小。谱减法的基本原理:将带噪语音信号进行傅里叶变换,从带噪语音幅度谱的平方中减去噪声的幅度谱的平方,然后再开方,得到原始语音谱幅度的估计值,再借用带噪语音的相位进行傅里叶反变换,得到增强的语音。使用谱减法就是做如下假设:语音信号为平稳信号,噪声和语音信号为加性信号且不相关,对纯净的语音信号无先验知识,但对统计噪声有先验知识。 为纯净的语音信号,是噪声信号,是带噪语音信号; 、和分别表示、和的傅里叶变换。信号的加性模型为: (2-5) 由于语音是不平稳的,且所有计算都是分帧进行的,为了避免分帧时的阶段效应,我们对信号进行加窗处理后分别表示为、,处理后的功率谱为: (2-6) 式中 *表示复共轭。我们可以通过观测到的数据估计,其他各项近似为统计均值。因此原始信号的估计值为: (2-7) 由于上式用的是估值,因此实际应用中式(2-7)有可能是负值,但功率谱不能为负值,所以可将负值替换为0 。由此可以得到幅度估计值 。我们要恢复语音,还需要相位。利用人耳对相位不敏感的特性,借用带噪语音的相位来近似。即: (2-8)得到恢复语音信号 (2-9) 在以上过程中,由于噪声的分布范围较广。在相减时,噪声分量较大的频率点上会有一大部分的残留,频谱上会呈现随机起伏的尖峰,这种残留的的噪声在听觉上类似音乐,因此又称为“音乐噪声”,影响语音的可懂度和清晰度。一般,在滤除噪声时多少都会对语音信号造成一定的损害,噪声滤出的越多,语音信号损害越厉害。为此提出了谱减法的改进形式,既可较好的消除音乐噪声,又可使语音质量和可懂度得到优化。一般在整个频率范围内都分布有噪声能量,但语音能量主要集中在高频段,尤其是在元音的共振峰处。因此在对元音段的等幅度比较高的时帧进行消噪时,减去噪声估值的倍数,可很好地相对突出语音功率谱。改进形式是对公式(2-7)的修正 (2-10) 式(2-10)中引入了、两个参数,、时是基本的谱减法。调节参数可以控制去噪的程度,增大能减少剩余的噪声,减弱音乐噪声。调节也可得到类似的结果。因此选择适当的、参数可以比较好的去除音乐噪声,得到更好的增强效果。2.3.2 维纳滤波法维纳滤波法是基于时域上的最小均方误差准则的,可以有效地消除音乐噪声。维纳滤波法是通过估计噪声和带噪语音信号的功率谱,构造传递函数(一般是根据最小均方误差准则的准则来迭代估计得到的),然后从带噪语音信号功率谱中计算纯净语音信号的功率谱,再利用带噪语音信号的相位,恢复增强后的语音信号。维纳滤波的降噪效果比谱减法好。维纳滤波的基本思想是:依据输入信号和期望得到的输出信号,找到一个线性滤波器进行滤波,得到的信号能够达到滤波后信号和期望信号的差平方的最小期望值,即时域上的最小均方差28。维纳滤波的框图如图 2-2 所示 。 图2-2 维纳滤波流程图是脉冲响应,是噪声信号,是语音信号,是输出信号。维纳滤波法最关键的就是要求出在最小均方误差下滤波器的单位脉冲相应或传递函数。2.3.3 自适应对消语音增强 自适应滤波法,就是带自适应滤波器的噪声对消法。与以上两种方法相比,因为此方法用了参考噪声作为辅助输入,可以获得比较全面的噪声信息,尤其当辅助输入的噪声与带噪语音的噪声相关时,语音增强的效果较好。所谓噪声对消,就是用对消的方法抑制确知的随机干扰,把受污染的语音信号提取出来,也即从带噪语音信号中减去噪声。自适应滤波能在输入信号和噪声统计未知情况下,通过调整自身参数达到最佳的滤波效果。因此自适应噪声对消的关键是找到噪声的准确复制,采用双麦克风语音采集系统可以比较容易的解决这一问题。2.4 基于听觉掩蔽效应的语音增强 近几年,基于听觉特性的语音增强研究取得了的不小的发展28,其中比较成功的就是基于听觉掩蔽效应的语音增强。一种频率的声音被另一种频率的声音所掩盖,而使听觉系统很难感知的现象称为听觉掩蔽效应。噪声信号之所以能影响到人耳对纯净语音信号的感知,其本质就是因为噪音信号在一定程度上掩蔽了纯净语音信号。基于此的语音增强,就是指消弱或去除噪音对语音信号的掩蔽。同样可以认为是,语音信号掩蔽掉与其一同进入听觉系统的含有较小能量的噪声信号,使人耳不能感知到噪声。听觉掩蔽效应主要分为纯音间的掩蔽和噪音对纯音的掩蔽。噪声是由很多种纯音组成的,有宽频谱。纯音间的掩蔽是指,对中等强度的纯音最有效地掩蔽是表现在其频率附近,高频的纯音能有效地被低频的纯音掩蔽,而高频纯音对低频纯音的掩蔽较小。噪音对纯音的掩蔽:一是掩蔽音为宽带噪声,则在低频段产生掩蔽门限,且高于噪声功率谱密度 17dB 比较平坦;二是掩蔽音为窄带噪声,这种情况较复杂,掩蔽作用比较明显的是临界频带的掩蔽,也就是被掩蔽音(纯音)附近的由纯音分量组成的窄带噪声。 由以上所述可知,掩蔽效应与频率有直接的关系,因此要应用掩蔽效应就要对信号频段进行划分。一般情况下,在 Bark 域将0 8kHz频率范围划分为 8 个频段。在利用听觉掩蔽效应之前要先计算掩蔽阈值29,文献30给出了计算各个关键频段掩蔽阈值的基于 Bark 子域的算法。基于听觉掩蔽效应的语音增强,主要有两种思想:一种是改进谱减法,利用估计到的掩蔽阈值来控制谱减法公式中的参数,达到在低信噪比时,改善抑制噪声的效果;在高信噪比时,降低有用语音信号的丢失。第二种是对噪声的直接掩蔽,也是估计掩蔽阈值,然后建立一个原则,使残留噪声的能量低于这个门限。基于听觉掩蔽效应的语音增强不仅能够提高信噪比,还能抑制残留的音乐噪声,并提高语音的可懂度。但有一个缺点,这种方法建立在具有较高语音知识的基础上,且要进行大量实验才能得到合适的参数。 2.5 基于神经网络的语音信号增强 人工神经网络35 (ANN,即 Artifical Neural Network),也称为神经网络,是一种模仿人脑神经网络行为特征,进行分布式并行信息处理的算法数学模型。神经网络技术具有良好的非线性信息处理能力、自适应学习能力和并行处理能力,由大量的人工神经元联结进行计算,多数情况下人工神经网络能在外界信息的基础上改变其内部结构,是一种非线性自适应系统。神经网络通过学习改善其内部表示,使神经网络达到所需的性能。学习的实质是通过训练样本反复作用于网络,然后通过一定的学习算法自动的校正网络神经元之间的连接权重,当实际的输出满足要求或趋于稳定时,停止学习。根据不同的神经网络结构采用不同的学习算法。对于三层神经网络结构,一般采用反向传播算法,即 BP 算法9。近几年,选用四层神经元网络结构的研究比较多,也提出了一些新的算法10。2.6 语音质量的评价标准2.6.1 主观评价由于语音通信的终端是人耳,所以听者的主观感受是一个重要的评价指标,主要由实际测听来完成,有平均意见得分(MOS 得分, Mean Opinion Score)和判断韵字测试等标准。(1) MOS 得分是对众多听者在听音实验后对语音质量的主观评价取平均得到的。 如果还原出的语音信号和原始语音信号几乎一致,只有很少的细节差异,在不进行对照的情况下察觉不出,则认为质量为优;若还原出的语音信号没有明显的畸变或失真,不注意听就察觉不出,则认为质量为良;若还原出的语音信号有比较明显的畸变或失真,但听起来仍自然、清晰,没有疲劳感,则认为质量为中;若还原出的语音信号有明显的畸变或失真,听起来不很清晰,略有疲劳感,则认为质量为差;若还原出的语音信号听不清,在听觉上无法忍受,则认为质量为劣。(2) 判断韵字测试 判断韵字的测试方法是根据全体受试者判断正确的百分比(即 DRT 得分)来区分语音清晰度的,它能在一定程度上反应出语音的清晰度和可懂度。DRT 在 95以上时可认为清晰度为优,在 8594时认为清晰度为良,在 7584时认为清晰度为中,在 6575时认为清晰度为差,65以下则认为清晰度为劣。2.6.2 客观评价 语音质量的客观评价是以语音信号处理系统的输出与输入之间误差的大小为标准来判断的,目前常用的标准主要有:信噪比(SNR)、分段信噪比(SEGSNR)、噪声掩蔽比(NMR)和坂仓距离度量(Itakura Distance Measure)等。 2.7 本章小结 本章在上一章分析的语音和噪声特性的基础上,主要介绍了几种常用语音增强方法:谱减法及改进形式、维纳滤波法、自适应对消语音增强、基于听觉掩蔽效应的语音增强和基于神经网络的语音增强。谱减法是最简单的语音增强方法,计算量小,应用范围比较广,但有音乐噪声;维纳滤波法要求语音信号是平稳信号,增强后的残留噪声类似白噪声,没有音乐噪声;自适应对消法在强噪声背景下有很好的消噪效果,但也会残留音乐噪声;基于听觉掩蔽效应的语音增强,增强效果好,但要求有较高的语音知识,并进行大量实验确定参数;基于神经网络的语音增强,良好的学习能力、自适应能力和并行处理能力,但是依赖于干扰噪声和参考噪声。第 3 章 小波变换的基本理论小波变换是近二十年来信号处理方面研究的热点,基于小波变换的的分析方法是一种新的时频的分析方法。小波变换是一种时间-尺度分析方法,具有多分辨率分析的特点、时频局部变换的特点和能够灵活的选择小波函数。为解决瞬间信号、宽带噪声信号、非平稳信号等提供了很好的解决方法。 小波分析的时频局域化分析方法就是在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分则恰恰相反。它是在傅里叶变换的基础上发展而来的,但两者又有很大的不同:傅里叶变换是从整体上对信号进行分析,用单一的时域或频域来表示信号的特征;而小波分析具有良好的多分辨率分析特性和时频局部化特性,可用时域和频域相联合的方法来表示信号的特征,实现函数或信号的多尺度细化分析,解决了许多傅里叶变换不能解决的难题。 3.1 小波变换分类 小波分析诞生于二十世纪八十年代,是一门新的极具生命力的的学科,含有丰富的数学知识,在很多领域得到了广泛的应用。 设函数,是可测平方可积的一维函数空间,为母小波,也称为小波基,若母小波的傅里叶变换满足容许性条件13 (3-1)若对母小波进行进行伸缩、平移后得到小波序列。若此小波序列为 (3-2)式中 尺度因子; 平移因子。(1) 连续小波变换函数的连续小波变换为: (3-3)不难发现,连续小波变换具有两个重要的性质:线性和平移不变性。(2) 离散小波变换考虑母小波是容许的,现在限制参数 a 、b取离散值,得到相应的离散族 (3-4)则函数离散小波变换为 (3-5)离散小波变换具有线性,但是不具有平移不变特性。(3) 二进小波变换对于离散小波变换,如果平移因子保持连续变化,而对尺度因子进行二进制离散,则函数的二进制小波变换为 (3-6)若使二进制小波变换的逆变换存在,需满足二进小波的稳定性条件 (3-7)式中和都为正常数,并且。最稳定条件是:。所有满足以上稳定性条件的称为二进小波。二进小波变换的逆变换为 (3-8)二进小波变换是介于连续小波变换和离散小波变换的,因此二进小波变换不仅具有离散小波变换的优点,并具有时移不变性,且小波基存在冗余,因此去噪效果比较好,所以二进小波变换在实际中应用广泛。3.2 多分辨率分析 小波的多分辨率分析(Mutli-resolution Analysis),又称为多尺度分析36,是建立在函数空间概念上的理论基础上。S.Mallat以多分辨分析上设计了一个以计算离散栅格上的小波变换为基础的快速算法(Mallat算法)。它能够避免a值较大时,釆样密度就更大的缺陷,这一算法在小波分析中起着相当重要的作用。 多分辨率分析只是对小波变换的低频部分作进一步的分解,高频部分则不考虑。多分辨率分析的定义:令,为空间中的一个闭子空间序列,若满足以下性质:(1) 逼近性:, (2) 伸缩性:, 对 (3) 一致单调性:, 对(4) 平移不变性:, 对,(5) Riesz基存在性:存在函数,使构成的Riesz基。即对任意,存在唯一的序列,使得 (3-9)多分辨率分析只对低频部分进行分解,高频部分不予考虑。3.3 常用小波函数 小波函数具有不唯一性,即具有多样性,这是小波分析和标准的傅立叶变换之间的不同所在。不同的小波基具有不同的时频特性,对于某一个确定的信号,用不同的小波基进行分析得到的结果可能会截然不同,这就是最优小波基选择所带来的结果。在一般情况下,小波基的选取是根据信号时频特性,用经验或者是大量的实验来选取小波基,然后以小波分析方法的结果和理论上应有的结果两者之间误差的大小来判定小波基选取的好坏。在语音编码、语音增强及图像消噪等小波实际应用中,主要是利用小波基能够使用非常少的一些小波系数去完美的最佳逼近实际中的信号。3.4 本章小结 本章主要阐述了小波变换的基础,阐明了小波变换具有时频局部化的特点,在处理一些非平稳信号上有一定的优势。第 4 章 基于小波变换的语音增强4.1 小波变换语音增强的基本原理 基于小波变换的语音增强方法的基本思想是:带噪语音信号经小波变换后分解为具有时频特性的小波系数,然后选择合适的阈值,经过阈值处理后消除背景噪声,最后再经过小波逆变换对得到的新小波系数进行重构来得到去噪的语音信号。这种语音增强方法可以很好地去除带噪语音中的加性噪声。 小波变换的语音增强是基于信号和噪声小波的系数在不同尺度上具有不同的特征这一原理的。小波变换语音阈值去噪的基本原理11是:语音信号的能量主要集中在小波分解系数的低频段,并且幅值较大;而噪声能量则主要集中在高频段,并且幅值比较小。基于此可以认为幅值比较大的小波系数一般以信号为主,幅值比较小的小波系数一般以噪声为主。于是采用阈值处理的方法可以把信号系数保留,而使大部分噪声系数减少为零。然后用处理后得到的小波系数恢复语音信号。图 4-1 显示了小波语音增强的这一基本原理。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论