基于改进型谱减法的语音增强技术研究.doc

上传人：x*** IP属地：四川上传时间：2019-01-14 格式：DOC 页数：109 大小：2.13MB 积分：15 举报 版权申诉

已阅读5页，还剩104页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于改进型谱减法的语音增强摘要本文主要研究改进型谱减算法在语音增强中的应用，目的是增强语音质量，减少语音失真和提高其可度懂。我们首先介绍了语音增强的研究意义，然后介绍了语音信号的相关理论，进而阐述了语音增强的基本谱减法的原理，并在此基础上提出了一种改进型谱减算法。该算法通过语音激活检测(端点检测法)来确定“寂静段”（纯噪声段），从而对噪声功率谱进行重新估计。为了减小基音检测算法可能产生的检测误差，采用了组合递归平滑法来减小噪声谱估计的误差。整个仿真实验中，我们对引入的加性噪声进行处理，其噪声谱估计的性能可在本文中的MATLAB仿真实验中体现。仿真结果表明，该算法在去除背景噪声的同时，保证了较小的语音失真、提高了信噪比，达到了较好的测听效果。最后，基于噪声与语音具有一定的相关性的实际情况，我们提出了算法的进一步改进设想，并对此思想做出了数学推导，得到了算法进一步改进的方向及可行性。关键词：语音增强；谱减法；噪声估计；端点检测；组合递归平滑；仿真实验；改进算法第1章背景介绍1.1研究背景人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音已非纯净的原始语音信号，而是受噪声污染的带噪语音信号。例如，安装在汽车、飞机或舰船上的电话，街道、机场的公用电话，常受到很强背景噪声的干扰，严重影响通话质量。又如，室内会议电话的交混回响随同语音广播到每个会议地点，影响收听效果。再如深海潜水员在氦-氧面罩内讲话引起的失真，语言障碍残疾人的语音失真，有历史价值的旧唱片、旧录音带的噪声和失真等，都是带噪语音信号的例子。环境噪声污染使许多语音处理系统的性能急剧恶化。例如，语音识别己取得重大进展，正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码(如：声码器)，也遇到类似问题。由于语音生成模型是低速率参数编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，语音增强作为一种预处理手段，不失为解决噪声污染的一种有效途径。在实际需求的推动下，早在上个世纪60年代语音增强这个研究课题就引起人们的注意，此后40多年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟，70年代曾形成一个理论研究高潮，取得了一些基础性成果，并使语音增强发展成为语音信号处理的一个重要分支。进入80年代后，DSP(数字信号处理)技术的发展和成熟为语音增强的实时实现提供了可能。语音增强不但与语音信号数字处理理论有关，而且涉及到人的听觉感知和语音学范畴。再者，噪声的来源众多，随应用场合而异，它们的特性也各不相同。即使在实验室仿真条件下，也难以找到一种通用的语音增强算法能适用于各种噪声环境，所以必须针对不同噪声，采用不同的语音增强对策。目前，某些语音增强算法在实际应用中己经证明是有效的，它们大体上可分为四类：噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常都是随机的，从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪音，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法，可以显著地降低背景噪声，改进语音质量，但并不能提高语音的可懂度，甚至略有下降。语音增强是语音信号处理的一个重要分支，该技术已广泛应用于无线电话、电话会议、场景录音和军事窃听等领域。语音增强技术无论在日常生活中，还是在军事领域，或者在语音信号处理技术中都很有应用价值。因此研究语音增强算法有很重要的实用价值。1.2 语音增强的历史和发展现状语音增强方法的研究始于20世纪70年代中期，随着数字信号处理理论的成熟，语音增强发展成为语音信号处理领域的一个重要分支。1978年，Lim和Oppenheim提出了语音增强的维纳滤波方法。1979年，Boll提出了谱相减方法来抑制噪声。1980年，Maulay和Malpss提出了软判决噪声抑制方法。1984年，Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法。在近30年的研究中，各种语音增强方法不断被提出，奠定了语音增强理论的基础；并使之逐渐走向成熟。近些年来，随着VLSI技术的发展和高速DSP芯片的出现，使语音增强的实时实现成为可能。语音增强方法逐步走向实用，同时新的语音增强方法又相继涌现，如基于小波变换的方法，基于人耳掩蔽效应的方法等。目前常用的语音增强算法分为如下几类：基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。其中，谱相减法、维纳滤波法、最小均方误差法等算法的研究是基于短时谱估计的语音增强算法，这种方法力图获得语音信号频谱幅度的最优估计，是从观测序列中以最小均方误差准则估计语音信号正交展开系数的模值。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。尽管该方法研究比较早，但仍具有很强的生命力，成为应用最广泛的语音增强方法。1.3 谱减法语音增强的研究现状S. Boll 假设噪声是平稳的或缓慢变化的加性噪声，并且语音信号和噪声信号不相关的情况下，提出了谱减法 (SS：Spectral Subtraction)。该方法能够抑制背景噪声的影响，但由于其局部平稳性的假设与实际情况并不相符，因此效果不理想，残留的音乐噪声较大；Berouti在传统谱减法的基础上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制，提高了谱减法的性能，但是其修正系数和最小值是根据经验确定的，适应性较差；P. Lockwood在谱减法的基础上提出了非线性谱减法(NSS：Non-liner Spectral Subtraction)，它根据语音信号的信噪比自适应调节语音增强的增益函数，提高了语音的信噪比，而信噪比并不能正确反映信号的听觉质量，因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量；Boh Lim Sim等人也提出了与此相近的改进算法，虽然提高了信号的信噪比，但残留的音乐噪声较大；Virag将人耳的掩蔽特性应用到非线性谱减法的增强算法中，部分解决了谱减法残留音乐噪声大的问题，但在信噪比较低或非平稳的情况下，其增强效果不理想；I.Cohen 等人首先估计语音信号概率密度函数，然后在此基础上改进了对数谱估计算法，使得改进的算法对非平稳噪声具有良好的抑制作用，该算法的缺点是语音信号的概率密度函数较难估计。噪声参数估计的准确与否直接会影响谱减法语音增强效果，因此，带噪语音中背景噪声参数的估计问题值得关注。1.4 本文主要的研究内容本文分析了基本谱减法的原理，并在此基础上提出一种改进型谱减法：基于语音活性检测(Voice Activity Detector)噪声估计方法进行噪声估计，从而减小噪声估计的误差。然后，采用了组合递归平滑（中值平滑与线性平滑的组合）的方法更新噪声谱，并在此基础上应用谱减法进行语音增强，使处理后的语音更为接近纯净语音，最后，MATLAB的仿真实验结果表明：该算法可以有效的提高语音听觉质量，其计算复杂度也不高。第2章语音信号的基础理论2.1 人耳感知特性因为语音增强效果最终取决于人的主观感受，所以语音感知对语音增强研究有重要作用。人耳对背景噪声有很大的抑制作用，了解其机理大大有助于语音增强技术的发展。语音感知问题涉及到生理学、心理学、声学、和语音学诸多领域，其中有很多问题有待进一步研究。目前已有一些结论可用于语音增强：1.人耳对语音的感知主要是通过其幅度谱获得的，而对相位谱不敏感。2.人耳对频率高低的感受近似于该频率的对数值成正比。3.人耳具有掩蔽效应，即强信号对弱信号有抑制作用，能够将其掩盖。4.共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要，因此对语音信号进行一定程度的高通滤波不会对可懂度产生影响。5.人耳在两个以上的说话环境中能够分辨出它所需要的声音。6.人耳对频谱分量强度的感受是频率与能量谱的二元函数，响度与频谱幅度的对数成正比。2.2 语音特性分析语音是人们讲话时发声器官发出的一种声波，具有声音的物理特性。然而它又是一种特殊的声音，是人们用来交流信息的工具，因此语音是声音和语言的组合体。语音和语言是研究人类话语的一门学科，它具有一定的音色、音调、音强和音长。因此，有必要了解语音信号的一些基本特征。浊音在时域上呈现出明显的周期性；在频域上有共振峰结构，而且能量大部分集中在较低频段内，而清音段没有明显的时域和频域特征，类似于白噪声。人类的发声系统的生理结构的变化速度是有一定限度的，在一段时间内(1030ms)人的声带和声道形状具有相对稳定性，可以认为其特性是不变的，因而语音的短时谱分析也有相对稳定性，在语音增强中可以利用短时谱的这种稳定性。语音信号是非平稳、时变的，但又是准平稳、慢变的，因此短时处理技术是合适的。语音信号的时域特征参数主要有短时能量，短时过零率和短时能量比等。时域分析具有特征提取简单、运算量小、物理意义明确等优点，便于我们直观的认识语音信号。但它的缺点是不能压缩维数，且不适于表征幅度谱特性。因此频域的特性显得尤为重要。短时分析应用于频域就是短时傅立叶变换。相应的频谱称为“短时谱”，即有限长度的傅立叶变换。频域参数对于语音识别系统来说更为有效，这是因为频域特征参数能从不同角度反映幅度谱的特征，例如，频谱、频谱包络、倒谱系数、共振峰等。2.3 噪声分类及其特性噪声来源于实际的应用环境，因而噪声特性可以说是千变万化。噪声可以是加性的，也可以是非加性的。对于非加性噪声，有些可以通过变换转变成加性噪声，例如，乘性噪声(或卷积噪声)可以通过同态变换而成为加性噪声。又如，某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。加性噪声大体上可分为以下几种：白噪声、周期性噪声、脉冲性噪声、宽带噪声等。周期性噪声的特点是有许多离散的窄谱峰，它往往来源于发动机等周期性运转的机械设备。周期性噪声引起的问题可能最少，因为可以通过功率谱发现并通过滤波或变换技术将其去掉。但是，其中交流噪声的抑制很困难，因为其频率成分不是基音(因为它在语音信号有效频率以下)，而是谐波成分(它可能以脉冲形式覆盖整个音频频谱)。冲击噪声表现为时域波形中突然出现的脉冲，它通常是放电的结果。消除这种噪声可以在时域进行，即根据带噪语音信号幅度的平均值确定阈值。当信号幅度超出这一阈值时，判别为冲击噪声，在对其进行衰减甚至完全消除。如果干扰脉冲之间不太靠近，还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉。宽带噪声通常可以假定为高斯噪声和白噪声，它的来源很多，包括风、呼吸噪声和一般随机噪声源。量化噪声通常作为白噪声来处理，也可以视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠，因而消除它最为困难。对于非平稳的宽带噪声，情况更为复杂。2.4 语音信号的数字化和预处理语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D转换及编码（一般就是PCM码）。预处理一般包括预加重、加窗和分帧等。2.4.1 语音信号预滤波、采样、A/D转换预滤波的目的有两个：抑制输入信号各频域分量中频率超出的所有分量（为采样频率），以防止混叠干扰；抑制50Hz的电源工频干扰。这样预滤波器必须是一个带通滤波器，设其上、下截止频率分别为和，则对于绝大多数语音编译码器，采样频率；而对于语音识别而言，当用于电话用户时，指标和与语音编译码器相同。语音信号经过预滤波和采样后，由A/D转换器转换为二进制数字码。2.4.2 预处理由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高端大约在800Hz以上按6dB/倍频跌落，即6dB/oct(2倍频)或20dB/oct(10倍频)，所以在求语音信号频谱时，频率越高的相应成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重处理。预加重的目的是提升高频部分，是信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。预加重可由提升高频特性的预加重数字滤波器来实现，它一般是一阶数字滤波器： (2-2)经过证明得知，以上滤波器工作原理与以下在时间域运算的公式等价，故加重方式如下： (2-3)为了恢复原信号，需要对做过预加重的信号频谱进行去加重处理。去加重方式为： (2-4)其中，与为加重因子，一般取。由于语音信号是一种非平稳的时变信号，其产生过程与发声器官的运动紧密相关。而发声器官的状态速度较声音振动的速度缓慢的多，因此语音信号可以认为是短时平稳的。研究发现，在550ms的范围内，语音频谱特征和一些物理特征参数基本保持不变。因此可以将平稳过程中的处理方法和理论引入到语音信号的短时处理当中，将语音信号划分为很多短时的语音段，每个短时的语音段称为一个分析帧。这样，对每一帧语音信号处理就相当于对特征固定的持续信号进行处理。帧既可以是连续的，也可以采用交叠分帧，一般帧长取 1030ms。取数据时，前一帧和后一帧的交迭部分称为帧移，帧移与帧长之比一般取为01/2。对取出的语音帧要经过加窗处理，即用一定的窗函数与信号相乘，从而形成加窗语音。加窗的主要作用在于减少由分帧处理带来的频谱泄露，这是因为，分帧是对语音信号的突然截断，相当于语音信号的频谱与矩形窗函数频谱的周期卷积。由于矩形窗频谱的旁瓣较高，信号的频谱会产生“拖尾”，即频谱泄露。为此，可采用汉明窗，因为汉明窗旁瓣最低，可以有效地克服泄露现象，具有更平滑的低通特性，得到的频谱比较平滑。汉明(Hamming)窗定义： (2-5)2.5 语音信号的短时傅立叶变换语音信号的频域分析在信号处理中占有十分重要的地位，在频域内研究语音信号，可以使信号某些在时域内无法表现出来的特征变得十分明显，比较常用的是傅立叶变换。传统傅立叶变换是以应用数学为基础建立起来的一门学科，它将信号分解为各个不同频率分量组合，使信号的时域特征与频域特征联系起来成为信号处理的有利工具。但傅立叶变换使用的是一种全局变换，无法表述信号的局部性质，而短时傅立叶变换可以弥补这种缺点。正如前面的分析所述，由于语音信号是短时平稳的，因此，我们可以对语音进行分帧处理，计算某一帧的傅立叶变换，这样得到的就是短时傅立叶变换，其定义为： (2-6)其中为实数窗函数，取不同值时，窗沿时间轴滑动到不同的位置，取出不同的语音帧进行傅立叶变换。短时傅立叶变换是时间和角频率的函数，它反映了语音信号的频谱随时间变化的特性。第3章基于改进型谱减法的语音增强技术3.1 谱减法的基本原理谱相减方法是基于人的感觉特性，即语音信号的短时幅度比短时相位更容易对人的听觉系统产生影响，从而对语音短时幅度谱进行估计，适用于受加性噪声污染的语音。处理宽带噪声的最通用技术是谱相减法，即从带噪语音估值中减去噪声频谱估值，从而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感，因而这种方法主要针对短时幅度谱。所谓“谱相减”就是从输入信号的幅度谱中减去估计得来的噪声平均幅度谱，其效果相当于在变换域对带噪信号进行了某种均衡化处理。相对于其它方法，谱相减法引入的约束条件最少，物理意义最直接，运算量小，而且经过改进后效果也较好。传统的谱减法即在频域将带噪语音的功率谱减去噪声的功率谱，得到语音的功率谱估计，开方后就得到语音幅度估计，将其相位恢复后再采用逆傅立叶变换恢复时域信号。考虑到人耳对相位的感觉不灵敏，相位恢复时所采用的相位是带噪语音的相位信息。由于语音是短时平稳的，所以在短时谱幅度估计中认为它是平稳随机信号，假设、和分别代表语音、噪声和带噪语音，、和分别表示其短时谱。假设噪声是与语音不相关的加性噪声。于是得到信号的加性模型： (3-1)经过加窗处理后的信号分别表示为，则有 (3-2)对上式两端分别做傅立叶变换，得 (3-3)对功率谱有 (3-4)可以根据观测数据估计，其余各项必须近似为统计均值。由于和独立，则互相的统计均值为0，所以原始语音的估值为 (3-5)为了估计噪声功率，采用了端点检测法。因为噪声是局部平稳的，故可以认为发音前的噪声与发音期间的噪声功率谱相同，因而可以利用发语音前的“寂静帧”来估计噪声。从(3-5)式中可以看出，估计值不能保证是非负的，这是因为在估计噪声时存在误差，当估计噪声平均功率大于某帧带噪语音功率时，该帧得出的估计值就会出现为负的情况，这些负值我们可以通过改变它们的符号使之变为正值，也可以直接给它们置零，本文我们采用后种处理方式。只要在频域用(3-5)式得到纯净语音的谱估计，就可以根据(3-6)式得到增强后的语音。 (3-6)如前面分析，利用人耳对相位不敏感的特点，在式(3-6)中可利用原带噪语音的相位恢复到时域语音信号，从而得到处理后的语音信号，完成整个基于谱减法的语音增强过程。根据前面分析，我们可以给出谱相减算法的整个算法流程，如图3-1所示：增强后的语音带噪语音啊图3-1 谱减法的算法流程3.2 谱减法建立的假设谱减法的建立要基于以下几点假设：1) 噪声信号和语音信号是互不相关的（独立的），并且在频域是加性的关系。2) 背景噪声环境相对于语音活动区域来说是近似稳态的，这样就可以利用在无声段估测的平均噪声谱来逼近有声段的噪声谱。3) 如果背景噪声环境变化到一个新的稳态，则应有足够的时间(约300ms左右)以便于估计出新的背景噪声谱幅度估值。4) 对于缓慢变化的非平稳噪声环境，谱减法算法中有话音激活检测环节以便适时的判断并进行调整。5) 假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声而实现。3.3 “音乐噪声”的产生谱减法技术大多数都是在频域上进行，也有在时域的。由于在谱减法处理过程中，是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频率分量，而噪声频谱具有高斯分布，即其幅度随机变化范围很宽，因此相减时，若该帧某频率点噪声分量较大，就会有很大一部分保留，具体来讲，由谱相减所产生的噪声称为残余噪声，与语音信号不相关，是由具有随机频率和幅度的窄带信号所组成。在频谱上呈现随机出现的尖峰，便产生了间歇短暂的突发声调，在听觉上形成有节奏性起伏的类似音乐噪声的残留噪声。这种具有音乐特性的残余噪声是各帧内在随机频率上出现的许多声调的群体结果。它比原始语音中的噪声清楚的多，也更易令人反感。这种噪声具有“音乐”的听觉效果，听起来像有“咕咕”的流水声，因此称为“音乐噪声”。听者常常能发现处理后的语音中的“音乐噪声” 比原始信号中的噪声更为清晰，这是由于在短时谱估计中，在各帧的随机频率点上出现多种频率的组合而产生的。3.4 语音端点检测技术由上述分析可知，在谱减法中噪声功率谱的估计至关重要，如果噪声估计偏差较大的话，将毫无疑问的影响语音增强质量。传统的噪声估计方是由Rainer Martin提出的基于最优平滑和最小统计的噪声估计，本文采用改进的算法基于语音活性检测(Voice Activity Detector)的噪声估计算法。语音激活检测(VAD，Voice Activity Detection)指从一段包含语音的信号中确定出语音的起始点和终点，又称端点检测(Ending Detection)。语音端点检测的目的就是从连续记录的带噪语音信号中分离出我们真正感兴趣的语音信号。语音激活检测是各种语音处理中必需的重要环节，精确地确定输入语音的起点和终点将保证语音处理系统良好的性能，语音激活检测是语音增强中的一个关键问题。一些系统中，对于语音和噪声的处理方法也不同，如果不能判断当前语音帧是含噪语音帧或是噪声帧的话，就不能进行适当的处理，这种系统对语音存在性的判断要求就更高一些，要求把每一帧噪声都判断出来。在语音增强系统中，语音知识的学习和噪声源信息估计的积累都依赖于准确的端点检测。对于语音激活检测应用，在语音增强中，为了得到更多的背景噪声特性，语音端点检测更注重于如何准确的检测出无音段。通常的语音激活检测是基于语音帧来进行的，语音帧的长度在1030ms不等。语音活性检测的方法可以综述为：从输入信号中提取一个或一系列的对比特征参数，然后将其和一个或一系列的门限阈值进行比较，如图3-2所示。如果超过门限则表示当前为有音段，否则就表示当前为无音段。门限通常是根据无音段时语音特征确定的。但是由于语音和环境噪声的不断变化，使得这一判决过程变得非常的复杂。于是一个好的语音活性检测算法必须具备对各种噪声的鲁棒性，同时要简单，适应性好，易于实时实现。带噪语音图3-2 语音激活检测框图目前语音端点检测所采取的方法大体可以分为两类：第一类是噪声环境下基于 HMM 模型的语音信号端点检测的方法，该方法要求背景噪声保持平稳且信噪比较高。第二类方法是基于信号的短时能量进行检测的算法，它通过对背景噪声能量的统计，定出能量门限，利用能量门限来确定语音信号起始点。在本文中，语音端点检测采用了第二类方法，即基于信号的短时能量进行检测的算法。基于信号的短时能量检测具体算法如下：计算每一帧的语音能量： (3-7)式中为帧长，为帧的编号，为帧数，m为每一帧中的各点；然而它有一个缺陷，即它对高电平非常敏感（信号的二次方计算）。为此，定义短时平均幅度函数来表征一帧语音信号的能量大小，定义： (3-8)2) 计算前20帧平均噪声能量；3) 求能量最大值和能量最小值，；4) 根据式(3-9)确定门限 (3-9)基于端点检测法的算法流程图如下：图3-3 端点检测算法流程图该算法建立在平稳高斯噪声模型基础上，在背景噪声幅度保持恒定且远低于语音信号幅度时，可以十分有效地检测出语音信号的端点。本文应用谱相减法实现语音增强基本原理是通过对带噪语音谱减去噪声谱得到语音谱，因此，语音激活检测这一环节非常重要。因为准确地确定语音的起始点和终止点对噪声谱估计有着重要的作用。3.5 基音检测的后处理基音检测算法可能产生检测误差，使求得的基音周期轨迹中有一个或几个基音周期估计值偏离了正常轨迹（通常是偏离到正常值的0.5倍或2倍），称这种偏离点为基音轨迹的“野点”。为了去除这些野点，可以采用各种平滑算法，最常用的是中值平滑算法和线性平滑算法。本文采用组合平滑算法，将中值平滑和线性平滑组合，为使平滑的基音轨迹更贴近，并采用二次平滑的算法。设所要平滑的信号为，经过一次组合得到的信号为。那么首先应求出两者的差值信号，再对进行组合平滑，得到，令输出等于，就得到更好的基音周期估计轨迹。全部算法的框图如图3-4所示。图3-4 组合二次平滑算法流程图3.6 基于谱减法的语音增强算法流程本论文采用了MATLAB语言实现了整个基于谱减法的语音增强算法，具体MATLAB程序见附录，其算法流程如下：1)对输入的语音信号进行预滤波；2)对滤波后的语音信号进行预加重；3)将语音信号按每帧128个信号点进行分帧,帧移为64；4)对信号帧加汉明窗(Haming)；5)对加窗后的信号帧进行FFT变换；6)对各帧语音信号求功率谱；7)根据前20帧求取平均噪声功率；8)利用VAD进行噪声估计检测寂静段，进而组合递归平滑，更新噪声谱；9)进行谱减运算，得到估计出的语音信号功率谱；10)插入相位谱，计算出语音谱；11)进行IFFT变换，得到还原的语音帧；12)根据各个语音帧组合为语音信号；13)对语音信号进行去加重处理，得到最终信号。根据以上谱减法的算法流程，采用MATLAB语言进行仿真试验，试验用的语音材料是WAV格式的语音，经处理后去噪效果明显，较好地抑制了噪声，提高了语音的可懂度。3.7 仿真实验的结果在仿真实验中，采用的是在实验室内录制的纯净男语音信号“基于改进型谱减法的语音增强”，采样率8kHz，使用MATLAB函数wavread( )调用，在程序中对纯净语音加入高斯白噪声，调用MATLAB函数的wavwrite( )进行输出，命名为“noised”。根据谱减法的假设：假定纯净语音与高斯白噪声相互独立，故我们可将两者直接相加得到带噪的语音信号。当得到带噪语音信号后，对其进行谱减去噪处理，便到去噪后的语音信号，并调用MATLAB函数的wavwrite( )进行输出，命名为“enhanced”。从声音文件的测听效果来说，是令人满意的。在本论文的MATLAB程序中，分别画出了纯净语音 (见图3-5)、加噪语音 (见图3-6)、增强后语音 (见图3-7)的语音图。从的语音图中可以很容易发现，本论文提出的算法具较明显的去噪效果。图3-5 纯净语音信号图3-6 带噪语音信号图3-7 增强后的语音信号3.8 模型的缺点及进一步改进思想在本文采用的功率谱减法中，我们假设噪声和语音是相互独立且噪声是零均值的高斯分布，但在现实世界中的噪声几乎都不是零均值的高斯分布，并且语音和噪声具有一定的相关性。因此，直接采用谱减法进行语音增强具有一定的局限性。基于此点考虑，我们对下式（功率谱）作进一步的分析。其中：为带噪语音的频谱、为纯净语音的频谱、为噪声的频谱。两边同时求期望：在上文的分析中，由于假设语音和噪声是相互独立的，因此可得到通过式子的分析可知，为了体现原始信号与噪声通常的相关性，上式的值不可忽略，尤其是在低信噪比的条件下，上式更不可被轻易忽略。因此将问题转化为如何估计上式。从数学的角度出发，我们知道方差有如下性质：由此，可作如下估计：其中，且令，则也有，原期望等式可变形为：因此，对一帧内的短时平稳过程的功率谱，有：由此式可看出，只要较好地估计出的值，就可以估计出更接近实际（语音与噪声不相互独立）的噪声功率谱。基于以上的改进思想，我们做了数学上简要的推导分析，从得到的结论可以看出，此思想具有一定可行性，也为今后进一步的研究工作提供了一个方向。 109*本科毕业设计（论文）管理暂行规定毕业设计（论文）是本科人才培养的重要实践性教学环节，也是学士学位评定的重要依据。为了切实做好我校的毕业设计（论文）工作，规范毕业设计（论文）工作的管理，提高毕业设计（论文）的质量，特制定本规定。一、毕业设计（论文）的主要目的（一）培养学生运用所学知识独立地分析和解决本专业范围内一般问题的能力，培养学生的创新意识和实践能力，使学生从事学术研究的能力得到初步的训练；（二）培养学生理论联系实际的工作作风和严谨认真的科学态度；（三）培养学生分析设计能力、研究实验能力、工程实践能力、经济分析能力、外文阅读能力和计算机的运用能力，以及社会调查、文献资料查阅和论文写作能力。二、毕业设计（论文）的基本要求（一）按照各专业“毕业设计（论文）教学大纲”的要求进行；（二）要具有学术性，要对自然科学或社会科学内某一领域进行专门、系统的研究，并表达其研究成果；（三）要具有创见性，要对学术或工程的某个问题有新的发现、新的构想或新的发展和完善；（四）要具有科学性，要求论述系统而完整，首尾一贯而不前后矛盾，实事求是而不主观臆造；（五）要具应用性，要能解决生产实际问题，在技术改造、生产管理等通过方面有所创造；（六）应做到观点正确、论据充分、推理严密、计算准确，层次分明、条理清楚、语言精炼，有必要的图表和相关资料等；（七）应参阅一定数量的外文资料，并要求在毕业设计（论文）中反映出来。三、毕业设计（论文）的工作程序毕业设计（论文）工作程序分为选题、开题、撰写论文或设计、中期检查、答辩、归档等环节。四、毕业设计（论文）的时间安排毕业设计（论文）工作时间为812周，时间安排应按*本科生毕业设计（论文）工作流程执行，集中用于毕业设计（论文）的时间不得少于专业培养计划规定的周数。五、毕业设计（论文）的领导与管理全校毕业设计（论文）在分管教学副校长领导下进行，分级管理，层层负责。（一）教务处毕业设计（论文）管理工作职责：1、汇总各院（部）毕业设计（论文）题目和指导教师安排，协调有关问题；2、做好毕业设计（论文）前期、中期、后期检查工作，对未达到各阶段进度、质量要求或违反有关规定的院（部）提出整改要求；3、开展学校毕业设计（论文）工作评估和研究工作。（二）院（部）毕业设计（论文）管理工作职责：各院（部）成立毕业设计（论文）工作领导小组，确定毕业设计（论文）指导教师，布置毕业设计（论文）工作任务，检查本院（部）毕业设计（论文）工作落实情况。院（部）毕业设计（论文）管理工作职责为： 1、审查毕业设计（论文）选题、下达任务书，安排指导教师，布置毕业设计（论文）有关工作；2、定期检查毕业设计（论文）工作进展情况，协调处理毕业设计（论文）中的有关问题，督促检查指导教师的工作；3、对学生毕业设计（论文）按规范化要求进行形式审查，组织毕业设计（论文）答辩和成绩评定工作。对答辩小组提出的优秀的毕业设计（论文）及评阅答辩中有争议的毕业设计（论文），组织答辩委员会进行复议，最终确定成绩；4、按学校有关要求，保存与毕业设计（论文）有关的电子和纸质文档；5、做好本院（部）学生毕业设计（论文）总结与评估工作。（三）毕业设计（论文）指导教师职责：1、指导学生选题，拟定任务书，安排学生做开题报告，编写指导方案，制定计划和工作程序；2、对学生提出具体要求，指定主要参考资料和社会调查内容，规定学生应完成的查阅中外文资料、文献综述、开题报告、各项实验数据、计算工作（包括上机）、设计（论文）等；3、采取多种方式检查学生的工作进度和工作质量，及时解答和处理学生提出的有关问题，并认真填写毕业设计（论文）指导记录表；4、做好学生外文翻译的评阅工作，指导学生按规范要求正确撰写毕业设计（论文）；5、在学生答辩前对毕业设计（论文）（包括设计说明书、计算资料、实验报告、图纸或论文等）进行审查，认真填写毕业设计（论文）评语，指导学生参加答辩；6、根据院（部）安排参加答辩工作。（四）学生在毕业设计（论文）过程中必须做到：1、重视毕业设计（论文）过程，明确各环节目的、意义和要求，虚心接受指导教师和实验技术人员的指导，保质保量地完成毕业设计（论文）；2、独立完成规定的工作任务，不弄虚作假，不抄袭、剽窃他人成果；3、认真填写*本科毕业设计（论文）研究过程记录表；4、毕业设计（论文）成果、资料应于答辩结束后及时交指导教师收存，凡涉及到国家机密、知识产权、技术专利、商业利益的成果未经院（部）许可，学生不得擅自带离学校。六、毕业设计（论文）的选题与开题（一）选题原则1、原则上一生一题，当一个课题比较大时，可以分成几个小课题，每个学生完成一个小课题时必须保证其主要部分为独立进行的工作，使每个学生都受到较全面的训练；2、选题应体现本专业的培养目标，达到毕业设计（论文）大纲的教学要求；3、选题应特别注意有利于学生综合应用所学知识，有利于学生能力的培养，并能保证各专业所应当具有的基本技能的训练；4、选题应与社会、生产、教学、科研等实际相结合。理工科毕业设计（论文）的选题应注重在具有实际应用前景、具有创新构思的课题中选取，鼓励理工科学生进行毕业设计，其中，工科毕业设计所占比例应不少于80%；文科及经管类的选题需注重分析解决当前经济改革、社会现实生活和理论研究中的热点、难点、焦点问题；。毕业设计(论文)在实验、实习、工程实践和社会调查等社会实践中完成的比例要在50%以上。5、选题难度和工作量要适当，使学生能在规定的时间内完成任务；6、选题要有一定层次区分，有利于各类学生提高水平，鼓励学生有所创新；7、各专业的选题数须多于本专业当届的毕业生数。每学年选题应适当更新，不同届选题重复率须控制在20%以内；8、各专业选题须经院（部）严格审查并报教务处备案。（二）选题、开题程序1、指导教师提出的毕业设计（论文）课题须经院（部）审查后向学生公布，通过师生双向选择或经协商分配，确定学生毕业设计（论文）题目及指导教师。选题和指导教师一经确定，不得随意更改；2、各院（部）应不迟于第七学期第十四周结束前完成选题工作，毕业设计（论文）任务书不迟于第七学期第十五周前下达给学生，院（部）应将毕业设计（论文）选题汇总表于第七学期第十六周结束前报教务处；3、毕业设计（论文）开题工作应在第七学期结束前完成，包括文献调研、文献综述、开题报告等，院（部）应根据本院（部）毕业设计（论文）工作的具体计划，安排学生在指导小组范围内作开题报告；七、毕业设计（论文）任务书（一）毕业设计（论文）任务书是学生进行毕业设计（论文）的指导性文件，每个学生都必须有自己的任务书；（二）任务书的内容包括：设计（论文）研究的背景和依据、任务和基本要求、进程安排等；（三）任务书由指导教师填写，交教研室审查，经院（部）批准后方可实施；（四）毕业设计（论文）结束后，任务书要与毕业设计（论文）一起送交院（部）保存。八、毕业设计（论文）指导教师配备（一）毕业设计（论文）指导教师应由具有中职及以上专业技术职务的教师或工程技术人员担任，助教等初级职称人员不能单独指导毕业设计（论文），但可根据需要安排协助指导教师的工作。指导教师名单由院（部）毕业设计（论文）工作领导小组审定后，报教务处备案；（二）指导毕业设计（论文）期间，指导教师必须坚守岗位，各院（部）要严格控制指导教师出差。确因工作需要出差的，须经院（部）分管教学副院长批准，并委派水平相当的教师代理指导；（三）对于在校外进行毕业设计（论文）的学生，院（部）可聘请相当于中级专业技术职务及以上的工程技术人员或研究人员担任指导教师，但院（部）必须指定专人进行检查，掌握进度，保证质量，协调解决有关问题；（四）每位指导教师指导的学生数原则上不超过8人，科研、教研能力突出的高级职称教师或具有博士学位人员可适当增加指导人数（最高不超过10人）。指导教师对每个学生的指导每个环节不得少于1次，总计不得少于3次。九、设计（论文）的撰写1、毕业设计（论文）的撰写按“*本科毕业设计（论文）撰写规范”执行；2、设计（论文）正文字数：文科（除外语类）10000字以上，理工科及外语、艺术类6000字以上；3、所有设计（论文）应按规定格式打印1份，学生所在院（部）留存。另外应将电子版报送教务处。十、毕业设计（论文）答辩及成绩评定（一）毕业设计（论文）完成后必须进行答辩。对通过毕业设计（论文）答辩并达到毕业基本要求的学生方可发给毕业证书。各专业成立答辩小组，具体负责本专业毕业设计（论文）答辩和成绩评定。各院（部）成立答辩委员会，对答辩小组提出的优秀的毕业设计（论文）及评阅答辩中有争议的毕业设计（论文）进行审查、复议，最终确定成绩。答辩工作原则上不聘请校外专家参加，如确因课题需要，必须聘请校外人员参加时，须经院（部）批准；（二）毕业设计（论文）答辩按“*本科毕业设计（论文）答辩程序和实施办法”规定程序进行；（三）毕业设计（论文）的成绩评定，采用五级记分制，即优、良、中、及格和不及格，具体评分标准按照“*本科毕业设计（论文）量化评分参考标准”执行。要求优秀与良好比例之和控制在70%以内，优秀率在15%左右（最多不超过20%）。其中优秀、不及格等级须写出具体理由，其余等级须写出简要评语；（四）凡毕业设计（论文）成绩不及格者，按结业处理。十一、毕业设计（论文）工作所需的经费（含开题费、实验费、答辩费、指导教师课时津贴等）由学校按各院（部）毕业生每人350元，统一发放至各院（部），由各院（部）制订分配细则。十二、本规定自公布之日起执行，由教务处负责解释。附件1：*本科毕业设计（论文）撰写规范附件2：*本科毕业设计（论文）量化评分参考标准附件3：*本科毕业设计（论文）答辩程序和实施办法附件4：*本科毕业设计（论文）工作评估办法二七年十一月十三日附件1：*本科生毕业论文撰写规范为进一步规范本科生毕业论文的撰写工作，提高论文撰写质量，加强论文的管理工作，特制定本规范。1论文结构及写作要求论文（设计说明书）应包括：封面，目录，中文题目、中文摘要与关键词、英文题目、英文摘要与关键词，正文，注释，参考文献，致谢，附录（可选）等部分。1.1 目录目录独立成页，包括论文中全部章、节的标题及页码。1.2 题目题目应该简短、明确、有概括性。论文题目一般中文字数不超过25个字，外文题目不超过15个实词，不使用标点符号，中外文题名应一致。标题中尽量不用英文缩写词，必须采用时，应使用本行业通用缩写词。1.3 摘要与关键词1.3.1 摘要摘要是对论文（设计说明书）内容不加注释和评论的简短陈述，要求扼要说明研究工作的目的、主要材料和方法、研究结果、结论、科学意义或应用价值等，是一篇具有独立性和完整性的短文。摘要中不宜使用公式、图表以及非公知公用的符号和术语，不标注引用文献编号。中文摘要一般为200字左右。1.3.2 关键词关键词是供检索用的主题词条，应采用能覆盖论文主要内容的通用技术词条（参照相应的技术术语标准），一般列38个，按词条的外延层次从大到小排列。中英文关键词应一一对应。1.4 论文正文论文正文部分包括：绪论（或前言、序言）、论文主体及结论。绪论是说明论文工作的选题目的和意义，国内外文献综述以及论文所要研究的内容。论文主体是论文的主要组成部分。要求层次清楚，文字简练，通顺，重点突出。结论是整个论文的总结，应做到重点突出，言简意赅。正文字数原则上文科（除外语）不少于10000字，理工科及外语、艺术类不少于6000字。1.5 注释论文中有名词或情况需要解释，或者引用他人的观点及原话、主要数据等必须加注说明，注明出处。1.6 参考文献参考文献反映论文的取材来源、材料的广博程度。列出的只限于那些作者亲自阅读过的，最重要的且发表在公开出版物上的文献或网上下载的资料。参考文献不少于10篇，其中外文文献不少于2篇。1.7 附录如有不宜放在正文中但有重要参考价值的内容（如公式的推导、程序流程图、图纸、数据表格等）可编入论文的附录中。1.8 致谢向给予指导、合作、支持及协助完成研究工作的单位、组织或个人致谢，内容应简洁明了、实事求是，避免俗套。2书写及打印要求2.1 论文书写论文（设计说明书）要求统一使用Microsoft Word软件进行文字处理，统一采用A4页面（210297）复印纸打印，版芯尺寸：页边距为上2.8 cm，下2.5 cm，左2.5 cm，右2.5 cm；字间距为标准，单倍行距。页眉：宋体、五号，居中排列；页眉内容为：*本科毕业论文；页码在页下居中放置，用五号字体。论文封面和目录不编页码，页码从目录后开始编排。页码用阿拉伯数字（1、2）编排。论文文字错漏率不能大于万分之五。2.2 目录目录应包括论文中全部章节的标题及页码，含摘要与关键词（中、外文）、正文章、节题目（可视论文需要进行，编写到23级标题）、参考文献、附录、致谢等。目录题头用四号黑体字居中排写，隔行书写目录内容。目录中各章节题序及标题用五号宋体。2.3 摘要与关键词中、外文摘要与关键词单独成页置于目录后，编排上中文在前，外文在后。摘要、关键词题头均用小四号黑体字排写，内容文字用五号宋体字，英文用Times New Roman。关键词各词条间用分号“；”隔开。2.4 论文正文2.4.1 章节及各章标题章节标题应突出重点、简明扼要，字数一般在15字以内，不使用标点符号。标题中尽量不采用英文缩写词，对必须采用者，应使用本行业的通用缩写词。正文除章节条款的标题外均用五号宋体。2.4.2 层次层次根据实际需要选择，以少为宜。各层次标题不得置于页面的最后一行（孤行）。层次代号格式要求参照表2-1和表2-2。表2-1 自然科学类论文层次代号及说明章1 顶格，小三号黑体节1.1 顶格，四号黑体条1.1.1 顶格，小四号黑体款（1）顶格，五号黑体首行空两格，五号宋体项顶格，五号宋体首行空两格，五号宋体表2-2 社会科学类论文层次代号及说明章一、顶格，小三号黑体节（一）顶格，四号黑体条 1顶格，小四号黑体空两格，五号宋体（正文）款（1）顶格，五号黑体空两格，五号宋体（正文）项顶格，五号宋体首行空两格，五号宋体（正文）2.5 注释与参考文献注释一律采用尾注。正文中应按顺序在需要注释处的文字右上角用标明，中序号应与“注释”中序号一致，具体标注格式如下：著

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于改进型谱减法的语音增强技术研究.doc

文档简介

温馨提示

最新文档

评论

相关文档