一种基于短时平均差特征的谱安全法

上传人：1*** IP属地：广东上传时间：2023-11-27 格式：DOCX 页数：5 大小：41.27KB 积分：12 举报 版权申诉

全文预览已结束

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种基于短时平均差特征的谱安全法

1谱减质量的限制谱法是一种发展迅速、应用成熟的语音改进算法。这是处理宽带噪声的主要手段之一。它最早是由美国犹他大学的StevenBoll于1979年提出,Boll假设噪声是平稳或变化缓慢的加性噪声,并且与语音信号不相关,发展成估计噪声频谱并扣除的经典谱减法。该方法能够抑制背景噪声的影响,但是语音信号属于非平稳信号,Boll的假设与实际情况相差较大,因此难以取得理想的语音增强效果。之后不久,M.Beoruti在Boll算法的基础上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值的限制,提高了谱减法的性能,但其修正系数和最小值根据经验确定,适应性较差。1992年,P.Lockwood和J.Buody提出了非线性谱减法(NonlinearSpectralSubtraction,NSS),它根据语音信号的信噪比自适应调整语音增强的增益函数,提高了信噪比。此后,谱减法和其他方法结合产生了许多有效的语音增强方法,这些方法一定程度上解决了谱减法残留音乐噪声大的问题。虽然这些改进算法在非平稳环境下处理效果还不理想,但由于谱减法的优势十分突出:即算法简单,运算量小,便于快速处理,因此对它的研究从未停止,各种改进算法层出不穷,证明该算法仍具有很强的生命力。本论文将一种基于短时平均幅度差的语音检测方法运用到谱减法中,对传统的谱减法进行了一定的程度的改进,并基于实测数据进行了仿真计算,结果表明改进后的方法在信噪比和可懂度方面都有了明显的提高,能够起到很好的语音增强效果。2基本原则2.1谱减质谱减压函数nk的音频特性该算法在假设噪声是统计平稳且与语音不相关的前提下,在频域将带噪语音的功率谱减去噪声的功率谱,得到语音功率谱估计,开方后得到语音幅度估计,由于人耳对相位的感觉不灵敏,所以可以将原带噪语音的相位作为处理后信号的相位,只需在得到的幅度估计中插入带噪语音的相位,再采用IFFT变换,就可以在时域上得到增强后的语音信号。其基本思想如下:假设带噪语音信号为:y(i)=s(i)+n(i)(1)y(i)=s(i)+n(i)(1)其中s(i)为纯净语音信号,n(i)为噪声。经FFT变换后,有:Yk=Sk+Νk(2)Yk=Sk+Nk(2)由此可得:|Yk|2=|Sk|2+|Νk|2+SkΝ*k+S*kΝk(3)|Yk|2=|Sk|2+|Nk|2+SkN∗k+S∗kNk(3)因为s(i)与n(i)相互独立,所以有Sk和Nk相互独立,而Nk为零均值的高斯分布,所以:E⌊|Yk|2⌋=E⌊|Sk|2⌋+E⌊|Νk|2⌋(4)E⌊|Yk|2⌋=E⌊|Sk|2⌋+E⌊|Nk|2⌋(4)对于一个分帧内的短时平稳过程,有:|Yk|2=|Sk|2+λn(k)(5)|Yk|2=|Sk|2+λn(k)(5)其中λn(k)λn(k)为无语音时|Νk|2|Nk|2的统计平均值,由此可得原始语音的估计值:|˜Sk|=[|Yk|2-E(|Νk|2)]12=[|Yk|2-λn(k)]12(6)∣∣S˜k∣∣=[|Yk|2−E(|Nk|2)]12=[|Yk|2−λn(k)]12(6)其中|˜Sk|∣∣S˜k∣∣是增强后的语音幅度。定义增益函数Gk=|˜Sk|/|Yk|Gk=∣∣S˜k∣∣/|Yk|,后验信噪比γk=|Yk|2/λn(k)γk=|Yk|2/λn(k),则式(6)可改写为:|˜Sk|=Gk⋅|Yk|(7)Gk=(1-1/γk)12(8)∣∣S˜k∣∣=Gk⋅|Yk|(7)Gk=(1−1/γk)12(8)当γk小于1的时候式(8)将失去意义,所以将式(8)改写为:Gk=max(ε,(1-1/γk)12)(9)Gk=max(ε,(1−1/γk)12)(9)ε是个大于零小于1的常数。从式(7)可以清楚地看出谱减法的物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数Gk。信噪比高时,Gk大,含有语音的可能性大,衰减小;反之,则认为含有语音的可能性小,衰减增大。使用谱减法处理带噪信号后会存在所谓的“音乐噪声”,产生音乐噪声的主要原因是:在噪声谱的估计过程中,信息估计是不准确的。如果某帧某频率的噪声分量较大,就会有一部分被保留下来,在频谱上呈现出随机出现的尖峰,听觉上则形成有节奏的起伏、类似音乐的残留噪声,即“音乐噪声”,有时“音乐噪声”甚至比原始语音中的噪声还要明显,它是谱减法存在的一个很难解决的问题。为了有效的降低音乐噪声,很多研究者对谱减法进行改进。目前人们主要采用的改进形式如下:|˜Sk|=[|Yk|α-βλαn(k)]1α(10)∣∣S˜k∣∣=[|Yk|α−βλαn(k)]1α(10)增益形式相应的变为:Gk=(1-β/γαk[CB])1α(11)Gk=(1−β/γαk[CB])1α(11)引入参数α和β,可以增加算法的灵活性。增大β可以增大去噪效果,这样就能减少剩余噪声,从而削弱“音乐噪声”,当α>2时,它具有和调节β相似的效果。实验表明,通过适当调节α,β可以获得比传统的谱减法更好的去噪效果。2.2本文算法:一种结合战时am和战时3df的语音检测算法音乐噪声的存在是谱减法遇到的最大难题,产生音乐噪声的主要原因在于对噪声估计不准确。从理论上说,如果能够实现对噪声的精确估计,就可以消除噪声。为了改善对噪声的估计我们引入语音检测环节。语音激活检测(voiceactivitydetection,VAD)算法主要依据语音与噪音的不同特性进行语音和噪声的判决,它能够从连续采样得到的数字信号中检测出语音信号段和噪声信号段。具体到语音增强的应用中:当判断某段信号为噪声时,就增大式(10)中的β参数,更大幅度的削弱噪声;当判断某段信号为含语音信号时,就适当减小β,从而更好的保留语音,提高可懂度。目前常用的语音检测的方法有短时能量法、短时平均幅度(AverageMagnitude,AM)法、短时过零率法、相关性检测法、短时平均幅度差(AverageMagnitudeDifferenceFunction,AMDF)法和谱熵法等。其中谱熵法是频域检测,计算量和算法复杂度都大大高于时域检测,其余均为时域检测。短时能量检测是语音检测中最常用的方法之一,但是其误检、漏检率较高;短时过零率算法简单,易于实现,但其判断的准确性低,且不能有效排除单频信号;相关性检测同样不能有效排除单频信号,而且乘法运算过多,计算量较大;短时AMDF检测方法是根据相距为整数倍周期的样点值的平均幅值差函数来进行语音分析的方法,能够有效区分语音、噪声,并且基本上都是加、减运算,运算量较小。这四种方法虽然在某些环境中都可独立用来进行语音检测,但在复杂环境中的检测性能就会下降很多,主要是因为它们只应用了语音信号的某一特征,而没有考虑其他的相关特征。本文介绍一种结合短时AM和短时AMDF的语音检测算法。该算法的基本思想如下:设语音信号为x(l)x(l),加窗分帧处理后得到的第n帧信号为xn(m)xn(m),xn(m)=w(m)x(n+m),0≤m≤Ν-1(12)w(m)={1,m=0,1,⋯,(Ν-1)0,其他(13)xn(m)=w(m)x(n+m),0≤m≤N−1(12)w(m)={1,m=0,1,⋯,(N−1)0,其他(13)其中:N为帧长,T为帧移,n=0,T,2T,…。采用短时AM函数作为第一个检测语音信号的特征函数,它定义为:Μn=Ν-1∑m=0|xn(m)|(14)Mn=∑m=0N−1|xn(m)|(14)Mn是度量语音信号幅度变化的函数,也是信号能量大小的表征,可以作为语音信号的初步判断标准。即:如果一帧信号幅度的绝对值和低于门限值Mt,就可认为它是非语音段。为了更准确的判断语音是否存在,再引入一个参量:短时AMDF。定义它的数学表达式为:Fn(k)=Ν-1-k∑m=0|xn(m)-xn(m+k)|(15)Fn(k)=∑m=0N−1−k|xn(m)−xn(m+k)|(15)其中:xn(m+k)=w(m+k)x(n+m+k)(16)显然,若x(n)在窗口取值范围内具有周期性,则Fn(k)在k=Np,2Np,…时将出现极小值,其中Np是信号周期。语音信号虽然不是严格的周期信号,但是浊音具有明显的周期性,因此可以看作准周期信号。在以上分析的基础上,根据式(16)对AMDF函数进行归一化处理:D(τ)=τmax-1∑m=0|xn(m)-x(m+τ)|2τmax-1∑m=0|xn(m)|,τ=τmin,τmin+1,⋯,τmax(17)其中:τmin,τmax分别表示语音段移动的最小值和最大值,它们是由基音周期决定的。一般来说,语音的基音频率为75Hz-300Hz,当信号的采样频率为8kHz时,语音的基音周期为27-107个采样周期,为了更加准确,在实验中取τmin=16,τmax=128。当语音段在范围内移动时,总会有一个移动值τ对应该段语音的基音周期。对于浊音语音信号来说,它只是一个准周期信号,而不是严格的周期信号,所以差值信号在周期整数倍处的值不等于零但必然较小;白噪声不具有周期性,不论其移动多少,差值都很大;取Dm=min[D(τ)],它反映了信号的周期性强弱,周期性越强的信号Dm越小,周期性越弱的信号Dm越大。所以可以设定门限值DH,当Dm<DH时认为该段信号为语音信号,当Dm>DH时则判断为噪声信号。考虑到语音中音符与音符之间短暂的间隔及停顿,规定只有当连续M帧信号检测无语音时才认为是无语音情况,即前方保护。为了防止突发性干扰,例如咳嗽,规定只有当连续N帧信号检测有语音时才认为是有语音的,即后方保护。M和N的值可根据实际情况来确定,文中取M=20,N=10。总而言之,这是一种通过设置短时平均幅度和短时平均幅度差双门限判断语音有无的方法。3传统谱湿法去噪结果用来进行实验处理的是一段被航空噪声严重污染的语音信号,其时域波形图如图1。该数据是采样率为12kHz,16bit的wav文件,是在某机场采集的含波音737客机噪声的语音。如果将每帧增强语音一次连接起来,会出现由于恢复的信号帧间不连续,使得增强语音含有周期性的“嘟嘟”背景声,因此采用帧间重叠谱减法进行语音处理。程序中每帧取256点,80点叠接。经过谱减处理后,再进行相反的变换,得到增强后的语音。取前十帧作为噪声帧,噪声帧的平均值作为噪声的功率谱估计。增强后的文件通过wavwrite语句输出保存,传统谱减法去噪结果如图2。主观试听后发现,虽然背景噪声得到了抑制,但是随之产生了较明显的类似流水声的“音乐噪声”。此外,声音信号的强度存在一定的损失,这点从图2中可以清楚地看到。在客观量度方面,信号的信噪比由处理前的-4.6dB提高到了0.5dB,说明传统的方法在提高信噪比方面起到了一定的作用。将2.2节介绍的语音检测方法引入到谱减法中,在噪声/语音判断之后适当调节参数α,β,经过反复测试,较好的做到了降噪与提高语音可懂度之间的折衷。其去

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

一种基于短时平均差特征的谱安全法

文档简介

温馨提示

最新文档

评论

一种基于短时平均差特征的谱安全法

文档简介

温馨提示

最新文档

评论

相关文档