会员注册 | 登录 | 微信快捷登录 QQ登录 微博登录 | 帮助中心 人人文库renrendoc.com美如初恋!
站内搜索 百度文库

热门搜索: 直缝焊接机 矿井提升机 循环球式转向器图纸 机器人手爪发展史 管道机器人dwg 动平衡试验台设计

   首页 人人文库网 > 资源分类 > DOC文档下载

通信学论文-基于语音存在概率的语音活动检测方法.doc

  • 资源星级:
  • 资源大小:10.84KB   全文页数:7页
  • 资源格式: DOC        下载权限:注册会员/VIP会员
您还没有登陆,请先登录。登陆后即可下载此文档。
  合作网站登录: 微信快捷登录 支付宝快捷登录   QQ登录   微博登录
友情提示
2:本站资源不支持迅雷下载,请使用浏览器直接下载(不支持QQ浏览器)
3:本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

通信学论文-基于语音存在概率的语音活动检测方法.doc

通信学论文基于语音存在概率的语音活动检测方法【论文关键词】语音增强语音活动检测语音存在概率【论文摘要】首先总结了几种常见的语音活动检测(VAD)方法,然后从计算每帧每个频率点的语音存在概率出发,提出了一种新的VAD方法,并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。1引言日常生活中,人们说话有间隙,有必要对一段语音进行检测,以确定哪些时间上是有语音,哪些时间上没有语音。在语音编码中,语音活动检测(VoiceActivityDetection,VAD)用来区分有语音段和无语音段。如果一段时间被判断为无语音段,则不需对其编码。这样可减少信道带宽的占用,使有限的带宽得到合理使用。在语音增强中,VAD用来判断一段时间上是否存在语音。如果某段时间内不存在语音,那么这段时间就只有噪声存在,因此可以被用来估计和更新噪声功率谱。在语音增强领域,VAD的性能往往直接影响到最后的结果。因为目前多数的语音增强算法必须对噪声功率谱进行估计,如果噪声功率谱估计不准确,就会导致最后的增益函数估计不准确。准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。笔者提出了一种新的VAD方法,这种方法建立在每帧每个频率点的语音存在概率的基础上。根据概率大小判断是否存在语音。2语音存在概率估计为进行VAD,首先对每帧每个频率点进行语音存在概率估计,该估计大致分为两步(1)估计是否存在强语音成分(2)估计语音不存在概率和语音存在概率。含噪语音由纯净语音和噪声叠加而成,所以假设Y(k,l)X(k,l)D(k,l)(1)其中,Y(k,l)为含噪信号,X(k,l)为纯净语音,D(k,l)为噪声,k为某一帧的频率点编号,l为帧编号。2.1估计是否存在强语音成分含噪语音中某些地方会有明显的语音存在,由于后面估计语音不存在概率需要用到相邻帧的信息,所以强语音成分存在会严重影响到语音不存在概率估计。因此有必要先对某帧是否存在强语音进行判断,如果是,那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。对于含噪信号,要进行两次平滑,一次是帧内平滑,一次是帧间平滑。首先进行帧内平滑其中,αs为平滑参数且0αs1。然后搜索D帧中各频率点的最小值,即Smin(k,l)min{S(k,l′)|lD1≤l′≤l}(4)根据文献1可找到Bmin,满足E{Smin(k,l)}B1minλd(k,l)(5)也就是说可通过一个补偿因子Bmin估计出当前帧的噪声功率谱。定义根据γmin和ζ,按照下面的判决准则,判断当前帧是否含有强语音成分其中,0为有强语音存在,1为没有强语音存在,γ04.6,ζ01.67。2.2估计语音不存在概率和语音存在概率利用前面强语音成分判断的结果,可通过先排除含有强语音成分的频率点,再进行帧内平滑和帧间平滑,最后得到对应于每帧每个频率点的估计量。这个估计量反映了该帧每个频率点上能量情况。如某帧是无语音帧,则其各频率点上的估计量将会较小。再通过对一段区间上搜索最小估计量,将搜索到的结果作为参照标准。当某帧某个频率点的估计量超过参照标准的若干倍时,即判定此处含有语音,否则就不含有语音。首先,利用是否存在强语音的判决结果进行新的帧内平滑和帧间平滑。先进行帧内平滑的计算用到了I(k,l),排除了强语音存在的频率点。再进行帧间平滑然后同前面估计是否存在强语音成分一样,进行区间最小值搜索定义l)E{D(k,l)2}。由于按照式(13)计算语音存在概率需要估计先验信噪比ξ和后验信噪比γ,如果估计不准确,必然导致VAD结果不准确。故这里对此进行简化,直接用1减去q(k,l)作为语音存在概率p(k,l)。3利用语音存在概率进行VAD3.1检测指标计算估计出语音存在概率后,还不能直接用来进行VAD,因为这些概率是针对每一个频率点的,需要将这些信息转换为某一帧的评价量。通过对语音存在概率随时间和频率点分布的观察,发现有2项指标可被用来比较准确地辨别出有声段和无声段,分别是其中,pt为某一帧所有频率点的语音存在概率之和,pe为某一帧上语音存在概率为1的所有频率点个数,M为有频率点数。但是,实验表明,这两个参数虽然总体上可以看出哪些是无声段哪些是有声段,但起伏可能非常剧烈,所以需要进行平滑处理。设定其中,采用了当前帧前面4帧的数据进行平滑。3.2参数设定判断是否存在语音主要看式(17)(18)中2个指标是否超过某个门限。具体为其中,式(19)(20)对一段含噪信号最开始一段的2个指标求平均,然后利用式(21)(22)得到正式的门限W为每帧有频率点数。其判断结果其中,1为有语音,0为无语音。4实验结果为评价该VAD方法的性能,设定如下指标含噪信号是人工合成的,其中纯净信号来自一段评书,噪声信号取自Noisex92噪声库,包括白噪声、粉红噪声、F16战斗机噪声、沃尔沃汽车噪声、闲聊声和工厂噪声等,信噪比均为6dB。所有指标均与文献3中的方法对比。含语音帧总数和纯噪声帧总数根据纯净信号人为判定。将文献3中的方法称为方法A,本文方法称为方法B。3项指标的计算结果列于表13。可看出,在大部分情况下,方法B要优于方法A但当信噪比降低到一定程度后,方法A要优于方法B。图1给出了背景噪声是白噪声时,2种方法的性能比较。可看出,当输入信噪比大于5dB时,方法B明显优于方法A但当信噪比降到0dB后,方法A好于方法B。5总结这种新的VAD方法在信噪较高时,效果非常好。如实验发现,当背景噪声为白噪声,信噪比为18dB时总体准确率可达0.9618,而文献3中的方法只能达到0.8313。但当信噪比下降到0dB后,新的方法表现不如文献3中的方法。另外,在背景噪声为非平稳噪声时,效果也不够理想,有待改进。参考文献1MARTINR.NoisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatisticJ.IEEETrans.onSpeechandAudioProcessing,2001,9(5)504512.2COHENI.NoisespectrumestimationinadverseenvironmentimprovedminimacontrolledrecursiveaveragingJ.IEEETrans.onSpeechandAudioProcessing,2003,11(5)466475.3吴平,谷源涛,崔慧娟.一种稳健的背景噪声监测方法J.电声技术,2003(11)4245.

注意事项

本文(通信学论文-基于语音存在概率的语音活动检测方法.doc)为本站会员(zhaozilong)主动上传,人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知人人文库网(发送邮件至[email protected]或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

[email protected] 2015-2017 人人文库网网站版权所有
苏ICP备12009002号-5