短时过零率和短时能量_第1页
短时过零率和短时能量_第2页
短时过零率和短时能量_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、帧和加窗的概念1.短时分析将语音流分为一段一段来处理,每一段称为一“帧”;2.帧长:1030ms,20ms常见;(帧率)帧移:01/2帧长,帧与帧之间的平滑过度;3.为了减少语音帧的截断效应,需要加窗处理;将具有不连续点的周期函数(如矩形脉冲)进行傅立叶级数展开后,选取有限项进行合成。当选取的项数越多,在所合成的波形中出现的峰起越靠近原信号的不连续点。当选取的项数很大时,该峰起值趋于一个常数,大约等于总跳变值的9%。这种现象称为截断效应,又叫吉布斯效应。矩形窗、Hamming、Hann等窗函数及其比较三种窗函数都有低通特性,通过分析三种窗的频率响应幅度特性可以发现:矩形窗的主瓣宽度最小,旁瓣高

2、度最高,会导致泄露现象,汉明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄露现象,具有更平滑的低通特性,应用更广泛。短时平均能量的主要用途(1)可以从语音中区别浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多;(2)可以用来区别声母和韵母的分界、无声和有声的分界等。短时过零率短时过零率可以看作信号频率的简单度量(1)过零就是指信号通过零值。过零率就是每秒内信号值通过零值得次数。(2)对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。应用

3、于语音信号分析中(1)发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低于3KHz的频率范围内。(2)发清音时声带不振动,声道某部分阻塞产生类白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内。(3)浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。(4)短时平均能量和短时平均过零率两个参数,也都可以用于语音识别中。主要用于识别无声段和语音段的起点和终点的位置。(5)在背景噪声比较小的时候用平均能量来识别比较有效,在背景噪声比较大的时候用平均过零率来识别比较有效,但是通常情况是两个

4、参数联合进行识别。浊音、清音、无声的短时特性S(无声)U(清音)V(浊音)三种情况下短时平均幅度条件概率密度的示意图。可以看出,浊音的短时平均幅度最大,无声的短时平均幅度最小。清音的短时过零率最大,无声居中,浊音的短时过零率最小。语音信号短时能量和过零率的特征 语音一般分为无声段,清音段和浊音段。一般把浊音认为是一个以基音周期为周期的斜三角脉冲串,把清音模拟成随机白噪声。由于语音信号是一个非平稳态过程,不能用处理平稳信号的信号处理技术对其进行分析处理。但由于语音信号本身的特点,在1030ms的短时间范围内,其特性可以看作是一个准稳态过程,即具有短时性,因此采用短时能量和过零率来对语音进行端点检

5、测是可行的。语音和噪声的区别可以体现在他们的能量上,语音段的能量比噪声段的能量大,如果环境噪声和系统输入的噪声比较小,只要计算输入信号的短时能量就能够把语音段和噪声背景区分开,除此之外,用基于能量的算法来检测浊音通常效果也是比较理想的,因为浊音的能量值比清音大得多,可以判断浊音和清音之间过渡的时刻3,但对清音来说,效果不是很好,因此还需要借助短时过零率来表征。短时能量可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大。基于短时能量和过零率的检测方法 尽管基于短时能量和过零率的检测方法各有其优缺点,但是若将这两种基本方法相结合起来使用也可以实现对语音信号可靠的端

6、点检测。无声段的短时能量为零,清音段的短时能量又比浊音段的短时能量大,而在过零率方面,理想的情况是无声段的过零率为零,浊音段的过零率比清音段的过零率要大的多,因此,假设有一段语音,如果某部分短时能量和过零率都为零或者为很小的值,就可以认为这部分为无声段,如果该部分语音短时能量很大但是过零率很小,则认为该部分语音为浊音段,如果该部分短时能量很小但是过零率很大,则认为该部分语音为清音段。正如前面提到,语音信号具有短时性,因此在对语音信号进行分析时,需要将语音信号以30ms为一段分为若干帧来进行分析,则两帧起始点之间的间隔为10ms。为防止误判以及无声段过零率太大,设tmp1和tmp2为相邻两个采样

7、点,则同时满足tmp1*tmp2<0和tmp1-tmp2的绝对值大于delta时才算一次过零,除此之外,为短时能量和过零率分别确定两个门限,一个是较低的门限和,其数值较小,对信号的变化比较敏感,很容易就会被超过。另一个是较高的门限和,数值较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过有可能是时间很短的噪声引起的,高门限被超过则可以基本确定是由语音信号引起的,如图3所示。短时能量分析是通过能量的高低来区分清音和浊音,不容易确定语音信号片段的起始点;而过零率分析仅仅是表明清音的过零率高于浊音,对噪声的存在比较敏感,如果背景中有反复穿越坐标轴的随机噪声,会产生大量的虚假过零率,影响检测结果。对于背景噪声和清音的区分则显得无能为力。将这两种方法结合起来,通过短时能量分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论