mfcc特征参数提取流程概述_第1页
mfcc特征参数提取流程概述_第2页
mfcc特征参数提取流程概述_第3页
mfcc特征参数提取流程概述_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、MFCC 特征参数提取流程概述 概念概述:在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称 MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从 200Hz 到 5000Hz 的语音信号对语音的清晰度影响对大。两个响度不等作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低在内耳蜗基底膜上行波传递的距离大于频率较

2、高,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较。在低频处掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的 LPCC 相比具有更好的而且当信噪比降低时仍然具有较好的识别性能。性,更符合人耳的听觉特性,倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称 MFC

3、C)是在Mel 标度频率域提取出来的倒谱参数,Mel 标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:式中 f 为频率,为 Hz。下图展示了 Mel 频率与线性频率的关系:图 1 Mel 频率与线性频率的关系一 MFCC 特征参数提取过程:mfcc 特征参数的提取过程见下图所示:图 2 MFCC 参数提取基本流程预加重预加重处理其实是将语音信号通过一个高通滤波器:(2)式中 的值介于 0.9-1.0 之间,通常取 0.97。预加重的目的是高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音

4、信号受到发音系统所抑制的高频部分,也为了突出高频的峰。2.分帧先将 N 个采样点集,称为帧。通常情况下 N 的值为 256 或 512,涵盖一个观测的时间约为 2030ms 左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一区域,此区域包含了 M 个取样点,通常M 的值约为N 的 1/2 或 1/3。通常语段音识别所采用语音信号的采样频率为 8KHz 或 16KHz,以 8KHz 来说,若帧长度为 256个采样点,则对应的时间长度是 256/80001000=32ms 。3.加窗(Hamming Window)将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为 S(n)

5、,n=0,1,N-1, N 为帧的大小,那么乘上汉明窗后形式如下:,W(n)(3)不同的 a 值会产生不同的汉明窗,一般情况下 a 取 0.464.快速变换由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的 DFT 为:(4)式中 x(n)为输入的语音信号,N 表示5. 三角带通滤波器变换的点数。将能量谱通过一组Mel 尺度的三角形滤波器

6、组,定义一个有 M 个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,.,M。M 通常取 22-26。各m 值的减小而缩小,随着m 值的增大而增宽,f(m)之间的间隔随着:图 3 Mel 频率滤波器组三角滤波器的频率响应定义为:(5)式中三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的音高,是不会呈现在 MFCC 参数内,换句话说,以 MFCC峰。(因此一段语音的音调或为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响) 此外,还可以降低运算量。6.计算每个滤波器组输出的对数能量为:(6)7

7、.经离散余弦变换(DCT)得到 MFCC 系数:(7)将上述的对数能量带入离散余弦变换,求出L 阶的Mel-scale Cepstrum 参数。L 阶指MFCC系数阶数,通常取 12-16。这里 M 是三角滤波器个数。8.对数能量此外,一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信号的平方和,再取以 10 为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。注:若要加入其它语音特征以测试识别率,也可以在此阶段加入,这些常用的其它语音特征包含音高、过零率以及峰等。9.动态差分参数的提取(包括一阶差分和二阶差分)标准的倒谱参数MFCC 只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论