语音信号特征参数提取方法_第1页
语音信号特征参数提取方法_第2页
语音信号特征参数提取方法_第3页
语音信号特征参数提取方法_第4页
语音信号特征参数提取方法_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音信号特征参数提取方法阮雄飞微电子学与固体电子学摘要: 在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍 ,最后介绍了Hilbert-Huang 这一新兴理论成果以及在特征提取中的应用。关键词: 语音技术特征提取HHT 1 引言语音信号是一种短时平稳信号, 即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、 个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础1。特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。上世纪 4

2、0 年代, potter 等人提出了 “ visiblespeech ” 的概念,指出语谱图对语音信号有很强的描述能力, 并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特征来进行语音识别2。后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。 语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧, 每帧大小

3、大约是 20-30ms。帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠 , 帧叠往往是帧长的1/2或 1/3。帧叠大 , 相应的计算量也大3。随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。于是频域参数开始作为语音信号的特征比如频谱共振峰等。经典的特征提取方法主要有 LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM (隐马尔科夫模型)、DTW(动态时间规整)等。2 语音信号特征参数提取方法对语

4、音信号的大量分析表明, 语音信号中包含着持续的准谐波成分和瞬变的迁越成分4,即语音信号是一种多分量、非线性、非平稳信号。诸如声门、声道以及辐射等影响因素很多,使得语音信号特征参数的准确提取和修正较为困难。这就需要一种精确的时频表示方法5,6,来准确表现语音信号的各种特征。传统的语音信号处理都是基于语音信号的两个基本假设7,即人的发声系统是线性的及语音信号是短时平稳的。这两个假定导出了各种“ 短时” 处理方法,如:短时傅里叶变换、 倒谱分析和线性预测分析等。 这些 “ 短时” 处理方法虽然引入了时频局部化思想,但它们的 “ 短时窗口 ” 大小是固定不变的8,不能敏感地反映信号的突变,从而忽略了语

5、音信号的时变特征,所以提取出来的参数往往不够精确。随着小波分析理论9的发展,小波分析也逐渐应用于语音信号的分析和处理。虽然小波分析具有可调的时频窗口,但是也存在一定的局限性, 主要表现在以下几个方面9,10:难以选择的小波基。在小波分析中,可以根据不同的要求构造不同的小波基。 但是对某一信号, 依据什么原则、 用什么判据选择小波基在理论上和实际应用中还是一个难点。固定的基函数。 小波基一旦选定就不能再更改, 而小波基的选择往往是根据特定的语音信号特征,所以它不具有自适应性。恒定的多分辨率。 小波变换的多尺度特性使小波具有“ 数学显微镜 ” 的特性和多分辨率分析功能。 然而,一旦选择了小波基函数

6、和变换尺度,分辨率的大小也就确定了,并不会随信号的改变而改变,因此小波变换可以实现多分辨率分析,但其分辨率是恒定的。LPCC 是基于声道模型,它是目前应用最多的一种倒谱特征提取方法。线性预测系数 LPC 用线性预测法分析语音信号相邻样值之间的关系,得到一组相关的参数。由此语音特派生的声学特征还有线谱对LSP、PARCOR系数(反射系数) 、对数面积比系数等。 LPCC 为 LPC 的倒谱参数,它的原理和计算都较为简单,容易实现。算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC 作为特征提取方法的。基于人类听觉模型的MFCC,它所采用的 mel 频率是人耳听到声音的高低和实际频率的非

7、线性映射得到的一个频率尺度。MFCC 是继 LPCC 之后语音识别领域中又一大创新理论,计算过程如图1。相比于 LPCC它的识别性能有明显的改进, 只是算量大于 LPCC,用 C 语言在算机上做模拟时其运算时间是 LPCC 的近十倍。由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下,仍具有较高的识别精度,特别是对噪声情况下的识别具有定的鲁棒性。更随着DSP技术的发展以及它对FFT 算的支持,使得 MFCC 的参数提取速度也很快。结合LPC 与 MFC 的后来提出的一种特征提取的方法 PLP(感知线性预测参数) ,用 durbin 法计算 LPC 参数,而在算自相关时用类似

8、 MFC 的方法。PLP 性能类似 MFCC,甚至在某些特征提取结果上要好于 MFCC11。王彪12提出了一种改进的语音信号特征参数提取算法,即在MFCC 参数的基础上加入了语音信号的短时能量和短时平均过零率信息,结果如表 1,说明此改进的 MFCC 方法是有效的。图 1 MFCC 计算过程1998 年,由美籍华人黄锷(N.E.Huang)等人提出的Hilbert-Huang 变换(Hilbert-Huang Transform,HHT)13,14具有精确的时频表示,它不仅适合于非平稳信号也适合于非线性信号。它通过经验模态分解(Empirical Mode Decomposition, EMD

9、)把信号分解成一族固有模态函数(intrinsic mode function,IMF),然后将每个固有模态函数与它的Hilbert 变换构成一个复解析函数,并由此导出作为时域函数的瞬时幅度 (能量) 和瞬时频率,从而给出被分析信号幅度(能量) 的时间 -频率分布,称为信号的Hilbert 谱( Hilbert spectrum)。这种 Hilbert 谱具有精确的时频表示15。3 语音特征提取的研究现状概述3.1 基音检测和共振峰提取研究现状概述语音信号的特征参数7主要指的是语音信号的基音频率和共振峰频率,语音特征参数的提取也主要是指语音信号的基音检测和共振峰提取。(一) 基音检测预 处 理

10、加窗离 散 余弦变换傅 里 叶变换滤 波 器组 能 量语音输入x(n) X(m) (Mk) MFCC 输出自从进行语音分析研究以来, 基音检测一直是一个重点研究的问题,很多方法已被提出, 然而这些方法都有它们的局限性。迄今为止, 尚未找到一个完善的可以适用于不同说话人、 不同环境要求的基音检测方法。其原因主要有以下几个方面16:(a)基音周期受声道易变性、说话人的情感、声调等因素的影响;(b)基音周期变化范围很大; (c)受说话人的发音习惯的影响。基音周期的提取方法一般可以分为两个大类17:基于分段的方法和基于事件的方法。基于分段的提取方法一般都先将语音信号分成长度一定的语音帧,然后对每一帧语

11、音数据求取平均基音周期。这些方法主要有:自相关法;倒谱法;平均幅度差法;简化逆滤波器法18,19等。它们的共同优点是计算简单。然而,由于它们都是建立在语音信号是线性和短时平稳的假设上,因此,从本质上说, 这些方法都无法检测帧内基音周期的非平稳变化,检测精度不高。相比而言,基于事件20的基音周期提取方法并不多见。己有的几种方法都是通过定位声门关闭(声门的一次关闭称为一个事件 )的瞬时时间,然后确定两个相邻的事件的时间间隔来确定基音周期。显然,确定声门关闭的瞬时时间是决定被提取的基音周期精度高低的关键所在。文献21通过计算给定信号的自协方差矩阵行列式的极大值来确定事件发生的时刻。该方法对部分元音有

12、很好的检测精度,但它不适合所有元音, 也不适合基音周期发生非平稳性变化时的情况,并且,计算十分复杂。文献22, 23利用声门关闭时声门气流的导数不连续这一性质来确定事件发生的时刻,获得了比较满意的检测精度。 但是,它们对噪声太敏感, 不适合用于带噪语音数据基音周期的提取。文献24将最大似然关键点判别技术用于检测声门关闭事件,结果表明,该方法对大部分元音、 带噪语音都有很高的检测精度, 但不适合用于高音调语音基音周期的提取。文献25,26用小波方法来检测声门关闭引起的语音信号的导数不连续事件,实验表明它们能适应于很宽的基音周期变化,并且也具有较好的抗噪能力。这些方法有一个共同的假设是在声门关闭的

13、瞬时声门激励是瞬时中断的,由此将导致语音信号在这一时刻其导数不连续。显然,对于声门关闭很好的元音它们会有很好的结果, 但是对于声门关闭比较缓慢的元音检测精度将会受到很大的影响。(二) 共振峰提取与基音检测类似, 共振峰提取表面上看起来很容易,而实际上又为许多问题所困扰,这些问题27是:虚假峰值,共振峰合并,高音调语音。传统的共振峰提取方法主要有倒谱法和线性预测法,这些方法是建立在语音信号是线性和短时平稳的假设上。 随着对语音发生机理研究的深入,在理论分析与实验分析中都证实了在语音产生过程中存在非线性,语音信号的这种非线性特性是传统的线性共振峰参数估计方法的准确性受到影响的主要原因。另一方面,随

14、着对语音信号处理要求的不断提高, 共振峰参数随时间快速变化的动态信息也越来越受到语音研究者们的重视, 但由于传统分析方法的局限性, 对快速变化的共振峰的提取无能为力。近年来,尽管也提出了一些新的共振峰提取算法,如文献28采用了基于逆滤波器的共振峰提取方法,文献29将语音信号分解为调制成分并采用频域线性预测算法的共振峰估计方法,但这些方法只是在处理方法和算法上作了一些改进, 本质上还是属于线性分析方法的范畴,而且分析过程复杂, 许多参数需要根据人的主观经验确定, 会造成人为的不确定误差和数据的不稳定性。随着语音信号非线性模型的发展, 近年来也提出了许多采用非线性处理方法提取共振峰的算法,其中最具

15、有代表性的算法是文献30-32中的基于多频带能量分离的共振峰提取算法,它以语音信号的调频-调幅非线性产生模型为基础,用一组带通滤波器把各个共振峰分量分离开来, 再用能量分离算法求取各共振峰的瞬时频率和瞬时幅度,但在滤波前,仍须用短时傅里叶变换粗略估计各个共振峰频率和带宽,依然存在受虚假峰值、共振峰合并和高音调语音的影响。3.2 Hilbert-Huang 变换研究现状概述由于 HHT 具有自适应性而且是分析非线性、 非平稳数据的有效工具, 从 1998 年公开发表到现在九年多时间里一直受到国内外学者的广泛关注。到目前为止HHT 已被应用于很多数据的分析,向世人展现了其强大的分析能力:黄本人将其

16、应用于13,14非线性系统分析、水波分析风速分析、潮汐和海啸分析、海洋环流分析和地震信号分析中, 别人将其应用到了医药学33,34、结构土木工程35及机械故障诊断36等领域。国内等高校均有学者着手对该算法进行研究:大连理工大学的张海勇37将 HHT 与 WVD 结合起来,提出了一种交叉信号分析方法;重庆大学的谭善文38提出了多分辨希尔伯特 -黄变换; 钟佑明39强调了局瞬量的意义,提出了希尔伯特 -黄变换局瞬信号分析方法; 青岛海洋大学的蒋济同40将 HHT 应用于海洋平台损伤诊断;浙江大学的胡劲松41等人将 HHT 应用于旋转机械振动信号。另外国内的许多研究所及其下属科室例如国家海洋局的第一

17、及第三海洋研究室、中科院遥感应用研究所等也对该算法进行了研究和初步的应用,并且得到了较好的应用效果。在语音分析处理方面,国内学者也对其进行了大量的研究:湘潭大学的李凌42、浙江大学的许艳红43把它应用到说话人识别,哈尔滨工业大学的申丽然44等把它应用到语音增强, 在语音特征提取方面, 文献45,46把它应用到基音检测,文献47把它应用到共振峰的提取。大量的事实表明,HHT 以其独特的优点在各种领域得到了广泛成功的应用,证明了其优越性。事实也证明HHT 在语音分析处理领域,特别是在语音特征提取中,有很多不同于传统方法的优点: (1)不需要对语音信号作短时平稳性假设,可以一次性地分析和处理任意长度

18、的语音数据,因此,用于分帧和拼合的开销减少,帧间拼合痕迹也减小;(2)检测精度高,适应范围广。这种高的检测精度和强的适应能力在理论上可以解释为由于 HHT 的高时频分辨能力和对信号的自适应能力所致。在实际中也被来自于不同性别、 年龄、语音采集环境等的实际语音信号的检测结果所证实;(3)具有跟踪语音信号变化的能力。 传统方法大都是建立在语音信号短时平稳性假设的基础上,因而提取出来的语音特征是一个语音帧内的平均值。HHT 方法打破了这一基本假设, 从本质上就是把语音数据看成是非线性、非平稳的数据,因而,提取结果更加符合客观实际。 因此,语音信号作为一种典型的非平稳信号,研究应用 HHT 处理语音信

19、号,无疑是一项很有意义的工作。4 结论本文主要介绍了语音信号处理中的特征提取的方法,总结和展望了特征提取的各个常规方法以及一些研究成果。最后介绍了HHT 在特征提取中的优点及应用,并指出这个新兴理论的研究前景。参考文献1汤子瀛 .计算机操作系统 M. 西安西安电子科技大学出版社,1996. 2郭皞岩 .Windows 程序设计教程 M. 北京人民邮电出版社 ,2009. 3石海燕 .语音信号特征参数研究 J.电脑知识与技术 ,2008,4. 4 陈亮 ,张雄伟 .语音信号非线性特征的研究J.解放军理工大学学报, 2000, 1(2):11-17. 5张贤达 .现代信号处理 M. 北京:清华大学

20、出版社 ,2002.349-492. 6 科恩L 著 .时频分析 :理论与应用M. 白居宪译 .西安 :西安交通大学出版社,1998.121-159. 7 韩 纪 庆 , 张 磊 , 郑 铁 然 . 语 音 信 号 处 理 M. 北 京 : 清 华 大 学 出 版 社 , 2004.11-94 ,160-189. 8Patrick J Loughlin, Leon Cohen. The uncertainty principle: Global, Local, or Both? J.IEEE Transactions Signal Processing. 2004, 52(5),1218-12

21、27. 9梁学章 ,何甲兴 ,王新民等 .小波分析 M. 北京:国防工业出版社 ,2004.1-162. 10Masoud Karimi-Ghartemani, Alirera K Ziarani. A nonlinear time-frequency analysis methodJ. IEEE Transactions on Signal Processing, 2004, 52(6):1585-1595. 11阎福智 . 语音信号处理中特征提取方法研究J. 中国新通信 ,2013,21:127-128. 12 王 彪 . 一 种 改 进 的语 音 信 号 特 征 参 数 提 取 算 法

22、研 究 J. 电 子 设 计 工程,2011,21:59-61. 13Huang N E, Zheng Shen. The Empirical Mode Decomposition and the Hilbert Spectrum for Nonlinear and Non-Stationary Time Series AnalysisJ. Proceedings of the Royal Society of London Series, 1998, 454:903-995. 14Huang N E, Shen Zheng, Long S R. A new view of nonlinear

23、 water waves:the Hilbert spectrumJ. Annu Rev Fluid Mech, 1999,31(1):417-457. 15Messina A R, Vittal V . Nonlinear, non-stationary analysis of interarea oscillations via Hilbert spectral analysisJ. IEEE Transactions on Power Systems, 2006,21(3):1234-1241. 17Resch B, Nilsson M, Ekman A, Kleijn W B. Est

24、imation of the Instantaneous Pitch of SpeechJ. IEEE Transactions on Audio, Speech and Language Processing, 2007,15(3):813-822. 18Laneau J, Wouters J. Pitch perception in cochlear implants with different filter bank designsC. the 25th Annual International Conference of the IEEE on Engineering in Medi

25、cine and Biology Society, 2003,3:1995-1998. 19Salor O, Demirekler M, Orguner U. An Efficient Algorithm for Pitch Determination of Speech Signals-Kalman Filter ApproachC. Signal Processing and Communications Applications, 2006.1-4. 20Bo Li, Ying-Ying Li, Cheng-You Wang, etc. A new efficient pitch-tra

26、cking algorithmC. IEEE International Conference on Robotics, Intelligent Systems and Signal Processing, 2003, 2:1102-1107. 21Yong Duk Cho, Hong Kook Kim, Moo Young Kim, Sang Ryong Kim. Pitch estimation using spectral covariance method for low-delay MBE vocoderC. IEEE Workshop on Speech Coding For Te

27、lecommunications Proceeding, 1997.21-22. 22Ananthapadmanabha T V, Yegnanarayana B. Epoch prediction residual for identification of closed glottis intervalJ. IEEE Transactions on Signal Processing,1979, 27(4):309-319. 23Cheng Y M, Shaughnessy D O. Automatic and reliable estimation of glottal closure

28、instant and periodJ. IEEE Transactions on Signal Processing, 1989,37(12):1805-1814. 24Deshmukh O, Singh J, Espy-Wilson C. A novel method for computation of periodicity,aperiodicity and pitch of speech signalsC. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004,1:117-120

29、. 25Kadambe S, Boudreaux-Bartels G Faye. Application of the wavelets transform for pitch detection of speech signalsJ. IEEE Transactions on Information Theory,1992,38(2):917-924. 26LI Jing, BAO Changchun.A pitch detector based on the dyadic wavelet transform and the autocorrelation functionC. Intern

30、ational Conference on Signal Processing, 2002,1:414-417. 27Yan Q, Vaseghi S, Rentzos D, etc. Analysis and Synthesis of Formant Spaces of British,Australian, and American AccentsJ. IEEE Transactions on Audio, Speech and Language Processing, 2007,15(2):676-689. 28WATANABE A. Formant estimation method

31、using inverse filter controlJ. IEEE Transactions on Speech and Audio Processing, 2001, 9 (4):317-326. 29RAO P, BARMAN A D. Speech formant frequency estimation:evaluating a nonstationary analysis methodJ. Signal Processing , 2000, 80(8):1655-1667. 30Maragos P, James F Kaiser, Thomas F Quatieri. On Am

32、plitude and Frequency Demodulation Using Energy OperatorsJ. IEEE Transactions on Signal Processing,1993, 41(4):1532-1550. 31Potamianos A, Maragos P. Speech formant frequency and bandwidth tracking using multiband energy demodulationC.International Conference on Acoustics, Speech, and Signal Processi

33、ng, 1995.784-787. 32Maragos P, Kaiser J F, Quatieri T F. Energy Separation in Signal Modulations with Application to Speech AnalysisJ. IEEE Transactions on Signal Processing, 1993,41(2):3024-3051. 33Hui Fang Chen. Heart Rate Variability Analysis of Orthostatic Fainting in Spinal Cord Injury Treatment by Hilbert Huang TransformD.Master Degree Thesis.Singapore:National University of Singapore, 2004. 34Weng Binwei, Blanco-Velasco Manuel, Barner Kenneth E. ECG Denoising Based on IEEE on Engi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论