第四讲语音信号处理第3.5~3.6章

上传人：9*** IP属地：湖北上传时间：2021-07-12 格式：PPT 页数：70 大小：1.36MB 积分：30 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、3.13.1概述概述 3.23.2语音信号的数字化和预处理语音信号的数字化和预处理 3.33.3语音信号的时域分析语音信号的时域分析 3.43.4语音信号的频域分析语音信号的频域分析 3.53.5语音信号的倒谱分析语音信号的倒谱分析 3.63.6语音信号的线性预测分析语音信号的线性预测分析 * *3.7 3.7 语音信号的小波分析语音信号的小波分析 3.8 3.8 基音周期估计基音周期估计 3.93.9共振峰估计共振峰估计 3.53.5语音信号的倒谱分析语音信号的倒谱分析 3.63.6语音信号的线性预测分析语音信号的线性预测分析回顾回顾 v语音信号的语音信号的时域分析时域分析就是分析和提取语

2、音信号的时域参数。就是分析和提取语音信号的时域参数。进行语音分析时，最先接触到并且也是最直观的是它的时域进行语音分析时，最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号，因而时域分析是最早使波形。语音信号本身就是时域信号，因而时域分析是最早使用，也是应用最广泛的一种分析方法，这种方法直接利用语用，也是应用最广泛的一种分析方法，这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及音信号的时域波形。时域分析通常用于最基本的参数分析及应用，如语音的分割、预处理、大分类等。这种分析方法的应用，如语音的分割、预处理、大分类等。这种分析方法的特点是：特点是：

3、表示语音信号比较直观、物理意义明确。表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。实现起来比较简单、运算量少。可以得到语音的一些重要的参数。可以得到语音的一些重要的参数。只使用示波器等通用设备，使用较为简单等。只使用示波器等通用设备，使用较为简单等。短时能量短时能量过零率过零率短时平均幅度差短时平均幅度差短时能量及短时平均幅度分析短时能量及短时平均幅度分析 v 如图如图3-23-2所示，设语音波形时域信号为所示，设语音波形时域信号为x(t)x(t)、加窗分帧处理、加窗分帧处理后得到的第后得到的第n n帧语音信号为帧语音信号为x xn n(m),(m),则则x

4、 xn n(m)(m)满足下式：满足下式： x xn n(m)=(m)x(n+m)(m)=(m)x(n+m) v其中，其中，n=0,1T,2T,n=0,1T,2T,并且并且N N为帧长，为帧长，T T为帧移长度。为帧移长度。 v设第设第n n帧语音信号帧语音信号x xn n(m)(m)的的短时能量短时能量用用E En n表示，则其计算公式表示，则其计算公式如下：如下：其它值m Nm m , 0 ) 1(0, 1 )( 1 0 2 )( N m nn mxE 短时过零率分析由定义可以看出，短时过零率对噪音噪音的存在非常敏感敏感，如果背景中有反复穿越坐标轴的随机噪声，那么会产生大量的 “虚

5、假”的过零，影响计算结果。门限过零率为了提高过零率计算的鲁棒鲁棒性性（Robustness），除了对原始信号进行带通滤波，一种有效的方法是修正过零率的定义，加入门限门限的定义如图所示。 6.门限过零率设一个门限值T，将过零的定义修正为穿越正负门限穿越正负门限，带门限的过零率计算公式为这样噪音信号的振荡只要不超过门限间的区域，就不会对真实的过零率产生影响。一般说来，短时过零率的最主要用处是分辨清音清音和浊音浊音、有声有声与无无声声。 1 0 1 sgn( )sgn(1)sgn( )sgn(1) 2 N nnnnn m Zx mTx mTx mTx mT 7.端点检测背

6、景背景噪音噪音辅音辅音元音元音如何区分？能量？过零率？语音语音“三三”的波形图的波形图背景背景噪音噪音辅音辅音 7.端点检测如何区分？能量？过零率？短时平均幅度差函数短时平均幅度差函数 v对于实际的语音信号，对于实际的语音信号，d(n)d(n)虽不为零，但其值很小。这些极虽不为零，但其值很小。这些极小值将出现在整数倍周期的位置上。为此，可定义小值将出现在整数倍周期的位置上。为此，可定义短时平均短时平均幅度差函数幅度差函数： v可以证明平均幅度差函数和自相关函数有密切的关系，两者可以证明平均幅度差函数和自相关函数有密切的关系，两者之间的关系可由下式表达：之间的关系可由下

7、式表达： kN m nnn kmxmxkF 1 0 )()()( 2/1 )()0()(2)(kRRkkF nnn 3.4 3.4 语音信号的频域分析语音信号的频域分析 v从广义上讲，语音信号的频域分析包括语音信号的频谱、功从广义上讲，语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等，常用的频域分析方法有率谱、倒频谱、频谱包络分析等，常用的频域分析方法有带通滤波器组法带通滤波器组法傅里叶变换法傅里叶变换法线性预测法线性预测法 v本节介绍本节介绍傅里叶分析法傅里叶分析法。因为语音波是一个非平稳过程，因。因为语音波是一个非平稳过程，因此适用于周期、瞬变或平稳随机信号的

8、标准傅里叶变换不能此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号，而应该用短时傅里叶变换对语音信用来直接表示语音信号，而应该用短时傅里叶变换对语音信号的频谱进行分析，相应的频谱称为号的频谱进行分析，相应的频谱称为“短时谱短时谱”。利用语音的短时傅里叶变换求语音的短时谱利用语音的短时傅里叶变换求语音的短时谱 v对第对第n n帧语音信号帧语音信号x xn n(m)(m)进行傅里叶变换进行傅里叶变换( (离散时域傅里叶变离散时域傅里叶变换，换，DTFT)DTFT)，可得到，可得到短时傅里叶变换短时傅里叶变换，其定义如下：，其定义如下： v由定义可知，短时傅里叶变换实

9、际就是窗选语音信号的标准由定义可知，短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里，窗傅里叶变换。这里，窗(n)(n)是一个是一个“滑动的滑动的”窗口，它随窗口，它随n n 的变化而沿着序列的变化而沿着序列x(m)x(m)滑动。由于窗口是有限长度的，满足滑动。由于窗口是有限长度的，满足绝对可和条件，所以这个变换是存在的。当然窗口函数不同，绝对可和条件，所以这个变换是存在的。当然窗口函数不同，傅里叶变换的结果也将不同。傅里叶变换的结果也将不同。 1 0 )()( N m mj n j n emxeX v我们还可以将式我们还可以将式(3-27)(3-27)写成另一种形式。设语音信号

10、序列和写成另一种形式。设语音信号序列和窗口序列的标准傅里叶变换均存在。当窗口序列的标准傅里叶变换均存在。当n n取固定值时，取固定值时，(n-(n- m)m)的傅里叶变换为：的傅里叶变换为： v根据卷积定理有根据卷积定理有： v因为上式右边两个卷积项均为关于角频率因为上式右边两个卷积项均为关于角频率的以的以22为周期为周期的连续函数，所以也可将其写成以下的卷积积分形式：的连续函数，所以也可将其写成以下的卷积积分形式： v即，假设即，假设x(m)x(m)的的DTFTDTFT是是X(eX(ej j) )，，且且(m)(m)的的DTFTDTFT是是X(eX(ej j) )，，那么那么X X

11、n n(e(ej j））是是X(eX(ej j) )和和W(eW(ej j) )的周期卷积。的周期卷积。 )()( jmj m mj eWeemn )()()( jnjjj n eWeeXeX deXeeWeX jjnjj n )()( 2 1 )( )( v功率谱：根据功率谱定义，可以写出短时功率谱与短时傅里功率谱：根据功率谱定义，可以写出短时功率谱与短时傅里叶变换之间的关系：叶变换之间的关系： v或者或者： v功率谱功率谱S Sn n(e(ej j) )是是短时自相关函数短时自相关函数R Rn n(k)(k)的傅里叶变的傅里叶变换。换。 2 * )()()()( j n j n

12、 j n j n eXeXeXeS 2 * )()()()(kXkXkXkS nnnn 1 1 2 )()()( N Nk kj n j n j n ekReXeS 3.5 3.5 语音信号的倒谱分析语音信号的倒谱分析 v语音信号的语音信号的倒谱倒谱分析就是求取语音倒谱特征参数的分析就是求取语音倒谱特征参数的过程，它可以通过同态处理来实现。过程，它可以通过同态处理来实现。 v同态信号处理也称为同态滤波，同态信号处理也称为同态滤波，它实现了将卷积关它实现了将卷积关系变换为求和关系的分离处理，即解卷。系变换为求和关系的分离处理，即解卷。 v对语音信号进行解卷，可将语音信号的声门激励信对语音信号

13、进行解卷，可将语音信号的声门激励信息及声道响应信息分离开来，从而求得声道共振特息及声道响应信息分离开来，从而求得声道共振特征和基音周期，用于语音编码、合成、识别等。征和基音周期，用于语音编码、合成、识别等。 v求倒谱特征参数的方法有两种，一种是线性预测分求倒谱特征参数的方法有两种，一种是线性预测分析，一种是同态分析处理。析，一种是同态分析处理。同态信号处理的基本原理同态信号处理的基本原理 v我们日常生活中遇到的许多信号，它们并不是加性我们日常生活中遇到的许多信号，它们并不是加性信号信号( (即组成各分量按加法原则组合起来即组成各分量按加法原则组合起来) )而是乘积而是乘积性信号或卷

14、积性信号，如语音信号、图像信号、通性信号或卷积性信号，如语音信号、图像信号、通信中的衰落信号、调制信号等。这些信号要用非线信中的衰落信号、调制信号等。这些信号要用非线性系统来处理。性系统来处理。 v同态信号处理同态信号处理就是将非线性问题转化为线性问题的就是将非线性问题转化为线性问题的处理方法。按被处理的信号来分类，大体分为乘积处理方法。按被处理的信号来分类，大体分为乘积同态处理和卷积同态处理两种。同态处理和卷积同态处理两种。由于语音信号可视由于语音信号可视为声门激励信号和声道冲击响应的卷积，所以这里为声门激励信号和声道冲击响应的卷积，所以这里仅讨论卷积同态信号处理。仅讨论卷积同态

15、信号处理。同态信号处理的基本原理同态信号处理的基本原理 v卷积同态系统的模型（图卷积同态系统的模型（图3-9a3-9a），该系统的输人卷积信号经），该系统的输人卷积信号经过系统变换后的输出是一个处理过的卷积信号。过系统变换后的输出是一个处理过的卷积信号。 v同态系统可分解为三个子系统，如图同态系统可分解为三个子系统，如图3-9b3-9b所示，即两个特征所示，即两个特征子系统子系统( (它们只取决于信号的组合规则它们只取决于信号的组合规则) )和一个线性子系统和一个线性子系统 ( (它仅取决于处理的要求它仅取决于处理的要求) )。 v第一个子系统，如图第一个子系统，如图3-9c3-9c所示

16、，它完成将卷积性信号转化为所示，它完成将卷积性信号转化为加性信号的运算；第二个子系统是一个普通线性系统，满足加性信号的运算；第二个子系统是一个普通线性系统，满足线性叠加原理，用于对加性信号进行线性变换；第三个子系线性叠加原理，用于对加性信号进行线性变换；第三个子系统是第一个子系统的逆变换，它将加性信号反变换为卷积性统是第一个子系统的逆变换，它将加性信号反变换为卷积性信号，如图信号，如图3-10d3-10d所示。所示。同态信号处理的基本原理同态信号处理的基本原理同态信号处理的基本原理同态信号处理的基本原理 v第一个子系统第一个子系统D D* * 完成将卷积性信号转化为加性信号的完成将

17、卷积性信号转化为加性信号的运算，即对于信号运算，即对于信号x(n)=xx(n)=xl l(n)(n)* *x x2 2(n)(n)进行了如下运算处理：进行了如下运算处理： )()()()() 1 ( 21 zXzXzXnxZ )( )( )( )(ln)(ln)(ln)2( 2121 zXzXzXzXzXzX ) ( )()()( )( )( )3( 2121 11 nxnxnxzXzXZzXZ 同态信号处理的基本原理同态信号处理的基本原理 v由于由于x x (n)(n)为加性信号，所以第二个子系统可对其进行需要为加性信号，所以第二个子系统可对其进行需要的线性处理得到的线性处理得到y y

18、(n)(n)。第三个子系统是逆特征系统。第三个子系统是逆特征系统D D* *-1 -1 ，它对它对y y (n)=(n)= y y1 1 (n)+y(n)+y2 2 (n)(n)进行逆变换，使其恢复为卷积性进行逆变换，使其恢复为卷积性 v信号，即进行了如下处理：信号，即进行了如下处理： v从而得到卷积性的恢复信号。从而得到卷积性的恢复信号。 )( )( )( ) ( ) 1 ( 21 zYzYzYnyZ )()()()( exp)2( 21 zYzYzYzY )(*)()()()()3( 2121 1 nynyzYzYZny 复倒谱和倒谱复倒谱和倒谱 v虽然虽然D D* * 与与D D* *

19、-1 -1 系统中的系统中的x x (n)(n)和和y y (n)(n)信号也信号也均是时域序列，但它们所处的离散时域显然不同于均是时域序列，但它们所处的离散时域显然不同于 x(n)x(n)和和y(n)y(n)所处的离散时域，所以我们把它称之为所处的离散时域，所以我们把它称之为 “复倒频谱域复倒频谱域”。 x x (n)(n)是是x(n)x(n)的的“复倒频谱复倒频谱”，简称为简称为“复倒谱复倒谱”，有时也称作对数复倒谱。其英，有时也称作对数复倒谱。其英文原文为文原文为“Complex Cepstrum”Complex Cepstrum”，CepstrumCepstrum是一个是一个新

20、造的英文词，它是由新造的英文词，它是由SpectrumSpectrum这个词的前四个字这个词的前四个字母倒置而构成的。同样，序列母倒置而构成的。同样，序列y y (n)(n)也是也是y(n)y(n)的复倒的复倒谱。谱。复倒谱和倒谱复倒谱和倒谱 v在绝大多数数字信号处理中，在绝大多数数字信号处理中，X(z)X(z)，X X (z)(z)，Y(z)Y(z)，Y Y (z)(z)的的收敛域均包含单位圆，因而收敛域均包含单位圆，因而D D* * 与与D D* *-1 -1 系统有如下形系统有如下形式：式： vD D* * = = vD D* *-1 -1 = = )()( j n eXxF

21、)(ln)( jj eXeX )( ) ( 1j eXFnx )()( nyFeY j )( exp)( jj eYeY )()( 1j eYFny v设设: : v则取其对数得则取其对数得: : v即复数的对数仍是复数，它包含实部和虚部。注意，这时对即复数的对数仍是复数，它包含实部和虚部。注意，这时对数的虚部数的虚部argX(eargX(ej j) )由于是由于是X(eX(ej j) )的相位的相位, ,所以将产生不一所以将产生不一致性。如果，我们只考虑致性。如果，我们只考虑X X (e(ej j) )的实部，令：的实部，令： v显然显然c(n)c(n)是序列是序列x(n)x(n)对

22、数幅度谱的傅里叶逆变换。对数幅度谱的傅里叶逆变换。c(n)c(n)称为称为 “倒频谱倒频谱”或简称为或简称为“倒谱倒谱”，有时也称，有时也称“对数倒频谱对数倒频谱”。倒谱对应的量纲是倒谱对应的量纲是“Quefrency”Quefrency”，它也是一个新造的英文，它也是一个新造的英文词，是由词，是由“Frequency”Frequency”转变而来的，因此也称为转变而来的，因此也称为“倒频倒频”，它的量纲是时间。它的量纲是时间。c(n)c(n)实际上就是我们要求取的语音信号倒实际上就是我们要求取的语音信号倒谱特征。谱特征。 )(arg)(ln)( jjj eXjeXeX )(arg )

23、()( j eXjjj eeXeX )(ln)( 1j eXFnc v下面我们根据上面的讨论来分析一下下面我们根据上面的讨论来分析一下复倒谱和倒谱特点和关复倒谱和倒谱特点和关系系。 v(1)(1)复倒谱要进行复对数运算，而倒谱只进行实对数运算。复倒谱要进行复对数运算，而倒谱只进行实对数运算。 v(2)(2)在倒谱情况下一个序列经过正逆两个特征系统变换后，在倒谱情况下一个序列经过正逆两个特征系统变换后，不能还原成自身，因为在计算倒谱的过程中将序列的相位信不能还原成自身，因为在计算倒谱的过程中将序列的相位信息丢失了。息丢失了。 v(3)(3)与复倒谱类似，如果与复倒谱类似，如果c c1 1(

24、n)(n)和和c c2 2(n)(n)分别是分别是x x1 1(n)(n)和和x x2 2(n)(n)的的倒谱，并且倒谱，并且x(n)= xx(n)= x1 1(n)(n)* *x x2 2(n)(n)，则，则x(n)x(n)的倒谱的倒谱c(n)= c(n)= c c1 1(n)+c(n)+c2 2(n) (n) 。 v(4)(4)已知一个实数序列已知一个实数序列x(n)x(n)的复倒谱的复倒谱x x (n)(n)，可以由，可以由x x (n)(n)求出求出它的倒谱它的倒谱c(n)c(n)。 v(5)(5)已知一个实数序列已知一个实数序列x(n)x(n)的倒谱的倒谱c(n)c(n)，能否用

25、它来求出复，能否用它来求出复倒谱倒谱x x (n)?(n)? 语音信号倒谱分析实例语音信号倒谱分析实例 1 1由同态分析求出的语音信号倒谱实例由同态分析求出的语音信号倒谱实例 v一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换换( (即设相位恒定为零即设相位恒定为零) )。设信号为。设信号为s(n)s(n)，则其倒谱为：则其倒谱为： v根据语音信号产生模型，语音信号根据语音信号产生模型，语音信号s(n)s(n)是由声门脉冲激励是由声门脉冲激励 e(n)e(n)经声道响应经声道响应v(n)v(n)滤波而得到，即：滤波而得到，即： v设

26、三者的倒谱分别为设三者的倒谱分别为s s (n)(n)、e e (n)(n)及及v v (n)(n)，则有：，则有： )(ln) ( nsDFTIDFTns )(*)()(nvnens ) ( ) ( ) ( nvnens 语音信号倒谱分析实例语音信号倒谱分析实例语音信号倒谱分析实例语音信号倒谱分析实例 2 2MELMEL频率倒谱参数（频率倒谱参数（MFCCMFCC） v与普通实际频率倒谱分析不同，与普通实际频率倒谱分析不同，MFCCMFCC（Mel-Frequency Mel-Frequency Cepstral CoefficentsCepstral Coefficents，简称，简称M

27、FCCMFCC）的分析着眼于人耳的听的分析着眼于人耳的听觉特性，因为，人耳所听到的声音的高低与声音的频率并不觉特性，因为，人耳所听到的声音的高低与声音的频率并不成线性正比关系，而用成线性正比关系，而用MelMel频率尺度则更符合人耳的听觉特频率尺度则更符合人耳的听觉特性。所谓性。所谓MelMel频率尺度，它的值大体上对应于实际频率的对频率尺度，它的值大体上对应于实际频率的对数分布关系。数分布关系。MelMel频率与实际频率的具体关系可用式（频率与实际频率的具体关系可用式（3-893-89）表示：表示： v这里，实际频率的单位是这里，实际频率的单位是HzHz。 )700/1lg(259

28、5)(ffMel 人的听觉感知过程人的听觉感知过程外耳：中耳：内耳：声音在听觉器官中的传递过程：耳廓外耳道鼓膜耳蜗听小骨 1.人的听觉特性之一人的听觉对频率是有选择性的虽然语音信号的大部分功率包含在低频分量中,但是它们对清晰度的贡献并不大人耳听到声音的高低与声音频率声音频率不成线性关系，而是与该声音频声音频率的率的对数对数近似成线性正比关系人的听觉对信号的幅度是有选择性的.语音信号的大部分信息都保留在其低幅值的部分,高幅值的部分作用不大人耳的听觉特性之二人耳的听觉特性之二人类并不能有效地分辨所有的频率分量分辨所有的频率分量。只有当两个频率分量相差一定带宽

29、时，人类才能将其区分，否则人就会把两个音调听成一个，这称为屏蔽效应，这个带宽被称为临界带宽临界带宽(Critical Bandwidth) ，其计算公式如下：当中心频率在1000Hz以下时，临界带宽基本恒定，约为100Hz。当中心频率超过1000Hz时，随中心频率的增长，临界带宽呈指指数数增长。 2 0.69 25751 1.4(/1000) ccc BWff其中为中心频率人耳的听觉特性之三人耳的听觉特性之三基于以上两点考虑，我们构造（1）Mel频率尺度；人耳感知的对数关系（2）Mel滤波器组，屏蔽效应来模仿人耳的感知特性。这组滤波器需要满足：（1）中心频率在Mel频率

30、域内呈线性分布；（2）每一个滤波器的带宽在其临界带宽之内。梅尔频率倒谱系数梅尔频率倒谱系数人的听觉系统人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的。在语音特征的提取上，人类听觉系统人类听觉系统做得非常好，它不仅能提取出语义信息, 而且能提取出说话人的个人特征，这些都是现有的语现有的语音识别系统音识别系统所望尘莫及的。如果在语音识别系统中能模拟人类听觉感知处理特点，就有可能提高语音的识别率。 MFCC 考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。 MFCC参数具有良好的识别性能和抗噪能力 v使用的最

31、广泛的特征之一 v考虑了人耳的听觉生理特征 v在语音识别中，相比于LPC系数、PARCOR系数，MFCC有更强的鲁棒性和可靠性 MFCC的应用的应用 MFCC 的定义 m mj m j eceS log 2 1 )0 2 )( 1 )( 1 )( limlim N n nj N j N enx N eX N S MFCC的计算方法 vFFT vLPC变换法 MFCC 参数提取流程图如下： (1) 语音信号经过预加重、加窗分帧处理后变为短时信号，将时域信号做离散傅里叶变换。 ( 2) 求出频谱平方，即能量谱，并通过Mel频率滤波器组滤波处理，得到一组系数， MFCC 参数语音信号预加

32、重加窗分帧 FFT Mel 滤波器组 Log 对数能量 DCT求倒谱通过对数能量的处理得到对数频谱。 (3) 将上述对数频谱经过离散余弦变换( DCT) 得到N 个Mel 频率倒谱系数。MFCC 系数为：求求MFCC流程流程输入语音输入语音预加重、分帧和加窗预加重、分帧和加窗 FFT (Fast Fourier transform) 取绝对值或平方值取绝对值或平方值 Mel滤波滤波取对数取对数 DCT (Discrete cosine transform) 输出特征向量输出特征向量动态特征动态特征(Delta MFCC) 原始语音信号经过预加重、分帧和加窗处理后，需要将时域信

33、号变换到频域。常用的变换方法为 “傅立叶变换(DFT)”或者其快速算法“快速傅里叶变换(FFT)” 1 2/ 0 ( )( )(0,1) N jnk N n X kx n en kN 在实际应用中，常常通过FFT（蝶形算法）进行时域到频域的变换求MFCC-FFT 将上述线性频谱利用Mel滤波器组进行Mel滤波 Mel滤波器组则有线性频谱到对数频谱的中传递函数为： 2 1 ( )|( )|( )(1) N m k S mX kHkmM 求MFCC：Mel滤波取对数：对三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果。倒谱(cepstrum)：一种信号的傅里叶变换经对数运

34、算后再进行傅里叶反变换得到的谱。倒谱的计算过程： DFTln|逆DFT 时域信号信号频谱对数谱倒谱 )()()( 21 nxnxnx 12 ( )( )( )c nx nx n 取对数取对数求MFCC 由于各个滤波器组输出的幅度或能量之间具有很强的相关性，因此有必要有必要去除各维信号之间的相关性，并将信号映射到低维空间。（如HMM中，假设各维特征独立，以使用对角协方差矩阵，从而减小计算量）在MFCC中，对滤波器组的输出使用了离散余弦变换（DCT）来去除相关性并获得倒谱系数c(n)： 1 (0.5) ( )( )cos(0,1,2,) M m n m c nS mnp M 当n

35、=0时，c(0)为第0阶MFCC，反应频谱能量 DCT (Discrete cosine transform) 求MFCC 2 0 1 1 1 1 ln ,1 , m mmkm k k m mkm k k c k cac amp m k cc amp m 参数转换公式 MFCC-LPC转换法(了解) 普通话发音“三” 的波形图和MFCC MFCC 样例 - 18.1 0 5.303.722.111.730.25-0.11 - 0.00 2 0.06 7 -19.35.283.492.142.130.390.05 - 0.17 5 0.07 0 - 19.4 5 5.623.572.061.94

36、0.100.12 0.14 4 0.10 0 - 19.8 2 4.613.202.201.84-0.070.08 0.24 3 0.11 4 - 20.1 4 3.212.211.631.940.320.28 0.69 8 0.69 5 3.6 3.6 语音信号的线性预测分析语音信号的线性预测分析 v线性预测分析线性预测分析的的基本思想基本思想是：由于语音样点之间存是：由于语音样点之间存在相关性，所以可以用过去的样点值来预测现在或在相关性，所以可以用过去的样点值来预测现在或未来的样点值，即一未来的样点值，即一个语音的抽样能够用过去若干个语音的抽样能够用过去若干个语音抽样或它们的线性组合

37、来逼近个语音抽样或它们的线性组合来逼近。 v 通过使实际语音抽样和线性预测抽样之间的通过使实际语音抽样和线性预测抽样之间的误差误差在某个准则下达到在某个准则下达到最小值最小值来决定唯一的一组预测系来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性，可数。而这组预测系数就反映了语音信号的特性，可以作为语音信号特征参数用于语音识别、语音合成以作为语音信号特征参数用于语音识别、语音合成等。等。线性预分析的基本原理线性预分析的基本原理 v线性预测分析线性预测分析的的基本思想基本思想是：用过去是：用过去p p个样点值来预测现在个样点值来预测现在或未来的样点值：或未来的样点值： v

38、预测误差预测误差(n)(n)为：为： v这样就可以通过在某个准则下使预测误差这样就可以通过在某个准则下使预测误差(n)(n)达到最小值达到最小值的方法来决定惟一的一组线性预测系数的方法来决定惟一的一组线性预测系数a ai i（i=1i=1，2 2， p p）。）。 p i i insans 1 )() ( p i i insansnsnsn 1 )()() ( )()( 线性预测分析的基本原理线性预测分析的基本原理 v这里，系统的输入这里，系统的输入e(n)e(n)是语音激励是语音激励，s(n)s(n)是输出语音是输出语音，模型模型的系统函数的系统函数H(z)H(z)可以写成有理分式的形式

39、：可以写成有理分式的形式： v采用全极点模型，辐射、声道以及声门激励的组合谱效应的采用全极点模型，辐射、声道以及声门激励的组合谱效应的传输函数为：传输函数为： p i i i q l l l za zb GzH 1 1 1 1 )( )( 1 )( )( )( 1 zA G za G zE zS zH p i i i v在模型参数估计程中，把如下系统称为在模型参数估计程中，把如下系统称为线性预测器线性预测器： v式中式中a ai i称为线性预测系数称为线性预测系数。从而，。从而，p p阶线性预测器的系统函阶线性预测器的系统函数具有如下形式：数具有如下形式： v预测误差为：预测误差为： v线

40、性预测分析线性预测分析要解决的问题要解决的问题是：给定语音序列是：给定语音序列( (显然，鉴于显然，鉴于语音信号的时变特性，语音信号的时变特性，LPCLPC分析必须按帧进行分析必须按帧进行) )，使预测误差，使预测误差在某个准则下最小，求预测系数的最佳估值在某个准则下最小，求预测系数的最佳估值a ai i，这个准则通这个准则通常采用常采用最小均方误差准则最小均方误差准则。 p i i insans 1 )() ( p i i iz azP 1 )( )()()()( 1 nGeinsansn p i i v下面推导线性预测方程。把某一帧内的下面推导线性预测方程。把某一帧内的短时平均预测误

41、差短时平均预测误差定定义为：义为： v为使为使EE2 2(n)(n)最小，对最小，对a aj j求偏导，并令其为零，有：求偏导，并令其为零，有： v上式表明采用最佳预测系数时，预测误差上式表明采用最佳预测系数时，预测误差(n)(n)与过去的语与过去的语音样点音样点正交正交。由于语音信号的短时平稳性，要分帧处理。由于语音信号的短时平稳性，要分帧处理(10-(10- 30ms),30ms),对于一帧从对于一帧从n n时刻开窗选取的时刻开窗选取的N N个样点的语音段个样点的语音段S Sn n，记记 n n(j,i)(j,i)为为 v则有：则有： 2 1 2 )()()( p i i insans

42、EnE pjjija n p i ni ,.,1),0 ,(),( 1 pjjnsinsansE p i i ,.,1,0)( )()( 1 )()(),(imsjmsEij nnn LPC求解-线性方程组求解 v线性预测方程组线性预测方程组的求解方法有：自相关法协方差法格型法线性预测方程组的求解（线性预测方程组的求解（自相关法自相关法） v对于语音段对于语音段S Sn n，它的自相关函数为：它的自相关函数为： v因此，可以定义因此，可以定义n n(j,i)(j,i)为为 v因此有：因此有： pjjnsnsjR N jn n ,.,1, )()()( 1 |)(|)()(),( |1

43、0 jiRjnsnsij n jiN m nnn )(|)(| 1 jRjiRa n p i ni 线性预测方程组的求解线性预测方程组的求解 v把上式展开写成矩阵形式：把上式展开写成矩阵形式： v这种方程叫这种方程叫Yule-WalkerYule-Walker方程方程，方程左边的矩阵称为，方程左边的矩阵称为托普利托普利兹兹(Toeplitz)(Toeplitz)矩阵矩阵，它是以主对角线对称的、而且其沿着主，它是以主对角线对称的、而且其沿着主对角线平行方向的各轴向的元素值都相等。这种对角线平行方向的各轴向的元素值都相等。这种Yule-Yule- WalkerWalker方程可用方程可用莱文逊

44、莱文逊- -杜宾杜宾(LevinsonDurbin)(LevinsonDurbin)递推算法递推算法来高效地求解。下面介绍来高效地求解。下面介绍DurbinDurbin快速递推算法。快速递推算法。 )( )2( ) 1 ( )0()2() 1( )2()0() 1 ( ) 1() 1 ()0( 2 1 pR R R a a a RpRpR pRRR pRRR n n n p nnn nnn nnn 线性预测方程组的求解（线性预测方程组的求解（推导过程见教材推导过程见教材P56-58P56-58） v完整的递推过程为：完整的递推过程为： if ip go to (1) if ip go to

45、(1) )0() 1 ( 0 nn RE 1 1 1 /)()()2( i j ji nn i jni EjiRaiRk i i i ka )3( 11 ,)4( 11 ijakaa i jii i j i j 12 )1 ()5( i ni i n EkE pjaa p jj 1 ,)6( 原始语音原始语音采样点个数：7064 一一分帧分帧帧长：30ms（480个采样点）帧移：15ms（240个采样点）分帧结果：48028帧二二对每一帧提取对每一帧提取12阶阶LPC 提取结果：1228帧提取LPC-Matlab 普通话发音“三” 时长：441 ms 采样率：16k Hz 降维

46、降维语音波形 LPC 系数 5.LPC特征案例 v在本次实验中分别对h u t ao 这四个提取LPC特征 v采样率为16000Hz,单声道. v帧长为32ms,帧移为16ms v使用自相关法求解LPC特征 5.LPC特征提取-h LPC系数为: -0.8202 -0.4106 0.0765 -0.4185 0.3262 0.2405 0.2874 0.1080 -0.4481 0.3147 -0.1685 -0.0854 h的波形 5.LPC特征提取-u LPC系数为: -2.0420 1.4623 -0.4832 -0.3253 0.5238 -0.0108 - 0.0508 0.0

47、054 -0.1332 0.1888 -0.1692 0.0549 u的波形 5.LPC特征提取-t LPC系数为:-1.0772 0.5986 -0.2074 -0.1201 -0.2620 0.1746 0.1952 -0.3134 0.1175 0.1708 -0.2086 -0.0512 t的波形 5.LPC特征提取-ao LPC系数为: -2.0912 1.9318 -1.3574 0.7663 -0.2111 -0.1302 0.4606 -0.3900 0.2447 -0.2715 0.1442 -0.0027 ao的波形 LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱 1

48、.LPC1.LPC谱估计谱估计 v当求出一组预测器系数后，就可以得到语音产生模型的频率当求出一组预测器系数后，就可以得到语音产生模型的频率响应，即：响应，即： v因此因此在共振峰频率上其频率响应特性会出现峰值在共振峰频率上其频率响应特性会出现峰值。所以线性。所以线性预测分析法又可以看做是一种短时谱估计法。其频率响应预测分析法又可以看做是一种短时谱估计法。其频率响应 H(eH(ej j) )即称为即称为LPCLPC谱谱。 )( 1 )( 01 jp i ij i p i ij i j eA G ea G ea G eH LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱 1.LPC1.L

49、PC谱估计谱估计 vLPCLPC谱估计具有一个特点：在信号能量较大的区域即接近谱谱估计具有一个特点：在信号能量较大的区域即接近谱的峰值处，的峰值处，LPCLPC谱和信号谱很接近；而在信号能量较低的区谱和信号谱很接近；而在信号能量较低的区域即接近谱的谷底处，则相差比较大。这个特点域即接近谱的谷底处，则相差比较大。这个特点对于呈现谐对于呈现谐波结构的浊音语音谱来说，就是在谐波成分处波结构的浊音语音谱来说，就是在谐波成分处LPCLPC谱匹配信谱匹配信号谱的效果要远比谐波之间好得多号谱的效果要远比谐波之间好得多。LPCLPC谱估计的这一特点谱估计的这一特点实际上来自均方误差最小准则。实际上来

50、自均方误差最小准则。 v从以上讨论我们知道如果从以上讨论我们知道如果p p选得很大，可以使选得很大，可以使|H(e|H(ej j)| )|精确精确地匹配于地匹配于|S(e|S(ej j)| )|，而且极零模型也可以用全极点模型来代，而且极零模型也可以用全极点模型来代替，但却增加了计算量和存储量，且替，但却增加了计算量和存储量，且p p增加到一定程度以后，增加到一定程度以后，预测平方误差的改善就很不明显了，预测平方误差的改善就很不明显了，因此在语音信号处理中，因此在语音信号处理中， p p一般选在一般选在8 81414之间。之间。 LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱 2

51、2LPCLPC复倒谱复倒谱 vLPCLPC系数是线性预测分析的基本参数，可以把这些系数变换系数是线性预测分析的基本参数，可以把这些系数变换为其他参数，以得到语音的其他替代表示方法。为其他参数，以得到语音的其他替代表示方法。LPCLPC系数可系数可以表示整个以表示整个LPCLPC系统冲激响应的复倒谱。系统冲激响应的复倒谱。 v按上式求得的复倒谱按上式求得的复倒谱h h (n)(n)称之为称之为LPCLPC复倒谱。复倒谱。 0)0( h 1 ) 1 ( ah )( , )( )/1 ()( 1 pnknhanknh p k k )1 ( , )( )/1 ()( 1 1 pnknhankanh

52、 n k kn vLPCLPC复倒谱由于利用了线性预测中声道系统函数复倒谱由于利用了线性预测中声道系统函数H(z)H(z)的最小的最小相位特性，避免了相位卷绕问题；且相位特性，避免了相位卷绕问题；且LPCLPC复倒谱的运算量小，复倒谱的运算量小，它仅是用它仅是用FFTFFT求复倒谱时运算量的一半；又因为当求复倒谱时运算量的一半；又因为当p p时，时，语音信号的短时复频谱语音信号的短时复频谱S(eS(ej j) )满足满足|S(e|S(ej j)|= |H(e )|= |H(ej j)| )|，因，因而可以认为而可以认为h h (n)(n)包含了语音信号频谱包络信息，即可近似包含了语音

53、信号频谱包络信息，即可近似把把h h (n)(n)当作当作s(n)s(n)的短时复倒谱的短时复倒谱s s (n)(n)，来分别估计出语音短，来分别估计出语音短时谱包络和声门激励参数。在实时语音识别中也经常采用时谱包络和声门激励参数。在实时语音识别中也经常采用 LPCLPC复倒谱作为特征矢量。复倒谱作为特征矢量。 v对以上所介绍的进行总结可知，为了估计语音信号的短时谱对以上所介绍的进行总结可知，为了估计语音信号的短时谱包络，有三种方法：由包络，有三种方法：由LPCLPC系数直接估计语音信号的谱包系数直接估计语音信号的谱包络；由络；由LPCLPC倒谱估计谱包络；求得复倒谱倒谱估计谱包络；求

54、得复倒谱s s (n)(n)，再用低，再用低时窗取出短时谱包络信息，这种方法称之为时窗取出短时谱包络信息，这种方法称之为FFTFFT倒谱。倒谱。 LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱 3 3LPCLPC美尔倒谱系数美尔倒谱系数(LPCCMCC)(LPCCMCC) v由式由式(3-143)(3-143)求得复倒谱求得复倒谱h h (n)(n)后，由后，由c(n)=1/2hc(n)=1/2h (n)+h(n)+h (-n)(-n) 即可求出倒谱即可求出倒谱c(n)c(n)。但是，这个倒谱。但是，这个倒谱c(n)c(n)是实际频率尺度的是实际频率尺度的倒谱系数倒谱系数( (称为称为LPCLPC倒谱系数：倒谱系数：LPCC)LPCC)。根据人的听觉特性可。根据人的听觉特性可以把上述的倒谱系数进一步按符合人的听觉特性的美尔以把上述的倒谱系数进一步按符合人的听觉特性的美尔(MEL)(MEL) 尺度进行非线性变换，从而求出如下所示的尺度进行非线性变换，从而求出如下所示的LPCLPC美尔

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四讲语音信号处理第3.5~3.6章

文档简介

温馨提示

最新文档

评论

第四讲 语音信号处理第3.5~3.6章

文档简介

温馨提示

最新文档

评论

相关文档

第四讲语音信号处理第3.5~3.6章