




免费预览已结束,剩余71页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
3.1概述,语音信号分析分析出可表示语音信号特征参数进行高效的语音通信、语音合成和语音识别的基础时域特征频率特征短时分析技术:贯穿于语音分析全过程语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个非平衡态过程,不能用处理平衡信号的数字信号处理技术对其进行分析处理。但是在一个短时间范围内(一般认为在10-30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。,3.1概述,分析方法:模型分析方法和非模型分析方法提取语音参数之前,一些经常使用的、共同的分析技术必须预先进行语音信号的数字化语音信号的端点检测预加重加窗和分帧,3.2语音信号的数字化和预处理,语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码)预处理一般包括预加重、加窗和分帧等。,预加重(Preemphasis)处理语音信号的平均功率谱受声门激励和口鼻辐射影响,800Hz以上按6dB/倍频程跌落目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析,预加重的频谱提升作用,预处理:分帧进行过预加重数字滤波处理后,接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但一般要采用如图3-2所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。帧移:前一帧和后一帧的非交叠部分。帧移与帧长的比值一般取为1/3-1/2,4.分帧方法,分帧虽然可以采取连续分段的方法,但一般要采用如图所示交叠分段的方法,这是为了使帧和帧之间平滑过度,保持其连续性。相邻两帧间的相对位移称为帧移.帧移和帧长的比值一般取为0.3-0.5.分帧是用可移动的有限长度窗口进行加权的方法实现的。,帧长与帧移的示例,帧长与帧移,预处理:加窗分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数(n)来乘s(n),加窗语音信号s(n)=s(n)*(n)。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中N为帧长):矩形窗:汉明窗:,预处理:窗口的形状不同的短时分析方法(时域、频域、倒频域分析)对窗函数的要求不尽一样选择窗的标准在时域要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的3dB带宽以及较小的边带最大值,Hammingwindow,原始语音,加窗语音,原始语音频谱,加窗语音频谱,矩形窗与汉明窗的比较,汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。,窗频谱响应,汉明窗的时域、频域的幅度响应特性,汉宁窗的时域、频域的幅度响应特性,预处理:窗口的长度采样周期Ts=1/fs,窗口长度N和频率分辨率f之间存在下列关系:f=1/NTs可见,采样周期一定时,f随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。,预处理:窗长有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含17个基音周期。然而不同人的基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为50070Hz),所以N的选择比较困难。通常在10kHz取样频率下,N折中选择为100200点为宜(即1020ms持续时间)。这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。,3.3语音信号的时域分析,语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。可以得到语音的一些重要的参数。只使用示波器等通用设备,使用较为简单等。,短时能量及短时平均幅度分析如图3-2所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:xn(m)=(m)x(n+m)其中,n=0,1T,2T,并且N为帧长,T为帧移长度。设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:,短时能量及短时平均幅度分析En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此,可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn,它定义为:Mn也是一帧语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。,短时过零率分析短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号xn(m)的短时过零率Zn为:式中,sgn是符号函数,即,短时过零率分析,由定义可以看出,短时过零率对噪音的存在非常敏感,如果背景中有反复穿越坐标轴的随机噪声,那么会产生大量的“虚假”的过零,影响计算结果。,门限过零率,为了提高过零率计算的鲁棒性(Robustness),除了对原始信号进行带通滤波,一种有效的方法是修正过零率的定义,加入门限的定义如图所示。,6.门限过零率,设一个门限值T,将过零的定义修正为穿越正负门限,带门限的过零率计算公式为,这样噪音信号的振荡只要不超过门限间的区域,就不会对真实的过零率产生影响。一般说来,短时过零率的最主要用处是分辨清音和浊音、有声与无声。,7.端点检测,背景噪音,辅音,元音,如何区分?能量?过零率?,语音“三”的波形图,背景噪音,辅音,7.端点检测,如何区分?能量?过零率?,短时相关分析相关分析是一种常用的时域波形分析方法,并有自相关和互相关之分。这里主要讨论自相关函数。自相关函数的性质:偶函数;假设序列具有周期性,则其自相关函数也是同周期的周期函数等。对浊音语音可以用自相关函数求出语音波形序列的基音周期。线性预测分析时用自相关函数求系数。和其他语音参数一样,在语音信号分析中,分析的是短时自相关函数。,1短时自相关函数定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:这里K是最大的延迟点数。短时自相关函数具有以下性质:(1)如果xn(m)是周期的(设周期为N),则自相关函数是同周期的周期函数,即Rn(k)=Rn(k+Np)。(2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。(3)当k=0时,自相关函数具有最大值,即Rn(0)|Rn(k)|,并且Rn(0)等于确定性信号序列的能量或随机性序列的平均功率。,2.修正的短时自相关函数,随着延迟k的增加,进行乘积和的项数在减少,导致自相关函数的幅度值随着延迟k的增加而下降不利于基频估计过大的N影响短时性,2.修正的短时自相关函数修正的短时自相关函数是用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数K。这样就能始终保持乘积和的项数不变,即始终为短窗的长度。修正的短时自相关函数定义为:其中,,2修正的短时自相关函数,图3-7修正短时自相关函数计算中窗口长度的说明,修正的短时自相关函数,严格意义不是自相关,而是互相关在周期信号的周期的倍数上有峰值,与R(0)最接近的第一个最大值点仍然代表了基音周期的位置,短时平均幅度差函数计算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅里叶变换(FFT)等简化计算方法都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量,即短时平均幅度差函数(AMDF)。平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号(设周期为Np),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。,短时平均幅度差函数对于实际的语音信号,d(n)虽不为零,但其值很小。这些极小值将出现在整数倍周期的位置上。为此,可定义短时平均幅度差函数:可以证明平均幅度差函数和自相关函数有密切的关系,两者之间的关系可由下式表达:,短时平均幅度差函数,图3-9AMDF的例子,3.4语音信号的频域分析,从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,常用的频域分析方法有带通滤波器组法傅里叶变换法线性预测法本节介绍傅里叶分析法。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。,利用语音的短时傅里叶变换求语音的短时谱,对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变换,DTFT),可得到短时傅里叶变换,其定义如下:,(3-27),短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换窗(n)是一个“滑动的”窗口窗长是有限的,满足绝对可和条件,变换是存在的。窗函数不同,傅里叶变换的结果也不同。,短时傅里叶变换的等效性,时宽、带宽积为常数窗形对STFT频谱的影响矩形窗:频率分辨率高(主瓣狭窄尖锐),第一旁瓣衰减较小汉明窗:在频率范围中的分辨率较高,且旁瓣的衰减大,具有频谱泄漏少的优点,窗对频谱的影响,加矩形窗,加汉明窗,式(3-27)可写成另一种形式。设语音信号序列和窗口序列的标准傅里叶变换均存在。当n取固定值时,(n-m)的傅里叶变换为:根据卷积定理有:上式右边两个卷积项均为关于角频率的以2为周期的连续函数,所以也可将其写成以下的卷积积分形式:即,假设x(m)的DTFT是X(ej),且(m)的DTFT是X(ej),那么Xn(ej)是X(ej)和W(ej)的周期卷积。,功率谱:根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系:或者:功率谱Sn(ej)是短时自相关函数Rn(k)的傅里叶变换。,临界带特征,求功率谱确定临界带划分计算临界带特征值构建临界带特征,临界带特征从人耳对频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征,3.5语音信号的倒谱分析,语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态处理来实现。同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成、识别等。求倒谱特征参数的方法有两种,一种是线性预测分析,一种是同态分析处理。,同态信号处理的基本原理大多数信号并不是加性信号(即组成各分量按加法原则组合起来)而是乘积性信号或卷积性信号,如语音信号、图像信号、通信中的衰落信号、调制信号等。这些信号要用非线性系统来处理。同态信号处理:将非线性问题转化为线性问题的处理方法。按被处理的信号来分类,大体分为乘积同态处理和卷积同态处理两种。语音信号可视为声门激励信号和声道冲击响应的卷积,仅讨论卷积同态信号处理。,同态信号处理的基本原理同态系统可分解为三个子系统,如图3-10b所示,即两个特征子系统(它们只取决于信号的组合规则)和一个线性子系统(它仅取决于处理的要求)。第一个子系统,如图3-10c所示,它完成将卷积性信号转化为加性信号的运算;第二个子系统是一个普通线性系统,满足线性叠加原理,用于对加性信号进行线性变换;第三个子系统是第一个子系统的逆变换,它将加性信号反变换为卷积性信号,如图3-10d所示。卷积同态系统:输人卷积信号经过系统变换后的输出是一个处理过的卷积信号。,同态信号处理的基本原理,图3-10卷积同态系统,同态信号处理的基本原理第一个子系统D*将卷积性信号转化为加性信号的运算,即对于信号x(n)=xl(n)*x2(n)进行了如下运算处理:,同态信号处理的基本原理x(n)为加性信号,第二个子系统可对其进行需要的线性处理得到y(n)。第三个子系统是逆特征系统D*-1,它对y(n)=y1(n)+y2(n)进行逆变换,使其恢复为卷积性信号,即进行了如下处理:从而得到卷积性的恢复信号。,复倒谱和倒谱虽然D*与D*-1系统中的x(n)和y(n)信号也均是时域序列,但它们所处的离散时域显然不同于x(n)和y(n)所处的离散时域,所以我们把它称之为“复倒频谱域”。x(n)是x(n)的“复倒频谱”,简称为“复倒谱”,有时也称作对数复倒谱。英文原文为“ComplexCepstrum”,Cepstrum是一个新造的英文词,它是由Spectrum这个词的前四个字母倒置而构成的。序列y(n)也是y(n)的复倒谱。,复倒谱和倒谱在绝大多数数字信号处理中,X(z),X(z),Y(z),Y(z)的收敛域均包含单位圆,因而D*与D*-1系统有如下形式:D*=D*-1=,设:取对数得:对数的虚部argX(ej)由于是X(ej)的相位,所以将产生不一致性。如果,我们只考虑X(ej)的实部,令:c(n)是序列x(n)对数幅度谱的傅里叶逆变换。c(n)称为“倒频谱”或简称为“倒谱”,有时也称“对数倒频谱”。倒谱对应的量纲是“Quefrency”,它也是一个新造的英文词,是由“Frequency”转变而来的,因此也称为“倒频”,它的量纲是时间。c(n)实际上就是我们要求取的语音信号倒谱特征。,复倒谱和倒谱特点和关系(1)复倒谱要进行复对数运算,而倒谱只进行实对数运算。(2)在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身,因为在计算倒谱的过程中将序列的相位信息丢失了。(3)与复倒谱类似,如果c1(n)和c2(n)分别是x1(n)和x2(n)的倒谱,并且x(n)=x1(n)*x2(n),则x(n)的倒谱c(n)=c1(n)+c2(n)。(4)已知一个实数序列x(n)的复倒谱x(n),可以由x(n)求出它的倒谱c(n)。(5)已知一个实数序列x(n)的倒谱c(n),只能在一定条件下才可用它来求出复倒谱x(n),语音信号两个卷积分量的复倒谱语音信号可看做是声门激励信号和声道冲激响应两信号的卷积,因此下面将分别讨论这两个信号的复倒谱的性质。,1.声门激励信号发清音时,声门激励是能量较小,频谱均匀分布的白噪声;发浊音时,声门激励是以基音为周期的冲激序列:其中,M、r均为正整数,且0rM,r为幅度因子,Np为用样点数表示的基音周期。一个有限长度的周期冲激序列,其复倒谱也是一个周期冲激序列,且周期不变,只是序列变为无限长序列。同时其振幅随着k的增大而衰减,衰减速度比原序列要快。把这种性质应用于语音信号分析中,就意味着除原点外,可以用“高时窗”从语音信号的频谱中提取浊音激励信号的倒谱,从而提取出基音信号。,2.声道冲激响应序列如果用最严格(也是最普遍的)极零点模型来描述声道响应x(n),则有:求对数可得:,2.声道冲激响应序列由此可得声道响应序列复倒谱的性质为:(1)x(n)是双边序列。(2)由于|ak|、|bk|、|ck|、|dk|均小于1,所以x(n)是衰减序列,即|x(n)|随|n|的增大而减小。(3)|x(n)|随|n|增大而衰减的速度至少比1/|n|快。(4)如果x(n)是最小相位序列(极零点均在z平面单位圆内),即bk=0、dk=0,则x(n)只在n0时有值,且由X(z)的表达示可知x(n)是稳定的,即x(n)为稳定因果序列。也就是说,最小相位信号序列的复倒谱是稳定因果序列。(5)与(4)相反,最大相位信号序列(极零点均在z平面单位圆外)的复倒谱是稳定反因果序列。,复倒谱分析中的相位卷绕及避免相位卷绕的方法在复倒谱分析中,z变换后得到的是复数,所以取对数时进行的是复对数运算。这时存在相位多值性问题,称为“相位卷绕”。相位卷绕使得求语音的复倒谱,以及从复倒谱中恢复语音等运算都会由于不确定性而产生错误。下面来分析复倒谱分析中相位卷绕是怎样产生的。,上式的相位也可表示为:式中,虽然l()和2()的范围均在(0,2)内,但()的值可能不在(0,2)之内,而计算机处理时总相位值只能用主值()(在(0,2)内)来表示。所以可能存在下面的情况:(k为整数)此时即产生了相位卷绕。显然,相位卷绕的产生是由于相位的多值性问题。它会使后面求复倒谱以及由复倒谱恢复语音等运算存在不确定性而产生错误。求复倒谱时避免相位卷绕的方法有限制法、微分法、最小相位信号法等。其中,限制法的思想是将复倒谱的相位限制在-()的范围内,从而有()=()。但对于语音信号来讲,由于语音信号是随机的,所以这种限制是不科学的。下面介绍其他两种求复倒谱时避免相位卷绕的方法。,1.微分法这是一种利用傅里叶变换的微分特性和对数微分特性来避开求复对数而又可求出复倒谱的方法。虽然,这种方法避免了求复倒谱的问题,但其缺点是会产生严重的混叠。这是因为nx(n)的频谱中的高频分量比x(n)多,所以仍使用x(n)原来的取样率将引起混叠。因而这不是一种理想方法。,2.最小相位信号法这就是上面介绍的由倒谱c(n)求复倒谱x(n)的方法。最小相位信号法是由最小相位信号序列的复倒谱性质及Hilbert变换的性质推导出来的。这是一种较好的解决相位卷绕的方法。但它仅适用于最小相位信号序列。,语音信号倒谱分析实例1由同态分析求出的语音信号倒谱实例一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换(即设相位恒定为零)。设信号为s(n),则其倒谱为:根据语音信号产生模型,语音信号s(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得到,即:设三者的倒谱分别为s(n)、e(n)及v(n),则有:,语音信号倒谱分析实例,图3-11典型浊音帧的倒谱,语音信号倒谱分析实例,倒谱分析实例:MEL频率倒谱参数(MFCC),MFCC(Mel-FrequencyCepstralCoefficentsMFCC)着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。,线性频率与Mel频率间的对应关系如图:,梅尔频率,类似于临界频带的划分,Mel滤波器组将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。,Mel滤波器组,Mel频率,线性频率,ml,ml,ml,梅尔滤波器组的划分,在Mel频率轴上配置L个三角形滤波器,L的个数由信号的截止频率决定.每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配.o(l),c(l)和h(l)分别是第l个三角形滤波器的下限,中心和上限频率相邻三角形之间的下限,中心和上限频率的关系:,相邻三角形滤波器之间的关系,f,c(l)h(l-1)o(l+1),l,l-1,l+1,c(l+1)h(l),c(l-1)o(l+1),梅尔滤波器组的划分,中心频率f(m)可以用下面的方法定义:,其中、为滤波器的频率应用范围的最低频率和最高频率,N为DFT(或FFT)窗宽,为采样频率,而为B的逆函数:,梅尔滤波器组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版摄影师职业发展规划聘用合同范本
- 河北省博野县2025年上半年事业单位公开遴选试题含答案分析
- 2025年度高端医疗设备研发及授权使用合同
- 海南省屯昌县2025年上半年公开招聘村务工作者试题含答案分析
- 2025年版店铺转让附带装修权合同范本
- 2025版速记服务保密正本与知识产权保护合同
- 2025年度城乡统筹发展三旧改造合作开发协议
- 2025版体育产业融资合作保密协议
- 2025年度影视作品宣发推广服务合同
- 2025版石材行业产品质量检测服务合同范本
- 2025年郑州人才公司面试题及答案
- 2025年跨境电子商务测试题及答案
- IT项目管理进度计划及其保证措施
- 休克的诊断和治疗课件
- 广东省湛江市2024-2025学年高一下学期期末调研测试政治试卷(含答案)
- 2025-2030中国汽车玻璃水行业竞争优势与前景趋势洞察报告
- 厨房刀具安全培训课件
- 私密抗衰培训课件
- 2025年全国高中物理竞赛试题及答案
- 2024风电项目开工管理办法
- 供热企业运营管理制度
评论
0/150
提交评论