版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 “十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时语音信号的短时时时域分析域分析 23 3.1 .1 概述概述3 3.2 .2 语音信号的预处理语音信号的预处理 3 3.3 .3 短时平均能量短时平均能量 3 3.4 .4 短时平均幅度函数短时平均幅度函数 3 3.5 .5 短时平均过零率短时平均过零率 3 3.6 .6 短时自相关分析短时自相关分析 “十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 3 3. .7 7 基于能量和过零率的语音端点检测基于能量和过零率
2、的语音端点检测 3 3. .8 8 基音周期估值基音周期估值 33.1 概述“十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 43.1 概述“十二五”普通高等教育本科国家级规划教材语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。 语音处理目的对语音信号进行分析,提取特征参数,用于后续处理加工语音信号,如语音增强和语音合成中的应用5“十二五”普通高等教育本科国家级规划教材3.1 概述1.最简单、最直观;2.直接对语音信号的时域波形进行分析;3.特征参数语音的短时
3、能量和平均 幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。63.2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 73. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材大公司或语音研究机构发布的被大家认可的语音数据库模拟语音信号s(t) 离散化为s(n)数字处理研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句获得数字语音的途径正式非正式83. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材
4、语音信号的频率范围通常是300 3400Hz,一般情况下取采样率为8kHz。本书的数字语音处理对象为语音数据文件,是已数字化的语音。对语音的预处理包括:预加重、加窗分帧等。93. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材目的:对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。实现:通过一阶FIR高通数字滤波器来实现。1( )1H zz 设 时刻的语音采样值为 ,经过预加重处理后的结果为 。n( )x n( )( )(1)y nx nax n3.2.1 3.2.1 语音信号的预加重处理语音信号的预加重处理(3.1)103. 2 语音信号的预处理“十二五”普通
5、高等教育本科国家级规划教材高通滤波器的幅频特性和相频特性113. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材一段语音信号在预加重前后的时域波形和频谱图 123. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材3.2.3.2.2 2 语音信号的加窗处理语音信号的加窗处理 语音信号具有短时平稳性,可把语音信号分帧进行处理。采用可移动的有限长度窗口进行加权实现分帧。帧长帧移第K+1帧帧长帧移与帧长示意图133. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材常用的两种窗 矩形窗窗函数如下: 汉明(Hamming)窗 窗函数如下:其它 010 1)(Nnn
6、w0.54 0.46 cos 2 /1 0( )0 n Nn Nwn , else143. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材汉明窗及其频谱矩形窗及其频谱思考:两种窗效果有何异同?153. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材窗长一般选取100200。原因如下: 当窗较宽时,平滑作用大,能量变化不大,故反映不出能量的变化。当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的变化。 1 2加窗方法示意图163. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材 语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变
7、换或运算用T 表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n)有关的滤波器,则各帧经处理后的输出可以表示为: ( ) ()nmQT x m h nm(3.2)173. 2 语音信号的预处理“十二五”普通高等教育本科国家级规划教材几种常见的短时处理方法:几种常见的短时处理方法:2. ( )sgn ( ) sgn (1)( )( )T x mx mx mh nw n,nQ对应于平均过零率; ( )( ) () T x mx m x m kh nw n w n k,3.nQ对应于自相关函数 ;22 ( )( )( )( )T x mxmh nw n,1.对应于能量;nQ183.3
8、 短时平均能量 “十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 193. 3 短时平均能量 “十二五”普通高等教育本科国家级规划教材短时平均能量定义短时平均能量定义 定义n时刻某语音信号的短时平均能量En为: )()( )()()1(22nNnmmnmnwmxmnwmxE 当窗函数为矩形窗时: )() 1(2nNnmnmxE(3.3)(3.4)203. 3 短时平均能量 “十二五”普通高等教育本科国家级规划教材若令 则短时平均能量可以写成: )()(2nwnh )()()()(22nhnxmnhmxEmn x ( n ) x 2 ( n )
9、E n h ( n ) ( . ) 2 语音信号的短时平均能量实现框图 (3.5)(3.6)213. 3 短时平均能量 “十二五”普通高等教育本科国家级规划教材nE 反映语音信号的幅度或能量随时间缓慢变化的规律。窗的长短对于能否由短时能量反映语音信号的幅度变化,起着决定性影响。不同矩形窗长N时的短时能量函数 223. 3 短时平均能量 “十二五”普通高等教育本科国家级规划教材1)作为区分清音和浊音的特征参数。2)在信噪比较高的情况下,作为区分有声和无声的依据。3)作为辅助的特征参数用于语音识别中。短时平均能量的主要用途短时平均能量的主要用途233.4 短时平均幅度函数 “十二五”普通高等教育本
10、科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 243. 4 短时平均幅度函数 “十二五”普通高等教育本科国家级规划教材 为了克服短时能量函数计算x2 ( m ) 的缺点,定义了短时平均幅度函数:1| ( )|()=( )() nnmm n NMx mw nmx n w nm x ( n ) Mn w ( n ) 短时平均幅度实现框图 |x ( n )| | . | (3.7)253. 4 短时平均幅度函数 “十二五”普通高等教育本科国家级规划教材Mn与与En的比较的比较:1)Mn能较好地反映清音范围内的幅度变化;2)Mn所能反映幅度变化的动态范围比En好;3)Mn
11、反映清音和浊音之间的电平差次于En。短时平均幅度函数随矩形窗窗长N变化的情况263.5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 273. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为 sgnsgn1sgnsgn1*nmZx mx mw nmx nx nw n 11( )001, sgn( )21( )00 x n nN w nx n N- x n 其它其中,(3.8)283
12、. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材 另外:考虑到w(n-m)的非零值范围为n-m0,即mn,以及 n-mN-1,故mn-N+1,因此短时平均过零率可以改写为:nNnmnmxmxNZ)1(|1-sgnsgn| 21 用1/2N 作为幅值,考虑了对该窗口范围内的过零数取平均。 (3.9)293. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材 Nn x(n) Sgnx(n) 1 一阶差分 sgnxn -sgnxn-1 低通滤波 h(n)=w(n) -1 +1 语音信号的短时平均跨零数实现框图 Sgn . 取绝对值 . . 女声“我到北京去”的短时平均过零
13、次数的变化曲线303. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材 清音 浊音 0 10 20 30 40 50 60 70 80 每 10ms 内的过零数 过零率概率分布 清音过零率高,浊音过零率低。局限性:浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。端点检测可以从包含语音的一段信号中确定出语音的起点及结束点。313.6 短时自相关分析“十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 323. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材3.6.1 3.6.1 短时自相关函数短时自相关函数时
14、域离散确定信号的自相关函数定义为: 时域离散随机信号的自相关函数定义为: 周期为P的周期信号满足: mkmxmxkR )( NNmNkmxmxNkR 121lim PkRkR(3.10)(3.11)(3.12)33 (2) 在k = 0处为最大值,即对于所有k来说,|R(k)|R(0)(3) 对于确定信号,R(0)对应于能量 对于随机信号,R(0)对应于平均功率 (1) 对称性 R(k)= R(-k) 3. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材 自相关函数具有下述性质: 343. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材 3.6.2 3.6.2 语音信号
15、的短时自相关函数语音信号的短时自相关函数 采用短时分析方法,定义语音信号短时自相关函数为 mnmknwkmxmnwmxkR因为 nnRkRk所以 nnmR kRkx m x m k w n m w n m k (3.13)(3.14)(3.15)353. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材 定义 那么短时自相关函数可以写成: knwnwnhk mnhkmxmxkRmkn)()(knxnx)(nhk)(kRn上式表明,序列经过一个冲激响应为 的数字滤波器滤波即得到短时自相关函数 mnhkmxmxkRmkn(3.16)(3.17)(3.18)363. 6 短时自相关分析“十
16、二五”普通高等教育本科国家级规划教材Z-KH k(n)X(n-k)x(n)短时自相关函数的实现框图也可采用直接运算的方法得到 kNmn mkwkmnxmwmnxkR10 )(kRn(3.19)373. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材清音的短时自相关函数 浊音的短时自相关函数 383. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材1)短时自相关函数可以很明显的反映出浊音信号的周 期性。2)清音的短时自相关函数没有周期性,也不具有明显 突出的峰值,其性质类似于噪声。3)不同的窗对短时自相关函数结果有一定的影响。浊音和清音的短时自相关函数特点:浊音和清音的短
17、时自相关函数特点: 393. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材不同矩形窗长时的短时自相关函数403. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材 3.6.3 3.6.3 修正的短时自相关函数修正的短时自相关函数 修正的短时自相关函数,其定义如下 kmnwkmxmnwmxkRn2-m1 )(-)()(-21-kmwkmnxmwmnxkRmn 1122w mwmwmwm若令mnm,代入上式可得:定义(3.20)(3.21)413. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材 kmwkmnxmwmnxkRn2-m1)()(则有121 0-10
18、 1 0-1 0 nN wmnNK wm其它其它,式中,K为k的最大值,即0kK。)(2kmwKNkm+1-+Kk 1- Nm要使为非零值,必须使 考虑到,可得其中(3.22)423. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材 kmwkmnxmwmnxkRn2-m1)()(则有121 0-10 1 0-1 0 nN wmnNK wm其它其它,式中,K为k的最大值,即0kK。)(2kmwKNkm+1-+Kk 1- Nm要使为非零值,必须使 考虑到,可得其中(3.23)(3.24)433. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材因为求和上限是N-1,与k无关,
19、故当k增加时,值不下降 。)(kRn1 -0 )()()(NmnkmnxmnxkR修正的短时自相关函数可以写成: (3.25)443. 6 短时自相关分析“十二五”普通高等教育本科国家级规划教材 3.6.4 3.6.4 短时平均幅度差函数短时平均幅度差函数 一个周期为P的周期信号,在k=0,P, 2P, 时, -0 02. d nx nx n kkPP, ,12( )| ()( )()()| nmr kx nm w mx nmk w mk对于浊音语音,在基音周期的整数倍上,d(n)总是很小,但不是零,因此,我们可以定义短时平均幅度差函数AMDF为:(3.26)(3.27)453. 6 短时自相
20、关分析“十二五”普通高等教育本科国家级规划教材使用矩形窗时,短时平均幅度差函数可写成:10 1-,0,1, |,)()(|)(NnnNkknxnxkr1/2( )2( )(0)( ) nnnrkkRRk( )nr k( )nR k与之间的关系为:(3.28)(3.29)463.7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 473. 7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材正确的端点检测对于语音识别和语音编码系统都有重要的意义。本节介绍基于能量和过零率的语音端点检测方法两
21、级判决法及程序实现。语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点。483. 7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材两级判决法示意图 493. 7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材 采用双门限比较法的两级判决法,具体如下 第一级判决: 1. 先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。 2. 根据背景噪声的平均能量确定一个较低的门限T2 ,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的
22、两个点C和D,于是CD段就是用双门限方法根据短时能量所判定的语音段。 503. 7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材 第二级判决: 以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。 注意:门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决前,T1,T2,T3,三个门限值的确定还应当通过多次实验。513.8 基音周期估值 “十二五”普通高等教育本科国家级规划教材第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 523.
23、8 基音周期估值 “十二五”普通高等教育本科国家级规划教材基音周期估值在语音信号处理应用中具有十分重要的作用。本节介绍语音信号基音周期估值最基本的两种方法: 基于短时自相关法的基音周期估值基于短时平均幅度差函数法的基音周期估值 533. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 3.8.1 3.8.1 基于短时自相关法的基音周期估值基于短时自相关法的基音周期估值 语音的浊音信号具有准周期性,其自相关函数在基音周期的整数倍处取最大值。计算两相邻最大峰值间的距离,可估计出基音周期。为了减小运算量,需要对语音信号进行适当预处理。预处理的两种方法:1.先对语音信号进行低通滤波,再进行
24、自相关计算。2.先对语音信号进行中心削波处理,再进行自相关计算。543. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材1.中心削波()( )0()()LLLLLLxxxxf xxxxxxxx f(x) x xL -xL O 削波后的序列用短时自相关函数估计基音周期,在基音周期处峰值更加尖锐,可减少倍频或半频错误。中心削波函数为: (3.30)553. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材削波前后语音信号对比图563. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材削波前后修正自相关对比图 573. 8 基音周期估值 “十二五”普通高等教育本科国家
25、级规划教材2三电平削波1( )01LLLLxxf xxxxxx 为了克服短时自相关函数计算量大的问题,在中心削波法的基础上,还可以采用三电平削波法,削波函数为: f(x) x xL -xL O -1 1 (3.31)583. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材三电平削波前后语音信号对比图593. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材三电平削波前后修正自相关对比图 603. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 3.8.2 3.8.2 基于短时平均幅度差函数基于短时平均幅度差函数AMDFAMDF法的基音周期估值法的基音周期估值
26、对于浊音语音,在基音周期的整数倍上的幅度差值不是零,但总是很小。因此,可以通过计算短时平均幅度差函数中两相邻谷值间的距离来进行基音周期估值。 这里使用修正的短时平均幅度差函数并加矩形窗,得到:10 1-,0,1, |,)()(|)(NnnNkknxnxkr(3.32)613. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材1.自相关函数进行基音周期估计时寻找的是最大峰自相关函数进行基音周期估计时寻找的是最大峰值点的位置值点的位置。2.AMDF寻找的是它的最小谷值点的位置寻找的是它的最小谷值点的位置。3.由于清音没有周期性,所以它的自相关函数和平均由于清音没有周期性,所以它的自相关函
27、数和平均幅度差函数均不具有准周期性的峰值或谷值。幅度差函数均不具有准周期性的峰值或谷值。 AMDF函数与短时自相关函数的不同是:623. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材一段浊音信号及其AMDF函数633. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 3.8.3 3.8.3 基音周期估值的后处理基音周期估值的后处理 在提取基音时,提取的基音频率轨迹与真实的基音频率轨迹不可能完全吻合。通常在实际基音频率的倍频或分频处发生偏离,产生“野点”。为了去除 “野点”,常用的平滑技术主要有:中值滤波平滑处理、线性平滑、动态规划平滑处理。643. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材1. 中值平滑处理 基本原理:设x(n)为输入信号,y(n)为中值滤波器的输出,采用一滑动窗,则n0处的输出值y(n0)就是将窗的中心移到n0处时窗内输入样点的中值。即在n0点的左右各取L个样点。连同被平滑点共同构成一组信号采样值(共(2L+1)个样值),然后将这(2L+1)个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026云南洱源县医共体邓川分院招聘编外人员1人笔试备考试题及答案解析
- 2026广东佛山市第一人民医院事业单位高层次人才招聘1人笔试备考试题及答案解析
- 2026北京市丰台区玉泉营街道社区卫生服务中心招聘3人考试备考试题及答案解析
- 2026四川遂宁船山区慈音社区卫生服务中心社会招录就业见习人员笔试备考题库及答案解析
- 2026龙南市殡葬服务中心招聘2人考试备考试题及答案解析
- 2026四川省国土整治中心招聘编外聘用人员4人考试备考题库及答案解析
- 2025年兰州航空职业技术学院单招综合素质考试试题及答案解析
- 2026英大证券有限责任公司高校毕业生招聘1人(第二批)笔试参考题库及答案解析
- 2026广西北海市银海区机关后勤服务中心招聘1人笔试备考题库及答案解析
- 2026四川凉山州木里藏族自治县中学宿舍管理员招聘2人笔试备考试题及答案解析
- 【2026人教版】-小学四年级英语下册Unit1Part A 第2课时
- 2026年春湘教版(新教材)初中数学八年级下学期教学计划及进度表
- 2026年内蒙古建筑职业技术学院单招职业倾向性考试题库附参考答案详解(完整版)
- 高中生物遗传系谱图的编程可视化教学案例对比教学研究课题报告
- 2025年湖南高速铁路职业技术学院单招职业技能测试题库附答案解析
- 2026石嘴山市能达建设发展有限公司招聘3人笔试备考试题及答案解析
- (新教材)2026年春期人教版一年级下册数学全册核心素养教案(反思有内容)
- 非融资担保业务操作流程介绍
- 《做个“开心果”》-2025-2026学年统编版(新教材)小学道德与法治二年级下册
- 2025年乡镇邪教工作总结及2026年工作计划
- 机制砂场生产管理制度
评论
0/150
提交评论