第九章语音检测分析_第1页
第九章语音检测分析_第2页
第九章语音检测分析_第3页
第九章语音检测分析_第4页
第九章语音检测分析_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 n9.1基 音 检 测 p自相关法 p并行处理法 p倒谱法 p简化逆滤波法 n9.2共振峰估值 p带通滤波器组法 p离散傅里叶变换(DFT) p倒谱法 pLPC法 语音检测分析主要涉及语音特征参数的提取和分析。语音检测分析主要涉及语音特征参数的提取和分析。 2 基音是语音信号的一个重要参数,在语音 产生的数字模型中它也是激励源的一个重 要参数。基音是指发浊音时声带振动所引 起的周期性,而基音周期是指声带振动频 率的倒数。 准确地检测语音信号的基音周期对于高质 量的语音分析与合成、语音压缩编码、语 音识别和说话人确认等具有重要的意义。 3 基音检测的主要困难反映在:基音检测的主要困难反映在:

2、 声门激励信号并不是一个完全周期的序列,在 语音的头、尾部并不具有声带振动那样的周期 性,有些清音和浊音的过渡帧是很难准确地判 断是周期性还是非周期性的。 在许多情况下,清音语音和低电平浊音语音段 之间的过渡段是非常细微的,确认它是极其困 难的。 从语音信号中去除声道影响,直接取出仅和声 带振动有关的激励信号的信息并不容易,例如 声道的共振峰有时会严重影响激励信号的谐波 结构。这种影响在发音器官快速动作而共振峰 也快速改变时,对基音检测是最具危害性的。 4 语音信号包含有十分丰富的谐波分量,基音频率最低可达 80Hz左右,最高可达500Hz左右,但基音频率处在100 200Hz的情况占多数。因

3、此,浊音信号可能包含有三四十次 谐波分量,而其基波分量往往不是最强的分量。因为语音的 第一共振峰通常在3001 000Hz范围内,这就是说,28 次谐波成分常常比基波分量还强。丰富的谐波成分使语音信 号的波形变得非常复杂,经常发生基频估计结果为实际值的 二、三次倍频或二次分频的情况。 在浊音段很难精确地确定每个基音周期的开始和结束位置, 这不仅因为语音信号本身是准周期性的(即音调是有变化的), 还由于波形的峰或过零受共振峰的结构、噪声等的影响。 在实际应用中,背景噪声强烈影响基音检测的性能,这对于 移动通信环境尤为重要,因为经常会出现高电平噪声。 基音频率变化范围大,从老年男性的80Hz到儿童

4、女性的 500Hz,接近三个倍频程,给基音检测带来了一定的困难。 5 基音检测方法的研究: 稳定并提取准周期性信号的周期性方法; 因周期混乱,采取基音提取误差补偿的 方法; 消除声道(共振峰)影响的方法。在基音 提取时,容易错误地提取真正基频两倍的 频率(倍基音)和基频一半的频率(半基音), 至于产生哪种错误随抽取方法而变化。 6 基音检测的方法大致可分为三类:基音检测的方法大致可分为三类: 波形估计法。直接由语音波形来估计,分析出波形上的 周期峰值。其特点除了比较简单、硬件实现容易外,还 可定出峰值点的位置,这在一些处理中是很有用的。 相关处理法。在时域中,周期信号的最明显特征就是波 形的类

5、似性,因而可以通过比较原始信号和它位移后的 信号之间的相似性来确定基音周期。如果移位距离等于 基音周期,那么,两个信号具有最大类似性(相关性最 强)。大多数现存的基音检测法都基于这一概念,最具 代表性的是自相关函数法。这种方法在语音信号处理中 被广泛使用,这是因为相关处理法抗波形的相位失真强, 另外它在硬件处理上结构简单。 变换法。将语音信号变换到频域或倒谱域来估计。比如 倒谱法(CEP) 。虽然倒谱分析算法比较复杂,但基音估 计效果较好。 7 直方图(Histogram)也叫柱状图,是一种统计报告图,由一系列 高度不等的纵向条纹表示数据分布的情况。 8 浊音信号的自相关函数在基音周期的整数倍

6、位 置上出现峰值,而清音的自相关函数没有明显 的峰值出现;因此检测是否有峰值就可判断是 清音或浊音,检测峰值的位置就可提取基音周 期值。 短时自相关函数中保留的语音信号的幅度太多, 它有许多峰值,而其中许多都起因于声道响应 的阻尼振荡。当基音的周期性和共峰峰的周期 性混叠在一起时,被检测出来的峰值就会偏离 原来峰值的真实位置。 9 主要问题主要问题是第一共振峰可能对基音造成干扰:在某些浊音中, 第一共振峰频率可能会等于或低于基频;如果其幅度很高,就可能 在自相关函数中产生一个峰值,而该峰值又可以同基频的峰值相比 拟。 例: 其中有3个明显的峰值。通过自相关波形,可以确定位于第40个样 本时延处

7、的峰值相应于基频为200Hz;而位于第20个样本处的峰 值与相应于基频时的峰值差不多一样大,因而可能将其误认为基音。 图9-1 一个女子发音的自相关函数,语音信号以8kHz取样 10 处理思路处理思路: 对语音信号进行预处理以去除声道响应的影响 及其他带来扰乱的特征 分析:语音信号的低幅度部分包含大量的共振峰 信息,而高幅度部分包含大量的基音信息。 方法之一:非线性处理。非线性处理的优势是在 采用硬件时可在时域低成本地实现。 处理效果:任何削减或者抑制语音低幅度部分的 非线性处理都会使自相关函数的性能得到改善。 11 图9-2中心削波 中心削波后的语音通过一个自相关器,这样在基音周期位置呈现大

8、而尖的 峰值,而其余的次要峰值幅度都很小。 12 计算自相关函数的运算量是很大的,其原因是计算机进行乘法运算 非常费时。为此可对中心削波函数进行修正,采用三电平中心削波 的方法 y(n)=Cx(n)1,x(n)CL y(n)=Cx(n)0,x(n)CL y(n)=Cx(n)-1, x(n)-CL 三电平中心削波的自相关函数的计算很简单,设y(n)表示削波器 的输出,则由自相关函数直接计算的公式 Rn(k)y(n+m)w(m)y(n+m+k)w(m+k) 如果窗口为直角窗,则上式变为 Rn(k)y(n+m)y(n+m+k) 上式中y(n+m)y(n+m+k)的取值只有-1、0、1三种情况,因而不

9、需 作乘法运算而只需要简单的组合逻辑即可以。 13 (a) 不削波(b) 中心削波(c) 三电平削波Rn(k)均归一化 图9-4信号波形及其自相关函数的举例 14 用到的波形属性是正负峰值的幅度和位置,后峰至前峰的测度以及峰值至谷值的测 度。 基音周期计算是将这6个估值与每一个基音周期估计器的最新的两个估值相结合, 比较这些估值,出现次数最多的值就是该时刻的基音周期。 这种方法对浊音周期可以作出很好的估计; 如果是清音,各个估值不一致,因而可判断为清音。 通常,可按10ms一帧来估计基音周期,同时得到“浊音/清音”判决。 优点是运算简单、硬件实现容易。此外,不仅能估计出基音周期,而且还可以确定

10、 峰点位置。 语音最初经截止频率为 900Hz的低通滤波,如 果需要的话还附加高通滤 波去除50Hz的交流声。 语音信号在经过预处理后,形成 一系列脉冲,这一串脉冲保留了 信号的周期性特性,而略去了与 基音检测无关的信息,找出峰点和 谷点,再根据其位置和幅度产生6 个脉冲序列 对这些基音检测 器的输出作逻辑 组合,得出估计 值 估计这6个脉冲序列, 得出6个基音周期的估 值 15 浊音语音的复倒谱中存在峰值,其出现时间等于基音周 期;而清音语音段的复倒谱则不出现这种峰值。利用这 一性质可以进行清/浊音判断并估计浊音的基音周期。 这种方法的步骤: 计算复倒谱 解卷 提取出声门激励信息,在预期的基

11、音周期附近寻找峰值 如果峰值超过了预先设定的门限,则语音段定为浊音,而峰的位 置就是基音周期的估值。 如果不存在超出门限的峰值,则语音段定为清音。 如果计算的是依赖于时间的复倒谱,则可估计出激励源模型及基 音周期随时间的变化。 16 倒谱和复倒谱表现出相同的性质 估计基音周期,因而没有必要对语音波形完 全解卷,所以用倒谱c(n)就完全可以,这样 可以从复杂的相位计算中解脱出来。 由于人耳对语音信号的相位不很敏感,因而 可以假定输入语音信号是最小相位序列,这 样可由最小相位信号法计算c(n)。 17 (a)信号的对数幅度谱;(b) 理想化的对数功率谱的傅里叶反变换 图9-6倒谱示意图 l包括两个

12、分量:相应于频谱包络的慢变分量、相应于基音谐波峰值的快变分量。 通过滤波或再取一次傅里叶反变换,即可将慢变分量与快变分量分离开。 l靠近原点的低倒频部分是频谱包络的变换,而位于t0处的窄峰为谐波峰值的变 换,表示基音周期。 l如果基音峰值的变换与频谱包络变换之间的间隔足够大,则可很容易地提取基 音信息。 18 取样率为10kHz,帧长51.2ms,然后求出c(n)。 采用矩形窗,因为由其得到的谱估计质量较差。 采用海明窗的长度及窗相对于语音信号的位置对倒谱峰的高度有相当大的 影响。 为使倒谱具有明显的周期性,窗口选择的语音段应至少包含有两个明显的 周期。 考虑到窗的逐渐弱化效应,窗宽至少应包含

13、两个周期。 窗应尽可能短,使得分析间隔中的语音参数变化减至最小。这是短时处理 的要求。而窗越长,由始到终的变化就越大,因而与模型之间的偏差就越 大。 19 求出倒谱峰值IPK和其位置IPOS, 如果峰值未超过某门限值,则进行过零计算; 若过零数超过某门限值,则为无声语音帧。反之,则为有声, 且基音周期仍等于该峰值的位置。 无声检测器是时域信号的峰值检测器;若低于某门限值, 则认为是无声,勿须进行上述由倒谱检测基音的计算。 20 图9-9含噪语音的对数功率谱示意图 对数功率谱的低电平部分被噪声填满,并处于主 导地位,从而掩盖了基音谐波的周期性。这意味着倒 谱的输入不再是纯净的周期性成分,而倒谱中

14、的基音 峰值将会展宽并受到噪声的污染。随着噪声电平的增 加,对数功率谱的有用部分将会变得越来越小,从而 使倒谱的灵敏度也随之下降。 21 逆滤波的作用:将频谱包络逐渐平坦下去。得到的线性预测误差信号 只包含有激励的信息,而去除了声道影响,所以它提供了一个简化 的(廉价的)频谱平滑器。 激励信号正比于预测误差信号,如果线性预测模型与产生实际语音 信号的系统越接近,则e(n)就越接近激励信号。对于浊音,可以预 料在每一基音周期的起始处预测误差较大。检测e(n)信号相邻两最 大脉冲之间的距离即可对基音周期作出估计。 见书P125 图9-10 差滤波器称为逆滤波器或预测误)( 为增益其中: )(浊音的

15、转移函数: z1zA A A(z) A zH p 1k k- k 22 语音信号经过10kHz取样后,通过0900Hz的数字低通滤波器 (LPF),其目的是滤除声道谱中声道响应部分的影响,使峰值检测 更加容易,低通滤波在除去高阶共振峰影响的同时,还可以补充自 相关函数的时间分辨率的不足。然后降低取样率5倍,经5次分频 降低到2kHz(因为声门激励序列的宽度小于1kHz,所以用2kHz取 样就足够了);当然,为此后面要进行内插。 提取LPC参数。这里LPC滤波器的阶数P4,因为,四阶滤波器完 全可作为01kHz频率范围内信号谱的模型,因为此范围内通常 只有12个共振峰。然后进行逆滤波,得到接近平

16、坦的谱。 图9-12基音检测的简化逆滤波法 23 进行短时自相关运算,检测出峰值及其位置,得到基音 周期值。 为提高基音周期值的分辨率,可以对最大峰值所处范围 的自相关函数进行内插。 最后进行有/无声判决。此处与倒谱法类似,有一个无 声检测器,以减少运算量。 图9-12基音检测的简化逆滤波法 24 25 26 基音检测有很多方法,大多是基于低通滤波和自相关 法的。其主要缺点是: 准确性不够高; 一般只能求出分析帧的平均基音周期值,难以对每个 基音周期进行准确的定位和标记,而这在许多场合却是 很重要的。 采用子波分析技术进行基音检测能得到比较好的效果。 27 共振峰信息包含在语音信号的频谱包络之

17、中,谱包络的峰值基本上对应于共振峰频 率。因此一切共振峰估计都是直接或间接地对频谱包络进行考察,关键是估计语音 频谱包络,并认为谱包络中的最大值就是共振峰。 共振峰估计存在的问题: 1虚假峰值。在正常情况下,频谱包络中的最大值完全是由共振峰引起的。 但在线性预测分析方法出现之前的频谱包络估值器中,出现虚假峰值是相当普 遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值:为了增加灵活 性,给预测器增加二至三个额外的极点(如6.6.1所述),而这些极点会引起虚 假谱峰产生。 2共振峰合并。相邻共振峰的频率可能会靠得太近难以分辨。此时,不是认 为共振峰额外地多了而是认为共振峰明显地少了,而探讨一

18、种理想的能对共振 峰合并进行识别的共振峰提取算法中有不少实际困难。 3高基音语音。传统的频谱包络估值方法是利用由谐波峰值提供的样点。而 高基音语音(如女声和童声)的谐波间隔比较宽,因而为频谱包络估值所提供的 样点比较少,所以谱包络本身的估计就不够精确。即使采用线性预测方法,所 得到的谱包络的峰值仍然比较接近谐波峰值而常常偏离真正的共振峰位置。 28 通过滤波器组的设计可以使估计的共振峰频率同人耳的灵敏相匹配, 其匹配程度比线性预测法要好。 滤波器的中心频率有两种分布方法: 一种是等间距地分布在分析频段上,则所有带通滤波器的带宽 可设计成相同,从而保证了各通道的群延时相同。 另一种是非均匀地分布

19、,例如为了获得类似于人耳的频率分辨 特性,在低频端间距小,高频端间距大,带宽也随之增加。这 时滤波器的阶数必须设计成与带宽成正比,使得它们输出的群 延时相同,不会产生波形失真。为了使频率分辨率提高,滤波 器的阶数应取足够大阶数应取足够大的值,使得带通滤波器具有良好的截止特 性,但同时也意味着每个滤波器均有较长的冲激响应。由于语 音信号具有时变特性,显然较长的冲激响应会模糊这种特性, 所以频率分辨率与时间分辨率总是相互矛盾的。 29 这种方法的缺点是:由于滤波器组中滤波器数目的限制,估计的共 振峰频率不可避免地存在误差;而且对共振峰带宽不易确定;由于 无法去除声门激励的影响,可能会造成虚假峰值。

20、 图9-15给出了一种利用滤波器组进行共振峰估值的系统结构示意 图。滤波器的中心频率从150Hz到7kHz,分析带宽从100Hz到 1kHz,频率按对数规律递增。滤波器输出经全波整流而用于提供 频谱包络估值。辨识逻辑用于对适当频率范围内的峰值进行辨识而 获得前三个共振峰。频谱峰值被依次指定,每一峰值都被约束在其 已知的频率范围之内并且高于前边共振峰的频率。 30 1浊音时 声门激励为周期脉冲序列,因而语音信号具有明显的周 期性,所以信号谱中出现多个谐波频率,其值为nfp(这 里fp为基频,n为正整数)。 由于进行DFT得到的频谱受基频谐波的影响,最大值只 能出现在谐波频率上,因此共振峰测定误差

21、较大。为减 少误差,可由谐波频率n fp及上、下两个次极值频率 (n-1)fp、(n+1)fp的插值求得共振峰频率。 31 2清音时 信号具有随机噪声的特点,其频谱不具有 离散谐波特性,但其包络基本上反映了声 道的特性。 对其频谱进行线性平滑而得到谱包络,并 用一个峰值搜索算法来确定峰值,并标记 为共振峰参数。 32 第一项为声门激励序列的倒谱,它是以基音周期为周期的冲激序列; 而第二项为声道冲激响应序列的倒谱,它集中在n=0附近的低倒谱 域。因而可在倒谱域用一个滤波器滤除声门激励的影响。这个滤波 器称为倒滤波器,其形式为 l(n)1,nn0 l(n)0,nn0 其中n0值应选得比基音周期NP小,这样可将声道冲激响应的倒谱提 取出来。再对倒谱进行DFT就得到声道模型的对数谱lnH(k),而 所求得的频谱包络的平滑程度根据使用倒滤波器的不同成分而发生变 化。 )(ln)(ln)(ln)( 111jjj eHFeUFeSFnc 10| )(ln| 1 )( 2 1 0 NneeH N nc kn N j j N k 利用IDFT求c(n)时,与时域取样类似,为避免发生混叠,需要将N取得足够大 33 对于浊音和清音,倒谱法的检测效果不同: 浊音时,若频谱包络的变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论