资源目录
压缩包内文档预览:(预览前20页/共43页)
编号:6350453
类型:共享资源
大小:510.36KB
格式:RAR
上传时间:2017-12-11
上传人:毕****做
IP属地:江苏
12
积分
- 关 键 词:
-
获取更多毕业论文/毕业设计
请登录360毕业设计网
www.bysj360.com
或加qq:604664738量身定做!
- 资源描述:
-
自适应预测声码器的实现,获取更多毕业论文/毕业设计,请登录360毕业设计网,,或加qq:604664738量身定做!
- 内容简介:
-
1自适应预测声码器的实现指导老师:朱 轶 作者:卢 军摘 要本文介绍了一种基于自适应预测编码(APC)的声码器。通过对语音信号的时域分析,其中包括短时能量分析、短时过零率分析,以及线性预测分析,结合 matlab 这个编程工具,开发出了一种简单的语音编码和译码系统。实验结果表明.经过该系统处理后的语音信号具有较高的压缩率和可懂度。关键词:语音编码 自适应预测编码 时域分析 短时能量 短时过零率 线性预测分析2A kind of speech coder based on adaptive predicationMaster:Zhu Yi Author:Lu junAbstractThis text has introduced a kind of speech coder based on adaptive predication coding.In the way of analyzing speech signal in time domain, including short-time energy analysis and short-time average zero-crossing rate analysis,besides that,linear predication analysis is also used in it.Combining the tool Matlab,develop a simple speech coding and encoding system. Experimental result indicate, after the processing of this system,the speech signal has higher compressing rate and is understandable.Key word: Speech coding, Adaptive predication coding ,Time-domain analysis, Short-time energy, Short-time average zero-crossing rate,linear predication analysis3前 言劳动创造了人类,创造了人类文明。而语言是人类创造和记载几千年的人类文明史的根本手段,没有语言就没有今天的人类文明。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类进行思维的一种依托。人类开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信息这对于促进社会的发展具有十分重要的意义。语音是人类交流信息的基本手段。随着信息科学技术的飞速发展,语音信号处理技术在最近 20 多年中取得了重大进展。语音信号压缩编码是语音信号处理的一个方面,它和通信领域联系最为密切.而语音识别,语音合成,语音增强等方面在理论上与语音信号压缩编码有很多相通之处.因此,系统,全面地掌握当今语音信号压缩的原理和方法,对语音信号处理领域工作的开展具有重要意义.语音编码技术是伴随着语音的数字化而产生的,目的主要应用在数字语音通信和数字语音存储两个领域。由于简单地由连续语音信号抽样置化得到的数字语音信号,在传输和存储时要占用较多的信道资源和存储空间,因此,如何在尽量减少失真的情况下,高效率地对模拟语音信号进行数字表达,即压缩编码,就成为语音编码技术的主要内容。实际上,语音信号中含有大量的冗余信息,采用各种信源编码技术减除语音信号的冗余度,并充分利用人耳的听觉掩蔽效应,就可以将其编码速率压缩很多倍,而仍能恢复出可懂度甚至自然度很好的语音。一个极端的例子是,当比特率由普通数字电话的 64kbs 压缩到150kbs 时(即压缩 400 多倍),仍能提供可懂的语音。可以预计在未来的五到十年内,语音编码技术的应用将更加广泛,各种各样的编码技术将出现在人们的面前。通过和通信工程的结合,将使通信技术的水平大大提高。4前 言 .3第一章 语音学基础 .31.1 语音学基本概念 .31.2 语音信号的统计特性 .31.3 语音信号的数字模型 .31.4 语音信号的时域处理方法 .31.5 语音编码 .3第二章 基于线性预测的自适应预测编码 .32.1 自适应预测编码(APC) .32.2 线性预测的基本原理 .32.3 线性预测方程组的解法 .3第三章 语音编码的实现部分 .33.1 编程工具(MATLAB)简介 .33.2 语音编码设计流程 .33.3 语音编码的程序实现 .3第四章 语音编码的运行结果 .35第一章 语音学基础语音学(Phonetics)是研究语音的一门科学。语音就是人类说话的声音,它是语言信息的声学表现。语言交际是通过联结说话人大脑和听话人大脑的一连串心理、生理和物理的转换过程实现的,这个过程分为“发音传递感知”三个阶段。因此现代语音学发展为与此相应的三个主要分支:发音语音学、声学语音学、听觉语音学。发音语音学(Articutatory Phonetics):发者语音学也称生理语音学,主要研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法。这一学科在 19 世纪中期就已经形成,近年来由于新型仪器设备的发明和改进,又有很大发展,目前已相当成熟。声学语音学(Acoustic Phonetics):声学语音学研究语音传递阶段的声学特性,它与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象,是近几十年中发展非常迅速的一门新学科。1.1 语音学基本概念1.1.1 语音产生的机理人的发音器官包括肺、器官、喉(包括声带) 、咽、鼻和口等。这些器官共同形成复杂的管道,其中喉以上的部分称为声道,随着发出声音的不同,其形状是变化的,而喉的部分称为声门。产生声音的能量来源于正常呼吸时肺部呼出的气流,喉部的声带即是阀门,又是振动部件;在说话的时候,声门处气流冲激声带产生振动,然后通过声道响应变成声音。由于发不同的音时,声道的形状不同,所以听到不同的声音。以上就是发音器官发出声音时的大致情况。喉部的声带是对发音影响很大的器官,声带的声学功能是为语音提供主要的激励源。由声带振动产生声音,是形成声音的基本声源。呼吸时左右两声带打开,讲话时声带合拢起来。两声带之间的部位也称为声门。讲话时声带合拢,继而受声门下气流的冲激而张开;由于声带具有韧性,声带迅速闭合,随后又张开而闭合。声带开启和闭合使气流形成一系列脉冲。每开启和闭合一次的时间即振动周期称为音调周期或基音周期,其倒数称为基音频率也简称基频。声带振动的频率既基音决定了声音频率的高低,频率快则音调高,频率慢则音调低。基音的范围约为 70350Hz 左右,它随着发音人的性别、年龄及具体情况而定,老年男性偏低,小孩和青年女性偏高。图 1-1 显示了人的发音器官结构。6图 1-1 人的发音器官简图语音由声带的振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,而清音中只包含另一部分辅音。声道是由咽、口腔和鼻腔组成,它是一根从声门延伸至口唇的非均匀截面的声管,其外形变化是时间的函数。成年男子声道的平均长度约为 17cm,而声道的截面积取决于其他发音器官的位置,它可以从零(完全闭合)变化到 20 。声道是气流自声门声带之后最2cm重要的对发音起决定性作用的器官,发不同音时其形状变化是非常复杂的。声道是一个分布参数系统,它有许多自然谐振频率(在这些频率上其传递函数具有极大值) ,所以声道是一谐振腔:它放大某一频率而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。讲话时,舌和唇连续运动,使声道常常改变外形和尺寸,进而改变其谐振频率。这些谐振频率称为共振峰频率,简称为共振峰,它是声道的重要声学特性。共振峰和声道的形状和大小有关,一种形状对应着一套共振峰。语音的频率特性主要是由共振峰决定的,当声音沿着声管传播时,其频谱形状就会随声管而改变。声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振频率之间互相作用的结果对语音的音质有很大影响。由于声道的大小随不同讲话而不同,因此共振峰频率与讲话者有密切关系。即使是音素相同,但因讲话者不同,共振峰也有相当大的变化。共振峰用依次增加的多个频率表示,如 F1、F2 等,称为第一共振峰、第二共振峰等。在声学语音学中通常考虑 F1、F2,但在语音识别技术中至少要考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现实的,表 1-1 出了前三个共振峰的大致范围(单位为Hz) ,这些数值只是概略的,因为不同的人特性变化相当大。根据上面的介绍,语音的特性完全由声门,声道和口鼻决定。表 1-1 前三个共振峰的频率范围频率范围/Hz成年男子 成年女子 带 宽F1 200-800 250 -1000 4070F2 600-2800 700-3300 50-90F3 1300-3400 1500- 4000 60-18071.1.2 声学语音学大多数语言,包括英语在内,可以用一组不同的音(或即音素)来加以描述。对美国人的英语来说,大致有 42 个音素。包括元音、双元音、半元音和辅音。图 1-2 表示美国英语的音素是怎样分类的。这里把声音分成四类:元音、半元音、双元音和辅音。图 1-2 美国英语的音素汉语音节的四种声调是调类分别为:第一声阴平;第二声阳平;第三声上声;第四声去声。其声调波形分别为:高平、中升、降升、全降。汉语音节的声调主要体现在信号的基音频率随时间而变化的规律上。四种声调的基音频率对时变规律可用图 1-3 四条曲线定性描述。图 1-3 声调的四种模式汉语音节的结构很有规律,声母在前,韵母在后,声韵相拼即构成音节。汉语的这种特殊结构具有以下优点:(1)有的音节都可以任意延长的浊音结尾,因而发音时轻松、舒展、响亮,不仅适于说话、呼喊,还适于歌唱。(2)音节的轻、重音表达方便,语意和语感的表现力非常强。(3)音节的清晰度高,1300 多个音节可以毫无困难的相互区分,并且便于记忆。1.1.3 语音产生声学的理论声几乎是振动的同义词。声波由于振动而产生并且借助于介质质点的振动而传播,所以物理学的定律将是我们描述声道中声音产生和传播的基础。特别是质量守恒、动量守恒及能量守恒这几条基本定律以及热力学和流体力学的定律都要用于可压缩的粘滞的流体8(空气) ,这一流体是语音中声音赖以传播的介质。应用这些物理原理,我们可以得到一组偏微分方程,它描述了发音系统中空气的运动。周密的声音理论必须考虑以下各种影响:1. 声道形状的时变性质。2. 由于声道壁的热传导和粘滞摩擦导致的损耗。3. 声音在嘴唇处的辐射。4. 声道壁的柔度。5. 鼻腔的耦合。6. 声道中的声激励。一个考虑到所有上述因素影响的周密的声学理论超出了我们研究的范围。我们可以用来解释语音生成过程的最简单的物理模型如图 1-4 所示。在这个图中,声音被看成为一个时变的不均匀截面的声管。对于波长大于声道尺寸的频率(约小于 4000Hz)而言,我们可以合理地假设沿管轴传播的是平面波。另一个进一步加以简化的假设是认为无论在流体中或管壁上都不存在热传导和粘滞带来的损耗。根据这些假设,以及质量、动量和能量的守恒定律,Portnoff 证明了管中的声波满足下述方程组:(1.1a)tAuxp)/((1.1b)tC12图 1-4 (a)声道示意图 (b)相应的面积函数 (c)求解波方程时的 x-t 平面其中 p = p (x,t) 是管内 x 位置处 t 时刻的声压;u = u (x,t) 是 x 位置处 t 时刻的体速度; 是管内空气的密度;C 是声的传播速度;A = A (x,t) 是管的面积函数,也就是与管轴垂直的管的横截面积,它是轴向 离 x 和时间 t 的函数。这样在原理上就可以解决语音中声音的产生、传播和辐射的详细模型。加上声道参数和适当激励数值后,我们就可以去计算输出语音的波形。声学理论为我们指出模拟语音信号的简化方法。图 1-5 给出了一张一般性的方框图。在已经用作语音信号处理基础的大量模型中,这是有代表性的,这些模型的一个共同点是把激励和声道及辐射的特性分离开来。9图 1-5 语音产生的源-系统模型1.3.1 无损声管模型假若 A (x,t) =常数,即表示一段均匀截面的无损声管,其波动方程可简化为:(1.2.a)tuAxp(1.2.b)tc2这个方程组形式上和电波理论中的无损传输线是一致的。方程组(1.2)的解的形式为:(1.3.a)/()/(),( cxtucxtutx(1.3.b)/Ap其中 和 分别是前向和反向行波。u1.3.2 级联无损声道模型为了得到语音产生模型,假定声道可近似的看作是由多段均匀截面积的声管级联而成的,如图 1-6 所示。具有截面积 Ak 的第 k 段管子内的压力和速度分别是:(1.4.a)/()/(),( cxtucxtutxkk (1.4.b)Apkk图 1-6 五节无损声管的级联1.2 语音信号的统计特性图 1-7 描述了数字语音波形表示的一般特征。如图所示,语音波形(可以想象为连续A1 A2 A3 A4 A51l2l3l4l25l声门 嘴唇10时间变量的连续函数)经过通常在时间上是周期性的抽样,产生一个抽样序列 。)(nTxa这些样值一般取为连续量。因此,为了得到数字表示,必须把它们量化为一个有限值集合;也就是说,这种数字表示在时间和幅度上都是离散的。图 1-7 描述数字波形的一般方框图1.2.1 语音统计模型如果我们假设信号 为连续时间随机过程的一个样本函数,则由周期性抽样得到)(txa的抽样序列也可以认为是离散时间随机过程的一个样本序列。对于通信系统分析中许多目的来说,模拟信号的一种适当表征是由随机过程一阶概率密度 p(x)和自相关函数组成,自相关函数定义为(1.5)()(txEaa这里 E 表示括号中量的数学期望。模拟功率谱是 的傅立叶变换,即)(a(1.6)deja)(由随机信号 抽样得到的离散时间信号,其自相关函数为)(txa(1.7)()()( mTnTxEmnxEaa 语音信号的自相关函数和功率谱可以用标准的时间序列分析技术来估算。借助于从很长的(但是有限的)一段信号估算时间平均自相关函数的方法,可以得到遍历随机过程的自相关函数的。1.2.2 语音信号的抽样抽样定理表明,一个频带限制在(0, )赫兹内时间连续信号 m(t),如果以 1/2 Hf秒的间隔对它进行等间隔抽样,则 m(t)将被所得到的抽样值完全确定。此定理称为均Hf匀抽样定理,因为它用在均匀间隔 l/2 秒上给定信号的抽样值来表征信号。这意味着,Hf若 m(t)的频谱在某一角频率 H 之上为零,则 m(t)中的全部信息完全包含在其间隔不大于 l/2 秒的均匀抽样里。换句话说,在信号最高频率分量的每一个周期内起码应抽样Hf两次。下面来证明这个定理。我们考察一个频带限制(0, )赫兹的信号 m(t) 。假定将信号 m(t)和周期性冲Hf11激函数 T(t)相乘,如图 1-8 所示,乘积函数便是均匀间隔为 T 秒的冲激序列,这些冲激的强度等于相应瞬间上 m(t)的值,它表示对函数 m(t)的抽样。我们用 ms(t)表示此抽样函数,即有 ms(t)= m(t)+T(t)。图 1-8 抽样与恢复1.2.3 语音信号的量化模拟信号进行抽样以后,其抽样值还是随信号连续变化的。当这些连续变化的抽样值通过噪声信道传输时;接收端不能准确地估值所发送的抽样。利用预先规定的有限个电平来表示模拟抽样值的过程称为量化。大家知道,抽样是把一个时间连续信号变换成时间离散的信号,而量化则是将取值连续的抽样变成取值离散的抽样。把输入信号的取值域按等距离分割的量化称为均匀量化。在均匀量化中,每个量化区间的量化电平均取在个区间的中点。非均匀量化是根据信号的不同区间来确定量化间隔的对于信号取值小的区间,其量化间隔也小;反之,量化间隔就大。它与均匀量化相比,有两个突出的优点。首先,当输入量化器的信号具有非均匀分布的概率密度(实际中常常是这样)时,非均匀量化器的输出端可以得到较高的平均信号量化噪声功率比;其次,非均匀量化时,量化噪声功率的均方根值基本上与信号抽样值成比例。因此量化噪声对大、小信号的影响大致相同,即改善了小信号时的量化信噪比。实际中,非均匀量化的实现方法通常是将抽样值通过压缩再进行均匀量化。所谓压缩是用一个非线性变换电路将输人变量x 变换成另一变量 y 即 (1.8))(xfy非均匀量化就是对压缩后的变量 y 进行均匀量化。接收端采用一个传输特性为(1.9))(1f的扩张器来恢复 x。通常使用的压缩器中,大多采用对数式压缩,即 y = ln(x)。广泛采用的两种对数压缩律是 。压缩律和 A 压缩律。美国采用 压缩律,我国和欧洲各国均采用 A 压缩律。1.2.4 脉冲编码调制(PCM)将模拟信号的抽样量化值变换成代码,称为脉冲编码调制(PCM) 。模拟信号的抽样值 1.3 2.3 2.7 3.2 1.1 -1.2 -1.6 -1.2 量化电平 1.25 2.25 2.75 3.25 1.25 -1.25 -1.75 0.25 量化级序号 10 12 13 14 10 5 4 8 5 二进制编码 1010 1100 1101 1110 1010 0101 0100 1000 0101 四进制编码 22 30 31 32 22 11 10 20 11 表 1-2 模拟信号的量化和编码由上例可以看出,脉冲编码调制能将模拟信号变换成数字信号,它是实现模拟信号数字传输的重要方法之一。12图 1-9 PCM 通信系统框图前面已经指出,所谓脉冲编码调制,就是将模拟信号的抽样量化值交换成代码。通常,将量化与编码的组合称为模数变换器 A/D 变换器) ;而译码与低通滤波的组合称为数模变换器 DA 变换器) 。前者完成由模拟信号到数字信号的变换;后者则相反,即完成由数字信号到模拟信号的变换。 1.3 语音信号的数字模型1.3.1 声道模型如果声道的长度假设为 17cm 左右,那么用上面的无损声道模型进行计算,在0500Hz 范围内可得到五个共振峰,其位置大体处于500Hz、1500Hz、2500Hz、3500Hz、4500Hz 附近,每个共振峰对应于系统函数中一对极点。从实际语音信号频谱分析得到的结果,也正是从 500Hz 左右起,每个 1000Hz 左右有一共振峰,可见理论分析结果与实测语音信号共振峰分布基本上是吻合的。当然,声道中存在粘滞损耗和热损耗,口唇存在辐射影响,声道截面积也并不是几段均匀截面管子级联而成,因此,实际语音信号中的共振峰的强度、宽度和位置的描述,需要对级联无损声管各模型进行某些修改才能更好的描述。但是,研究表明语音中的鼻音和摩擦音还将引入反共振峰,因此理论上说,应该采用零极点模型才能更全面的反映语音信号的特点。总之,声道特性可以用一个时变线性系统来模拟。1.3.2 辐射影响嘴唇辐射作用可以用一个一阶差分方程近似描述:(1.10))1()0zRz根据语音信号分析得知,嘴唇辐射影响引起的输出信号高频提升作用大约有每倍频程6dB。1.3.3 激励源对于清音来说,激励信号近似于白噪声,对信号频谱包络的形状不产生明显的影响。对于浊音来说,声门振荡产生准周期性的脉冲串,每个脉冲 g(n)有一定的宽度和一定的形状。这样的声门脉冲形状与理想的 脉冲相比,对信号的频谱特性将要产生大约-12dB 倍频程左右的高频衰减作用。不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要傅里叶变换有近似的特性就行了。Rosenberg 在研究声门脉冲形状对于合成语音质量影响时,发现可以用一个人为设计的波形代替自然的声门脉冲波形,它可以用下式产生0 )/cos(121Nnn1N13 (1.11))(ng21/)(cosNn1n21N0 其它1.3.4 完整的语音产生模型把所有的信号放在一起就得到图 1-10 的模型。利用浊音和清音激励发生器两者的交替,我们可以模拟激励形式的改变。事实上,把声门脉冲、辐射和声道这些因素全部结合起来并用一个全极点形式的转移函数来表示它们是比较方便的,即:(1.12))()(zRVGzH图 1-10 语音产生的离散时间模型总图1.4 语音信号的时域处理方法 1.4.1 语音信号及其数字化语音信号是随时间而变的一维信号,它所占据的频率范围可达 10kHz 以上,但是对语音清晰度和可懂度有明显影响的成分,最高频率约为 5.7kHz。CCITT(国际电报电话咨询委员会)提出的数字电话 G.711 建议,采样率为 8kHz,只利用了 3.4kHz 以内的信号分量。照理说,这样的采样率对语音清晰度是有损害的,但受损失的只有少数辅音,而语音信号本身冗余度是比较大的,少数辅音清晰度下降并不明显影响语句的可懂度,就像人们打电话时所体验到的那样。通常模拟电话带宽就只有 34kHz。因此这一标准已为全世界所公认。众所周知,语音信号数字化之前,必须先进行防混叠滤波,滤除高于 12 采样频率的信号成分或噪声。这种防混二滤波通常与模数转换器做在一个集成块内,因此,目前语音信号的数字化的质量是有保证的,我们再也不需在模拟语音信号预处理方面下功夫。1.4.2 语音信号的时间依赖处理 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可假定14为短时平稳的,即在 1020ms 这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样,我们就可以采用平稳过程的分析处理方法来处理了。本部分所要讨论的平均过零率、短时能量和平均幅度以及短时自相关函数,都是在这种短时平稳假定下从时域来分析的一些物理参量。这种时间依赖处理的基本手段,一般是用一个长度有限的自序列(m)截取一段语音信号进行分析,并让这个窗滑动以便分析任一时刻附近的信号,其一般式为:(1.13)mn mnxTQ)()(其中 T 表示某种运算,xm为输入信号序列。几种常用的时间依赖处理方法是:当 为 时, 相应于短时能量;)(xT)(2n当 , 就是短时平过零率;,)(sgsIxxnQ当 为 时, 相应于短时自相关函数。式(1.13)是卷积形)(mx(k式的,因此 可以理解为离散信号 Tx(m)经过一个单位冲激应为(m)的 FIR 低通滤nQ波器产生的输出,如图 1-11 所示。图 1-11 短时分析原理的一般表示由于窗函数一般取 x (n) 为中间大两头小的光滑函数,这样的冲激响应所对应的滤波器具有低通特性。其带宽和频率响应取决于窗函数的选择。用得最多的三种窗函数是矩形窗、汉明(Hamming)窗和汉宁(Hanning)窗,其定义分别为:1 0 nL 矩形窗 = )((1.14)0 其它0 l )1/(2cos46.05. Lnn1L 汉明窗 = )(1.15)0 其它0 I)1/(2cos15.Lnn1L 矩形窗 = )(n(1.16)150 其它其中 L 为窗长,它们都有低通特性。它的主瓣宽度 b,旁瓣高度 a1 如表 1-3 所示。从表中可知;矩形窗的主瓣宽度最小,但其旁瓣高度最高;汉明窗的主瓣最宽,而旁瓣高度最低。矩形窗的分辨太高,会产生严重的泄漏现象(Gibbs) ,因此只在某些特殊场合中采用。汉明窗旁瓣最低,可以有效地克服泄漏现象,具有更平滑的低通特性,因此应用最为广泛。对于同一种窗函数,主瓣宽度与窗长成反比。 矩形窗 汉明窗 汉宁窗b 0.81Hz 1.19Hz 1.87Hza1 -13dB -43dB -32dB表 1-3 1s 长的各种窗的主瓣宽度(b)和旁瓣高度(a1)从图 1-11 我们可以看出,因为 Qn 是 Tx(m)的低通滤波输出,因此的采样率可以比原信号 x(n)的采样率降低很多,只需取采样率为二倍主瓣宽度的频率就可以了。由此可见,窗长越长,它对信号的平均和平滑作用便越厉害,时间分辨率也就越低。要想反映出快速时变的信息,窗长应该取得短一些。1.4.3 短时能量和短时平均幅度信号短时能量定义为;(1.17)mnnxE2)()令 ,则有)(2h(1.18)mnnhx)()2此式的含义可以用图 1-11 中低通滤波作用来解释,h(n)是低通滤波器的单位冲激响应。语音信号的短时平均幅度定义为:(1.19)mnxM)()En 和 Mn 都反映信号强度,但其特性有所不同。1.4.4 短时平均过零率信号 X(n)的短时平均过零率定义为; mn mnxnZ)()1(sg)(s(1.20)一般取1/2N 0nN1)(n0 其 它16信号的过零率是其频率量的一种简单的度量,窄带信号尤其如此。特别地,当信号为单一正弦波时,过零率为信号频率的二倍。对于采样率为 FS、频率为 FO 的正弦波数字信号,平均每个样本的过零数为 2FOFS。过零率有两类重要应用:第一,用于粗略地描述信号的频谱特性,这就是用多带滤波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的计算,即可粗略地估计频谱特性。第二,用于判别清音和浊音、有话与无话。从上述定义出发计算过零率容易受低频于扰。特别是 50Hz 交流干扰的影响。解决这个问题的办法,一个是做高通滤波或带通滤波,减小随机噪声的影响。另一个有效的办法是对上述定义做一点修改,设一个门限T,将过零的含义修改为跨过正负门限。有 mn mnTnxTnxTnxTnxZ )()1(sg)(sg)1(sg)(sg (1.21) 这样计算的过零率就有一定抗干扰能力了。即使存在小的随机噪声,只要它不使信号越过正负门限所构成的带,就不会产生虚假的过零数。在语音识别前端检测时还可采用多门用过零率,进一步改善检测效果。1.4.5 语音端点检测汉语的音节末尾都是浊音,只用短时能量就能较好地判断一个词语的末点。当然,有时的尾拖得很长,衰减比较缓慢,有时韵尾衰减比较快,难免有点误差。一般只要短时平均幅度值降低到该音节最大短时平均幅度的 116 左右以后,就可以认为该音节已经结束。实际上截掉一点拖尾地不会明显影响识别与合成处理。因此汉语孤立词语的末点检测不存在什么困难。汉语词语的起点检测不仅有一定难度,而且检测是否准确对语音识别性能影响颇大,因为大多数声母都是清声母,还有送气与不送气的塞音和塞擦音,将它们与环境噪声分辨是比较困难的。下面介绍两种自动检测语音起点的算法。双门限前端检测算法语音刚开始的一段,其短时能量的大小与背景噪声的短时能量大小差不多,因此要想可靠地检测到语音起点,存在较大困难。双门限法是考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限 Tk 用以确定语音已开始,再取一比 Th 低的门限 TL,用以确定真正的起止点 N1 及结束点 N2。判断清音与无话的差别,是采用另一个较低的门限 T1,求越过该门限“过零率” 。只要 T1 取得合适,通常背景噪声的低门限过零率值将明显低于语音的低门限过零率值,如图 1-12 所示。这种方法普遍地用于有话、无话鉴别或词语前端检测。通常窗长(即帧长)取 1015ms,帧间隔(即 Qn 的采样间隔)取 510ms。17图 1-12 双门限前端检测法多门限过零率前端检测算法双门限法与一般的单门限过零率法相比,可明显地减少前端误判,但是有时存在较大时延因为首次找到高门限越过点,再往前推可能要搜索 200ms 左右才能找到清音的起点,这就不大便于实现实时特征提取。多门限过零率法是设多个高低不同的门限,例如三个门限:T1T2 (max(kk)*0.08)A=real(lpc(y(i-1)*fps+1:i*fps),15);for t=(i-1)*fps+1:(i-1)*fps+15yp(t)=y(t);ep(t)=0;endfor t=(i-1)*fps+16:i*fps yq(t)=-A(2)*yp(t-1)-A(3)*yp(t-2)-A(4)*yp(t-3)-A(5)*yp(t-4)-A(6)*yp(t-5)-A(7)*yp(t-6)-A(8)*yp(t-7)-A(9)*yp(t-8)-A(10)*yp(t-9)-A(11)*yp(t-10)-A(12)*yp(t-11)-A(13)*yp(t-12)-A(14)*yp(t-13)-A(15)*yp(t-14)-A(16)*yp(t-15);e(t)=y(t)-yq(t);if e(t)=0.1ep(t)=0.15;endif (e(t)=0) &(e(t) (max(kk)*0.08)A=real(lpc(y(i-1)*fps+1:i*fps),15);for t=(i-1)*fps+1:(i-1)*fps+1540yp(t)=y(t);ep(t)=0;endfor t= (i-1)*fps+16:i*fpsyq(t)=-A(2)*yp(t-1)-A(3)*yp(t-2)-A(4)*yp(t-3)-A(5)*yp(t-4)-A(6)*yp(t-5)-A(7)*yp(t-6)-A(8)*yp(t-7)-A(9)*yp(t-8)-A(10)*yp(t-9)-A(11)*yp(t-10)-A(12)*yp(t-11)-A(13)*yp(t-12)-A(14)*yp(t-13)-A(15)*yp(t-14)-A(16)*yp(t-15);e(t)=y(t)-yq(t);if e(t)=0.1ep(t)=0.15;endif (e(t)=0) &(e(t)0.1)ep(t)=0.05;endif (-0.1=e(t) &(e(t)0)ep(t)=-0.05;endif e(t)-0.1 ep(t)=-0.15;end yp(t)=yq(t)+ep(t);endendendfid = fopen(d:ep.txt,w);fprintf(fid,%6.2fn,ep);fclose(fid);fid = fopen(d:ep.txt,r);epp=fscanf(fid,%6.2fn);fclose(fi
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。