(信号与信息处理专业论文)基于dsp的melp语音编码算法研究及实现.pdf_第1页
(信号与信息处理专业论文)基于dsp的melp语音编码算法研究及实现.pdf_第2页
(信号与信息处理专业论文)基于dsp的melp语音编码算法研究及实现.pdf_第3页
(信号与信息处理专业论文)基于dsp的melp语音编码算法研究及实现.pdf_第4页
(信号与信息处理专业论文)基于dsp的melp语音编码算法研究及实现.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(信号与信息处理专业论文)基于dsp的melp语音编码算法研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨t 程大学硕十学何论文 摘要 信息社会的高速发展,使得媒介资源、存储资源显得更加宝贵。因此, 压缩语音信号的传输带宽一直是人们追求的目标。m e l p 算法在l p c 模型基 础上,吸收了多带激励算法的优点,通过引入混合激励、非周期脉冲、自适 应谱增强,脉冲整形滤波器和残差谐波谱五项新技术得到了高质量的合成语 音,使其合成语音在2 4 k b s 速率上具有较好的清晰度和可懂度,因此该算法 逐步成为研究热点。 本论文对m e l p 编解码算法做了深入的研究,并对其中一些公式进行了 理论推导。在p c 机上用c 语言在v c 环境下仿真了该算法的编解码过程。 为了将程序移植到t m s 3 2 0 v c 5 5 1 0 d s p 上,并且能实时地完成语音的编解码 工作,作者首先在c c s 环境下进行了软件模拟,结果发现程序执行的延时太 大,无法达到实时的要求,因此对代码进行了优化处理,提高了程序执行的 效率。最后在t m s 3 2 0 v c 5 5 1 0 d s k 平台上成功的实现了算法移植。经过验证, m e l p 算法是一种比较优秀的低速率语音编码方法,具有较高的实用价值。 关键词:混合激励;线性预测:语音编码;d s p 哈尔滨下释大学硕士学位论文 暑昌宣| _ 暑暑;暑| _ 薯;宣置昌昌葺i 暑暑葺置i i ;育j 昌暑宣i 暑车宣置皇宣宣i 嗣| 宣鼍i 目宣一- ir 嗣置 a bs t r a c t w i t ht h ec o n t i n u o r sd e v e l o p m e n to fi n f o r m a t i o ns o c i e t y ,m e d i aa n dm e m o w r e s o b g c e sb e c o m em o r ea n dm o r ev a l u a b l e ,s oc o m p r e s s i n gt h et r a n s m i t t i n g b a n d w i t ho fs p e e c hs i g n a lh a sb e e nat a r g e tt ob ep u r s u e d an e wm i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ( m e l p ) c o d c cw o r k i n ga tv e r yl o w b i tr a t ew a sp r e s e n t e d t h i sc o d e cu t i l i z e st h ea d v a n t a g e so fb o t hl i n e a rp r e d i c t i o n c o d i n g ( l p c ) a l g o r i t h ma n dm u l t i - b a n de x c i t a t i o n ( m b e ) c o d i n ga l g o r i t h m i n o r d e rt og e tn a t u r a ls p e e c hw i t hg o o dq u a l i t y , s o m en e wf e a t u r e so ft h ea l g o r i t h m a n dq u a n t i z a t i o ns c h e m ew e r ee m p l o y e di n c l u d i n gm i x e de x c i t a t i o n , a p e r i o d i c p u l s e s ,a d a p t i v es p e c t r a le n h a n c e m e n t , p u l s ed i s p e r s i o n , a n df o u r i e rm a g n i t u d e m o d e l i n g t h es y n t h e t i c a ls p e e c ho fm e l p i sl e g i b l ea n dn a t u r a l ,w h i c hh a sa l l i 曲s i g n a lt on o i s er a t i oa n dc o m p r e s s i o n r a t i o , i nt h i sd i s s e r t a t i o n , t h ef u n d a m e n t a l so fm e l pw a ss t u d i e da n ds o m eo ft h e f o r m u l a sw e r ev a l i d a t e d t h ec o d i n ga n dd e c o d i n gs i m u l a t i o ni sd o n eo np cb yc l a n g u a g e b e f o r eb e i n gt r a n s p l a n t e dt ot m s 3 2 0 v c 5 5 10d s p , t h ep r o g r a m m e n e e d st ob eo p t i m i z e du n d e rc c st o o li no r d e rt oi m p r o v et h er u n n i n ge f f i c i e n c y o ft h ec o d e a tl a s t , t h ep r o g r a m m e so fm e l po p t i m i z e dw e r er e a l i z a t i o no n t m s 3 2 0 v c 5 510d s k i ti sp r o v e dt h a tt h em e l pa l g o r i t h mi sa ne x c e l l e n tl o w b i ts p e e c hc o d i n gm e t h o da n dh a sh i 曲p r a c t i c a l i t y k e y w o r d s :m i x e de x c i t a t i o n ;l i n e a rp r e d i c t i o n ;s p e e c hc o d i n g ;d s p 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献等的引用已在文中指出,并与参考文献相对应。除文中 已经注明引用的内容外,本论文不包含任何其他个人或集 体已经公开发表的作品成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 作者( 签字) 日期:。州g 年弓月山日 哈尔滨t 程大学硕十学位论文 第1 章绪论 1 1 论文研究背景及意义 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的基 本手段,也是人类进行思维的一种依托。从2 0 世纪9 0 年代开始,人类开始 进入信息社会,也称信息化社会。信息作为继物质和能源之后的第三资源, 在商业发展中起着主导作用。用数字化的方法进行语音的传送、存储、识别、 合成等构成了目前商业应用中最重要、最基本的组成部分之一。也正因为信 息化社会的高速发展,媒介资源、存储资源也就显得更加宝贵。因此,压缩 语音信号的传输带宽一直是人们追求的目标。 贝尔实验室的h o m e rd u d l e y 于1 9 3 9 年发明了第一个声码器之后,语音压 缩编码技术就进入了一个新的时代。8 2 0 世纪7 0 年代推出6 4 k b s p c m 语音编 码国际标准以来,以相继有3 2 k b s a d p c m ,1 6 k b s l d c e l p ,8 k b s c s - a c e l p 等国际标准推出。在2 4 k b s 编码速率基础上,原有的l p c 1 0 以及l p c 1 0 e 虽 然能够合成出清晰可懂的语音,但是语音在自然度方面并不令人满意。1 9 9 7 年3 月t e x a si n s t u m e n t s 公司的a l a nv m c c r e e 等人提出的混合激励线性预测 ( m e l p ,m i x e d e x c i t a t i o nl i n e a rp r e d i c t i v e ) 算法替换- ) l p c 10 e 算法。该算法 吸收了多带激励以及原型波形内插等算法的一些思想,采用了许多新措施, 使得在2 4 k b s 上能够得到更高质量的合成语音,并于1 9 9 7 年被确定为新的美 国联邦标准。 在国内,由于语音编码方面的研究起步较晚,因此在语音编码国际标准 的提出方面还处于相对落后的局面。目前国内对低速率语音编码方面的研究 主要集中在对国外现有理论做一些改进,例如清华大学已经利用语音信号的 相关性,采用帧联合方法将编码速率降至0 8 k b s t 1 ,甚至更低。 1 2 语音编码技术概述 1 2 1 语音压缩编码的理论依据 语音信号可以进行压缩编码的基本依据包括两个方面的原因:一方面是 哈尔滨t 稃大学硕十学位论文 语音信号本身存在很大冗余度,这是语音可压缩编码的外因;另一方面是由 于入耳的听觉感知机理,这是语音可压缩编码的内因州。 可以利用语音信号的产生机理和结构特性去除其中存在的冗余,从而达 到压缩编码的目的。语音信号的冗余度总结起来有以下几方面: 1 语音信号样本间相关性很强。 2 浊音语音段具有准周期特性。浊音波形不仅显示出周期之间的冗余 度,而且还显示出了对应于音调间隔周期的长期重复图形。因此,可以对一 个音调间隔波形来编码,并一起作为同样声音中其它基音段的模板。 3 声道的形状及其变化的速度是有限的。 4 存在静止系数。语音间隙本身就是一种冗余,若能正确检测( 或预测) 出该静止段,便可以“插空”传输更多的信息。 5 非均匀的长时功率谱密度。在相当长的时间段内进行统计平均,可得 到语音信号的长时功率谱密度,它表现出强烈的不平坦性,低频能量高、高 频能量低,这就意味着没有充分地利用给定的语音频段,存在着固定的冗余 度。 还可以利用人类听觉的某些特点,即人耳的听觉感知机理进行语音压缩 编码。人的听觉生理和心理特性对于语音感知的影响主要表现在以下几点: 1 人类听觉系统具有掩蔽效应。通俗的讲,一个强音能够抑制一个同时 存在的弱音而导致人耳听不到或不敏感这个弱音。对人耳听不到的或极不敏 感的声音分量可以看作是冗余。 2 人耳对不同频段声音的敏感程度不同。由于浊音的周期和共振峰主要 集中在低频段,因此人耳对低频段比较敏感,而对高频段不太敏感,即较强 的低频音能抑制同时存在的高频音。 3 人耳对语音信号的相位变化不敏感,因此入耳听不到或感知不灵敏的 声音相位分量可以当作冗余信号。 1 2 2 语音压缩编码的极限速率 由于语音信号本身存在很大的冗余度和人耳的听觉感知机理,对语音信 号进行压缩编码成为了可能。那么究竟把比特率降到什么程度而又不会使合 成语音发生明显失真呢? 下面我们就分别从语音和语言的角度来分析语音编 2 哈尔滨t 程大学硕十学何论文 码的极限速率。 从语音的角度来看,语音中最基本的单位是语素,世界上语音的语素二 般约为1 2 8 个 2 5 6 个,如果按照通常的说话速度,每秒平均发出1 0 个音素。 则根据信息论的观点,此时的信息率为 i = l 0 9 2 ( 2 5 6 ) = 8 0 ( b s ) 从语言的角度来看,把发音看成是以语音的速度来发报文。对英语来讲, 每一个字母用7 b 编码,每分钟发1 2 5 个英语单字可以认为达到了通信语音速 率。如果每个单字平均由7 个字母组成,则此时的信息率为 ,= 7 7 等1 0 0 ( b s ) 6 0 因此,一般可以认为语音编码的极限速率为8 0 b s - - l o o b s 。当然,这时 只能传送句子的内容,至于说话者的音质、音调等重要信息已全部丢失。但 是,从标准的语音编码速率( 6 4 k b s ) 到语音编码的极限速率( 8 0 b s - - 1 0 0 b s ) 之 间存在着很大的跨距( 约6 4 0 倍) ,这对于理论研究和实践有着很大的吸引力。 1 2 3 编码器的分类 根据语音信号的不同处理角度,语音编码可有多种不同的分类u 1 。 1 按照编码方法分类,语音编码器可以分为波形编码、参数编码( 也叫 声码器( v o e o d e r ) 和混合编码( h y b r i dc o d e r ) 。 波形编码的指导思想是将语音信号当作一般的波形信号来处理,力图使 重建语音波形保持原语音信号的形状,即在编码端以波形逼近为准则对语音 信号进行压缩,在解码端根据这些编码数据合成语音信号波形。这类编码器 通常具有适应能力强、语音质量好、算法运算复杂度低、抗噪声性能好等优 点,脉冲编码调韦i j ( p c m ) 就属于这类编码器。波形编码能在6 4 - - - 1 6 k b s 的比特 率上得出较高的编码质量,当速率进一步降低时,其性能会下降很快。 参数编码通过对语音信号特征参数的提取及编码,力图使重建语音信号 具有尽可能高的可懂度,而重建语音信号的波形同原始信号可能会有较大差 别。参数编码的优点是编码速率低,例如可以达到2 4 k b s 以下,本文研究的 算法就属于这一类算法。它的主要问题是合成语音质量较差,特别是自然度 较低。另外这类编码器对环境噪声较敏感,需要通过改进编码算法来克服这 哈尔滨t 程大学硕十学位论文 些缺点。通道声码器、共振峰声码器以及线性预测声码器( l p c i o ) ,混合激励 线性预测声码器( m e l p ) 都属于这一类声码器。 混合编码是波形编码和参数编码的有机结合。与参数编码相同的是,它 也基于语音产生模型的假定并采用了分析与合成技术( a n a l y s i sb ys y n t h e s i s ) , 但同时它又利用了语音信号的波形信息,增强了重建语音的自然度,使得语 音质量有明显提高,其代价是编码速率相应上升,一般在1 6 2 4 k b s 之间。 其代表算法有码激励线性预测( c e l p ) 、多脉冲激励线性预测( m p l p c ) 、规则 脉冲激励线性预澳o ( r p e l p c ) 等。这一类算法是在实际中应用范围最广的一 类算法。 2 按照编码比特率来分,可以分为高速率( 3 2 k b s 以上) 、中高速率 ( 1 6 3 2 k b s ) 、低速率( 1 2 - 4 8 k b s ) 和极低速率( 1 2 k b s 以下) 。不同的编码技术 导致了不同的比特率。一个特定的编码算法在一个特定的比特范围内效果很 好,但是超出了这个范围编码效果可能会急剧下降。语音编码器所能达到的 最低速率受到语音信号信息量的限制。 1 2 4 语音编码器的属性 语音编码器的属性包括四个部分,即质量、速率、复杂度和延时。语音 编码研究的基本问题就是在给定编码速率条件下,如何得到尽可能好的重建 语音质量,并保证尽可能小的编解码延时和适当的算法复杂度;或者说是在 给定编码质量、编解码延时及算法复杂度的条件下,如何降低语音编码所需 的比特率。这四个因素之间有着密切的联系,并且在不同的应用中对各方面 的侧重要求也有所不同。 语音编码质量是衡量语音编码算法优劣的关键性能之一。编码质量归纳 起来可以分成两类,即主观评价方法和客观评价方法。 语音主观评价主要采用的是统计的方法,对高质量的语音通常要求考虑 语音质量的各种因素,例如清晰度和自然度等。清晰度是衡量话音中的字、 单词和句子的可懂度;自然度则是对讲话人的辨识水平。对其评价和测量方 法通常用平均意见打分m o s ( m e a no p i n i o ns c o r e ,简称m o s 得分) 、判断韵 字测试( d i a g n o s t i cr h y m e rt e s t ,简称d r t 得分) 和判断满意度测试( d i a g n o s t i c a c c e p t a b i l i t ym e a s u r e ,简称d a m 得分) 等。 4 哈尔滨_ t 稗大学硕十学位论文 当前常用的客观评价方法可以分为时域失真的测量和频域失真的测量。 对于时域失真,通常采用信噪比作为测量方法;对于频域失真,通常采用频 谱失真和谱包络失真作为评价方法。它们都建立在均方误差测度的基础上, 其特点是计算简单,但不能完全反映人对语音质量的感觉,这个问题对于速 率为1 6 k b s 以下的中、低速率语音编码尤为突出。 编码速率直接反映了语音编码对语音信息的压缩程度。编码速率又称比 特率,它是_ 个编码器的信息速率。在语音通信系统中,它决定了编码器工 作时所占的信道带宽,低速率语音编码可以占用较少的信道带宽。 编码速率可以用“比特秒( b s 或b p s ) 来度量,它代表了编码的总速率, 一般用j 表示。编码速率也可以用“比特样点( b p ) 来度量,它代表了平均 每个语音样点用多少个比特编码,一般用尺表示。,和r 可咀通过采样率工 联系起来:j = r xf 。 很明显,平均每样点比特数r 越高,语音波形或参数量化则越精细,话 音质量也就越高,相应地,对传输带宽或存储容量的要求也就越高。在目前 的波形编码中,为了获得高质量的重建语音,尺一般要大于2 ,但在参数编 码中,r 可以是几分之一个比特或更低,这时的重建语音质量在自然度方面 会有很大的损失。 编解码算法的复杂程度与语音编码的话音质量有密切的联系。在相同比 特率情况下,采用相对复杂的一些算法会获得更好的话音质量。 在数字语音通信系统中,语音编解码延时对系统的通话质量有很大的影 响。一般地,编解码的算法越复杂,延时越大。延时过大,会导致正常通信 困难,而且会产生明显的回声而干扰人的正常思维。因此在实时语音通信系 统中,必须对语音编码算法的编解码时延提出一定要求。对于公用电话网, 编解码时延通常不超过5 - - - 1 0 m s ,而对于移动蜂窝通信系统,允许的最大时 延不超过1 0 0 m s 。 1 3 论文研究内容及章节安排 首先深入研究了m e l p 低码率语音编解码原理和算法。重点研究了 m e l p 算法中采用的各项关键技术,并对其中一些关键公式进行了推导。 接着分析m e l p 编码程序,深入了解其新算法在编程上的体现。并在p c 5 哈尔滨t 稃大学硕十学何论文 宣li i ni i 宣嗣宣宣宣暑i 皇i 葺| 机上,v c 6 0 环境下模拟实现m e l p 算法,验证其在p c 机上的可行性。其 中包括w a v 文件结构的分析,w a v 文件头的读写、剥离、写入等工作。 接下来是在t m s 3 2 0 v c 5 5 1 0d s k 实验板上研究m e l p 算法的实时实现 性能,研究该算法的嵌入式可行性。 论文章节安排如下: 第一章主要介绍本论文的研究背景及意义,并简要介绍了语音压缩编码 的基本理论基础及应用前景。 第二章主要是结合m e l p 算法细节详细介绍了语音信号编码处理的原 理、语音信号产生的数字模型、一些常用方法、编码器种类及评价标准等。 第三章主要是介绍m e l p 编解码原理,并在v c 环境下实现该算法,包 括w a v 文件的头文件读写、压缩及解压缩程序运行及分析等。 第四章介绍t m s 3 2 0 v c 5 5 1 0d s k 并研究m e l p 在d s p 上的实现性能。 6 哈尔滨t 稃大学硕十学何论文 第2 章语音编码基础理论 2 1 语音信号产生的数学模型 为了能够对语音信号进行数学处理,需要将语音的产生模型做一定的简 化。从而把语音信号产生的物理模型抽象为一个数学模型。寻找出语音信号 产生的物理模型和抽象的数学模型各个部分之间的对应关系,这对于研究语 音信号尤其对语音编码来说是非常重要的p 1 。所以,语音产生的物理模型可 以用如图2 1 所示的数学模型柬表示: 语音信号 图2 j 语音信号产生的数字模型 在整体上把这个模型的数字语音信号看成两部分:激励源和声道参数。 激励源由浊音( 当气流通过声门时使声带发生振动产生的准周期脉冲激励的 音) 和清音( 在发音时声带不振动,类似于宽带噪声源的输出气流高速通过收 缩的通道而产生湍流得到的音) 两个分支产生组成,即二元激励。 从图2 1 可知激励源简单分为浊音和清音两个部分,按照浊音、清音开 关所做的判决来决定语音的激励。 开关接在浊音位置时,激励信号是由周期脉冲发生器产生的周期为n o 的冲激序列,即每隔n o 便有一个样值为l ,而其它样值均为0 。n o = f f p ,石 为采样率。当工= s k h z ,f p = 5 0 , - - 4 5 0 h z 对,舻1 8 - 1 6 0 个样点, 当开关接在清音位置时,激励信号是随机噪声发生器产生的序列,可令 该序列服从均值为0 ,方差为1 的高斯分布。 声门脉冲模型滤波器领z ) 的作用是:使浊音的激励信号具有声门气流脉 冲的实际波形。声门波形的频率分析表明,其幅度频谱按每倍频1 2 d b 的速 率递减。如果令 7 哈尔滨t 稃大学硕十学何论文 g ( 力2 而两矗两( 2 - 1 ) 其中,g l ,9 2 都接近于l ,那么由其生成的浊音激励信号频谱接近于声门气 流脉冲的频谱。 增益因子a ,和彳。分别用于调节浊音语音和清音语音的幅度或能量。 声道模型坎z ) 给出了声道的传输函数,把实际声道作为一个变截面声管 加以研究,采用流体力学的方法可以导出,在大多数情况下,它是一个全极 点函数。这样,坎z ) 可以表示为 1 y(z)=i二一(2-2) z t = o 其中,= 1 ,0 c i 为实数,p 为全极点滤波器的阶数。这里将截面积连续变化 的声管近似为p 段短声管的串联,每段短声管的截面积近似不变。p 值越大, 该模型的传输函数与声道的实际传输函数的吻合程度就越高。但对于大多数 实际应用而言,p = 8 - - - 1 2 就可以满足要求了。如果p 为偶数,那么一般 有p 2 对共轭极点:r k e x p ( 坷七) ,k = - i 聊。各个翻孟分别与语音的各个共振 峰相对应。 辐射模型r ( z ) 与嘴有关,r 一般可以表示为r ( z ) - - ( 1 - - r z 。) ,1 ( 单零 点传递函数1 l 。 在上述语音信号产生的数字模型中,g ( z ) ,r 保持不变。石,么,彳材, 清浊判决,声道参数a j ( i = l ,2 ,p ) 是时变的,发声器官的惯性使这些参 数的变化速度受到限制。对于声道参数,在o 3 0 m s 内近似不变,语音分析 帧长一般为2 0 m s 左右。对于激励参数,在5 m s 左右近似不变。 数字语音处理中的语音分析和语音合成问题都是基于上述模型来实现 的。语音分析是根据原始语音信号来估计信号模型的参数,而语音合成则是 利用信号模型参数产生出在可懂度和自然度方面可接受的语音。语音信号的 这种分析合成系统在中低速率语音编码中应用十分广泛,在后面我们将专门 介绍基于分析合成的语音编码系统。 8 哈尔滨丁程大学硕士学何论文 2 2 语音编码通用模型 现代通信的重要标志就是实现数字化,而要实现数字化首先得先把模拟 信号转变为数字信号,同时为了提高语音信号数字传输的有效性,通常还要 对数字语音信号进行压缩,这种将模拟语音信号转变为数字语音信号再进行 压缩编码的过程就是语音编码的概念。 根据语音编码的概念,可以建立语音编码的通用模型,如图2 2 所示。 黼 嚣呕口 i h 翦p x 云卜群 图2 2 语音编码通用模型 对于模拟语音信号来说,其浊音的频谱在超过4 k h z 的分量比其峰值要 低4 0 d b 以上;而对于清音,即使超过4 k h z ,频率分量也没有显著下降。因 此,表示语音信号的频谱只要0 - 4 k h z 的分量就可以了。根据奈奎斯特准则, 对于带宽为4 k h z 的模拟语音信号,采样率为8 k h z 就能完成采样,采样后的 信号为时间离散、幅度模拟的采样序列。 为了在数字语音通信信道上传输采样后的序列,或者为了将其存入数字 存储器,或者为了进一步对其进行某种数字处理,都要将采样序列的每一个 采样值进行量化处理,即用一个由有限种幅度构成的集合中的幅度值来近似 各采样值,一般是用十进制幅度值来表示。量化后的信号为时间离散、幅度 离散的量化序列。 量化后的十进制幅度值还要用一组二进制脉冲序列来表示,这就是所谓 的脉冲编码。一般用1 6 比特量化的线形脉冲编码调f l 割 ( p c m ) 编码来完成。 为了节省传输信道带宽或存储空间,人们还要对数字语音信号进行压缩, 以使它变成速率更低的二进制码流,这才是通常意义上所说的语音编码算法。 这个过程与国际上通用的语音编码过程是完全一致的。以下将介绍语音编码 算法的一些关键技术,本文的中心算法m e l p 也是基于这些基本方法产生的。 2 3 语音信号的线性预测分析 2 3 1 线性预测分析基本原理 9 哈尔滨下程大学硕十学 7 :论文 线性预测分析法是最有效的语音分析技术之一,它所包含的基本概念是: 一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼 近。在线性组合中的加权系数称为预测器系数。通过使实际语音抽样和线性 预测抽样之间差值的平方达到最小值,能够决定唯一的一组预测器系数。 线性预测的基本原理是建立在语音的数字模型基础上,对于估计数字模 型中的参数,线性预测法提供了一种可靠精确而有效的方法。 线性预测分析一般借助于线性预测误差滤波器来实现,线性预测误差滤 波器的传递函数彳( z ) 为 上 彳( z ) = 1 一口z 1 ( 2 3 ) t = l 其中,p 为预测器阶数, 仍 户i 2 ,p 为线性预测器系数,其框图如图2 3 所示。 语音碾、双j耿铡l 天左 a ( z ) n ) 图2 3 语音信号的线性预测模型 输出p ( 功和输入j 伽) 满足如下关系( 由式( 2 - 3 ) 得到的差分方程) : e ( 挖) :s ( 聆) 一;( 玎声( 聆) 羔q s ( 刀一f ) ( 2 4 ) j ;i 其中j ( 刀) :a , s ( n 一,) 称为j ( 功的预测值。 百 由此可见,i ( n ) 是由过去的一组样本值s ( n - 1 ) ,s ( n 一2 ) ,s ( n - p ) 线性组 合而得,它是从s 研) 的过去样本值来预测当前值咖) 的结果,故又称之为线 性预测值。p ( 砼) 是原始信号文玎) 和预测信号;( 玎) 之差,称作为线性预测误差。 线性预测分析( l p a ) 实质上就是设计一个预测误差滤波器彳( z ) ,即求解 口m :1 , 2 ,p 使得预测误差p 0 ) 在某个预定的准则下最小。理论上通常采用均方 误差e 【p 2 ( 疗) 】最小准则。e 【】表示对误差的平方求数学期望或平均值。根据 上面p 伽) 的定义,( 力) 的数学期望为 l o 哈尔滨t 程大学硕士学1 = :论文 球z ( 枷:ei s ( 咖圭q 咖_ f ) 】2 ( 2 5 ) l百j 令 0 e : e _ 2 ( n ) :0 ,1 ,p 一= - 、,s 仃 u u j 即 o e _ e 一2 ( n ) :- 2 e l p 伽p 州;0 ( 2 - 6 ) w , 将p ( ) 按式( 2 - 4 ) 代入,可得 e 【j ( ) s ( 刀- j ) - 艺a , s ( 疗一f ) s ( 疗一,) 1 4 1 ( 2 7 ) n mr ( j ) - 2 a , r ( 歹- i ) - - 0 ,1 歹s p 其中r ( j ) = e s ( n ) s ( n 朋是s ( 力) 的自相关序列。式( 2 7 ) 可以写成矩阵形式: ,一兄= 0 ( 2 - 8 ) 这里自相关矢量,、自相关矩阵足和参数矢量a 分别为 ,o ,( 1 ) ,( 2 ) r ( p ) ,r - ,( o ) ,( 1 )r ( p 一1 ) ,( 1 ) ,( 0 ),p - 2 ) r ( u - 1 ) r ( p - 2 ) r ( o ) , 口2 q 吒 : a p 式( 2 - 8 ) 称为y u l e w a l k e r 方程,p 个预测系数口f 可通过求解方程式( 2 - 8 ) 得到, 由此求得的a ,将使得预测误差的输出均方值或者说输出功率最小。令这一最 小均方误差为昂,即 q :e z ( 刀) 】岫:e k ( 玎) s ( 刀) 芝q s ( 行f ) ) 】( 2 - 9 ) 由式( 2 6 ) 可以得到 哈尔滨- t 程大学硕十学何论文 t = e e 2 ( 疗) 】m i 。= e 【p ( 刀p ( 刀) 】 = e 【 s ( 刀) 一c l ,8 ( r i - 凇( 以) 】 ( 2 1 0 ) i = 1 = ,l ( 一a t ( i ) ,= i 综合式( 2 8 ) ( 2 1 0 ) ,得到 ,( 0 ) r o ),( p ) ,( 1 ) r ( o )r ( v 1 ) r ( 2 ) r o ),p 一2 ) : ,p ) r ( p - o ,( 0 ) 1 q 呸 : q e p 0 0 : 0 ( 2 1 1 ) 式( 2 1 1 ) 是完整的、针对平稳信号的线性预测误差滤波器求解方程式。 2 3 2 线性预测分析的鼹法 本课题主要采用的是自相关解法,下面仅就这一解法做详细地介绍及相 关公式的推导。 、 对于平稳遍历的随机信号,通常用时间平均代替集平均。在进行语音信 号数字处理时,一般是分帧进行,一帧的长度为l o - - 3 0 m s ,根据语音信号的 短时平稳特性,可假定待分析帧语音信号是平稳遍历的。 自相关方法假定语音信号序列5 ( 玎) 在间隔d h 弋 n - 1 以外等于零,即语 音信号被一有限长窗所截取而分帧,语音信号在该窗口内视为平稳的随机信 号,而后,对加窗处理后的信号做自相关序列估计。 在自相关法中,自相关序列估计定义为 卫 r ( j ) = s ( n ) s ( n 。_ ,) ,o j p ( 2 1 2 ) h 呦的这种估计值保留了信号s ( n ) 自相关序列的特性,如r q ) 满足偶函数特性; r ( - o 只与歹、f 的相对值有关,丽与其绝对值无关等。 又因为线性预测分析的关键是求解如下方程组的解 1 2 哈尔滨t 程大学硕十学位论文 厂( ,) 一圭口,( ,f ) :0 ,l j p ? ( 2 1 3 ) ,( o ) 一口,( f ) = 乜 因此( 2 1 3 ) 仍可写成如下形式 r ( o ) ,( 1 )r ( p ) r ( 1 ) r ( 0 )r ( p - 1 ) r ( 2 ) r ( 1 )r ( p - 2 ) r ( p ) r ( p - 1 ) r ( 0 ) 1 。q 。口2 : a p e p 0 0 : 0 ( 2 1 4 ) 这时方程( 2 1 4 ) 中的自相关阵助i 是( 矿1 ) ( 矿1 ) 阶对称阵,并沿着任何一条 对角线上的所有元素都是相等的,这种矩阵称为t o e p l i t z 矩阵。对于这种具 有t o e p l i t z 性质矩阵的方程组,可用一种特殊的递推算法求解,其指导思想 是:f 阶方程组的解可以用( i - 1 ) 阶方程组的解来表示,( i - 1 ) 阶方程组的解又可 以用( i 2 ) 阶方程组的解表示,依此类推。因此只要解出一阶方程组的解,就 可以一步一步地递推解出任意阶方程组的解。其中最常用的是 l e v i n s o n d u r b i n 算法。其运算步骤及结果如下: e o = r ( 0 ) ( 2 1 5 ) i - l 【,( f ) 一“a ,o - ) r ( i 一埘 砖= 互。 彰d = 毛 , 1 i p ( 2 - 1 6 ) ( 2 1 7 ) 口争矿一膨列,l _ j - i - 1 ( 2 1 8 ) 、 互= ( 1 一砰) e 一。( 2 1 9 ) 经过以上各式计算后,可得到净1 ,2 ,p 的各阶的解,最终解为 a l = 巧川,l5 p ( 2 2 0 ) 1 3 哈尔滨丁程大学硕十学俯论文 每一步递归的关键在于系数七f ,这个系数具有特殊意义,称之为偏相关系数 或反射系数。令- - 0 时开始递归,由式( 2 1 4 ) 获得开始递归的初值e o = r o ,即 可得到式( 2 1 5 卜( 2 - 1 9 ) 的递推公式,f 印时,递推结束,得到最终的解为式 ( 2 2 0 ) 。, 从式( 2 1 9 ) 我们可以得到: t = r ( o ) ( 1 一砰) 最小预测误差能量昂一定大于零,且阶数p 增大时,昂将随之减小。这就是 说,反射系数岛一定满足:i t l 1 ,1 f p ,只有在 1 时,系统才能保 持稳定。 2 3 3 语音信号模型与线性预测误差滤波器参数之间的关系 在2 1 节我们给出了语音产生的数字模型,为了便于分析语音信号模型 与线性预测误差滤波器参数间的关系,我们将辐射、声道及声门激励组合谱 效应用一个时变数字滤波器来表示,如图2 4 所示,其稳态系统函数形式为 蚴2 器2 而g 并 对于浊音语音,这个系统受冲激串激励:对于清音语音,则受随机噪声 序列激励。因此这个模型的参数有:清音浊音分类、浊音语音基音周期、 增益参数g 和数字滤波器系数( 嘎) ,所有这些参数都随时间缓慢变化。 图2 4 简化的语音产生模型 这个模型的优点是可以用上面介绍的线性预测分析法对模型的增益参数 g 和滤波器系数 线) 进行非常直接而且高效率的计算。 1 4 哈尔滨t 程大学硕+ 学位论文 根据式( 2 2 1 ) 可以写出模型的输出信号为 s ( 力) :g u ( 刀) + 圭a i s ( n f ) ( 2 - 2 2 ) f i i 即激励信号g u ( n ) 可以表示为 g u ( 玎) :j ( 栉) 一圭q s 仍f ) ( 2 - 2 3 ) 将式( 2 4 ) 与式( 2 2 3 ) 对比发现,当= q 时,可以得到 e ( n ) = g u ( n ) ( 2 2 4 ) 也就是说,输入信号正比于误差信号,其比例常数等于增益常数g 。这里, 式( 2 2 4 ) 只是近似的( 这取决于理想的和实际的预测器系数相一致的程度) ,通 常不可能用一种可靠的方法直接由误差信号本身解出g 。更合理的是,假定 误差信号的功率等于输入激励信号的功率,由此得到 e g 2 材2 ( 刀) 】= e e 2 ( 刀) 】= e( 2 2 5 ) 在此,我们对川 ) 分两种情况讨论,以使g 与a 1 联系起来。 首先,对于清音语音,假设“疗) 为一个零均值和单位方差的平稳白噪声 过程。此时将式( 2 - 2 3 ) 两边乘以s ( n - j ) ,( 1 勺力,再求均值: 卫 g e u ( n ) s c n 一 j ) 】。e t s ( n ) - 呸s 0 一i ) s c n 一歹) 】( 2 - 2 6 ) ,= l 因为甜( 刀) 与s 0 ) 不相关,即e u ( n ) s ( n - 州= 0 ,则上式可以写成 p ,( ,) - a i r ( 沪o ,l sp ( 2 2 7 ) i = 1 再将式( 2 - 2 3 ) 两边乘以j 仰) 求均值,等式左边: e g 材( 理) s ( 姐) 】:e 【g 材( 拧) g 掰( 挖) + 兰q s ( 玎f ) ) 】= g 2 i = 1 等式右边: e 陬刀) 一圭s ( ”讲s ( 甩) 】:,( o ) 一圭q 厂( ,) i = 1,;l 1 5 哈尔滨丁程大学硕十学何论文 可得 g 2 = r ( o ) - - 艺a i ,( 砂 ( 2 2 8 ) i = 1 比较式( 2 - 2 7 ) 、( 2 - 2 8 ) 和式( 2 7 ) 、( 2 一l o ) ,可发现预测系数和信号模型参数满足 相同的方程组,且增益常数g 的平方等于预测误差功率昂,即e p = g 2 。 其次,对于浊音语音,合理假定( 刀) = 万( 疗) ,即激励信号是n - - o 点的单 位取样。此时模型的输入为g 6 ( n ) ,对于这个特定的输入,模型的输出为系 统函数商的冲激响应向( 力,即 办( 刀) :圭q 厅( 刀f ) + o j ( 刀) ( 2 - 2 9 ) j , - i 考虑到厅) 的因果性,即当n o 时,j z ( 力) = o ,定义办( 拧) 的自相关函数为: 尹( ) = 办( 疗) 办( 刀+ j f ) ( 2 3 0 ) n = o 且产( j f ) 为偶函数,即尹( j f ) = e ( - j ) ,所以 f ( ) = h ( n ) h ( n 一) ( 2 3 1 ) 对式( 2 - 2 9 ) 两端同乘以h ( n j ) ( 1 j p ) ,并在( 0 ,0 0 ) 区间求和,可得: h ( n ) h ( n 一) = a i h ( n - i ) h ( n j ) + g 6 ( n ) h ( n 一朋 n = 0n = 0i = 1 = 呸向( 刀- 啪( 玎一歹) + g 万( ,1 ) 办( 玎一歹) j = in = on = o = q 尹( 一o + g a ( o ) h ( q ) i = l = a f ( j f ) 即 ,( ,) 一兰,u 婷0 ,( 1 j f 5 p ) ( 2 - 3 2 ) t = i 1 6 哈尔滨t 程大学硕十学位论文 式( 2 2 9 ) 两端同乘以a ( 甩) ,并在( o ,0 0 ) 区问求和,可得: 厅( 疗) ( 疗) = q 办( 聆- 啪( 疗) + g 万( ) 厅( 甩) 】 n = on = oi f f i l = h ( n ) h ( n i ) + g e 万( 哟办( 吣 j f f i l一;on = o = q 酮+ g 万( o ) 办( o ) = 1 = q 删+ g 2 即 g 2 = ,( o ) 一呸酮 ( 2 - 3 3 ) t = l 比较式( 2 3 2 ) 、( 2 - 3 3 ) 和式( 2 - 7 ) 、( 2 - 1 0 ) ,同样可以发现预测系数和信道模型参 数满足相同的方程组,且增益常数g 的平方等于预测误差功率历。 由此得到,当按均方误差最小准则设计线性预测滤波器时,所得预测器 系数 口0 产l ,和图2 4 给出的语音产生模型参数 口i j = n 2 护具有相同的值。 所以,在实际应用中,我们总是通过求解线性预测误差滤波器来确定语音产 生的声道模型参数。 2 3 4l p 系数与l s f 参数的相互转换 l s f ( 线谱频率) 参数( 或l s p ( 线谱对) 参数) 是l p ( 线性预测) 参数的另一种 表现形式。如果把声道等效为( 矿1 ) 段声管级联而成,则线谱频率表示声门完 全开启或完全闭合状态下声管的谐振频率。 用l p c 参数可以很好地表征人的发声系统的系统函数,但是,l p c 参数 的一些固有缺点使得其在语音编码中的直接使用有很大的困难。首先,l p c 参数的动态范围比较大;其次l p c 参数对l p c 滤波器的频谱影响很灵敏, a ,的微小变化,可能会带来频谱的急剧变化,这两个缺点对l p c 参数的量化 非常不利。 线谱对频率q ,( 9 29w ,f o r , 是由l p c 参数推导出的一组参数。它具有许多 优良的性能,最典型的是个线谱频率参数的误差仅仅影响全极点模型中邻 1 7 哈尔溟t 程大学硕十学位论文 近这个参数对应频率处的语音谱,而不影响其它地方,这有利于l s f 参数内 插和量化。这些性能使得它在低速率语音编码和语音识别等领域中得到了广 泛的应用。 l s f 参数定义为如下多项式的根: 尸( 力= 么口( z ) 一z 1 川a p ( z 4 ) ( 2 3 4 ) q ( z ) = 4 ( z ) + z 一洲a p ( z 1 ) ( 2 - 3 5 ) 可以证明: 1 尸( z ) ,q ( z ) 的根都在单位圆上。 2 p ( z ) ,q ( z ) 的各个根的频率在单位圆上交错排列。根在单位圆上的上 半圆分布为 0 ,o o ,l 1 万, 或表示为: 0 2 q 鸱 + 1 5 万,其中q ,哆9 * , o9 称为l s f 参数,它们构成 一组描述语音信号的特征矢量。 下面介绍由l p 系数求l s f 参数的方法:假定预测阶数p 为偶数( m e l p 算法中p 为1 0 ) ,其中: a p ( z ) = l + a l z 一1 + a 2 z 。2 + + z p ( 2 3 6 ) a p ( z 一1 ) = + a l z + a 2 2 2 + + 口p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论