




已阅读5页,还剩72页未读, 继续免费阅读
(通信与信息系统专业论文)语音信号数字处理中语音编解码算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在语音信号数字处理过程中,语音编码技术是至关重要的。在数字化的信息 时代中,语音编码有着广泛的应用前景,研究完善的语音编码技术是语音信号数 字处理中的大势所趋。本文概要介绍了语音信号数字处理的基本原理,系统研究 了语音信号数字处理中的语音编解码算法,重点分析了线性预测编码算法的改 进,探讨了神经网络算法在语音编码算法改进中的应用。 在改进线性预测编码算法的过程中,为了提高再生语音的质量,借鉴了混合 激励等其它一些方法来改善激励源。主要在于将清音的激励源信号高斯白噪声中 加入两个正负的脉冲,目的是为了有效的改善爆破音的质量。浊音激励源信号则 用经过低通滤波器的基音周期脉冲叠加通过高通滤波器的高斯白噪声来产生。本 文通过引入似然失真比来衡量l p c 系数相似度,减少了l p c 系数的传输率,并采 用基于分类的矢量量化编码方法,在保证再生语音质量的前提下可降低编码速 率。 语音信号的产生是一个非线性过程,语音信号是非线性的,本文研究了基于 神经网络算法的语音信号非线性预测编码算法,与传统的线性预测语音编码系统 相比,基于神经网络非线性预测的语音编码系统实质上是将基于线性预测的语音 编码系统中线性预测模型用神经网络来代替。通过这种改进方法,可以降低算法 复杂度,提高语音编码算法的平均信噪比( s n r ) 。 矢量量化( v q ) 是一种高效的数据压缩技术,在语音编码领域得到了广泛应 用。基于神经网络实现的矢量量化器采用并行方式处理输入矢量,码字分散地存 储在网络的连接权值中,因此码字的搜索编码过程速度快,效率也较高。本文通 过应用神经网络算法,可以达到优化矢量量化的效果。 在各种语音编解码改进算法的实现过程中,我们采用了t i 公司的 t m s 3 2 0 c 5 4 0 2d s k 板为硬件平台及c c s 集成开发环境。为了既提高程序效率,又 提高编程效率,在编写整个系统软件时可以采用软件优化算法。 关键词:语音编码神经网络矢量量化d s p a b s t r a c t i nt h ed i g i t a lp r o c e s s i n go fs p e e c hs i g n a l s ,s p e e c hc o d i n gt e c h n i q u ei sm o s t i m p o r t a n t i nt h e e r ao fd i g i t a li n f o r m a t i o n ,t h ea p p l i c a t i o no fs p e e c hc o d i n gi sv e r y a b r o a d s oi ti sn e c e s s a r yt os t u d yp e r f e c ts p e e c hc o d i n ga r i t h m e t i ci nt h ed i g i t a l p r o c e s s i n go fs p e e c hs i g n a l s i nt h i sp a p e r ,t h eb a s i ct h e o d e si nt h ed i g i t a lp r o c e s s i n go fs p e e c hs i g n a l sa x e o u t l i n e d ,t h es p e e c hc o d i n ga n de n c o d i n ga r i t h m e t i c sa r ed i s c u s s e d , a n dt h el i n e a r p r e d i c tc o d i n gi si m p r o v e d i nt h ei m p r o v e m e n to fs p e e c hc o d i n g ,t h en e u r a ln e t w o r ki s a p p l i c a t e di nt h ev e c t o rq u a n t i z a t i o n i nt h ep r o c e s s i n go fa m e n d i n gt h el i n e a rp r e d i c t i o nc o d i n g ,t h eq u a l i t yo f r e g e n e r a t i v es p e e c hi si m p r o v e db ya m e n d i n gt h ei n p u t t e ds p e e c hs o u r c et o m i x e d s p e e c hs o u r c e s u c ha sa d d i n gt w oi m p u l s e si n t ot h eg a u s sn o i s ei n t h ei n p u t t e d s p e e c hs o u r c eo fs u r do ra d d i n gg a u s s n o i s ei n t ot h ep e r i o d i ci m p u l s e si nt h ei n p u t t e d s p e e c hs o u r c eo fs o n a n t i nt h i sp a p e r , t h ed e g r e eo ft h ec o m p a r a b i l i t yb e t w e e nt h e l p cc o e f f i c i e n t si ss c a l e d b yr e l a t i v i t y , t h u s t h et r a n s m i s s i o n s p e e do fl p c c o e f f i c i e n t si sd e b a s e , la n dt h ev e c t o r q u a n t i z a t i o n b a s e do f fc l a s s i f i c a t i o ni s a p p l i c a t e dt o r e d u c et h es p e e do fs p e e c hc o d i n ga n dt oe n s u r et h eq u a f i t yo ft h e r e g e n a t i v es p e e c h t h ep r o d u c i n go fs p e e c hs i g n a l si san o n l i n e a rp r o c e s s , s p e e c hs i g n a l sa r e n o n - l i n e a r i nt h i sp a p e r , t h en o n - l i n e a rp r e d i c t i o no fc o d i n ga r i t h m e t i ci sd i s c u s s e d b a s i n g o nt h en e u r a ln e t w o r ka r i t t m a e t i c c o m p a r e dw i t ht h et r a d i c t i o n a ll i n e a r p r e d i c t i o no fs p e e c hs i g n a l ss y s t e m s ,t h es y s t e m sb a s e do nt h en e u r a ln e t w o r kr e p l a c e t h em o d e l s o fl i n e a r p r e d i c t i o nc o d i n gw i t h n e u r a l n e t w o r k b yt h i s m e a n s ,t h e c o m p l e x i t yo ft h ea r i t h m e t i c c a l lb ed e c r e a s e da n dt h es n ro fs p e e c hc o d i n g a r i t h m e t i cc a nb ei n c r e a s e d v e c t o rq u a n t i z a t i o ni sa ne f f i c i e n tt e c h n o l o g yo fc o m p r e s s i n gd a t a sa n di ti s a p p l i e dw i d e l yi nt h er e g i o n so fs p e e c hs i n g n a l sc o d i n g t h ev e c t o rq u a n t i l i z e rb a s e d o nn e u r a ln e t w o r kd e a l sw i t ht h ei n p u t t e dv e c t o r sb yp a r a l l e lw a y ,t h ec o d i n gb o o ki s s t o r a g e di nt h ec o n n e c tw e i g h t e dv e c t o r sd i s p e r s e d l y s ot h es e a r c h i n go fc o d i n gb o o k c a l lb em u c hf a s t e ra n dm o r ee f f i c i e n t i nt h i sp a ! c l e l t h er e s u l to fv e c t o rq u a n t i z a t i o n c a nb eb e t t e rb ya p p l y i n gt h en e u r a ln e t w o r ka r i t h m e t i c i nt h er e a l i z a t i o no ft h e s ek i n d so fm e n d e da r i t h m e t i c s ,t h et m s 3 2 0 c 5 4 0 2d s k o ft ic o m p a n yi s a d o p t e da s t h eh a r d w a r ef l a tr o o fa n dt h ec c si n t e g r a t e d e x p l o i t u r ee n v i r o n m e n t a n dt h es o f t w a r eo ft h ew h o l es y s t e mc a nb eo p t i m i z e dt o i m p r o v et h ee f f i c i e n c yo fp r o g r a m s k e y w o r d s :s p e e c hs i g n a l s n e u r a ln e t w o r kv e c t o rq u a n t i z a t i o nd s p 独创性声明 ,- 酽7 8 9 8 0 6 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得番毋上铲或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 骤夯 j 签字日期:耐年f 月l ;日 学位论文版权使用授权书 本学位论文作者完全了解旁毋文学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权 盎墨苤壁 可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 叼格夯 签字日期:游臼加 学位论文作者毕业后去向 工作单位 通讯地址 铆虢百【贻 签字日期:砧年g 月,j 日 电话 邮编 第一章引言 1 1 语音编码理论的发展 众所周知,语音通信在现代通信中占有重要地位,而在当今高度发达的信息 社会中,用数字化的方法进行语音的传送、储存、识别、合成、增强等处理是整 个数字化通信网中最重要、最基本的组成部分之一。数字语音通信是基于对语音 信号进行数字化来实现的,在语音信号数字处理过程中,语音编码技术是至关重 要的。通过改进编码技术,可以尽可能的减少传输码率或存储量,以提高传输或 存储的效率,以及保持语音的可懂度和音质。这在数字语音信号的实际应用中有 着广泛的前景。 语音编码已有了惊人的发展。最早的标准化语音编码系统是速率为6 4 k b i t s 的p c m 波形编码器。到目前为止,速率为4 8 kb i t s 的波形与参数混合 编码器,在语音质量上已逼近前者的水平。据预测,速率为2 4 kb i t s 左右的 语音编码器,在未来几年中将在性能和实用化两方面都接近于6 4 kb i t s 的标准 p c m 编码器。6 0 年代中期形成的一系列数字信号处理方法和算法:数字滤波器、 快速博里叶变换( f f t ) 、与语音信号处理的要求分不开的。其后,在7 0 年代 初期产生了线性预测编码( l p c ) 和同态信号处理的算法,它们己成为进行语音信 号处理最强有力的工具,且广泛应用于语音信号的分析、合成及各个应用领域。 8 0 年代以后,出现了一系列更重要的方法和算法,其中包括语音编码中采用的 分析合成方法,简称为a b s ( a n a l y s i sb ys y n t h e s i s ) 以及各种自适应处理方 法和变换方法。其中非常重要的是与矢量量化( v q ) 有关的各种算法。 自从2 0 世纪3 0 年代提出p c m 及通道声码器理论以来,语音编码技术已有7 0 余年的发展历史,但只有近3 0 年随着计算机和微电子技术的发展才获得了飞速 的发展,尤其是近几年来高质量语音压缩编码的技术已开始大规模地走向实用化 各种国际标准的制定均集中反映了这种技术发展的水平和趋势。这些标准均根据 应用背景,对编码质量、编码速率、编码延时以及算法复杂程度等进行综合权衡 和最佳选择而制定的,以期在实际应用中获得最佳的效益。特别是对中长延时编 码,人们正在研究其更低速率( 如4 0 0 b it s 1 2 0 0 b it s ) 的编码算法,以应用于 语音存储、短波通信、计算机语音通信等方面。目前比较好的算法还有正弦变换 编码( s t c ) 、混合激励线性预测编码( 蛐j l p c ) 、时频域插值编码( t f i ) 、基音同步 激励线性预测编码( p s e l p ) 【l 】等。发展的趋势是向着具有更低速率、更高质量 和更低延时的压缩编码方案方向发展。 1 2 语音编码的分类 将模拟语音变成数字化语音的编码技术可以分为波形编码,参数编码,混合 编码技术1 2 三类。这三类编码技术反映了语音编码的历史发展、技术水平提 高的过程。 第一类是波形编码,即针对语音波形进行编码,而尽量保持输入波形不变, 即恢复的语音信号基本上与输入语音信号波形相同。波形编码直接从输入模拟信 号经过采样,并对采样样本进行量化而得到的。这类编码方法将语音信号作为一 般的波形信号处理,具有适应能力强,语音质量好等优点,但所需要的编码速率 高。它们在1 6 - - - 6 4 k b i t s 的数码率上能给出高的编码质量,当数码率进一步降低 时,其性能下降较快。 第二类方法是先对语音信号进行分析,提取出其参数,对参数进行编码,在 解码后由这些参数重新合成出重构的语音信号,使得到的信号听起来与输入语音 相同;而不是对语音信号的波形直接处理,因而恢复信号与原信号不必保持波形 相同。这种编码称做声码器技术。自从3 0 年代末提出脉冲编码调制原理以及声 码器的概念后语音信号编码一直沿着这两个方向发展。 第三类方法:混合编码技术是在利用参数模型法基本框架的基础上,采用复 杂度高的激励来获得编码波形和原始语音波形的高度一致。它具有波形编码的特 征,也具有参数模型化的特征,所以称为混合编码。 1 3 语音编码的硬件基础 绝大多数语音信号数字处理系统需要按照实时方式或称为在线方式工作,这 时对于系统的硬件环境要求很高( 这里主要指系统的运算速度和内存容量的要 求) 。随着语音处理算法的日益复杂,许多语音处理器的运算速度需要达到1 5 3 0 m i p s ( m i l l i o ni n s t r u c t i o n sp e r s e c o n d ) ,在未来几年中这个速度甚至要达到 5 0 m i p s 。 2 d s p 技术的发展以及通用d s p 芯片性能价格比的迅速提高为各种语音信号处 理系统的实现铺平了道路。美国t i 公司在8 0 年代中期研制出的第一代d s p 芯片 t m s 3 2 0 1 0 和t m s 3 2 0 2 0 完成一次乘累加运算( 1 6 位、定点) 需要2 0 0 n s ,第三代 d s p 芯片t m s 3 2 0 c 3 0 完成一次乘累加运算( ( 3 2 位、浮点) 运算只需要5 0 n s ,第 五代d s p 芯片t m s 3 2 0 c 5 0 完成一次乘累加运算( ( 3 2 位、浮点) 运算只需要3 0 n s , 且片内的r o m 和r a m 和片外可扩充的r a m 容量都大大增加。第六代d s p 芯片及更 高一代d s p 芯片的出现将使数字处理技术的发展和实用化登上一更高的新台阶。 d s p 系统是以数字信号处理为基础,因此具有数字处理的全部优点: ( 1 ) 接口方便。d s p 系统与其他阻现代数字技术为基础的系统或设备都是相 互兼容的,与这样的系统接口要比模拟系统与这些系统接口要容易得多: ( 2 ) 编程方便。d s p 系统中的可编程d s p 芯片可使设计人员在开发过程中 灵活方便地对软件进行修改和升级; ( 3 ) 稳定性好。d s p 系统以数字处理为基础,受环境温度以及噪声的影响较 小,可靠性高; ( 4 ) 精度高。1 6 位数字系统可以达到1 旷5 的精度; ( 5 ) 可重复性好。模拟系统的性能受元器件参数性能变化比较大,而数字系 统基本不受影响,因此数字系统便于测试、调试和大规模生产; ( 6 ) 集成方便。d s p 系统中的数字部件有高度的规范性,便于大规模集成。 数字信号处理也存在一定的缺点。例如,对于简单的信号处理任务,如与模 拟交换线的电话接口,若采用d s p 则使成本增加。d s p 系统中的高速时钟可能 带来高频干扰和电磁泄漏等问题,而且d s p 系统消耗的功率也较大。此外,d s p 技术更新的速度快,数学知识要求多,开发和调试工具还不尽完善。虽然d s p 系 统存在着这些缺点,但其突出的优点已经使之在通信、语音、图像、雷达、生物 医学、工业控制、仪器仪表等许多领域得到越来越广泛的应用。 第二章语音信号数字处理基础 2 1 语音信号的数字表示、产生模型和短时分析技术 2 1 1 语音信号的数字表示 进行语音信号数字处理时,最先接触到并且也是最直观的是它的时域波形。 为了获取一段语音信号的时域波形,首先将语音用话筒转换成电信号,再用a d 变换器将其转换为离散的数字化采样信号后存入计算机的内存中,如果用计算机 把它显示在屏幕上,就可以得到话音的时域波形。 2 1 2 语音信号产生模型 l 、语音信号的基本特征 语音信号的频谱分量主要集中在3 0 0 3 4 0 0 h z 的范围内。如果用一个防混叠 的带通滤波器将此范围内的语音信号频谱分量取出,然后按8 k h z 采样率对语音信 号进行采样,就可以得到离散时域的语音信号。语音信号的另一重要特点是它的 “短时性”。语音信号的特征是随时间而变化的。只有在一短段时间间隔中,语 音信号才保持相对稳定一致的特征,这短段时间一般可取为5 5 0 m s 。因此,对 于语音信号的分析和处理必须建立在“短时”的基础上。 语音信号的最基本组成单位是音素。音素可分成“浊音”和“清音”两大类。 浊音( v o i c e ) 是受声门脉冲气流的激励而产生的。这一周期气流脉冲串的周期 称为“基音周期”,用矗表示,其倒数称为“基音频率”,用兀或乓表示。r 值 取决于声带的尺寸和特性,也决定于它所受的张力。基音频率也就是浊音声带的 振动基频,e 随时间变化,它的不同轨迹称为声调。而清音( u n v o i c e ) 是利用 口腔内存有的空气释放出来而发声,具有随机噪声的特点,此时声门完全封闭。 在短时分析的基础上可判断一短段语音属于哪一类。如果是浊音段,还可测定它 的另一些重要参数,如基音和共振峰等。 2 、语音信号模型 图2 - 1 语音产生的离散时域模型 图2 1 给出了语音产生的离散时域模型【3 】。它包括三个部分:激励源、声 道模型和辐射模型。激励源分浊音和清音两个分支,按照浊音清音开关所处的 位置来决定产生的语音是浊音还是清音。在浊音的情况下,激励信号由一个周期 脉冲发生器产生。所产生的序列是一个周期为n 的冲激序列,即每隔n 个点便有一 个样值为1 ,而其它样值皆为0 。周期n 取决于基音频率f 和语音信号的采样频率f , n = f f ,其中f 和f 皆以h z 计量。当f = 8 k h z ,f 的变化范围为5 0 4 5 0 h z 时,n 的变化 范围是1 8 1 6 0 。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要 使上述的冲激序列通过一个声门脉冲模型滤波器。清音的情况下,激励信号由 一个随机噪声发生器产生。声道模型v ( z ) 可看成是一个全极点函数,可以表示 为: 矿( z ) :士( 2 - 1 ) q z l i = o 其中a o = 1 ,a ,为实数。 声道模型中除了声门脉冲模型g ( z ) 和辐射模型r ( z ) 保持不变外,f 、a v 、a u 、浊 音清音开关的位置以及声道模型中的参数a ,a 。都是随时间而变化的。由于发 声器官的惯性使这些参数的变化速度受到限制,对于声道参数,在1 0 3 0 m s 的时 间间隔内可以认为它们保持不变,因此语音的短时分析帧长一般可在这一范围内 选定。 2 1 3 语音信号数字处理中的短时分析技术 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在 “短时”基础上。 l 、数字化语音信号的存储及加窗 已数字化的语音信号序列将依次存入一个数据区,在语音信号处理中一般用 循环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量极大 的语音数据( 已处理过的语音数据可以依次抛弃,让出存储空间来存入新数据) 。 在进行处理时,按帧从此数据区中取出数据,处理完成后再取下一帧,等等。在 取数据时,前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为o 1 2 ,图2 2 给出了帧移与帧长之比为l 2 时各前后帧的相对关系。 第k 帧 j - 一- - - - - - - - - - - - - - - - 一 第( k + 1 ) 帧 - - - _ 第( k + 2 ) 帧 r - - - - - - - - - - - _ 叶 活斗一丽吾_ 一 图2 - 2 帧移与帧长的关系 已取出的一帧语音s ( n ) 要经过加窗处理,这就是用给定的窗函数w ( n ) 来乘 s ( n ) ,从而形成加窗语音j 。( n ) 。在语音信号数字处理中常用的窗函数是方窗和 哈明窗,因为这两种窗函数具有短时平稳特性。如下式: 响,2 淞乙三糍q 此) 一0 8 4 - j r - 0 6 4 c o s ( ( 南) - l 冲n = o ( n 叫 【0 n = 其它值 2 、语音信号的短时能量、短时平均幅度和短时过零率 当窗的起点n = o 日寸,语音信号的短时能量用e o 表示,其计算公式立l l t : 窗起点为n = o 时,语音信号的短时平均幅度用蝎表示,其计算公式为: :i 1 己n - i l 屯( 门) j v h = 0 这也是一帧语音信号能量大小的表征。 ( 2 3 ) 当窗起点为n = o 时,语音信号的短时过零率用z d 表示,以表示一帧语音中 语音信号波形穿过横轴( 零电平) 的次数,它可以用相邻两个取样改变符号的次数 来计算如下: z 。圭 善嘲“以) - s g n “”1 ) 1 ) ( 2 - 。) 哪阱娄嚣 毛, 厶,z o 都是随机参数,但是对于不同性质的语音它们具有不同的概率分 布。能够实现有声无声判决以及更细致浊音清音判决,依据在于不同性质的语 音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有一致 的语音特性,它们不会随着不同的语音改变而随机跳动。 3 、语音信号的短时自关函数和短时频谱 j 。( n ) 的自关函数称为语音信号s ( n ) 的短时自关函数,用r 。( z ) 表示,它的计 算公式是: n i - l r w ( ,) = ( 珂) o + ,) = ( 栉) 如+ d ( 2 - 5 ) p n ;0 ,s 。( 拧) 的离散时域傅里叶变换( d t f t ) s w ( e x p ( j w ) ) 称为s ( n ) 的短时频谱,可以用 下列公式计算: 扣。( e x p ( j w ) ) 1 2 称为s ( n ) 的短时功率谱。 ( 2 6 ) o2 、, 玎 ,l 2 w j 脚 = o 【】 4 、短时基音周期估计 1 ) 基于求短时自关函数的基音周期估计【4 】 如果f ( n ) 是一个浊音性的周期信号,那么它的短时自关函数也呈现出明显的 周期性,而且r 。( f ) 的周期即等于f ( n ) 的周期。相反,清音语音接近于随机噪声, 它的短时自关函数不具有周期性但随着f 的增大而迅速减小。因此可以利用这个 特点来判断一个语音是浊音还是清音,还可以籍以决定个浊音的基音周期( 或 基音频率) 。在决定基音周期时,利用了短时自关函数在基音周期的各整数倍点 上具有较高的峰起值。如图2 3 所示。另种更有效的方法是让语音信号通过一 个线性预测( l p c ) 逆滤波器,并通过求其残差信号的自关函数来估计基音周期。 图2 3 周期性语音短时自关函数和短时平均幅度差函数( a f ) 2 ) 基于短时a m d f 的基音周期估计 为了求基音周期,还可以用短时平均幅度差函数( a m f ) 0 ( j ) ,它的计算公 式是 一一】 七( z ) 一i5 。血+ f ) 一白) l ( 2 - 7 ) _ 0 对于周期性的s ( n ) ,o ( ,) 也呈现周期性,与r 。( z ) 相反的是在周期的各个整数倍 点上0 ( ,) 具有谷值而不是峰值,如图三所示。因此可以用o ( ,) 的计算来确定基 音周期。 在估计基音周期时,无论是月。( ,) 还是o ( ,) 计算所用的j 。( n ) 中应使用方窗。 此外,为了改善估计结果,窗长应选得比2 0 m s 更长一些,以使氏( 厅) 中包含足够 r 多个语音周期。 2 2 语音信号的线性预测分析 2 2 1 线性预测分析的基本原理 线性预测分析的基本原理是将被分析的信号用一个模型来表示,即将信号看 作是某一个模型( 即系统) 的输出。这样,就可以用模型参数来描述信号。图2 4 是信号s ( n ) 的模型化框图。图中u ( n ) 表示模型的输入,s ( n ) 表示模型的输出。通常, 我们所设定的模型中只包含有限值极点而没有有限值零点,此时系统函数表示为 日( z ) = 吒为实数 卜2 。 图2 - 4 信号s ( n ) 的模型化 ( 2 - 8 ) 这种模型称为“全极点模型”或“a r 模型”。式中,各系数a :和增益g 就 是模型参数。此时信号就可以用有限数目的参数构成的信号模型来表示。线性预 测分析就是根据己知的s ( n ) 对各参数 n : 和g 进行估计。这里,n ;系数称为线 性预测系数。线性预测的基本问题是由语音信号直接决定一组预测器系数 a 。 , 使预测误差在某个准则下最小。如果采用最小均方误差l m s 准则进行估计,就 得到了著名的线性预测分析( l p c ) 算法,这一过程就称为线性预测分析。 2 2 。2 语音信号的线性预测分析 根据前面介绍的模型化思想,可以对语音信号建立模型,如图2 5 所示。可 以看出,图2 - 5 的模型是语音产生模型的一种特殊形式,它将其中的辐射,声道 以及声门激励的全部谱效应简化为一个时变的数字滤波器来等效,其系统函数为 嘲。器2 万g 9 ( 2 _ 9 ) 图2 - 5 语音信号的模型 这样把s ( n ) 模型化为一个p 阶的a r 模型。因为图2 - 5 的模型常用来产生合成语 音,故滤波器h ( z ) 亦称作合成滤波器。这个模型的参数有:浊音,清音判决,浊 音语音的基音增益常数g 及数字滤波器参数 a 。 ( 1 i p ) 。当然,这些参数 都是随时间在缓慢变化的。采用这样一种简化的模型,其主要优点在于能够用线 性预测分析方法对滤波器系数( a ) 和增益常数g 进行非常直接和高效的计算。 2 2 3 自适应预测语音编码系统和线性预测 我们在讨论语音信号的预测分析原理时,假定一个语音样本s ( 哟可以近似 被它过去的p 个样本的线性组合所预测,预测样本值:丽= a i # 一f ) ( 2 1 0 ) l = t 式中q ( 1 i p ) g r , 捌t j 系数,p 是预测阶数,令p ( n ) 表示实际值与预测值之 间的误差: p ( 口) = s ( 月) 一丽= s ( 功一窆口i j 一f ) ( 2 1 1 ) 扭i p ( ”) 即线性预测误差,也称作线性预测残差。对式( 2 一儿) 两边取变换后有: e ( z ) = ( 1 一艺q z “) j ( 力= 一( 咖( z ) ( 2 1 2 ) 式中; 彳( :) = o - a7 2 1 ) ( 2 一1 3 ) 因此,p ( 可以让语音信号s ( n ) 通过一个全零点的滤波器a ( z ) 而得到。可以设 0 想,如式( 2 一l o ) 预测效果很好的话,那么预测残差e ( n ) 的幅度变化范围和平均能 量必定比原来的语音信号s ( 甩) 要小:如果对残差序列p ( 胆) 做量化和编码,在同 样信号量化噪声比条件下,所需的量化比特数就可以减少,从而达到压缩编 码的目的。基于这一原理的方法称作预测编码,语音信号变化时,又称自适应预 测编码。当预测系数是自适应地随语音信号变化时,又称自适应预测编码器。 从数字传输的角度看,一个完整的语音编码系统是由编码器和解码器两部分组 成,而解码过程可看作是编码的逆过程。如果将声道看作是无损声道,基本的自 适应语音编解码系统可表示为图2 6 : 其原理简述为:编码端将预测误差g ( 功量化为;( 功,;0 ) 经编码为c ( n ) ,经声道 传输,再在解码接收端用一个与编码端同样的量化器对量化的差值信号c ( n ) ( 不考虑信道误码) 进行“逆量化”并解码,恢复差值信号5 ( 甩) ,最后将( n ) 与预测器预测值s 。( n ) 之和作为解码端的重建语音信号j ( 帕。 发送端 图2 - 6 基本的自适应预测编解码系统 接收端 2 2 4 后向和前向自适应线性预测 图2 6 中,预测误差,p ( ,z ) = s ( h ) 一j 。( 甩) ,疋( 船) 为预测器输出,可表示 p 为:以( 甩) = q s ( n - i ) i = i ( 2 - 1 4 ) 即个语音样本值可由它过去的p 个样本的线性组合来预测,这种预测器叫线性 预测器,而线性预测的基本问题是由语音信号直接求出一组预测系数。这种预测 系数就被看作是语音产生模型中声道系统函数参数,也即是语音线性预测模型参 数,而语音线性预测模型是当前语音编码标准中最常用的模型,对线性预测器的 系数,可通过预测误差最小来求得即: ( 2 - 1 5 ) 通过求e 最小来求出预测系数q ,其中德宾( d u r b i n ) 递推算法是常用的计算方 法。 需要注意的是:这里的预测可有两种方式:前向预测和后向预测,所谓的前向预测 是指预测器系数的求得是用输入语音信号s ( n ) 来分析,形如式( 2 1 5 ) :其实,对 上图中预测器的系数也可以通过分析重建语音来获得,即将上式中5 ( n ) 用j ( ,z ) 来 代替,即: q 劫一纠2 ( 2 1 6 ) 采用上式的预测分析即所谓的后向预测。由图2 6 可看出:重建语音j ) 在编码端 和解码端都可以得到,而输入语音s ( n ) 在输出端是得不到的,因此对前向预测而 言,预测器的系数必须作为边信息传输到接收端,为了保证精确传输,就需对预 测系数进行适当地量化和编码,这样就不可避免地引起编码比特率的增加,且易 增加算法延迟,而后向预测采用在编码和解码端都可得到的重建语音进行分析, 这样在后向预测,除了需对预测误差p ( 撑) 进行编码传送外,再不需要传送任何边 信息给接收端,单就这一点,后向预测是能较好地满足语音信号编码中追求低比 特率和低延迟的愿望的。因此,目前众多的语音编码标准中的线性预测一般都采 用后向预测,耍n i t u 标准g 7 2 8 ,g 7 2 1 ,g 7 2 9 等。当然,对比后向预测,前向预 测有预测效果更好的优点,特别是对e ( ”) 的传输误码问题:g ( 甩) 的传输误码对后 向自适应预测的系数分析影响较大,而它对前向预测系数无影响。同时,后向反 馈自适应中求得的预测系数,不能保证它们合成的滤波器一定是稳定的,同时要 考虑算法的收敛性、有限字长的影响等,这使得后向反馈自适应算法比较复杂。 r玲 一珂 口 亡厶 一 力(墨 | 力c , = e ) ” ( 瞄 = ) 玎 ( 2 p 1 1e 总之,前向预测和后向预测各有特点,不同语音编码算法对它们有不同的考 虑。 综上,一般的模型预测法从两个方面来考虑问题:分析环节和合成环节,分 别如图2 7 和图2 8 所示,这种思路在线性预测技术中亦得到体现,如语音信号线 性预测模型分析中目前流行的合成一分析技术,其中的l p 系数从分析模型得到, 合成模型以分析模型中得到的参数来合成语音。我们提供了一个一步预测的合成 模型如图2 8 所示( 外部输入为零时) ,而对于合成模型中系数的更新常利用预测 均方误差最小来设计,即形成分析模型。 一 图2 - 7 分析模型图2 8合成模型 第三章基于线性预测模型的语音编码算法及改进 语音信号编码是语音处理领域的重要的分支,如何在尽量减少失真的情况 下,降低语音编码的比特数已成为语音编码技术的主要内容。换句话说,在相同 的编码比特率下,如何取得更高质量的恢复语音是较高质量语音编码系统的要 求。 线性预测( l p ) 分析法是目前语音处理中的核心技术,它在语音识别、合成、 编码、说话人识别等方面都得到了成功的应用。有的专家认为,近2 0 年中语音处 理技术的飞速发展与以线性预测为中心的信号处理技术是分不开的。目前的众多 语音压缩编码标准中,都采用线性预测技术,如g 7 2 l 建议、a d p c i l c i 、g 7 2 8 建议 中的l d - c e l p 、g 7 2 9 算法中的c s a c e l p 。 通常l p c 声码器采用简单的二元激励,也就是清音语音段采用高斯白噪声激 励,浊音语音段采用周期脉冲激励。由于这种激励信号的过于简单,使得其再生 语音的质量比较低,而且很难提高。为了提高再生语音的质量,借鉴了混合激励 等其它一些方法来改善激励源。主要在于将清音的激励源信号高斯白噪声中加入 两个正负的脉冲,目的是为了有效的改善爆破音的质量。浊音激励源信号则用经 过低通滤波器的基音周期脉冲叠加通过高通滤波器的高斯白噪声来产生。本章给 出了一种改进的l p c 语音编码方法,通过引入似然失真比来衡量l p c 系数相似度, 减少了l p c 系数的传输率,并采用基于分类的矢量量化编码方法,在l p c 语音编码 的基础上实现了低于2 k b s 的变码率线性预测声码器。 3 1 编码 改进的l p c 语音编码系统编码端框图如图3 1 所示 4 图3 一l 改进的l p c 语音编码系统编码端框图 3 1 1 预处理 在预处理这个部分中,将录入进来的语音经过一个带通滤波器处理,带通滤 波器的截止频率为6 0h z 和3 6 0 0 h z ,3 d b 截止。首先其目的之一是为了除去5 0h z 市电声信号的干扰,当然也可以滤除到一些低频率的噪声干扰。其次目的之二是 为了除去语音中那些对人的听觉不敏感的高于3 6 0 0h z 的部分以及一些很高的无 效的高频率噪声。经过带通滤波器处理后的语音输入到a d 变换器,以8k h z 的速 率采样,1 6 b i t 量化得到数字化语音。然后每1 8 0 个采样点分为一帧( 2 2 5 m s ) ,之 后就以帧为单位来进行语音分析,提取语音特征参数并加以编码传输。 3 1 2 预加重 在提取声道特征参数之前要先进行预加重处理,预加重滤波器的传输函数 日,( z ) 为:日。( z ) 2 1 一o 9 3 7 5 z “ 在实施线性预测( l p ) 分析之前进行预加重的目的是为了加强语音谱中的高频共 振峰,使语音短时谱以及语音线性分析中的残差谱变的更为平坦,从而提高谱 特征参数估值的精确性。 3 1 3 清、浊音判决的分析及量化 清浊音判决利用的是模式匹配技术,它们是基于低带能量,a m i ) f 函数的 最大值和最小值之比,和过零率做出的。 ( 1 ) 低带能量: 低带能量就是让要做清浊音判决的语音先通过一个低通滤波器的处理然后 求其能量。让要处理的语音信号通过一个截止频率为9 0 0 h z ,阻带为l o d b 的低 通滤波器目的是为了让所求的清浊音的能量差别更大,这样有利于制定闽值, 能更好进行清浊音的判决。因为,在清音的语音帧中只包含大量的高频率信息, 而在浊音的语音帧中却含有大量的低频率部分的信息所以先对语音做低通处理 后再对语音帧求其能量,可以有效减少高频率部分的影响,使得所求清音语音帧 的能量相对较小,而浊音语音帧的能量相对较大,从而拉大清浊语音帧能量的 差异,这样比较容易制定阈值,进而更有效更准确的来进行清浊音的判决。 ( 2 ) a 肋f 函数的最大值和最小值之比 a 肋f 函数的最大值和最小值之比也可以有效用来作为进行清浊音的判决条 件。a m i ) f 函数计算结果如图3 2 : 图3 2a m d f 函数不意图 从图中可以看到:如果当语音帧含有一定的准周期的信号那么a g g ) f 函数就会产生 相应的准周期性的谷峰的现象。众所周知,在清音中没有准周期的信号部分,所 以在相应的a 册f 函数中就不会出现很明显的准周期性的谷峰的特性,其谷峰的值 不会象浊音的a f 1 ) f 函数来的那么明显,其谷峰的值( 除了0 起始点外) 会比浊音段 语音的a m d f 函数产生的值小的多。所以清音段语音的h f 1 ) f 函数的最大值和最小值 之比值会比浊音段语音的a m d f 函数的最大值和最小值之比值小得多正是因为这 1 6 个特性,就可以用来作为每帧语音段的清浊的判决。先通过实验定个闽值占, 当某语音帧的a 旧f 函数的最大值和最小值之比值小于这个闽值j 时就判定这段 语音帧是清音。反之当该语音帧的- 岫f 函数的最大值和最小值之比值不小于这个 阈值j 时,就判定该语音帧为浊音。 ( 3 ) 过零率 由语音特性可以知道,清音段的语音在直流偏置上下振动的频率要远远高于 浊音段语音在直流偏置上下的震动频率在单位时间段内语音信号通过直流偏置 的次数称为过零率显然在实际的判决过程中当某帧语音的过零率大于某个闽值 时就判定该段语音帧为清音,反之则为浊音。 在实际判决过程中为了实现方便,在做过零率【2 】计算前需要首先要对该 段语音做去直流偏置的预处理。在去直流偏置的处理过程中有两种办法,第一种 方法比较简单,同时计算量小,运算快。方法2 是让要处理的语音帧通过一个滤 波器来去直流偏置,实现虽然相对复杂,运算量偏大但是具有一定的平滑波形的 作用每帧的语音是8 k h z 采样,1 6 b i t 量化,帧长为1 8 0 个采样点( 2 2 5 m s ) 。 1l 堕 方法1 s ( ”) - - - - s ( 行) 一击善5 ( 珂) 方法2 : 日( z ) 2 = f 丽万i 面i 面z 1 而瓦而万j 而 1 8 0 在做完去直流之后就计算过零率,计算如下:z c r = 邪,) 其中: n = l z c r ( n ) = 嚣咖x x ( n + 1 ) + 1 ) 。o ;一盼1 7 9 】 通过实验确定z c r 的阈值定为2 5 左右( 半帧处理的阈值) ,能较好区分清浊音。 通过对低带能量,a m d f 函数的最大值和最小值之比,和过零率的模式匹配做出 清浊音判定之后,还要进行校正处理。 低带能量,a m d f 函数的最大值和最小值之比,和过零率做出的清浊音的判 决不一定是一致的。因此在实际的操作中,只要其中的任何两种判决判定该语音 帧是浊音那么就对该语音帧做出是浊音的判定,反之则判定该语音帧是清音。同 时还要考虑到前后相连的语音帧的清浊音判决情况,需要进行第二步清浊音的 1 7 校正处理。因为涉及到前后相连帧的清浊音判决,所以需要对前一相连帧的清 浊音判决进行保存,要对后续的相连帧的语音进行清浊音判决的预处理。 在量化清浊音判决时用两个b i t 来进行量化,分别为0 0 ,o l ,l o ,l l 四种状 态,这四种状
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江苏苏州市张家港市美利肯纺织(张家港)有限公司招聘10人笔试参考题库附带答案详解
- 2025广西玉柴铸造有限公司实习生招聘100人笔试参考题库附带答案详解
- 2025年甘肃西北永新集团招聘11人笔试参考题库附带答案详解
- 2025年河南省储备粮管理集团有限公司招聘12人笔试参考题库附带答案详解
- 2025年四川绵阳机场(集团)有限公司春季招聘18人笔试参考题库附带答案详解
- 2025年中核嘉华公司春季招聘66人笔试参考题库附带答案详解
- 2025国网中兴有限公司高校毕业生招聘(第二批)笔试参考题库附带答案详解
- 2025四川日报报业集团春季招聘22人笔试参考题库附带答案详解
- 2025中核集团所属中核二二社会招聘4人笔试参考题库附带答案详解
- 2025中亚能源有限责任公司境外投资项目中大中国石油公司招聘61人笔试参考题库附带答案详解
- 重离子、质子治疗前景与适应症-武汉
- 组织行为学(-)(英文版)课件
- 商务谈判(完整版)课件
- 小学数学教师新课标考试试题
- 小学数学北师大四年级上册五方向与位置四上《用数对确定位置》北师大版李雪梅PPT
- 步进电机控制系统课件
- 2022年混凝土预制U型槽单元工程质量评定表
- 井喷及井喷失控案例教育
- 职业发展与就业创业指导ppt课件完整版
- 挠度计算模板表格(自动版)
- 宝钢集团生产安全事故案例汇编
评论
0/150
提交评论