(信号与信息处理专业论文)基于dsp的g729语音编码实现方案的研究.pdf_第1页
(信号与信息处理专业论文)基于dsp的g729语音编码实现方案的研究.pdf_第2页
(信号与信息处理专业论文)基于dsp的g729语音编码实现方案的研究.pdf_第3页
(信号与信息处理专业论文)基于dsp的g729语音编码实现方案的研究.pdf_第4页
(信号与信息处理专业论文)基于dsp的g729语音编码实现方案的研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(信号与信息处理专业论文)基于dsp的g729语音编码实现方案的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理j = 大学硕士学位论文 摘要 语音通信是人类最为基本、最重要的通信方式之一。在电话出现后,语 音通信更是达到了一个里程碑的阶段,它给我们的生活带来了极大的便利。 语音编码在过去半个世纪以来得到了快速的发展,科学家提出了许多优秀的 语音压缩算法,对语音编码算法的发展作出了巨大的贡献。语音编码随着多 媒体通信的发展,正扮演越来越重要的角色。尤其是低速率、高语音质量的 语音编码算法能在有限的信道带宽中提供各种高质量的多媒体通信服务。 g 7 2 9 正是其中一种极为优秀的协议。它是i t u t ( 国际电信联盟) 在1 9 9 6 年 提出的基于c s a c e l p 算法( 共轭代数码本线性激励预测) ,其传输速率为 8 k b p s 的建议。该协议由于其优良的性能被广泛的应用于移动通信、卫星通 信、多媒体通信以及可能在未来的第三代移动通信中作为语音信号的编解码 标准,值得一提的是它在多媒体服务中尤其以v o l p 、视频电话会议为热点技 术。 第一个通用d s p 芯片出现于上个世纪的8 0 年代,它具有一个硬件乘法 器而不同于通用的微处理器,随着超大规模集成电路技术的突破性进展,如 今d s p 作为一种专用的数字信号处理器而被广泛的应用在多媒体、通信的 各个领域。由于d s p 具有体积小、功耗低、运算速度快和价格便宜等许多 优点,所以非常适合于实时语音和视频压缩处理。而在众多的产品中t i 公 司的t m s 3 2 0 c 5 4 x 系列d s p 就可以用于g 7 2 9 语音压缩的实时实现。 本文详细的介绍了g 7 2 9 协议的算法结构,包括了编码和解码两个部分, 并着重研究了c s a c e l p 算法中的线性预测技术、感知加权滤波、矢量量化、 增益量化、自适应码本搜索和固定码本搜索等关键技术。还对t m s 3 2 0 c 5 4 x 系列d s p 芯片的结构、工作原理进行了一定的描述。并在基础上提出了系 统的硬件组成方案,软件的系统设计方案,以i t u - t 提供的标准c 源代码 为基础,进行软件模拟实验,验证方案的正确性。然后,对g 7 2 9 协议在 t m s 3 2 0 c 5 4 0 2d s p 上的实现进行研究。 本文共分为5 部分。第一章为绪论部分介绍语音编码的发展及现状。第 二章则介绍语音信号的特性和处理的一些关键技术。第三章则详细介绍 g 7 2 9 协议的压缩原理及算法结构。第四章则详细介绍系统硬件和软件方案 武汉理工大学硕士学位论文 及g 7 2 9 协议在d s p 上实现过程,并给出结果。包括程序代码优化过程和一 些实际的工作经验。最后一章则对本文的工作进行总结并提出改进建议。 关键词:语音编码、g 7 2 9 、c s a c e l p 、t m s 3 2 0 c 5 4 x i i 武汉理工夫学硕士学位论文 a bs t r a c t s p e e c hc o m m u n i c a t i o n i so n eo ft h em o s tb a s i ca n di m p o r t a n tw a yt o h u m a n b e i n g t h ea p p e a r a n c eo ft e l e p h o n ei st h el a n d m a r ko fs p e e c hc o m m u n i c a t i o n ,i t t a k e su sg i g a n t i cc o n v e n i e n c ei no u rl i f e i nt h ep a s th a l fc e n t u r yw eh a v eb e e n a c h i e v e df a s tp r o g r e s so ns p e e c hc o d e i n gt e c h n o l o g i e s s i e n t i s t sp u tf o r w a r dl o t s o fe x c e l l e n ts p e e c hc o d e i n ga l g o r i t h m sa n dd i dh u g ec o n t r i b u t i o n a l o n gw i t h d e v e l o p m e n to f i n f o r m a t i o nt r a n s p o r t ,s p e e c hc o d i n gi s p l a y i n gm o r ea n dm o r e i m p o r t a n tr o l e s ,e s p e c i a l l yt h el o w b i t r a t ea n dh i g hq u a l i t yc o d e i n g o f s p e e c h ,i t c a n p r o v i d e sh i g hq u a l i t y m u l t i m e d i as e r v i c ei nc i r c u m s t a n c eo fl i m i t e d b a n d w i d t h a n d1 3 7 2 9i so n ee x c e l l e n tp r o t o c o la m o n gt h e m i n19 9 6 ,t h ei t u t s t a n d a r d r i z e dac o d e i n go f s p e e c ha t8 k b p su s i n gs - a c e l p ( c o n j u g a t e s t r u c t r u e a l g e b r a i c c o d e e x i t e dl i n e a r p r e d i c t i o n ) a s r e c o m m e n d a t i o ng 7 2 9 f o ri t s h i g hq u a l i t y ,g 7 2 9r e c o m m e n d a t i o ni sw i d e l yu s e di nm o b i l e c o m m u n i c a t i o n , s a t e l l i t ec o m m u n i c a t i o n m u l t i m e d i ac o m m u n i c a t i o n i nn o wd a y sa n da l s o e x p e c t e dt ob eu s ei n3 g p e r s o n a lm o b i l e p h o n es y s t e ma ss t a n d a r da l g o r i t h m s w h i c he n c o d es p e e c hs i g n a la n dd e c o d ei t i ti sa l s ow o r t ht om e n t i o nh e r et h a t g 7 2 9i sh o tp o i n to nm u l t i m e d i as e r v i c e ss u c ha sv o i pa n dv i e w p h o n e m e e t i n g t h ef i r s t g e n e r a l d s pc h i pw a sp u to u ti n 19 8 0 s ,w i t hah a r dm u l t i p l i e r w h i c hi sd i f f e r e n tf r o mc o m m o nm i c r o p r o c e s s o r w i t ht h eg r e a tp r o g r e s sa n da s e r i e so fb r e a k p i o i n ti nv l s it e c h n o l o g i e s ,i nn o wd a y sa sas p e c i a le l e m e n tt o d i g i t a ls i g n a lp r o c e s s i n g ,d s p i s w i d e l y u s e do n m a n y f i e l ds u c ha s m u l t i m e d i a ,t e l e c o m m u n i c a t i o n b e c a u s ed s pp o s s e s sm a n ya d v a n t a g e s ,s u c ha s c o m p a c t n e s s ,l o wp o w e r c o s t ,h i g hw o r k i n gs p e e d a n dl o w p r i c e ,i ti sv e r ys u i t a b l e f o rr e a l t i m ei m p l e m e n t a t i o no ns p e e c ha n dv i d e oc o m p r e s s i o n a m o n gv a r i o u s d s p p r o d u c t s t h et m s 3 2 0 c 5 4 x s e r i e sd s p c h i p sp r o d u c e db yt ic o m p a n y i s f i t t e dt ot h er e a l t i m ei m p l e m e n t a t i o no fg 7 2 9s p e e c hc o m p r e s s i o n t h i st h e s i sp a r t i c u l a r l yi n t r o d u c et h ea l g o r i t h ms t r u c t u r eo fg 7 2 9 ,i n c l u d i n g p a r t o fe n c o d ea n d d e c o d e i t p u te m p h a s i s o ns o m e k e yt e c h n o l o g i e s o f i l l 武汉理工大学硕士学位论文 c s a c e l pa l g o r i t h ms u c ha s l i n e a r p r e d i c t i o n ,p e r c e p t u a lw e i g h t i n g ,v e c t o r q u a n t i t i z a t i o n ,g a i nq u a n t i t i z a t i o n ,a d p t i v e c o d e b o o k s e a r c ha n d f i x e d c o d e b o o ks e a r c h i ta l s o s i m p l y d e s c r i b e dt h ew o r kt h e o r ya n di n n e r s t r u c t u r eo ft m s 3 2 0 c 5 4 xs e r i e sd s p c h i p s a n db a s e do na b o v e ,i tp u tf o r w a r d t h eb l u e p r i n to fh a r ds y s t e ma n dt h es o f t w a r es y s t e m t h e nu s i n gt h ecs o u r c e c o d ep r o v i d e db yi t u t ,s o f t w a r es i m u l a t ee x p e r i m e n tw a sd o n ei no r d e rt o c h e c kt h ec o r r e c t n e s so fc o d e a tl a s tt h ea u t h o rp e r f o r m st h eg 7 2 9w i t h t m s 3 2 0 c 5 4 0 2d s pa n do p t i m i z ei t t h i s p a p e r c o n s i s t so f5 p a r t s t h e f i r s t c h a p t e r i n t r o d u c e st h e s t a t e o f t h e a r to f s p e e c hc o m p r e s s i n gt e c h n i q u e a n dt h es e c o n dp a r ti n t r o d u c e s t h ec h a r a c t e r i s t i c so fs p e e c hs i g n a la n ds o m ek e yt e c h n i q u e t h et h i r dc h a p t e r g i v e st h et h e o r ya n ds t r u c t u r eo fg 7 2 9a l g o r i t h m t h ef o u r t hp a r to f t h i sp a p e r d e s c r i b e dt h eb l u e p r i n to fh a r d w a r es y s t e m ,s o f t w a r es y s t e m ,t h ei m p l e m e n t a t i o n o nd s pa n dd r a w st h ec o n c l u s i o n ,i n c l u d i n gt h ec o d eo p t i m i z a t i o na n dp r a c t i c e e x p e r i e n c e s t h ef i n a l s e c t o rs u m m a r i z e dt h ew h o l ew o r k sa n ds u g g e s t e ds o m e i m p r o v e m e n t t h a ts h o u l db ed o n ei nt h en e x t k e yw o r d s :s p e e c hc o d i n g 、g 7 2 9 、c s a c e l p 、t m s 3 2 0 c 5 4 x i v 武汉理工大学硕士学位论文 1 1 引言 第1 章绪论 随着科学技术的飞速发展,信息技术变得越来越重要,信息产业在国民 生产中所占的比例也越来越大,在2 1 世纪的通信技术应该是在人与人之间、 人与机器间达到高质量的无缝的信息交换的水平。而无论在什么情况下语音 通信总是最基本、最重要的手段之一。多媒体信息交换包括电话、电视电话 会议、可视电话、语音信箱、电子邮件、图像传真、数据等等。无缝通信是 指用户可方便地综合使用这些手段,而不影响通信质量,并能随意地把一种 通信手段转换为另一种通信手段;高质量是指通信质量不随用户环境及传输 媒介的变化而降低,用户使用起来方便快捷。这取决于信息高速公路的建设 和计算机、微电子、材料、网络、通信等诸多关键科学领域的发展,而语音 技术是最基本、最重要的技术 1 1 。 近十几年来语音技术在人们实际需要的推动下快速的发展起来,语音技 术是一个跨学科、涉及面广的综合学科,包括声学、语音学、生理学、心理 学、数字信号处理、信息工程、通信理论、电子科学、模式识别、人工智能 等众多学科,而且许多对语音数字信号处理有促进作用的学科如神经网路、 小波理论、遗传算法、进化算法、模糊理论、混沌理论等也在蓬勃发展。 在语音技术发展的历史中,模拟语音技术缺点很多,如:( 1 ) 易受干扰、 噪声大、质量不高。( 2 ) 不便储存、传输与交换。( 3 ) 语音处理手段有限,硬 件结构复杂,维护困难。( 4 ) 加密困难、保密性低。这就决定了模拟语音技术 的局限性,模拟语音技术必然要被数字语音技术所替代。 数字语音技术可以有效克服模拟语音技术的缺点,但是语音数字化后, 依据抽样定理,比特率大幅上升,而且要求语音质量越高其比特率也就越大, 在信道资源有限的情况下,这给传输带来困难。因此,就需要对其进行压缩 编码,压缩后的数字化语音传输就有以下优点:( 1 ) 便于与其它数字化信源集 成,便于接1 :3 和标准化。( 2 ) 力t l 密容易,保密性强,可以充分利用现有的软件 手段和硬件手段。( 3 ) 易于j f l - 女q 错编码,抗信道干扰能力强,便于传输。( 4 ) 有利于提高话路容量,提高传输效率。( 5 ) 语音数字化便于计算机进行处理 2 1 。 武汉理工大学硕七学位论文 随着信息量的飞涨,信道资源则显得越发宝贵,为了在有限的信道资源 下传输尽可能多的信息,语音压缩就成为了必要的手段。在统一标准化的基 础上,i t u 组织( 国际电信联盟) 制定了一系列的建议,这些建议是经过许 多科学家多年的研究和实验所提出的算法,其中一些优秀的算法更是得到广 泛的承认和应用,而且在这些算法的基础上还不断有新的算法提出。 本文所讨论c s 。a c e l p ( c o n j u g a t e s t r u c t r u ea l g e b r a i c c o d e e x i t e d l i n e a r p r e d i c t i o n ) 共轭结构- 代数码激励线性预测语音压缩编码算法是其中 种高效高质量的算法该算法于1 9 9 6 年由i t u 提出,其应用于:( 1 ) 个人移 动通信:( 2 ) 数字卫星通信;( 3 ) 高质量数字移动无线通信,d c m e 、存储检 索、分组语音和数字租用信道等。本课题通过对该算法的分析和研究,提出 基于d s pt m s 3 2 0 c 5 4 0 2 的算法实时实现方法。 1 2 语音编码技术发展 语音压缩编码有两种方法:波形编码和参数编码。语音编码技术则一直 沿着这两个方向发展,两种技术各有优点,而且趋势是将两者结合起来使用。 波形编码是力图使原始语音和合成语音的波形误差最小,其压缩方法是 基于各种有效的数学变换,通过将波形从一个域变换到另外一个更容易提取 参数的域来达到对变换后的参数进行量化编码的目的。其实质是一个数学上 的曲线拟合和数据近似的过程。由于语音信号的信息全部包含在原始波形 中,所以波形编码后的合成语音质量非常高,而且适应能力强,抗信道干扰 性好。波形编码的性能和压缩比与采用的变换方法的性能有很大的关系,而 语音波形的动态范围很大,目前使用的变换算子的作用有限,因此波形编码 的比特率不能压的很低,一般在1 6 k b p s 以上,再往下则合成语音质量大大 降低。其主要编码器有:( 1 ) 脉冲编码调伟i j ( p c m ) ,( 2 ) 自适应增量调锖) j ( a d m ) , ( 3 ) 自适应差分编码( a d p c m ) ,( 4 ) 自适应预测编码( a p c ) ,( 5 ) 自适应子带编 码( a s b c ) ,( 6 ) 自适应变换编码( a t c ) 。 参数编码通过对人的发声的生理过程的研究,建立一个建立模拟其发声 的数字模型来达到提取其特征参数进行量化编码的目的。参数编码得到的合 成语音由于与原始语音信号可能具有较大的差别,它只能力图保证合成语音 具有尽可能的可懂性,保持原语音的语意。这种方法可以把比特率压得很低, 质量相对而言较波形编码差。 传统线性预测编码器l p c 1 0 通过将语音信号产生模型简化为一个清音 2 武汉理工大学硕士学位论文 浊音激励一个全极点滤波器的输出模型,通过提取清音浊音判决、基音周 期、线性预测系数来达到对其量化编码的目的。l p c 1 0 声码器合成语音的 可懂度很高,比特率低,但自然度较低,抗信道干扰能力差。这是由于预测 残差过于粗糙所致。它只提取出了语音信号的大尺度轮廓信息,大部分的细 节信息却丢弃了,而人耳对细节信息很敏感。 与l p c 类似,c e l p l 3 1 也是用一个全极点模型模拟人的声道特性,用一 定的激励序列去激励这个声道模型来合成语音信号。它与l p c 的不同之处 在于激励信号的选取。l p c 的激励信号为周期信号或高斯白噪声序列,而 c e l p 用一个自适应码本中的码本矢量来逼近语音的长时周期性( 基音) 结 构;用一个固定的随机码本矢量来逼近语音信号经短时、长时预测后的余量 信号。从两个码本中搜索出来的最佳码本矢量,乘以各自的最佳增益相加其 和即为c e l p 的激励信号。我们可以看出,这实际上综合了波形编码的优点, 是一种混合编码。c e l p 声码器克服了传统的l p c 1 0 声码器的缺点,语音 质量较好,比特率低,得到较为,“泛的应用。c e l p 的模型如下图: 图l lc e l p 算法模型 目前,c e l p 混合编码算法在中低速率语音压缩算法中居于统治地位。 采用c e l p 算法为基础的声码器能够在4 8 k b p s - - 1 6 k b p s 的速率范围内合成 出高质量的语音,且具有优良的抗噪声和多次转接性能。采用c e l p 算法的 低速语音压缩编码算法有很多,如北美的i s 一9 5 、i s - 9 6 ,日本的j d c 半速率 标准,i t u 的g 7 2 3 、g 7 2 8 和g 7 2 9 采用的都是c e l p 算法。 c e l p 等中低速语音压缩编码算法的出现给人们带来了极大的便利,特 别是在普通电话带宽信道中传输数字电话成为现实,它还使得移动通信、 v o l p 的应用成为可能,而且对未来的多媒体通信有着极大的推进作用。本文 将在后面的章节重点讨论c e l p 的一种应用最为广泛、也是最为复杂的 c s a c e l p 算法。 一一 垫望望三奎堂堡主兰垡堕奎 第2 章语音压缩技术分析 ( 3 7 2 9 建议中涉及到语音压缩理论的很多方面,所以有必要对这些基础 理论进行一定的分析和回顾。下面= i = = 要对语音形成机理、语音信号数字模型 的产生、语音信号的特点和c e l p 中主要采用的编码技术进行讨论。 2 1 语音形成机理 人的发声是通过肺部收缩送出一股气流,经过人的生理上的三个主要的 发声器官:声道、咽喉和口腔所产生。其生理模型如图2 1 哪:盖 州懿 图2 1 生理结构模型 咽喉位于气管的顶端,其中有两片肌肉,称为声带。声带之间的空隙成 为声门。在发声时,声门处的声带肌肉收缩,声带并拢但不完全封闭,气流 通过这条缝隙时压力变小,声带合拢使气流不能通过。气流阻断时压力又恢 复正常,声带的空隙又再次打开,气流再次通过。在这种周而复始的过程中, 使声带得到横向和纵向振动,气流周期性的脉冲。这一周期称为基音周期。 我们一般把声门以上,经咽喉、口腔的这一管道称为主声道。成年男子 的主声道长度约为1 7 c m 。而经舌和鼻腔的这一管道成为鼻道。经肺、支气 武汉理工大学硕士学位论文 管和气管的管道称为次声门系统。由声带振动激发声道中空气发生振动,并 从1 2 1 和鼻向外辐射产生声音。声道是一个分布参数系统,它有许多的自然谐 振频率,因此我们可以将声道看作一个谐振腔,它放大某些频率而衰减其它 的频率分量。这些谐振频率就称为共振峰频率,简称共振峰。它是声道的重 要声学特征。它与发音器官的确切位置有很大的关系。我们说话时,声道的 形状在不断的改变,共振峰的频率也在随之改变,也就是说共振峰和声道的 形状和大小有关。 语音按其激励形式的不同大致可分为三类:当气流通过声门时,声带的 张力正好使声带产生张驰振荡式振动,产生一股准周期性的脉冲气流,这一 气流激励声道产生有声语音,称之为浊音( v o i c e ds p e e c h ) 。若声带不振动, 而在某处收缩,迫使气流高速通过而产生湍流就产生清音( u n v o i c e ds p e e c h ) 或称摩擦音。如果声道在完全闭合的情况下突然释放就会产生爆破音 ( p l o s i v es p e e c h ) 。浊音具有周期性信号的特点,清音则具有随机白噪声信 号的特点。 2 2 语音信号产生的数字模型 人们对语音信号进行大量的分析、模拟和实验之后,得出了语音信号产 生的数字模型| 4 j ,如图2 2 所示。该模型包括激励源、声道模型和辐射模型 三个部分。其中激励源分为浊音和清音两个分支。 基音周期a 。 图2 2 语音信号产生的数字模型 浊音时,激励信号由周期脉冲发生器产生,为达到模拟实际声门气流脉 冲的波形,还必须使之通过一个声门脉冲滤波器,实际研究表明:其幅度按 每倍频程1 2 d b 的速度递减。若定义g ( z ) = l ( 1 一g l z 一一g :z 一。) ,其中g i 、g :都 武汉理工大学硕b 学位论文 接近于l ,则通过滤波器后得到的浊音激励信号频谱非常接近于声门气流脉 冲的频谱。系数a ,用来调节其幅度和能量的。而在清音时,激励信号可以 看作是随机自噪声,由自噪声发生器产生。分析表明其幅度为高斯分布,系 数a 。是用来调节语音信号的幅度和能量 5 j 。 我们将实际声道看作一个变截面的声管加以分析,采用流体力学的方法 导出声道传输函数v ( z ) ,v ( z ) 为个全极点模型。再将截面积连续变化的 声管近似看作p 段短声管的串联,p 为全极点滤波器的阶数。显而易见,p 数值越大,v ( z ) 与声道的实际传输函数的吻合度越高。在实际语音编码过程 中,p 值一般取8 1 2 ,p 值取高了会带来计算量过大的问题。a f z ) 表示为: ,p 4 ( z ) = l a ,z 1 ( 2 。1 ) t = l 其中舶= l ,而辐射模型r ( z ) 与嘴形有关,尺( z ) = ( 1 一r z 一1 ) ,* l 。 在整个数字模型中,a ,、a 。、清浊音开关位置以及声道模型的参数n 。 a 。都随着时间而变化的,g ( z ) 和r ( z ) 保持不变。 综上述,完整的语音数字信号模型可用三个子模型串联表示,其传输函 数为: h ( z ) = g ( z ) h ( z ) r ( z )( 2 2 ) 实际应用中的各种语音压码器都是此模型的基础上运用各种算法来达 到压缩编码的目的【1 0 j 。 2 3 语音信号的特点 语音信号有四个特点: ( 1 ) 语音信号的频谱分量集中在3 0 0 3 4 0 0 h z 的范围内。根据奈奎斯 特抽样定理用一个防叠混的带通滤波器将此范围内的语音信号频谱分量取 出,按8 k h z 采样率对语音信号进行采样,就可以得到离散时域的语音信号。 ( 2 ) 语音信号具有短时性。语音信号是种典型的非平稳信号1 6 1 ,但 我们可以认为在较短的时问内语音信号是平稳的。这是因为在语音形成的过 程中发声器官也在运动中,这种物理运动比起声音的振动要缓慢得多。因此, 在l o m s 3 0 m s 的时间段内,其频谱特性和某些物理特征参量可以看作是近 似不变的。这样,我们就可以采用平稳过程的分析处理方法来处理了 m l 。现 在几乎所有的处理方法都立足于这种短时平稳的假定。最重要的语音信号 武汉理丁大学硕士学位论文 “短时特征”和“短时参数”包括它的“短时能量”、“短时过零率”、“短 时相关函数”、“短时频谱”。 ( 3 ) 语音信号的共振峰特性。在前面我们谈到声道是一个分布参数系统, 它有许多自然谐振频率( 在这些频率上其传递函数具有极大值) ,所以声道是 一谐振腔,它放大某频率而衰减其他频率分量。谐振频率由每瞬间的声 道外形决定。讲话时,舌头和e l 唇连续运动,使声道常常改变外型和尺寸, 随即改变谐振频率。这些谐振频率称为共振峰频率,简称为共振峰。它是声 道的重要声学特征,全极点模型的假定在语音处理中获得了很大成功,正是 因为它抓住了语音信号的这一主要特征。一般来说,对于有声特别是元音有 3 个左右的特征共振峰,从频率低的方向顺着数,称为第1 共振峰,第2 共振峰,第3 共振峰:对于较为复杂的辅音或鼻音,则大约需要5 个以上的 共振峰i ”。 ( 4 ) 语音信号的另一个特性是掩蔽效应。掩蔽效应是使一个声音a 能 感知的阈值因另一个声音b 的出现而提高的现象。这时b 叫掩蔽音,a 叫 被掩蔽音。被掩蔽音刚能听到时的掩蔽音的强度称为掩蔽阈限1 8 1 。研究掩蔽 效应有助于我们对音色、响度和音高的理解和估计。在语音编码中。利用掩 蔽效应改善输出语音质量已经取得了很大的效益。 语音信号的短时性和共振峰性是语音信号分析中最为重要的两个特性, 也是语音分析提取主要的两个特征参数 9 1 。 2 4c e l p 算法的主要技术 c e l p ( 码激励线性预测) 的基本原理如图1 1 ,采用了线性预测分析、 矢量量化和知觉加权等技术。下面我将一一加以分析和回顾。 2 4 1 线性预测分析 线性预测是语音信号处理的核心技术,它所包含的基本概念:一个语音 的抽样能用若干个过去语音抽样的线性组合来逼近【1 1 1 。通过实际语音抽样和 线性预测抽样之间差值的平方和达到最小值,来决定唯一的一组预测系数。 根据上述语音信号产生的模型,语音信号是一个线性非移变因果稳定系 统受到信号激励后的输出。在时域中,语音信号s ( n ) 是该系统的单位取样响 应h ( n ) 和激励信号e ( n ) 的卷积。为了求得声道参数,需对已输出的语音信号 武汉理工大学硕士学位论文 分析并求出参与卷积的各个信号。而解决此任务的算法称为解卷积算法。线 性预测编码算法正是使用最为广泛的一种参数解卷积算法。 图2 3 为信号s ( n ) 的模型框图。其中u ( n ) 表示模型的输入,s ( n ) 表示模型 的输出,h ( z ) 为模型的系统参数。当s ( n ) 为确定信号时,u ( n ) 为单位冲激响 应;当s ( n ) 为随机信号时,u ( n ) 则为白噪声。 u ( n ) 厂 s ( n ) 叫竺卜 图2 3 信号s ( n ) 的模型 模型的系统函数h ( z ) 可以写成有理分式的形式 g l + b ,7 日( = ) = g 等 i 一甲1 j _ l ( 2 3 ) 其中,系数q 、6 ,及增益因予g 就是模型的参数,而p 和q 是选定的模 型的阶数。因而信号可以用有限数目的参数构成的模型来表示 1 2 1 。 在语音处理中采用线性预测技术,不仅仅只利用它的预测功能,而且还 要它提供一个非常好的声道传递模型。如上式可看到h ( z ) 是一个变量z 的有 理分式,在基于参数模型的系统辨识研究中,通常假定其系统的传递函数为 有理函数。此有理分式函数有三种情况:一种是只要零点没有极点,称为 滑动平均模型,即m a 模型;另一种是只要极点没有零点,称为自回归模 型,即a r 模型;最后一种是既有零点又有极点,称为自回归滑动平均模 型,即a r m a 模型 i s l 。 a r ( a u t o r e g r e s s i v e ) 模型正是最常用的模型,线性预测就是基于全极 点模型假定的【1 8 l 。当上式中的分子多项式为常数,即b l = o 时,h ( z ) 为全极 点模型,此时模型的输出只取决于过去的信号值。我们之所以采用全极点模 型是由于它的计算简单的优点,对a r 模型作参数估计是对线性方程组求解 的过程,相对比较容易。如果模型中含有有限个零点,则要解非线性方程, 实现起来就非常困难。另外,如果不考虑鼻音和摩擦音,语音的声道传递函 数就是个全极点模型。对于鼻音和摩擦音,语音的声道传递函数既有极点 又有零点,我们知道如果线性预测的阶数p 足够高,可以用全极点模型来近 似逼近零点模型。因为一个零点可以用多个极点来近似 i s l ,即 ,一a g - 1 = 百孑_ 忑 ( 2 4 ) 武汉理工大学硕士学位论文 采用最小均方误差( l m s 误差) 准则对a r 模型参数进行估计,就可以 得到线性预测编码算法1 1 5 l 。 误差函数为: 一2 = b ( n ) 一娴】2 ( 2 5 ) 其中j ( 一) 为估计的语音信号。 使上式最小可推得l p c 正则方程组( 取阶数p = 1 0 ) ; 1 0 口,r ( j f 一j ) = 一,( 女) ,k = 1 一,1 0 ( 2 6 ) i = l 把它写成矩阵形式时,它的系数矩阵是一个对称阵,而且为t o e p l i t z 矩 阵。目前人们已经研究出了一些高效、适合计算机实现的求解l p c 正则方 程的算法,如自相关解法中的l e v i n s o n d u r b i n 递推算法、协方差算法、格 形算法和s c h u r 递推算法等。自相关算法和协方差算法较为常用,相比而言 自相关算法的计算要简单一些,利用l e v i n s o n ,d u r b i r l d 的递归解法能够有效 的求解自相关方程,而协方差方程要使用c h o l e s k y 分解来求解。在p = 】0 时,两者的计算量相差3 倍。协方差算法的优点在于无须加窗,计算精度高, 其缺点是不像自相关法那样能保持系统的稳定性。由于自相关算法中加窗的 窗长l 远大于p 时,自相关算法所带来的误差是可以忽略的,而且采用海明 窗这样的平滑窗能进一步减少误差,所以在实际运用中采用自相关算法1 2 2 1 。 2 4 2l e v i n s o n d u r b i n 递推算法 将l p c 正则方程写成矩阵形式,则有: ,( 0 ) ,( 1 ) r 0 ) ,( 0 ) r ( 2 ) r ( i ) r ( p r ( p r ( p 一1 ) r ( p 一2 ) r ( p 一3 ) r ( 0 )三e r 0 ) ,( 2 】 ,( p ) ( 2 7 ) l p c 正在方程组可以用递归方法求解,递归方法在计算上是很有效的。 其基本思想是:递归解法分布进行。假设在某一步我们已经有了一个解,它 是一个( i - 1 ) 阶预测器的系数,然后利用( i - 1 ) 阶预测器的系数计算i 阶预 测器的系数,即i 阶方程组的解可以用( i - 1 ) 阶方程组的解来表示,( i - 1 ) 阶方程组的解又可以用( i - 2 ) 阶的方程组的解来表示,以此类推。因此,只 9 武汉理上人学硕士学位论文 要解出一阶方程组的解,就可以通过递推解出任意阶方程组的解。在这种递 推算法中,最常用的是l e v i n s o n d u r b i n 算法,这是一种非常实用的算法。 算法的步骤如下: 1 对于i = 0 时,e 。= r ( o ) 2 对于第i 次递归: a ) ,= 。,j r ( j o ( 1 - i - p ) 。卜i j = 0 b ) 口y = k , c ) 对于j = 1 ,到i i 有 a p = a p k l a 譬1 d ) e = o - t ? ) 巨一l 上面各式中括号内的上标表示预测器的阶数。 步骤2 中各式可以对i = l 2 ,p 进行递推解,而最终解为 口,= 口:9 ( 1 ,p )( 2 7 ) 由递推过程可知,每一步递推的关键在于t ,这个系数具有特殊的意义, 通常称为反射系数或偏相关系数。 2 4 3 线谱对( l s p ) 分析 线谱对式线性预测参数的另一种表示形式 1 6 1 ,可以用来估计语音的基本 特性,由于它是频域参数,所以和语音信号谱包络的峰有更紧密的联系。 在线性预测分析中,语音被看成是一全极点滤波器h ( z ) = l a ( z ) 的输出。 其中a ( z ) 为预测误差滤波器: 口 一( :) = l + 叩1 j = l ( 2 8 ) p 为线性预测阶数,吼为线性预测系数。 a ( z ) 具有如下递推关系: 一( ) ( = ) = ac 1 1 】( z ) 一,2 - 一1 一( 1 1 ) ( z 一1 ) 分别将女川= 一1 和k 川= 1 时的9 “( = ) 用p ( z ) 和q ( z ) 表示,可得: 1 0 武汉理t 大学硕士学位论文 p ( :) = 一( z ) + :一( ,“1a ( z 一1 ) q ( z ) = 爿( z ) 一:一( p + 1 a ( z 一1 ) ( 2 9 ) ( 2 1 0 ) p ( z ) 币l jq ( z ) 均为p + l 阶多项式,且4 ( = ) = 当 p ( z ) + q ( z ) 】。 当a ( z ) 的零点在z 平面单位圆内时,p ( z ) 和q ( z ) 的零点都在单位圆上, 并且p ( z ) 和q ( z ) 的零点沿着单位圆随。的增加交替出现。设p ( z ) 的零点为 e m ,q ( z ) 的零点为e m 那么p ( z ) 和q ( z ) 可以写成下列因式分解形式: p ,2 p ( :) = ( 1 + z - 1 ) 丌( 1 2 c o s o 。2 。1 + 2 , - 2 ) ( 2 1 1 ) s = l p ,2 q ( :) = ( 1 一:一1 ) l - i ( 1 2 c o s 0 ,= 一1 + z2 )( 2 1 2 ) j = t 。和0 按下列关系排列: 0 ,= 1 3 1 鼠 1 o ) p 2 0 # 2 厅 因式分解中。,、0 。成对出现,反映了谱的特性,称为“线谱对”,它们 就是线谱对分析所要求解的参数。 由上面的分析可知,线谱对分析的出发点是通过两个z 变换p ( z ) 和q ( z ) , 将a ( z ) 的p 个零点映射到单位圆上,这样使得这些零点可以直接用频率m 来 反映,而p ( z ) 和q ( z ) 各提供了p 2 个零点频率。 线谱对参数与语音信号的谱特性有密切的关系,共振峰与l s p 线谱对的 密集区相应。如果在某个特定的b 。,。:,j 中,只移动其中任意一个线谱频 率m ,的位置,模拟计算的结果表明:它所对应的平滑谱只在q 附近与原平滑 谱有差异,而在其它频域则变化很小 1 7 1 。这一性质是非常有用的,如在用 l s p 进行矢量量化时,就可以把这个p 维特征矢量分成两个p 2 维矢量来进 行量化 1 7 1 。这样既不影响总的量化效果,又可以大大节约计算量。 2 4 4 语音信号的矢量量化 量化分成两类:标量量化和矢量量化。标量量化是对语音信号波形每一 个取样值或语音信号的每个参数值分别独立地进行量化;而矢量量化( v e c t o r q u a n t i z a t i o n ) 则是将语音波形的取样值或语音的参数值分成一些组,每组构 成一个矢量,然后对此矢量一次进行量化 2 1 1 。矢量量化是信息论在信源编码 理论方面的新发展,其研究的基础是信息论的一个分支:“率失真理论”。 武汉理工大学硕士学位论文 该理论提出:矢量量化总是优于标量量化,而且矢量维数越大性能越优越f 1 9 】。 这是因为矢量量化有效地应用了矢量中各分量间的各种相互关联的性质。 在g 7 2 9 中用到了四个矢量量化:固定码本矢量量化、自适应码本矢量 量化、线谱对的两基矢量量化和两阶共轭结构增益矢量量化【2 0 】。 矢量量化的基本原理 矢量量化的过程是:将语音信号波形的k 个样点的每一帧,或k 个参数 的每一参数帧,构成k 维空间的一个矢量,然后对这个矢量进行量化。而要 对一个矢量进行量化,首先需要选择一个合适的失真测度,然后用最小失真 原理,分别计算用量化矢量e 替代x 所带来的失真。其中最小失真所对应的 那个量化矢量,就是矢量x 的重构矢量。通常把所有n 个量化矢量构成的 集合 f 称为码书或码本( c o d e b o o k ) ,把每个量化矢量t 称为码字或码矢,n 称为码本的大小。 矢量量化器的原理如图所示: 量 图2 4 矢量量化器的原理图 矢量量化器工作过程如下:在编码端,将输入矢量一与码本中的每一个码字 进行比较,分别计算出它们的失真。搜索到失真最小的码字y s 。的序号j , 并将此序号编码传输:在译码端,年角年个编码译为序号j ,再根据此序号 从码本中找出相应的码字y ,。,并将它作为y ,输出。由于两个码本完全一样, 此时失真最小。 矢量量化的失真测度 矢量量化器的设计中,失真测度的选择是很重要的。失真是将输入信号 矢量用码本的重构矢量来表征时的误差或所付出的代价,这种代价的统计平 1 2 武汉理t 大学硕士学位论文 均值描述了矢量量化器的工作特性。失真测度选用的是否合适,直接影响系 统的性能。 理想的失真测度必须具备以下几个特性:( a ) 必须在主观评价上有意义, 即小的失真应该对应于好的主观语音质量;( b ) 必须是易于处理的,即在数 学上易于实现,这样可以用于实际的矢量量化器的设计;( c ) 平均失真存在 并且可以计算。 失真测度主要有均方误差( 欧氏距离) 、加权的均方误差、i t a k u r a s a i t o 距离和似然比失真测度等。其中最常用的似二阶的均方误差( 平方误差) : t d 2 ( x ,r ) = ( 一一y 1 ) 2 = ( 爿一y ) 7 ( 爿一y )( 2 1 3 ) “, - - - 7 “ 其中以( x ,y ) 的下标2 表示平方误差,k 是矢量的维数,x 、y 分别表示 输入信号和码本中的矢量,小y ,分别表示x 和y 的元素。 ( d 最佳矢量量化器设计的两个条件 最佳矢量量化器是使得到的失真最小的量化器。设计最佳矢量量化器的 过程也是码本的设计过程。在矢量量化器的最佳设计中,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论