




已阅读5页,还剩101页未读, 继续免费阅读
(通信与信息系统专业论文)cacelp语音编解码模型的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语音通信足一种基础而有效的获取信息的方式,语音信号的压缩 编码足语音通信中的关键技术。c e l p 类语音编码器能够以较低的码 率获得很高质量的合成语音,所以c e l p 类语音编码器成为当前一种 主要的语音压缩模型。很多国际标准都足以该类模型为基础制定的。 但是,几乎所有的c e l p 类模型都足以理想的无噪信道为前提的。而 实际的信道并不足理想信道,当信道噪声超过一定的限度时,合成语 音的质量迅速下降。为了增强语音编码器对信道噪声的顽健性,为此 本文对c e l p 编码模型进行了深入的研究。 本文对应用于有噪信道的信道最优矢量量化算法( c o v q ) 作了 深入研究,并针对该算法中为每一个信道状态都计算一套码本难于实 现的缺点,提出信道自适应加权矢量量化( c a w v q ) 算法。该算法 对好坏两种不同的典型状态,通过c o v q 算法计算出该状态的最优码 书。对于不同的信道状态,采用不同的加权因子对典型码书进行加权, 获得与当前信道状态相匹配的码书。这样只使用较少的存储空间就能 获得和c o v q 算法接近的效果。并将c a w v q 算法与c e l p 模型相结合 提出c a c e l p 语音编解码模型,有效提高了语音编解码器对信道噪声 的顽健性。该模型在编码端采用中心削波、三电平削波的方法进行基 音周期的粗搜索,以减少基音周期倍频和分频的出现,提高基音周期 的搜索精度。该模型还采用多模代数码本,使该编码器以较低的码率 获得较高的语哿质量。 最后,论文就c a - c e l p 模型在m a n a b 中实现了仿真,仿真结 果表明:在无噪信道中该模型能够以6 4 k b p s 的码率获得接近8 k b p s 的g 7 2 9 编码器的性能。将该算法应用于有噪信道中,与未采用信道 自适应算法的模型相比能够有效的提高语音编解码器的性能,能够明 显缓解信道误码带来的语音质量下降的问题。 关键词矢量量化,码本,c o v q ,c a - c e l p ,信道误码率 a b s t r a c t s p e e c hc o m m u n i c a t i o n i sab a s i ca n du s e f u lw a yt og e ti n f o r r n a t i o n , a n di t sk e y t e c h n i q u eo fs p e e c hc o m m u n i c a t i o n i ss p e e c hc o m p r e s sc o d - i n g c e l pl i k es p e e c he n c o d e r sc a l lg e th i g h e rq u a l i t ys y n t h e t i cs p e e c h a tl o w e rb i t - r a t et h a nt h a to fo t h e rm o d e l s s oc e l pl i k es p e e c he n c o d - e r sb e c o m eo n ek i n do fp r i m a r ye n c o d e r s m a n yi n t e r n a t i o n a l r e c o m m e n d a t i o n sa r eb a s e do ni t b u ta l m o s ta l lo fc e l pl i k em o d e l s f o l l o wt h ep r e m i s et h a tt h et r a n s m i s s i o nc h a n n e li si d e a l b u tr e a l c h a n n e li sn o ti d e a l m e nc h a n n e ln o i s ee x c e e d sac e r t a i nl i m i t t h e q u a l i t yo ft h er e c o n s t r u c t e ds p e e c hv i as u c hs p e e c hd e c o d e rb e c o m e s m u c hp o o r t oe n h a n c et h er o b u s t n e s so fc e l pl i k es p e e c he n c o d e r s w h e nt h e ya p p l yt on o i s yc h a n n e l ,w em a d ea ni n t e n s i v es t u d yo fc e l p m o d e l w em a d ear e s e a r c hi n t oc o v q ( c h a n n e lo p t i m a lv e c t o r q u a n t i z a t i o n ) t h e o r y c o v qa l g o r i t h mr e q u i r e sc o m p u t i n gc o d e b o o k f o re v e r yc h a n n e lc o n d i t i o n i tc a l ln o tb ea c h i e v e di nr e a ls y s t e m s oa n e wa l g o r i t h mc a l l e dc a w v q ( c h a n n e la d a p t i v ew e i g h t e dv q ) i s p r o p o s e d 1 1 1 ea l g o r i t h me m p l o y st w or e p r e s e n t a t i v ec o d e b o o k s ( o n ei s g e n e r a t e db yc o v qa l g o r i t h mu n d e rg o o dc h a n n e ls t a t e ,a n o t h e ri s g e n e r a t e du n d e rb a d c h a n n e ls t a t eu s i n gt h es a n l em e t h o d ) t og e n e r a t ea n a p p r o p r i a t ec o d e b o o kf o rc u r r e n tc h a n n e ls t a t eb ym u l t i p l y i n g t h e mw i t h d i f f e r e n tw e i g h t e df a c t o r s i nt h i sw a yw ec a ng e te x c e l l e n tp e r f o r m a n c e c l o s et oc o v qb u ti tj u s tr e q u i r e sl e s ss t o r a g es p a c e w ea l s op r o p o s e c a c e l ps p e e c hm o d e lb yc o m b i n i n gt h ec a w v q t h e o r yw i t hc e l p m o d e l t h em o d e lc a ne f f i c i e n t l yi m p r o v et h ep e r f o r m a n c eo fs p e e c h e n c o d e ri nn o i s yc h a n n e l a tt h es i d eo fe n c o d e r , t h ec u r s o r ys e a r c h i n g o fp i t c hd e l a yi sd o n eb yu s i n gt h em e t h o do fc e n t r a lc l i p p i n ga n dt h r e e v a l u ec l i p p i n gt or e d u c et h ec o n d i t i o no ff r e q u e n c yd o u b l i n ga n d f r e q u e n c yd i v i s i o n t h i sm o d e la d o p t sm u l t i - m o d ea l g e b r ac o d e b o o k t o r e d u c eb i tr a t e f i n a l l ys i m u l a t i o n si nm a t l a bd e m o n s t r a t e sc a - c e l pm o d e l c a ng e tg o o dp e r f o r m a n c en e a rt o8 k b p s g 7 2 9e n c o d e ra t6 4 k b p sr a t e i nn o n e - n o i s ec h a n n e l a n dt h i sm o d e lc a ne f f e c t i v e l ye n h a n c et h e q u a l i t yo fr e b u i l ds p e e c hw h e ni t s u s e di nn o i s yc h a n n e l s i m u l a t i o n d e m o n s t r a t e sc a c e l ps p e e c hm o d e lc a ng e tm u c hb e t t e rp e r f o r m a n c e u n d e rn o i s yc h a n n e lc o n d i t i o nt h a no t h e rm o d e l sd o i tc a ng r e a t l y d e c r e a s et h ed i s t o r t i o no f r e c o n s t r u c t e ds p e e c h k e y w o r d sv q ,c o d eb o o k , c o v q ,c a c e l p ,c h a n n e lb e r 原创性声明 本人声明,所呈交的学位论文足本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获 得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的 同志对本研究所作的贡献均已在在论文中作了明确的说明。 作者签名:叠亟日期:盟年且月丑日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文,允许学位论文放查阅和借阅;学校可以公布学位论文的 全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校 可根据国家或湖南省有关部门规定送交学位论文。 作者签名:毖益导师签名渔醅日期:丛年土月4 日 中南大学硕士学位论文 第一章概述 1 1 引言 第一章概述 语言是人类社会的一种重要的交流手段,语音通信毫无疑问是人类通信的最 重要形式之一。语音的模拟传输已经被使用近一个世纪了,但它逐渐被数字系统 所取代。与模拟语音通信系统相比,语音的数字传输具有能够低代价获取、一致 性的质量、安全和高频谱效率的优点这些优势激发了语音信号的数字化表示。 人们用数字化的方法己经取得了辉煌的成就,但是日新月异的应用对数字技术提 出了更高的要求,同时也在不断推动着数字技术的进步。因此,用数字化的方法 进行语音的传送、存储、识别、合成、增强构成了目前数字化通信网中最重要、 最基本的组成部分之一。 语音编码技术是伴随着语音的数字化而产生的,目前主要应用在数字语音通 信和数字语音存储两个领域。由于简单地由连续语音信号抽样量化得到的数字语 音信号,在传输和存储时要占用较多的信道资源和存储空间,随着数字技术的飞 速发展,数字业务量急剧增长,如何在提供高质量语音的基础上用尽可能低的码 率来传送和存储数字语音信号,从而增加现有信道的带宽利用率、通信的安全性、 顽健性以及成本的降低已经越来越受到人们的重视。因此如何在尽量减少失真的 情况下,高效率地对模拟语音信号进行数字化表达,即压缩编码,就成为语音编 码技术的主要内容 实际上,语音信号中含有大量的冗余信息,采用各种信源编码技术去除语音 信号的冗余度,并充分利用人耳的听觉掩蔽效应,就可以将其编码速率压缩很多 倍,而仍然恢复出可懂度甚至自然度很好的语音。一个极端的例子是,当比特率 由普通数字电话的6 4 k b s 压缩到1 5 0 b ,s 时( 即压缩4 0 0 多倍) ,仍能提供可懂的语音。 语音压缩编码,按编码后传输所需的数据速率来划分,可以分为高速率( 3 2 k b s 以上) 、中高速率0 6 3 2 k b s ) 、中速率( 4 8 1 6 k b s ) 、低速率( 1 2 - 4 8 k b s ) 和极低速率 ( 1 2 k b s 以下) 五大类。 语音编码方法,按传统的概念可分三类:波形编码、参数编码( 声码器) 、混 合编码。波形编码技术是以尽可能莺构语音波形为原则进行数据压缩,即在编码 端以波形逼近为原则对语音信号进行编码,解码端根据这些编码数据恢复出语音 信号的波形。它具有语音质量好、抗噪性能强等优点,但所需的编码速率高,一 般在6 4 - 1 6 k b s 之问。而声码器技术则是从听觉的角度注重语音本身的重现。它通 常都是基于某种语音产生的假定模型,在编码端分析出该模型参数并选择适当的 方式对其进行高效率的编码,解码端则利用这些参数和语音产生模型重新合成语 中南大学硕士学位论文第一章概述 音。它具有编码速率低的优点,可以达到2 4 k b s 以下,但语音质量差,而且对噪 声较敏感、鲁棒性不好。混合编码是上述两类方法的有机结合。与参数编码相同 的是,它也是基于语音产生模型的假设并采用了分析与合成技术,但同时它又利 用了语音时间波形信息,增强了重建语音的自然度,使得语音质量有明显提高, 其代价是编码速率相应上升,一般在1 6 - - 2 4 k b s 之间。由于近年来在语音编码技 术研究中,尤其是中,低速率编码技术中,各种新算法、新概念的不断涌现,采 用上述概念进行分类的界限己显得越来越模糊。 多媒体信息交换包括电话、电视电话会议、可视电话、语音信箱、电子邮件、 图像传真、数据等等。( 无缝通信是指用户可方便地综合使用这些手段,而不影 响通信质量,并能随意地把一种通信手段转换成为另一种通信手段;高质量是指 通信质量不随用户环境及传输媒介的变化而降低,用户使用起来方便快捷。) 这 取决于信息高速公路的建设和计算机、微电子、材料、网络、通信等诸多关键科 学领域的发展,而语音压缩编码将是最基本、最重要的技术。这是因为最终产生 信息、获取信息的是人,而人是以语音作为主要通信手段的。话带语音压缩编码 的研究已有几十年的历史。近十余年来,人们对这一领域的研究兴趣大大的增长, 已有大量的技术应用在远程通信和存储。一些国家和国际标准化组织相继制定了 语音压缩编码的标准,直接推动了语音压缩编码的发展。家用和专业数字音响取 得了商业成功。在市场的牵动下,高保真音频压缩在近几年发展也很快。在通信 系统中为了节省带宽,以及在语音存储中节省存储空间,音频信号的压缩编码技 术有了大幅度的发展,音频带宽也从3 2 k h z ( 2 0 0 h z 3 4 k h z ) 的话带发展到7 k h z 会议电视宽带的语音压缩和2 0 k h z 音乐宽带音频信号压缩,尤其是d h d t v 研 究开发的a c - 3 方案,因其多声道、立体卢等高保真特点,已被荚国联邦通信委 员会f f c c ) 采纳。因此,语音压缩编码的发展在频带方面可归纳为三部分:3 2 k h z 话带、7 啪z 电视话带和2 0 k h z 音乐话带。从应用领域看,语音压缩编码已在有 线无线电话、会议电视和h d t v 以及商保真音乐等领域有广泛的应用。 语音信号处理最早和最重要的一种应用是贝尔实验室的h o m e r d u d l e y 在 1 9 3 9 年发明的第一个声码器。随着通信技术的发展,卫星、微波和光通信系统 提供了很宽的频带,但是在很多情况下仍然有着节省频带的需要;同时,利用多 余码字对语音信号进行极其复杂的加密的可能性也极大地推动了语音压缩编码 在许多方面的应用。国际电信联盟c c i t t ( i t u ) 己经制定了几种速率的语矛编 码国际标准,这些标准推动了研究工作的进展,但是它们的信源速率普遍较高( 最 低速率标准为g 7 2 3 ( 5 3 k b p s ) ,低速率编码的语音质量大多不能令人满意,使 得低速率的语音编码成为近年来的一个热点和难点。尤其是在短波信道、水声信 道、岩石信道等对信源速率要求极其苛刻的应用场合,进行低速率、超低速率语 2 中南大学硕士学位论文 第一章概述 音编码的研究工作尤为迫切。 中、低速率( 1 6 k b p s - - 4 8 k b p s ) 的语音编码技术经过8 0 年代中期1 0 年的研 究已经取得了很大成果。但是在甚低码率( 4 8 k b p s - a 2 k b p s ) 的语音编码仍是 信源编码领域学者研究的热点,令人满意的算法很少。甚低码率语音编码对 i n t e m e t 电话、保密通信、无线通信、语音存储与记录等应用领域具有特殊的意 义。低码率语音编码技术主要建立在语音产生模型、心理学特征、谱分析等理 论基础上,需要运用较多的数学工具。 1 2 语音编码发展概况与研究成果 语音压缩编码的发展,一直是在用尽可能低的数码率获得尽可能好的合成 语音质量的矛盾中发展的。数码率实质上反映的是频带宽度,降低数码率实质 上是压缩频带宽度当然随着数码率的降低,相应的算法延迟时间和计算复杂 度也要增加。 在半个多世纪的研究中,各国学者做出大量的努力,从人类发音机理和听 觉机理出发,对语音的基本元素的声学特性、频谱特征和语意表达等做了大量 研究,建立了发音模型、听觉模型,在不同程度上逼近真正的语言过程,并取 得了长足的进展,逐步形成了通信和信息处理学科的重要研究方向。 自从1 9 3 9 年美国的h o m e rd u d l e y 发明声码器以来,语音处理开始了参数 编码或模型编码的研究,它是以滤波器为主构造的通道声码器。2 0 世纪6 0 年 代以前,s a t o i t a k u r a 和a t a l s c h r o e d e r 研究出实用的共振峰声码器t “,最早把“线 性预测( l p c ) ”技术应用到语音分析和合成。1 9 6 6 年,l f l a n a g a n 提出了以瞬 时频率为基础的相位声码器t 2 1 。1 9 6 9 年,a v o p p e n h e i m 提出了以倒谱为基础 的同态声码器。在众多声码器中,l p c 声码器终因其成熟的算法和参数的精确 估计成为研究的主流,并逐步走向实用。 从1 9 8 5 年b s a t a l 和m r s e h r o e d e r 提出c e l p 算法以来,闭环分析算法 ( l p a b s ) 成为主流。美国国防部公布了4 8 k b sc e l p 联邦标准( f s 1 0 1 6 ) 。 欧洲电讯管理局( g s m ) 于1 9 8 8 年公布了1 3 k b s 砌e 彤r p 线性预测语音编码 方案,1 9 8 9 年,北荚蜂窝电话工业组织( c t u a ) 公布了i s 5 4 ,8 k b s 矢量和 激励线性预测( v s e l p ) i 吾音编码方案。1 9 9 2 年,c c r r r 公布了g 7 2 81 6 k b s 短 时延码激励线性预测语音编码( l d c e l p ) 方案,1 9 9 5 年公布了g 7 2 35 3 6 3 k b s a c e l p m l q 双速率多媒体语音编码标准,1 9 9 6 年公布了g 7 2 98 k b s c s a c e l p 共轭结构代数码激励的语音编码标准。 在这l o 年中就产生了3 个国际标准、2 个地区性标准和2 个国家标准,这 些算法的共同特点足采用闭环l p a b s 算法、知觉加权技术、复合窗技术、 中南大学硕士学位论文 第一章概述 l s p ( l s f ) 技术、后置滤波技术、增益自适应技术、分数基音内插技术等。另外, 多带激励( m b e ) 0 ( 1 9 8 8 年) 、自适应变换编码( a t c ) h i ( 1 9 7 7 年) 和子带编码 等语音压缩编码的实用方案也常有报道,它们都属于正弦编码。国际海事卫星 组织( i n m a r s a t ) 于1 9 9 0 年公布了4 1 5 k b s 改进型多带激励( i m b e ) 语音编码标 准。因此,在这l o 年中,c e l p 算法是语音压缩编码的主流。 近年来随着第三代移动通信的发展,变速率语音压缩编码技术相应得到发 展。为了充分利用c d m a 技术,q u a l e o m m 于1 9 9 3 年提出了可变速率的c e l p , 通常称为q c e l p t s l 。该技术有8 种速率( 1 2 2 ,1 0 2 ,7 9 5 ,7 4 0 ,6 7 0 ,5 9 0 , 5 1 5 ,4 7 5 k b s ) 供选择,并采用语音激活技术( k d ) 、舒适背景噪声( c a n ) 、 源控速率( s c r ) 、重帧及误码消除( e c u ) 、抗稀疏处理等先进技术。变速率 语音压缩编码理论上仍属于c e l p ,但在“变”上有新的研究,引入了相关的 先进技术。随着因特网的发展,语音口1 6 1 0 “o l p ) x 寸语音压缩编码的需求十分迫切。 在h 3 2 3 系列建议中规定了音频编解码算法符合r r u 标准,如t 2 7 1 i ( a 律或l i 律) 、g 7 2 2 、c a 7 2 3 。l 、1 2 7 2 8 、1 2 7 2 9 a 等。但问题在于数据包在网上传送延迟时 间有时太长( i t u t1 2 1 9 2 建议环路延迟应保持在3 0 0 m s 以下) 1 7 1 ,会影响v o 口 作为电话的使用。更低码率的声码器可做到6 0 0 b s 。 目前国际上音频压缩算法主要集中在i s o m p e g 音频编码标准。m p e g 工 作组成立于1 9 8 8 年,1 9 9 2 年1 1 月完成了它的第一个标准m p e g 1 。1 9 9 4 年1 1 月完成了它的第二个标准m p e g - 2 ,在与m p e g - 1 兼容的基础上实现了低码率 和多声道扩展。1 9 9 7 年4 月完成的m p e g - 2 a a c ( a d v a n c e d a u d i o c o d i n g ) 对 低至6 4 k b s e h 的多声道编码,它都能提供相当高的声音质量。m p e g - 4 是 i s 伽e c 于1 9 9 8 年1 1 月完成的,1 9 9 9 年1 月成为国际标准。m p e g - 4 的制定 是基于数字电视、交互式图像以及万维网( w 曲l dw d ew e b ) 领域的成就而进行 的。为了在充分利用比特率的条件下获得最好的音频质量,标准定义了三种类 型的编,解码器:用于低比特率的参数编,解码器,用于中比特率的c e l p 编解 码器,以及用于高比特率的时频( t f ) 编,解码器,包括a a c 和基于矢量量化 器的编,解码器。m p e e 4 的新颖之处是利用音素信息对唇的同步控制,在语 音编码和图像编码的有机结合上迈出了可喜的一步,为声、图联合编码数据融 合给出了一个范例。 高保真音频信号压缩编码,即带宽1 5 2 0 k l - i z 的家用、专业高保真音响, 包括动画和h d t v 音频以及多媒体系统。有时音频编码这一术语也指宽带语音 编码,即带宽7 k h z 的语音信号、电视以及i s d n 上的语音通信。家用高保真声 频产品d c c ( 音频压缩磁带) 和m “d i s c 部用到了感知掩蔽方法,d c c 用的 是精度自适应子带编码,m i n id i s c 系统用的是自适应变换声学编码( a t r a c ) 。 4 中南大学硕七学位论文第一章概述 由上所述,子带编码是宽带语音压缩的主要技术因为对传输时延有较高的要 求,因此i s d n 和会议电视大部分都采用c e l p 作一些感知加权和延时约束。 1 3 中低速语音编码典型算法 下面对中速率语音编码算法中的几种典型算法作一些简单的介绍。 ( 1 ) 多脉冲线性预测编码( m p l p c ) 嘲 1 9 8 2 年,b s a t a l 和j r r e m d e 提出了多脉冲线性预测编码( m p l p c ) 方 案。在m p l p c 中,无论是清音还是浊音,合成语音都是由一个激励脉冲序列 通过线性预测( l p ) 合成滤波器及声道滤波器而得到的。这种激励脉冲序列在 一定的时间间隔内只能出现数目有限的非零脉冲,每个非零脉冲的幅度和相位 ( 即位置) 都可以用合成分析法在感觉加权均方误差最小的准则下计算得到。 需要传输的编码参数包括l p 合成滤波器的系数和非零脉冲的幅度和相位信息。 要想得到较高的语音合成质量,一般的,多脉冲激励序列每1 0 w s 内至少需要8 个左右的非零脉冲。因此,在编码速率比较高的时候,如9 6 k b s 1 6 k b s ,m p l p c 可以获得较高的语音合成质量,但如果要进一步降低编码速率,激励脉冲序列 中非零脉冲的个数将减少,非零脉冲相位和幅度的量化也将会变粗糙,合成语 音的质量将迅速下降这是因为m p l c p 采用了单纯的脉冲序列作为激励信号, 在降低编码速率之后,无论在语音的浊音段还是在语音的清音段和过渡段都会 产生较大的误差,尤其是对于后者,激励匹配很不理想,因此语音合成质量会 迅速下降,出现很强合成声。 ( 2 ) 规则脉冲激励线性预测编码( r p e - l p c ) 规则脉冲激励线性预测编码是由酎e d c p r e t t e r e 和p k r o o n 在1 9 8 5 年提出 的。与m p l p c 相比,r p e l p c 的激励信号不再是由多个位置和幅度都任意的 非零脉冲组成的多脉冲序列,而是由一组间距相等的非零脉冲组成的规则脉冲 序列。也就是说,激励脉冲序列的相位( 第一个非零脉冲的位置) 和每一个非 零脉冲的幅度可以是任意的,但激励信号不再是有多个位置和幅度都任意的非 零脉冲组成的多脉冲序列,而是由一组间距相等的非零脉冲组成的规则脉冲序 列。也就是说,激励脉冲序列的相位( 第一个非零脉冲的位置) 和每一个非零 脉冲的幅度可以是任意的,而非零脉冲之间的相互位置则是固定的,因此 r p e - l p c 的计算量和编码速率可以比m p l p c 小很多。 1 9 8 6 年,k h e l l w i g ,r n o j m a n n 等人将r p e l p c 算法简化,又与c g a l a n d 等人合作改进算法,在r p e - l p c 中加入了长时预测( l o n g t e r mp r e d i c t i o n ,简 称u 甲) ,将编码速率降为1 3 k b s ,成为长时预测规则脉冲激励( m e l p c ) 编 码方案。它的特点是算法简单,语音质量高,在1 9 8 8 年被确定为泛欧数字移动 5 中南大学硕士学位论文第一章概述 通信的语音编码标准。 与m p l p c 和r p e l p c 相比,r p e l p c 增加了长时预测,利用激励信号 的历史记忆对当前的线性预测( l p ) 余量信号进行长时预测以进一步去除其中 的长时冗余度,从而使规则脉冲激励序列能更好的与去除长时冗余后的l p 余 量信号相匹配。由于它采用了感觉加权、长时预测等技术,在1 3 k b s 的速率上 能得到相当好的编码质量,但若要进一步降低编码速率,与m p l p c 相类比, 由于其激励信号的单一性,规则脉冲序列中非零脉冲幅度和相位的量化又需要 较多的比特,因此合成语音的质量将会迅速下降。 ( 3 ) 正弦模型 正弦模型中比较著名的有多带激励( m b e ) 和正弦变换编码( s 1 ) 。在这 类模型中,合成语音由一组幅度、相位和频率都是时变的正弦波相加而产生, 正弦波的幅度、相位和频率在相邻帧间保持连续。 正弦编码是由美国麻省理工学院( m i t ) 林肯实验室的m c a u l a y 和q u a n t i e r i 提出的,其最基本的假设是合成语音可以由一组正弦信号和线性组合而得到, 这组正弦信号具有时变的幅度、相位和频率。这种编码方法可以得到高质量的 合成语音,但模型参数较多,降低编码速率有一定的难度。 1 9 8 8 年m i t 的g r i f f i n 和l i m 提出了多带激励模型( m b e ) 。在这种模型中, 语音按各基音谐波频率分成若干个带,对各带信号分别判断是浊音还是清音,然 后根据各带的清浊采用不同的激励信号产生其合成信号,最后将各带信号相加形 成合成信号。h a t d w i c k 和l i i n 采用离散余弦变换( d c t ) 来量化正弦波的幅度, 将编码速率降至4 8 k b s ,并称之为改进型多带激励模型( i m b e ) 。4 1 5 k b s 的 i m b e 算法被国际海事卫星组织( d 琢4 r s a t ) 定为卫星语音通信标准。 ( 4 ) 原型波形插值( p w i ) a t & t 的k l e i j n 提出的原型波形插值( p r o t o t y p ew a v e f o mi n t e r p o l a t i o n , 简称p w i ) 是针对浊音段语音处理而占的,清音段语音仍需采用其他方法进行 处理( 如c e l p ) 。由于浊音段语音相邻基音周期的波形变换不大,p w i 从激励 信号中每2 0 m s 至3 0 m s 左右取出一个基音周期段作为原型波形编码传输,合成 端通过线性插值得到其他基音周期段的激励信号,合成的激励信号通过线性预 测( l p ) 合成滤波器得到重建语音。k l e i j n 采用了频域的方法及傅里叶级数来 表示原型波形,这实质上是表示了一组正弦信号。因此,虽然p w i 源于重建原 始语音波形,但它与正弦模型等参数编码有着内在的联系。基于p n i 原理的一 种实现称为时频插值编码( t i m ef r e q u e n c yi n t e r p o l a t i o n ,简称t f i ) ,这种编码 方法在2 4 k b s 至6 k b s 之间取得了相当好的效果,但它也有与正弦模型相类似 的问题,即蓖建语音合成感强,自然度不如c e l p 好。 6 中南大学硕士学位论文第一章概述 ( 5 ) 码激励线性预测编码( c e l p ) 1 9 8 5 年,a t & t 的a n d 等人首次提出了码激励线性预测( c e l p ) 的基本 概念,立刻吸引了各国研究学者的注意,c e l p 成了中低速率语音编码方案中 最热门的也最成功的一类编码方法。由于c e l p 综合了波形编码与参数编码的 优点,采用矢量量化,感觉加权和合成分析等技术,在4 8 k b s 1 6 k b s 的速率 上可以获得相当高的语音质量,并得到了广泛的应用。如北美数字移动通信语 音编码标准所用的8 k b s 矢量和激励线性预测编码( v s e l p ) 算法;日本数字 移动通信语音编码标准所用的6 7 k b s v s e l p 算法;u 语音编码国际标准g 7 2 8 所用的1 6 k b s 短延时码激励线性预测编码( l d - c e l p ) 算法唧以及g 7 2 9 1 1 0 l 所 用的8 0 k b s 共轭结构代数码本激励线性预测编码( c s - a c e l p ) 算法等都属于 c e l p 类的编码方案 总之,方法虽然多,有相似之处,每种编解码器又有其独特之处,我们应 该研究各种方法的优缺点,并把研究成果用于改进我们自己的编解码器。 1 4 本课题所做的主要研究 论文主要研究c e l p 语音编码技术,对于目前主流的c e l p 编码技术,尤其 是国际电联o t t o 发布的语音编码标准g 7 2 8 ( 3 7 2 9 的原理进行了深入的研究。在 此基础之上提出c a c e l p 模型,通过采用多模代数码本在合成语音质量下降不 大的情况下,降低编码器码率。在基音周期的粗搜索中采用中心削波和三电平削 波的方法,以提高基音周期的搜索精度。 该模型将信道最优矢量量化技术( c o v q ) 与l b g 算法相结合,针对不同的信 道噪声训练出与该信道状态相匹配的码书,使编码器对于信道噪声有较强的顽健 性。最后针对编解码端码本存储量过大的问题提出c a w v q 算法,该算法只存 储两套码本,其他状态的码本可以通过插值的办法来获得,而且性能和c o v q 算法很接近,即该算法能够大大减少码本的存储量,并能够使编码器获得较好的 抗噪性能。 7 中南大学硕士学位论文第二章码激励线性预测声码嚣 2 1 引言 第二章码激励线性预测声码器c e l p 语音压缩编码一般是通过去除语音信号的冗余度来降低码率,因此理解语 音信号的产生和感知原理对于设计语音编码器相当重要,在理想情况下,一个 设计合理的编码器只需要对感知相关的参数进行编码就可以获得高质量的重建 语音。 在语音产生时,气流首先从肺部出来经过咽喉进入声道,然后经过声道和 嘴唇辐射。在咽喉处的弹性声道可以部分或全部阻碍气流并且产生紊流或气流 脉冲,该声道的开i = l 处称为声门,而由声道处发出的气流称为声门激励【儿i 。 根据声门的开启和闭合状态的不同,语音信号可以分为清音和浊音两种。 在发浊音时,声门周期性地开启和闭合,从而使得声门激励具有周期特征,相 应地,对应声门开合的一个周期的激励波形称为声门脉冲或基音脉冲,连续基 音脉冲的长度和形状不断变化,从而使声门激励具有准周期性。我们把声门牙 启和闭合的时间间隔称为基音周期,其倒数便是基音频率。一般的,基音频率 随讲话者和讲话内容的变化而变化,男性的基音频率较低,其范围是6 0 2 0 0 h z ,女性和儿童的基音频率比较高,范围是2 0 0 4 0 0h z 。当空气通过收缩 的声门产生紊流时,声门对流过的气体产生扰动而并非周期性的开合,此时产 生的声音就是清音。因此,清音信号更多地呈现噪声特性。 我们可以从语音信号的频谱观察到语音的时域特征:浊音信号的频谱存在 明显的谐振结构,谐振的频率就是( 或者说对应于) 声门开合的基音频率,而 清音不存在这样的谐振结构,其频谱表现为白噪声谱。除了在浊音时存在一定 的谱倾斜外,声门激励不存在明显的谱包络,语音信号的谱包络是声门激励通 过声道的结果。由于声道的频率响应不平坦,会在相邻语音信号间引入一定的 相关性,这种相关性称为短时相关性另外,在浊音时由于激励信号所具有的 周期性,又会导致相邻基音脉冲中对应样点间的相关性,区别于短时相关性, 这种相关性称为长时相关性。在频域上,短时相关性对应于信号的谱包络,而 长时相关性对应于频谱的精细结构。这两种相关性都会在语音信号问引入冗余 度,需要语音编码技术采用合理的方法去除。 根据以上分析,我们给出一个简单的语音产生滤波器模型,如图2 1 所示。 该模型是整个现代语音处理技术发展的基础,在实际应用中往往将声门脉冲模 型、声道响应函数和辐射效应结合起来用一个时变滤波器来表示。这垦g 代表 增益。 9 中南大学硕士学位论文 第二章码激励线性预测声码器 图2 - 1 语音产生简化模型 就图2 1 而言,语音压缩编码的目的就是用尽可能少的比特位来表示激励 和时变滤波器的特征,并且得到清晰、自然的语音。 到目前为止,科学家对人耳听觉系统分析原理的研究并不是很透彻,但是 我们可以利用听觉系统的掩蔽效应,简单说就是人耳对高能量的声音比对低能 量的声音敏感。掩蔽效应可以分为时间域和频率域两种。时域掩蔽又可分为同 步和异步两种,同步是指两种高、低能量声音同时发生时,高能量声音容易掩 蔽低能量声音。异步指因为人耳的感知是一个逐步积累的过程,当一个高能量 的声音结束后,其对入耳感知的影响还要持续一段时问,从而对其后的低能量 语音造成掩蔽。人耳对各种频率声音的感知部有一个阈值,即听阈,只有当某 个频率的声音其能量超过阈值,该声音才会被人耳感知。人耳的听阈是动态的, 当某个频率的声音存在时,又会影响它附近频率的听阈值,从而造成频域掩蔽 效应。频域掩蔽效应比较复杂,研究的比较透彻的是纯音和噪声之间的掩蔽关 系。一般说来,噪声掩蔽纯音比较容易,相反则较难。如何合理地应用人耳的 时日j 、频率掩蔽特性将是今后超低码率语音编码技术研究的热点。 2 2 线性预测编码算法 线性预测分析法( l p ) 是最有效的语音分析技术之一。在估计基本的语音参 数 例如荩音、共振峰、谱、声道面积函数、以及用低速率传输和存储语哿等) 、 语音识别、合成、编码、说话人识别等方面部得到了成功的应用。l p 分析的重 要性在于:它不但提供了一组简洁的语音信号模型参数,这一组参数较精确的 表征了语音信号的频谱幅度,而且计算速度比较快,运算量相对来讲也不大。 线性预测分析所包含的基本概念是“”:一个语音抽样能够用过去若干个语 音抽样的线性组合来逼近。通过使实际的语音抽样和线性预测抽样之日j 差值的 平方和 p ,a = 珥,i = 1 一p 且a = 0 ,f = ( p + 1 ) 一p 那么当模型阶数p 预先不能确定时,可以采用尝试的方法,观察万2 随p 的 变化。显然p p 时要减小p ,使占2 减小。以上的讨 论都是基于s ( n ) 由理想全极点模型所产生,事实上,实际的语音序列s ( n ) 以及 许多其他实际序列都不完全符合这个理想模型。提高p 值可以改善逼近效果。 但是当p 值增加到一定程度以后,艿2 的降低就很微小。进一步增加p 值不但大 大增加运算量,而且由于有限字长的影响,参数估计效果反而变坏。在语音信 号处理领域中模型阶数p 一般选在8 1 2 之间,预测阶数p = p 。 在给定预测阶数,= p 的条件下,令巧2 对岛一口。这p 个变量的偏导数为0 , 可以得到p 个方程。联立这p 个方程所得到的p 个解就是使j 2 达到最小的一组 最优预测系数。假设: 妒( t ,o = s ( 挖一丘拈( n - i ) ( 2 - 1 2 ) t - i 可以将这p 个方程写成下列形式: 彩( t ,f ) = 叫( 露,o ) ( 2 1 3 ) l 这就是l p c 正则方程,其中妒( 七,0 足由输入语音序列决定的。语音信号只有在 一个短时段内可以认为是平稳的,因此对语音信号的l p c 分析和其他语音信号 分析相同,必须是一种短时分析,一般取为2 0 m s 左右。为了进行短时分析, 可以采用两种方法,一种是对一个长的语爵序列s ( n ) 用窗函数w ( h ) 相乘,形成 4 中南大学硕士学位论文第二章码激励线性预测声码嚣 加窗语音( 力,然后对气( 功进行l p c 分析只要限定窗的长度便可以保证分 析的短时性,由此导出的方法称为自关法。第二种方法不是对j ( 功加窗,而是 限定所取语音段的长度。由此导出的方法称为协方差法。矿( 七,o 可以用自相关 函数来表示: ( 毛i ) = r ( i - k ) = r ( k - 0 = r ( i i - k i )( 2 一1 4 ) 私0 f 一七i ) = 月( 七) 七= l ,如,p( 2 - 1 5 ) 1 1 1 这个方程组如果写成矩阵形式,可以表示为: k a ) r 1 ) r 刁 成p - 1 ) r 1 ) r d ) k 1 ) 足p 一刁 r 乃只p - 1 ) 取i )月( 户一刁 r 0 )k 尸一习 月( p 一筇足0 ) q 嘞 口 : i 巳 足1 ) 足刁 r o ) r 乃 ( 2 1 6 ) 此时的系数矩阵是一个对称阵,它的所有的主对角线和副对角线上都各自 具有相同的元素,这种矩阵称为托伯利兹( t o e p i t z ) 矩阵这种矩阵有高效率 的递推算法,如杜宾算法( d u r b i n ) ,格型算法和舒尔算法( s c h u r ) 。最常用的是杜 宾算法,其步骤如下: ( 1 ) 给定预测器阶数p ( 2 ) 计算r ( 0 ,f = l ,p 。 ( 3 ) 计算卜器 ( 4 ) 计算e 1 1 ) = r 2 ( 0 i ) 矿- r 2 ( 1 ) ( 5 ) 令掣= 毛 ( 6 ) 令m = 2 ( 7 ) 令k = 【置( 呐+ a ,q r ( i - m i ) e “ ( 8 ) 露= 七_ 中南大学硕士学位论文 第二章码激励线性预测声码器 ( 9 ) a f 棚= 西剃+ 吒哆2 ,i = 1 ,2 ,( m - 1 ) ( 1 0 ) 计算= ( 1 一砰) e o - ( 1 1 ) 判断m q j ,( 刀) = c 【工( 刀) 】= o当i x ( 挖) i c :( 2 - 2 3 ) 【x (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安装人员安排方案(3篇)
- 摊位商户招租方案(3篇)
- 县城绿化养护方案(3篇)
- 科研机构弱电网络施工组织方案计划
- 国庆社区摄影活动方案
- 周年游戏活动方案
- 国庆深度清洁活动方案
- 唐山移动活动方案
- 国庆红色团建活动方案
- 国庆美工活动方案
- 项目驻地(营区)风险评估报告
- MOOC 犯罪心理学-中南财经政法大学 中国大学慕课答案
- 2021年4月自考00882学前教育心理学试题及答案含解析
- 24春国家开放大学《乡镇行政管理》作业1-5参考答案
- 脂肪栓塞的护理措施
- 2024年吉林省彩虹人才开发咨询服务公司招聘笔试参考题库含答案解析
- 安全生产半年工作总结汇报课件
- 公路路基施工技术规范 JTG∕T 3610-2019
- 2024新课标初中生物2022版课程标准考试题与答案
- 四川省成都市温江县2024届生物七下期末调研模拟试题含解析
- 空调维护保养人员组织架构及人员岗位职责
评论
0/150
提交评论