




已阅读5页,还剩67页未读, 继续免费阅读
(通信与信息系统专业论文)基于melp的低速率语音编码方案.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语音编码技术在数字通信系统中起着重要的作用。在传输比特率限制十分 严格的场合下,超低速率语音编码具有特别重要的意义。近年来主流的超低速 率语音编码方案主要基于l p c 一1 0 ,混合激励线性预测( 瓶l p ) ,多带激励编码 ( m b e ) ,正弦变换编码( s c i ) ,波形内插编码( w i ) ,它们大都能够工作在2 4 k b p s 速率下。目前新的语音编码技术不断推出,同时各种语音编码方案之间也取长 补短,不断融合。作为一种重要的低速率语音编码算法,美国联邦标准m e l p 算 法对l p c 1 0 编码方案做了大量改进,引入了混合激励,非周期脉冲,残差付氏 幅度谱,脉冲散布和自适应谱滤波五个附加特征,在2 4 k b i t s 的速率下取得 了比较自然的语音质量。该算法的计算负载小,对严重背景噪声也有很强的坚 韧性,能够很好的移植到d s p 系统中,因此具有广泛的应用前景。 本文对混合激励( m e l p ) 算法进行了深入研究,仔细研究了m e l p 算法中每帧 参数之间的内在联系和相邻帧间参数相关性。在这个基础上,结合矢量量化技 术,对现有m e l p 编码算法作了一些改动。本文将提出一种改进的 h e l p 算法, 以3 帧为单位组成超帧。本文的特色有三点:首先在m e l p 算法中引入基于超级 帧模式的语音编码算法,根据超级帧模式的类型对超级帧内的参量作不同的编 码处理。第二是在制作线谱对参数( l s f ) 矢量量化码本时,引入了目前提高l s f 码本性能的两个方法:在利用重点帧对非重点帧作预测时,借鉴自适应帧间矢 量量化( s i v p ) 去除相关性算法的优点,提出了以固定矩阵去除相关性的方法, 有效的控制了预测后残差的动态范围,提高了对残差矢量量化的精度;采用联 合码本优化多级矢量量化算法( j c o - m s v q ) ,改良多级矢量量化码本的性能。第 三是结合s c i 编码技术中激励信号产生的原理,改变了m e l p 中激励信号的产生 方式。在本文最后将给出一种8 0 0 b i t s 的语音编码方案,通过在m a t l a b 上仿 真,经重建语音信号比较及主观试听表明,该系统性能与美国联邦标准推荐的 2 4 k b p s 混合激励线性预测( m e l p ) 算法较接近或下降有限。 关键词:语音编码,m e l p ,矢量量化,l s f b s t i l c t a b s t r a c t s p e e c h c o d i n g i so f g r e a ti m p o r t a n c e i n d i g i t a l c o m e n u n i c a t i o n s y s t e m s w h e nt r a n s m i s s i o nr a t ei sl i m i t e ds t r i c t l y ,v e r yl o wb i tr a t e s p e e c hc o d i n g ( l b r s c ) i se s p e c i a l l ys i g n i f i c a n t t h e r ea r es e v e r a lm a i n l b r s cp r e v a i l i n gi nr e c e n ty e a r ss u c ha sl i n ep r e d i c t i o nc o d i n g ( l p c i 0 ) 。 m i x e de x c i t a t i o nl i n ep r e d i c t i o n ( m e l p ) ,m u l t i b a n de x c i t a t i o n ( m b e ) , s i n u s o i d a lt r a n s f o r mc o r d i n g ( s t c ) ,a n dw a v e f o r m 工n t e r p o l a t i o n ( w i ) m e l p w h i c hc a nw o r ka tt h er a t eo f2 4 k b sh a sb e e nc h o s e na su s f e d e r a l s t a n d a r d ,m e l pa l g o r i t h mi so nt h eb a s i so fl i n ep r e d i c t i o n ( l p ) f i v e a u x i l i a r yc h a r a c t e r sh a sb e e ni n t r o d u c e di n t om e l pa l g o r i t h m ,t h e ya r e m i x e de x c i t a t i o n ,a p e r i o d i cp u l s e ,f o u r i e rm a g n i t u d e sp u l s ed i s p e r s i o n a n da d a p t i v es p e c t r a lf i i t e r i n g t h e r ea r eo t h e rt w om e r i t so fm e l p a l g o r i t h m , t h e1 0 w e ro p e r a t i n gc o m p l e x i t yw h i c hm a k e si tc a nb ee a s i l y t r a n s p l a n t e di n t od s ps y s t e m ,a n dt h ea d a p t i v ea b i l i t yi ns e r i o u sn o i s e e n v i r o n m e n t o nt h eb a s i so fd e e p l ys t u d y i n gt h em e l pa l g o r i t h m ,t h ep a p e rw i l l a tl a s tg i v ea ni m p r o v e dm e l pa l g o r i t h mw h i c hc a nw o r ka tt h er a t eo f 8 0 0 b s t h en e wa l g o r i t h mh a st h r e ec h a r a c t e r s :f i r s ti st h a tt h en e w a l g o r i t h mi so nt h eb a s i so fs u p e rf r a m e w h i c hi n c l u d e3c o n t i n u o u ss i m p l e f r a m e si nm b l pa l g o r i t h m ,t h ea l g o r i t h md e a lw i t hp a r a m e t e r so fas u p e r f r a m eb yt h em o d eo ft h es u p e rf r a m e s e c o n d l y ,t w oa l g o r i t h m sa r e i n t r o d u c e df o ri m p r o v i n gv e c t o rq u a n t i z a t i o nq u a l i t yo fl i n es p e c t r a l f r e q u e n c y ( l s f ) p a r a m e t e r o n ei ss w i t h e d a d a p t i r ei n t e r f r a m ev e c t o r p r e d i c t i o n ( s i v p ) , w h i c hc a n g e t r i do ft h ec o r r e l a t i o nb e t w e e n n e i g h b o r i n gf r a m e se f f e c t i v e l y ,t h eo t h e ri sj o i n tc o d e b o o ko p t i m i z a t i o n f o rm u l t i s t a g e v e c t o r q u a n t i z a t i o n ( j c o m s v q ) ,w h i c h c a n i m p r o v e p e r f o r m a n c eo fc o d e b o o k t h el a s tc h a r a c t e ri si n t r o d u e i n gs t ce x c i t a t i o n m o d e lf o rm a k i n gt h ee x c i t a t i o ns i g n a l t h en e wa l g o r i t h mi se m u l a t e d o nt h ee n v i r o n m e n to fm a t l a b b yc o m p a r i s o nw i t h t h er e b u i l dv o i c ea n d t h er u d ev o i c es i g n a lw ec a nd r a wt h ec o n c l u s i o nt h a tt h es p e e c hq u a l i t y i sl o w e r e do n l yal i t t l et o2 4 k b i t s m e l pa l g o r i t h m k e y w o r d :s p e e c hc o d i n g ,m e l p ,v q ,l s f i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:移反日期:加红;月2 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 劓币笨幺业季,多 导师签名:二三k2 二: 日期:加年;月,多日 第一章绪论 第一章绪论 i 1 语音压缩编码的意义及作用 自从电话发明以来,语音通信一直是现代各种通信系统承载的一项重要的、 必不可少的业务。随着通信网络用户数量的增加、网络业务综合化、多样化, 网络带宽与系统容量、服务质量的矛盾日益突出,传统的6 4 k b i t s 的p c m 语音 压缩编码己不能满足不断变得拥挤的传输信道要求。因此,如何在不牺牲语音 通话质量的前提下尽可能降低传输的比特速率是摆在研究者面前的重要课题。 从信息论的角度可以大致估计出语音信号压缩编码的极限码率。音素是语音中 基本的元素,按照信息理论,每一个音素需要的平均比特数给出为 ,= 一p ,l o g :( p ,) 一1(1-1) 以英语为例,英语有4 2 个音素,在正常情况下,谈话速率平均为每秒1 0 个音素。使用音素出现的相对概率表【1 】,能够计算得到每个符号信息量为5 ,全 部信息速率为5 0 b i t s 。各种语言的常用音素不尽相同,汉语的常用音素为6 4 个,而人类总语音的音素约为1 2 8 2 5 6 个,如果按每秒平均发出1 0 个音素的 说话速度来计算,此时的最高信息率为 i = l 0 9 2 ( 2 5 6 ) ”= 8 0 b i t s 所以,可以大致认为语音压缩编码的极限速率为8 0 b i t s 。在此速率下,讲 话者的音质、音调等重要信息已全部丢失,但仍保留了全句的内容。从p c m 标 准编码速率( 6 4 k b p s ) 到极限速率( 8 0 b p s ) 之间压缩了约8 0 0 倍,如此巨大的压缩 空间对于理论研究和实用化都有极大的吸引力。近十年来,语音编码取得了突 飞猛进的发展,是国际标准化工作中较为活跃的领域之一。在4 k b p s 速率以上 的语音编码已具备比较完善的理论和技术体系,并进入实用阶段。尽管通信网 络容量在不断增加,但低速率语音压缩编码一直是现在和未来应用感兴趣的领 域。目前语音编码的研究热点集中在4 k b p s 速率以下的编码算法,国际上的许 多研究机构已把“4 k b p s 速率以下的语音压缩编码”作为未来几年的重点研究课 电子科技大学硕士学位论文 题,因为这方面的研究有着广泛与强烈的应用背景。如移动电话系统、多媒体 通信、语音信箱、i p ( i n t e r n e tp h o n e ) 电话等都需要低速率语音压缩编码方面 的关键技术。 1 2 低速率语音编码的发展概况 在过去的二十年中,语音编码技术取得迅猛发展,在国际标准化工作中十 分活跃。主要原因,首先是语音编码技术日趋成熟,其次是社会对低速率语音 编码的需要也促进了各种语音编码技术的竞争,使语音编码技术尽快走向成熟。 1 6 k b p s 和8 k b p s 的技术已经标准化,具备比较完善的理论和技术体系,并进入 使用阶段,目前对4 k b p s 以下语音编码标准的竞争十分激励,已经有不少地区 性标准诞生。 标准化组织的一些实体负责新的标准的确立,国际电信联盟( i t u ) 是联合 国经济、科学、和文化组织( u n e s c o ) 的一部分,由他们确定全球通信标准, 最初,i t u 由c c i t t 和c c i r 组成,c c i t t 负责建立电信标准,c c i r 负责建立 无线电标准。 最早的数字语音编码标准,是由c c i t t 对于6 4 k b p s 脉冲调制( p c m ) 的 建议,也即g 7 1 1 建议。由g 7 1 l 引入的量化失真单位,考虑为1 个失真单位 ( q d u ) 。第二个数字语音编码标准是3 2 k b p s 的a d p c b m ,接着又制定了1 6 k b p s 的低延迟码激励线性预测( l dc e l p ) 的标准,它们的量化失真单位都是四个 q d u 。1 9 9 4 年,由日本电报公司( n t t ) ,法国电信( c n e t ) 和s h e r b r o o k e 大学 与a t & t 合作研究,产生了8 k b p s 语音编码器标准g 7 2 9 。地方性的标准很多, m o t o r o l a 公司提出了7 9 5 k b p s 的v s e l p 编码器标准i s 一5 4 。日本无线系统研究 和开发公司( r c r ) 提出了3 4 5 k b p s 的p s i c e l p 编码器,t 9 9 0 年由国际海事卫 星组织i n l _ a r s a t 提出了4 1 5 k b p s 的i m b e 编码器,美国防卫部门( d o d ) 提出 了标准为f s l 0 1 5 的2 4 k b p s 的l p c 声码器。此后d o d 在1 9 8 8 年提出了标准为 f s l 0 1 6 ,码率为4 。8 k b p s c e l p 的编码器,f s l 叭6 比f s l o 】5 具有更高的语音自然 度,但是仍然能感觉人工噪声。 图卜l 中是目前一些编码器码率与性能示意图1 2 】,图中的虚线表示目前在该 码率下各种编码器的平均性能, 第一章绪论 m d s 优秀 好 由 差 一 一。丽 p c , , , g 7 2 6 , , i b g 7 2 9 g sm j d c胆7 _p i s 5 4 匝l pf s l 0 1 6 f s l 0 1 5 248r 63 26 41 2 8 比特率( k b p s ) 图卜1 标准语音编码器的性能与比特率示意图 1 2 1语音编码器的- 性能属性及其评定 语音编码器的性能属性【3 】主要包括四个部分,即质量、速率、复杂度和延时。 语音编码研究的基本矛盾是编码速率尽可能低和重建语音质量尽可能好,评价 一种语音算法的优劣程度应该从上述四个方面来综合审定,重建语音的质量越 高、传输速率越低、编解码延时越小、算法复杂度越低,则语音编码算法越好, 当然,在不同的应用中上述四个属性的重要性是不同的,而且在语音通信系统 中,语音编码器的顽健性( r o b u s t n e s s ) 和误码容限也是非常重要的。 1 2 2 失真测度方法: 语音编码质量是衡量语音编码算法优劣的关键性能之一。对其测试方法多 种多样,归纳起来可以分为客观评价和主观评价两类。客观评价主要可分为波 形失真测量、频谱失真测量和谱包络失真测量这三种测量方法;其特点是可重 第一章绪论 m o s 优秀 好 中 差 厂7 。一高;i g 7 2 6 l g 7 2 9 。 , ,。 g s m j d c 也,r7 p i s 5 4 :l p ,f s l 01 6 f s l 0 1 5 24 81 6 3 2 6 4 比特垂( k b p s ) 图卜1 标准语音编码器的畦能与比特率示意图 1 2 - 】 语音编码器的性能属性及其评定 语音编码器的性能属性”1 主要包括四个部分,b 口质量、速率、复杂度和延时。 语音编码研究的基本矛盾是编码速率尽可能低和重建语音质量尽可能好,评价 一种语音算法的优劣程度应凌从上述四个方面来综合审定,重建语音的质量越 高、传输速率越低、编解码延时越小、算法复杂度越低,则语音编码算法越好, 当然,在不同的应用巾上述四个属性的重要r | 生是不同的,而且在语音通信系统 中,语音编码器的顽健性( :r o b u s t n e s s ) 和误码容限也是 f 常重要的。 12 2 失真测度方法: 语音编码质量足衡量语音编码算法优劣的关键十牛能之一。对其测试方法多 种多样,归纳起来可咀分为客观评价和主观评价两类。客观评价主要可分为波 形失真测量、频谱失真测量和谱包络失真测量这二种洲量方法;其特点是可重 形失真测量、频谱失真测量和谱包络失真测量这三种测量方法;其特点是可重 电子科技大学硕士学位论文 复性高,但其缺点是与人的主观感觉常常不一致。 主观评价主要采用统计的方法,对语音的清晰度( 衡量话音中的字、单词 和句子的可懂度) 和自然度( 对讲话人的辨识水平) 等进行评价,主要方法有 m o s ( m e a no p i n i o ns c o r e ) 、判断韵字测试d r t ( d i a g n o s t i cr h y m e rt e s t ) 和满 意度测试d a m ( d i a g n o s t i ca e c e p t a b i l i t ym e a s u r e ) 。 采用m o s 打分有三个优点:首先是对各种各样的语音损伤都可以评定,其 次是对打分者不需要特别的培训,最后是它的分值直接反映用户的意见。在数 字语音通信中,通常认为m o s 分在4 分以上为高质量数字化语音,在3 5 分左 右为一般通话质量,在3 分以下时称为合成语音质量,这时重建语音仍然可懂, 但是语音的自然度下降。 主观评价方法需要大量人员的参与,而且人为的因素很大,而客观评价方 法可以避免这些问题,目前采用的客观评价方法主要有时域失真和频域失真, 时域失真常用信噪比为测量方法,频域失真常用谱包络失真计算。 信噪比失真定义为: s n r = 1 0 l 0 9 1 0 丽r 型 ( 1 2 1 其中s ( n ) 和j ( n ) 为输入语音信号和输出语音信号,m 是一帧样点数,n 为 帧数。 谱包络失真公式: 肋= 秘( 2 0 l o g l o 渊,2 删 m s , 日( ) 和f t ( o ) 分别是输入与输出语音的短时l p a 谱,日( ) 和f t ( o ) 可以用 公式( 卜4 ) 计算,其中d 是利用自回归( a r ) 模型得到的l p 参数。: 日( ) = 4 1 + 芝a i e - j r i c o ( 1 - 4 ) 第一章绪论 1 2 3 编码速率 编码速率代表了平均每个语音样点用多少个比特编码。低码率编码器主要 用于保密电话,卫星电话,比特率在8 0 0 b i t 一4 8 0 0 b i t s 。 1 2 4 编码复杂度 编解码复杂度代表了实现该语音编解码算法的软硬件代价。太高的复杂度 可能会使该算法在现有的硬件条件下无法实时实现。当前随着硬件水平的迅速 发展,编码算法的复杂程度也越来越高。 1 2 5 编码器延时 编解码延时一般用单次编解码所需的时间来表示。在数字语音通信系统中, 语音编解码延时象线路传输延时一样对通信质量有很大影响。但不同的通信系 统中对该项性能的要求不同,一般对于公众电话网要求单次语音编解码延时不 超过5 - l o m s ,而对于i p 电话、卫星通信等应用,其对相应语音编码算法的延时 要求则要低得多。 1 3语音编码器的分类 利用语音信号的不同特征,编码通常分成三大类,即波形编码、混合编码 和参数编码。 波形编码力图使重建的语音波形和原始语音波形尽量一致。这种压缩编码 具有适应能力强、浯音质量好、编码算法简单等优点,但编码速率高。典型的 编码方案有:p c m 、a d p c m 、a p c 、a s b c 、a t c 等。 参数编码把语音信号表示成某种模型的输出,通过传输模型参数进行数据 压缩。它通过对语音信号特征参数的提取及编码,力图使重建语音信号具有尽 可能高的可懂性,即保持原语音的语意,而重建信号的波形同原语音信号的波 形可能会有较大的差别。其优点是编码速率低,如可以低到2 4k b p s 以下,而 缺点则是语音自然度较低,对环境噪声比较敏感。典型的编码方案有:l p c 、m b e 、 s t c 、识别一合成声码器等。 混合编码在传输参数的同时还传输部分样点( 激励信息) 。它克服了波形编 电子科技大学硕士学位论文 码和参数编码的弱点,结合了它们各自的长处,在2 4 1 6k b p s 速率上能够得 到高质量合成语音,在本质上也具有波形编码的优点。典型的编码方案有:c e l p 、 m e l p 、w i 等。 1 4 几种典型低速率语音编码算法 1 4 1 线性预测编码( l p c ) 图卜2 线性预测编码模型 图卜2 是l p c 编码器工作示意图。l p c 模型采用简单的二元激励,即在浊音 段用间隔为基音周期的脉冲序列、清音段用白噪声序列代替余量信号,去激励 声道滤波器h ( z ) ,产生合成语音,这种编码系统即为线性预测编码器( l p c ) 州。 这种算法可以实现很低码率的语音压缩编码,美国政府于8 0 年代中叶在保 密电话中采用这种编码方式作为标准,即l p c 1 0 和l p c 一1 0 e 。l p c 可以合成清 晰可懂的语音,但在自然度和抗干扰性能上尚有欠缺。造成这样的原因主要有: l 、实际的语音余量信号是很丰富的,将语音的激励信号分成二元激励过于简单; 2 、在有噪声的影响下,基音周期的提取和清浊音的判决不够准确:3 、当基音 周期很小时,语音共振峰位置及带宽估计有时会产生很大的失真。近年来,人 们对传统l p c 模型( l p c 一1 0 ) 进行了不断的改进。其主要方向是通过矢量量化和 多帧联合编码来减少传输l p 系数所使用的码率 5 1 1 6 】【”,同时吸收m b e 和m e l p 的 思想改进激励信号增强语音的自然度和清晰度。l p c 模型是一个非常成熟的参数 模型,能较好的模拟人类的发声机理,目前国际上研究的甚低比特率( 1 2 k b p s 以下) 编码算法基本上都是基于l p c 模型的。 第一章绪论 1 4 2m b e 多带激励编码模型 输 图1 3m b e 编译码原理图 基于线性预测语音编码器的固有问题是当不附加预测残差是产生不了足 够高质量的语音。预测残差看作是线性预测模型中纠正不正确性的误差信号。 去除这个误差将导致粗糙的和机械的语音质量( 如l p c 一1 0 ) 。但是对于低比特率 的编码器,有效传输残差信号是一个困难的问题。m b e 编码器是一个不用预测残 差的完全的参数语音编码器,工作在频域里。m b e 编码器将每段语音划分为不同 的频带,对每个频带分别做清浊判决,它考虑到了某段语音的激励信号是周期 的( 浊音) 和类噪声的( 清音) 能量的混合情况。这种在激励模型中附加自由 度的做法使m b e 语音模型重建语音质量高于传统的l p c 模型。m b e 编码器的语音 合成原理框图如图卜3 所示。 近年来低速率m b e 编码器的研究重点是解决其谱包络低速率有效传输的问 题,而m 阻编码器与传统的l p c 模型有效结合以降低码率是其中的一种有效方 法。但用l p c 谱替代原谱包络后出现了一些新的问题,如l p c 谱与原谱包络在 共振峰处误差较大导致合成语音质量变差。一些学者对此提出了解决方法嘲 9 】。 值得注意的是目前在低速率编码器中更大的趋势是将m b e 模型中多带激励的概 念运用在l p c 模型的激励方式中,以此来提高l p c 编码器的性能【1 0 】。从目前 的趋势来看,近年来几乎所有基于l p c 模型且不传输残差波形的低码率语音编 电子科技大学硕士学位论文 码器都引入了多带激励的概念,如近年来获得很大成功的m e l p 编码算法。 1 4 3m e l p 混合激励线性编码模型 针对传统l p c 模型的缺点,m e l p 算法以传统的l p c 参数模型为基础,同时 引入了五个附加特征:混合激励、非周期脉冲、残差付氏幅度谱、脉冲散布和 自适应谱滤波【 2 】【1 3 】。m e l p 语音合成模型如图卜4 所示: 图卜4m e l p 语音台成模型 近几年来低速率m e l p 编码器的研究重点主要集中在提高合成语音质量和降 低编码速率上。提高合成语音质量的方法包括新的基音检测和爆破音分析合成 方法1 4 1 、减少l p 系数和语音能量量化误差 1 5 1 等。有效降低l p 参数编码速率也 是降低整体编码速率的有效方法,一些新的基于l p c 模型的甚低比特率算法中 也吸收了m e l p 算法的优秀经验。 1 4 4s t c 正弦变换编码模型 正弦变换编码完全脱离了线性预测的框架,对语音信号进行傅里叶分析, 提取最能表示语音信号的几个频率成分,并用这些时变的频率、相位和幅度的 正弦波合成语音。起初这种编码算法不需要对相位编码,为提高质量r o b e r t m c h u t a y 在1 9 8 5 年提出了种改进的s t c ,在合成端引入了相位参数,自此该算 法开始应用到低速率语音编码中,并在低于4 k b p s 速率下获得了较好语音质量 【1 6 i 【3 5 】。正弦编解码语音模型如图卜5 所示。 第一章绪论 正弦模型的特征是:音频信号由一组幅度、相位和频率时变的正弦波相加 产生,正弦波的幅度、相位和频率在相邻帧间保持连续。正弦模型中较为著名 的是正弦变换编码( s t c ) 和多带激励模型( m b e ) 。正弦变换最基本的假设是合 成语音由一组正弦信号的线性组合得到,正弦信号具有时变的幅度、相位和频 率。 i ( n ) = 4c o s ( q 肘西) ( 1 5 ) f 输 入 语 相位 频率 幅度 ( a ) s t c e 揞9 析 ( b ) s 1 语音台成 图卜5 正弦波分析合成系统框图 合成 语音 频率 幅度 这种基本的正弦波分析合成系统能产生高质量的语音信号,所以对于语音 编码器的开发,它提供了理想的基础。但是这种模型参数较多,对降低码率不 利。为了降低码率,必须避免对正弦波相位编码,对此一般采用最小相位谐波 编码的方法。当在测量的相位处使用合成相位时,尤其对于剧烈的浊音过渡, 有一定的质量损失,但是在比较低的数据速率,合成音质还是可以接受的。由 于不传输相位,谐波语音编码器仅仅依赖于基音、浊音度和正弦幅度这三个参 数,所以低码率编码器的语音合成质量完全取决于有效量化正弦波幅度的能力。 在1 9 9 5 年在美国进行的标准评估中,2 4 k b i t s 的s t c 编码器的性能达到 f s l 0 1 64 8 k b i t s 的c e l p 编码器性能。 电子科技大学硕士学位论文 1 4 5w i 波形编码模型 w b k l e i j i n 博士提出的特征波形( c w i ) 分解语音编码算法【1 7 】,最初为原 形波形内插( p r o t o t y p ew a v e f o r mi n t e r p o l a t i o np w i ) ,该算法以基音周期为 基本分析单元,利用了浊音语音的周期波形随时间慢渐变的特点,每隔一段时间 传送一个基音周期波形到译码端,然后在译码端通过内插重建没有传送的基音 周期波形,这样就很好的控制了浊音语音的周期度,合成了高质量的重建语音。 其中被传送的基音周期称为原形波形p w ,但p w i 仅适于浊音语音质量编码,对 清音合成比较简单,因此必须与其它算法,如( c e l p ) 结合使用,1 9 9 4 年 w b k l e i j i n 博士又提出了波形内插算法,使得既能编码浊音信号又能编码清音 信号,从而避免了与其它算法混合使用【1 剐。该算法中,在浊音段,渐变波形具 有明显的周期性( 慢渐变) ,而在清音段,渐变波形表现出类噪声1 生( 快渐变) 。 基于此观察,借助简单的非自适应滤波器将c w 分解为周期的慢渐变波形 ( s e w ) 和非周期的快渐变波形( r e w ) ,对这两种成分分别编码,大大增加了编码 的效率。c w i 算法在2 4 k b s 的语音质量接近f s l 0 1 6 标准。该方法避免了清浊 音判决带来的影响,适合于所有语音段。图卜6 、图卜7 为c w i 编解码框图。 w i ( 特别是c w i ) 算法是目前很有潜力的低比特率语音编码算法,它利用了 正弦编码和线性预测技术,受到了人们的普遍关注。w i 的缺点是运算复杂度高, 而且由于要传输残差波形,码率较难降低。 输入语 图卜6c w i 编码框图 第一章绪论 图卜7 c w i 解码框图 1 4 6甚低比特率语音编码的发展方向 甚低比特率( 1 2 k b p s 以下) 语音编码算法是近年来国际上的一个研究热点。 而甚低比特率语音编码算法由于码率太低,大多使用参数模型。从短期来看, 由于l p c 模型和正弦模型是非常成熟的参数模型,基于这两种模型或其相结合 的语音编码模型将成为甚低比特率语音编码算法的主流。同时,对矢量量化技 术和人耳听觉特性的深入研究必将加快这些算法的发展。从长远来看,由于语 音信号处理是一门边缘学科,它主要是语言学和数字信号处理这两个学科的相 结合的产物,所以它的发展必然受这些学科的影响和限制。新的信号处理工具 和方法如小波变换、神经网络、遗传算法等必将广泛地运用在语音信号处理之 中。 当前极低速率语音编码系统所使用的算法种类繁多,各有所长。各种语音 编码算法都利用人们目前所知的人类语音的产生和感觉过程,以保证对语音信 号主观上重要的属性进行编码。这样在低比特率下也能保持较好的合成语音质 量。当前各种编码算法正出现交叉渗透的现象,这也是进一步压缩编码速率并 取得高质量合成语音的重要途径。 基于l p c 模型用联合帧矢量量化并结合参数内插技术可在8 0 0 b p s 合成出可 懂度和自然度较高的语音,是目前极低速率语音编码领域中最有前途的编码算 电子科技大学硕士学位论文 法。而其它如分段声码器和基于语料库的声码器虽可将速率压至很低,但其语 音自然度和清晰度却有待改善,需继续研究。随着极低速率语音编码合成语音 质量的提高,极低速率声码器将更广泛地应用于交换网,保密通信,卫星通信, i p 电话和语音存储等领域。 1 5 本文安排 本文第二章阐述l p c 声码器的原理和线性预测分析模型的建立;研究了l s p 参数的相关性,借鉴s i v p 去除l s f 参数相关性的方法,讨论了采用固定矩阵去 除相关性的方法和性能。第三章介绍了矢量量化的基本原理和在i m e l p ( i m p r o v e dm e l p ) 编码中将使用到的矢量量化技术。第四章阐述了i m e l p 的编 解码方案,实现了一种码率为8 0 0 k b p s 的低比特率语音编码算法i m e l p ,给出了 该算法的m a t l a b 仿真结果,评估了i m e l p 的性能并指出了不足之处。 第二章l p c 模型的建立和l s f 参数的去相关 第二章l p c 模型的建立和l s f 参数的去除相关性 在语音中去除冗余度,是所有低速率编码器要解决的主要问题。语音信号 中存在大量的相关性,因此线性预测技术得到了广泛使用。一种方法是通过线 性预测器后得到残差信号,残差信号具有很小的冗余度,只需要传送残差信号 就可以了。另一种方法是求出声道模型和有关参量,通过采用合成一分析技术 传送残差。第一种方法不传送预测器参数,由于声道的短时非平稳性,必须自 适应的调整预测器的系数,在i t u t g 7 2 6 标准中就采用了前向自适应预测( a p f ) 。 第二种方法主要以l p c 编码器为蓝本,按照残差信号的不同产生方式,产生了 许多不同的低速率编码器。m e l p 本身也是基于l p c 类型的编码器,因此理解l p c 编码器的工作原理,对于理解m e l p 编码器,以及后文中作者提出的i m e l p 编码 器的工作原理,都十分重要。 2 1 发音器官的声电类比线路: 人类发音器官的工作原理如图2 一l 所示。肺是发音器官的能量提供者,通 过肺的作用将空气压缩进气管;再通过声带周期性的闭合,空气流从声门喷出, 形成一系列离散脉冲;咽喉、口腔和鼻腔以及舌头通过控制各自的形状和位置, 使离散脉冲气流在经过时产生许多共振,最后从口腔和鼻腔发出声音。 喉 一 图2 - 1 人体发音器官图 当发清音时,声带不振动,只是在从咽喉到口腔的路途中对气流作阻塞后 电子科技大学硕士学位论文 迅速打开( 塞音如b ,d ,g ) 或摩擦( 摩擦音如f ,s ,h ) ,因此清音可以看成 是无规则气流( 噪声信号) 通过声道系统,而浊音是周期气流通过声道系统。 语音信号的频谱可以写为: s ( 出) = g ( 出) v ( o ) 月( ) ( 2 - 1 ) s ( ) 是语音波s ( t ) 的傅立叶变换,g ( 甜) 是激励源的傅立叶变换,矿( 国) 是 声道系统函数的傅立叶变换,月( 国) 是口腔声辐射特性的傅立叶变换。声道被表 示为非均匀截面的声管,声道的谐振频率是由声道截面面积沿着声道变化的情 况决定的。声门脉冲模型g ( z ) 的作用是使浊音的激励信号具有声门气流脉冲的 实际波形。声门波形的频谱分析表明,其幅度频谱按每倍频1 2 d b 衰减。g ( z ) 的 大致形式可用下面函数表示: g ( 加f 万晶 z , 模拟声道特性的时变线性系统v ( z ) 是个包含零极点的滤波器 矿( z ) ( 1 6 。z 1 ) ( 1 一a t z 。) ( 2 - 3 ) 辐射特性和嘴有关,辐射模型r ( z ) 一般可近似表示为r ( z ) = ( 1 一昭。1 ) , ,“1 ( 单零点传递函数) 。对照图卜2 中语音信号产生的数字模型,可以看出激 励源由g ( z ) 构成,时变线性系统由v ( z ) 尺( z ) 构成。 在上述语音信号产生的数学模型中,g ( z ) ,r ( z ) 保持不变,基音( t ) ,增 益( g ) ,声道滤波器v ( z ) 以及清浊音选择开关是时变的。对于声道滤波器参数 一般在3 0 毫秒内保持短时平稳,对于激励参数在5 毫秒内保持平稳。只要能知 道时变参量,就可以合成语音信号。 2 2 语音信号线性预测分析 2 2 1语音信号线性预测分析的基本原理 通过2 1 节可以看到,语音信号可以看成是激励信号与时变线性系统的卷 1 4 第二章l p e 模型的建立和l s f 参数的去相关 积,而时变线性系统在p 足够高时,可以等效为一个全极点函数,即 h ( z ) = - 兀( 1 求解声码器参数模型的过程实际上是一个解卷的过程。预测误差为 我们通常将a 砂称为逆滤波器 根据图( 卜2 ) 可得到 4 ( z ) = 1 一吼z 。 ( 2 4 ) ( 2 5 ) ( 2 6 ) p s ( n ) = g u + q s ( n f ) ( 2 7 ) 可以看到日正比于劬。由于u 砂可能是清音或者是浊音,因此分两 种情况讨论。对于清音情况:此时可以把u ( n ) 看成是服从n ( 0 ,1 ) 的高斯白噪声。 此时将公式( 2 7 ) 两边同时乘以s ( n j ) ,j 在l 到p 间,求数学期望得到: a f 4 u ( n ) s ( n - j ) = e s ( n ) - 2 a j s ( 珂一f ) s ( n 一) ,( = 1 p ) ( 2 8 ) i = l 因为,俐与s 倒不相关,因此e u ( n ) s ( n 一朋= o ,带入( 2 - 8 ) 得到: p r ( ,) = q r ( j - i ) ,1 j 1 0 ( 2 - 9 ) i = l 其中r ( j ) = e ( s ( n ) s 0 一朋:再将( 2 7 ) 两边同时乘以s ( r 1 ) ,等式左边得到: e ( p ( n ) 5 ( 栉) ) = e ( g “( 门) s ( 订) ) 等式右边可得: p = e ( 渤( n ) 渤( 胛) + n 。s o d d f = i = e ( g 2 “( ) 2 ) = g 2( 2 一l o ) 电子科技大学硕士学位论文 故得到 n p 酬咒喀即( 州川归( o 喀叩( n 伽1 f _ i f _ l iz iil g 2 = ,( o ) 一q r ( j ) r 2 1 2 ) 对于浊音情况,合理的假设是u ( n ) 为冲击脉冲,此时模型输入为g d ( ”) , 模型的冲击响应h ( n ) 可由公式( 2 7 ) 得到: p 向( n ) = d ; ( n - f ) + g j ( ”) ( 2 1 3 ) i = 1 考虑到h ( n ) 的因果性,n o 时,h ( n ) = o ,定义h ( n ) 的自相关函数为: ,( ,) = h ( n ) h ( n j ) ( 2 - 1 4 ) 对公式( 2 1 3 ) 两边同时乘以h ( nj ) ,j 在l 到p 间,并在0 到无穷大区间 求和可得: 也即: 口 h ( n ) h ( n - j ) = q h ( n i ) h ( n j ) + g s ( n ) h ( n 一州 = 0 n = 0f = l p q ,( i = 1 口 r ( _ ,) = 艺a i r ( j f ) ,1 p ( 2 1 5 ) f = l 同理对公式( 2 1 3 ) 两边同时乘以h ( n ) ,可以得到: p g 2 = ,( o ) 一a i r ( j ) ( 2 - 1 6 ) r l 综合上面两种情况,可以得出结论:不论激励源是清音还是浊音,都可以 得到公式( 2 1 7 ) 的两个方程: 第二章l p c 模型的建立和l s f 参数的去相关 r ( ,) 一妻q r ( ,一f ) :o ,1 - ,p 9 1 。( 2 1 7 ) 口 、 r ( o ) 一a f ( i ) = g 2 = e p 由于,r 寸产,可以将公式( 2 一1 7 ) 得到转换为下面矩阵形式 r ( o )r ( 1 ) r ( p ) ,( 1 )r ( o )r ( p 一1 ) r ( p ) r ( p 1 ) r ( o ) e p 0 i 0 ( 2 1 8 ) 公式( 2 - 1 8 ) 称为y u l e w a l k e r 方程。采用自相关法需要对信号加窗,一 般采用汉明窗。由于y u l ew a l k e r 方程的自相关矩阵具有t o e p l i t z 结构,该方 程可以用l e v i n s o n d u r b i n 算法求解 1 9 l 。 对声道参数求解的方法很多,目前主要还有协方差法,格形法瞄j 。协方差法 计算精度比自相关法高,但由于不具备t o e p l i t z 结构,无法保证系统的稳定性 ( 所有极点均在单位圆内) 。 2 2 2 l p a 谱对语音信号谱估计的能力 在进行语音信号的l p a 谱估计时,预测器系数是用自相关方法计算出来的, 在这种情况下,短时自相关函数的傅立叶变换才等于信号短时傅立叶变换的模 的平方。因此,在p 斗o o 时,才有 l i 婴h ( e1 2 = 陟”) 1 2 ( 2 1 9 ) 公式( 2 - 1 9 ) 中,h ( e i ”) 是语音信号的l p a 谱,s ( e j ”) 是语音信号短时傅 立叶变换。预测器阶数越大,预测精度越高。但是阶数越
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建厦门集美区乐海小学产假顶岗校医招聘1人备考考试题库附答案解析
- 2025湖南岳阳新天地保安服务公司招聘总经理助理1人备考练习题库及答案解析
- 2025广西桂林兴安县乡镇所属事业单位直接考核招聘“三支一扶”服务期满人员4人笔试参考题库附答案解析
- 中国华电战略发展研究中心招聘4人备考考试题库附答案解析
- 工程质量管理控制论文
- 2025河南中航光电科技股份有限公司招聘备考考试题库附答案解析
- 中国水利水电科学研究院岩土工程研究所科研助理招聘2人备考考试题库附答案解析
- 2025北京市房山区燕山教育委员会所属事业单位第三批招聘教师13人备考考试题库附答案解析
- “梦想靠岸”招商银行沈阳分行2026校园招聘备考考试题库附答案解析
- 中暑预防教育
- 海水的秘密课件
- 系统运维期月度运行维护报告范文
- 2025-2026学年人教版七年级英语上册starterunit1-3单元测试卷(含答案)
- 辽宁省点石联考2025-2026学年高三上学期9月开学英语试题(含答案)
- 2025年乡镇文旅部门工作人员招聘考试必-备知识点与模拟题集
- 抖音达人签约合同协议书
- 森林消防队森林火灾扑救知识培训考试题库题库(附含答案)
- 湖南美术出版社二年级上册美术教学计划
- 2025年西藏自治区事业单位招聘考试综合类专业能力测试试卷(新闻类)押题卷
- VOCs治理设备培训
- 答案时代:AI顾问式电商崛起
评论
0/150
提交评论