（计算机应用技术专业论文）低速率语音编码的研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：41 大小：1.19MB 积分：10.8 举报 版权申诉

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着通信技术以及i n t e r n e t 网络语音实时传输技术的迅速发展，对语音的传输速率和存储容量都提出了很高的要求，解决这些问题的主要途径之一就是语音编码。在现有的语音编码研究中，混合激励线性预测编码( m e l p ) 是一种比较好的方法，m e l p 编码方法已经被确定为美国新的联邦语音编码标准。该算法结合了二元激励、码激励和多带激励的优点，能在较低的码率下得到较好的再生语音。本论文在对m e l p 编码算法进行分析的基础上，提出了用软件实现语音信号编解码的方案：然后，基于m e l p 标准，开发了仿真系统，实现对语音信号的编解码。该系统首先对语音信号进行采样；按帧对语音数据进行语音分析和参数提取，提取的参数包括基音周期( p i t c h ) 、多带清浊音判别、非周期抖动标志、线性预测参数( l p c ) 等语音生成模型参数；接着对这些参数进行了量化，量化采用了多级矢量量化技术；最后在解码端对各个量化参数进行解码，利用这些参数结合语音合成模型重构语音。系统编解码后的语音质量基本良好。关键字：语音编码m e l p 矢量量化线性预测 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m m u n i c a i o nt e c h n o l o g ya n dt h ei m p r o v e m e n to ft h e s p e e c ht r a n s m i tt e c h n o l o g y i nr e a lt i m eb a s e do ni n t e r n e t ，t h eh i g h r e q u e s t t o t r a n s m i s s i o ne f f i c i e n c ya n dm e m o r yc a p a c i t yo ft h es p e e c hi sn e e d e d o n eo ft h e m a i n s w a y t os o l v et h e s ep r o b l e m si st h es p e e c h c o d i n g i nt h es t u d yo f s p e e c hc o d i n gi np r e s e n t ，t h em i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ( m e l p ) i sak i n do fr e l a t i v e l yg o o dm e t h o d t h em e l p v o c o d e ri st h en e wf e d e r a l s t a n d a r ds p e e c hc o d e ei tw a ss e l e c t e db yt h eu n i t e ds t a t e sd e p a r t m e n to fd e f e n s e d i g i t a lv o i c ep r o c e s s i n gc o n s o r t i u m ( d d v p c ) t h em e l p v o c o d e ri sb a s e do nt h e t r a d i t i o n a ll p c p a r a m e t r i cm o d e l ，b u ta l s oi n c l u d e sf o u ra d d i t i o n a lf e a t u r e s t h e s ea r e m i x e d - e x c i t a t i o n ，a p e r i o d i cp u l s e s ，p u l s ed i s p e r s i o n ，a n da d a p t i v es p e c t r a l e n h a n c e m e n t s ot h em e l pv o c o d e rc a n p r o d u c e m o r en a t u r a ls o u n d i n gs p e e c h w i t haa n a l y s i st om e l p c o d i n ga r i t h m e t i c ，as p e e c hc o d e cs c h e m ei ns o f t w a r e i s p r e s e n t e d i nt h i s p a p e r c a r r y o ne m u l a t i o nt om e l ps t a n d a r d ，r e a l i z et h a tt h e c o m p r e s s i o no ft h ep r o n u n c i a t i o nf i l ei ss o l v e da n dp r e s s e d f i r s tt h i st h e s i ss a m p l et o w a v f i l e ，c a r r yo i lt h es p e e c ht oa n a l y z ea n dd r a w sw i t ht h ep a r a m e t e rt ot h es p e e c h d a t ao f e v e r yf l a m e t h e s ep a r a m e t e ri n c l u d e p i t c h 、b p v c 、j i t t e r 、l p c ，e t c t h e n ，t h e s e p a r a m e t e r sw i l l b e q u a n t i z e db ym s v qt e c h n o l o g y l a s tt h e s ep a r a m e t e r sw i l lb e d e c o d e di nt h ed e c o d e g k e vw o r d s s p e e c hc o d i n gm e l p ( m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ) v q ( v e e t o rq u a n t i z a t i o n ) l p c ( l i n e a rp r e d i c t i o na n a l y s i s ) e 5 8 3 3 8 7 创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的仟何员献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：景陶翩日期：坦生：f ! 翌关于论文使用授权的说明本人克个了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文：l 作成果时署名单位仍然为西安电子科技大学。学校有权保帮送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵i r 此舰定) 本学位论文属于保密在一年解密后适用本授权书。本人签名导师签名墨! 煎z 目：日期：础! ! 主趁垄嗍型竺：第一章绪论第一章绪论 1 1 引言长期以来，人们希望在任何时候、任何地点与任何人进行通信。计算机技术、通信技术和多媒体技术的发展使这种想法成为可能，人们用数字化的方法已经取得了辉煌的成就。但是日新月异的应用对数字技术提出了更高的要求，同时也在不断推动着数字技术的进步。语言是人类社会的一种重要的交流手段，因此，用数字化的方法进行语音的传送、存储、识别、合成、增强构成了目前数字化通信网中最重要、最基本的组成部分之一。语音信号处理最早和最重要的一种应用是贝尔实验室的h o m e rd u d l e y 在1 9 3 9 年发明的第一个声码器。随着通信技术的发展，卫星、微波和光通信系统提供了很宽的频带，但是在很多情况下仍然有着节省频带的需要；同时，利用多余码字对语音信号进行极其复杂的加密的可能性也极大地推动了语音压缩编码在许多方面的应用。 c c i t t ( i t u ) 已经制定了几种码率的语音编码国际标准，这些标准推动了研究工作的进展，但是他们的传输码率普遍较高( 最低的为g 7 2 3 ，码率为5 3 k b p s ) ，低速率编码的语音质量大多不能令人满意，使得低速率的语音编码成为近年来的一个热点和难点。尤其是在短波信道、水声信道等对码率要求极其苛刻的应用场合，进行低速率语音编码的研究工作尤其迫切。 1 2 语音编码技术的发展语音压缩编码的发展，一直是在用尽可能低的数码率获得尽可能好的合成语音质量的矛盾中发展。数码率实质上反映的是频带宽度，降低数码率实质上是压缩频带宽度。当然随着数码率的降低，相应的算法延迟时间和计算复杂度也要增加。在半个多世纪的研究中，各国学者做出大量的努力，从人类发音机理和听觉机理出发，对语音的基本元素的声学特性、频谱特性和语意表达等做了大量研究，建立了发音模型、听觉模型，在不同程度上逼近真正的语言过程，并取得了长足低速率语音编码的研究的进展，逐步形成了通信和信息处理科学的重要研究方向，所以系统、科学地对语音压缩编码回顾和总结是十分必要的。在语音压缩编码的发展过程中，在众多的理论和技术中，以各种语音压缩编码标准为基准，研究其历史沿革有事半功倍之效果。它作为技术标准，至少代表了当时的技术最高水平，是技术成熟完善的标志，同时经过标准的制定，对技术又是一个很好的指导和激励。 ( 1 ) 自从1 9 3 9 年美国h o m e r d u d l e y 发明声码器以来，语音处理开始了参数编码或模型编码的研究，它是以滤波器为主构造的通道声码器。2 0 世纪6 0 年代以前，s a t o ，i t a k u r a 和a t a l ，s c h r o e d e r t 2 研究出使用的共振峰声码器，最早把“线性预测( l p c ) ”技术应用到语音分析和合成。他们以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数，研究出自相关法、协方差法等实用快速算法。存众多声码器中，l p c 声码器终因其成熟的算法和参数的精确估计成为研究的主流，并逐步走向实用。 ( 2 ) 从1 9 8 5 年b s a t a l 和m r s c h r o e d e r 提出c e l p 算法以来，闭环分析算法成为主流。美国国防部公布了c e l p 联邦标准。欧洲电讯管理局( g s m ) 于1 9 8 8 年公布了r p e - l t p 线性预测语音编码方案。1 9 8 9 年，北美蜂窝电话工业组织 ( c t u a ) 公布了矢量和激励线性预测( v s e l p ) 语音编码方案。1 9 9 2 年，c c i t t 公札了g 7 2 8 短时延码激励线性预测语音编码( l d c e l p ) 方案，1 9 9 6 公布了g 7 2 9 结构代数码激励的语音编码( c s a c e l p ) 标准。在这1 0 年中就产生了3 个国际标准、2 个地区性标准和2 个国家标准，可见语音压缩编码的研究发展之快。这些算法的共同特点是采用知觉加权技术、l s p ( l s f ) 技术、后置滤波技术、增益自适应技术等。因此，在这1 0 年中，c e l p 算法是语音压缩编码的主流。 ( 3 ) 近年来随着第三代移动通信的发展，变速率语音压缩编码技术相应得到发展。为了充分利用c d m a 技术，q u a l c o m r n 于1 9 9 3 年提出了可变速率的c e l p ，通常称为q c e l p 口j 。它有4 个可供选择的传输速率，通过计算输入能量，并与三个阙值能量比较来选择传输速率。这种技术己成为北美数字蜂窝通信标准。1 9 9 9 年公布的第三代伙伴计划( 3 一g e n e r a t i o np a r t n e r s h i p p r o j e c t ) 把自适应多速率 ( a m r ) 浯音编解码作为主要技术。该技术有8 种速率供选择。它能根据信道质量选择不同的编码速率，通信质量接近或达到长途电话质量。随着因特网的发展，语音i p ( v o l p ) 对语音压缩编码的需求十分迫切。在国际电报电话咨询委员会c c i t t ( 现并入国际电信联盟i t u ) 的推动下，制定了一系列数字语音编码传输的国际标准，详见表1 1 。更低码率的声码器语音识别声码器可做到6 0 0 b p s ，这点已有报道，并有待更深入研究。主要利用相邻帧间的语音频谱特征的变化程度作为语音相似程度的衡量依据，通过逐帧跟踪共振峰的变化来确定帧参数的发送，此算法码率做到6 0 0 b p s ，但有些音己不可懂，若采用帧问插值第一章绪论的算法会更精确。 ( 4 ) 高保真音频信号压缩编码，即带宽1 5 2 0 k h z 的家用、专业高保真音响，包括动画和h d t v 音频咀及多媒体系统。有时音频编码这一术语也指宽带语音编码，即带宽7 k h z 的语音信号、电视以及i s d n 上的语音通信。表1 1 语音编码的国际标准标准算法名称码率及应_ i = j 领域制定时间 6 4 k b s 电话带宽语 g 7 1 1p c m1 9 7 2 音编码 6 4 、5 6 、4 8 k b s7 k h z g 7 2 2s ba d p c i1 9 8 8 带宽语音编码 a c e i p ( 5 ，3 k b s )适用于多媒体终端的 g7 2 3l1 9 9 6 m pm l q ( 63 k b s ) 双速率语音编码 g 7 2 64 0 、3 2 、2 4 、1 6 k b s1 9 9 0 a d p c m g 7 2 1 语音编码 1 9 8 4 g7 2 7e m b e d e da d p c m同上1 9 9 0 g 7 2 8l d c e l p1 6k b s 语音编码1 9 9 2 g 7 2 9c s a c e l p8k b s 语音编码1 9 9 6 1 3 面临的问题语音编码面临的问题有四个。一是极低数码率，二是低速率语音编码合成语音音质要有更好的自然度，三是声码器在高背景噪声环境下的使用，四是经多次音频转接仍能正常使用。根据信息论的观点，语音压缩编码的码率可以做到 1 5 0 6 0 b p s 。也就是说，语音压缩编码的工作空间还很大。另外，对语音编解码器( 声码器) 的性能评价方法研究也是一个重要的研究课题。其本身不是语音编码问题，但和语音编码密切相关。评价声码器的性能好坏，需要进行多种指标的测试和评估，目前没有统一的国际标准，但普遍认为至少应包括编码速率、合成语音质量、稳健性、编解码延时、误码容限、计算复杂度和算法可扩展性等7 个方面( 在2 1 3 节对编码速率、编码质量、算法复杂程度以及编解码延时四个因素作了详细的介绍) 。低速率语音编码的研究 1 d 本文内容安排在目前的低码率语音编码研究中，混合激励线性预测编码( m e l p ) 是一种比较好的方法，2 4 k b p s 的m e l p 编码方法已经被确定为美国新的联邦语音编码标准。浚算法结合了二元激励、码激励和多带激励的优点，能在较低的码率下得到好的再生语音。本论文的主要内容安排如下：第一章绪论中简要介绍了语音编码技术发展的历史和现状，对语音编解码技术做了概括说明。第二章介绍了语音压缩编码原理、语音编码方法的分类以及语音编码性能的评价标准，并简单介绍了几种低速率语音编码技术并对他们做了比较。第一i 章详细介绍了美国联邦标准m e l p 算法的编解码算法。第四章介绍了系统的实现并对系统的关键技术做了详细说明。第二章语音编码技术第二章语音编码技术 2 1 语音编码技术语音编码技术是伴随着通信网的发展雨发展的。在通信网中，解决信息传输效率是一个关键而又极其重要的问题，有两个途径来研究这一课题，其一是研究新的调制方法和技术来提高信道的传输码率，其指标是每个赫兹带宽能传送的码字数：其二是在信源上，压缩信源的编码码率。这对任何频率资源有限的传输环境无疑是极其重要的。实际上，压缩语音编码的码率与语音的存储，语音识别和合成等技术都直接相关。 21 1 语音压缩编码的原理 1 、语音产生的模型及其特征参数【4 】 5 语音信号在发音器官中产生的物理过程是来自肺部的空气流经过声带后，冲击声道，然后由口腔发出声音。气流产生的声音主要通过嘴唇发射到空气中，只有鼻音是通过鼻孔发射的。从声学的观点来看，不同语音的产生过程是由于发音器官的声音激励源和口腔或鼻腔声道的形状不同。根据激励源和声道模型的不同，语音可以分为两类：浊音和清音。来自肺部空气流为声带振动所调制，产生准周期性的闭合或开启，在声道中激励起准周期性的空气脉冲，从而形成浊音：而来自肺部的空气流在它经过声道的收缩部分时形成湍流，得到类似噪音的激励，产生清音。图2 1 给出一个简单的语音信号产生的数学模型，对于语音压缩编码而言，已经完全可以满足需求了。图21 语音信号生成模型不难看出，图2 1 给出的模型是发音机理模型的一种特殊形式，它把该图中孚， !堡望至堕童塑堕塑型! 塑的辐射、声道以及声门激励的全部谱效应简化为一个时变的数字滤波器来表示，其稳态系统函数为： h r 外：皇生生：一! 一 ( 2 1 ) u ( 2 ) 1 一妻a l z 一1 i ：l 对于浊音语音，这个系统受冲激序列的激励，各冲激之间的间隔为基音周期；对于清音语音，则受白噪声序列激励，它可简单地由一个随机数发生器完成。因为图2 1 的模型常用来产生合成语音，故滤波器h ( z ) 亦称作为合成滤波器。这个模型的参数有浊音清音判决、浊音语音的基音周期、增益常数g 及数字滤波器参数a 。当然，这些参数都是随时间缓慢变化的。在图2 1 所示的语音信号产生模型中，数字滤波器h ( z ) 的参数a 即是在前面定义的线性预测系数，因此，求解滤波器参数和增益常数g 的过程我们称之为语音信号线性预测分析( l p c ) 。 2 、语音可进行压缩的理论依据【6 j 语音信号之所以能够进行压缩编码，主要有两条基本依据。这就是利用了语音信号所存在的冗余度。以及利用人耳的听觉特性。从前面我们阐述的语音信号产生的激励和它的结构特性表明，语音信号中存在很大的冗余度。语音压缩本质上就是通过识别这些冗余信息并设法去掉它们，从而达到压缩的目的。语音信号的冗余度归纳起来表现在以下四个方面：( 1 ) 语音信号样本间相关性很强，亦即短时谱是不平坦的；( 2 ) 浊音语音段具有准周期特性：( 3 ) 声道的形状及其变化的速率是有限的；( 4 ) 传输码的概率分布是不均匀的。前三个冗余度是由于语音信号产生激励的物理结构所决定的。第( 1 ) 种冗余度体现在短时谱的不平坦性，理论上可以通过适当的滤波来去除，大多数波形编码技术都是利用这一特性，从频谱平整化着手进行处理。第( 3 ) 种冗余度则是语音信号分帧处理的理论基础，它允许声道滤波器参数或谱包络等可以按帧处理，同时通过一定的手段去除帧间的相关性。第( 4 ) 种冗余度与所采用的特殊编码方法有关，主要被各种概率编码方法所利用。当传输的数码率已被设定时，语音编码器的合成语音质量将通过有效地利用这些冗余度而达到最佳。利用人类的听觉功能特点是语音压缩编码的第二个途径。人的听觉中有一个重要的特点，就是听觉的掩蔽效应一个强音能抑制另一个弱音的听觉。在编码过程中，利用这_ 。特性，采用一些准则来改变量化噪声的频谱形状，使得量化噪声在主观听觉上能部分或全部被语音所屏蔽；或在后滤波技术中利用谱幅度的适度失真来降低量化噪音对语音质量的影响。人的听觉对声调( p i t c h ) 的感觉很准确，但在不同的频段允许的畸变是不同的，对低频端比较敏感( 因为浊音的基第二章语音编码技术音和共振峰结构集中在那里) ，对高频段不太敏感，能容忍较大的基音偏差，“子带编码技术”利用这一特点。人的听觉对信号的相位很不敏感，更是某些分析和编码方法的依据：低码率的语音编码几乎不会给相位因子分配码字。对于人类听觉机理的研究现在尚处于初级阶段，但肯定对这方面的探索，将会给我们提供更多可利用的信息。 21 2 语音编码方法的分类语音压缩编码，按编码后传输所需的数据速率来分，可以分为高速率( 3 2 k b p s 以上) 、中高速率( 1 6 3 2 k b p s ) 、中速率( 4 8 1 6 k b p s ) 、低速率( 1 2 - 4 8 k b p s ) 和极低速率( 1 2 k b p s ) 五大类。从方法上，语音信号的编码方法可分为两大类：波形编码和参数编码。有趣的是，这两种方法最早的提出都是在上个世纪3 0 年代末期帕j 。语音信号的波形编码力图使重建语音信号s ( 胛) 的各个样本尽可能地接近原始语音信号s ( n ) 的样本值。令e ( n ) 表示量化误差， e ( n ) = s ( n ) 一s ( n ) ( 2 2 ) 那么波形编码的目的是在给定的传输码率下，使误差序列e ( 行) 的能量最小。因此在波形编码中，信噪比总是一个有用的性能评价标准。波形编码器将语音信号作为一般的波形信号来处理，它具有自适应能力强、语音质量好等优点，但所需要的编码速率较高，脉冲编码调制、自适应增量调制、自适应差分编码、自适应子带编码、自适应变换编码等都是波形编码的应用实例。它们在1 6 k b p s 以上速率能给出高的编码质量。而参数编码则是以语音信号产生模型为基础，通过一定的方法对信号的特征参数进行提取和编码，其目的是力求在较低的码率下获得尽可能好的语音质量。在这类系统中，由于解码后的语音信号同原始的语音信号没有一一对应关系，合成语音主要借助于主观评判，尽管近年来一直在进行某些客观评价标准的研究，但是缺少像波形编码那样客观的评价标准。参数编码的优点是编码速率低，但是它的问题在于合成语音质量差，清晰度不好，自然度较低，特别是对话音的环境噪声敏感。此外，它的运算量大、需要的存储单元多，实时实现较困难。但是随着数字信号处理技术( d s p ) 的快速发展，新的寻址空间大、运算速度高的d s p 芯片的不断推出，运算复杂度已经不再是致命性的问题了。典型的参数编码器包括通道声码器、共振峰声码器以及目前被广泛使用的线性预测声码器( l p c ) 等。除了这两种编码方法外，在二十世纪八十年代产生了新一代的参数编码方法，这种方案在保留分析合成编码的技术精华基础上，引进了波形编码准则去优化激低速率语音编码的研究励信号，从而在4 8 9 6 k b p s 的码率上获得了较高质量的合成语音。我们称之为混合编码，典型代表是码本激励线性预测编码( c e l p ) 、多脉冲激励线性预测编码 ( m p l p c ) 、规则脉冲激励线性预测编码( r p e l p c ) 等。 2 1 3 语音编码性能的评价标准语音编码器的性能主要由四个方面的因素来衡量，包括：编码速率、编码质量、算法复杂程度以及编解码延时。这四个因素之间是密切相关的，在实际工作中，应当对不同因素的影响作综合考虑，根据需要侧重点的选择也有所不同。 ( 1 ) 编码质量语音编码质量是衡量语音编码算法优劣的关键性能之一。它的评价方法归纳起来分为两类，即客观评定方法和主观评定方法。客观评定方法用客观测量的手段来评价语音编码质量，常用的方法有信噪比、分段信噪比、频域加权信噪比、最大最小信噪比以及非均方误差信噪比等，它们都是以信噪比的概念为基础的。信噪比s n r ( s i n g n a l - n o i s er a t i o ) 定义为信号与量化噪声的方差比，用公式可表示为 r，1 s n r ( a b ) = 1 0 1 0 9 l 鲁l ( 2 - 3 ) l 仃ej 其中盯j 和盯j 分别代表信号方差和噪声方差。客观评定方法计算相对简单，但不能完全反映人对语音质量的感觉，这个问题在速率为1 6 k b p s 以下的中低速率语音编码中显得尤为突出，所以实际中广泛采用的是主观评定方法。主观评定方法国际上常用的有平均意见得分( m e a no p i n i o ns c o r e ，简称m o s 得分) 、判断韵字测试( d i a g n o s t i cr h y m et e s t ，简称d r t 得分) 、判断满意度测量 ( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ，简称d a m 得分) 、二元判决( a bt e s t ) 以及主观信噪比等。我国针对汉语语音也制定有自己的国家标准以及电子工业部( 现信息产业部) 部颁标准。 ( 2 ) 编码速率编码速率反映的是编码器对传输数据的压缩程度。它可以用“比特秒”( b s ) 来度量，代表编码的总速率，一般用i 表示；也可以用“比特，样点”( b p ) 来度量，代表平均每个语音样点用多少比特编码，一般用r 表示。i 和r 可以通过采样频率 f 联系起来 i = r cf 2 4 1 其中采样频率是根据n y q u i s t 定理由信号带宽决定的。从式( 2 4 ) 不难看出，平均每样点比特数r 越高，量化程度就越精细，语音质量就越容易提高。在波形第二章语音编码技术编码中，为了获得高质量的重建语音，目前一般取r 2 ；而在参数编码中r 可以低到o 2 5 甚至0 1 以下。显然在后一种情况下，重建语音的清晰度和自然度都会有所损失。 ( 3 ) 算法复杂程度编解码算法的复杂程度直接决定了硬件实现的复杂程度、体积、功耗以及成本等。目前各种语音编解码算法的实时实现大多使用通用数字信号处理芯片( d s p ) 来完成。这样做的好处在于研制周期短，初期投资小。算法越复杂需要的d s p 芯片就越高档，存储器容量也越大，成本、功耗都会相应提高。但是另一方面，在同样数码率的情况下，复杂的算法将会获得更好一些的话音质量。实际应用时对算法的选择应综合考虑这两方面的影响。 ( 4 ) 编解码延时编解码延时包括算法延时( 语音分析所需的存储缓冲) 以及计算延时( 处理帧内数据所需的时间) 。在实时语音通信系统中，语音编解码延时同线路传输延时作用一样，对系统的通话质量有很大影响。延时过长会使通话双方都反映“迟钝”，严重时无法正常通话，延时影响通话质量的另一个可能的原因是回声干扰。传输线路如果阻抗匹配不理想会使信号反馈形成回声。当延时比较小时，回声同话机侧音及房间交混回响声相混，因而感觉不到。若往返总延时超过1 0 0 m s ，发送端就能听到自己的回声。如果回声传输路径衰耗不够大，就会听到多次回声，从而严重影h 向通话质量。对于公用电话网，单次语音编解码延时通常要求不超过5 - l o m s 。但在卫星通信等通信系统中，由于传输延时或由于纠错编码引入的延时等已经比较大，再苛求语音编码的延时意义就不大了，这时语音编码的延时可以放宽到几 jm s 到 1 0 0 m s 。当总延时超过l o o m s 时，一般都需要采取回声抵消或回声抑制等措施。 2 2 低速率语音编码技术当前的低速率语音编码算法可以大致分为四种：( 1 ) 混合激励声码器( m i x e d e x c i t a t i o n v o c o d e r ) ；( 2 ) 码激励声码器( c o d e e x c i t a t i o n v o c o d e r ) ；( 3 ) 插值编码，包括原型波形插值( p r o t o t y p e w a v e f o r mi n t e r p o l a t i o n ) 和时频插值( t i m ef r e q u e n c y i n t e r p o l a t i o n ) ：( 4 ) 谐波编码，包括多带激励( m u l t i b a n de x c i t a t i o n ) 和f 弦波变换( s i n u s o i d a lt r a n s f o r r n ) 。从分类方法来看，它们都属于参数编码( 或混合编码) 的范畴，都是采用在图2 j 给出的语葺信号产生模型柬进行语音分析和熏建。下面对几种典型的算法作一些简单的介绍。低速率语音编码的研究 2 2 1l p c 1 0 声码器 l p c 1 0 7 是一个1 0 阶线性预测声码器，它采用的算法简单明了，如图2 1 所 7 卞。在这个声码器中，清音激励信号由随机序列发生器产生，浊音激励信号则为周期脉冲，其周期p 即为基音周期，需传输的参数包括：声道滤波器参数、基音周期p 、清浊( u ，v ) 判决标志及语音能量。利用l p c - 1 0 的算法可以合成清晰、可懂的语音，但是抗噪声能力和自然度有明显欠缺，归根结底其原因在于：算法采用了线性预测模型，而激励模型过于简单。在实际的语音残差信号中，相当一部分既非周期信号又非随机噪声；或者低频端是周期脉冲，高频端是随机噪声。即使是对特征相当明显的浊音，完全由周期脉冲串激励也会产生蜂鸣声( b u z z y ) 等合成感觉的语音。在这种情况下采用纯粹的二元激励代替残差信号，必然导致合成语音听起来不自然。同时清浊判决也处在两难的境地：若判决的清音过多，则合成语音噪声大、含混不清；若判决的浊音过多，则合成语音机器声重，影响自然度。为了改善语音质量，必然要对线性预测残差进行处理，这是此后出现的不同激励模型( 混合激励、码激励、多带激励等) 算法的出发点。 2 2 2 码激励线性预测( c e l p ) m a n f r e dr s c h r o e d e r 和b i s h n us a t a l 在i e e ei c a s s p 年会上首先提出了用码本作为激励源的线性预测编码( c e l p ) 技术嘲。c e l p 以高质量的合成语音及优良的抗噪声和多次转接性能，在4 8 - 1 6 k b p s 上得到广泛的应用。自适应码本号图2 2 c e l p 编码示意图如图2 2 所示，c e l p 用一个自适应码本中的码字( 码矢量) 来逼近语音的长第二章语音编码技术时周期性( 基音) 结构；用一个固定的随机码本中的码字来逼近语音的经过短时、长叫预测后的余量信号。搜索出来的两个最佳码矢量，乘以各自的最佳增益后相加，就得到c e l p 的激励信号源。再将激励信号输入p 阶l p 综合滤波器i a ( z ) ，得到合成语音，合成语音与原始语音s ( n ) 的误差经过感觉加权滤波器w ( z ) 得到感觉加权误差e ( ) 。c e l p 用感觉加权的最小平方预测误差m i n i m u ms q u a r e d p r e d i c t i o ne r r o r ( m s p e ) 作为搜索最佳码矢量及其幅度的度量准则，使感觉加权误差 e ( h 1 平方最小的码矢量即是最佳码矢量。在c e l p 算法中，对于码矢量搜索的运算复杂度很大，而且对于特定码率的算法，码矢量需要进行单独的训练。当传输速率降到4 k b p s 以下时，c e l p 的语音质量下降很快，这是因为码本尺寸不足，无法精确描述语音波形使得合成噪声变大；同时它采用的均方误差准则对低速率语音编码并不十分适用。所以，直接将 c e l p 应用于4 k b p s 以下的语音编码难以获得好的语音质量。 2 2 3 混合激励线性预测( m e l p ) 声码器混合激励声码器的主要特点就是将周期脉冲和白噪声调整后混合作为激励信号，用以克服简单的二元激励的不足。具体来讲，浊音的激励源是由经过低通滤波的周期脉冲序列与经过高通滤波的白噪声相加而形成的，周期脉冲与噪声的混合比例随输入信号的浊化程度改变；清音的激励源是白噪声加上位置随机的一个正脉冲跟随一个负脉冲的脉冲对形成的爆破脉冲。对于爆破音，脉冲对的幅度增大，与语音的突变成比例，反之则脉冲对的幅度很小。此外在浊音帧基音相关程度不大，或者余量信号中有大的峰值时( 主要是过渡帧的情况) ，应在激励信号中引入一个抖动( j i t t e r ) 因子：即在激励信号中的周期脉冲里，对每个基音周期的长度乘上一个在o 7 5 i 2 5 之间均匀分布的随机数，使得周期脉冲的相位产生随机的抖动，采用以上的措施，语音的自然度得到了改善，原二元激励合成引起的金属声、重击声和音调噪声大量减少，同时对u v 判决的敏感程度有所降低【9 j 【”】。美国联邦标准m e l p 算法在低码率下获得了不错的语音质量【11 1 。本文将着力对这一算法进行研究，在后文将会对其进行详细的描述。 2 2 4 原型波形插值( p w i ) a t & t 的w b k l e i j n 提出的原型波形插值( p w i ) 方法是针对浊音段处理而言的，清音段仍需用其他方法处理( 如c e l p ) 。对于浊音段语音，相邻基音周期的波形变化不大。p w i 在分析端从语音信号的每一帧( 约2 0 3 0 m s ) 当中都提取出一个基音周期段作为原型波形，并对其余量信号进行编码传输。合成端通过线性插值到其它基音周期段而形成激励信号。合成的激励信号通过线性预测合成滤波器得到重建语音。k l e i j n 采用了频域的方法即傅立叶级数来表示原型波形，传输傅低速率语音编码的研究立u i j 级数的系数，这实质上是表示了一组正弦信号，所以虽然p w i 源于重建原始语音波形，但它与正弦模型等参数编码有内在的联系，基于p w i 原理的一种被称为时频插值编码( t i m e f r e q u e n c yi n t e r p o l a t i o nc o d i n g ，简称t f i ) 的方案在 2 4 4 k b p s 之间得到了相当好的效果。但由于p w l 只是对浊音进行处理，对于清音则采用c e l p 方法，因此在采用p w i 和c e l p 方法编码的转换语音段会出现明显的失真；而且由于对基音周期进行线性插值产生的机械的周期性，使得合成语音中会出现蜂鸣声【l “。 2 2 5 正弦模型正弦模型代表了一类重要的编码算法，其关键特征在于，浊音信号由一组幅度、相位和频率时变的正弦波相加来产生，正弦波的幅度、相位和频率在相邻帧问保持连续。正弦模型中比较著名的有正弦变换编码( s t c ) 和多带激励模型 ( m b e ) 。正弦变换编码由美国麻省理工学院( m 1 t ) 林肯实验室的m c a u l a y 和q u a t i e f i 提出，其最基本思想是合成语音是由一组正弦信号的线性组合得到，难弦信号的幅度、相位和频率是时变的。早期的正弦变换编码中，正弦波的幅度、相位和频率由语音的短时傅立叶谱的峰值决定，与基音周期没有多大关系。这种编码方法可以得到高质量的合成语音，但由于模型参数较多，难以降低编码速率。当正弦编码用于低速率编码时，正弦波的频率限制在基音频率的整数倍上，仅编码传输正弦波的幅度信息，相位信息在合成端生成。这一点与下面将要提到的m b e 十分相似。但s t c 和m b e 在模型参数的提取和表示上有较大区别：s t c 的谱包络由f f t 谱峰值插值得到，然后转换成倒谱系数编码传输。 1 9 8 8 年m i t 的g r i m n 和l i m 提出了多带激励模型，在g r i f f i n 的博士论文中给出了一个8 k b p s 的m b e 编码器。h a r d w i c k 和l i r a 采用离散余弦变换量化正弦波幅度将速率降到了4 8 k b p s ，称之为改进型多带激励( i m b e ) 模型：4 1 5 k b p s ( 力n 纠错到6 4 k b p s ) 的i m b e 算法已被国际海事卫星组织( i n m a r s a t ) 定为卫星话音通信标准。 4 k b p sm b e 的语音质量与c e l p 相比各有优势，这是因为正弦模型合成语音的失真与c e l p 不同：c e l p 在低速率时噪声大，清晰度下降，但自然度仍较好；正弦模型的合成语音清晰，但有合成感。一般认为正弦模型前景较好，在美国联邦标准m e l p 算法中也采用了多带处理的模型。第三章m e l p 语音编解码系统第三章m e l p 语音编解码系统本章对美国联邦标准混合激励算法( m e l p ) 进行阐述，从语音参数分析、量化编码和语音合成三个部分进行描述。 3 1 算法概述传统声码器( 包括c e l p ) 采用简单的二元激励模型，将短时语音段分为清音与浊音并根据语音段各自所对应的类型分别采用随机噪声序列( 清音) 和周期序列( 浊音) 激励全极点合成滤波器，从而获得具有甚低码率的合成语音信号。实际上一个简单的脉冲序列是很难构成各种语音信号的激励，而实际的语音信号也很难完全区分成清音或浊音_ 1 。目前，对低速率语音编码的研究多利用语音信号的特性对传统声码器的语音生成模型进行改进，使它更符合自然语音信号的生成机制，从而达成提高语音质量的目的。混合激励线性预测编码( m e l p ) 就是基于这种思想，其语音合成模型如图3 1 所示。混合激励线性预测( m e l p ) 编码器是基于传统的线性预测编码 ( l p c ) 模型，但是包含了五个自身的特征 “1 1 ”1 。它们分别为：混合激励、非周期脉冲、自适应谱增强、脉冲扩散以及傅立叶幅度( f o u r i e rm a g n i t u d e ) 模型。图 3 1m e l p 语音合成的框图中对这些特征进行图解。混合激励的实现是利用了多带模型：通过一组带通滤波器将语音信号分成五个频带，分别判断每个子带的清浊，在合成端利用这五个子带信号t h a n 得到混合激励，其主要功能是减少通常的l p c 声码器所带有的蜂鸣声。当输入信号是浊音时，m e l p 编码器能用周期或者非周期脉冲来合成语音。非周期脉冲大多用于语音信号的清音段和浊音段的转化区间。这一特征保证了解码器能重现复杂多变的声1 7 脉冲，而不引入音调噪音。自适应谱增强滤波器基于线性预测合成滤波器的极点，作用是增强合成语音共振峰结构，提高合成语音和限带自然语音波形之间的匹配程度，使得合成语音拥有更自然的质量。脉冲扩散是利用基于频谱为平的三角脉冲的固定滤波器来实现。滤波器将激励信号的能量在一个基音周期中进行扩散，从而减少了在合成语音中的刺耳成分。傅立叶幅度模型是对l p c 分析后的残差信号进行傅立叶变换，提取十个基音谐波的幅度参数。在这些系数中的信息提高了在听觉感知十分重要的语音产生模低速率语音编码的研究型的精确度。这一特性能提高合成语音的质量，尤其对于男女和有背景噪声的情况。参釉磊再商期 h 自适廊频谱增强l 图31m e l p 合成语音图 3 2 语音分析和参数提取成语音语音分析的原理图如图3 t 2 所示。以下对语音分析中需要提取的参数做一个简单的介绍。幽3 2m e l p 语音分析框图出出输一输一圆圆出岁出每输一输一输一酽酵群第三章m e l p 语音编解码系统 3 2 1 高通滤波滤去低频成分编码过程的第一步是去除可能在输入信号中存在的任何低频能量，实现方法是采用一个四阶的车比雪夫i i 型( c h e b y c h e vi i ) 高通滤波器，截止频率为6 0 h z ，阻带的衰减为3 0 d b ，传递函数为 h f z ) ：型生生竺芝 ( 3 _ i ) l + a l z 叫+ 口2 z + a 3 z 叶+ a 4 z 叫其中系数b 4 1 - 0 9 2 6 9 2 4 1 6 ，37 0 5 6 3 8 3 4 ，5 5 5 7 4 2 8 9 3 ，3 7 0 5 6 3 8 3 4 ，0 9 2 6 9 2 4 1 6 ， a 4 = 1 0 0 0 0 0 0 0 0 ，一3 8 4 6 1 0 7 2 3 ，5 5 5 2 0 9 7 6 0 ，一3 5 6 5 1 6 0 6 9 ，o 8 5 9 1 8 8 3 9 。在编码部分，用缓冲区s p e e c h 来保存从输入语音信号经过高通滤波后得到的最新的4 1 0 个样点，其中2 3 1 到4 1 0 为当前帧样点的位置，其中第2 5 l 点被指定为信号处理的参考点s 。以下的计算中如果不加说明，所指的输入语音信号都是指的经过高通滤波后的信号，其参考点均为第2 5 l 点或其经过滤波后对应的样点。 3 2 2 整数基音周期的粗估算在整数基音周期的粗估算3 】中，输入的语音信号首先用截止频率为l k h z ，6 阶的巴特沃思低通滤波器进行滤波，用来消除高频成分对基音周期计算的干扰。整数基音周期只等于在归一化自相关函数r ( r ) 达到最大值时的f 值，其

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）低速率语音编码的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）低速率语音编码的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档