




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着通信技术以及i n t e r n e t 网络语音实时传输技术的迅速发展,对语音的传 输速率和存储容量都提出了很高的要求,解决这些问题的主要途径之一就是语音 编码。 在现有的语音编码研究中,混合激励线性预测编码( m e l p ) 是一种比较好的 方法,m e l p 编码方法已经被确定为美国新的联邦语音编码标准。该算法结合了二 元激励、码激励和多带激励的优点,能在较低的码率下得到较好的再生语音。 本论文在对m e l p 编码算法进行分析的基础上,提出了用软件实现语音信号编 解码的方案:然后,基于m e l p 标准,开发了仿真系统,实现对语音信号的编解码。 该系统首先对语音信号进行采样;按帧对语音数据进行语音分析和参数提取,提 取的参数包括基音周期( p i t c h ) 、多带清浊音判别、非周期抖动标志、线性预测 参数( l p c ) 等语音生成模型参数;接着对这些参数进行了量化,量化采用了多级 矢量量化技术;最后在解码端对各个量化参数进行解码,利用这些参数结合语音 合成模型重构语音。系统编解码后的语音质量基本良好。 关键字:语音编码m e l p 矢量量化线性预测 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m m u n i c a i o nt e c h n o l o g ya n dt h ei m p r o v e m e n to ft h e s p e e c ht r a n s m i tt e c h n o l o g y i nr e a lt i m eb a s e do ni n t e r n e t ,t h eh i g h r e q u e s t t o t r a n s m i s s i o ne f f i c i e n c ya n dm e m o r yc a p a c i t yo ft h es p e e c hi sn e e d e d o n eo ft h e m a i n s w a y t os o l v et h e s ep r o b l e m si st h es p e e c h c o d i n g i nt h es t u d yo f s p e e c hc o d i n gi np r e s e n t ,t h em i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ( m e l p ) i sak i n do fr e l a t i v e l yg o o dm e t h o d t h em e l p v o c o d e ri st h en e wf e d e r a l s t a n d a r ds p e e c hc o d e ei tw a ss e l e c t e db yt h eu n i t e ds t a t e sd e p a r t m e n to fd e f e n s e d i g i t a lv o i c ep r o c e s s i n gc o n s o r t i u m ( d d v p c ) t h em e l p v o c o d e ri sb a s e do nt h e t r a d i t i o n a ll p c p a r a m e t r i cm o d e l ,b u ta l s oi n c l u d e sf o u ra d d i t i o n a lf e a t u r e s t h e s ea r e m i x e d - e x c i t a t i o n ,a p e r i o d i cp u l s e s ,p u l s ed i s p e r s i o n ,a n da d a p t i v es p e c t r a l e n h a n c e m e n t s ot h em e l pv o c o d e rc a n p r o d u c e m o r en a t u r a ls o u n d i n gs p e e c h w i t haa n a l y s i st om e l p c o d i n ga r i t h m e t i c ,as p e e c hc o d e cs c h e m ei ns o f t w a r e i s p r e s e n t e d i nt h i s p a p e r c a r r y o ne m u l a t i o nt om e l ps t a n d a r d ,r e a l i z et h a tt h e c o m p r e s s i o no ft h ep r o n u n c i a t i o nf i l ei ss o l v e da n dp r e s s e d f i r s tt h i st h e s i ss a m p l et o w a v f i l e ,c a r r yo i lt h es p e e c ht oa n a l y z ea n dd r a w sw i t ht h ep a r a m e t e rt ot h es p e e c h d a t ao f e v e r yf l a m e t h e s ep a r a m e t e ri n c l u d e p i t c h 、b p v c 、j i t t e r 、l p c ,e t c t h e n ,t h e s e p a r a m e t e r sw i l l b e q u a n t i z e db ym s v qt e c h n o l o g y l a s tt h e s ep a r a m e t e r sw i l lb e d e c o d e di nt h ed e c o d e g k e vw o r d s s p e e c hc o d i n gm e l p ( m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ) v q ( v e e t o rq u a n t i z a t i o n ) l p c ( l i n e a rp r e d i c t i o na n a l y s i s ) e 5 8 3 3 8 7 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的仟何员献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:景陶翩 日期:坦生:f ! 翌 关于论文使用授权的说明 本人克个了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文:l 作成果时署名单位仍然为西安电子科技大学。 学校有权保帮送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵i r 此舰定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名 导师签名 墨! 煎z 目:日期:础! ! 主 趁垄嗍型竺: 第一章绪论 第一章绪论 1 1 引言 长期以来,人们希望在任何时候、任何地点与任何人进行通信。计算机技术、 通信技术和多媒体技术的发展使这种想法成为可能,人们用数字化的方法已经取 得了辉煌的成就。但是日新月异的应用对数字技术提出了更高的要求,同时也在 不断推动着数字技术的进步。语言是人类社会的一种重要的交流手段,因此,用 数字化的方法进行语音的传送、存储、识别、合成、增强构成了目前数字化 通信网中最重要、最基本的组成部分之一。 语音信号处理最早和最重要的一种应用是贝尔实验室的h o m e rd u d l e y 在1 9 3 9 年发明的第一个声码器。随着通信技术的发展,卫星、微波和光通信系统提供了 很宽的频带,但是在很多情况下仍然有着节省频带的需要;同时,利用多余码字 对语音信号进行极其复杂的加密的可能性也极大地推动了语音压缩编码在许多方 面的应用。 c c i t t ( i t u ) 已经制定了几种码率的语音编码国际标准,这些标准推动了研究 工作的进展,但是他们的传输码率普遍较高( 最低的为g 7 2 3 ,码率为5 3 k b p s ) , 低速率编码的语音质量大多不能令人满意,使得低速率的语音编码成为近年来的 一个热点和难点。尤其是在短波信道、水声信道等对码率要求极其苛刻的应用场 合,进行低速率语音编码的研究工作尤其迫切。 1 2 语音编码技术的发展 语音压缩编码的发展,一直是在用尽可能低的数码率获得尽可能好的合成语 音质量的矛盾中发展。数码率实质上反映的是频带宽度,降低数码率实质上是压 缩频带宽度。当然随着数码率的降低,相应的算法延迟时间和计算复杂度也要增 加。 在半个多世纪的研究中,各国学者做出大量的努力,从人类发音机理和听觉 机理出发,对语音的基本元素的声学特性、频谱特性和语意表达等做了大量研究, 建立了发音模型、听觉模型,在不同程度上逼近真正的语言过程,并取得了长足 低速率语音编码的研究 的进展,逐步形成了通信和信息处理科学的重要研究方向,所以系统、科学地对 语音压缩编码回顾和总结是十分必要的。在语音压缩编码的发展过程中,在众多 的理论和技术中,以各种语音压缩编码标准为基准,研究其历史沿革有事半功倍 之效果。它作为技术标准,至少代表了当时的技术最高水平,是技术成熟完善的 标志,同时经过标准的制定,对技术又是一个很好的指导和激励。 ( 1 ) 自从1 9 3 9 年美国h o m e r d u d l e y 发明声码器以来,语音处理开始了参数 编码或模型编码的研究,它是以滤波器为主构造的通道声码器。2 0 世纪6 0 年代以 前,s a t o ,i t a k u r a 和a t a l ,s c h r o e d e r t 2 研究出使用的共振峰声码器,最早把“线性 预测( l p c ) ”技术应用到语音分析和合成。他们以线性组合模型均方误差最小意 义下逼近原始波形的方法提取参数,研究出自相关法、协方差法等实用快速算法。 存众多声码器中,l p c 声码器终因其成熟的算法和参数的精确估计成为研究的主 流,并逐步走向实用。 ( 2 ) 从1 9 8 5 年b s a t a l 和m r s c h r o e d e r 提出c e l p 算法以来,闭环分析算 法成为主流。美国国防部公布了c e l p 联邦标准。欧洲电讯管理局( g s m ) 于1 9 8 8 年公布了r p e - l t p 线性预测语音编码方案。1 9 8 9 年,北美蜂窝电话工业组织 ( c t u a ) 公布了矢量和激励线性预测( v s e l p ) 语音编码方案。1 9 9 2 年,c c i t t 公札了g 7 2 8 短时延码激励线性预测语音编码( l d c e l p ) 方案,1 9 9 6 公布了g 7 2 9 结构代数码激励的语音编码( c s a c e l p ) 标准。 在这1 0 年中就产生了3 个国际标准、2 个地区性标准和2 个国家标准,可见 语音压缩编码的研究发展之快。这些算法的共同特点是采用知觉加权技术、l s p ( l s f ) 技术、后置滤波技术、增益自适应技术等。因此,在这1 0 年中,c e l p 算法是语音压缩编码的主流。 ( 3 ) 近年来随着第三代移动通信的发展,变速率语音压缩编码技术相应得到 发展。为了充分利用c d m a 技术,q u a l c o m r n 于1 9 9 3 年提出了可变速率的c e l p , 通常称为q c e l p 口j 。它有4 个可供选择的传输速率,通过计算输入能量,并与三 个阙值能量比较来选择传输速率。这种技术己成为北美数字蜂窝通信标准。1 9 9 9 年公布的第三代伙伴计划( 3 一g e n e r a t i o np a r t n e r s h i p p r o j e c t ) 把自适应多速率 ( a m r ) 浯音编解码作为主要技术。该技术有8 种速率供选择。它能根据信道质 量选择不同的编码速率,通信质量接近或达到长途电话质量。 随着因特网的发展,语音i p ( v o l p ) 对语音压缩编码的需求十分迫切。在国 际电报电话咨询委员会c c i t t ( 现并入国际电信联盟i t u ) 的推动下,制定了一系列 数字语音编码传输的国际标准,详见表1 1 。更低码率的声码器语音识别声码器可 做到6 0 0 b p s ,这点已有报道,并有待更深入研究。主要利用相邻帧间的语音频谱 特征的变化程度作为语音相似程度的衡量依据,通过逐帧跟踪共振峰的变化来确 定帧参数的发送,此算法码率做到6 0 0 b p s ,但有些音己不可懂,若采用帧问插值 第一章绪论 的算法会更精确。 ( 4 ) 高保真音频信号压缩编码,即带宽1 5 2 0 k h z 的家用、专业高保真音响, 包括动画和h d t v 音频咀及多媒体系统。有时音频编码这一术语也指宽带语音编 码,即带宽7 k h z 的语音信号、电视以及i s d n 上的语音通信。 表1 1 语音编码的国际标准 标准算法名称码率及应_ i = j 领域制定时间 6 4 k b s 电话带宽语 g 7 1 1p c m1 9 7 2 音编码 6 4 、5 6 、4 8 k b s7 k h z g 7 2 2s ba d p c i1 9 8 8 带宽语音编码 a c e i p ( 5 ,3 k b s )适用于多媒体终端的 g7 2 3l1 9 9 6 m pm l q ( 63 k b s ) 双速率语音编码 g 7 2 64 0 、3 2 、2 4 、1 6 k b s1 9 9 0 a d p c m g 7 2 1 语音编码 1 9 8 4 g7 2 7e m b e d e da d p c m同上1 9 9 0 g 7 2 8l d c e l p1 6k b s 语音编码1 9 9 2 g 7 2 9c s a c e l p8k b s 语音编码1 9 9 6 1 3 面临的问题 语音编码面临的问题有四个。一是极低数码率,二是低速率语音编码合成语 音音质要有更好的自然度,三是声码器在高背景噪声环境下的使用,四是经多次 音频转接仍能正常使用。根据信息论的观点,语音压缩编码的码率可以做到 1 5 0 6 0 b p s 。也就是说,语音压缩编码的工作空间还很大。 另外,对语音编解码器( 声码器) 的性能评价方法研究也是一个重要的研究 课题。其本身不是语音编码问题,但和语音编码密切相关。评价声码器的性能好 坏,需要进行多种指标的测试和评估,目前没有统一的国际标准,但普遍认为至 少应包括编码速率、合成语音质量、稳健性、编解码延时、误码容限、计算复杂 度和算法可扩展性等7 个方面( 在2 1 3 节对编码速率、编码质量、算法复杂程度 以及编解码延时四个因素作了详细的介绍) 。 低速率语音编码的研究 1 d 本文内容安排 在目前的低码率语音编码研究中,混合激励线性预测编码( m e l p ) 是一种比 较好的方法,2 4 k b p s 的m e l p 编码方法已经被确定为美国新的联邦语音编码标准。 浚算法结合了二元激励、码激励和多带激励的优点,能在较低的码率下得到好的 再生语音。 本论文的主要内容安排如下: 第一章绪论中简要介绍了语音编码技术发展的历史和现状,对语音编解码技 术做了概括说明。 第二章介绍了语音压缩编码原理、语音编码方法的分类以及语音编码性能的 评价标准,并简单介绍了几种低速率语音编码技术并对他们做了比较。 第一i 章详细介绍了美国联邦标准m e l p 算法的编解码算法。 第四章介绍了系统的实现并对系统的关键技术做了详细说明。 第二章语音编码技术 第二章语音编码技术 2 1 语音编码技术 语音编码技术是伴随着通信网的发展雨发展的。在通信网中,解决信息传输 效率是一个关键而又极其重要的问题,有两个途径来研究这一课题,其一是研究 新的调制方法和技术来提高信道的传输码率,其指标是每个赫兹带宽能传送的码 字数:其二是在信源上,压缩信源的编码码率。这对任何频率资源有限的传输环 境无疑是极其重要的。实际上,压缩语音编码的码率与语音的存储,语音识别和 合成等技术都直接相关。 21 1 语音压缩编码的原理 1 、语音产生的模型及其特征参数【4 】 5 语音信号在发音器官中产生的物理过程是来自肺部的空气流经过声带后,冲 击声道,然后由口腔发出声音。气流产生的声音主要通过嘴唇发射到空气中,只 有鼻音是通过鼻孔发射的。 从声学的观点来看,不同语音的产生过程是由于发音器官的声音激励源和口 腔或鼻腔声道的形状不同。根据激励源和声道模型的不同,语音可以分为两类: 浊音和清音。来自肺部空气流为声带振动所调制,产生准周期性的闭合或开启, 在声道中激励起准周期性的空气脉冲,从而形成浊音:而来自肺部的空气流在它 经过声道的收缩部分时形成湍流,得到类似噪音的激励,产生清音。 图2 1 给出一个简单的语音信号产生的数学模型,对于语音压缩编码而言,已 经完全可以满足需求了。 图21 语音信号生成模型 不难看出,图2 1 给出的模型是发音机理模型的一种特殊形式,它把该图中 孚 , !堡望至堕童塑堕塑型! 塑 的辐射、声道以及声门激励的全部谱效应简化为一个时变的数字滤波器来表示, 其稳态系统函数为: h r 外:皇生生:一! 一 ( 2 1 ) u ( 2 ) 1 一妻a l z 一1 i :l 对于浊音语音,这个系统受冲激序列的激励,各冲激之间的间隔为基音周期; 对于清音语音,则受白噪声序列激励,它可简单地由一个随机数发生器完成。因 为图2 1 的模型常用来产生合成语音,故滤波器h ( z ) 亦称作为合成滤波器。这个 模型的参数有浊音清音判决、浊音语音的基音周期、增益常数g 及数字滤波器参 数a 。当然,这些参数都是随时间缓慢变化的。 在图2 1 所示的语音信号产生模型中,数字滤波器h ( z ) 的参数a 即是在前面 定义的线性预测系数,因此,求解滤波器参数和增益常数g 的过程我们称之为语 音信号线性预测分析( l p c ) 。 2 、语音可进行压缩的理论依据【6 j 语音信号之所以能够进行压缩编码,主要有两条基本依据。这就是利用了语 音信号所存在的冗余度。以及利用人耳的听觉特性。 从前面我们阐述的语音信号产生的激励和它的结构特性表明,语音信号中存 在很大的冗余度。语音压缩本质上就是通过识别这些冗余信息并设法去掉它们, 从而达到压缩的目的。语音信号的冗余度归纳起来表现在以下四个方面:( 1 ) 语 音信号样本间相关性很强,亦即短时谱是不平坦的;( 2 ) 浊音语音段具有准周期 特性:( 3 ) 声道的形状及其变化的速率是有限的;( 4 ) 传输码的概率分布是不均 匀的。 前三个冗余度是由于语音信号产生激励的物理结构所决定的。第( 1 ) 种冗余 度体现在短时谱的不平坦性,理论上可以通过适当的滤波来去除,大多数波形编 码技术都是利用这一特性,从频谱平整化着手进行处理。第( 3 ) 种冗余度则是语 音信号分帧处理的理论基础,它允许声道滤波器参数或谱包络等可以按帧处理, 同时通过一定的手段去除帧间的相关性。第( 4 ) 种冗余度与所采用的特殊编码方 法有关,主要被各种概率编码方法所利用。当传输的数码率已被设定时,语音编 码器的合成语音质量将通过有效地利用这些冗余度而达到最佳。 利用人类的听觉功能特点是语音压缩编码的第二个途径。人的听觉中有一个 重要的特点,就是听觉的掩蔽效应一个强音能抑制另一个弱音的听觉。在编 码过程中,利用这_ 。特性,采用一些准则来改变量化噪声的频谱形状,使得量化 噪声在主观听觉上能部分或全部被语音所屏蔽;或在后滤波技术中利用谱幅度的 适度失真来降低量化噪音对语音质量的影响。人的听觉对声调( p i t c h ) 的感觉很 准确,但在不同的频段允许的畸变是不同的,对低频端比较敏感( 因为浊音的基 第二章语音编码技术 音和共振峰结构集中在那里) ,对高频段不太敏感,能容忍较大的基音偏差,“子 带编码技术”利用这一特点。人的听觉对信号的相位很不敏感,更是某些分析和 编码方法的依据:低码率的语音编码几乎不会给相位因子分配码字。 对于人类听觉机理的研究现在尚处于初级阶段,但肯定对这方面的探索,将 会给我们提供更多可利用的信息。 21 2 语音编码方法的分类 语音压缩编码,按编码后传输所需的数据速率来分,可以分为高速率( 3 2 k b p s 以上) 、中高速率( 1 6 3 2 k b p s ) 、中速率( 4 8 1 6 k b p s ) 、低速率( 1 2 - 4 8 k b p s ) 和 极低速率( 1 2 k b p s ) 五大类。 从方法上,语音信号的编码方法可分为两大类:波形编码和参数编码。有趣 的是,这两种方法最早的提出都是在上个世纪3 0 年代末期帕j 。 语音信号的波形编码力图使重建语音信号s ( 胛) 的各个样本尽可能地接近原始 语音信号s ( n ) 的样本值。令e ( n ) 表示量化误差, e ( n ) = s ( n ) 一s ( n ) ( 2 2 ) 那么波形编码的目的是在给定的传输码率下,使误差序列e ( 行) 的能量最小。 因此在波形编码中,信噪比总是一个有用的性能评价标准。 波形编码器将语音信号作为一般的波形信号来处理,它具有自适应能力强、 语音质量好等优点,但所需要的编码速率较高,脉冲编码调制、自适应增量调制、 自适应差分编码、自适应子带编码、自适应变换编码等都是波形编码的应用实例。 它们在1 6 k b p s 以上速率能给出高的编码质量。 而参数编码则是以语音信号产生模型为基础,通过一定的方法对信号的特征 参数进行提取和编码,其目的是力求在较低的码率下获得尽可能好的语音质量。 在这类系统中,由于解码后的语音信号同原始的语音信号没有一一对应关系,合 成语音主要借助于主观评判,尽管近年来一直在进行某些客观评价标准的研究, 但是缺少像波形编码那样客观的评价标准。 参数编码的优点是编码速率低,但是它的问题在于合成语音质量差,清晰度 不好,自然度较低,特别是对话音的环境噪声敏感。此外,它的运算量大、需要 的存储单元多,实时实现较困难。但是随着数字信号处理技术( d s p ) 的快速发展, 新的寻址空间大、运算速度高的d s p 芯片的不断推出,运算复杂度已经不再是致 命性的问题了。典型的参数编码器包括通道声码器、共振峰声码器以及目前被广 泛使用的线性预测声码器( l p c ) 等。 除了这两种编码方法外,在二十世纪八十年代产生了新一代的参数编码方法, 这种方案在保留分析合成编码的技术精华基础上,引进了波形编码准则去优化激 低速率语音编码的研究 励信号,从而在4 8 9 6 k b p s 的码率上获得了较高质量的合成语音。我们称之为混 合编码,典型代表是码本激励线性预测编码( c e l p ) 、多脉冲激励线性预测编码 ( m p l p c ) 、规则脉冲激励线性预测编码( r p e l p c ) 等。 2 1 3 语音编码性能的评价标准 语音编码器的性能主要由四个方面的因素来衡量,包括:编码速率、编码质 量、算法复杂程度以及编解码延时。这四个因素之间是密切相关的,在实际工作 中,应当对不同因素的影响作综合考虑,根据需要侧重点的选择也有所不同。 ( 1 ) 编码质量 语音编码质量是衡量语音编码算法优劣的关键性能之一。它的评价方法归纳 起来分为两类,即客观评定方法和主观评定方法。 客观评定方法用客观测量的手段来评价语音编码质量,常用的方法有信噪比、 分段信噪比、频域加权信噪比、最大最小信噪比以及非均方误差信噪比等,它们 都是以信噪比的概念为基础的。信噪比s n r ( s i n g n a l - n o i s er a t i o ) 定义为信号与量 化噪声的方差比,用公式可表示为 r,1 s n r ( a b ) = 1 0 1 0 9 l 鲁l ( 2 - 3 ) l 仃ej 其中盯j 和盯j 分别代表信号方差和噪声方差。 客观评定方法计算相对简单,但不能完全反映人对语音质量的感觉,这个问 题在速率为1 6 k b p s 以下的中低速率语音编码中显得尤为突出,所以实际中广泛采 用的是主观评定方法。 主观评定方法国际上常用的有平均意见得分( m e a no p i n i o ns c o r e ,简称m o s 得分) 、判断韵字测试( d i a g n o s t i cr h y m et e s t ,简称d r t 得分) 、判断满意度测量 ( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ,简称d a m 得分) 、二元判决( a bt e s t ) 以及 主观信噪比等。我国针对汉语语音也制定有自己的国家标准以及电子工业部( 现 信息产业部) 部颁标准。 ( 2 ) 编码速率 编码速率反映的是编码器对传输数据的压缩程度。它可以用“比特秒”( b s ) 来度量,代表编码的总速率,一般用i 表示;也可以用“比特,样点”( b p ) 来度量, 代表平均每个语音样点用多少比特编码,一般用r 表示。i 和r 可以通过采样频率 f 联系起来 i = r cf 2 4 1 其中采样频率是根据n y q u i s t 定理由信号带宽决定的。从式( 2 4 ) 不难看出, 平均每样点比特数r 越高,量化程度就越精细,语音质量就越容易提高。在波形 第二章语音编码技术 编码中,为了获得高质量的重建语音,目前一般取r 2 ;而在参数编码中r 可以 低到o 2 5 甚至0 1 以下。显然在后一种情况下,重建语音的清晰度和自然度都会 有所损失。 ( 3 ) 算法复杂程度 编解码算法的复杂程度直接决定了硬件实现的复杂程度、体积、功耗以及成 本等。目前各种语音编解码算法的实时实现大多使用通用数字信号处理芯片( d s p ) 来完成。这样做的好处在于研制周期短,初期投资小。算法越复杂需要的d s p 芯 片就越高档,存储器容量也越大,成本、功耗都会相应提高。但是另一方面,在 同样数码率的情况下,复杂的算法将会获得更好一些的话音质量。实际应用时对 算法的选择应综合考虑这两方面的影响。 ( 4 ) 编解码延时 编解码延时包括算法延时( 语音分析所需的存储缓冲) 以及计算延时( 处理 帧内数据所需的时间) 。在实时语音通信系统中,语音编解码延时同线路传输延时 作用一样,对系统的通话质量有很大影响。延时过长会使通话双方都反映“迟钝”, 严重时无法正常通话,延时影响通话质量的另一个可能的原因是回声干扰。传输 线路如果阻抗匹配不理想会使信号反馈形成回声。当延时比较小时,回声同话机 侧音及房间交混回响声相混,因而感觉不到。若往返总延时超过1 0 0 m s ,发送端就 能听到自己的回声。如果回声传输路径衰耗不够大,就会听到多次回声,从而严 重影h 向通话质量。 对于公用电话网,单次语音编解码延时通常要求不超过5 - l o m s 。但在卫星通 信等通信系统中,由于传输延时或由于纠错编码引入的延时等已经比较大,再苛 求语音编码的延时意义就不大了,这时语音编码的延时可以放宽到几 jm s 到 1 0 0 m s 。当总延时超过l o o m s 时,一般都需要采取回声抵消或回声抑制等措施。 2 2 低速率语音编码技术 当前的低速率语音编码算法可以大致分为四种:( 1 ) 混合激励声码器( m i x e d e x c i t a t i o n v o c o d e r ) ;( 2 ) 码激励声码器( c o d e e x c i t a t i o n v o c o d e r ) ;( 3 ) 插值编码, 包括原型波形插值( p r o t o t y p e w a v e f o r mi n t e r p o l a t i o n ) 和时频插值( t i m ef r e q u e n c y i n t e r p o l a t i o n ) :( 4 ) 谐波编码,包括多带激励( m u l t i b a n de x c i t a t i o n ) 和f 弦波变 换( s i n u s o i d a lt r a n s f o r r n ) 。 从分类方法来看,它们都属于参数编码( 或混合编码) 的范畴,都是采用在 图2 j 给出的语葺信号产生模型柬进行语音分析和熏建。 下面对几种典型的算法作一些简单的介绍。 低速率语音编码的研究 2 2 1l p c 1 0 声码器 l p c 1 0 7 是一个1 0 阶线性预测声码器,它采用的算法简单明了,如图2 1 所 7 卞。 在这个声码器中,清音激励信号由随机序列发生器产生,浊音激励信号则为 周期脉冲,其周期p 即为基音周期,需传输的参数包括:声道滤波器参数、基音 周期p 、清浊( u ,v ) 判决标志及语音能量。 利用l p c - 1 0 的算法可以合成清晰、可懂的语音,但是抗噪声能力和自然度有 明显欠缺,归根结底其原因在于:算法采用了线性预测模型,而激励模型过于简 单。在实际的语音残差信号中,相当一部分既非周期信号又非随机噪声;或者低 频端是周期脉冲,高频端是随机噪声。即使是对特征相当明显的浊音,完全由周 期脉冲串激励也会产生蜂鸣声( b u z z y ) 等合成感觉的语音。在这种情况下采用纯 粹的二元激励代替残差信号,必然导致合成语音听起来不自然。同时清浊判决也 处在两难的境地:若判决的清音过多,则合成语音噪声大、含混不清;若判决的 浊音过多,则合成语音机器声重,影响自然度。 为了改善语音质量,必然要对线性预测残差进行处理,这是此后出现的不同 激励模型( 混合激励、码激励、多带激励等) 算法的出发点。 2 2 2 码激励线性预测( c e l p ) m a n f r e dr s c h r o e d e r 和b i s h n us a t a l 在i e e ei c a s s p 年会上首先提出了用码 本作为激励源的线性预测编码( c e l p ) 技术嘲。c e l p 以高质量的合成语音及优良 的抗噪声和多次转接性能,在4 8 - 1 6 k b p s 上得到广泛的应用。 自适应码本 号 图2 2 c e l p 编码示意图 如图2 2 所示,c e l p 用一个自适应码本中的码字( 码矢量) 来逼近语音的长 第二章语音编码技术 时周期性( 基音) 结构;用一个固定的随机码本中的码字来逼近语音的经过短时、 长叫预测后的余量信号。搜索出来的两个最佳码矢量,乘以各自的最佳增益后相 加,就得到c e l p 的激励信号源。再将激励信号输入p 阶l p 综合滤波器i a ( z ) , 得到合成语音,合成语音与原始语音s ( n ) 的误差经过感觉加权滤波器w ( z ) 得到感 觉加权误差e ( ) 。c e l p 用感觉加权的最小平方预测误差m i n i m u ms q u a r e d p r e d i c t i o ne r r o r ( m s p e ) 作为搜索最佳码矢量及其幅度的度量准则,使感觉加权误差 e ( h 1 平方最小的码矢量即是最佳码矢量。 在c e l p 算法中,对于码矢量搜索的运算复杂度很大,而且对于特定码率的 算法,码矢量需要进行单独的训练。当传输速率降到4 k b p s 以下时,c e l p 的语音 质量下降很快,这是因为码本尺寸不足,无法精确描述语音波形使得合成噪声变 大;同时它采用的均方误差准则对低速率语音编码并不十分适用。所以,直接将 c e l p 应用于4 k b p s 以下的语音编码难以获得好的语音质量。 2 2 3 混合激励线性预测( m e l p ) 声码器 混合激励声码器的主要特点就是将周期脉冲和白噪声调整后混合作为激励信 号,用以克服简单的二元激励的不足。具体来讲,浊音的激励源是由经过低通滤 波的周期脉冲序列与经过高通滤波的白噪声相加而形成的,周期脉冲与噪声的混 合比例随输入信号的浊化程度改变;清音的激励源是白噪声加上位置随机的一个 正脉冲跟随一个负脉冲的脉冲对形成的爆破脉冲。对于爆破音,脉冲对的幅度增 大,与语音的突变成比例,反之则脉冲对的幅度很小。此外在浊音帧基音相关程 度不大,或者余量信号中有大的峰值时( 主要是过渡帧的情况) ,应在激励信号中 引入一个抖动( j i t t e r ) 因子:即在激励信号中的周期脉冲里,对每个基音周期的 长度乘上一个在o 7 5 i 2 5 之间均匀分布的随机数,使得周期脉冲的相位产生随机 的抖动,采用以上的措施,语音的自然度得到了改善,原二元激励合成引起的金 属声、重击声和音调噪声大量减少,同时对u v 判决的敏感程度有所降低【9 j 【”】。 美国联邦标准m e l p 算法在低码率下获得了不错的语音质量【11 1 。本文将着力 对这一算法进行研究,在后文将会对其进行详细的描述。 2 2 4 原型波形插值( p w i ) a t & t 的w b k l e i j n 提出的原型波形插值( p w i ) 方法是针对浊音段处理而言 的,清音段仍需用其他方法处理( 如c e l p ) 。对于浊音段语音,相邻基音周期的 波形变化不大。p w i 在分析端从语音信号的每一帧( 约2 0 3 0 m s ) 当中都提取出 一个基音周期段作为原型波形,并对其余量信号进行编码传输。合成端通过线性 插值到其它基音周期段而形成激励信号。合成的激励信号通过线性预测合成滤波 器得到重建语音。k l e i j n 采用了频域的方法即傅立叶级数来表示原型波形,传输傅 低速率语音编码的研究 立u i j 级数的系数,这实质上是表示了一组正弦信号,所以虽然p w i 源于重建原始 语音波形,但它与正弦模型等参数编码有内在的联系,基于p w i 原理的一种被称 为时频插值编码( t i m e f r e q u e n c yi n t e r p o l a t i o nc o d i n g ,简称t f i ) 的方案在 2 4 4 k b p s 之间得到了相当好的效果。但由于p w l 只是对浊音进行处理,对于清音 则采用c e l p 方法,因此在采用p w i 和c e l p 方法编码的转换语音段会出现明显 的失真;而且由于对基音周期进行线性插值产生的机械的周期性,使得合成语音 中会出现蜂鸣声【l “。 2 2 5 正弦模型 正弦模型代表了一类重要的编码算法,其关键特征在于,浊音信号由一组幅 度、相位和频率时变的正弦波相加来产生,正弦波的幅度、相位和频率在相邻帧 问保持连续。正弦模型中比较著名的有正弦变换编码( s t c ) 和多带激励模型 ( m b e ) 。 正弦变换编码由美国麻省理工学院( m 1 t ) 林肯实验室的m c a u l a y 和q u a t i e f i 提出,其最基本思想是合成语音是由一组正弦信号的线性组合得到,难弦信号的 幅度、相位和频率是时变的。 早期的正弦变换编码中,正弦波的幅度、相位和频率由语音的短时傅立叶谱 的峰值决定,与基音周期没有多大关系。这种编码方法可以得到高质量的合成语 音,但由于模型参数较多,难以降低编码速率。当正弦编码用于低速率编码时, 正弦波的频率限制在基音频率的整数倍上,仅编码传输正弦波的幅度信息,相位 信息在合成端生成。这一点与下面将要提到的m b e 十分相似。但s t c 和m b e 在 模型参数的提取和表示上有较大区别:s t c 的谱包络由f f t 谱峰值插值得到,然 后转换成倒谱系数编码传输。 1 9 8 8 年m i t 的g r i m n 和l i m 提出了多带激励模型,在g r i f f i n 的博士论文中 给出了一个8 k b p s 的m b e 编码器。h a r d w i c k 和l i r a 采用离散余弦变换量化正弦波 幅度将速率降到了4 8 k b p s ,称之为改进型多带激励( i m b e ) 模型:4 1 5 k b p s ( 力n 纠错到6 4 k b p s ) 的i m b e 算法已被国际海事卫星组织( i n m a r s a t ) 定为卫星话音 通信标准。 4 k b p sm b e 的语音质量与c e l p 相比各有优势,这是因为正弦模型合成语音 的失真与c e l p 不同:c e l p 在低速率时噪声大,清晰度下降,但自然度仍较好; 正弦模型的合成语音清晰,但有合成感。一般认为正弦模型前景较好,在美国联 邦标准m e l p 算法中也采用了多带处理的模型。 第三章m e l p 语音编解码系统 第三章m e l p 语音编解码系统 本章对美国联邦标准混合激励算法( m e l p ) 进行阐述,从语音参数分析、量 化编码和语音合成三个部分进行描述。 3 1 算法概述 传统声码器( 包括c e l p ) 采用简单的二元激励模型,将短时语音段分为清音 与浊音并根据语音段各自所对应的类型分别采用随机噪声序列( 清音) 和周期序 列( 浊音) 激励全极点合成滤波器,从而获得具有甚低码率的合成语音信号。实 际上一个简单的脉冲序列是很难构成各种语音信号的激励,而实际的语音信号也 很难完全区分成清音或浊音_ 1 。 目前,对低速率语音编码的研究多利用语音信号的特性对传统声码器的语音 生成模型进行改进,使它更符合自然语音信号的生成机制,从而达成提高语音质 量的目的。混合激励线性预测编码( m e l p ) 就是基于这种思想,其语音合成模型 如图3 1 所示。混合激励线性预测( m e l p ) 编码器是基于传统的线性预测编码 ( l p c ) 模型,但是包含了五个自身的特征 “1 1 ”1 。它们分别为:混合激励、非周 期脉冲、自适应谱增强、脉冲扩散以及傅立叶幅度( f o u r i e rm a g n i t u d e ) 模型。图 3 1m e l p 语音合成的框图中对这些特征进行图解。 混合激励的实现是利用了多带模型:通过一组带通滤波器将语音信号分成五 个频带,分别判断每个子带的清浊,在合成端利用这五个子带信号t h a n 得到混合 激励,其主要功能是减少通常的l p c 声码器所带有的蜂鸣声。 当输入信号是浊音时,m e l p 编码器能用周期或者非周期脉冲来合成语音。非 周期脉冲大多用于语音信号的清音段和浊音段的转化区间。这一特征保证了解码 器能重现复杂多变的声1 7 脉冲,而不引入音调噪音。 自适应谱增强滤波器基于线性预测合成滤波器的极点,作用是增强合成语音 共振峰结构,提高合成语音和限带自然语音波形之间的匹配程度,使得合成语音 拥有更自然的质量。 脉冲扩散是利用基于频谱为平的三角脉冲的固定滤波器来实现。滤波器将激 励信号的能量在一个基音周期中进行扩散,从而减少了在合成语音中的刺耳成分。 傅立叶幅度模型是对l p c 分析后的残差信号进行傅立叶变换,提取十个基音 谐波的幅度参数。在这些系数中的信息提高了在听觉感知十分重要的语音产生模 低速率语音编码的研究 型的精确度。这一特性能提高合成语音的质量,尤其对于男女和有背景噪声的情 况。 参釉磊再商期 h 自适廊频谱增强l 图31m e l p 合成语音图 3 2 语音分析和参数提取 成语音 语音分析的原理图如图3 t 2 所示。以下对语音分析中需要提取的参数做一个简 单的介绍。 幽3 2m e l p 语音分析框图 出 出 输一 输一 圆 圆 出岁出每 输一 输一输一 酽酵群 第三章m e l p 语音编解码系统 3 2 1 高通滤波滤去低频成分 编码过程的第一步是去除可能在输入信号中存在的任何低频能量,实现方法 是采用一个四阶的车比雪夫i i 型( c h e b y c h e vi i ) 高通滤波器,截止频率为6 0 h z , 阻带的衰减为3 0 d b ,传递函数为 h f z ) :型生生竺芝 ( 3 _ i ) l + a l z 叫+ 口2 z + a 3 z 叶+ a 4 z 叫 其中系数b 4 1 - 0 9 2 6 9 2 4 1 6 ,37 0 5 6 3 8 3 4 ,5 5 5 7 4 2 8 9 3 ,3 7 0 5 6 3 8 3 4 ,0 9 2 6 9 2 4 1 6 , a 4 = 1 0 0 0 0 0 0 0 0 ,一3 8 4 6 1 0 7 2 3 ,5 5 5 2 0 9 7 6 0 ,一3 5 6 5 1 6 0 6 9 ,o 8 5 9 1 8 8 3 9 。在编码 部分,用缓冲区s p e e c h 来保存从输入语音信号经过高通滤波后得到的最新的4 1 0 个样点,其中2 3 1 到4 1 0 为当前帧样点的位置,其中第2 5 l 点被指定为信号处理 的参考点s 。以下的计算中如果不加说明,所指的输入语音信号都是指的经过高 通滤波后的信号,其参考点均为第2 5 l 点或其经过滤波后对应的样点。 3 2 2 整数基音周期的粗估算 在整数基音周期的粗估算3 】中,输入的语音信号首先用截止频率为l k h z ,6 阶的巴特沃思低通滤波器进行滤波,用来消除高频成分对基音周期计算的干扰。 整数基音周期只等于在归一化自相关函数r ( r ) 达到最大值时的f 值,其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建省莆田市仙游第一中学2025-2026学年高二上学期开学质量检测政治试题(含解析)
- 2025年光伏行业投资策略分析报告:长风破浪会有时策施暖霭起新程
- 幸福航空安全培训课件
- 2025年公募QDII 香港互认基金投资策略分析报告:多管齐下机遇全球 资产
- 巡察宣传课件
- 岩土工程勘察安全培训课件
- 输液速度课件
- 电商平台跨境电商用户权益保护合同
- 互联网医疗平台股权投资与医疗服务协议
- 城市综合体商铺代理销售与商业品牌组合合同
- 2025-2030全球及中国自动制动系统行业市场现状供需分析及投资评估规划分析研究报告
- 面馆员工制度管理制度
- 临床用血知识培训课件
- KPI绩效考核管理办法
- 2024年中小学学校传染病疫情及突发公共卫生事件报告制度
- 本科毕业论文完整范文(满足查重要求)城市社区部分居民失业的现状、问题与对策研究
- 生物安全管理体系文件
- 天然气开采流程
- 《新课程标准解读》课件
- 2025年高校教师资格证考试题库(带答案能力提升)
- 2025年光大金瓯资产管理有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论