




已阅读5页,还剩80页未读, 继续免费阅读
(电路与系统专业论文)嵌入式变速率宽带语音编解码关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 嵌入式变速率语音编码器是近年来语音编码领域的研究热点。2 0 0 7 年,北 京工业大学语音与音频信号处理实验室开发了一套完整的嵌入式变速率语音编 码器,作为候选编码器提交给i t u t ,参与了g v b r 国际语音编码标准的竞争。 本文对嵌入式变速率宽带语音编解码器的关键技术环节进行了研究,在上 述候选编码器的基础上,针对系统的特点,提出了相应的改进算法和方案,提 高了合成语音质量,降低了编解码复杂度,并进一步完善了系统功能。 在谱参数计算量化方面,本文构建了- t o o 基于安全网技术的矢量量化系统, 在保证帧丢失恢复效果的基础上,明显地降低了量化的平均谱失真,提高了谱 参数的量化精度。同时,本文通过增加计算量化中间子帧谱参数,从整体上提 高了谱参数的计算精度,比较明显地提高了合成语音质量。 在代数码书搜索方面,本文设计实现了一种三脉冲的深度优先树搜索算法, 替代原全搜索算法和集中搜索算法,在保证合成语音质量的日仃提下,显著降低 了代数码书搜索复杂度。 在激励信号重建方面,本文提出了一种增强一层激励信号增益的优化方法, 对增强一层激励信号起到了一定的改善作用。 本文对t c x 编码层的层间编码结构进行了调整,改用累积频域系数矢量的 方式实现嵌入式,同时对t c x 编码流程进行了简化,在保证合成语音质量的前 提下,显著的降低了编码器的复杂度。 本文针对编码器的特点,设计实现了相应的v a d 和d t x 算法,使编码器 具备了非连续传输功能,降低了系统的平均编码速率,完善了系统的功能。 相关的测试表明,改进后的编码器,在编码复杂度上,比原编码器降低了 5 0 以上,在合成语音的平均客观m o s ( m e a no p i n i o ns c o r e ) 分上,有了比较 明显的提高,并基本保持了原编码器低延时的优点。 关键词:语音编码;嵌入式语音编码:嵌入式a c e l p ;嵌入式t c x a b s t r a c t a bs t r a c t e m b e d d e dc o d e ch a sb e e nb e c o m i n ga ni m p o r t a n tr e s e a r c hi s s u ei nr e c e n ty e a r s i n2 0 0 7t h ee m b e d d e dc o d e cw h i c hi sd e s i g n e d b ys p e e c ha n da u d i os i g n a l p r o c e s s i n gl a b o r a t o r y ( s a s p l ) o fb e i j i n gu n i v e r s i t yo ft e c h n o l o g yw a ss u b m i t t e d t oi t u ta sac a n d i d a t ec o d e cf o rt h ec o m p e t i t i o no fi n t e r n a t i o n a ls p e e c hc o d i n g s t a n d a r dg v b r s o m er e s e a r c h e so nt h ek e yt e c h n i q u e si ne m b e d d e dv a r i a b l eb i tr a t e sw i d e b a n d s p e e c hc o d e ca r ep r o v i d e di nt h i st h e s i s s e v e r a lm e t h o d sa r ed e v e l o p e da n da p p l i e d t ot h ec a n d i d a t ec o d e cm e n t i o n e da b o v e ,w h i c hi m p r o v et h es y n t h e s i z e ds p e e c h q u a l i t ya n dr e d u c et h ec o d i n gc o m p l e x i t yd r a m a t i c a l l y f o ri s fp a r a m e t e r sq u a n t i z a t i o n ,a ne x t e n d e dv e c t o rq u a n t i z a t i o ns y s t e mi s c o n s t r u c t e db a s e do ns a f e t y n e tt e c h n o l o g y t h ee x t e n d e dq u a n t i z e ra c h i e v e sl o w e r a v e r a g es p e c t r a l d i s t o r t i o n t h em i d d l es u b - f r a m e s s p e c t r a lp a r a m e t e r s a r e c o m p u t e da n dq u a n t i z e da d d i t i o n a l l yt oi m p r o v et h eo v e r a l lq u a n t i z a t i o np r e c i s i o n d e p t hf i r s t t r e es e a r c ha l g o r i t h mf o rt h r e ep u l s e si s d e s i g n e df o rs e a r c h i n g a l g e b r a i cc o d e b o o k ,w h i c hh i g h l yr e d u c e st h es e a r c h i n gc o m p l e x i t y t h eg a i no f e x c i t a t i o ni so p t i m i z e do nt h ee n h a n c e m e n tl a y e ro n e t h et c x c o d i n gs t r u c t u r ei sa d a p t e di nt h i st h e s i s o nt h et c xc o d i n gl a y e r sf f t c o e f f i c i e n tv e c t e r sa r ec o d e da n dt r a n s m i t t e df r o ml o wf r e q u e n c yt oh i g hf r e q u e n c y t or e a l i z ee m b e d d e db i t s t r e a m b e s i d e s ,t c xc o d i n gp r o c e s si ss i m p l i f i e d v o i c ea c t i v i t yd e t e c t i o na n dd i s c o n t i n u o u st r a n s m i s s i o nf u n c t i o n sa r er e a l i z e di n t h ei m p r o v e dc o d e c t e s tr e s u l t ss h o wt h a tt h ei m p r o v e dc o d e ca c h i e v e sb e t t e rs p e e c hq u a l i t ya n d m u c hl o w e rc o m p u t a t i o n a lc o m p l e x i t yt h a nt h eo r i g i n a lc a n d i d a t ec o d e cw h i l e r e t a i n i n gt h el o wd e l a yf e a t u r eo ft h eo r i g i n a lc a n d i d a t ec o d e c k e y w o r d s :s p e e c hc o d i n g ;e m b e d d e ds p e e c hc o d i n g ;e m b e d d e da c e l pc o d i n g ; e m b e d d e dt c x c o d i n g 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:兰至型 导师签名: 第1 章绪论 第1 章绪论 1 1 课题背景 语音作为人类相互交流最有效最重要的手段之一,在通信系统中占有十分重 要的地位。随着计算机与数字信号处理技术的发展,各种通信网络正在朝着数字 化方向不断演进融合,数字化潮流不可逆转。语音通信系统已经从原始的p s t n ( p u b l i cs w i t c h e dt e l e p h o n en e t w o r k ) 网络逐渐过渡到数字化程度更高的第三 代,第四代移动通信网络以及无处不在的i p 网络。语音编码技术【i 】作为数字语音 通信系统必不可少的关键技术之一,在过去的几十年间,获得了巨大的发展。 所谓语音编码就是压缩语音信号的数字表示而使表达这些信号的比特需求 最小的算法。语音编码按照编码速率的高低可以分为三大类:编码速率在1 6 k b s 和6 4 k b s 之间的为高速率语音编码,编码速率在4 k b s 和1 6 k b s 之间的为中速 率语音编码,编码速率在4 k b s 以下的为低速率语音编码。另外,若按照频带 宽度区分,语音编码又可以分为窄带语音编码和宽带语音编码。其中,窄带语 音是指频率范围在3 0 0 3 4 0 0 h z 的语音信号,而宽带语音一般指频率范围在 5 肚7 0 0 0 h z 的语音。 不断创新的通信系统和通信手段对语音编码不断提出新的要求。在数字语 音通信发展之初,由于通信系统容量和传输带宽的限制,只能对窄带语音信号 进行编码和传输,获得尽可能高的压缩率是这一时期语音编码追求的首要目标, 主要的方向是低速率窄带语音编码,并形成了一系列窄带语音编码标准【2 , 3 , 4 】。 2 0 世纪后期,以i p 为核心的网络分组传输和以移动通信为核心的无线化传输 成为通信网络演进的主流方向,系统容量和传输带宽显著提高,数据网络可以 突破原有窄带语音的限制,支持质量更好的宽带语音通信,甚至超宽带和全带 音频信号传输。传输能力的提高促使人们从一味的追求高压缩率向追求更高质 量的合成语音转移,宽带语音编码技术获得了迅速的发展。同时,为了能够在 系统容量和合成语音质量之问取得灵活的折衷,人们提出了变速率语音编码【5 】 的概念。变速率语音编码可以根据需要动态地调整编码速率,降低传输的平均 速率,最大限度地发挥系统的效能。很多宽带语音的编码标准,如i t u t 的 g 7 2 2 6 1 、3 g p p 的a m r w b 7 l 以及3 g p p 2 的v m r w b 引,都同时具有多种不同 的编码速率。 近些年来,网络技术的不断发展,未来语音通信的i p ( i n t e m e tp r o t o c 0 1 ) 传 输业务的迅速发展、i p 电话的广泛应用以及无线和有线通信系统的使用在世界 范围迅速增长,使i p 通信成为了全球通信系统的主导。在现实的网络条件下, 北京t 业人学t 学倾i :学位论义 由于网络拥塞、过延时和缓冲器溢出等问题,决定了网络传输过程中会经常且 必然出现分组丢失、包丢失的问题,这对音、视频传输等实时应用产生很大的 影响。传统的编解码器由于其码流结构的特点,通常会因为某一帧信号的丢失 造成合成语音质量的严重下降,无法很好地解决帧丢失的问题。为了避免由丢 包造成的解码端合成语音的大幅度失真,有学者提出了运用嵌入式编码技术【9 j 来解决网络传输中的丢包问题。嵌入式的语音音频编解码器具有嵌入式的码流 结构,每一层的码流信息对应不同的传输速率和合成语音质量,核心层的码流 可以保证基本的重建语音质量,收到的码流信息越多,重建的语音质量越好。 这样,可以根据信道的状况和具体应用的需要,选择合适的码率进行编解码和 传输,在发生分组丢失的时候,也可以保证基本的通信语音质量。 嵌入式变速率语音编码技术的研究是语音编码研究领域的最新热点。2 0 0 6 年,i t u t 通过发布了第个嵌入式语音编码标准g 7 2 9 1 【1 0 】,并制定了g v b r 嵌入式变速率宽带语音编码( e v v b r ) 提案j ,该提案是一种具有5 层嵌入式编 码结构的语音编解码器。本人所在的北京工业大学语音与音频信号处理实验室 根据t o r ( t e r m so f r e f e r e n c e ) 要求,开发了一套与g v b r 标准完全兼容的嵌 入式语音编解码器,并作为g v b r 标准候选编码器f 1 2 , 1 3 j ,于2 0 0 6 年1 2 月与华 为技术有限公司联合提交i t u 进行统- n 试。通过国际七家实验室的测试,该 编码器通过了i t u t 的多数测试项目。在测试中,由v o i c e a g e ,n o k i a 等 多家公司联合提交的编码器成为基线编码器t m j ,并经过与其他各竞标编码器的 技术融合,于2 0 0 8 年由i t u t 标准化,成为最新一代的嵌入式语音编码标准 g 7 1 8 t 1 5 】o 本课题围绕着高质量的8 - 3 2 k b s 嵌入式变速率语音编解码算法研究和 g v b r 候选编码器改进工作展丌。 1 2 研究目标 以本人所在实验室所开发的g v b r 候选编码器为基础,严格按照g v b r 标准t o r t 1 要求,在保持与g v b r 标准一致兼容性基础上,关注整个系统各 部分的联系,深入研究嵌入式变速率宽带语音编解码器各关键技术,针对原候 选编码器的不足进行改进优化和完善,进一步提高编码器各层合成语音质量, 降低算法复杂度,完善整个系统的功能。改进后的编解码器性能上明显改善, 算法复杂度降低1 2 以上,合成语音客观m o s 分明显提高,具备语音激活检测 和非连续传输功能,各方面测试指标接近甚至优于g 7 1 8 标准,为未来的移动 通信和i p 语音传输提供高性能的信源编码质量,为高层的系统扩展提供优良的 底层编码质量。 第l 章绪论 1 3 主要研究内容 根据本课题的研究目标,主要研究内容如下: 本课题围绕着高质量的8 3 2 k b s 嵌入式变速率语音编解码算法研究和 g v b r 候选编码器改进工作展开。在原g v b r 候选编码器的基础上,独立完成 系统性能的改进优化。本文的研究内容包括以下几个方面: ( 1 ) 嵌入式a c e l p 编码研究。 a c e l p 编码模型是目前最为流行有效的语音编码模型。在候选编码器中, a c e l p 编码层的复杂度占据了整个系统复杂度的7 5 以上,并在很大程度上决 定着整个系统的合成语音质量。嵌入式a c e l p 编码的研究改进,对整个编解 码系统至关重要。主要包括:谱参数量化算法研究,代数码书快速搜索算法研 究,增强一层激励信号联合优化研究。 ( 2 ) 嵌入式变换域编码研究,实现t c x 编码系统的优化改进。 ( 3 ) v a d 和d t x 算法研究,结合系统特点,为编码器增加v a d 和d t x 功能,增强系统实用性和完整性。 1 4 本文的组织安排 第一章是全文的绪论,主要介绍了本文的课题背景、研究目的、研究内容 以及论文结构。 第二章将介绍语音编码领域的相关知识,重点介绍由本人所在的北京工业 大学语音与音频信号处理实验室为华为技术有限公司开发的8 3 2 k b s 嵌入式变 速率语音编码器。 第三章将详细描述嵌入式a c e l p 编码算法的研究改进。主要包括安全网 技术和第二子帧谱参数量化技术的应用研究,深度优先树搜索算法实现,以及 对增强一层激励信号联合优化的研究。 第四章将详细描述嵌入式变换域编码的研究改进。主要包括编码器层间编 码结构的调整和t c x 编码系统改进。 第五章将详细描述v a d 和d t x 功能在编码器中的实现。 第六章将给出改进后编解码器的整体框图,平均客观m o s 分测试和主观 a b 测试结果,以及性能分析和对比。 第2 章嵌入,变速率语音编鲥码器 第2 章嵌入式变速率语音编解码器 本章将介绍语音编码技术的相关基础知识,重点介绍由本人所在的北京工业 大学语音与音频信号处理实验室为华为技术有限公司开发的8 - 3 2 k b s 嵌入式变 速率语音编码器。该编码器于0 7 年提交i t u t ,作为最新的语音编码标准g v b r 的候选编码器参与了国际测试。 2 1 语音编码技术 语音编码就是压缩语音信号的数字表示而使表达这些信号所需的比特数最 小的算法。数字语音信号的编解码过程可以表述为:在编码端,减少语音信号中 存在的冗余,打破语音信号原有的内部结构,以提取承载信息的参量加以传输; 在解码端,用所接收到的参量重新合成语音信号。语音信号能够被压缩的基本依 据是语音信号中存在的冗余和人类的听觉感知机理。 2 1 1 语音信号产生的数字模型 人的发声是通过肺部收缩送出一股气流,经过人的生理上的三个主要的发声 器官:声道、咽喉和口腔所产生。 根据人类语音的产生过程,人类的发声器官和发声过程可以模拟抽象为图 2 1 所示的模型。 语 音 信 号 s ( n ) 图2 一l 语音信号产生的数字模璀周 c j 脉冲发生器 语音生成系统分成三个部分,在声门以下称为“声门子系统”,它负责产生激 励振动,是“激励系统”。从声门到嘴唇的呼气通道是声道,是“声道系统”,语音 从嘴唇辐射出去,是“辐射系统”。激励系统分成浊音激励和清音激励两个分支, 按照浊音清音开关所处的位置来决定产生的语音是浊音还是清音。浊音清音开 关模拟了加在声道上的激励的改变情况。当丌关接在浊音位置时,激励信号由周 北京t , j k 大学下学颀l j 学位论文 期脉冲发生器产生周期冲激序列。当开关接在清音位置时,激励信号由随机噪声 发生器产生方差为1 的高斯自噪声序列。不断控制清浊音开关、激励脉冲的周期 以及噪声源强度,同时随着不同的发音改变滤波器特性,输出的信号就是所要求 的语音信号序列。 声门脉冲模型滤波器g ( z ) 的作用是:使浊音的激励信号具有声门气流脉冲 的实际波形。声门波形的频率分析表明,其幅度频率谱按每倍频1 2 d b 的速率 递减。滤波器g ( z ) 表示如下: ) 2f 万寺而 沼1 ) 当g 。,g :都接近1 时,g ( z ) 所产生的浊音信号频谱与声门气流脉冲的频谱接近。 增益因子4 、4 ,分别用于调节浊音和清音的幅度和能量。 声道模型v ( z ) 给出了声道的传输函数,它是一个全极点滤波器: 矿( z ) :士 ( 2 2 ) z a l z | 其中,a 。= l ,以,为实数,p 为全极点滤波器的阶数。p 值越大,与声道实际 的传输函数的吻合程度越高。当p 为偶数时,g ( z ) 一般有p 2 个共轭极点: 吒e x p ( + j c o 。) ,k = l ,p 2 。各个纨分别与语音的各个共振峰相对应。 辐射模型a ( z ) 是一阶高通滤波器,与人嘴有关,一般可表示为: r ( z ) = ( 1 一肠。1 ) , ,1 ( 2 3 ) 在语音生成模型中,g ( z ) ,r ( z ) 保持不变, 厂p 、彳h4 ,清浊判决,声道 参数a ,i = 1 ,2 ,p 是时变的。发声器官的惯性使这些参数的变化速度受到 限制,对于声道参数,在一个较短时问内( 1 0 3 0 m s ) 可近似认为是不变的,因 此,可认为语音信号是一个局部平稳的随机信号,即具有短时平稳性。 2 1 2 语音编码分类 目前语音编码主要分为三类:波形编码、参数编码和混合编码。 波形编码是根据语音信号的波形导出相应的数字编码形式,其目的是尽量 保持波形不变,使重构的语音信号的各个样本尽可能地接近原始语音信号的样 本值,并用减少量化误差的方法使重构语音朝着原始语音信号收敛。波形编码 6 第2 章嵌入式变速率语音编解码器 方法简单,具有抗噪性能强、语音质量好等优点,但它需要有较高的编码速率, 一般为1 6 k b s 6 4 k b s 。在6 4 k b s 至3 2 k b s 之间音质优良,当编码速率低于 3 2 k b s 的时候音质明显降低。它的主要问题是受量化噪声的限制,降低比特率 很困难。这种编码可在对信号带宽要求不太严格的通信中得到应用,而对频率 资源相对紧张的移动通信来说,这种编码方式显然不合适。 波形编码的时域方法有p c m ( p u l s ec o d i n gm o d u l a t i o n ,脉冲编码调制) 【z j , a d p c m ( a d a p t i v ed i f f e r e n c ep c m ,自适应差分编码) 1 3 1 幂1 a p c ( a d a p t i v e p r e d i c t i v ec o d i n g ,自适应预测编码) 1 1 7 1 :频域方法有s b c ( s u b b a n dc o d i n g , 子带编码) t 8 】和a t c ( a d a p t i v et r a n s f o r mc o d i n g ,自适应变换域编码) 1 9 j 。 在参数编码器中,语音信号用一组模型的特征参数来表示。通过对语音信号 进行分析,可以提取这些参数并对其进行编码。与波形编码不同,参数编码虽依 赖于原始语音信号,但和原始语音的波形并无直接关系。参数编码器建立在人的 发声器官的生理结构基础上,主要是从听觉感知的角度重现语音,即让解码语音 听起来与输入语音是相同的,而不是保证其波形相同。一般来说,参数编码对编 码速率的要求要比波形编码低得多。在4 k b s 及以下速率的参数语音编码中,比 较有代表性的算法有: 多带激励( m u l t i b a n de x c i t a t i o n ,m b e ) 编码 正弦变换编码( s i n u s o i d a lt r a n s f o r r nc o d i n g ,s t c ) 混合激励线性预测( m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ,m e l p ) 编码 波形内插( w a v e f o r mi n t e r p o l a t i o n ,w i ) 编码 这些算法各自采用不同的语音生成模型,并且都取得了一定的成功。其中, m b e1 2 0 1 和s t c z t 】为基于正弦合成分析模型( s i n u s o i d a la n a l y s i s s y n t h e s i s m o d e l s ,s a s m ) 的语音编码算法,m e l p 为基于二元激励的线性预测编码算 法【2 2 】,w i 为基于s a s m 和线性预测模型的混合型编码算法【2 3 ,2 4 1 。 8 0 年代以来,语音编码技术有了实质性的进展,出现了合成分析 ( a n a l y s i s b y s y n t h e s i s ,a b s ) 线性预测编码方法,进而产生了新一代的编码算 法,这就是混合编码( 基于合成分析的线性预测编码) 。它将波形编码和参数编 码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,力图保 持波形编码的高质量和参数编码的低速率,在4 1 6 k b s 速率上能够得到高质量 的合成语音,是一种适合于数字移动通信的语音编码技术。多脉冲激励线性预测 编码( m p l p c ) , 规划脉冲激励线性预测编码( r p e l p c ) ,码本激励线性预测 编码( c e l p ) 等都是属于混合编码技术。 2 1 3 语音编码性能的评价方法 语音编码器性能主要由四个方面的因素来衡量,包括:编码速率、编码质量、 北京t 业人学t 学硕l j 学位论文 算法复杂度和编码延时。这四个因素之问是密切相关的,在实际工作中,应当对 不同因素的影响综合考虑,根据需要对侧重点的选择也会有所不同。 ( 1 ) 编码质量 语音编码质量是衡量语音编码算法优劣的关键性能之一。它的评价方法归纳 起来分成两类,即客观评价方法和主观评价方法。 客观评价方法用客观测量的手段来评价语音编码质量,常用的方法有信噪 比、分段信噪比、频域加权信噪比、最大最小信噪比以及非均方误差信噪比等。 它们都以信噪比概念为基础。信噪比( s n r ,s i g n a ln o i s er a t i o ) 定义为信号与 噪声的功率比,公式为 盯2 s n r ( d b ) = 1 0 l o g 二】 ( 2 4 ) o 9 其中仃;和仃:分别代表信号功率和噪声功率。 客观评价方法计算简单,但不能完全反映人耳对语音质量的感觉,这个问题 在速率为1 6 k b s 以下的中低速率语音编码中显得尤为突出,所以实际中广泛采用 的是主观评价方法。 主观评价方法国际上常用的有平均意见得分( m e a no p i n i o ns c o r e ,简称m o s 得分) 、判断韵字测试( d i a g n o s t i cr h y m et e s t ,简称d r t 得分) 、判断满意度 测量( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ,简称d a m 得分) 、二元判决( a bt e s t ) 以及主观信噪比等。 ( 2 ) 编码速率 编码速率反映的是编码器对传输数据的压缩程度。它可以用b i t s 来度量,代 表编码的总速率,一般用i 表示:也可以用“比特样点”来度量,代表平均每个语 音样点用多少比特进行编码,一般用r 表示。i 和r 可以通过采样频率f 联系起来: 1 = r , ( 2 5 ) 其中采样频率f 是根据n y q u i s t 采样定理由信号带宽决定的。从上式不难看 出,平均每样点比特数r 越高,量化程度就越精细,话音质量就越容易提高。在 波形编码中,为了获得高质量的重建语音,一般取r 2 ;而在参数编码中r 可以 低到0 2 5 甚至0 1 以下。当然,此时重建语音的清晰度和自然度都会有所损失。 ( 3 ) 算法复杂度 编解码算法的复杂程度与硬件实现的复杂程度、体积、功耗以及成本等直接 相关。目前各种语音编解码算法的实时实现大多使用通用的数字信号处理芯片来 完成。这样做的好处在于研制周期短,初期投资小。算法越复杂需要的d s p 芯片 就越高档,存储器容量也越大,复杂的算法往往可以获得更好的话音质量。在实 第2 章嵌入,叟速率语音编解码器 际应用时,对算法的选择应综合考虑这两个方面。 ( 4 ) 编解码延时 编解码延时包括算法延时( 语音分析所需的存储缓冲) 以及计算延时( 处 理帧内数据所需的时间) 。在实时语音通信系统中,语音编解码延时同线路传 输延时一样,对通话质量有很大的影响。延时过长会使通话双方都反应“迟钝”, 严重时无法正常通话。延时影响通话质量的另一个可能的原因是回声干扰。传 输线路如果阻抗匹配不理想会使信号反馈形成回声。当延时比较小时,回声同 话机侧音及房间交混回响相混,因而感觉不到。若往返总延时超过10 0 毫秒, 发送端就能听到自己的回声。如果回声传输路径衰耗不够大,就会听到多次回 声,从而严重影响通话质量。对于公用电话网来说,单次语音编解码延时通常 要求不超过5 1 0 毫秒。但在卫星通信等通信系统中,由于传输延时或由于纠错 编码引入的延时等已经比较大,再苛求语音编码的延时意义就不大了,这时语 音编码的延时可以放宽到几十毫秒到l o o 毫秒。当总延时超过1 0 0 毫秒时,一 般都需要采取回声抵消和回声抑制等措施。 2 2 嵌入式变速率语音编码概述 随着网络技术的迅猛发展,以分组交换为基础的i p 电话技术得到了越来越广 泛的应用。而在语音分组传输技术中,如何减小分组丢失对接收端合成语音质量 的影响已经成为了一个亟待解决的问题。在此背景下,嵌入式编码方法便应运而 生。嵌入式编码最大的特点是能够产生具有嵌入式结构的码流。在嵌入式的码流 中,低码率的码流包含( 嵌入) 在高码率的码流中。也就是说,一个完整的嵌入式 码流可以逐层分解成几个不同级别的码流,这些码流的码率逐次递减,但依然能表 示原始语音信号的主要参数,只是在不同程度上损失了一些细节。当网路容量足 够时,传输高速率码流,在接收端可以恢复较高的或事先设定的任意速率的语音 或音频质量;当遇到网路不同程度的拥塞时,根据信道编码协议,码流中的非核 心编码将被逐层丢弃,在接收端重建低速率的合成语音,保证可接受的语音质量。 这种嵌入式的码流结构不仅可以有效地解决由分组丢失所引起的合成语音质量 下降的问题,而且可以提供多种编码速率,以适应不同种类的通信终端。 2 0 0 6 年,i t u t 制定了新一代语音编码标准g 7 2 9 1 【l 。它采用了嵌入式的 c e l p 9 j 编码技术、时域频带扩展技术( a d 1 3 w e ) 1 2 5 , 2 6 j 以及被称作时域混叠抵消 ( t d a c ) 的预测变换编码技术【f 27 | ,实现了码流的嵌入式结构。其核心层采用与 g 7 2 9 相同的编码方法,实现了与g 7 2 9 编码器的兼容。 自2 0 0 5 年起,i t u t 开始制定另一项嵌入式变速率语音编码标准g v b r 。 华为技术有限公司委托本人所在的北京工业大学语音与音频信号处理实验室开 9 北京工业人学丁学颂f j 学位论文 发了一套完整的符合i t u t 要求的8 - 3 2 k b s 嵌入式变速率语音编码器。2 0 0 7 年1 月,华为【2 8 】,松下【2 9 1 ,诺基亚与v o i c e a g e 3 0 1 ,爱立信、摩托罗拉与t i 【3 l 】, 分别提交了候选编码器,参加i t u t 的测试。经过测试,由v o i c e a g e ,n o k i a 等多家公司联合提交的编码器成为基线编码器,并经过与其他各竞标编码器的 技术融合,于2 0 0 8 年由i t u t 标准化,成为最新一代的嵌入式语音编码标准 g 7 18 。 2 3 一种8 - 3 2 k b s 嵌入式变速率语音编码器 8 - 3 2 k b s 嵌入式变速率语音编码器作为华为公司向i t u t 提交的g v b r 候 选编码器,在默认的情况下,编码端的输入信号和解码端的输出信号均是1 6 k h z 采样的信号。编码端生成的码流包含了全部5 层的信息,具有可分级性和嵌入 性。这五层分别为核心层、增强一层、增强二层、增强三层和增强四层。第一 层即核心层采用代数码激励线性预 1 9 1 t ( a c e l p ) 技术,其对应的编码速率为8 k b s 。 第二层即增强一层是在第一层的基础上增加了4 k b s ,用于描述增强一层的代数 码激励及其增益。第三层即增强二层是在前两层的基础上又增加了4 k b s ,用于 描述增强二层的代数码激励及其增益。第四层即增强三层采用变换码激励( t c x l 技术,在前三层的基础上增加了8 k b s 。同样,第五层即增强四层也采用变换码 激励( t c x ) 技术,在前四层的基础上又增加了8 k b s 。 此编码器的默认输入为1 6 k h z 采样,1 6 比特量化的线性p c m 编码数字信 号。同时也可以支持8 k h z 采样率的输入信号。同样地,解码端的输出信号可 以是8 k h z 采样或者1 6 k h z 采样的1 6 比特线性p c m 编码信号。其他采样率的 信号需要先转换成为8 k h z 采样或者1 6 k h z 采样的1 6 比特线性p c m 信号后才 可以用本编码器进行编码。 此编码器包含了两种结构:嵌入式代数码激励线性预测编码与变换码激励 编码。其中第一、二、三层构成了嵌入式代数码激励线性预测( a c e l p ) 编码结 构,第四、五层构成了嵌入式变换码激励( t c x ) 编码结构。 2 3 1 编码端结构 g v b r 候选编码器编码端的结构框图如图2 2 所示。 整个编码器分为五层,具体包括:第一层即核心层、第二层即增强一层、 第三层即增强二层、第四层即增强三层和第五层即增强四层。整个编码器包含 的编码速率( 即码率) 依次分别为8 k b s 、1 2 k b s 、1 6 k b s 、2 4 k b s 、3 2 k b s 。编 码操作以2 0 m s 语音为一帧,5 m s 为一子帧。编码端的输入可以为1 6 k h z 采样、 第2 章嵌入,变速率语音编钎码器 图2 2g v b r 候选编码器编码端的结构框图 1 6 比特线性p c m ( 脉冲编码调制) 语音信号,也可以为8 k h z 采样、1 6 比特线 形p c m ( 脉冲编码调制) 语音信号。 在进行编码处理之前,首先要进行采样率的判定。如果输入语音信号的采 样率为1 6 k h z ,则经过下采样的步骤将信号的采样率调整至1 2 8 k h z ;如果输入 语音信号的采样率为8 k h z ,则经过上采样的步骤将信号的采样率调整至 1 2 8 k h z 。接着以2 0 m s 语音( 即2 5 6 个样点) 为一帧,对输入的每一帧语音信 号进行预处理,即经过5 0 h z 高通滤波去除不必要的低频成分。 对整个编码器来说,首先要进入的是嵌入式代数码激励线性预n ( a c e l p ) 编码结构: 核心层编码:每帧( 2 0 m s ) 进行一次线性预测分析与量化、开环基音分 析及感知加权合成滤波器单位脉冲响应的计算。每子帧( 5 m s ) 进行一次 自适应码书搜索、增益控制、核心层代数码书搜索及自适应码书增益 与核心层代数码书增益联合矢量量化。最后得到核心层的编码比特流。 增强层编码:每子帧( 5 m s ) 进行次增强一层代数码书搜索及其增益 比的量化,得到增强一层的编码比特流。 增强二层编码:每子帧( 5 m s ) 进行一次增强二层代数码书搜索及其增益 比的量化,得到增强二层的编码比特流。 在前三层子帧循环的过程中,还需要同步更新各层感知加权合成滤波 北京1 二业人学t 学硕卜学位论文 器的状态,以用于下一子帧目标矢量的计算。 由于嵌入式变换码激励( t c x ) 编码中采用的混叠相加技术需要用到将 来帧前5 m s 的信息,所以子帧循环需要进行五次,但是只有前四次的 编码信息作为本帧的内容被写入码流。 完成嵌入式代数码激励线性预坝j j ( a c e l p ) 编码后,编码器进入嵌入式变换 码激励( t c x ) 编码结构: 增强三层编码:根据前三层五个子帧的编码信息,本地解码出码率为 1 6 k b s 的五子帧合成语音。对预处理后的语音与该合成语音之间的差 信号进行t c x 编码,得到增强三层的码流。 增强四层编码:本地解码出码率为2 4 k b s 的五子帧合成语音,对预处 理后的语音与该合成语音之问的差信号进行t c x 编码,得到增强四层 的码流。 2 3 2 解码端结构 g v b r 候选编码器解码端的结构框图如图2 3 所示。 输 6 k h z 语音输8 k h z 语音 图2 - 3g v b r 候选编码器解码端的结构框图 在解码前首先要进行接收码流比特数检测: 第2 章嵌入,变速:# 语舀编解码器 当解码端每帧接收到的比特数大于1 6 0 b i t s 时,由i s p 参数量化的索引 值解码出i s p 参数并转换成线性预测系数。由基音延迟索引值,通过 自适应码书译码得到自适应码激励。解码核,t l , 层代数码书索引值,得 到核心层代数码激励。根据自适应码书增益及核心层代数码书增益量 化的索引值,分别解码出自适应码书增益和核心层代数码书增益。 判断接收到的比特数是否大于或等于2 4 0 b i t s 。如果是,则根据增强一 层代数码书及增益比的索引值解码出增强一层代数码激励及其增益, 并与8 k b s 的合成激励信号相加得到1 2 k b s 的合成激励信号。否则确 定比特数小于2 4 0 b i t s ,直接对8 k b s 的合成激励信号进行后处理,通 过合成滤波器得到采样率为1 2 8 k h z 的8 k b s 合成语音。 判断接收到的比特数是否大于或等于3 2 0 b i t s 。如果是,则根据增强二 层代数码书及增益比的索引值解码出增强二层代数码激励及其增益, 并与1 2 k b s 的合成激励信号相加得到1 6 k b s 的合成激励信号。否则, 确定比特数小于3 2 0 b i t s ,直接对1 2 k b s 的合成激励信号进行后处理, 通过合成滤波器得到采样率为1 2 8 k h z 的1 2 k b s 合成语音。 判断接收到的比特数是否大于或等于4 8 0 b i t s 。如果是,则根据增强三 层格型矢量量化的索引值、全局增益参数的索引值及前面解码出的线 性预测系数,得到采样率为1 2 8 k h z 的增强三层解码信号。否则,确 定比特数小于4 8 0 b i t s ,直接对1 6 k b s 的合成激励信号进行后处理,通 过合成滤波器得到采样率为1 2 8 k h z 的1 6 k b s 合成语音。 判断接收到的比特数是否大于或等于6 4 0 b i t s 。如果是,则根据增强四 层格型矢量量化的索引值、全局增益参数的索引值及前面解码出的线 性预测系数,得到采样率为1 2 8 k h z 的增强四层解码信号。采样率为 1 2 8 k h z 的1 6 k b s 合成语音与增强三层、增强四层解码信号之和,即 为1 2 8 k h z 采样的3 2 k b s 合成语音。否则,确定比特数小于6 4 0 b i t s , 采样率为1 2 8 k h z 的1 6 k b s 合成语音与增强三层解码信号之和,即为 1 2 8 k h z 采样的2 4 k b s 合成语音。 将1 2 8 k h z 采样的合成语音调整至所需的采样率输出。 如果输出的采样率为8 k h z ,则直接将采样率转换后的合成语音输出。 如果输出的采样率为1 6 k h z ,则要对此合成语音进行高频补偿:首先 产生一个高斯白噪声,并对其进行修萨,得到高频带激励信号;高频 带激励信号通过修讵的合成滤波器( 对解码出的线性预测系数修正得 到) 得到合成信号;把此合成信号通过一个带通滤波器得到高频带合 成信号。将高频带的合成信号与频带范围为5 0 6 4 0 0 h z 、采样率为 16 k h z 的合成语音相加得到最后输出的l6 k h z 采样的合成语音 北京t 业人学t 学顺l 学位论文 2 3 3 编解码模式 g v b r 候选编码器可以处理8 k h z 或1 6 k h z 采样的语音信号。表2 1 中列 出了g v b r 候选编码器中可供选择的编解码模式。其中,默认模式为输入和输 出信号采样率均为1 6 k h z 的情况。另外,编码端还有窄带输入模式,即输入信 号采样率为8 k h z 的情况。解码端有窄带输出模式,即输出信号采样率为8 k h z 的情次。 表2 一l g v b r 候选编码器的编解码模式 模式编码端输入解码端输出 默认模式1 6 0 0 0h z 输入1 6 0 0 0h z 输出 窄带输入8 0 0 0h z 输入8 0 0 0h z 1 6 0 0 0h z 输出 窄带输出 8 0 0 0h z 1 6 0 0 0h z 输入 8 0 0 0h z 输出 2 3 4 码流的嵌入式结构及比特分配 g v b r 候选编码器的码流嵌入式结构如图2 4 所示。 核心层增强一层增强二层增强三层增强四层 码流码流码流妈流码流 1 6 0 b i t s8 0 b i t s8 0 b i t s1 6 0 b i t s1 6 0 b i t s 图2 4g v b r 候选编码器的码流嵌入式结构示意图 当编码速率为8 k b s 时,每帧的码流包括帧同步头、码流长度标识以及核 心层编码的1 6 0 b i t s 码流;当编码速率为1 2 k b s 时,每帧的码流除了包括编码速 率为8 k b s 时的全部码流之外,还包括增强一层编码的8 0 b i t s 码流;当编码速率 为1 6 k b s 时,每帧的码流除了包括编码速率为1 2 k b s 时的全部码流之外,还包 括增强二层编码的8 0 b i t s 码流;当编码速率为2 4 k b s 时,每帧的码流除了包括 1 4 一 流度 蹴锻 - 1i 一 同头 帧步 - - 编码速率为1 6 k b s 时的全部码流之外,还包括增强三层编码的1 6 0 b i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医药企业研发外包(CRO)模式技术创新与突破报告
- 2025年游戏化营销在品牌推广中的沉浸式体验策略与效果评估报告
- 聚焦2025年:房地产市场区域分化与投资策略创新报告
- 北京高考口算题库及答案
- 保险原理课程题库及答案
- 宝洁在线测评题库及答案
- 公交导向型城市交通拥堵治理策略2025年应用研究报告
- 安全助产试题必考及答案
- 安全证a试题及答案
- 安全考试试题及答案
- 《士兵突击》课件
- 《长方形和正方形》 完整版课件
- 苏教版六年级科学下册期末考试卷及答案
- 孕产期保健管理及工作规范(喀什)
- 再遇青春同学聚会画册PPT模板
- 二、施组报审表
- 无砟轨道底座板首件施工总结(最新)
- 油藏数值模拟中几种主要的数学模型
- 湖南省高等教育自学考试毕业生登记表(共5页)
- 200立方米谷氨酸发酵罐设计
- 多媒体给农村初中语文教学注入了活力
评论
0/150
提交评论