(电路与系统专业论文)嵌入式变速率语音编码器的后处理和帧擦除掩蔽技术研究.pdf_第1页
(电路与系统专业论文)嵌入式变速率语音编码器的后处理和帧擦除掩蔽技术研究.pdf_第2页
(电路与系统专业论文)嵌入式变速率语音编码器的后处理和帧擦除掩蔽技术研究.pdf_第3页
(电路与系统专业论文)嵌入式变速率语音编码器的后处理和帧擦除掩蔽技术研究.pdf_第4页
(电路与系统专业论文)嵌入式变速率语音编码器的后处理和帧擦除掩蔽技术研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(电路与系统专业论文)嵌入式变速率语音编码器的后处理和帧擦除掩蔽技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 嵌入式语音编码是一种新兴的语音编码技术,也是未来语音编码应用的主要 发展方向。本文基于码激励线性预测( c e l p ) 语音编码模型,设计了一种8 3 2 k b s 的宽带( 5 0 - 7 0 0 0h z ) 嵌入式变速率语音编码器的后处理算法和帧擦除隐藏算法。 针对本宽带语音编码器,本文首先利用传统c e l p 自适应后滤波的思想,结 合现有的宽带语音编码器的后处理技术,设计了一个包括:激励后处理和合成语 音后滤波的后处理方案。其过程是,在解码端对不同层的激励,有选择的进行抗 稀疏处理、固定码书增益平滑和高频增强,然后对码书的激励和进行自适应长时 后滤波,最后对合成语音进行短时后滤波及其它处理。这种残差域的长时自适应 后滤波比传统语音域的后滤波效果更好,它明显减少了谐波间噪声。短时后滤波 的设计兼顾窄带和宽带输入信号,减少了共振峰间的噪声。实验证明,以上各方 法在不同程度上提高了合成语音的质量。 其次,本论文提出了一种宽带嵌入式语音编码器的帧擦除掩蔽方法。该方法 在解码端将丢失帧分为静音、浊音、清音、清音向浊音的过渡、浊音向清音的过 渡的语音类型,并根据语音类型对激励信号的能量采取对应的控制和调整。同时, 为了和本宽带嵌入式编码器的结构相匹配,丢失帧的自适应码书要根据前一帧的 码流来恢复。为了增强编解码器的鲁棒性,本文还在编码端采取了控制自适应码 书贡献的技术。本文建议的帧擦除掩蔽技术不需要额外的比特和延迟,方法简单, 恢复效果好。 以上技术已成功应用于提交给r r u t 的嵌入式变速率候选编码器中。 关键词:语音编码,嵌入式编码,后处理,帧擦除掩蔽 a b s n a c t e n l b e d d c ds p c e c hc o d i n gi san e w l yd e v d o p i n gt e c h l l i q u c ,训1 i c ha l s oi sa s i g n i f i c a n to r i 豇曲t i o n o fm es p e e c :hc o d i n g s 印p l i c a t i o n t h ep o s tp r o c e s s i n g a l g o r i t l l ma n d 劬m ee r a s u r ec o n c e a h n e n ta 1 9 0 f i 也m 矗丌aw i d e b a i l d ( 5 0 一7 0 0 0h z ) c 玎1 b e d d c dv 撕a b l eb i t - r a t es p e e c hc o d e ca r ed e s 喇b e di nt h i sm e s i s f i r s l 堍ap o s tp r o s c e s s i n ga l g o r i n l mi i l c l u d i n ge 】【c i 伽o n 锄ds ”m e s i z e ds p e e c h i sd e s i 弘e df o r 锄b e d d e dv 撕a b l eb i t - m t es p e e c hc o d e cb a s e do nc o n v e n t i o n a l a d a p t i v ep o s t6 l t 翻n g 锄d 谢d 曲锄ds p e e c hp o s tp r o i 瑚s i n g 枷q u 嚣h lt l l i s m e t l l o d ,m es c l c c t e d 枷一s p a r s e i l e s sp r o c e s s i n g ,f i x e dc o d e b o o kg a i n 锄o o t l l i n g 锄d 1 l i g b e r 丘e q u d e s h a i l c e i n e n to f 也ee ) 【c i t a 6 0 nf o rd i 珏舶m t1 a y c r sa r cf i i l i s h e di i l m ef i r s ts t 印t h c l la d p a t i v el o n g t e n np o s t 右l t e ri su s e dt 0 仃e a t 谢t l lt 1 1 es u mo f e ) 【c i 倒o i lt h es h o r t 砘舶p o s t 丘h c ra 芏l do l l l e rp m c e s s 嚣a r co p 啪t e do ns y n 山e s i z c d s p e e c hi l lm el a s ts t 印t h en o i b e c w e p i t c hh 锄o n i c si sr e d u c o d 谢t l lt h i s a d a p a d v el o n 分锄mp o s t 丘1 t c r0 p e 眦e di n 髂i d u a ld o m a i l lc o m p a r 。d 谢m “谢谢o n a l m e t l l o d o p c m t e di ns p c e c hd o m 血1 h es h o 州嘲lp o s t f i l t e ri sd e s i 印e df o f n 锄b a i l da i l d 谢d c b 锄di 1 1 p u ts p c e c hc o n c l l r r e l l y nr c d u c c dt 1 1 en o s i eb 咖c e l l f o n n a n t s t h ee x p e r i m e n t ss h o w 也a tt 1 1 器em 枷si m p r o v e d 也eq u “i t yo f s ) ,i l m e s i z e ds p c ht os o m ee x t e m h la d d i d o i la ne 衔c i 锄t 舶m ee r 鹤u r cc o n c e a l m e n t ( f e c ) m e m o df o r 谢d e b a n d 锄1 b e d d e ds p e e c hc o d e cw a sp r o p o s c di nn l i s 也e s i s 1 k 哪c ds p e e c h 舶m ei s d 嬲s i f i o da sv o i c e d ,u n v o i c e d ,s i l a l c e ,u m ,o i c e d 仃a i l s i tt ov o i c c da n dv o i c e dt r a i n s i tt 0 u n v o i c e da td e c o d 盯it h ee n e r g yo fe x c i t a t i o n si sc a r e f h l l yc o n 仃o l l e db 觞c d0 nm e d 鹊s i f i c a t i o no f 坨s p c h t 0m a t c h 谢t l lt l l ec o n 6 9 u r a t i o no f m ee m b e d d e ds p c h c o d e c ,也ea d a 砸v ec o d e b o o kf o re r a s e d 劬m e 、】i ,i 1 1b er e c o v 盯e dw i mt l l el a s t 触m e s b i “s b 锄h lo i d e rt oi i l 渊i i l gt l l er o b 璐缸1 韶so ft h e0 0 d e c ,出ec o n t r i b u t i o no f a d a p t i v ec o d 西0 0 ki sp r o p e d yc o n s 仃a i n c da t c o d 既t h ep m p o s c df e cm e m o di s v e r ys i l n p l e 姐dh ag o o dp 酬e b 肌髓c c 谢t h o mc x t r ad e l a y db i t si i lc o d e c 1 1 1 e s em e l h o d sh a v eb e 印p l i e dt oa i l 锄b e d d e dv 耐a b l eb i 乜f a t ec o d e c s u b i l l i t c c dt or r u t 嬲ac a l l d i d a t e k e y w o r d s :s p e e c hc o d i n 岛e n l b e d d e dc o d i n 岛p o s t p r o c e s s i i l g ,f 砌ee m s l l r e c o n c e a l m e n t 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所作的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 垒选:日期:21 1 z :茎 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:生选 导师签名: 1 1 课题背景 第1 章绪论 随着口传输业务的迅速发展以及口电话的广泛应用,口通信成为了全球 通信系统的主导。在很多情况下,口电话的传输能力要远远大于传统的公共交 换电话i 碉络( p s t n p u b l i cs w i t c h c dt e l e p h o n en e 柳o r k ) ,尤其是以分组交换为基 础的v o 口( v o i c e0 v e r1 1 1 t e m e tp r o t o c 0 1 ) 已经成为传统的p s t n 通信方式的重要 竞争对手。然而,现在的网络( 口v 4 ) 只提供一种尽力而为e 嗽像) n ) 的服务, 所有的应用都公平的竞争网络资源。当网络中路由器发生拥塞,或者数据包在 网络中传输时间过长,都会导致数据包的丢失。对于语音的网络传输而言,这 种情况将严重影响接收端合成语音的质量。 所以口语音通信技术中一个亟待解决的问题是如何减小分组丢失对接收端 合成语音质量的影响。从语音压缩编码的角度解决这一问题的方法是设计一种 新的语音编码方案,能根据现有的网络的特点,有效的利用带宽来实现变比特 编码器。 嵌入式语音编码是一种新兴的语音编码技术,是目前语音编码研究领域的 热点,也是未来语音编码研究的发展方向。近些年,国内外的研究机构在嵌入 式语音编码上做了一些初步研究嘲嘲。嵌入式变比特率编码( e m b e d d e d a b l e b “r a t e ( e v - r ) c o d e c ) 是玎u t 提出的一种变速率编码方案。嵌入式编码器输出 的码流根据重要性的不同分为几个层次,例如,最重要的层次包含语音的最基 本信息,其它层则依次对该层语音补充,用于逐层提高语音质量。通过网络传 输整个高速率全码流,当线路容量够肘,可以以高速率传输以保证较高的语音 质量;当遇到线路拥塞时,可将码字中非核心码元丢弃,以低速率较差的语音质量 工作,保证合成语音的连续性。嵌入式的码流结构不仅可以有效地解决由于分 组丢失所引起的合成语音质量下降的问题,而且可以提供多种编码速率,以适 应不同种类的通信终端。 目前,r r u - ts g l 6 组已完成了对新一代嵌入式语音编码标准g 7 2 9 1 ”:的制 定工作。它能够提供码率范围在8 3 2 k b i t s 的高质量窄带( 4 k h z 带宽) 和宽带 北京工业大学_ 学硕 二学位论文 ( 7 k h z 宽带) 合成语音。它的核心编码器为传统的窄带语音编码标准g 7 2 9 。同 时,r r u t 又制定了更高要求的g v b r 提案。希望推出质量优于g 7 2 9 1 ,同 时又能在未来进一步扩展到超宽带的宽带嵌入式编码器。以满足分组语音 ( v o m v o a l m ,口电话) 、高质量的视频音频会议、网络拥塞控制以及第三代移 动通信对具有通信质量的变速率语音编码的广泛需求。 本项目与华为公司合作,针对r r u tg v b r 语音编码标准的提案要求,在 充分研究现有的变速率语音编码方法基础上,研究基于c e l p 模型的变速率语音 编码方案,设计了一种8 3 2 k b s 的宽带( 5 0 7 0 0 0h z ) 嵌入式变速率语音编码器, 参加n u tg v b r 候选编码器的竞争。同时,参与候选编码器竞争的还有以下 几家公司:e r i c s s o n 、m o t o r o l a 与1 权酗h l s m l n l e n l l ;p a n 鹊o l l i c ;n o k i a 与 v o i c e a g e 1 2 。 本课题“嵌入式变速率语音编码器的后处理和帧擦除掩蔽技术研究”属于该 项目的重要研究部分。对嵌入式变速率语音编码器的自适应后处理进行研究,是 为了能够有效提高解码端合成语音的质量。帧擦除掩蔽技术则是针对语音在网络 传输中的丢包问题的重要解决方案。本课题作本嵌入式变速率语音编码器中的重 要组成部分,为中国参与g ;r 国际语音编码标准的竞争提供了具有理论价值 和实际价值的研究成果。 研究目标 本课题研究的目标为:研究宽带嵌入式语音编码器的自适应后处理和帧擦 除掩蔽技术,并设计适合本宽带嵌入式语音编码器的自适应后处理方法和帧擦 除掩蔽方法。自适应后处理技术的重点是提高语音编码器的合成语音质量,并 适当考虑算法复杂度问题。帧擦除掩蔽方案的重点是在不附加额外码流、不引 入过多延时的条件下,恢复帧擦除后的语音,提高恢复质量。算法在p c 机上用 c 语言的浮点程序仿真实现。 1 2 主要研究内容 根据本课题的研究目标,主要研究内容如下: 1 基于c e l p 语音编码模型,在本实验室设计的嵌入式变速率语音编码器结构 上,研究适合该编码器的后处理技术,提高合成语音的质量。主要包含如下 2 第一章绪论 四方面的关键技术研究: a ) 采样率转换的研究 b ) 感觉加权滤波器的研究; c ) 激励信号后处理技术的研究; d ) 合成语音的短时后滤波技术的研究。 2 基于本实验室设计的嵌入式变速率语音编码器,研究适合于该嵌入式编码器 的帧擦除隐藏技术,主要包含如下四方面的关键技术研究; a ) 针对嵌入式编码器结构的帧擦除隐藏方案的设计; b ) 研究语音帧分类技术,针对不同语音帧的特点,采用不同恢复方案; c ) 提高编码器的鲁棒性的研究; d ) 研究降低帧擦除引起的错误繁衍的技术。 1 3 研究方法 在算法的研究阶段,使用m i c r o s o 矗s u a lc + + 6 o 集成开发环境编写算法的 浮点c 程序并进行调试。依据主观听力比较和r r u t 的语音质量客观评价标准 得到的结果,评判各种改进方案的合成语音质量,从而确定最优的编码方案和系 统参数。 1 4 本文的组织安排 第二章将详细介绍c e l p 语音编码器的基本原理。第三章将整体介绍本宽 带嵌入式编码器的设计,并简要介绍其它三家候选编码器的主要特点。第四章 具体介绍本宽带嵌入式语音编码器后处理设计及其它方法的研究。第五章介绍 本宽带嵌入式语音编码器的帧擦除隐藏技术及其它方法的研究。 第四章和第五章是本文的重点。 第2 章c e l p 语音编码 第2 章c e l p 语音编码 八十年代后期出现的码激励线性预测( c e l p c o d ee x c i t e dl i n e a r p r e d i c t i o n ) 语音编码技术是一种有效的中低速率语音压缩编码技术,它用线性预 测技术提取声道参数,应用感觉加权技术和波形编码准则去优化激励信号,即在 闭环基础上,从一个具有许多典型激励矢量的码书中寻找主观失真最小的激励矢 量。它以码本作为激励源,具有速率低、合成语音质量高、抗噪性强等优点,在 4 8 1 6 k b s 速率上得到了广泛的应用,已经成为一种主流编码技术。1 。很多编码 算法都基于c e l p ,例如,1 9 8 8 年,美国联邦标准f e d s t d1 0 1 6 、矢量和激励线 性预测v s e l p 声码器、i t u - t8 k b s 语音编码标准g 7 2 9 等均采用c e l p 技术。 目前,常见的变速率语音压缩编码也基于一般的c e l p 算法,例如,2 0 0 0 年,r r u a r w b 。新一代嵌入式语音编码标准g 7 2 9 1 的核心层编码也是基于c e l p 模 型。本章将对c e l p 语音编码算法作一系统性的介绍。 2 1c e l p 语音编码器原理 在基于合成分析的中低速率语音压缩编码方案中,最普通的语音合成模型为 用码本作为激励源的码激励线性预测合成模型,如图2 1随机激励线性预测模 型所示。 随机 激励 s ( n ) ( a ) 合成过程 ( b ) 预测过程 图2 1随机激励线性预测模型 合成语音 n ) 北京1 = 业大学 二学硕十学位论文 b s a t a l 提出的随机激励线性预测合成模型( 图2 1 a ) 的基本思想就是利用 几乎是白的信号激励两个时变的线性递归滤波器,每个滤波器反馈环路上有一个 预测器,其中一个是长时预测器( 或基音预测器) p ( z ) 用来产生浊音语音的音调 结构( 谱的细致结构) ,另一个是短时预测器f ( z ) ,用来恢复语音的短时谱包络。 随机激励线性预测模型来源于它的逆过程,如图2 - l b 所示,其中f ( z ) 用于去除 语音信号的近样点冗余度;p ( z ) 用于去除语音信号的远样点冗余度,经过两级预 测得到的归一化残差信号近似服从标准正态分布。 一般地,短时预测器传递函数表示为 心) 2 擎2 ( 2 - 1 ) 其中,啦为预测器系数,p 为预测器阶数,一般介于8 到1 6 之间。在接收端, 短时合成滤波器的传递函数为 脚2 南2 高 协:, 其中4 0 ) = l f ( z ) 是线性预测误差滤波器。预测器系数q 一般每隔2 0 3 0 m s 修正一次。 基音预测器的传递函数为 户( z ) = 屈z 叫川 一,( 2 3 ) 式中,m 为基音延迟,属为基音预测器系数。通常,m 随系数尼一起修正,修 正速率通常比短时预测器系数高,一般每隔5 1 0 m s 修正一次。基音合成滤波 器的传递函数为 1 砟。卜高 ( 2 - 4 ) 根据图2 1 给出的语音合成模型,可以给出如图2 2 所示的基于合成分析过程的 c e l p 语音编解码模型。 为了最佳匹配原始语音信号,c e l p 编码模型需要频繁地修正时变滤波器参 6 第2 章c e l p 语音编码 数和激励参数。系统的分析过程是按帧分序进行的,即首先确定时变滤波器的参 数,然后确定固定激励参数。分析帧的长度和修正速率决定了编码方案的比特率。 上述模型的激励参数优化过程使用的是感觉加权均方误差最小准则,而未使用普 通的均方误差最小准则。这是因为在低比特速率,每个语音样点平均分配的比特 数一般要小于1 ,这就使得准确匹配语音波形变得十分困难。所以,原始语音信 号和重建语音信号之间的均方误差缺少意义和充分性,这就要求所使用的误差准 则应该和人类的听觉特性相一致。尽管人们在不断地开展有关听觉特性的研究工 作,但迄今为止还没有一个满意的误差准则问世。 ( a ) 编码器 输出语音 ( b ) 解码器 图2 2 基于合成分析过程的c e l p 语音编解码模型 目前流行的方法是在基于合成分析的编码方案中使用由a t a l 建议的感觉加 权滤波器,其传递函数为 7 ,o , 1 ( 2 5 ) 骞。 = ,一力型纠 = 力叭 北京t 业大学 二学硕七学位论文 感觉加权滤波器的频率特性中的峰和谷正好与语音谱中的峰和谷相反。所以加权 滤波器的作用是减弱共振峰频率区域的重要性,通过在共振峰频率区域分配比较 大的失真,来减少共振峰谷里主观感觉更大的噪声。这一过程利用了人耳听觉的 掩蔽效应,即共振峰处的噪声相对于能量较低频段的噪声而言不易被察觉。对于 8 k h z 的采样频率,展宽因子y 通常介于0 8 o 9 之间。 2 2 两级码书结构的c e l p 编码器 当图2 - 2 中的基音合成滤波器的阶数为1 时,由式( 2 3 ) 和式( 2 - 4 ) 可知, 基音合成滤波器的传递函数为 蹦加毒 协。, 式中,为基音预测系数,m 为基音延迟。当固定码书激励作用于以( z ) 时, 其输出为 d ( 行) = l f ( 疗) + g 。d ( 珂一 f ) ( 2 7 ) 当d ( n ) 作用于感觉加权合成滤波器日。( z ) 时,得到的合成语音为 j ( 栉) = d ( 挖) + 娄q j 一f ) 2 “( 胛) + d ( 栉一肘) + 善q j 伽。) ( 2 - 8 ) 由式( 2 8 ) 可知,合成激励由两个激励叠加而成,一个来自于固定码书o ) , 另一个来自于过去的合成激励d ( 珂一m ) 。这里将过去的合成激励d ( n m ) 定义 为自适应码书,它利用移位寄存器来存储码矢量,码矢量具有迭接性,若基音延 迟m 的最大值为m r 。,则自适应码书的大小为m 。自适应码书记录着语音信 号的周期信息,并且每予帧更新一次。两级码书结构的c e l p 语音编码模型的原 理框图可用图2 3 来表示。 c e l p 语音编码算法主要包括线性预测( l p ) 分析( 又称短时谱分析) 、自 适应码书搜索和固定码书搜索三大部分。短时谱分析通常每帧进行一次,采用 l p 分析提取语音信号的谱包络信息,自适应码书搜索和固定码书搜索则每子帧 进行一次。从自适应码书和固定码书中搜索出的最佳激励矢量乘以各自的最佳增 益后相加便可得到激励信号最( 功,它一方面被用来更新自适应码书( 每子帧更 新一次) ,另一方面则被输入到合成滤波器h ( z ) 以得到合成语音( ) 。雪( 行) 与 原始语音s ( 挖) 的误差通过感觉加权滤波器形( z ) 后可得到感觉加权误差信号 e ( n ) ,并以此作为码书搜索的依据。c e l p 的译码过程已包含在编码过程中。在 译码时,根据编码传输过来的信息从自适应码本和随机码本中找到最佳码矢量, 分别乘以各自的最佳增益并相加可得到激励信号e ( 栉) ,将e ( 行) 输入到合成滤 波器日( z ) 便可得到合成语音雪( 阼) 。 2 3 本章小结 图2 3两级码书结构的c e l p 编码原理框图 本章首主要介绍了c e l p 语音编码算法的模型和基本原理。本宽带嵌入式编 码器的核心层编码是以c e l p 编码模型为核心。同样,本文的研究重点“嵌入式 变速率语音编码器的自适应后处理和帧擦除掩蔽技术”,也是根据c e l p 模型的 基本原理展开的。 9 第3 章嵌入式变速率语音语音编码器 第3 章嵌入式变速率语音编码器 嵌入式语音编码是一种新兴的语音编码技术,是目前语音编码研究领域的 热点问题,也是未来语音编码研究的发展方向。近些年,国内外的研究机构也 在嵌入式语音编码上做了一些研究。嵌入式变比特率编码( e v - v b r ) 是r r u t 提 出的一种变速率编码方案。 本章将简要介绍g v b r ( e v - v b r ) 的提案要求,并对本宽带嵌入式编码器进 行了概述,另外将简要介绍其它三家候选编码器的主要特点。 3 1g r 候选编码器提案简述 2 0 0 5 年8 月,r r u - t 正式起草了对嵌入式变速率编码器( e m b e d d e dv b r ,简 称e v ) 的提案。3 。该提案除了提出了嵌入式编码器在未来通信系统中的应用前景 以外,主要对该编码器的具体功能和质量要求进行了描述。2 0 0 6 年6 月,i t u t 正式起草了对e v 的测试计划和测试方法“”。 本编码器是按照此提案要求设计的。下面简述其中的该提案中的几项重要指 标。 1 ) 编码端生成嵌入式码流。该码流至少包含五层,并且各层满足r 1 垫k b p s 、 r 2 s 1 2k b p s 、r 3 s 1 6k b p s 、r 4 雯4k b p s 、i 己5 9 2k b p s ; 2 ) 输入语音信号的采样率可以为8 k h z 或者1 6 k h z 。其中r l 、r 2 能处理 8 姐z 、1 6 k h z 语音,r 3 r 5 能处理1 6 姐z 处理; 3 ) r 1 至r 5 层都有具体的质量要求。测试条件分别包括纯净语音、带噪语 音、音乐、发生帧擦除情况; 4 ) 算法延迟要求小于6 0 n l s ,但最好达到小于4 0 m s ; 5 ) 复杂度要求能在现有的d s p 上实现。 3 2 本宽带嵌入式编码器 本嵌入式变速率语音编码器是按照g v b r 提案要求设计的。编码端生成的 码流包含了全部5 层的信息,具有可分级性和嵌入性。这五层分别为核心层、增 强一层、增强二层、增强三层和增强四层。其中第一、二、三层( l 1 、l 2 、l 3 ) 北京工业大学- 学硕士学位论文 采用代数码激励线性预测( a c e l p ) 编码,第四、五层( l 4 ,l 5 ) 采用变换码激励 ( t c x 强m s f o mc o d c de x c i 协t i o n ) 编码。 本嵌入式变速率语音编码器的默认输入为1 6 虹王z 采样,1 6 比特量化的线性 p c m 编码数字信号。同时也可以支持8 k h z 采样率的输入信号。同样的,解码端 的输出信号可以是8 k h z 采样或者1 6 姐z 采样的1 6 比特线性p c m 编码信号。其 他采样率的信号需要先转换成为8 k h z 采样或者1 6 l 沮z 采样的1 6 比特线性p c m 信号后才可以用本编码器进行编码。 3 2 1 编码端 图3 ,lg v b r 候选编码器编码端结构框图 g v b r 候选编码器编码端的结构框图如图3 一l 所示。整个编码器分为五层, 具体包括:第一层即核心层、第二层即增强一层、第三层即增强二层、第四层即 增强三层和第五层即增强四层。整个编码器包含的编码速率( 即码率) 依次分别 为8 k b p s 、1 2 k b p s 、1 6 k b p s 、2 4 k b p s 、3 2 k b p s 。编码操作以2 0 m s 语音为一帧,5 m s 为一子帧。编码端的输入可以为1 6 k h z 采样、1 6 比特线性p c m ( 脉冲编码调制) 语音信号,也可以为8 k h z 采样、1 6 比特线形p c m ( 脉冲编码调制) 语音信号。 第3 章嵌入式变速率语音语音编码器 在进行编码处理之前,首先要进行采样率的判定。如果输入语音信号的采样 率为1 6 姐z ,则经过下采样的步骤将信号的采样率调整至1 2 8 k h z ;如果输入语 音信号的采样率为8 k h z ,则经过上采样的步骤将信号的采样率调整至1 2 8 k h z 。 接着,以2 0 m s 语音,即2 5 6 个样点为一帧,对输入的每一帧语音信号进行预处 理,即经过5 0 h z 的高通滤波去除不必要的低频成分。 对整个编码器来说,首先要进入的是嵌入式代数码激励线性预测( a c e l p ) 编码结构: 1 ) 核心层编码:每帧( 2 0 m s ) 进行一次线性预测分析与量化( 本编码器采用的是 “各维非等系数帧间预测分裂矢量量化”方法“7 3 ) 、开环基音分析及感知加 权合成滤波器单位脉冲响应的计算。每子帧( 5 m s ) 进行一次自适应码书搜索、 增益控制、核心层固定码书搜索及自适应码书增益与核心层固定码书增益联 合矢量量化。最后得到核心层的编码比特流。 2 ) 增强一层编码:每子帧( 5 m s ) 进行一次增强一层固定码书搜索及其增益比的量 化,得到增强一层的编码比特流。 3 ) 增强二层编码:每子帧( 5 m s ) 进行一次增强二层固定码书搜索及其增益比的量 化,得到增强二层的编码比特流。 4 ) 在上述各层的子帧循环中,还需要同步更新前三层中各层感知加权合成滤波 器的状态,以用于计算下一子帧的目标矢量。 5 ) 由于嵌入式变换码激励( t c ) ( ) 编码中采用的混叠相加技术需要用到将来帧的 前5 m s ,所以子帧循环需要进行五次,但是只有前四次的编码信息作为本帧 的内容被写入码流。 完成嵌入式代数码激励线性预测( a c e l p ) 编码后,编码器进入嵌入式变换码 激励( t c x ) 编码结构: 1 ) 增强三层编码:根据前三层五个子帧的编码信息,本地解码出码率为1 6 k b s 的五个子帧合成语音。对预处理后的语音与该合成语音之间的差信号进行 t c x 编码,得到增强三层的码流。 2 ) 增强四层编码:本地解码出码率为2 4 k b s 的五个子帧合成语音,对预处理后 的语音与该合成语音之间的差信号进行t c x 编码,得到增强四层的码流。 3 2 2 解码端 输出1 6 i 【l i z 语音输出8 k h z 语音 图3 - 2g v b r 候选编码器解码端结构框图 g v b r 候选编码器解码端的结构框图如图3 - l 所示。在解码前首先要进行 接收码流比特数检测: 1 ) 当解码端每帧接收到比特数大于1 6 0 b i t s 时,由i s p 参数量化表索引值解码 出i s p 参数并转换成线性预测系数。由基音延迟索引值,通过自适应码书译 码得到自适应码激励。解码核心层固定码书索引值,得到核心层固定码激励。 根据自适应码书增益及核心层固定码书增益索引值,分别解码出自适应码书 增益和核心层固定码书增益。 2 ) 判断接收到的比特数是否大于或等于2 4 0 b i 饥如果是,则根据增强一层固定 码书及增益比的索引值解码出增强一层代数码激励及其增益,并与8 k b s 的 合成激励信号相加得到1 2 k b s 的合成激励信号。否则确定比特数小于 2 4 0 b i 协,直接对8 k b s 的合成激励信号进行后处理,通过合成滤波器得到采 1 4 第3 章宽带嵌入式语音语音编码器 样率为1 2 8 k h z 的8 k b ,s 合成语音。 3 ) 判断接收到的比特数是否大于或等于3 2 0 b i t s 。如果是,则根据增强二层固定 码书及增益比的索引值解码出增强二层代数码激励及其增益,并与1 2 k b ,s 的 合成激励信号相加得到1 6 k b s 的合成激励信号。否则,确定比特数小于 3 2 0 b i 协,则直接对1 2 k b s 的合成激励信号进行后处理,通过合成滤波器得到 采样率为1 2 8 1 ( h z 的1 2 k b s 合成语音。 4 ) 判断接收到的比特数是否大于或等于4 8 0 b i t s ,如果是,则根据增强三层格型 矢量量化的参数及全局增益参数的索引值和前面解码出的线性预测系数一 起得到采样率为1 2 8 k h z 的增强三层解码信号。否则,确定比特数小于 4 8 0 b i 协,直接对1 6 k b s 的合成激励信号进行后处理,通过合成滤波器得到采 样率为1 2 8 k h z 的1 6 k b s 合成语音。 5 ) 判断接收到的比特数是否大于或等于6 4 0 b i t s ,如果是,则根据增强四层格型 矢量量化的参数及全局增益参数的索引值和前面解码出的线性预测系数一 起得到采样率为1 2 8 k h z 的增强四层解码信号。采样率为1 2 8 k h z 的1 6 k b s 合成语音与增强三层、增强四层解码信号之和,即为1 2 8 k h z 采样的3 2 k b s 合成语音。否则,确定比特数小于6 4 0 b i t s ,采样率为1 2 8 k h z 的1 6 k b s 合成 语音与增强三层解码信号之和,即为1 2 8 k h z 采样的2 4 k b s 合成语音。 6 ) 将1 2 8 1 【h z 采样的合成语音调整至所需的采样率输出。 7 ) 如果输出的采样率为8 姐z ,则直接将采样率转换后的合成语音输出。 8 ) 如果输出的采样率为1 6 k h z ,则要对此合成语音进行高频补偿:首先产生一 个高斯白噪声,对其进行修正,得到高频带激励信号;高频带激励信号通过 修正的合成滤波器( 对解码出的线性预测系数修正得到) 得到合成信号;把 此合成信号通过一个带通滤波器得到高频带合成信号。将高频带的合成信号 与频带范围为5 0 h z 一6 4 0 0 h z 、采样率为l 砚沮z 的合成语音相加得到最后输出 的1 6 k h z 采样的合成语音( 5 0 h z 7 0 0 0 h z ) 。 3 2 3 帧擦除掩蔽 帧丢失是指编码器生成的码流在传输过程中丢帧的现象。通常情况下,这种 丢帧是指丢掉了一整帧的语音信息。解码端对该丢失帧进行恢复,则称作帧擦除 北京t 业大学t 学硕十学位论文 隐藏。 嵌入式语音编码器的核心层及增强一、二层是基于c e l p 编码,增强三、四 层则用1 x 编码。核心层包含的是c e l p 模型的各个参数信息,它们是得到合 成语音的基本信息,如果丢失则对合成语音的质量有严重影响;而增强层包含的 是语音的细节描述信息,它们逐层对语音质量增强提高,如果丢失语音质量只会 略有下降,不会造成听觉上的失真。所以,对于嵌入式编码器生成码流,如果帧 擦除的情况为增强层的擦除,则接收端仅根据接收到的码流来得到合成语音;如 果帧擦除的情况为整帧擦除,则恢复丢失帧的基本语音信息,也就是恢复c e l p 模型的各个参数,它包括谱包络、自适应码书及增益、固定码书及增益。这也是 嵌入式编码器帧擦除的特别之处。 3 2 4 编解码模式 g v b r 候选编码器可以处理8 k h z 或者1 6 k h z 采样的语音信号。表3 1 中列 出了g ;r 候选编码器中可供选择的编解码模式。其中,默认模式为输入和输 出信号采样率均为1 6 姐z 的情况。另外,编码端还有窄带输入模式,即输入信 号采样率为8 k h z 的情况。解码端有窄带输出模式,即输出信号采样率为8 姐z 的情况。 表3 1g v b r 候选编码器的编解码模式 雾鬻震鬻篓霹曩霪 默认模式1 6 0 0 0 h z 输入1 6 0 0 0 h z 输出 窄带输入8 0 0 0 h z 输入8 0 0 0 h 1 6 0 0 0 h z 输出 窄带输出8 0 0 0 h d l 6 0 0 0 h z 输入8 0 0 0 h z 输出 3 2 5 比特分配及比特流层结构 g r 候选编码器的比特分配如表3 2 所示,比特流结构如图3 3 所示。 1 6 表3 - 2g r 候选编码器的比特分配 b j t s ( m s b l s b ) 描述 s l s 1 0 第1 个l s f 子矢量的索弓 值 s l l s 2 0 第2 个l s f 子矢量瓣素;l 蓬 暑2 l s 2 9第3 个i s f 子矢量静索引氇 s 3 0 s 3 s 第4 个i s f 子矢量的索引值 s 3 9 一s 4 6第5 个i s f 子矢量的索引值 窖i - 一,_ ”i 。2 簇凌褥潦;l i 馘。:i “i 薹i i j 譬t “j 第一子壤 对7 一s s 4巍逶应码书索 | 毽 s 5 5 一s 5 9 固定码书第1 个脉冲位置的索引值 s 6 0 一s 6 4固定码书第2 个脉冲位置的索引值 s 6 5 一种 固定码稍第3 个脉冲位置的索引德 s 7 蚤 霹定码弗戆第3 个脒掉孰遵标记 s 7 l s 帮弱书增益索;| 毽 第二子帧 s 7 7 一s 8 1 自适应码书索引值 s 8 2 一s 1 0 3与s 5 5 一s 两结构类似 第三子蛾 s l g 4 一s 1 3 3 与s 4 7 一舒5 结梅粪耘 第四子帧 s 1 3 4 一s 1 6 0与s 7 7 一s 1 0 3 结构类似 爹二? 囊豢鬟饕麓登:“i 菇 淄:耄氟:耩赢菇。一;窖0 。ii i ”“之:i ? ? 第一子帧 s 1 6 l s e l 日建择标记 s 1 6 2 一s l 黼 固定玛书第1 个脉冲位置的索引镰 s 1 6 7 一s 1 7 1固定码书篇2 个脉冲位置的索引值 s 1 7 2 一s 1 7 6 固定码书第3 个脉冲位置的索引值 s 1 7 7 固定码书的第3 个脉冲轨道标记 s 1 7 9 一8 0 爨定辐甍增蓥谗索 l 毽 第二子粮 s 1 8 1 一s 2 0 0与s 1 6 1 一s 1 8 0 结构类似 第三子帧 s 2 0 l s 2 2 0与s 1 8 l s 2 0 0 结构类似 1 7 第四子帧 s 2 2 1 一s 2 4 0与s 2 0 1 一s 2 2 0 结构类似 雾溪燃i j 囊辫鞴藤颡蠢鞴f 涛菸蒸。蔓三嚣i 嚣薹嚣l 9 2 4 1 一s 3 2 0与s 1 6 l s 2 4 0 增强1 层码书索引码流结构类似 j ;餐5 :鬻i 囊;辩瓷o :? 缁籀墓囊藉蠡蒹交篱溢:n ! 篷x ;琴;二4 。? ? 蕊j 霭 s 3 2 1 一s 3 2 3噪声因子索引值 s 3 2 4 一s 3 3 0全局增益索引值 订3 1 一s 4 8 0格型矢量量化索引值 藜:鬈袋嚣邃i 薹灞褒鞠i 羹藩瀛 弱蠹“篡舞墓! i i 纛。,基:蠢d “8 1 一s 4 8 3噪声因子索引值 s 4 8 4 一s 4 9 0 全局增益索引值 s 4 9 1 一s 6 4 0 格型矢量量化索引值 叵 核心层增强一层增强二层增强三层 增强四层 比特流比特流 比特流比特流比特流 1 6 0 b i 协8 洲协8 0 b i 协1 6 0 b i 协1 6 d b i 协 0 堂监_; :! ! 丛垒塑亟 - : 3 2 6 算法延时 ( 1 ) 输入1 6 k h z 语音,输出1 6 k h z 语音 编码延迟:2 0 + 5 之5 m s 解码延迟:o 9 3 7 5 m s 总延迟:2 5 9 3 7 5m s 其中2 0 n l s 为帧长,5 m s 为1 0 0 k a l l e a d ,0 9 3 7 5 m s 为1 2 8 k h z 上采样到1 6 k h z 的延迟。 ( 2 ) 输入8 k h z 语音,输出8 k h z 语音 编码延迟:2 0 + 5 + 2 - 2 7 m s 解码延迟:1 8 7 5 m s 18 第3 章宽带嵌入式语音语音编码器 总延迟:2 8 - 8 7 5m s 其中2 m s 为8 k h z 上采样到1 2 8 k h z 的延迟,1 8 7 5 m s 为1 2 8 k h z 下采样到8 k h z 的延迟。 3 3 与另外三家候选编码器的对比 3 3 1 另外三家候选编码器简介 参与g v b r 编码标准竞争的还有以下几家公司:m o t o r 0 1 a 、e r i c s s o n 与 t e x 硒h s 仇珊e 合作( 以下简称m e t ) ,p a l l 鹤o i l i c ( 以下简称p 蠲) ,n o h a 与v o i c c a g e 合作( 以下简称n 。 m e t 和n v 的编码器n l m 2 3 设计基本相同。其主要特点如下: 1 ) l 1 层用基于分类的c e l p 编码方案( 宽带语音编码器) ; 2 1l 2 用固定码书及其增益做质量补充; 3 ) l 3 l 4 层用m d c t 逐层编码差信号; 4 ) f e c 利用g 7 2 9 1 的方法( 码流中含有f e c 恢复信息) ; p 锄编码器“”的主要特点如下: 1 ) l l 层使用窄带c e l p 为核心,利用b w e 频带扩展技术得到宽带信号; 2 ) l 2 用固定码书及其增益做质量补充; 3 ) l 3 一l 4 层用m d c t 逐层编码差信号; 4 ) f e c 利用g 7 2 9 。1 的方法( 码流中含有f e c 恢复信息) ; 3 3 2 本编码与其它候选编码器对比 本编码器从设计到提交仅一年多的时间,由于时间和经验等客观因素的制 约,与其它三家编码器的设计相比,可以发现本编码器存在的缺点: 1 ) 没有对l 3 及以上的增强层使用m d c t 编码。虽然使用1 x 编码高层增 强层是本编码器的一大特点,但是作为参与竞争的候选方案,与别人缺 乏共性就意味着孤立自己。并且,r r u - t 最后的测试结果表明m d c t 得 到的语音质量更好。 2 ) f e c 没有利用g 7 2 9 1 中的f e c 方法。虽然本编码器的f e c 方法简单、 1 9 北京t 业大学t 学硕士学位论文 不需要额外的比特,并且质量较好,但是从本质上比不上g 7 2 9 1 中的 f e c 方法,原因在于其在码流中加入了用于恢复丢失帧的补充信息。 同时,本编码器也存在自身的优势。从性能上来说,本编码器的最大的特点 是低延时( 本编码器的延迟不超过3 0 m s ,而其它公司的编码器延时一般在5 0 m s 左右) ,这一点在未来的移动通信领域的应用中是非常重要的。并且本编码器的 低层质量得到了r r u t 的肯定。 3 4 本章小结 本章主要简要介绍了g v b r 候选编码器的提案要求。并对本宽带嵌入式编 码器进行了概述。同时,简要介绍了其它三家候选编码器的主要特点。对比并总 结了本编码器的优缺点,为下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论