(信号与信息处理专业论文)嵌入式变速率语音编码中码书结构设计与快速算法研究.pdf_第1页
(信号与信息处理专业论文)嵌入式变速率语音编码中码书结构设计与快速算法研究.pdf_第2页
(信号与信息处理专业论文)嵌入式变速率语音编码中码书结构设计与快速算法研究.pdf_第3页
(信号与信息处理专业论文)嵌入式变速率语音编码中码书结构设计与快速算法研究.pdf_第4页
(信号与信息处理专业论文)嵌入式变速率语音编码中码书结构设计与快速算法研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 为竞标国际电信联盟的新一代语音编码标准g v b r ,本文对嵌入式语音编码 这一语音编码领域的新兴课题进行了研究,并与项目小组成员一同开发了一套嵌 入式语音编解码算法,该算法产生的嵌入式码流对于当前的网络传输方式十分有 利,能够有效地解决分组传输中的丢包问题。 其中,嵌入式的代数码书结构是整套嵌入式编解码算法的实现基础,也是本 文的研究重点之一。本文所提嵌入式代数码书结构是通过增加脉冲数来实现对语 音信号的嵌入式编码的,其最大特点是脉冲的搜索不是相互独立的,而是彼此存 在着嵌入包含关系,每一级的脉冲,都是在保留前一级的基础上,针对更新了的 误差信号,又额外搜索若干能够丰富细节的脉冲而获得的。除此之外,本文针对 各层代数码书应用不同的目标矢量,使得各层的代数码书搜索相对独立,增强层 的贡献得以应用在目标矢量的更新中,有利于提高增强层的合成语音质量。 另外,本文还提出了种适用于嵌入式编码的自适应码书结构及其更新方 法,该结构为基于c e l p 的各层都设置了一个自适应码书缓冲,并且用各层所属 的激励独立更新各自的自适应码书,以达到各层编码的相对独立性以及编码器参 数的最佳匹配。该方法在确保核心层语音质量的同时,也使增强层获得了与对应 速率的现有标准编码器相当的合成语音质量。 最后,本文给出了提交的嵌入式语音编码器在a e e l p 编码层的语音质量评测 结果。该结果表明,本文实现的编码器在a c e l p 相关层上已经达到了国际电信联 盟为候选编码器设置的性能指标,取得了较好的语音质量。 关键词:语音编码;码激励线性预测;嵌入式编码;自适应码书;代数码书 a b s t r a c t ko r d e rt oc o m p e t ef o rt h e 嗽tg e r a f i o n s p e e c hc o d i n gs t a n d a r ( g v b r ) o fi t i j ( h t e m a t i o n a lt b l o m m m d c a t i o 地u m o n ) ,t h er e s e a r c h 帆锄b e d d e d 印e e e hc o d i n g 。w h i c hi sl h e n e wp r o j ti nl h es p c e c ! hc o d i n gf i e l d ,w l 孤m c h c da n dme m b e d d e dc o d i n ge o d e e 啪s d e v e l o p e da t 也c $ m ct i m e t h cb i 协t r e a mp r o d u c e db yt l a i se o d e ei s 血v o r a b l e 缸t h e 衄锄i s s i 帆 i nn e t w o r kn de 伍c i d yt l 镕o l v et h ep a c k e ti o np r o b l e m m b e d d e a l 姆b r a i ce o d e b o o ks l r u e t l u ti sm c o f t h ew h o l ea l 鲥m ma n di s a l s o 凼ei m p o r t a n tc o n t e n to f t l a i st h 髑i s b ya d d i n gt h em m l b 盯o f f h e p l i l s 髓i na l g c b 糟i ce o d e b o o k t h cp r o p o s e da l g o f i m mc 柚d e s c r i b et h e 瓿c i t 撕帆s i g n a lm o l cp r e e i l y 趾d q u i r e 蛆锄b c d d e d b i ts 咖nt h es e a r c h i n g 断t h e 嘶眺o fe a c hl a y e ri sn o tm d e r m a d e n t 劬b a s e d m e i n l p u l s 妫w h i c hh a v ea l r e a d yf o 皿di nl o w 盯i a y c 埽m o r e o v 盯t h c i 5au n i q u et a r g c t s i g n a l 蠡汀 e a c hl a y e r w h i c hm a k e sn l c a l g e r b r a i ee o d e b o o ks e a r c h i n g 砒f i v e l yi n d e p d e n ta n d 山c c o n 试b u d t o ft h ce n h l l n c 黜tl a y e rc a l lb cu s e di nu p d a t ef b r l h cs y n m 鹤i s ef i l t 盯雏dt a r g c t s i g n a l 锄dr 咖b i na q u a l 时i m p v 咖ti n 幽c 锄tl a y e 巧 a na d a p t i v ec o 弛b o o ks 仇l c t i | _ 他a n di 忸u l x t a t cm e t h o da a l s op r o p o s c di nf h i st h 稍妇u n d e r t h i sn c w $ t n l c l l n - e ,a l lt h ea c e l pl a y c 辟h a v et h e i ro w na d a p t i v ec o d e b o o kb u f f e r s 姐du e a c h l a y 盯 8c x c i 蜘o nt 0u p r ei t sa c l a p 6 v cc o 出出o o kt h i sk i n do fa d a p t i v ee o d e b o o ks 劬l c t i i 托i 5 纽v o r a b l ef b r 血d i n gt h eb e s t d i n gp a z a m e t e a l 细e a c hi a y e ra n dm a k ed i f f e r e n tl a y e r m d e p e n d e n lr e l a t i v e l 弘t h ec m b e d d c ds p e e c hc o d 盯w i l hl h i ss t l u e t u r c 啪a c h i e g o o d p e r e o r m a n b o 血 nc ml a y 盯缸de i l l l a n c c m 吼tl a y e 堪 a tl a s t h et e s tr e s u l 乜o f 吐l ea c e i j p l a t c dl a y e r si n 血cp r o 眦de m b e d d e ds p 。吼c o d c c w e r cg i v e n ,w h i c hs h a 哪t h a t 也e 锄d i d a t ec o d h a sm l f i l l e dt h cl , e r f o r m a e er e q u i r e m 锄 d r a t t e d b y 血e u d 删州a g o o d q u a l i t ya t m c f i r s t 也m l a 娜 k e y w o 岫:s p e e c he o d i n 蜀c o d ee x e i t c dl i n e a rp r e d i 岫e m b e d d e dc o d i n ga d a p t i v e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所作的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:丝瘤日期:塑z :垒: 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:蓝盔导师签名:日期:兰塑z = :星 1 1 课题背景 第1 章绪论 语音通信是人类最基本、最重要的通信方式之一,因此,语音编码在通信 系统中具有十分重要的地位。所谓语音编码就是压缩语音信号的数字表示而使表 达这些信号的比特需求最小的算法【1 1 语音编码的分类方式有很多,按照编码速率的高低可以分为三大类:编码 速率在1 6 k b s 和6 4 k b s 之间的为高速率语音编码,编码速率在4 k b s 和1 6 k b s 之间的为中速率语音编码,编码速率在4 k b s 以下的为低速率语音编码。另外, 若按照频带宽度区分,语音编码又可以分为窄带语音编码和宽带语音编码。其中, 窄带语音是指频率范围在3 0 0 3 4 0 0 h z 的语音信号,面宽带语音一般指频率范围 在5 肛7 0 0 0 h z 的语音。 众所周知,任何工业产品的标准化都是非常重要的。语音编码作为一个公用 的通信工具而言,对其开展标准化工作有着十分重要的意义1 2 。在过去的2 0 年 中,产生了许多语音编码标准,超过了以往许多年的工作。主要原因,首先是语 音编码技术日趋成熟,其次是新的通信系统和通信手段对语音编码不断提出新的 要求。 最早的数字语音编码标准是由国际电话与电报顾问委员会( c c i t t , i n t e r n a t i o n a lt e l e p h o n ea n dt e l e g r a p hc o n s u l t a t i v ec o m m i t t e e ) 公布的q 7 l l 标准, 该标准对每秒钟8 k h z 采样、每样点8 b i t s 表示的语音信号进行压缩编码,编码速 率为6 4 k b s ,主要服务于最初的话音通信系统公共交换电话网( p s t n ,p u b l i c s w i t c h e dt e l e p h o n en e t w o r k ) 3 1 。r r u - t 随后颁布的一系列标准,如:g 7 2 3 1 ( 5 3 6 3 k b s ) 、g 7 2 9 ( 8 k b s ) 、g 7 2 9 a ( 8 k b s ) 也都是针对这种窄带语音进行 编码,伴随着编码速率的降低,这些标准合成出的语音与g 7 1 1 相比都有不同程 度的下降。 2 0 世纪后期,以口为核心的网络分组化传输和以移动通信为核心的无线化 传输成为通信网络演进的主流方向。数据网络不受传统电话网络8 k h z 采样率( 4 k h z 通频带) 的限制,有利于提供优于普通长话音质的语音。而且,在很多情况 下,口电话的传输能力要远远大于传统的p s t n ,如:口光纤主干网和传输速率 高达百兆的局域网。另外,随着第三代移动通信技术的实现和移动通信与互联网 的融合,未来无线数据传输速率将高达2 m b i t s 。传输能力的增强促使人们的注 意力从一味的提高语音编码的压缩比向追求更高质量的合成语音转移,许多宽带 语音编码标准也随之被公布。其中,r r u - t 的g 7 2 2 、3 g p p 的a m r - w b 以及3 g p p 2 北京工业大学工学硕士学位论文 的v m r w b 都被设计用来处理1 6 h z 采样、1 6 b i t s 量化的数字语音信号以满足语 音广播、电话会议、多媒体通信及高清晰度电视等对高质量语音编码的需求【4 ”。 进入新世纪,通信网络的进一步发展使其对语音编码技术有了新的要求。能 够出现一种可提供多种速率选择的语音编码算法,是众多网络运营商与设备提供 商所盼望的。因为,连接到网络上的各类通信终端往往需要不同的编码速率,其 可能的变化范围在和6 4 k b s 之间嘲。若采用现有的技术,则服务器需要配置多种 语音编码标准以便将原始语音处理成多个不同速率的码流进行传输,这样会造成 计算复杂度的增加。另外,若一个终端用户需要获得多种不同质量的语音服务, 同样需要为它配置多个语音编码标准,以便解码多个不同速率的码流,而这样做 又会造成存储量的增加。因此,急需一个在编码速率上具有灵活性、能满足各种 通信终端需求的语音编码算法来较好地解决上述两种情况。除此之外,带宽灵活 性也是新一代语音编码算法应该具备的一个特性。这是因为,一些网络节点在接 入高速局域网的同时还要与传统的电话网络通信,若配置在该网络节点的语音编 码算法能同时具备窄带与宽带编码的能力,将为各种网络的互联互通带来极大便 利。 出于以上两点考虑,2 0 0 5 年8 月,i t u - t 正式确定其新一代的语音编码标准 g v b r 将采用嵌入式的编码方案【_ ”,以期制定出一个统一的、具有速率灵活性和 带宽灵活性的语音编码标准,使之在不同的场合工作在不同的速率和带宽上。 为拥有自主知识产权,赶超世界先进水平,本人所在实验室与华为公司决定 进行联合开发,即针对1 1 r u - tg v b r 语音编码标准的制定,在充分研究现有的 语音编码方法的基础上,开发出一套符合提案要求的语音编码方案,为中国参与 g v b r 国际语音编码标准的竞争提供具有理论价值和实际价值的研究成果,满 足分组语音、高质量的视频音频会议、网络拥塞控制、多点接入以及第三代移 动通信对具有通信质量的语音编码的广泛需求。 1 2 研究现状 众所周知,传统的实时通信方式都是基于电路交换的,并且电路的容量也是 固定的。基于这一事实,在上世纪9 0 年代中期以前,绝大多数开发出来的语音压 缩的国际、地区和国家标准,都是固定速率编码系统,输出固定速率码流【s 】。不过, 进入9 0 年代中期以后,随着第三代移动通信和网络通信的发展,变速率语音编码 逐渐引起了人们的广泛注意,成为语音编码研究的一个热点,一些区域性和国际 性的标准协议也随之制定出来。 1 9 9 5 年5 月,美国通信工业协会( t 队) 公布了i s 9 6 协议,这是c d m a 系统中最早采用的变速率语音编码算法,包括四种速率:全速率8 5 5 k b s 、半速 2 率4 0k b s 、1 4 速率2 0k b s 、1 8 速率0 8k b s 。1 9 9 8 年3 月t i a 又公布了i s 7 3 3 协议,也包括四种速率:全速率1 3 3 k b s 、半速率6 2 k b s 、1 4 速率2 t k b s 和 1 8 速率1 0 k b s 。这两种算法使用的主要技术大致相同,但i s 7 3 3 使用了两级编 码数据速率判决,而i s - 9 6 用的是单级编码数据速率判决。另外,i s 7 3 3 对线谱 频率( l s f 澈用矢量量化,l s 9 6 使用的是标量量化【引。 1 9 9 7 年1 月,t i a 公布了i s 1 2 7 协议,这个协议可以很好地解决i s 9 6 话音 质量不高和i s 一7 3 3 码率较高等问题。它既保持了与1 3 k b sq c e l p 编码器相近 的合成语音音质,又具有较低的平均编码速率。它使用三种编码速率,全速率 8 5 5 k b s 、半速率4 0 k b s 和1 8 速率0 8 k b s s l 。 1 9 9 9 年8 月,第三代伙伴计划( 3 g p p ) 公布了自适应多速率( a m r ) 语音 编码算法,支持八种速率模式:4 7 5 k b s 、5 1 5 k b s 、5 9 0 k b s 、6 7 0 k b s 、7 4 0 k b s 、 7 9 5 k b s 、1 0 2 k b s 和1 2 2 k b s ,它采用话音激活检s g ( v a d ) 、舒适背景噪声产生 ( c n 6 ) 、速率判决( r d a ) 、差错隐藏( e c u ) 等先进技术,使得无线资源的配置与 利用更加灵活和高效。值得注意的是,a m r 编码是针对g s m 系统设计的,对 c d m a 的系统不是很适合【s 】。 2 0 0 0 年1 2 月,国际电信联盟( r r u ) 公布了自适应多速率宽带( a m r - w b ) 编码器的g 7 2 2 2 标准,支持九种速率模式:6 6 k b s 、8 8 5 k b s 、1 2 6 5 k b s 、1 4 2 5 k b s 、 1 5 8 5 k b s 、1 8 2 5 k b s 、1 9 8 5 k b s 、2 3 0 5 k b s 和2 3 8 5 k b s 。它已被3 g p p 选定为 g s m 和3 g 无线w - c d m a 的宽带编码器,并将应用于3 g 移动通信、口电话、 i s d n 宽带电话与可视电话和电视会议等领域【射。 2 0 0 1 年1 2 月,3 g p p 2 将可选模式声码器( s m v ) 算法公布为宽带扩频通信 系统的一种候选变速率语音编码标准,它采用四种速率:全速率8 5 5 k b s 、半速 率4 0 k b s 、1 4 速率2 0 k b s 和1 8 速率0 8 k b s 。该算法可以根据工作模式调整平 均码率,根据平均编码速率和语音质量之间的侧重点不同来选择不同的工作模式 嗍 2 0 0 6 年4 月,i t u - t1 6 组完成了新编码标准g 7 2 9 1 ( 又称g 7 2 9 w ) 的制 定工作 9 1 该编码器产生的比特流具有可分级性,包含了1 2 个嵌入式的层,分 别为层l 到层1 2 。编码端主要通过三项技术来实现码流的嵌入,它们分别是: 嵌入式的c e l p 编码技术,时域频带扩展技术( r 皿e - d o m a i nb a n d w i d t h e x t e n s i o n ) 以及一种被称作时域混叠抵消( t u n v - d o m a i na l i a s i n gc a n c e l l a t i o n ) 的预测交换编码技术。 目前,r 兀1 的新一代语音编码标准g v b r 正处在竞标阶段i 刀。按照提案 要求该编码器也必须产生嵌入式的码流结构,而且,i t u 要求其在纯净语音、含 噪语音以及误码环境下的编码质量都要高于g 7 2 9 1 ,因此如何提高嵌入式语音 3 北京工业大学工学硕士学位论文 编码的质量是每一个参与竞标的公司所面临的严峻挑战。 1 3 研究内容 本课题围绕r r u t 新一代语音编码标准g v b r ( e v - v b r ) 的制定展开研究 工作。主要内容包括: ( 1 ) 研究适应于嵌入式语音编码的自适应码书结构及其更新方法。用c e l p 模型实现嵌入式编码的一大难题在于该模型是一个预测型的模型,即编码器的当 前输出依赖于它以前的合成结果,而且,该模型是通过合成分析方法获取编码参 数的,即在其编码端存在一个本地解码的过程,这会给自适应码书以及合成滤波 器状态的更新带来极大的困难。因为,嵌入式语音编码器编码一帧原始语音得到 的参数是有层次归属的,这种层次性使得编码一帧语音会得到多个不同质量的激 励信号,然而用哪一个激励信号去更新自适应码书却让人难以抉择。一些相关论 文【1o ,1 1 】的做法是无论编码哪一层都只用核心层的激励信号去更新自适应码书,其 结果是保证了核心层的语音质量但却严重影响了增强层语音质量的提高。这些论 文所提供的实验结果也证实其增强层的质量难以达到固定速率编码器在对应速 率下的语音质量。为了解决上述嵌入式语音编码在自适应码书更新方面存在的问 题,本论文提出了一种解决方案,即为基于c e l p 的各层都设置一个自适应码书 缓冲,并且用各层所属的激励独立更新各自的自适应码书,以达到各层编码的相 对独立性以及编码器参数的最佳匹配,从而兼顾核心层与增强层的语音质量,并 使嵌入式语音编码的优势得到最大的发挥。 ( 2 ) 研究适应于嵌入式语音编码的固定码书结构及其搜索方法。本课题的 研究以c e l p 模型为基础,固定码书的结构及搜索是c e l p 算法中的关键一环。 固定码书的搜索结果决定了我们对语音激励信号描述的精细程度。由于代数结构 的固定码书无需存储且它能够根据语音的不同状态和实际编码速率调整自身的 结构和比特分配,因此本文通过对多级代数码书进行搜索来实现对语音信号的分 层编码,产生的嵌入式码流对于当前的网络传输方式十分有利,能够有效地解决 分组传输中的丢包问题。另外,考虑到本课题所提交的候选编码算法在r r u - t 的第二阶段测试环节中需要转换成定点程序并在d s p 芯片上实现,本文还对固 定码书的快速搜索算法进行了研究。固定码书的搜索是目前c e l p 算法中计算复 杂度最高的部分。其计算量主要来源于两方面:协方差矩阵的计算和最佳码字的 搜索。本文对脉冲替代搜索算法、深度优先树搜索算法以及集中搜索( f o c u s e d s e a r c h ) 算法进行了研究、尝试与比较,并最终选用了f o c u s e ds e a r c h 算法作为候 选编码器增强层固定码书的搜索算法。 4 第1 章绪论 1 4 论文结构 第一章是全文的绪论,主要介绍了本文的课题背景、研究现状与研究内容。 第二章对语音编码技术进行概述,主要介绍语音编码的基本原理、语音编码 器的分类以及语音编码方法的主客观评价方法。 第三章将整体描述本课题最终提交的嵌入式变速率语音编解码算法,对算法 原理进行了分析以及图解。 第四章分析c e l p 模型在实现嵌入式编码时存在的问题,并在此基础上提出 一种有助于提高嵌入式语音编码质量的自适应码书结构及其更新方法。 第五章描述如何在基于c e l p 模型的编码器上通过增加代数码书脉冲数的方 法实现对语音信号的嵌入式编码以及增强层代数码书增益的量化方法。 第六章对与本文工作相关的嵌入式语音编码器前三层的语音质量进行评测, 并给出主、客观测试结果。 5 第2 章语音编码概述 第2 章语音编码概述 2 1 语音编码技术 语音编码就是压缩语音信号的数字表示而使表达这些信号所需的比特数最 小的算法。数字语音信号的编解码过程可以表述为:在编码端,减少语音信号中 存在的冗余,打破语音信号原有的内部结构,以提取负载信息的参量加以传输; 在解码端,用所接收到的参量重新合成语音信号1 1 2 1 。语音信号能够被压缩的基本 依据是语音信号中存在的冗余和人类的听觉感知机理 2 1 1 语音信号产生的数字模型 人的发声是通过肺部收缩送出一股气流,经过人的生理上的三个主要的发声 器官:声道、咽喉和口腔所产生 根据人类语音的产生过程,人类的发声器官和发声过程可以模拟抽象为图 2 一l 所示的模型。 图2 - 1 语音信号产生的数字模型 语音生成系统分成三个部分,在声门以下称为“声门子系统”,它负责产生 激励振动,是“激励系统”。从声门到嘴唇的呼气通道是声道,是“声道系统”, 语音从嘴唇辐射出去,是“辐射系统”。激励系统分成浊音激励和清音激励两个 分支,按照浊音清音开关所处的位置来决定产生的语音是浊音还是清音。浊音 清音开关模拟了加在声道上的激励的改变情况。当开关接在浊音位置时,激励信 号由周期脉冲发生器产生周期冲激序列。当开关接在清音位置时,激励信号由随 机噪声发生器产生方差为1 的高斯白噪声序列。不断控制清浊音开关、激励脉冲 的周期以及噪声源强度,同时随着不同的发音改变滤波器特性,输出的信号就是 所要求的语音信号序列 7 语 音 信 号 s ( n ) 北京工业大学工学硕士学位论文 声门脉冲模型滤波器g ( z ) 的作用是:使浊音的激励信号具有声门气流脉冲的 实际波形。声门波形的频率分析表明,其幅度频率谱按每倍频1 2 d b 的速率递减。 滤波器g ( z ) 表示如下: 1 q 力2 f 万而 1 当g i ,g :都接近1 时rg ( z ) 所产生的浊音信号频谱与声门气流脉冲的频谱接近。 增益因子匆、如分别用于调节浊音和清音的幅度和能量。 声道模型v ( z ) 给出了声道的传输函数,它是一个全极点滤波器: 1 y ( z ) = 百二_ 一 ( 2 2 ) 亨a n z “ 篙 其中,a 。- - 1 ,口j 为实数,p 为全极点滤波器的阶数。p 值越大,与声道实 际的传输函数的吻合程度越高。当p 为偶数时,g ( z ) 一般有p 2 个共轭极点: 噍e x p ( + j o ) k ) ,k = l ,p 2 。各个峨分别与语音的各个共振峰相对应 辐射模型r ( z ) 是一阶高通滤波器,与人嘴有关,一般可表示为: 矗( z ) = ( 1 一,z 。) , r l( 2 3 ) 在语音生成模型中,g ( z ) ,r ( z ) 保持不变, 厶、4 、知,清浊判决,声 道参数矾,i = 1 ,2 ,p 是时变的。发声器官的惯性使这些参数的变化速度受 到限制,对于声道参数,在一个较短时间内( 1 0 - 3 0 m s ) 可近似认为是不变的, 因此,可认为语音信号是一个局部平稳的随机信号,即具有短时平稳性。 2 1 2 语音编码分类 目前语音编码主要分为三类:波形编码、参数编码和混合编码。 波形编码是根据语音信号的波形导出相应的数字编码形式,其目的是尽量保 持波形不变,使重构的语音信号的各个样本尽可能地接近原始语音信号的样本 值,并用减少量化误差的方法使重构语音朝着原始语音信号收敛。波形编码方法 简单,具有抗噪性能强、语音质量好等优点,但它需要有较高的编码速率,一般 为1 6 k b s - - 6 4 k b s l l 3 1 。在6 4 k b s 至3 2 k b s 之间音质优良,当编码速率低于3 2 k b s 的时候音质明显降低。它的主要问题是受量化噪声的限制,降低比特率很困难。 这种编码可在对信号带宽要求不太严格的通信中得到应用,而对频率资源相对紧 张的移动通信来说,这种编码方式显然不合适。 波形编码的时域方法有p c m ( p u l s ec o d i n gm o d u l a t i 0 1 1 ,脉冲编码调制) 闭, a d p c m ( a d a p t i v ed i f f e r e n c ep c m ,自适应差分编码) 【1 4 】和a p c ( a d a p t i v e p r e d i c t i v ec o d i n g ,自适应预测编码) l l 习;频域方法有s b c ( s u b b a n dc o d i n g , 8 第2 章语音编码概述 子带编码) 【1 司和a t c ( a d a p t i v e t r a n s f o r mc o d i n g ,自适应变换域编码) 【m 。 在参数编码器中,语音信号用一组模型的特征参数来表示。通过对语音信号 进行分析,可以提取这些参数并对其进行编码。与波形编码不同,参数编码虽依 赖于原始语音信号,但和原始语音的波形并无直接关系。参数编码器建立在人的 发声器官的生理结构基础上,主要是从听觉感知的角度重现语音,即让解码语音 听起来与输入语音是相同的,而不是保证其波形相同。一般来说,参数编码对编 码速率的要求要比波形编码低得多。在4 k b s 及以下速率的参数语音编码中,比 较有代表性的算法有: 多带激励( m u l t i - b a n de x c i t a t i o n ,m b e ) 编码 正弦交换编码( s i n u s o i d a lt r a n s f o r mc o d i n g ,s t c ) 混合激励线性预测( m i x e d = e x c i t a t i o nl i n e a rp r e d i c t i o n ,m e l p ) 编码 波形内插( w a v e f o r mi n t e r p o l a t i o n ,w i ) 编码 这些算法各自采用不同的语音生成模型,并且都取得了一定的成功其中, m b e 【1 羽和s t c 【1 9 1 为基于正弦合成分析模型( s i n u s o i d a la n a l y s i s s y n t h e s i sm o d e l s , s a s m ) 的语音编码算法,m e l p 为基于二元激励的线性预测编码算法【刎,w i 为 基于s a s m 和线性预测模型的混合型编码算法i z l , 捌。 8 0 年代以来,语音编码技术有了实质性的进展,出现了合成分析 ( a n a l y s i s - b y - s y n t h e s i s ,a b s ) 线性预测编码方法,进而产生了新一代的编码算 法,这就是混合编码( 基于合成分析的线性预测编码) 。它将波形编码和参数编 码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,力图保 持波形编码的高质量和参数编码的低速率,在4 1 6 k b s 速率上能够得到高质量 的合成语音,是一种适合于数字移动通信的语音编码技术。多脉冲激励线性预测 编码( m p l p c ) ,规划脉冲激励线性预测编码( r p e i j p c ) ,码本激励线性预测 编码( c e l p ) 等都是属于混合编码技术。 2 1 3 语音编码性能的评价方法 语音编码器性能主要由四个方面的因素来衡量,包括:编码速率、编码质量、 算法复杂度和编码延时。这四个因素之间是密切相关的,在实际工作中,应当对 不同因素的影响综合考虑,根据需要对侧重点的选择也会有所不同。 ( 1 ) 编码质量 语音编码质量是衡量语音编码算法优劣的关键性能之一。它的评价方法归纳 起来分成两类,即客观评价方法和主观评价方法。 客观评价方法用客观测量的手段来评价语音编码质萤,常用的方法有信嗓 比、分段信噪比、频域加权信噪比、最大最小信噪比以及非均方误差信噪比等。 9 北京工业大学工学硕士学位论文 它们都以信噪比概念为基础。信噪比( s n r ,s i g n a ln o i s er a t i o ) 定义为信号与 噪声的功率比,公式为 ,r 2 s n r ( a s ) = 1 0 l o g 二 】( 2 - 4 ) 盯, 其中仃:和矿:分别代表信号功率和噪声功率。 客观评价方法计算简单,但不能完全反映人耳对语音质量的感觉,这个问题 在速率为1 6 k b s 以下的中低速率语音编码中显得尤为突出,所以实际中广泛采用 的是主观评价方法。 主观评价方法国际上常用的有平均意见得分( m e a no p i n i o ns c o r e ,简称m o s 得分) 、判断韵字测试( d i a g n o s t i cr h y m et e s t ,简称d r t 得分) 、判断满意度 测量( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ,简称d a m 得分) 、二元判决( a bt e s t ) 以及主观信噪比掣a 2 4 1 。 ( 2 ) 编码速率 编码速率反映的是编码器对传输数据的压缩程度。它可以用b i t s 来度量,代 表编码的总速率,一般用i 表示:也可以用“比特样点”来度量,代表平均每个 语音样点用多少比特进行编码,一般用r 表示。i 和r 可以通过采样频率工联系起 来: i = r z ( 2 5 ) 其中采样频率z 是根据n y q u i s t 采样定理由信号带宽决定的。从上式不难看 出,平均每样点比特数r 越高,量化程度就越精细,话音质量就越容易提高。在 波形编码中,为了获得高质量的重建语音,一般取r 銎;而在参数编码中r 可以 低到0 2 5 甚至0 1 以下当然,此时重建语音的清晰度和自然度都会有所损失 ( 3 ) 算法复杂度 编解码算法的复杂程度与硬件实现的复杂程度、体积、功耗以及成本等直接 相关。目前各种语音编解码算法的实时实现大多使用通用的数字信号处理芯片来 完成。这样做的好处在于研制周期短,初期投资小。算法越复杂需要的d s p 芯片 就越高档,存储器容量也越大,复杂的算法往往可以获得更好的话音质量。在实 际应用时,对算法的选择应综合考虑这两个方面。 ( 4 ) 编解码延时 编解码延时包括算法延时( 语音分析所需的存储缓冲) 以及计算延时( 处理 帧内数据所需的时间) 。在实时语音通信系统中,语音编解码延时同线路传输延 时一样,对通话质量有很大的影响。延时过长会使通话双方都反应“迟钝”,严 重时无法正常通话。延时影响通话质量的另一个可能的原因是回声干扰。传输线 1 0 第2 章语音编码概述 路如果阻抗匹配不理想会使信号反馈形成回声。当延时比较小时,回声同话机侧 音及房间交混回响相混,因而感觉不到。若往返总延时超过1 0 0 毫秒,发送端就 能听到自己的回声。如果回声传输路径衰耗不够大,就会听到多次回声,从而严 重影响通话质量。对于公用电话网来说,单次语音编解码延时通常要求不超过 5 l o 毫秒。但在卫星通信等通信系统中,由于传输延时或由于纠错编码引入的延 时等已经比较大,再苛求语音编码的延时意义就不大了,这时语音编码的延时可 以放宽到几十毫秒n t o o 毫秒。当总延时超过1 0 0 毫秒时,一般都需要采取回声抵 消和回声抑制等措施。 2 2 码激励线性预测( c e l p ) 编码 码激励线性预测编码属于混合编码技术,它兼有波形编码和参数编码的优 点 1 9 8 5 年,m a n f r e dl 乙s c h r o c d c 和b i s h n us a t a l 首次提出了该编码模型,它用 线性预测技术提取声道参数,应用感觉加权技术和波形编码准则去优化激励信 号,即在闭环的基础上从一个具有典型激励矢量的码书中寻找主观失真最小的激 励矢量,从而以低于1 6k b s 码率获得高质量的合成语音,现有的许多语音编码标 准都基于该模型。 2 2 ic e l p 编码原理 b s a t a l 提出的随机激励线性预测合成模型( 图2 - 2 a ) 的基本思想就是利用 几乎是白的信号激励两个时变的线性递归滤波器,每个滤波器反馈环路上有一个 预测器,其中一个是长时预测器( 或基音预测器) p ( z ) ,用来产生浊音语音的音 调结构( 谱的细致结构) ,另一个是短时预测器f ( z ) ,用来恢复语音的短时谱包 络。随机激励线性预测模型来源于它的逆过程,如图2 - 2 b 所示,其中f ( z ) 用于 去除语音信号的近样点冗余度:p ( z ) 用于去除语音信号的远样点冗余度,经过两 级预测得到的归一化残差信号近似服从标准正态分布。 随机 激励 ( a ) 合成过程 l l 合成语音 北京工业大学工学硕士学位论文 n ) ( b ) 预测过程 图2 - 2 随机激励线性预测模型 一般地,短时预测器传递函数表示为 f ( z ) ;圭即一 n ) ( 2 6 ) 其中,为预测器系数,p 为预测器阶数,一般介于8 1 6 之间。在接收端,短 时合成滤波器的传递函数为 11 研。卜矗丽。高( 2 - 7 ) 其中4 0 ) = 1 一,( z ) 是线性预测误差滤波器。预测器系数q 一般每隔2 0 3 0 m s 修 正一次。 基音预测器的传递函数为 j p ( = ) = 屈z 叫川 j - i - , ( 2 8 ) 式中,肘为基音延迟,屈为基音预测器系数。通常,m 随系数届一起修正,修 正速率通常比短时预测器系数高,一般每隔5 l o m s 修正一次。基音合成滤波 器的传递函数为 日,( 力= 函1 丽 ( 2 9 ) 根据图2 2 给出的语音合成模型,可以给出如图2 - 3 所示的基于合成分析 过程的c e l p 语音编解码模型。 第2 章语音编码概述 ( a ) 编码器 ( b ) 解码器 图2 吨c e l p 语音编码原理框图 2 2 2 两级码书结构的c e l p 语音编码器 当图2 - 3 中的基音合成滤波器的阶数为1 时, 知,基音合成滤波器的传递函数为 h p ( z ) 2 焉 输出语音 由式( 2 - 8 ) 和式( 2 - 9 ) 可 ( 2 - 1 0 ) 式中,易为基音预测系数,肘为基音延迟。当固定码书激励作用于日,g ) 时, 其输出为 d ( ,o = “( 刀) + g 。d ( n 一 ,) 当蠢白) 作用于感觉加权合成滤波器日。( 力时,得到的合成语音为 ( 一) = d ( 叻+ 妻q j ( 万一0 :“( 帕+ g ,d ( 万一 ,) + 羔;q 一0 j 1 1柚 ( 2 - 1 1 ) ( 2 - 1 2 ) 由式( 2 1 2 ) 可知,合成激励由两个激励叠加而成,一个来自于固定码书“0 ) , 另一个来自于过去的合成激励d 0 一m ) 。这里将过去的合成激励d o m ) 定义为 北京工业大学工学硕士学位论文 自适应码书,它利用移位寄存器来存储码矢量,码矢量具有迭接性,若基音延迟 m 的最大值为m 。,则自适应码书的大小为m 。自适应码书记录着语音信号 的周期信息,并且每子帧更新一次。两级码书结构的c e l p 语音编码模型的原理 框图可用图2 - 4 来表示。 c e l p 语音编码算法主要包括线性预测( l p ) 分析( 又称短时谱分析) 、自 适应码书搜索和固定码书搜索三大部分。短时谱分析通常每帧进行一次,采用 l p 分析提取语音信号的谱包络信息,自适应码书搜索和固定码书搜索则每子帧 进行一次。从自适应码书和固定码书中搜索出的最佳激励矢量乘以各自的最佳增 益后相加便可得到激励信号鳍c ,它一方面被用来更新自适应码书( 每子帧 更新一次) ,另一方面则被输入到合成滤波器日( z ) 以得到合成语音雪( 玎) 。j ( 以) 与 原始语音s ( n ) 的误差通过感觉加权滤波器w ( z ) 后可得到感觉加权误差信号 e ( 行) ,并以此作为码书搜索的依据。c e l p 的译码过程已包含在编码过程中。在 译码时,根据编码传输过来的信息从自适应码书和随机码书中找到最佳码矢量, 分别乘以各自的最佳增益并相加可得到激励信号黜( h ) ,将e x c ( r 1 ) 输入到合成滤 波器h ( z ) 便可得到合成语音s ( 行) 。 图2 - 4 两级码书结构的c e l p 编码原理框图 2 3 变速率语音编码 2 3 1 标准化的变速率语音编码算法 在国际标准化工作中,语音编码技术是最活跃的领域之一。2 0 世纪9 0 年代, c d m a 移动通信系统和网络通信的飞速发展对语音编码技术提出了新的要求, 把变速率语音编码技术推到前台。各通信组织相继推出变速率语音编码技术标 1 4 第2 章语音编码概述 r o l l 准,具有代表性的是q c e l p , e v r c , a m r - w b 和g 7 2 9 e v 四种算法标准。 q c e l p 变速率语音编解码器【硐 q u a l c 0 1 1 1 n l 码激励线性预测( q c e l p ) 语音编译码器包括8 k b s 和1 3 k b s 的标 准,分别对应于t w e w i s 一9 6 一c 和t w e w i s 7 3 3 。它们已经成为北美数字蜂 窝宽带扩频通信系统所遵循的标准。q c e l p 编译码器采用全双工工作方式和可 交数据压缩比率,能产生近乎有线通信的话音质量。 q c e l p 对每帧语音信号进行能量分析以确定该帧的编码速率,并提取各种 参数( 线性预测系数、基音延迟、基音预测增益、固定码书索引或随机种子、固 定码书增益) ,然后把这些参数打包发送出去。在解码端,从收到的比特流中恢 复出各个参数,用固定码书索引从固定码书中得到固定码矢( 或用随机数种子得 到伪随机码矢量) ,乘以固定码书增益得到激励矢量。用基音延迟参数构成基音 合成滤波器,用线性预测滤波器系数构成l p c 合成滤波器。激励矢量依次通过 基音合成滤波器、l p c 合成滤波器计算出合成语音,最后用后置滤波器进一步增 强音质。 1 3 k b s 和8 k b sq c e l p 语音编解码器在主要模块中采用相同的算法,它们都 有四种速率:全速率、l 2 速率、1 4 速率、l ,8 速率。不同之处在于,1 3 k b sq c e l p 编码器包括一个2 阶编码速率判决模块,而8 k b sq c e l p 编码器只有1 阶编码速 率判决。另外,1 3 k b sq c e l p 采用矢量量化方法来量化线谱对( l s p ) 频率,8 k b s q c e l p 则采用标量量化的方法。q c e l p 能够根据信号能量和背景噪声动态调整 编码速率,能够显著降低平均编码速率而基本不影响合成语音的质量。1 3 k b s q c e l p 合成语音的质量较好,但算法较为复杂,平均编码速率较高;8 k b sq c e l p 平均编码速率较低,算法简单,但合成语音的质量不太好。 增强型变速率语音编解码器( e 、很c ) 【硐 1 9 9 7 年1 月,t i a 公布的i s - 1 2 7 协议规定了增强型变速率编解码( e n h a n c e d v a i l a b l er a t ec o & c ) 算法。e v r c 编解码器使用了三种编码速率:全速率8 8 5 k b s 、 半速率4 o k b 和1 8 速率0 8 k b s 。 e v r c 的输入信号为8 k h z 采样,1 6 比特量化的线性p c m 语音信号。每语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论