




已阅读5页,还剩53页未读, 继续免费阅读
(信号与信息处理专业论文)基于celp的常用语音编码器间的参数直接转换.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着无线通信网络和互联网络技术的发展,综合语音网络的互通性变的越来 越重要。综合语音网络支持多种语音编码器,需要对各种码流之间进行转换。 传统的码流转换方法是直通级联转换( t a n d e m ) 方式。直通级联方式通过解 码前一个编码器的码流重构语音信号,然后再通过后一个编码器将重构语音信号 编码为目标码流,然而,该方法的缺点是:运算量大,额外的延时。 本文在深入研究了目前应用j 一泛的三种基于c e l p 技术的语音编码标准 g 7 2 3 1 、g 7 2 9 和a m r 的基础上,提出了一种0 7 2 3 1 与g 7 2 9 码流间参数直接 转换( s m a r tt r a n s c o d i n g ) 的算法。该算法利用了g 7 2 3 1 和g 7 2 9 编码器的共性, 对两个语音编码器的线谱对( l s p ) 参数、自适应码本( a d a p t i v ec o d e b o o k ) 参 数、固定码本( f i x e dc o d e b o o k ) 参数和增益参数进行了直接转换。在不产生中 间合成语音的情况下,实现了码流间的直接转换。本文并给出了非正式的主观听 音测试结果和算法的复杂度分析。 最后,在简单介绍了已有的a m r 与g 7 2 9 码流间参数直接转换算法的基础 上,本文给出了该算法的改进,包括固定码本的快速搜索和增益码本的预搜索。 关键词:g 7 2 3 1 标准,g 7 2 9 标准,自适应多码率标准, 参数直接转换,直通级联转换,码激励线性预测 a b s t r a c t w i t ht h e d e v e l o p m e n t o fw i r e l e s sn e t w o r k a n d i n t e m e t ,f o r as u c c e s s f u l i n t e g r a t i o n o ft h e s p e e c hn e t w o r k s ,t h ei n t e r o p e r a b i l i t yb e c o m e sm o r ea n dm o r e i m p o r t a n t i ti sn e c e s s a r yf o ri n t e g r a t e ds p e e c hn e t w o r k s ,w h i c hs u p p o r tm u l t i p l e s p e e c hc o d e r s ,t ot r a n s l a t eb i ts t r e a m s b e t w e e nd i f f e r e n ts p e e c hc o d e r ss e a m l e s s l y c o n n e c t i n gt w oc o d e r si nt a n d e mi s t h et r a d i t i o n a lw a yt or e a l i z eb i ts t r e a m s t r a n s l a t i o n t a n d e mi st or e c o n s t r u c ts p e e c hs i g n a l sb yd e c o d i n gb i ts t r e a m so fo n e c o d e ca n dt h e nt oe n c o d et h e s p e e c hr e c o n s t r u c t e db ya n o t h e rc o d e lh o w e v e l t a n d e mc o d i n gi sa s s o c i a t e dw i t hs e v e r a lp r o b l e m ss u c ha sh i g hc o m p u t a t i o n a ll o a d a n da d d i t i o n a lt r a n s m i s s i o nd e l a y i nt h i s p a p e r ,a f t e rt h o r o u g hs t u d yo ft h et h r e ep o p u l a rc e l pb a s e ds p e e c h c o d e r si n c l u d i n g1 2 7 2 3 1 ,q 7 2 9a n da m r ,as m a r tt r a n s c o d i n ga l g o r i t h mb e t w e e n g 7 2 3 1a n dg 7 2 9s p e e c hc o d e r si sp r o p o s e d t h i sa l g o r i t h mu t i l i z e st h ec o m m o n n e s s b e t w e e nt h e s et w os p e e c hc o d e r st om a k ead i r e c tt r a n s l a t i o no fl s p ( l i n e a rs p e c t r a l p a i r ) p a r a m e t e r s ,a d a p t i v e c o d e b o o kp a r a m e t e r s ,f i x e dc o d e b o o kp a r a m e t e r sa n d c o d e b o o kg a i np a r a m e t e r s t h e r e f o r e ,t h eb i ts t r e a m sc o n v e r s i o ni s a c c o m p l i s h e d w i t h o u tr e c o n s t r u c t i n g t h e s p e e c hs i g n a l s ,i n f o r m a ls u b j e c t i v es p e e c hq u a l i t y e v a l u a t i o n sa n da n a l y s i so ft h ec o m p l e x i t yo ft h et r a n s c o d i n ga l g o r i t h ma r ea l s o g i v e n f i n a l l n ar e v i e wo ft h ea l r e a d ye x i s t e ds m a r tt r a n s c o d i n ga l g o r i t h mb e t w e e n g 7 2 9a n da m r s p e e c hc o d e r si sp r e s e n t e d s o m ef u r t h e ri m p r o v e m e n t sa b o u tt h i s a l g o r i t h m a r e m a d e ,i n c l u d i n g f a s tf i x e dc o d e b o o ks e a r c ha n dc o d e b o o k g a i n p r e s e a r c h k e y w o r d :g 7 2 3 1s t a n d a r d ,g 7 2 9s t a n d a r d , a m r ( a d a p t i v em u f f r a t e ) s t a n d a r d , s m a r t t r a n s c o d i n g ,t a n d e m , c e l p ( c o d e e x c i t e dl i n e a rp r e d i c t i o n ) i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:- 二狂j 一日 期:垫幽j 蔓u l 咀 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:握至导师签名:二丕盗塑 日删* l :l - t l :2 q q 垒生3 旦! q 目 第一章绪论 第一章绪论 1 1 现代通信系统中主要的语音编码标准 在当今的信息时代,信息的交流已经成为了人们生活中不可缺少的组成部 分,其中,语音通信无疑在人类信息交流中占有举足轻重的地位。现代数字通信 系统使得语音的传输变得多样化,追求低成本、保密性、高频率利用率。近年来 移动通信和互联网的高速发展,使得信道的使用效率成为了一项关键技术,这促 使传输语音的压缩技术,即,语音编码技术的不断发展。即使在今天,由于使用 光纤,带宽变得更廉价,在移动通信和互联网的语音传送应用中,语音编码技术 依1e t 扮演着重要的角色。 语音编码技术是利用语音信号生成模型和人耳的听觉特性,消除语音信号的 相关性,去掉部分冗余的信息,省去部分人耳不敏感的信息,从而达到降低传输 码率,提高系统传输有效性的目的。 下面以最重要的两个通信系统:移动通信系统和基于互联网的i p 电话系统 为例,简单介绍一下目前主要的一些语音编码标准。 近年来,移动通信技术发展非常迅速,全球出现了多个移动通信的技术标准。 第二代移动通信技术实现了完全的数字化,其中以g s m 系统为突出代表,该系 统采用g s m 半速率( h r ) 1 1 、全速率( f r ) f 2 】、增强全速率( e f r ) 嘲三种语音编码 标准,这些标准技术成熟,获得了相当广泛的应用;应用于第三代移动通信 w - c d m a 系统中的语音编码标准a m r ( a d a p t i v em u l t i - - r a t e ) h 】是由3 g p p ( 3 “ g e n e r a t i o n p a r t n e r s h i pp r o j e c t ) 标准化组织制定的,它还在不断地完善中,代表了 c e l p ( c o d ee x c i t e d l i n e a rp r e d i c t i v e c o d i n g ) 这_ 类编码算法目前的最高水平。 a m r 语音编码标准可以根据无线信道和传输状况来自适应地选择一种最佳信道 模式( 全速率或半速率) 和编码模式( 以比特率来区分) 进行编码传输,以提供 语音质量和系统容量的最佳组合。 i p 电话是通过使用i p 协议互联网来实现实时传送语音信号的- t o o 新型电信 业务【5 1 ,i p 语音技术以分组的形式传送语音数据【“。早期的i p 电话只是在多媒体 计算机上以软件方式实现,现在通过i p 电话网关实现p s t n ( p u b l i cs w i t c h e d t e l e d h o n en e t w o r k ) 和i n t e r n e t 的互通【7 】,从而实现了传统电话之间,多媒体计算 机和传统电话之间,多媒体计算机之间的语音通信。i p 电话具有通信费用与距 离无关、网络设备较为廉价的优点,并采用语音压缩编码技术和静音压缩技术, 东南大学硕士学位论文 l 第一鬻缝论 使网络带宽的利用率大大提高。使i p 电话市场快速、持续发展并最终达到广泛 商业应用的必键是i p 电话技术标准的绕一。1 9 9 6 年,h ,3 2 3 建议成为i p 电话标 准,它是国鼯电信联强( 弹u ) 静一个禄懑簇。在该建议的语音编磷部分,可黻氆 用多种语音编码标准【8 】,如( 3 7 2 2 、g 7 2 3 1 、g 7 2 8 、g 7 2 9 等,艇中应用比较多 的是g 7 2 3 1 和g 7 2 9 编码标准。 上述器潺鸯缡鹞稼壤及巍准攒述冤袋1 1 : 表1 - 1 语膏编码标准描述 9 1 语音编码标准标准的简单描述 l t 疆t & 7 l lp u s ec o d em o d u l 采i o nf o rv o i c ef r e q u e n c i e s ( p c m ) s b a d p c m :s u b - b a n d a d a p t i v ed i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ;1 6 i t u tq 7 2 2 k h z s a m p l i n gf r e q u e n c y i t u - tt 2 7 2 3 1d u a lr a t es p e e c bc o d e cf o rm u l t i m e d i a a p p l i c a t i o n s ( m p - m l q a c e l p ) 玎强tg t 7 2 6 a d a p t i v e d i f f e r e n t i a lp u l s ec o d e m o d u l 辩i o n ( a d p c m ) i t u tg 7 2 8l o w d e l a yc e l p ( l d c e l p ) g 7 2 7 h :v a r i a b l e r a t el d * c e l p c o n j u g a t e s t r u c t u r ea l g e b r a i cc e l p ( c s - a c e l p ) g 7 2 9 a :r e d u c e d i t u tg 7 2 9 ( a b ) c o m p l e x i t ya l g o r i t h m ;g 7 2 9 b :d i s c o n t i n u o u st r a n s m i s s i o n ( d t x ) e t s ig s m0 6 ,1 0f u l lr a t e ( f r ) s p e e c hc o d e c ( r p e - l t p :r e g u l a rp u l s ee x c i t a t i o n l o n g ( g s m f r ) t e r m p r e d i c t i o n ) e t s ig s m0 6 2 0h a l fr a t e ( h r ) s p e e c hc o d e c ( v s e l p :v e c t o rs u me x c i t e dl i n e a r ( g s m h 融 p r e d i c t i o n ) e 汀s lg s h 0 6 6 0 ( g s m e f m e n h a n c e df u l lr a t e ( e f r ) s p e e c hc o d e c ( a c e l p :a l g e b r a i cc e l p ) e t s ig s m0 6 7 0 e t s i a d a p t i v em u i t i - r a t e ( a m r ) s p e e c h c o d e c ( g s m a m r ) n o k i a a m r * w bn o k i a p r o p o s a lf o r a nw i d e b a n d a d a p t i v em u l t i r a t e ( a m r ) c o d e c 1 2 语音编码器间转换的研究背景 目前,随着移动通信两络和互联网嘲络技术的教袋,网菰闻麓嚣线变餐模辎, 对于现代通信而言,网络之间的互通性变得越来越麓要,网络融合已经成为移幼 通信技术祁互联网技术发展的趋势。练台的语音网络为了满足用户的多种要求, 需要支持多耱静语音编璃瓣。对予後麓不丽语音缀鹨器静爝户壤之湾魏语音邋 信,就会遇到语音编码器间转换的问题。 以使用移动电话拨打i p 电话为例。移动通信l j 9 络与互联网对语音的编解码 稼准是不藏熬,这裁嚣要在不司熬秘漉之阉送行转羧,这项工 乍囊i p 溷关”q 来 东南大学碗士学位论文 第章绪论 完成。根据 v a n d 9 8 1 l 】的模型,i p 网关可分解为媒体网关( m e d i ag a t e w a y ) , 媒体网关控制器( m e d i ag a t e w a yc o n t r o l l e r ) 和信令网关( s i g n a l i n gg a t e w a y ) ,其 中媒体网关提供在i p 电话网络之间的映射和转换功能。如将i p 网络上的g 7 2 3 1 的语音转换为移动电话网络上的p c m 语音、g s m 语音等。对于这种语音编码器 码流之间的转换,可以想到的一种最直接的转换方法就是先解码还原成为标准的 合成语音,再按照接收端的要求编码成所需的码流。该方法被称为t a n d e m 方式, 也被称为d t e ( d e c o d e t h e n e n c o d e ) 方式。以a m r 与g 7 2 3 1 之间的码流转换为 例,t a n d e m 方式的流程如图1 1 所示。 合成语音 移动电话端 i p 电话端 圈1 1t a n d e m 方式下a m r 与g 7 2 3 1 的码流转换 通过这种t a n d e m 方式不仅可以方便地实现c d m a 2 0 0 0 移动终端到 c d m a 2 0 0 0 移动终端的呼叫,而且还可以支持c d m a 2 0 0 0 系统到g s m ,t d m a 或v o i p 系统的呼叫【1 2 。该种方式可以在对现有的系统影响最小的情况下,实现 语音网络间的互连互通,并且结构清晰,算法成熟,充分利用了现有资源。但显 而易见的是,语音在通过t a n d e m 方式转换时,要经过两次编解码过程,运算量 大,耗费存储空间多,并且每次的编码或解码都会使语音质量受损,同时,每个 编码器都会引入额外的处理延迟。设想一下,如果有算法可以实现不同语音编 码协议间的直接转换,将可以大大地降低转换的复杂度,降低媒体网关的工作量, 并且还可以避免引入过长的延迟。这一点也就是本篇论文所要研究的问题,参数 直接转换方式的流程如图1 2 所示。 原始语音 g7 2 3 1 码流还原语音 一懦卜寸磊卜_ 恒十 移动电话端 i p 电话端 图1 2 参数直接转换方式下a m r 与g 7 2 3 1 的码流转换 语音编码器问的参数直接转换也被称为智能转码( s m a r tt r a n s c o d i n g ) ,适 东南大学硕士学位论文 第一章绪论 用于具有相似的编码模型和相似的编码参数的语音编码器之间的转换。比如 g 7 2 3 1 、g 7 2 9 和a m r 这三种编码器的核心技术都是c e l p ,使用的编码参数 都是线谱对参数和基音参数等,因此,它们之间的直接转换具有一定的可行性。 在实际的转换中,这些语音参数实际上都是对应与某一特定码本的索引号,而参 数直接转换就是要在这些码本和索引号之间建立某种联系,而跳过合成语音的中 间过程。 解码部分编码部分 比特流索引流参数流合成语音参数流索引流比特流 撇励通过 比特解码查找码本提参搜索码率比特编码 台成滤波器 -广- 卜+ ir i i 一- 参数直接转换方式 图1 3 参数直接转换示意图【1 3 目前,已经发表了一些关于语音编码器间参数直接转换的研究成果,如 k y u n g t a ek i m 等提出的在语音编码器g 7 2 3 1 和e v r c 间一种高效的参数直接 转换算法 1 4 ,a t & t 实验室的h o n g - - g o ok a n g 等人的论文一一“i m p r o v i n g t r a n s c o d i n gc a p a b i l i t y o f s p e e c h c o d e r si nc l e a na n df r a m ee r a s u r e dc h a n n e l e n v i r o n m e n t s ”【1 5 1 以及关于g s m 到g 7 2 9 的参数直接转换的算法研究【1 6 】等。许多 的科研机构和网络设备提供商也在进行这一方面的研究,目的是提供i p 电话和 移动电话间的无缝连接,促进通信网络间的互联互通,创造更加自由、直接的网 络环境。由此可见,关于语音编码器问的参数直接转换问题是最近几年来关于语 音编码和网络融合技术研究的一个热点。 与传统的t a n d e m 方式相比,语音编码器间的参数直接转换最大的优势在于 简化了转码过程,省去了大量的重复计算。比如在t a n d e m 方式下,第一次解码 东南大学硕士学位论文 第一章绪论 语音参数合成出语音,然后又要重新编码,重新求取参数,而这些参数可能就是 前一次解码时已经得到的参数。此外,参数直接转换的方式也可以降低在综合语 音网络通信中的延迟。这里的延迟不仅包括转换本身的处理时间,也包括 l p c ( l i n e a r p r e d i c t i v e c o d i n g ) 分析中的前瞻( 1 0 0 k a h e a d ) 时间。 概括而言,语音编码器间的参数直接转换就是在不产生中间合成语音的情况 下,在参数层面上实现从一种语音编码器的码流到另一种语音编码器的码流的直 接转换。 1 3 论文的主要工作及内容安排 本论文的主要工作是深入研究目前应用广泛、影响较大的三种语音编码标准 g 7 2 3 1 、g 7 2 9 和a m r ,在此基础上详细讨论了g 7 2 3 1 和g 7 2 9 两种编码器的 码流间参数直接转换的可行性,并提出一种参数直接转换( s m a r tt r a n s c o d i n g ) 的 算法,使得g 7 2 3 1 两种码率( 5 3 6 3 k b p s ) 的码流和g 7 2 9 码流( 8 k b p s ) 直接在参 数层面上实现转换,并在p c 机上用c 语言对该算法进行了仿真。 在本论文的工作之前,已经有本实验室的同学对a m r 与g 7 2 9 间的参数直 接转换进行了研究,提出了两者问的直接转换的算法。本论文对已有的a m r 与 g 7 2 9 间的参数直接转换算法提出了两点改进意见,并对进一步实现a m r 与 ( 3 7 2 3 1 间的直接转换提出了一些建议。 论文的章节安排如下: 第一章绪论,介绍现代通信系统,主要是移动通信系统和基于互联网的i p 电话系统中常见的一些语音编码标准,语音转换课题的研究背景, 研究成果以及论文的内容安排。 第2 2 章介绍语音压缩编码技术,衡量语音编码性能的参数以及详细介绍语 音编码中的码激励线性预测编码技术。 第三章进行g 7 2 3 1 与g 7 2 9 语音编码器参数直接转换的可行性分析,从 编码参数:l s p 系数、基音参数、固定码本、码本增益这几个方面, 详细比较两种语音编码标准的差异。 第四章给出g 7 2 3 1 与g 7 2 9 参数直接转换详细的实现方案,对算法的性 能进行分析。 第五章对已有的a m r 与g 7 2 9 语音编码器间的参数直接转换算法提出两 点改进意见:固定码本的快速搜索和增益码本的附加预搜索。 东南大学硕士学位论文 第一章绪论 结束语本文的工作总结,后续改进的建议,对进一步实现a m r 与g 7 2 3 1 语音编码器间的参数直接转换提出了一些建议。 东南大学硕士学位论文 第二章语音编码技术 语音信号编码有非常广泛的应用,本章将详细介绍语音编码技术的分类和语 音编码中重要的码激励线性预测编码( c e l p ) 技术,为了后面表述的需要,首先 简要地说明语音编码器的性能指标。 2 1 语音编码器的性能指标 语音编码研究的基本问题就是在给定的编码速率的条件下,如何得到尽可能 好的重建语音质量,同时尽量减小编码延时及算法的复杂度。换而言之,衡量语 音编码器的性能指标主要是编码速率,编码质量,编解码复杂度和编解码延时这 四个因素。 2 1 1 编码速率 编码速率是语音编码器最直接的参数,它反映了编码器的有效性。编码速率 表征编码的总速率,可以用“比特,秒”( b p s ) 来度量,一般用,表示。 一般而言,平均每样点比特数越高,语音波形或参数量化越精细,合成语音 质量也就越容易提高,但相应的对传输带宽和存储容量的要求也就越高了。 2 1 2 编码质量 语音编码质量是衡量语音编码算法优劣的关键指标之一,它反映了编码器的 可靠性。通常有两类评定方法:主观评定方法和客观评定方法。 客观评定方法用客观测量的手段来评价语音编码质量,常用的方法有信噪 比、加权信噪比、平均分段信噪比等。它们都是建立在度量均方误差的基础上, 其特点是计算简单,但不能完全反映人对语音质量的感知。 主观评定方法符合人类听话时对语音质量的感受,目前得到了广泛的应用。 最常用的主观评定方法为平均意见得分( m e a no p i n i o ns c o r e ) ,简称为m o s 得分。 m o s 得分采用5 级评分标准,如表2 1 所示。参加测试的试验者,在听完测试 的语音后,从这5 个等级中选择其中某级作为他对所测语音质量的评定。全体 试验者的平均分就是所测语音质量的m o s 分。 表2 - 1m o s 判分五级标准 m o s 判分质量级别失真级别 5 优( e x c e l l e n t )不察觉 4 良( g o o d ) 刚有察觉 3可( f a i r )有察觉且稍觉可厌 2 差( p o o r ) 明显察觉且可厌但可忍受 1坏( b a d )不可忍受 东南大学硕士学位论文 第二章语音编码技术 在数字语音通信中,通常认为m o s 分4 0 4 5 分为高质量语音,达到长途 电话网的质量要求,接近于透明信道编码,常称之为网络质萤;m o s 分3 5 左 右称作通信质量,这时能感到重建语音质量有所下降,但不妨碍正常通话,可以 满足多数话音通信系统使用要求;m o s 分3 0 以下常称作合成语音质量,一般 具有足够高的可懂度,但自然度及讲话人的确认等方面不够好。 2 1 3 编解码复杂度 编解码的复杂度反映了编解码器的经济性,同语音质量有非常密切的关系。 在相同码率的情况下,采用复杂些的算法将会获得更好的语音编码质量。 目前在许多应用中都要使用d s p 芯片实现各种语音编解码算法,因此语音 编解码算法的复杂度通常也可以用d s p 芯片的处理能力指标m i p s ( 每秒百 万指令数) 和所需存储器容量来衡量。 2 1 4 编解码延时 延时由三部分组成:算法延时( a l g o r i t h m i cd e l a y ) 、处理延时( p r o c e s s i n gd e l a y l 和通信延时( c o m m u n i c a t i o n sd e l a y ) ,总延时为三部分延时之和。算法延时主要 由于语音信号的采样和前瞻延时,通常在1 5 - - 4 0 m s 之间。语音的编码与解码过 程需要一定时间,这就是处理延时,在5 1 0 m s 之间。通信延时在语音编码器 与解码器之间的信道中产生,这一延时的具体数值视通信信道情况而定。 2 2 语音编码技术的分类 1 7 】 1 8 2 0 世纪3 0 年代末提出脉冲编码调制( p c m ) 原理和声码器m c o d e r ) 的概念, 其后,脉冲编码调制逐步发展为语音信号的波形编码,而声码器则发展为参数编 码。这两种编码方式的主要区别在于重建的语音是否在波形上尽量与原始信号一 致,波形编码根据语音信号的波形形状,使解码后的信号在波形上尽可能地减小 失真;而参数编码是在重建语音有足够可懂度的前提下,通过建立语音生成模型, 提取代表语音特征的参数来编码。表2 2 为两类编码方法的特点比较【l ”。 表2 - 2 波形编码与参数编码比较 波形编码参数编码 编码信息+ 波形模型参数 编码速率 9 6 - 6 4 k b p s 2 4 9 6 k b d s 语音质量谱失真、 评价方法 s n r 主观听音( m o s 分) 随着量化粗糙台成语音质量较低。 缺点 语音质量下降处理复杂度离 东南太学硕士学位论文 第二章语音编码技术 2 0 世纪8 0 年代以来,语音编码技术有了突破性的进展,产生了结合两类编 码方法优点的混合编码,可以在低码率上获得高质量的合成语音。其主要特征为 使用线性预测分析合成( l p a s :l i n e a rp r e d i c t i v ea n a l y s i s b y - s y n t h e s i s ) 技术,这类 编码的代表就是码激励线性预钡j j ( c e l p ) 编码。 2 2 1 波形编码 波形编码是较早出现的一种语音编码方式,它将语音信号作为一般的波形信 号来处理,力图使重建的语音波形保持原语音信号的形状。该编码方式的优点是 具有较强的适应能力,有较好的合成语音质量,然而由于未考虑语音信号本身的 冗余度,故编码速率高,编码效率极低。脉冲编码调制( p c m ) 、自适应增量调制 ( a d m :a d a p t i v ed e l t a m o d u l a t i o n ) 、自适应差分编码( a d p c m :a d a p t i v ed e l t a p c m ) 、 子带编码( s b c :s u b b a n dc o d i n g ) 、变换域编码( t c :t r a n s f o r mc o d i n g ) 等都属于波 形编码。一般而言,波形编码器的复杂度比较低,当编码速率为1 6 k b p s 6 4 k b p s , 有较高的编码质量,但当编码速率再下降时,其合成语音的质量会下降得很快。 p c m 直接对语音信号进行采样量化编码,算法简单,c c i t t 于1 9 7 2 年制定 的g 7 1 1 语音编码标准实现了该算法。a d p c m 则利用相邻p c m 信号间的相关 性,对语音信号做差分编码,其中预测部分和预测所得的残差信号的量化部分都 是自适应的,c c i t t 的( 3 7 2 1 语音编码标准实现了a d p c m 的编码算法。g 7 2 1 编码器基本框图如图2 1 所示。 编码输出 图2 1a d p c mc - 7 2 1 编码器基本框图” s b c 将输入信号分割成几个不同的频带分量,再分别进行编码,相对于 p c m 、a d p c m 这些时域编码,s b c 属于频域编码,其优点是:第一,对不同子 带合理地分配比特数,可以使重建信号的量化误差谱适应人耳听觉特性,以获得 更好的主观听觉质量;第二,各子带内的量化噪声相互独立,这样就避免了输入 电平较低的子带信号被其他子带的量化噪声所淹没。c c i t t 的g 7 2 2 语音编码标 东南大学硕士学位论文 第二章语音编码技术 准使用了子带编码技术。图2 2 显示了子带编码的原理。 骝卜 多 路 混 a 口 i 裂卜 多 路 解 混 图2 2 子带编码原理框图 t c 也是一种频域编码,它对输入信号进行正交变换,对变换后代表频率分 量的系数进行量化编码。选用的正交变换一般为接近最佳正交变换的离散余弦变 换( d c t :d i s c r e t ec o s i n et r a n s f o r m ) 。变换域编码的原理框图如图2 3 所示a 0 “ y 图2 3 变换域编码原理框图 2 2 2 参数编码 参数编码是针对语音信号的特征参数,通过建立语音生成模型( 参见图2 4 ) 来编码,因此一般只适用于语音信号编码。参数编码从话音波形信号( 时域或频 域) 中提取生成语音的参数,在接收端利用这些参数重构出语音。参数编码器在 提取语音特征参数时,力图使重建的合成语音有尽可能高的可懂度,但重建语音 的波形与原语音信号的波形可能有较大的区别,因此合成语音的自然度较低。 增益爿“ 图2 4 语音信号产生的离散时域模型 号s ( h ) 利用参数编码实现的语音通信的设备通常被称为声码器,例如通道声码器、 共振峰声码器、同态声码器以及广泛应用的线性预测( l p c ) 声码器等都是典型的 语音参数编码器。当前参数编码的研究方向主要是线性预测声码器和余弦声码器 ( s t c :s i n u s o i d a l t r a n s f o r mc o d e c ) 。 东南大学硕士学位论文 1 0 第二章语音编码技术 l p c 声码器利用线性预测方法对语音进行去相关处理,对余量信号进行编 码。美国政府于1 9 8 1 年采用的“政府标准线性预测编码l p c 1 0 ”就是一种典 型的l p c 声码器。l p c 一1 0 声码器编码器发端框图如图2 5 所示。 。i 一,o 髓0 - - 3 撇6 0 0 h :h 。a 唼1 2 换b i ,。w 斗分藉 原;i 富纠! ! r - 叫! ! 生 ! ! 叶11 竺兰r _ 叫坌篓塑堡 数字语音出 基音分析存储器 际面丽 清浊 检测 兰童墨塑! 塑苎堡里l p i t c h lv u v l 预测器 分析存储器 预测系数 参数 存储器 井变串及同步产生k 卜_ 一误差技正和膀射h i 参数编码 图2 5l p c 一1 0 声码器编码器发端框图 余弦声码器是2 0 世纪8 0 年代后期才发展起来的一种与l p c 声码器截然不 同的技术。余弦变换声码器由m c a u l a y 和q u a t i e r i 2 1 1 提出,在1 4 8 k b p s 和2 2 4 k b p s 这两种码率上,算法均可以得到满意的解码语音。 2 2 3 混合编码 混合编码是参数编码和波形编码的结合,它的特点是:先进行l p 分析,去 掉语音的短时相关性,然后再用合成分析法( a - b s :a n a l y s i s - b y - s y n t h e s i s ) 及感 知加权( p e r c e p t u a l l yw e i g h t e d ) 均方误差最小准则分析出合适的替代余量信号的 最佳激励信号源,最后对l p 参数和激励信号源进行编码和传送。由于激励模型 和误差计算与时域波形相联系,使合成语音具有较强的跟踪输入语音变化的性 能,从而改善了合成语音的质量和抗噪声的能力。 目前比较重要的混合编码方案有以下四种:由b i s h n us a t a l 和j o e l r r e m d e 于1 9 8 2 年提出的多脉冲线性预测编码方案( m p l p c :m u l t i - p u l s e l i n e a r p r e d i c t i v e c o d i n 曲【2 2 】;由e d f d e p r e t t e r e 和p e t e rk r o o n 于1 9 8 5 年提出的实用算法规 则脉冲激励线性预测编码( r p e l p c :r e g u l a r - p u l s e e x c i t a t i o n l i n e a r p r e d i c t i v e c o d i n 9 1 2 3 1 ;1 9 8 5 年m a n f r e dr s c h r o e d e r 和b i s t m us a t a l 提出的码激励线性预 测编码( c e l p ) 2 4 ;美国m i t 林肯实验室提出的多带激励声码器( m b e : m u l t i b a n d - e x c i t a t i o n ) 。这四种方案的主要区别体现在激励源的选取上:对于 东南大学硕士学位论文 枣史芋 始二章语音编码技术 m p - l p c 方案,激励脉冲序列在一定时间里只能出现数目有限的非零脉冲: r p e l p c 方案中的激励脉冲序列为一组间距定的非零脉冲;c e l p 方案中的激 励源引入了矢量量化( v q ) 技术,使用v q 码本中的码矢量作为激励序列,通过对 码本中的码矢量的搜索,找到与输入语音信号误差最小的合成语音的激励码矢 量:m b e 突破了二元激励的局限性,将语音谱按各基音谐波频率分为若干子带, 对各子带信号分别判断浊音还是清音,然后根据清浊音,采用不同的激励信号产 生其合成信号,最后将各带信号相加,形成全带合成语音。 c e l p 是当前一种主流的语音编码技术,在4 1 6 k b p s 码率上可以得到比其 他算法更高的重建语音质量。下面的章节还会重点介绍c e l p 技术。 在结束本节之前,给出部分常见的语音编码标准算法的性能小结,见表2 3 。 袭2 - 3 部分语音编码标准算法的性能哪i 编码标准 g 7 1 ig 7 2 lg 7 2 8g 7 2 9g 7 2 3 1a m r 公布年代1 9 7 21 9 8 41 9 9 21 9 9 51 9 9 51 9 9 9 l d c s m p m l q 算法名称 p c ma d p c ma c e l p c e l pa c b l pa c e l p 编码述率( k b s ) 6 43 21 686 3 ,5 _ 31 2 2 - 4 7 5 编码质量( m o s ) 4 34 14 04 o3 8 4 0 编码延时( m s ) o 1 2 50 1 2 50 6 2 51 53 7 52 0 算法复杂度 l265 02 2 5l8 7 2 022 1 2 - 3 7 1 ( m i p s ) 2 3 码激励线性预测声码器 1 7 1 9 8 5 年,m a n f r e dr s c h r o e d e r 和b i s h n us a t a l 在i e e ei c a s s p 年会上首先 提出了使用码本作为激励源的线性预测编码技术( c e l p ) 。c e l p 以高质量的合成 语音及优良的抗噪声和多次转接性能。在4 8 1 6 k b s 速率上得到了广泛的应用。 1 9 8 8 年,美国政府标准语音编码器在4 8 k b s 速率采用山美国国防部与a t & t 贝 尔实验室共同研制- 丌发的c e l p 声码器( f e d s t d 1 0 1 6 ) ;1 9 8 9 年8 k b s 速率的北 美数字移动通信全速率编译码器标准采用修改的c e l p 技术矢量和激励线 性预测编码( v e c t o rs u m e x c i t e dl i n e a rp r e d i c t i v ec o d i n g ) ,缩写为v s e l p ;1 9 9 1 年i e e e 通过了用短延时码激励线性预测编码( l o w d e l a yc o d ee x c i t e d l i n e a r p r e d i c t i v ec o d i n 9 1 ,缩写为l d c e l p ,作为1 6 k b s 语音编码器的标准;1 9 9 5 年 r 丁u 通过了语音编码标准g 7 2 9 ,陔标准使用基于共扼结构代数码激励线性预测 f c s a c e l p ) 的8 k b s 语音编码算法;i t u 的语音编码标准g 7 2 3 1 的5 3 k b s 码率 也采用了基于代数码激励线性预钡, u ( a c e l p ) 的算法;1 9 9 9 年,3 g p p 通过的应用 于笫三代移动通信系统的语音编码标准a m r 也是基于c e l p 算法。 东南大学母i :i :学位论艾 第二章语音编码技术 2 3 1c e l p 算法说明 c e l p 编码基于合成分析法( a n a l y s i s b y - s y n t h e s i s ) 的搜索过程、感知加权矢 量量化( v q ) 和线性预测( l p ) 技术。目前,术语“c e l p ”已用于通称采用l p 、a b s 和v q 技术获取和编码激励信号的这一类语音编解码器。 黔需音 i 弘喀害恒 ;。 一叫 :! 垩熙t 一一陌福丽磊鬲矗一 i 图2 6c e l p 编码示意图 c e l p 采用分帧技术进行编码,帧长一般为2 0 3 0 m s ,一般每个语音帧分为 2 5 个子帧,以子帧为单位搜索最佳的码矢量为激励信号。图2 6 是c e l p 编码 示意图。如图所示,c e l p 一般用个自适应码本中的码矢量来逼近语音的长时 周期性结构;用一个固定的随机码本中的码矢量来逼近语音的经过短时、长时预 测后的余量信号。从两个码本中搜索出来的最佳码矢量,乘以各自的最佳增益后 相加,其和就是c e l p 的激励信号源。将激励信号输入p 阶l p 线性预测综合滤 波器1 a 0 ) ,得到合成语音信号;( 坊,;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东广告策划自考试题及答案
- 篮协培训考试题及答案
- 木刻水印雕刻版员数字化技能考核试卷及答案
- 课件无法打开的原因
- 课件旋转平移路径
- 真空制盐工协同作业考核试卷及答案
- 压电石英片烧银焊线工5S管理考核试卷及答案
- 基础强化自考专业(行政管理)试题【历年真题】附答案
- 钢渣处理工质量追溯知识考核试卷及答案
- 2025年康复医学科患者康复方案制定考核试题答案及解析
- 《江苏省工程勘察设计收费导则》2024
- T-CALC 007-2025 重症监护病房成人患者人文关怀规范
- 2025年全国禁毒知识竞赛题库(共100题附答案)
- 储能站施工组织设计施工技术方案(技术标)
- ktv消防安全培训制度
- GB/T 44923-2024成年人三维头部模型
- 公司固定资产管理办法与实施细则
- 傣医学中的月疗褥疗法治疗
- 小学生-竞选纪律委员
- 心内科心衰一病一品护理成果汇报
- 孕产妇心理危机干预应急预案
评论
0/150
提交评论