(通信与信息系统专业论文)自适应多速率语音编码技术应用于voip系统的研究.pdf_第1页
(通信与信息系统专业论文)自适应多速率语音编码技术应用于voip系统的研究.pdf_第2页
(通信与信息系统专业论文)自适应多速率语音编码技术应用于voip系统的研究.pdf_第3页
(通信与信息系统专业论文)自适应多速率语音编码技术应用于voip系统的研究.pdf_第4页
(通信与信息系统专业论文)自适应多速率语音编码技术应用于voip系统的研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(通信与信息系统专业论文)自适应多速率语音编码技术应用于voip系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自适应多速率语音编码技术应用于v o i p 系统的研究 摘要 自适应多速率( a m r ,a d a p t i v em u l t ir a t e ) 语音编码是由3 g p p ( 3 r dg e n e r a t i o np a r t n e r s h i pp r o j e c t ) 制定的应用于第三代移动通信 w - - c d m a 系统中的语音压缩编码。它以更加智能的方式解决信源 和信道编码的速率分配问题,使得网络资源的配置和利用更加灵活 和高效。它支持八种速率:1 2 2 k b s ,1 0 2k b s ,7 9 5k b s ,7 4k b s ,6 7 0 k b s ,5 9 0k b s ,5 1 5k b s 和4 7 5k b s ,此外,它还包括低速率的( 1 8 0 k b s ) 背景噪声编码模式。 实际的语音编码的速率取决于信道的条件,与采用固定的编码 速率的语音编码方式相比,a m r 语音编码则可根据信道的传输状况 来自适应地选择一种最佳编码模式( 以比特率来区分) 进行编码传 输。 传统的v o l p 系统都采用固定编码速率的语音编码器,这种固定 速率的话音编码器不能够根据信道状况自适应的调整编码速率,因 此在网络状况不好的条件下性能就会严重下降。通过分析v o l p 系统 和自适应多速率语音编码技术的特点,本论文提出了一种将自适应 多速率语音编码技术应用于v o l p 系统的方法,并通过仿真验证了在 不同网络环境下的这种v o l p 系统中的a m r 技术的有效性。 在v o l p 系统中实现自适应多速率语音编码后,本文进一步对 a m r 编码算法中舒适噪声生成、话音激活检测、丢帧隐藏机制三个 模块分别进行了优化,系统仿真表明,这种优化后的a m r 语音编 码算法能够进一步提升v o l p 系统的性能,将a m r 编码器的编码时 延降低2 0 。 最后我们得出结论,本文提出的a m r 优化算法可以很好的与 v o l p 系统相结合,提供较好的话音质量。 关键词:自适应多速率编码 v o l p 话音激活检测舒适噪 声丢帧隐藏 t h er e s e a r c h0 fa m rb a s e d 、厂o i ps y s t e m a b s t r a c t t r a d i t i o n a l l y , f i x e db i t r a t es p e e c hc o d i n gi su s e di nv o i ps y s t e m t h i s t e c h n o l o g yc a nn o ta d a p t i v e l ys w i t c hi t s b i t r a t ed u et o n e t w o r kc o n d i t i o n s ow es e l e c ta m rs p e e c hc o d e r t h ea m rs p e e c hc o d e rc o n s i s t so ft h em u l t i r a t es p e e c hc o d e r ,a s o u r c ec o n t r o l l e dr a t es c h e m ei n c l u d i n gav o i c ea c t i v i t yd e t e c t o ra n da c o m f o r tn o i s eg e n e r a t i o ns y s t e m , a n da ne r r o rc o n c e a l m e n tm e c h a n i s m t oc o m b a tt h ee f f e c t so ft r a n s m i s s i o ne r r o r sa n dl o s tp a c k e t s t h e m u l t i r a t es p e e c hc o d e ri sas i n g l ei n t e g r a t e ds p e e c hc o d e cw i t he i g h t s o u r c er a t e sf r o m4 7 5k b i t st o1 2 2k b i t s ,a n dal o wr a t eb a c k g r o u n d n o i s ee n c o d i n gm o d e t h es p e e c hc o d e ri sc a p a b l eo fs w i t c h i n gi t s b i t r a t ee v e r y2 0m ss p e e c hf r a m eu p o nc o m m a n d c o m p a r e dw i t h f i x e db i t r a t es p e e c hc o d e ra m rc a np r o v i d em o r ef l e x i b i l i t y t h i sp a p e rf o c u s e so nh o wt oe f f i c i e n t l ym e r g ev o l ps y s t e ma n d a d a p t i v em u l t i r a t e ( a m r ) t e c h n o l o g y t h eg e n e r a lk n o w l e d g eo f v o l ps y s t e ma n da m rw e r ei n t r o d u c e di nt h ef i r s tc h a p t e r b a s e do n t h ea n a l y s e so ft h e s et w ot e c h n o l o g i e s ,w ep r o p o s e dam e t h o dt om e r g e t h e mi n t oo n es y s t e mi no r d e rt oo v e r c o m et h ed r a w b a c ko f f i x e d b i t r a t ev o i c ec o d i n gi nv o l ps y s t e m b ys i m u l a t i o nw ep r o v e dt h a t v o i ps y s t e mb a s e do na m rs p e e c hc o d e rc a na c h i e v e h i g h e r p e r f o r m a n c eg a i nt h a nt h a tb a s e do nf i x e db i t r a t ec o d e r b e s i d e s ,w ed oo p t i m i z a t i o no nc o m f o r tn o i s eg e n e r a t i o ns y s t e m , v o i c ea c t i v ed e t e c t o ra n de r r o rc o n c e a l m e n tm e c h a n i s mt oe n h a n c et h e p e r f o r m a n c eo ft h es y s t e m s i m u l a t i o ns h o w st h a tt h eo p t i m i z e da m r a l g o r i t h mi nv o i ps y s t e mr e d u c e st h et i m el a t e n c yt oa b o u t8 0 c o m p a r e dt o s t a n d a r da m rb a s e dv o l ps y s t e m t h e r e f o r e ,o u r p r o p o s e do p t i m a la m rs p e e c hc o d e rc a nw o r k w e l li nv o l ps y s t e ma n d t h ep e r f o r m a n c eg a i ni sh u g ec o m p a r e dw i t hf i x e db i t - r a t es p e e c hc o d e r k e y w o r d s :a m rv o l pc o m f o r tn o i s e g e n e r a t i o ns y s t e m 啪e r r o rc o n c e a l m e n tm e c h a n i s m 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:立型竖 日期: ) 啷d 垆9 名 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅 和借阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密 论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 砂沁 只期:逊:! 竺:垒 日期:a 塑璺:笪:叁 自适心多速牢语音编码技术j 避用于v 0 i p 系统的研究 1 1 引言 第一章绪论 随着互联网的迅速发展,出现了一种基于i n t e r n e t 的电话新业务v o l p 业务。v o l p ( v o i c eo v e ri p ,基于i p 的语音通信) 也称为i p 电话,是建立在 i n t e m e t 上的新型数字化传输技术。v o l p 的使用,可以极大地降低用户的通信费 用,而互联网的蓬勃发展也促进v o l p 技术的迅猛发展。v o l p 网络电话的成功开 发和应用,预示了以m 为基础的新一代信息网络的出现,积极地探索和跟踪这 项新技术无疑具有十分重要的意义。 为使v o i p 网络电话能够可靠地进行语音通信,必须解决好两个问题:一是 在保证一定话音质量的前提下尽可能地降低编码比特率,二是在i p 网络环境下 保证一定的通话质量。前者是语音编码所采用的编码技术,同一段语音信号,采用 不同的编码方式,其编码后的比特率各不相同,在口网络环境下的通话质量也 不一样v o l p 主要采用的语音压缩编码技术标准有n u t 定义的g 7 2 3 1 、 g 7 2 9 、g 7 2 9 a 等,这些技术标准都使用一定的速率对语音信号进行编码,而对于 i p 网络环境不稳定的特点,如何使用更加有效的语音压缩编码技术在保证一定话 音质量的前提下尽可能地降低编码比特率是我们所面对的问题 1 2v o i p 1 2 1v o i p 的概念 v o l p ( v o i c eo v e ri p ) ,即在i p 网络上传输语音,是建立在i n t e r n e t 上的新型数字 化传输技术,随着i n t e r n e t 的迅猛发展,v o l p 得到了突破性的进展和应用,其特点是: 采用t c p i p 协议的分组交换;传输的语音必须进行压缩编码;可方便的集成智能; 开放的系统结构:多媒体业务的集成。其基本原理是:通过语音压缩算法对语音数 据进行压缩编码处理,然后把这些语音数据按i p 等相关协议进行打包,经过i p 网 络把数据包传输到接收地,再把这些语音数据包串起来,经过解码解压处理后,恢 复成原来的语音信号,从而达到由i p 网络传送语音的目的。经过i p 电话系统的 转换及压缩,每个普通电话传输速率约占用8 1 1k b p s 的带宽,较普通电信网络的 6 4k b p s 的带宽时,大大节约了带宽。 1 2 2v o l p 的基本传输过程 为了在一个口网络上传输语音信号,v o l p 模型的基本结构由两个或多个具 有v o l p 功能的设备组成,而且这些设备通过一个口网络进行连接,v o l p 设备 白适心多速率语音编码技术心用于v o l p 系统的研究 把语音信号转换为i p 数据流,并把这些数据流转发到i p 目的地,l p 目的地又 把它们转换到语音信号。通信各方的网络必须支持ip 传输,而且可以是ip 路 由器和网络链路的任意组合。因此可以简单地将v o l p 的基本传输过程分为下列 几个阶段。 ( 1 ) 模拟语音到数字语音的转换 语音信号是模拟波形,通过i p 方式来传输语音,不管是实时应用业务还是 非实时应用业务,首先要对语音信号进行模数转换,也就是对模拟语音信号进行 8 位或1 6 位的量化,然后送入到缓冲存储区中,缓冲器的大小可以根据延迟和 编码的要求选择。许多低速率的语音编码器是采取以帧为单位进行编码,典型的 帧长为1 0 m s 3 0 m s ,这是由语音信号的短时平稳性决定的。考虑到传输过程中的 代价,语音包通常由6 0 m s 、1 2 0 m s 或2 4 0 m s 的语音数据组成。数字化可以使用 各种语音编码方案来实现,目前主要采用u t ( 国际电信联盟一电信标准部) g 7 11 语音编码标准。发送方的语音编码器和接收方的语音解码器必须实现相同 的算法,这样接收方的语音设备才可以还原模拟语音信号。 ( 2 ) 数字语音到i p 包的转换 一旦语音信号进行了数字编码,下一步就是对语音包以特定的帧长进行压缩 编码。大部分的语音编码器都有特定的帧长,若一个编码器使用1 5 m s 的帧长, 则把从第一级来的6 0 m s 的包分成4 帧,并按顺序进行压缩编码。每一帧包含有 12o 个语音样点( 抽样率为8 k i - l z ) 。经过压缩编码后,将4 个压缩的帧合成一 个压缩语音包送入网络处理器。网络处理器为压缩语音包添加包头、时标和其它 信息后形成ip 包( 一个分组) 。 o ) i p 包的传输 口包通过网络传输到另一端点,语音网络简单地建立通信端点之白j 的物理 连接( 一条线路) ,并在端点之间传输编码的信号。口网络不像电路交换网络, 它不形成连接,它要求把数据放在可变长的数据报或分组中,然后给每个数据报 附带寻址和控制信息,并通过网络发送,一站一站地转发到目的地。在这个通道 中,全部网络被看成一个整体,持续不断地从输入端接收i p 包,然后在一定时 间( t ) 内将其传送到网络输出端。t 可以在某个范围内变化,反映了网络传输中 的抖动。网络中的中间节点检查每个ip 包附带的寻址信息,并使用这个信息把 该口包转发到目的地路径上的下一站。网络链路可以是支持口数据流的任何 拓结构或访问方法。 ( 4 ) i p 包到数字语音的转换 目的地v o l p 设备接收这个口包并丌始处理。网络级提供一个可变长度的 缓冲器,用来调节网络产生的抖动。该缓冲器可容纳许多口包,用户可以选择 白适戊多速率语音编码技术胞用于v o 口系统的研究 缓冲器的大小。小的缓冲器产生延迟较小,但不能调节大的抖动。首先,网络处 理器去掉寻址和控制信息,保留原始的压缩语音包,然后把这个压缩语音包提供 给解码器。其次,解码器将压缩语音包解压缩后产生数字语音,这个模块也是按 帧进行操作,完全和编码器的长度相同。若帧长度为1 5 m s ,则6 0 m s 的压缩语 音包被分成4 帧,然后它们被解码还原成6 0 m s 的数字语音送入解码缓冲器。 ( 5 ) 数字语音到模拟语音的转换 播放驱动器将缓冲器中的语音样点( 4 帧共4 8 0 个样点) 取出送入声卡,通 过扬声器按预定的频率( 例如8k n z ) 播出。简而言之,语音信号在口网络上 的传输要经过从模拟信号到数字信号的转换、数字语音封装成i p 包( 分组) 、 i p 包通过网络的传输、ip 包的解包和数字语音还原到模拟信号等过程。 1 2 3v o i p 的关键技术 i p 分组网络采用的是尽力而为的、无连接的技术,因此没有服务质量保证, 存在分组丢失、失序到达和时延抖动等情况。通常的数据业务对此要求不高,但 v o i p 业务对时序、时延等有严格的要求。因此必须采取特殊措施来保障一定的 业务质量,这些特殊措施就是v o i p 的关键技术,主要包括:信令技术、语音编 码技术、实时传输技术、服务质量保障技术、静音检测和回声消除技术等。 ( 1 ) 信令技术 信令技术保证电话呼叫的顺利实现和话音质量,目前被广泛接受的v o i p 控 制信令体系包括兀u t 的h 3 2 3 系列建议和i e t f ( 互联网工程任务组) 的会话 初始化协议s i p ( s e s s i o ni n i t i a t i o np r o t o c 0 1 ) 。 ( 2 ) 语音编码技术 语音压缩编码技术是v o i p 技术的一个重要组成部分。按照h 3 2 3 协议,v o l p 主要采用的语音压缩编码技术标准有u t 定义的g 7 2 3 1 、g 7 2 9 、g 7 2 9 a 等。 其中g 7 2 3 1 协议采用5 3 6 3 k b i t s 双速率语音编码,其语音质量好,是h 3 2 3 协 议中首推的编码标准,其缺点是延时较大。g 7 2 9 协议可将经过采样的6 4 k b i t s 语音以几乎不失真的质量压缩至8 k b i 临。 ( 3 ) 实时传输技术 实时传输技术主要采用路由选择协议r t p ( r o u t i n gt a b l ep r o t o c 0 1 ) 。r t p 是 在点对点通信和多点广播的包括语音在内的实时数据传送协议,它是一个独立于 应用程序的协议规范。rtp 协议由两个紧密相关原部分组成:r t p 数据协议 和r t p 控制协议r t c p 。rtp 数据协议对包括语音在内的数据进行包封装以 便实时传输,rtp 控制协议提供了时间标签和控制不同数据流同步特性的机 制,可以让接收端重组发送端的数据包,可以提供接收端到多点发送组的服务质 量反馈。 盘逶缝多速率疆鹰编璐技术旋蹋予v o i p 系绕豹戮究 ( 4 ) 服务质量保障技术 v o l p 的服务质量q o s ( q u a l i t yo f s e r v i c e ) 保障技术主要包括3 个方面:一 是采用注册许可机制来限制网终登录的用户数,以防止产生资源缺乏现象,导致 语音质量进一步降低;二是采用交换优先机制,为语音数据优先预留资源,主要 采用资源预留协议( r s v p ) 来保障语音质量:三是在v o i p 应用软件中引进自适应 策略,通过益溅网络资源的变讫并根据变化情况来做相应的技术调整,例如,可 以通过监测网络带宽的变化来调整编码器的编码速率,当飕络出现拥护时,采用 低速率语音编码,反之,采用高速率语音编码,从而最大限度地保证语音质量。 ( 5 ) 静音检测和回声消除技术 静音检测和回声消除技术也是v o i p 中十分关键静技术。静音检测技术可有 效剔除静默信号,从而使语音信号的占用带宽进一步降低到3 5 k b i t s 左右,通 常,静音检测技术根据连续几帧语音信号的能量与一定的门限电平进行比较来检 测语音的存在与否;回声消除技术主要利用数字滤波器来消除对通话质量影响很 大的回声干扰,保证邋话质量,这点在时延楣对较大的撙分组网络中戈为重要。 回声消除技术的实现有两个关键问题:一是选择何种滤波器结构;二是确定调整 滤波器系数的自适应算法,选择的原则是使某一特定的代价函数最小。 1 3 自适应多速率语音编码( a m r ) 囱适应多速率( a m r ,a d a p t i v em u l t ir a t e ) 语音编码是由3 g p p ( 3 r d g e n e r a t i o np a r t n e r s h i pp r o j e c t ) 制定豹疲用于第三代移动透信w c d 鹾a 系统中 的语音压缩编码f l ,2 1 。它以更加智能的方式解决信源和信道编码的速率分配问 题,使得无线资源的配置和利用更加灵活和高效。它支持八种速率:1 2 2 k b s ,1 0 2 k b s ,7 9 5k b s ,7 4k b s ,6 7 0k b s ,5 9 0k b s ,5 1 5k b s 和4 7 5k b s ,此外,它还包括低 速率的( 王8 0k b s ) 背景噪声编码模式。 实际的语音编码的速率取决于信道的条件,与现在的g s m 语音编码采用固 定的编码速率相比,a m r 语音编码则可根据无线信道和传输状况来自适应地选 择一种最佳信道模式( 全速率或半速率) 和编码模式( 以比特率来区分) 进行编 码传输。 信源控制速率( s c r ,s o u r c ec o n t r o l l e dr a t e ) 操作考虑到语音信号不激活 的情况,允许以较低的速率对输入的语音信号进行编码,这样可以节省移动台的 功率,降低整个网络的干扰和负载 7 1 。s c r 的功能包括在发送端进行话音激活 检测,在发射端对背景噪声进行估计,并将有关特征参数传送给接收机,以便接 受端根据这些特征参数在不发送语音帧期间重构与发射端类似的背景噪声。 v a d ( v o i c ea c t i v ed e t e c t o r ) 的输入是输入语音本身和自适应多速率语音 编码器计算出来的参数集,v a d 焉这些信息来决定每2 0 m s 静语音帧中是否笆含 翻运瘴多速誓疆酱编秘技术艨耀手掺系统豹磁究 语音【8 】。 在语音同通信中,人们大约有7 0 左右的空闲没有讲话。在s c r 方式中, 个基本闻题就是噪声闲题,噪声和语音信号一起被传输,当没有语音时,它就 不被传输,这就导致了背景噪声的不连续,会使收听的人感觉不舒服,在强背景 噪声的情况下这种感觉尤为明显。克服这个问题的方法就是在接受端重构与发射 端类似的背景嗓声,因此,需要在发射端对背景噪声进行估计,并将其特征参数 用s i d 传送到接受端,s i d 帧中有关背景噪声参数被编码,接收端对s i d 帧进行 译码,然后就在没有难常语音期间产生舒适背景噪声f 6 1 。 在无线通信环境中,语音帧可能会在传输过程中出现差错而无法在接收端正 常合成语音,为了不使听的人感觉到语音丢失,应告诉语音译码器进行差错隐藏, 即用没有差错的语音帧的参数集来进行合成。当出现连续差错帧导致参数无法恢 复时,就要采用减弱声音的技术让听得人知道传输被中断了f 5 】。 第三代移动通信系统中的a m r 语音编码是为了让容错度随无线信道和传输 坯境的改变恧改变,因此人们称之为自适应。 a m r 语音编解码器可以对语音信号进行八神速率编解码,它是基于代数码 激励线性预测( a c e ”) 的编码方式,编码器输入为8 k h z 采样,1 6 比特量化 的线性p c m 编码,编码操作以2 0 m s 语音为一帧,邵1 6 0 个样点。发送端编码 器提取a c e l p 模型参数( 线性预测系数,自适应和固定码本索引及增益) 进行 传输,接收端译码器撙根据这些参数构成的激励信号合成出重建的语音信号。下 面将详细介绍a m r 语音编解码原理。 1 3 1a m r 语音编码概述 a m r 语音编码采用的方案是代数码本激励性预测技术,它是基予码本激励 线性预测技术。a m r 语音编码根据其实现功能可大致分为l p c 分析、基音搜索、 代数码本搜索三大部分。其中l p c 分析完成的主要功能是获得1 0 阶l p c 滤波 器的1 0 个系数,并将他们转化为线谱对参数l s f ,以及对l s f 进行量化;基因 搜索包括了开环基因分析和闭环基嚣分析两部分,以获得基因延迟和基音增益这 两个参数;代数码本搜索则是为了获得代数码本索引和代数码本增益,还包括了 对码本增益的量化。a m r 编码器的信号流程如图: 囱适琏多速率语费绽戳技术癌耀- fv o w 系绕魏骚究 图1 - 1a m r 编码器的信号流程图 铷涯r 语音编码器的功能包括丸大部分:预处理、现彳亍预测分析和量化、开 环基音分析、脉冲相应的计算、豳标相应的计算、自适应码本搜索和增益控制、 代数码本的结构和搜索、自适应码本增益和固定码本的量化、修改存储器。下面 对各个部分进行详细介绍。 1 3 2 预处理 编码器在编码之前将对输入信号进行两个预处理:高通滤波和信号降幅。 对信号的降幅是将输入信号的幅度减小一半,以此来避免在做定点运算时数 据溢出。 高通滤波器用来滤除不需要的低频成分。在这里采用一个截止频率为8 0 h z 的滤波器,蛊下式给出: ,、0 9 2 7 2 4 6 0 9 3 一1 8 5 4 4 9 4 l z 。1 + 0 9 2 7 2 4 6 9 0 3 z q, j l l l zl - :- = 一t 王一l , 1 3 3 线性预测( l 聊分析及量化 编码器使用翻相关方法对每个语音帧进行短时线性预测分析,窗涵数采用 3 0 m s 的非对称窗。 对高码率和低码率的处理有所不同,其中采用1 2 2 k b i t s 模式时需对每个语 音帧进行两次 分析,在自相关计算时不需要引入超前帧。而采用1 0 2 ,7 9 5 ,7 4 0 , 6 弛5 。,5 重5 ,4 7 5 k b i t l s 低码率模式时,对每帧的l p 分析哭进行一次,在自相 翻逶癍多速率诿鸯编码技术癍爝手v o l p 系统麴疆宠 关分析时需要引入下一帧的4 0 个样点( 5 m s ) 。 l p 分析模块的输入是经过预处理后的语音信号。首先对输入信号用3 0 毫秒 的菲对称窗进行烟窗处理,然后进行自相关计算,德出的自相关参数用菜文森蟪 宾算法转换为肼参数,并将这些参数变换到线谱对( t a p ) 域,以作量化和插值之 用。量化和未量化的系数经插值后重新被转换成l p 滤波器系数,用来在每一子 帧构成合成滤波器和加权滤波器。 ? 毒书i 二嚣一心) w - : i :,= 一1 ,:2 :二:l ,c 1 3 , z ) = = e x p 【- j , 2 i l 弘。f :i ,o , j 1 2 】,;= - 毛+ ,l ) ; ( 薹5 ) 自遥癍多速率语螽编码技术疵嬲手v o 糙系统戆酣究 ( 2 ) 1 0 2 ,7 9 5 ,7 4 0 ,6 7 0 ,5 9 0 ,5 1 5 ,4 7 5 k b i t s 模式 编码器在除了1 2 2 k b i t f s 之矫的其他速率模式时,对信号的l p 分析每帧只 进行一次,除了当前帧和酋一帧之外,还弓| 入了盛一帧的个样点( s m s ) 豹提翦 量。使用的窗函数由两部分组成:一个二分之一汉明窗和一个四分之一余弦窗, 着重于第四子帧,其表达式与1 2 2 k b i t s 模式时的第二个窗函数相同,只是参数 为是= 2 0 0 , t = 钧 接下来的求自相关系数和带宽展宽及自噪声修正过程与1 2 。2 k b i t s 模式时相 同。 1 3 3 2 莱文森德宾算法 莱文森德宾算法对所有速率模式均相同。 得到经过修正的自相关系数o ) _ l o o o l - o 。( o ) 和豫 。馥) 辑) , k = 1 ) e e e eee 1 0 ,通过求解下式来计算l p 滤波器系数的直接形式: 卫 罗口i 厂i - k 1 ) 一- ,么a ) l l - , 1 0 ( 1 - 6 ) 1 3 3 3 王t 与l s p 的转换 经莱文森。德宾算法得出了”滤波器系数,两堙系数的微小变化,会弓 起 合成滤波器极点位置的极大变化,甚至造成不稳定现象,影响编解码性能。因此 将i j p 系数转换成线谱对( l i n e a rs p e c t r a lp a i r ) l 约表示方式,用来进行量化和插值。 域和l s p 域麓转换对新有速率模式稆同。 重3 3 4l s p 参数的量化 ( 1 ) 1 2 2 k b i t s 模式 在这种模式下,每一帧的两组i j p 滤波器系数在频率域用l s p 的形式进行量 化,有如下关系式: , 五。象a 脚s 氆,_ 1 ,l o ( 1 _ 7 ) 其中,z 融朔o l h z 为线谱频率( l s f ) ,五_ 8 0 0 0 h z 为采样频率。因此线 fif, 4 i 谱频率矢量为i l j t - 7 2 i , o j ,其中t 表示矩阵转置。 首先进行1 阶移动平均( m 0 v i n ga v e r a g e ) 预测:用z 1 ( ,! ) 和z 伪( 以) 表示第n 帧中减去均值后的l s f 矢量,那么预测残差矢量f 掰( 嚣) 和r 2 ) ( ,1 ) 可以由下式得到: f : 嚣 。z :l 拜2 一p 嚣3 ( 1 - 8 ) f 力n ) = z 2 露) 一p 雅) 其中,p ( n ) 为第n 帧的预测l s f 矢量,这里使用1 阶移动平均预测: p ( n ) = o 6 5 f 国( 忍一1 ) ( 1 9 ) 其中f 2 ( 露一1 ) 为魏一帧中量化后的第二个残差矢量。 自适瘫多速率疆爵编玛技本勰耀手羚系统戆磁究 接下来,对两个磷f 残差矢量r o ) 撑) 和r 滔( 珂) 用分裂矩阵量化( s m q ) 的方式 同时进行量化。矩阵、1 ,被分裂为5 个2 x2 的子矩阵,例如,第一个子矩阵 含有元素0 ,”,0 2 和羽。这5 个子矩阵分别用7 ,8 ,8 + l ,8 和6 比特来进行 量化,其中8 + 1 表示第三个予矩阵量化时使用一个包含2 5 6 个条目的有符号码本, 8 比特为码本索引,l 比特为符号。 在量纯的过程中霉l 入了一个加权l s p 失真度量,通常,对于一个输入的l s p 矢量了和索引值为k 的量化矢量f ,寻找k 使下式最小: 一f 五堆一z 壤1 4 ( 1 1 0 ) 衙l j 其中,加权因子雌,24 l ,1 u ,由下式给出: 咝 3 3 4 7 一等蛐f4 4 5 0 1 8 一器( 或喇) 。l k 溅 n 以d 其中,盔- z + ,一f - i ,初始条件为矗_ 0 ,五。4 0 0 0 。对于1 2 2 k b i t s 模式 的两个l s f 矢量分别计算两组加权参数,在对予矩阵进行量化时使用相应的加 投参数组。 ( 2 ) 1 0 。2 7 9 5 7 。4 0 6 7 0 5 9 0 , 5 1 5 4 7 5 k b i t s 模式 。 在这些模式下,每一帧得到的一组l p 滤波器系数在l s p 域用式n 2 2 ) 进行 量化。 首先进行1 阶m a 预测,令:z c n ) 表示第n 帧中减去均值后的l s f 矢量,则 预测残差矢量f ( n ) 可以由下式得到: ,0 ) 一z ( n ) - p ( n ) ( 1 1 2 ) 其中,p 够,为第n 帧的预测l s f 矢量,这墨使用1 阶移动平均预测: p i o ) 一a i r i ( n - 1 ) ( 1 - 1 3 ) 其d pr j ( n 一1 ) 为前一帧量化后的残差矢量,而q j 为第j 个l s f 参数的预测因 子。 黯l s f 残差矢量r 的量纯使用分裂矢量量他的方法。首先将矢量f 分裂成维 度分别为3 ,3 ,4 的3 个子矢量,然后对应不同的码率模式用7 到9 比特分别进行 量化。 在量化过程中采用式( 2 2 ) 所示的加权l s p 失真度和式( 2 3 ) 所示加权因子。 1 3 3 5l s p 参数的插值 ( 1 ) 1 2 2 k b i t s 模式 在得到第二子帧和第四子帧的两组量化凹滤波器参数后,通过插值的方法 趣适应多速率谬鸯编玛技术蹴耀手玲系统豹硪究 来计算第一、第三子帧的l p 滤波器系数,这罩采用了线性插值的方法,即采用 前一子帧与后一子帧酶线谱对的均值作为当前子帧的l p 系数,插值时使用q 域 上的l s p 爹数。 一御#i一fd 令9 4 枣磊半前帧的第四子帧的l s p 矢量,q 2 表示当前帧的第二子帧的 l s p 矢量,鼋表示前一帧的第四子帧的l s p 矢量,那么插值后的第一、第三 子帧的l s p 矢量由下式得硝: 至:观氡纛蓦 ,4 , q 叫3 。0 5 q 荔伽+ o 氧m 一一。 插值后得到的l s p 矢量用前面所述的方法转换到l p 域,用来计算每一子帧 的l p 滤波器系数( 包括量化和未量化的系数) 。 ( 2 ) 1 0 。2 ,7 9 5 ,7 。籀,6 7 0 , 5 9 0 ,5 1 5 ,4 7 5 k b i t s 模式 在这些模式下,得到的是第四子帧的”滤波器系数,使用邻近予帧的系数 对第一、第二、第三子帧进行线性插值,插值时使用互域上的l s p 参数: q l ”。0 7 5 q - i + o 2 5 q 一4 滞 乏伽。o 。氟臼t o 5 q 一4 9 ( 1 1 5 ) q 一2 ( ”。0 2 5 q 一4 ( “一n + o 7 5 q 一4 伽 同样插值后的线谱对矢量用来计算每个子帧的l p 滤波器系数。 羔3 4 开环基音分析 采用开环基音分析的目的是简化基音分析,使闭环基音搜索限定在较小的范 围内。 开环基音分析基予感知加权螽的语音信号o ) ,( 露) 是对输入语音信号进 行加权滤波得到的。加权滤波器为:g ) = a ( z v t ) t ( z y 。也就是说,对于 一个长度为l 的子帧,加权语音信号由下式给出: s r ( 以) _ - i s i ) + ;霎a t y - i s ( ,z - i ) ;霎a i y ;s r i ( ,z - f ) ,z ;= o ,。,z :_ _ 1 ( 1 - 1 6 ) 对加权后的语音信号进行自相关处理,选择使自相关最大的延时,就是基音, 这种算法又称为自相关p d a 。这里,对于不同的码率,搜索延时的范围是不同 的。 ( 1 ) 1 2 2 k b i f f s 模式 在1 2 2 k b i t s 速率模式下,开环基音分析对每一帧的每段1 0 毫秒信号进行一 次,找到两个开环基音估计值。 首先,加权语音信号的囱相关表达式如下: q 一孓s 。0 梦。o 一露) ( 1 1 7 ) 。 翻适癌多速率疆裔编磁技术瘴溺子孙辨系统豹磷究 在以下三个区域中寻找自相关的最大值: i = 3 : 1 8 ,3 5 , 扭2 : 3 毛,7 l , i = l :7 2 。1 4 3 , 一 所得的主大叠q 。,嚷和q ,同样用。积一) ,f = 毛,3 进行归一化。 接下来求基音周期的过程与1 2 2 k b i t s 模式相同。 ( 2 ) 5 王5 ,4 7 5 k b i t s 模式 在这种速率模式下,开环基音分析对每一帧只进行一次,找到一个基音周期 估计值。 对于加权语音信号的盘撩关定义,最大值的搜索区域和基音周期搜索过程同 7 9 5 ,7 4 0 ,6 7 0 ,5 9 0 k b i t s 模式相同。 1 3 。5 解码器 在编码器端, 滤波器参数、自适应码本矢量、自适应码本增益、固定码 在解码器端,这些参数被接收并解码,本矢量和固定码本增益被编码和传输, 在解码器端,这些参数被接收并解码,通过语音合成重建语音信号。然后对重建 的语音信号进行后滤波和升幅。 1 4 课题任务 本论文在介绍v o l p 技术和a m r 技术的基础上,通过分析v o l p 中常规采 用得语音编码技术的不足和自适应多速率语音编码( a m r ) 技术的优点,提出了一 种将自适应多速率语音编码( a m r ) 技术应用予v o i p 的方法,在保证一定话音质 量的前提下更好地降低编玛比特率,并根据v o l p 的特点对a m r 算法进行优化, 使得v o l p 技术和a m r 技术更好的结合。 爨透成多速率逶螽编玛技本癍粥- fv o i p 系统瓣疆究 第二章v o i p 中a m r 声码器的实现 由于在信号传输过程中的数据包丢失所引起的语音信号失真一直都是v o i p 技术发展的瓶颈,而自适应多速率语音编码算法能够根据信道的状态相应的改变 语音信号的编码速率,弥幸 了常规v o i p 语音编码算法中编码速率和网络环境不 断变化所带来的问题,提高v o i p 的语音通信质量。本章中我们就对如何在v o l p 中实现自适应多速率语音编码进行分析。 2 1h 3 2 3 协议 为了能在不保证q o s 的分组交换网络上展开多媒体会议,宙唧的第堇5 研 究组s g 1 5 于1 9 9 6 年通过h 3 2 3 建议的第一版,并在1 9 9 8 年提出了h 3 2 3 的第 二版。h 3 2 3 制定了无q o s ( 服务质量) 保证的分组网络p b n ( p a c k e tb a s e d n e t w o r k s ) 上的多媒体通信系统标准,这些分组网络主宰了当今的桌面网络系统, 包括基于t c p i p 、i p x 分组交换的以太网、快速以太瘸、令牌网、f d d i 技术。 因此,h 3 2 3 标准为l a n 、w a n 、i n t e m e t 、因特网上的多媒体通信应用提供了 技术基础和保障。 h 3 2 3 是删多媒体透信系列标准h 3 2 x 的一部份,该系列标准使得在现有 通信网络上进行视频会议成为可能,其中,嚣3 是在n i s d n 上进行多媒体透 信的标准h 3 2 1 是在b i s d n 上进行多媒体通信的标准1h 3 2 2 是在有服务质 量保证的l a n 上进行多媒体通信的标准:h 3 2 4 是在g s t n 和无线网络上进行 多媒体遥信的标准。h 3 2 3 为现有的分组网络p b n ( 如璩鹂络) 提供多媒体通 信标准。若和其它的蹬技术如i e t f 的资源预留协议r s v p 摆结合,就可以实现 婵网络的多媒体通信。基于讲的l a n 正变得越来越强大,如i po v e r s d h s o n e t 、i po v e ra t m 技术正在快速发展以及l a n 宽带正在不断的提高。 由于能提供设备与设备、应震与应用、供应商与供癍商之闻的互操作能力,因此, h 3 2 3 能够保证所有h ,3 2 3 兼容设备的互操作性。更高速率的处理器、豳益增强 的图形器件和强大的多媒体加速芯片使提p c 成为一个越来越强大的多媒体平 台。h 3 2 3 可提供p b n 与别的网络之间进行多媒体通信的互连互通标准。许多 计算机、网络通信公司,如i n t e r 、m i c r o s o f t 和n e t s c a p e 都支持h 3 2 3 标准。h 。3 2 3 标准包括在无q o s 保证的分组网络中进行多媒体通信所需的技术要求。这些分 组网络包括l a n 、w a n 、i n t e r n e t 因特网以及使用p p p 等分组协议通过g s t n 或i s d n 的拨号连接或点对点连接。 从整体上来说,珏。3 2 3 是一个框架性建设,它涉及到终端设备、视频、音频 囟适巍多速率疆裔编羁技本瘴嬲手v o l p 系统麓磺宠 和数据传输、通信控制、网络接网方面的内容,还包括了组成多点会议的多点控 制单元( m c u ) 、多点控制器( m c ) 、多点处理器( m p ) 、网关以及关守等 设备。 如图2 - 1 所示,h 3 2 3 协议包括h 2 2 5 、h 2 4 5 、r t p 协议和一些音视频编码 器。系统控制单元( h 2 4 5 ,h 2 5 5 0 ) 提供拨打控制、流量交换、打开消息和描 述h 3 2 3 终端的动作等信令信息。h 。2 2 5 0 层将视频、音频、控制等数据格式化 并发送,同时从网络接收数据。另外,h 2 5 5 。0 还包括一个r 孵( 实时传输协议) , 负责处理一些诸如逻辑分帧、加序列号、错误检测等功能。h 3 2 3 支持g 7 1 1 、 g 7 2 3 1 、g 7 2 9 、g s m f r 等语音编码方式。 卜到晒v a m 。煳l l d 。卜 精i 州r p 岫 i - - a ,k 脯- , 卜_ 轴_ w 如 们l 。g t l l 7 z 强 c 穰g ,g , l d 阳抽秘_ - 一 耗瑚 a r m it - 理t ki 竹n 计t h 觚 舄悯d 州 h , 4 5 ( q - n i 铀m _ _ 酬 l c d c _ 州 | 刚一l h j 荩詹 w c , _ r n g h 工葛毋 瞄2 - 1f i 3 2 3 协议结构 在呼叫

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论