(计算机应用技术专业论文)ip电话g729ab抖动缓冲算法与语音质量改进.pdf_第1页
(计算机应用技术专业论文)ip电话g729ab抖动缓冲算法与语音质量改进.pdf_第2页
(计算机应用技术专业论文)ip电话g729ab抖动缓冲算法与语音质量改进.pdf_第3页
(计算机应用技术专业论文)ip电话g729ab抖动缓冲算法与语音质量改进.pdf_第4页
(计算机应用技术专业论文)ip电话g729ab抖动缓冲算法与语音质量改进.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京工业大学工学硕士学位论文2 0 0 3 中文详细摘要 摘要 本文探讨了在分组交换网络上,企业i p 电话之间传输g 7 2 9 a b 语音分组时,如何 在接收端复现平滑语音,以及设计工作于v a d & d t x 状态下的抖动缓冲自适应控制算 法。分组延迟和分组丢失都会降低语音质量,并且彼此相互关联。本文相关内容仅 限于如何在分组延迟和分组丢失之间寻求最佳平衡,并不涉及如何复现丢失的分 组。 g 7 2 9 a b 是支持静音消除功能的编码解码器,其特点是可以有效降低网络负 荷。然而,由于目前还没有相应标准规定其r t p 分组格式,以及应用层设计要求复 杂,从而限制其应用 3 5 3 。 本文包括以下几点内容: l 。设计并实现了基于g 7 2 9 a b 的语音分组发送端r t p 封装方法,以此为基础实 现其v a d d t x c n g 功能。基于目前还没有出现g 7 2 9 a b 的r t p 封装标准,本文参照互 联网草稿”r t p p r o f il ef o ra u d i 0a n dv i d e oc o n f e r e n c e sw i t hm i n i m a l c o n t r o l ” 1 0 作为设计基础思想。 2 。设计并实现了基于g 7 2 9 a b 的语音分组接收端重构算法。g 7 2 9 a b 相对于 g 7 2 9 a 其语音分组传输特点是: a 传输过程中语音分组大小不再是常量。 b 发送端以变化速率发送语音分组。 此外考虑到在分组交换网络上传输语音数据的固有特性,如实时性,抖动,以 及语音的平滑复现,则需要在接收端设计相应的复现单元。这包括r t p 解包机制, 动态的抖动缓冲控制机制,以及当抖动缓冲控制机制为自适应算法时,如何将其与 解包机制有效结合。目前关于抖动缓冲自适应控制算法的讨论已经非常深入,主要 集中在如何平衡降低语音分组丢失率以及减少延迟上,但是并未涉及到如何在接收 端支持静音消除功能。此外,该自适应抖动缓冲控制算法也需要在抖动缓冲大小和 平滑语音流之间寻找折衷方案。 根据g 7 2 9 a b 的v a d d t x c n g 工作方式,并且考虑到与抖动缓冲的集成问题,本 文提出基于初始状态,语音状态和静音状态的三种状态转换机制以及其软件实现方 案。 3 。设计了在特定硬件平台t m s 3 2 0 c 5 4 7 2 上实现g 7 2 9 a b 语音分组发送和接收的 解决方案。以及用于测试该系统的基于终端的仿真器。 由于g 7 2 9 a b 可以在基本不降低语音质量的同时,可以有效降低网络负载接 近一半,其应用对于i p 电话的前景将至关重要。此外,本文所讨论的解决方案同样适 用于采用类似硬件平台( t m s 3 2 0 c 5 4 x ) 的语音网关( g a t e w a y ) 。 关键词:抖动缓冲;g 7 2 9 a b ;i p 电话;d s p ;语音质量。 a b s t r a c t s t h i st h e s i se x p l o i t sc e r t a i np r o p e r t i e so f t r a n s m i t t i n gg 7 2 9 a bv o i c ea u d i op a c k e t s o v e rt h ep a c k e t s w i t c hn e t w o r k b a s e do dt h ea n a l y s i s o fn e t w o r kd e l a ya n d i t t e r ,t h e g 7 2 9 a bv o i c ep a c k e t sc o n s t r u c t i o na n dr e c o n s t r u c t i o ns c h e m e ,a sw e l la sc o r r e s p o n d i n g a d a p t i v ej i t t e rc o n t r o la l g o r i t h m ,a r ed e s i g n e dt oi m p r o v et h ev o i c eq u a l i t yo fi pt e l e p h o n y g 7 2 9 a bi sam o d e mc o d e ct h a ts u p p o r t sf u n c t i o no fs i l e n c es u p p r e s s i o n i t sv a d f u n c t i o ni s d e s i g n e dt or e d u c et h en e t w o r kt r a f f i cb ys t o ps e n d i n gv o i c ep a c k e t sd u r i n gt h e s i l e n c ep e r i o d h o w e v e r , n os t a n d a r do nr t p l a y e ra n dc o m p l e x i t yo na p p l i c a t i o nl a y e r h o l di tb a c k i nt h i st h e s i s ,w ep r e s e n tf o u rc o n t r i b u t i o n st ot h er e s e a r c ht o p i co fi p t e l e p h o n y s p e e c hq u a i l t y : 1 d e v e l o p m e n to fg 7 2 9 a bb a s e dv o i c ep a c k e t sc o n s t r u c t i o na n dr e c o n s t n l c f i o n s c h e m et or e a l i z et h ev a d d t x c n gf u n c t i o no ft h ec o d e c 3 2 。g 7 2 9 a bp r o v i d e sa s i l e n c ec o m p r e s s i o ns c h e m et or e d u c et h en e t w o r kt r a f f i cd u r i n gt h es i l e n c ep e r i o d ,t b i si s ag r e a tf e a t u r eo ft h em o d e m c o d e c h o w e v e r , t h e r ea r et w oo b s t a c l e sw h e nu s i n gi to ni p t e l e p h o n y , f i r s t l y , s of a rt h e r ei s n os t a n d a r de x p l a i n i n gh o wt o p a c kt h eg 7 2 9 af r a m e sw i t h g 7 2 9 bf l a m e s ( 1 0 m s ) i n t oo n er t pp a c k e t ,w ef o u n df e wl i t e r a t u r eo ft h et o p i c ”m a n y p r o p r i e t a r yt e c h n i q u e sa r eu s e dt o a d d r e s st h e s e p r o b l e m ss i n c et h e r e a r ec u r r e n t l yn o s t a n d a r d si np l a c ef o rp a c k e tp l a y o u t 。【3 5 。t h i st h e s i sf o l l o w s 髓i n t e r n e td r a f t ”r t p p r o f i l ef o ra u d i oa n dv i d e oc o n f e r e n c e sw i t hm i n i m a l c o n t r o l ”【1 0 1 s e c o n d l y , v a df u n c t i o ng e n e r a t e sad i s c o n t i n u o u sa n d v a r i a b l es i z eo fv o i c ep a c k e t s t r e a m ,w h i c hn e e d sa ni n t e l l i g e n td e p a c k e t i z a t i o nf u n c t i o na sw e l la sa f l e x i b l e j i t t e rb u f f e r i n i t i a l i z a t i o nm e c h a n i s m 。w h e n t h e j i t t e rb u f f e ri sa na d a p t i v eo n e ,d e s i g n i n ga j i t t e rb u f f e r c o n t r o la l g o r i t h mb e c o m e sa ne x t r e m e l yt r i c k yj o b 2 d e v e l o p m e n to f a na d a p t i v ej i a e rb u f f e rc o n t r o lf u n c t i o na n di n t e g r a t ei tw i t ht h e g 7 2 9 a bb a s e dv o i c e p a c k e t s r e c o n s t r u c t i o n s c h e m e 。a d a p t i v ej i t t e r b u f f e rc o n t r o l a l g o r i t h md e s i g ni sah o tt o p i ci n 诵瓣f i e l d h o w e v e r , m o s t o ft h e mf o c u sm a i n l yo nt h e p r o b l e mo f h o wt ob a l a n c et h ed e l a ya n dt h ep a c k e tl o s tb u tn o th o w t os u p p o r tt h ev a d f u n c t i o n i ti sa n o t h e rc o m p r o m i s eb e t w e e nh o wt of i n dab e s ts i z eo ft h ej i r e rb u f f e ra n d h o wt or e p r o d u c et h es a l n es p e e c hs t r e a m 3 d e v e l o p m e n to f ac o m p l e t es o l u t i o nf o rg 7 2 9 a bs e n d e ra n dr e c e i v e ro na ni n t e r - p r o c e s s o r b a s e dh a r d w a r e 4 d e v e l o p m e n to f a t e r m i n a lb a s e ds i m u l a t o rt os i m u l a t es e v e r a ls c e n a r i o so f n e t w o r k j i 毽c r ,t h e nm a k e t e s tf o rt h i ss o l u t i o n a l t h o u g h b o t hp a c k e td e l a ya n dp a c k e tl o s sh a v ea na d v e r s ei m p a c to nt h eq u a l i t yo f 蘩要 s p e e c h t r a n s m i s s i o n , a n df u r t h e r m o r ea r e c o r r e l a t e d ,t h i s t h e s i sc o n c e n t r a t e so nt h e p r o b l e m so f p a c k e td e l a y t h e $ c e t l a 1 l oo f p a c k e tl 燃i sc o n s i d e r e do n l ya sa ni n d i c a t o ro f 蠡露珥。痰辖a 曩i e 蠢t u a t i o n t h es o l u t i o nd i s c u s s e di nt h i sp a p e ri sb a s e do na ne n t e r p r i s ei pt e l e p h o n yh a r d w a r e 。 i tc o u l da l s ob eu s e do no t h e rv o l pt e n l a i n a l so rv o i c eg a t e w a yt oi m p r o v et h ev o i c eq u a l i t y 。 k e y w o r d :j i t t e rb u f f e r ,g 7 2 9 a b ,i pt e l e p h o n y ,d s p ,r t p ,s p e e c hq u a l i t y 附录1 2 独创性声明及关于论文使用授权的说明示例 独创性声明 本人声明所星交的论文怒我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 久已经发表或撰鼍过的硬究残莱,也不包含为获褥j 京王、韭大学或冀它教毒辊构 的学位或证书丽使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名 奎盟日期 关予论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分蠹容,霹隘采矮影露、缝饔戢其毽复翻季段缳存论文。 ( 保密的论文在解密后应遵守此规定) 虢楚堕生器爨黼舡 嚣期;丝:竺衫 1 i1 介绍 第一章i p 电话 1 1 1 i p 电话的发展过程 自从i p 技术诞生以来,作为一种极具潜力的信息传递手段,对于传统的通信技 术,如以传送语音为目的的传统电话技术,产生了很大的冲击。用户不再满足于仅 仪通过简单的交谈来获取信息。而网络互联技术以及以太网技术以单纯的数据传递 方式,实现了文本,文件,语音,图象等多种信息传递形式,并可以低廉的传输成 本实现长距离传送。对于传统的电报,电话,传真业务的运营商以及设备提供商来 说,只有能从i p 技术中寻找到具有满足用户需求的新的通信产品,才有可能立足于 未来的信息社会。而v o i p 技术,正是传统电话网p s t n 向i p 网络发展的一个标志性 产品。 由于传统电信网络高昂的资费,尤其是大型跨国公司的国际话费开销惊人,同 时pc 的普及也驱使市场开发出更多的互联网的新应用。1 995 年以色列v0c altac 公司研制开发出一种可以利用个人计算机和相关附加设备通过互联网相 互通话的软件,ip 电话由此而来。尽管通话的声音质量与模拟电话相去甚远,但 是由于利用互联网打电话完全免费,因此成为人们津津乐道的话题。这种最初的i p 电话只能利用pc 上网,采用专门的ip 电话软件,用户群也只限于能够上网的 用户。应该说此时ip 电话并未形成规模,具有较大的局限性。但此时业界已经敏 锐地感觉到在ip 上实现话音业务的可行性和潜力,开始积极跟踪和研究。 随着数字信号处理器及相关技术的发展并成熟,真正意义的ip 电话出现在 l996 年,美国公司开放采用互联网传送国际长途电话业务,用户可以只用普通 电话机就能使用互联网长途电话,用户不必添置更多相应设备,而通话费用却远远 低于当时的国际长话费用。这个时期的ip 电话随着语音质量的改善,已形成一定 的市场需求,甚至出现了i sp 运营ip 电话业务的情况。19 96 年还只有个别 公司研制生产ip 电话产品,到1 9 97 年就有几十家厂商,包括一些国际著名的 大厂商,如微软等纷纷进行ip 电话设备的研究、开发和生产。在这一阶段,国际 电信组织和厂商对ip 电话的发展持乐观态度,已经开始加紧研制相应的标准与规 范,涉及到设备互通方面的研究。市场上开始出现网关设备,未形成系统且标准也 未统一。 ip 电话在随后获得了极大的重视与发展,国际电信组织及各厂商着手制订和 完善相关标准,研究厂商设备间互操作的可能性。各国的电信运营商也开始研究经 营ip 电话和传真等业务,国际上还出现了相应的清算组织。 北京工业大学工学硕士学位论文2 0 0 3 中文详细摘要 i p 电话会将整个电话通信的基本架构完全改变,并且将语音通信推进到一个 新的纪元。伴随着电信运营者和传统电信加大对ip 电话的投入与重视,更由于数 字信号处理器技术、ip 网上q0s 保证技术的发展,虽然与传统电话不能相比, 但已经使得ip 电话的质量有了很大程度的提高,提供近似或电信级的话音质量也 已成为现实。 1 1 2 i p 电话的基本原理 i p 电话的基本原理是:由专门设备或软件将呼叫方的话音信号采样并数字化, 压缩,转换为定长度的数字化语音包,以包的形式经过i p ( 互联i n t r a n e r ) 数 据网络进行交换,传输到对方,对方的专门设备或软件接收到话音包后解压缩,还原 成模拟信号送给电话听筒。如下图所示。 语音样本编码 - - - 4 - 4 彪 语音样本解码 b i ts t r e a m 图1 1i p 电话的基本原理 1 1 3i p 电话的优点 i p 电话对语音信号进行了很大的压缩处理,因此i p 网络电话占用带宽仅为 8 k b p s l o k b p s ,再加上分组交换的计费方式和距离的远近无关,自然大大节省了长 途通信费用。此外,无论是企业用户,还是家庭用户,如果能够所有的信息传输通道 都转移到i p 之上,也将大大减少布线的复杂度。而i p 电话的推广使用也将推动” 三网合一”的发展。 4 l 十七一? 1 i 4 语音质量:i p 电话的主要挑战 我们已经习惯了传统电话清晰、稳定的话音,相比之下,i p 电话的语音质量成为 其进一步发展的瓶颈。 i p 电话在话音质量方面并不尽如人意,主要表现为回声、抖 动、分组丢失与延迟四个问题。 1 2 企业级i p 电话 企业级i p 电话采用专门硬件替代p c ,基于卜l3 2 3 协议的终端。目前的产品主要 市场是应用于企业内部网内,这主要是由于受到网络条件的限制。它占用一个独立的 i p 地址,直接接入以太网。 1 2 1h 3 2 3 :企业级i p 电话的信令 在语音网络中,信令的任务是建立语音通道。信令出现于网络入口处。它选择 线路,建立网络通道,而且( 在远程站点) 通知呼叫到达信息。 h 3 2 3 是i t u t 有关多媒体通信的个协议集,包括用于i s d n 的h 3 2 0 ,用于b i s d n 的 3 2 1 和用于p s t n 终端的h 3 2 4 等建议。它定义了在无业务质量保证的互 联网或其它分组网络上多媒体通信的协议及其规程。这些分组网络主宰了当今的桌 面网络系统。因此,h3 2 3 标准为局域网、广域网、i n t r a n e t 和互联网上的多媒体 提供技术基础保障。 1 2 2 企业级i p 电话硬件结构 我们采用t i ( 德州仪器) 公司产品t m s 3 2 0 c 5 4 7 2 作为企业级i p 电话的微控制器 和数字信号处理器。如图1 2 1 5 所示,t m s 3 2 0 c 5 4 7 2 包括一个t m s 3 2 0 c 5 4 0 x 数字 信号处理器以及一个a r f f t t d m ir i s c 微处理器,一个以太网交换器和i p 电话相关外 部设备。 图i 2 t m s 3 2 0 c 5 4 7 2 功能结构 托衷王监大学工学域士学位论文2 0 0 3 中文详细摘要 2 2 9 ! _ , i h i i 茧i _ _ e ! ! ! ! _ ! s 1 2 2 1 微控制器 a r m 7 t d m i 是一个用于基于以太网鲍i p 电话的通用3 2 位r i s c 微处瑷器,由 a d v a n c e dr i s cm a c h i n e s ,l t d ,( a r m ) 公霹牙发。魏行信令,辩络接霜,爰户搂墨等 功能。 a r m 7 t d m i 的嵌入式实时操作系绒为w i n d r i v e r 公司的v x w o r k s 。 开发环境为 t o r n a d o2 0 。 1 2 2 2 数字信号处理器 数字信号处理器属于微处理器的一种,它主要应用于声啻压缩、图像愿缩等数 字压壤技术领域,能将声啻、霞缘、温度压力簿髓张模拟倍号态邃转变戏数字售 号。数字信号处理器予系统是i p 电话中用于齄纛语音信号的专矮部件,毽旗语音编 码解码器、电话信号音发生器和探测器、以及回音消除器。数字信号处理器优于 r i s c ( 精简指令集计算机) 处理器,其原因在于数字信号处理器有嵌入的协处理器 鞫蠲予妖遮数攥处理熬劳行数据遥邀。 t m $ 3 2 0 c 5 4 0 x 包括: 三个m c b s p ( m u l t ic h a n n e lb u f f e rs e r i a lp o r t ) :用于a i d ,d a 转换器的接 墨。 h p i ( h o s tp o r ti n t e r f a c e ) :a p 戮y t d m i 与d s p 熬逶惹接强。 3 2 k 片上内存:用予数据代码。 6 个d m a 通道。 开发环境为:仿真器( j t a g 接口) 。c o d e c o m p o s e rl 。2 0 。 1 2 3 众业级i p 电话软件结构 蚕1 3i p 毫逶语音骏睾臻穆 l p 电话g 7 2 9 a b 抖动缓冲算法姆疆啻质量改进 模拟语音信号必须经过处理,转换成适合在i p 网络上传输的i p 数据包。这个 过程需要先进行数字编码,转换为p c m 码,然聪经过专门的数字信号处理器芯片进 嚣蘩蕹蕊镲,最磊髯静上i p 龟静舔记,黟或 数蕹寇戆形式,戬逶金| p 阚终主豹 传输带宽,其中涉及刘了p c m 、数字信号处理器、编码、压销等内容。无论对于实时 的应用( 如i p 电话) 还是非实时的应用( 如语音邮件) ,发送端语音都要经过模拟 信号一数字信号一语潜包的处理造摆,并在接收端对语啻镪遴行相反的处理,从两 褥裂与输入端程阕豹语密信号。 7 裁索工业大学工学预士学位论文2 0 0 3 中文详锱摘要 第二章,语音质量 2 1 影响语音质量的几种因素 影响落音质量的主疆因素有以下几种 语音压缩编稳技寒 延迟 分组丢失 辩动 2 。1 1 谮音压缩编码技术 语音压缩编码技术的主要目的在于降低对带宽的需求。编码压缩仅负资对实际 传输的i p 分组数据进行压缩,它不受蠢对i p 头压禳。 2 。l 。2 延迟 语音延迟是指语尝发送端一个声音样本在通过话筒采样霜,到达接受端被播放 出来之前这一时间间隔。降低系统娥迟可咀通过撮高语音压缩技术、增加带宽、提 供更快的传输路由等方法加以解决。 i p 毫话斡延迟由嚣鄣分组戏,箕法延运,缡簇鹳延遴、数据分组传输延迟、 缓存延迟。 1 ) 鳟法延迟:语音处理以诺啬分组为单位。当音频数据采样量达n - 定数量 焉才送行缡码。基予基兹静编礴瓣码方式,这黪延迟无法避免。 2 ) 处理延迟:诱音分组进行编码解码,鞠声消除,抖动算法,处理器闯通 信,s o c k e t 读写丽引入的延迟。这种延迟可以通过改进算法以及优化软件而减 少。 i p 电话g 7 2 9 a b 抖动缓冲算法与语音质量改进 3 ) 。网络延迟:由于网络物理,路由等原因引起的延迟。数据分组传送延迟主 要由带宽情况决定。系统的整个延迟主要是语音数据分组在i p 网上传输的延 迟。 4 ) 。抖动缓冲延迟:语音分组进入接收端后,直到被抖动缓冲控制算法决定交 给解码器播放之前的延迟。 这也是抖动缓冲控制算法所要尽量减少的延迟。 图2 1 延迟分类 在图2 1 中,延迟分类如下: 延迟l :算法延迟。 延迟2 :编码处理延迟。 延迟3 :网络延迟。 延迟4 :抖动缓冲延迟。 延迟5 :解码处理延迟。 2 1 3 分组丢失 语音分组丢失会造成声音断续现象。 分组丢失原因有两种可能: 1 ) 语音分组在到达接受者前由于网络堵塞等原因消失或损害。 由于r t p 协议 不支持重发机制,如果没有冗余分组或前向纠错技术,语音信号不可避免受到损害。 9 忿索王监丈学工学礤学茬论文;2 0 0 3 中文详缝摘要 2 ) 诺膏分组到达按受者,然而由于延迟过大,超出抖动缀冲处理能力而被丢 弃。本文不对如何补偿谈分组进行讨论。 但分缎丢失数量及熟延迟将作为抖动缓 挣鸯适应舅法筵影蟪嚣裘蕊考嘉。 2 1 4 抖动 擗动可以蓠作是逛遮您变化量。 p 网络鲢一个特征就蹩嬲貉延时与潮缝妻嘻动, 这可爱导致l p 电话音臻下降。薅络瓣霹燕捂一个i p 鬯在弱络上终羚掰嚣秘露海, 网络抖动魁指i p 包传输时间的长短褒化。如果网络抖动较严煎,那么有的话音包因 迟到被丢辫,会产生话酱的断续及部份失真,严冀影响音质。 2 。2 改善语音囊量鹣冗耱方法 2 2 1 话街优先技术 i p 网络的路峦器可以挺话音毯的撬竞缓馋鸯聚蘸,这样,路密器一旦发蕊话音 包,莸会褥它雷3 接入到挣包队爨靛最翁瑟往先笈遴。要一释挺离话音楚理试先处理 优先级的拽术是资源颟留协议( r s v p ) ,它专门为话音通信预酾带宽。直到通话结 束,带宽才释放。 2 ,2 ,2 葡勰翱错技术 前向纠横技术技术有两级,第缎是i n t r a p a c k e t ,第二级是e x t r a p a c k e t 。 燕一缀是在圈一包肉鸯瑟冗余数据,以便接收方纠锩、恢复、还原话音数据,保证音 矮。第二缀蕊在每一个活音龟孛存放矮续鬯蕊冗余数器,鞋便接坟方簌已经接嫒蜀 的包中恢复出错或丢失的话音包。 2 + 2 。3 辩动缓冲技术 隽了防斑亨萼动,人们采矮了抖动缓挣技术,帮在接教方设定曩、缓挚送,话音 包到达时首先进入缓冲池暂存,系统以稳定平滑的逋率将话音包从缓冲池中取出、 解压、播放鲶受话者。这种缓冲技术可以在一定限度内有效处理话音抖动,并提高 音质 4 5 3 。率文第五章将对此详缀介缌。 3 1g 7 2 9 a b 第三章g 7 2 9 a b 构造系统 3 1 1 g 7 2 9 一附录a g 7 2 9 标准采用的算法,可以仅用8 k b p s 传输话音,话音质量与3 2 k b p s a d p c m ( g 7 2 4 ) 相同。 g 7 2 9 标准后来在1 9 9 6 年又得到了迸一步的优化改进。现在 g 7 2 9 是最重要的话音压缩标准,g 7 2 9 a 相比g 7 2 9 降低了压缩算法的复杂性。 3 1 2 g 7 2 9 一附录b g 7 2 9 一附录b 在附录a 的基础上增加了静噪检测技术( v a d ) ,以及断续传送 ( d t x ) ,以及舒适噪音发生器( c n g ) 。工作原理如下图所示 3 1 。 s p e e c he n t e rs p e e c hd e c o d e r 图3 1 静噪检测技术 所谓静噪检测技术( v a d ) ,是指检测到通话过程或传真过程中的安静时段,并在 这些安静时候停止发送语音分组。一般说来,人们在进行电话交谈时,很多情况下 处于静音状态,例如,一方在讲话时,另一方在听,而且讲话过程中有大量显著的 停顿。有关调查结果表明,在一路全双工电话交谈中,只有4 0 左右的信号是有效 的。静音抑制技术会检测通话过程或传真过程中的安静时段,并在这些安静时段停 止发送语音包。这样,大量的网络带宽节省下来用于其他话音或数据通信。这也就 是为什么采用6 7 2 9 a b 代替g 7 2 9 a 的原因。 由于旧的算法g 7 2 9 a 同g 7 2 9 a b $ h 比在r t p 层上工作于完全不同的方式,例女i j g 7 2 9 a 接收端无法处理g 7 2 9 a b 语音流,因此很难作出完整比较。如果单纯考虑语音质量,而 北京工韭大学工学磁士学位论文2 0 0 3 中文详细摘要 认为网络习i 存在抖动和延迟,贝 j g 7 2 9 a 略高于g 7 2 9 a b ,这是由于谮音压缩算法本身的限 制,g 7 2 9 a b 在语音段开始和中l e 时有所失真,丽这又超出了本文的讨论范畴。 3 2 r t p ( 实时传输协议) 实时传输协议r t p 为交互式语街,视频信号镣的实时传输提供端到端的服务。 包括包的识别,序列号,时间戳等。成用程序通常在u d p 之上使用r t p 协议。r t p 头 蘩定义懿下 vpxc cmp t s e q u e n c en u m b e r t i m e s t a m p s y m e h r o n jz a t i o es o u r c e ( s s r c ) i d e n t i f i e r c o n t r i b u t i n gs o u r c e ( c s r c ) i d e n t i f i e r 3 。3g 7 2 9 a b 构造单元 3 3 1 介绍 g 7 2 9 a b 构造单元用于将g 7 2 9 a b 编码器产生的数据帧打包成为r t p 数据分组。 g 7 2 9 a b 缡硝器每l o m s 产生一奇数攥搴麦,荬结暴可戆为语音数舔赣( g 7 2 9 a ) ,静音数 据帧( s i d 桢,g 7 2 9 b 帧) ,或者返回黛值。 3 。3 。2 分析 g 7 2 9 a b 编码嚣符合g ,7 2 9 辩泶b 静i t u 标准,该标准提供关予v a d ,d t x 蟊 c n g 功能的描述。d t x c n g 算法提傲关于非活跃的语音段连续和平滑的信息。 v a d 模块的输出是i 或0 。 v a d 赣邀”l ”:活跃的语音数攥簇技语啻绫璃薅羁器缀弱。 v a d 输出”0 ”:非活跃的静蒲数据帧被d i x c n g 模块编码。 为了将g 7 2 9 b 数据帧同g 7 2 9 a 数据帧一起打包为r t p 数据分组,需要确定r t p 数据分缓黪揍式。缀设个s i d 数摄姣鼹夔一个藏更多筑g 7 2 9 a 数据鲮,s i d 数据 顿是否应该被单独打包成为数据分缀? 而且在数据分组中数糕帧的颓净应该怎样? 在本文中,我们采用互联网草稿文件”r t p p r o f i l ef o ra u d i oa n dv i d e o c o n f e r e n c e sw i t hm i n i m a lc o n t r o l ” i o 作为设计基础。 ”个g 7 2 9r t p 数蠢分组毒戆蠹零令或凳多豹g 。7 2 9 戏者g 7 2 9 a 数据羧瑟 组成,其后有零个或一个g 7 2 9 b 数据帧” 1 0 。由此推论: 当其所有的三个数据i 帧均为g 7 2 9 a 数据帧的时候,输出3 0 字节数据分组。 。当二个g 7 2 9 a 鼗爨孝赉磊为一g 7 2 9 b 数褥枣粪瓣,翰塞2 2 字节数据分缝。 i p 电话g 7 2 9 a b 抖动缓冲算法与语音质量改进 当一个g 7 2 9 a 数据帧后为一g 7 2 9 b 数据帧时,输出1 2 字节数据分组。 当只有一个g 7 2 9 b 数据帧时,输出2 字节数据分组。 当没有g 7 2 9 a b 数据帧产生时,停止打包。直到有g 7 2 9 a 数据帧或者 g 7 2 9 b 数据帧出现。 一个语音段的第一个数据分组,其r t p 数据分组头部中设定标志位。此外, 在r t p 数据分组头部中时间戳的定义为产生数据分组的第一个数据帧中第一个语 音样本产生的时间。步骤如下: 第l 步:串行口i s r 将p c m 语音样本存入样本缓冲区之内,这是一个 双重循环缓冲区,而且每个长度为8 0 个字。 第2 步:当样本缓冲区中样本达到一定数量时,将产生一个消息或一个 软件中断从而启动g 7 2 9 a b 编码器处理样本。 第3 步:g 7 2 9 a b 编码器在每处理l o m s ( 8 0 w o r d s ) 样本之后将会作出一 个决定。其决定将会是”1 ”或”0 ”,依照数据帧是一个活跃的语音数据帧 或者是一个静音帧。 箱4 步:如果数据帧是一个活跃的语音数据帧,如同g 7 2 9 a 数据帧,其 长度为1 0 字节。如果数据帧是静音帧,编码器将会决定是否送出一个s i d 数据帧或不产生任何数据帧。s i d 的数据帧长度是2 字节。 第5 步:构造单元将数据帧打包成为r t p 数据分组。 第6 步:r t p 数据分组头部加入数据分组,然后送入网络接口。 综上所述,g 7 2 9 a b 数据分组其大小不是静态的3 0 m s 数据,而是随着发送端语 音而变化,而且其时间戳不会以固定的3 0 m s 作为边界。 j l 塞工业大学工学蠖士学位论文2 0 0 3 中文详细摘要 l i i , 鼎燃嬲曾暑曼苎! 詈蔓燃糟篁曼兰! ! 曼苎堂燃糕曼曼曼蔓! ! 烹嬲期鼍曼笪! 曼曼皇懋燃嬲! ! 曼 3 3 3 建立模型 图3 2g 7 2 9 a b 构造单元模型 数攥犊索引f r a m ei n d e x 在援鼙中被设诗为在r t p 数攥分缝中据蹬数懿枣麦弱 位置。每次当g 7 2 9 a b 编码器返潮一个语音数据帧或一个s i d 数据顿,数据帧索 引将会被加一。而且编码后的数据帧和时间戳将会被拷贝到r t p 数据分缌中正确 的位罨。编码后的数据帧大小被累加以作为数据分组大小保存。当数据分缎大小到 达3 0 m s ( 1 5 令字) 斡时候,或最焉编码蕊数撵拳真是一个s i d 数蠢枣奏,翻认为数据 分组已经完整。 在模型图中,我们没有解释标志位如何被设定。通过每l o m a 检查数据帧大小 l 果数据羧是语音数据峻,两且旱先麴数据帧不憝一个语音数据顿,r t p 数据分组 头部的标志位将会被设定,否剜它将会被清零。 丽对子痔翔号,当一令翁豹有彀 r t p 数据分组准备好了的时候,自动加一。 1 4 i p 电话g 7 2 9 a b 抖动缓冲算法与语音质量改进 3 3 4 实现模型 图3 3g 7 2 9 a b 构造单元实现 从图3 3 中,我们看到v a d 单位基于样本缓冲区作出决定。构造单元从由 v a d 和g 7 2 9 a b 编码器获取信息,以此决定何时该打包r t p 数据分组及数据分组和 大小,并且保证r t p 数据分组的正确时间戳。a r m 7 d m i 从h p i 接口读出数据分组 后,将其写入以太网接口。 北京工业大学工学蝴士学位论文2 0 0 3 中文详细摘要 第四章g 7 2 9 a b 复现系统 4 1 介缁 接收端为了忠实复现语音信号,语音数据分组中将尽量以其在发送端产生的 相同方式被搔放。对于g 7 2 9 a b 的语谗传输过程,复现系统扮演精最重要的角色。 4 2 分析 g 7 2 9 a b 接收端中,语音解码器负费处理g ? 2 9 a 语音数据帧,d t x c n g 模块负责 处理静音帧并且产生舒邋嗓音。为了产生平滑的语音输出,以下情况需要考虑: 1 ) 语音数据顿同s i d 顿的边界淘题。 2 ) 考虑如何扩展为自适应抖动缓冲。自适应抖动缓冲将会在下章中被讨论。 3 ) 假定畜一语音段在一个s i d 蜮之屠被播放,盘拜果只有序列号,我们无法次定此翦 静s i d 鞍的搐藏对闻以及薪静语音段何时应该开始。 西诧懿褥有效蠢嗣辩润戳是 g 7 2 9 a b 复现系统的关键。 4 ) 由于i p 电话在发送端和接收端之间没有时钟同步的手段,从而无法计算数据分 缝传浚戆粪正延迟。本文应鼹蟊下三爨羁润戳: a ) r t p 头部中的时间戳。 b ) 本地的到达时间戳。 e ) 。本辘熬摇效露淘戳。 5 ) 一一般而言,电话中交谈双方总有一方处于倾昕方式。 从而另外一方发遴的语音 流也总是在语音和静默两种状态之间切换。 这意眯着接收端也应该能够适应这种切 接。 6 ) 对于g 7 2 9 a b 解码器,数据分组大小用来决定被解码的数据分组的类型。 4 。3 抖动缓冲写入方法 搏动缓挣写入方法( w r i t e j i t t e r b u f f e r ) 怒蒸予h p i 中敝豹嫡应翟序。萁叠 的是将有散的r t p 数据分组放到抖动缓冲的正确使置。 并且兹弃过时或者无效的数 据分组。本文中数据分组在抖动缓冲的位置由其序列号决定。此外保存本地的到达 时闻戳用于囊适应拱动缓冲的设计。逶过数据分缀躲大小以及r t p 头部的嚣孪闻戳, 我们可以知遵每个数覆分组应该被搭敖多久。 1 6 i p 电话g 7 2 9 a b 抖动缓冲算法与潺音质量改进 4 4 抖动缓冲读出方法 抖动缓冲读出方法( r e a d j i t t e r b u f f e r ) 为个包括三墨申状态的状态枫。如下 图瑟示。 图4 1 “r e a d j i t t e r b u f f e r 状态机” 每次当 p 魄诿牙廷一个黼懿会话时,它褥送入i n i t s t a t e 。鳃暴我们采霹 静态抖动缓冲技术的话,并且其抖动缓净大小为6 0 m s 对,筲先到达静数据分组将被 作6 0 m s 延迟,此后i n i t s t a t e 停止。 然后决定将下一个状态。该决定基于抖动 缓冲中时问戳最小的数据分组的大小。 此厝状态机将会在s p e e c h s t a t e 和 s i l e n c e s t a t e 之闯甥抉。该转羧姆傣现语害浚与语音段之闯的獒默段之闯斡转 换。 此外,在抖动缓冲中,每个数据分组有四种状态: r e a d y :这麓毅到达的数据分组豹状态。当数据分缝到达时由 w r i t e j i t t e r b u f f e r 设置。 i n i t :当新的会话开始的时候数据分组的状态。该状态用来检焱是否有任 何新的数据分缀到达。如果有任何瓤的数据分组到达,状态车几将会进入 i n i t s t a t e 。 b u s y :这魑正在被播放数据分组的状态。当下一个数据分组开始播放后, 该数据分组将转为e m p t y 状态a 她客互盐大学工学嫒士学垃论文2 0 0 3 中文详壤攮耍 ! ! ! ! s _ , , ! li, i , il l _ ! ! ! ! ! ! s s _ ! ! ! ! e s $ _ ! ! ! e m p t y :这悬图被播放,或漪从未出现的数据分组的状态。处于该状态的 数据分组的位置在抖动缓冲中可以用来存放赦准备其他状怒蜘数据分组。 在遥入敬态瓠之蔚,复现系统需要籀遂藉魂缓洚瓣当藏藩琵: 抖渤缓冲的大小 ,撼大款延迟。 鬣,j 、麓延运。 鼹后播放的数据分组的位置 、每个状态类型黝数据分组的数量,r e a d y ,i n i t ,b u s y ,e 勰p t y + 。警最蓐豹数据分缀被播救虢鞋雩谈,餐蚤缓狰的状态。 4 4 1i n i t s t a t e i n i t s t a t e 适当辩魏缓羚开蛤韧始德它本襄鹃对矮懿羧态。瑟费缓冲被褪戆 化之前,宅总是检查憝谮有数据分筑避入抖动缓冲。如果我稍添用6 0 m s 静态抖动 缓冲,首先剿达的数据分组将被作6 0 m s 延迟,此后i n i t s t a t e 将被中止。 为了莰诗一个辩动缓_ 孛初始纯稷穿,我们需要了解在圭萼毯缓捧秘始纯过程中可 麓发生的蓊况。为了簿亿情况,霰设辩动缓挣大小为露定熬6 0 m s 。 a ) 。非抖动语音情况。这种情况不需要特别的考虑。 b ) 。挝动媾况。搓这静帻握中,收到鲍所霄数据分组的瓣勖在6 0 m s 之虑,则 意味蓑崮i n t t s t a t e 绩衷霹,辩动缓跨不存在丢失鼗摇分缀浆霹霆幢。 厦之, 当i n i t s t a t e 结束时,抖动缓冲中的数据分组不能完整反瞅语音的实际情况。 莲。莲2s 羔l 嚣k e e s t 矗零毯 当i n i t s t a e 或者s p e e c h s t a t 结束螽,翁曩在辩动缓渖中对阖戳爨小豁数据 分组有一个s i d 帧时,抖动缓冲将会进入s i l e n c e s t a t e 。该数据分组将被设置为 状态r e a d y 。s i l e n c e s t a t e 将会继续直到一个没有s i d 的数搬分组开始播放。 当 辫动缓、垮凌定撂效一个语音数攥椟戆对簇,s i l e n c e s t a t e 蒋会转变至g s p e e c h s t a t e 。福同,夜s i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论