




已阅读5页,还剩46页未读, 继续免费阅读
(通信与信息系统专业论文)instlink统一通信系统中voip模块的研究和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 网络电话( v o i p v o i c eo v e ri n t e m e tp r o t o c 0 1 ) 是一种通过i n t e m e t 或其他使用 i p 技术的网络来实现语音通信的技术。伴随着互联网日渐普及,v o l p 业务成为互 联网上统一通信系统中必不可少的一项基本业务。因其低通话成本、低建设成本、 易扩充性及日渐优良化的通话质量等主要特点,v o l p 业务被目前全球电信和互联 网行业视为传统电信语音业务的有力竞争者。 论文首先系统地分析研究了v o i p 业务所涉及到的相关领域技术,包括双方语 音和多方语音会话信令控制技术、语音编解码技术、混音技术、语音质量改善技 术、缓冲技术等,并深入比较评判了每种技术的不同几种实现各自的优劣,并在 一些技术上针对i n s t l i n k 客户端的v o l p 模块提出了相应解决方案。随后,本文详 细介绍了i n s t l i n k 系统中v o l p 模块的完整实现,包括语音会话控制子模块和语音 引擎子模块。最后还介绍了将该v o i p 模块向a n d r o i d 平台客户端移植中遇到的问 题和解决方案。 关键字:网络电话语音编解码语音引擎混音移檀 a b s t r a c t a b s t r a c t v o i p ( v o i c eo v e ri n t e m e tp r o t o c 0 1 ) i sav o i c ec o m m u n i c a t i o nt e c h n o l o g yu s i n gi p p r o t o c o la n di n t e r a c ta si t st r a n s m i s s i o nm e d i a w i t ht h eg r o w i n gp o p u l a r i t yo ft h e i n t e r n e t , v o i pb e c o m e sa ne s s e n t i a ls e r v i c et ou n i f i e dc o m m u n i c a t i o n ss y s t e m s s i n c e i t sl o wi nc o s t , e a s et ou s e ,f l e x i b l ei ns c a l a b i l i t ya n de x c e l l e n ti nq o s p e r f o r m a n c e ,v o i pi sd e e m e da sas t r o n gc o m p e t i t o ro ft r a d i t i o n a lt e l e c o ms e r v i c e sb y g l o b a lt e l e c o m m u n i c a t i o n sa n di n t e r n e ti n d u s t r i e s 砥sp a p e rf i r s ts h e dl i g h to nt e c h n o l o g i e si nr e l e v a n t f i e l d s ,i n c l u d i n g v o i c e c o d e c ,v o i c eq u a l i t ye n h a n c e r , t w o p a r t y m u l t i p a r t y v o i c es e s s i o n c o n t r o l l i n g , b u f f e r i n g ,v o i c em i x i n g ,e t c a f t e r w a r d s ,i tg a v ei n - d e p t h e v a l u a t i o no fm u l t i p l e i m p l e m e n t a t i o n s o fe a c h t e c h n o l o g y a b o u tb o t h t h e i r a d v a n t a g e s a n d d i s a d v a n t a g e s m e a n w h i l e ,t h i sp a p e ra l s op u tf o r w a r dt h ea u t h o r so w ns o l u t i o n so n r e l a t e dt e c h n o l o g i e so fv o i pm o d u l eo fi n s t l i n kc l i e n t s u b s e q u e n t l y ,t h i sp a p e rd e p i c t e d i nd e t a i la b o u tt h ec o m p l e t ea n ds y s t e m a t i c a li m p l e m e n t a t i o no fv o l pm o d u l eo f i n s t l i n kc l i e n t ,w h i c hc o n s i s t so fv o i c es e s s i o nc o n t r o ls u b - m o d u l ea n dv o i c ee n g i n e s u b m o d u l e f i n a l l y ,w ed i s c u s s e ds o m e i s s u e se n c o u n t e r e dw h e nt r a n s p l a n t i n gt h i sv o i p m o d u l ef r o mw i n d o w st oa n d r o i do s ,a n dp r e s e n t e do u rs o l u t i o n st ot h e m k e y w o r d :v o l p v o i c ec o d e cv o i c ee n g i n ea u d i om i x i n gt r a n s p l a n t i n g 第一章绪论 第一章绪论 1 1 研究的背景和意义 v o i p ( v o i p - v o i c eo v e ri n t e m e tp r o t o c 0 1 ) 且1 语音通过i n t e m e t 分组交换协议进 行传输,是互联网上统一通信系统的一项基本业务,被视为传统电信业务的有力 竞争者,与即时消息、电子邮件、文件传输等业务共同构建了统一通信系统的基 本功能模块。 v o i p 业务的技术特点是: 1 ) 支持灵活多样的业务方式:可以方便地支持双方语音会话和多方语音会话。 2 ) 优异的性能价格比:v o i p 业务的最大优点是价格上的优势,这是其成为互 联网内重要业务的根本原因。 3 ) 充分利用已有网络资源:不需要在传输网络和终端设备上重复投资。 v o i p 业务的关键技术包括: 1 ) 媒体控制信令技术:包括i t u th 3 2 3 1 1 1 2 1 1 3 1 、i e t fs i p 4 l ( s e s s i o ni n i t i a t i o n p r o t o c 0 1 ) 、x m p p 5 6 7 】【8 l 9 l 等。 2 ) 语音流媒体加密技术:包括d e s 、r c 4 1 0 】等流媒体加密算法 3 ) 语音传输技术:包括r t p r t c p 1 1 1 、u d t 1 2 1 等传输协议。 4 ) 语音编码技术:包括流行的g 7 2 3 1 、g 7 2 9 、g 7 2 9 a 、i l b c 1 3 1 、s p e e x 1 4 1 等语音压缩编码算法。 5 ) 语音信道管理技术:主要负责管理多路语音信道,记录各个信道的编解码模 式、状态、以及多信道混音等技术【1 5 】【1 6 l 【1 7 】f 】8 】。 6 ) 语音质量改善技术:包括v o i p 业务中语音噪声抑制技术、分组丢失掩蔽技 术【1 9 】、回声消除技术1 2 0 1 、语音分组抖动缓冲技术【2 1 2 2 等。 1 2 发展与研究现状 目前v o i p 业务的目前面临的一些主要问题可以概括为两个方向,一是服务质 量,二是跨平台。 1 2 1 提高v o i p 语音质量的相关技术 当前v o i p 业务遇到的主要难题是q o s 的保障。在i n t e m e t 上有很多因素都会 影响v o i p 业务的q o s ,包括:网络带宽限制、分组实时传输中的延迟和抖动问题 瞄】、分组丢失问题【2 4 】【2 5 】、声学回声消除难题【2 6 】f 2 7 】【2 引,等等。 2 i n s t l i n k 统一通信系统中v o i p 模块的研究和实现 为了应对这些服务质量方面的难题,v o i p 业务需要综合使用语音编解码器技 术、分组传输技术、混音技术、抖动缓冲技术、分组丢失掩蔽技术、回声消除技 术等,以提升整体用户体验。 1 2 2 v o i p 业务跨平台互操作性的需求与解决方案 当前v o i p 业务的另一个难题是对于多种网络环境、操作系统环境、媒体信令 控制系统的支持问题。当前存在着多种提供v o i p 业务的系统,包括g o o g l e t a l k 、 m s n 、s k y p e 、q q 以及大量的其他的系统。这些系统不但彼此之间v o i p 业务的 互联互通存在困难,即使仅仅考虑每个系统自身,其v o i p 业务也面临着一些跨平 台难题:包括对对多种网络环境、多种操作系统、多种媒体控制信令技术的支持。 对于多种网络环境的支持主要通过使用多种底层网络传输协议( r t p 、u d t 等) 来实现:对于多种操作系统的支持主要通过将系统移植到不同的操作系统之下, 或者在设计实现系统时就使用跨操作系统的技术或语言来实现;对于多种媒体控 制信令技术的支持主要通过服务器媒体控制信令网关来翻译转换。 1 3 论文的主要工作 论文源于西安电子科技大学通信软件实验室的统一多媒体统一通信平台 i n s t l i n k 项目,目前i n s t l i n k 统一通信系统客户端中的v o i p 模块目前已经全部经由 作者设计并实现。 论文重要研究和工作包括: 1 深入理解当前v o i p 应用的主要实现架构和方案 2 9 3 0 1 1 3 ,分析比较各种会议 模型性能优缺点和应用环境; 2 在详细研究了当前h 3 2 3 、s i p 、x m p p 等媒体控制信令协议的基础上以及 i c e 、r c 4 等p 2 p 流媒体传输及加密技术的基础上,利用x m p p 协议设计并实现 了i n s t l i n k 系统中对于v o i p 业务的媒体信令交互流程以及p 2 p 语音分组数据传输 流程; 3 分析研究v o i p 中的语音编解码器技术、语音改善技术、语音引擎技术、多 方语音会话的混音技术等,在w i n d o w s 操作系统下为i n s t l i n k 统一通信系统设计并 实现了基于i l b c 、s p e e x 以及w e n i x 编解码器的语音引擎1 3 2 1 1 3 3 1 0 4 ,作为v o i p 模 块的核心,用于支持v o i p 业务; 4 深入了解a n d r o i d 编程技术( 3 5 l 和e c l i p s e 集成开发环境【3 6 j ,使用j n i 机n f 3 7 】f 3 8 j , 将i n s t l i n k 系统的v o i p 模块从w i n d o w s 操作系统中移植到a n d r o i d 操作系统中; 第一章绪论3 1 4 论文内容安排 本论文主要对v o l p 模块的相关技术进行了深入系统的研究,然后在现有的 i n s t l i n k 系统架构下实现了基于x m p p 媒体控制信令协议的双方、多方语音通信模 块,特别是核心的语音引擎子模块。本论文的各章安排如下: 第一章绪论,分析了相关领域背景知识和研究现状,并介绍论文的主要工作 和论文内容安排; 第二章相关理论和技术,深入研究了x m p p 媒体控制信令协议及其扩展协议 j i n g l e ,以及p 2 p 相关技术,并且分析了其在v o l p 系统中的应用; 第三章语音编解码技术,研究了i l b c 、s p e e x 、w e n i x 的编解码原理及其实 现,完成了编解码器在v o l p 模块中的接口设计和实现; 第四章研究了v o i p 模块体系结构的设计,并深入分析了各个功能子模块在 w i n d o w s 系统中的设计实现,着重分析并提出v o l p 模块为支持双方语音会话和多 方语音回话的相关技术和实现,最后研究了会议混音、抖动缓冲、回声消除等v o i p 模块中与语音质量改善相关的技术和实现; 第五章研究了a n d r o i d 操作系统的特点和编程环境,提出了i n s t l i n k 的v o l p 模块从i n s t l i n k f o r p c 到i n s t l i n k f o r a n d r o i d 的移植中遇到的主要问题和解决方案; 第六章总结与展望,对全文进行了总结,并对i n s t l i n k 系统的语音模块的未 来发展做出了展望。 第二章v o i p 的信令控制协议x m p p 协议原理 第二章相关理论技术的研究 2 1x m p p 媒体控制信令协议 对于v o i p 来说,媒体控制信令协议旨在用于语音媒体会话控制。目前,v o i p 系统媒体控制信令协议中比较流行的标准有3 种:即h 3 2 3 、s i p 和x m p p 。其中 x m p p 协议以其开放、标准化、分布式、安全、可扩展性强、灵活性等诸多方面 特点的优势而备受亲睐。 x m p p 系列协议是针对i p 网络即时消息、出席、语音与视频通信、群组协作、 信息聚合与分发以及x m l 数据路由等一系列应用提出的技术规范集合。x m p p 是 一种开放的基于扩扩展标记语言x m l 的协议,它继承了在x m l 环境中灵活的发 展性。基于x m p p 的应用具有超强可扩展性,经过扩展以后的x m p p 可以通过发 送扩展信令来满足v o i p 系统的控制信令交互需求。因此,在i n s t l i n k 系统的v o i p 模块中乃至i n s t l i n k 整个系统都是基于x m p p 协议及其扩展协议构建的。 2 1 1x m p p 协议内容 x m p p 在2 0 0 4 年1 0 月被i e t f 认定为标准协议,它包括r f c 3 9 2 0 和r f c 3 9 2 l 及其大量的扩展协议。r f c 3 9 2 0 是x m p p 协议的核心,描述了x m p p 中x m l s t r e a m 的核心技术、安全和x m p p 主题框架等;r f c 3 9 2 1 在主要是基于即时通 信的一些技术,例如好友列表,出席信息等;扩展协议是以x e p ( x m p p e n h a n c e m e n tp r o p o s a l s ) 命名,用来指定x m p p 的扩展功能。 x m p p 核心协议内容如下: 寻址方案j i d : 使用x m p p 通信,需要有统一的寻址方案。x m p p 通信实体的地址叫做j i d , 形如n o d e d o m a i n r e s o u r c e ,是由三部分组成:域标识符( d o m a i n ) ,节点标识符 ( n o d e ) ,资源标识符( r e s o u r c e ) 。j i d 是内外结合的表示用户身份和路由信息。域 名必须是唯一的,通常代表网关或主服务器。域名必须是定义在i d n a ( i n t e r n a t i o n a l i z i n gd o m a i nn a m e si na p p l i c a t i o n s ) 的国际化域名,域名能被d n s 解 析并能查找出x m p p 服务器的具体位置。第四章会详细给出扩展的j i d 寻址方式。 x m l 流与x m l 节: x m p p 是基于x m ls t r e a m 的协议,在网络上分片断发送x m l 的流协议,所 以x m p p 信息不仅可以是简单的文本,而且可以携带复杂的数据和各种格式的文 件,也就是说x m p p 不仅可以在人与人之间的交流,而且可以实现软件与软件或 软件与人之间的交流。x m p p 的这种功能大大扩展了即时通信的范围。 6 i n s t l i n k 统一通信系统中v o i p 模块的研究和实现 订l 流是一个容器,包含了两个实体之间通过网络交换的x m l 元素。一个 x m l 流是由一个x m l 打开标签 开始,以 结尾。x m l 节是从会 话的一端向另一端发送的具有语义的结构化数据单元。它直接位于 的子 层,从它的开始标签,一直到结束标签,作为一个语义单元。协议定义了仅有的 三个x m l 节;妒 节、 节、 节,分别用于交换即时消息、 出席信息和请求响应信息。 x m p p 会话的建立: 客户端与服务器,服务器与服务器之间在交换信息之前需要建立流。为了确 保流的安全传输,首先要进行t l s 协商,当协商成功后还要进行s a s l 认证,认 证成功后就可以进行会话绑定、资源绑定、获得好友列表等过程。只有当客户端 和服务器之间建立了会话之后,服务器才能向该客户端提供x m p p 服务。服务器 向客户端提供的x m p p 服务包括x m p p 核心协议及其扩展协议。在本论文所设计 的多方通信平台中,在x m p p 会话建立后所有客户端服务器之间的传输称为带内 传输,其他形式的传输( 如客户端之间的直接传输) 称为带外传输。所有的x m p p 信令和经过服务器的数据都通过x m p p 会话进行传输。x m p p 核心协议定义了 x m p p 系统的大致框架和规则,通过核心协议可以实现基本的即时消息和出席信 息功能。随着x m p p 扩展功能的不断增多,扩展协议增加迅速,目前已经达到二 百多个。扩展协议定义了许多系统实现细节和一些高级功能,如音视频通信、多 方通信机制等。 此外,x m p p 还定义了一些扩展协议来支持多方通信和多媒体控制信令。例 如x e p 0 0 6 0 ( 发布订阅协议) 定义了x m p p 系统中发布订阅平台的构建方法,发布 订阅平台可以作为多方通信的基础信令和c 2 s 模式多方数据平台;x e p 0 1 6 6 ( j i n g l e 协议) 定义了端对端p 2 p 传输信令,可以依照协议实现端对端的v o i p 语音 数据媒体传输控制。 第二章v o i p 的信令控制协议- x m p p 协议原理7 2 1 2x m p p 协议框架 t - _ - - - 一- - 一_ _ _ - - - _ - - - 一- - _ - - 一- - - - - - - - 一- - 一1 i 其他蹦服务网络。 i 图2 i x m p p 协议框架 x m p p 在设计上很大程度上沿袭了i n t e m e t 上最成功的消息系统e m a i l 。 x m p p 中规定了三种实体:x m p p 客户端、x m p p 服务器、x m p p 协议网关。其中 x m p p 协议网关负责x m p p 与非x m p p 系统互连;x m p p 服务器包括c 2 s 、s m 、 r 2 r 、p u b s u b 、数据库以及一些诸如文件服务器的应用服务器。这些服务器之间 可以进行互通协作,这样就可以形成一个由这样一组服务器组成一个服务器单元, 进而由多个服务器单元组成一个分布式网络;客户端通过登录c 2 s 服务器来接入 网络,从而发送消息或信令给服务器或者登录在网络上的其他客户端。 尽管x m p p 没有结合任何特定的网络结构,通常认为它是c l i e n t s e r v e r 架构 的一种实现。x m p p 服务器主要负责管理客户端连接;接收、处理x m l 流中的信 令或消息或者将之转发给能够处理该信令的服务器或客户端。x m p p 协议网关是 一个特殊的网络节点,主要负责将x m p p 信令或消息翻译为非x m p p 协议的信令 或消息,或者将由外部网络返回的信令消息翻译成x m p p 的信令消息并转发给相 应网络内部服务器节点。x m p p 客户端主要负责和用户交互,负责用户业务的直 接提供和用户信令消息的收发解析。 2 1 3x m p p 扩展协议j i n g l e 对于v o l p 这一特定业务来说,需要双方或者多方的信令交互,这些信令的类 型包括:会话协商信令、p 2 p 地址协商信令、加密密钥协商信令等。因为x m p p 8i n s t l i n k 统一通信系统中v o i p 模块的研究和实现 核心协议中没有对于这些信令的支持一般都是用x m p p 的扩展协议 j i n g l e ( x e p 一0 1 6 6 及其扩展协议) 。 j i n g l e 是x m p p 协议上的扩展协议,它着手解决在x m p p 协议框架下的p 2 p 的连接和控制信令交互问题。在j i n g l e 框架下,即使用户在防火墙或是n a t 网络 保护之下,也能够建立连接并提供文件传送、视频、音频服务等等。 j i n g l e 扩展协议中和v o i p 系统相关的主要包含如下几个文件: 1 ) x e p - 0 16 6 j i n g l e x e p 0 1 6 6 是j i n g l e 扩展框架的纲领文件,这个扩展定义j i n g l e 协议应用的特 点、应用的场合,也决定了j i n g l e 协议自身的特点。其主要内容如下: ( 1 ) j i n g l e 的目标是建立点对点的连接,使得x m p p 内多种点对点会话( 不限于 声音和视频) 的管理成为可能不管是否在防火墙或是n a t 网络下。 存将信令交互与媒体数据交互分离:明确分离信令交互通道( x m p p ) 与媒体数据通道 ( p 2 p ) 。 ( 2 ) 将媒体数据格式与媒体数据内容相分离:明确分离媒体数据描述信息( 例如, 传输的媒体数据类型、编码方式、传输方式等等) 与内容传输方法( 具体的媒体数据) 。 ( 3 ) 使得从现有会话中加入、修改、删除内容类型成为可能,也即定义了会话 的控制管理信令。 2 ) x e p - 0 16 7 j i n g l er t ps e s s i o n s x e p 0 1 6 7 是为协商一个或者多个媒体会话而定义的j i n g l e 语义。 x e p 0 1 6 7 规定,对于一个j i n g l e 会话的描述包含在一个 的元素中。 在 中,对于该会话所使用的媒体数据格式的协商,使用 元素来描述。在 q 】,对这个会话所支持的一个或者多个媒体数据格式, 使用一个 元素来描述。 在 中,对该会话所使用的传输信道的协商,使用 元素来 描述。在 中,使用 元素来描述每个通道的信息。 在j i n g l e 中,如果要对该p 2 p 会话的媒体数据进行加密,还可以进行安全协 商,这是需要在a c t i o n 为”s e s s i o n - i n i t i a t e ”的j i n g l e 节中添力i i 元素。在 中,对应每种每个加密认证方案使用 元素来描述。 此外,如果在j i n g l e 会话过程中需要发送一些会话状态信息,例如单端语音会 话保持、会话激活、静音、取消静音、振铃等;群组语音会话中请求发言权、批 准发言权、请求加入会话、批准加入会话、踢出会话等。 3 ) x e p 0 1 7 6 j i n g l ei c et r a n s p o r t :穿越n a t 防火墙的解决方案。 在j i n g l e 框架下,它属于j i n g l e 的传输方式。这个文件解决了如何让防火墙或 是n a t 保护下的实体建立p 2 p 连接的问题。 第二章v o i p 的信令控制协议x m p p 协议原理 9 从协议的名字可以看出,它是利用了i c e 协议来建立p 2 p 连接的。i c e 协议 是一个基于s t u n 协议的一个旨在建立实体间p 2 p 连接的协议。x e p 0 1 7 6 所做的 工作就是,将i c e 协议与x m p p 协议结合起来,也就是用x m p p 协议作为i c e 的 s i g n a lc h a n n e l ,在它的协调之下建立连接。 4 ) x e p 一0 17 7 j i n g l er a wu d p t r a n s p o r t x e p 一0 1 7 7 j i n g l er a wu d pt r a n s p o r t 也是一种建立p 2 p 连接进行传输的方式, 但是与x e p - 0 17 6 j i n g l ei c et r a n s p o r t 方式不同,它只能建立没有防火墙且在同一 网络下面的p 2 p 连接。 2 2 p 2 p 相关技术 p 2 p 是p e e r - t o p e e r 的简称,指系统中的客户端之间直接建立通信链路进行数 据的传输,它不需要经过中心服务器的转发。p 2 p 模式设和实时性要求高、数据量 大的传输场合。v o l p 中的语音分组传输是p 2 p 中的一种典型应用场景。p 2 p 中所 用到的协议或技术如下: 2 2 1 i c e 技术 i c e 为n a t ( n e t w o r ka d d r e s st r a n s l a t i o n ) 穿透提供了解决方案框架,框架中整 合了现存的n a t 穿透协议,包括s t u n ( s i m p l et r a v e r s a lo f u d pt h r o u g hn a t s ) 、 t r u n ( t r a v e r s a lu s i n gr e l a yn a t ) 等。i c e 是一种不断探索和自主更新式的解决方 案。它通过搜集自身和对端尽可能多的网络信息( 比如各种网络地址等) ,尝试在这 些地址之间建立数据通道,并在这个过程中不断更新之前收到的信息,最终找出 能够进行n a t 穿透的数据通道。在i n s t l i n k 统一多媒体通信系统中,使用i c e 技 术进行p 2 p 连接建立前的n a t 穿透。 2 2 2 r c 4 算法 在密码学领域,r c 4 ( r i v e s tc i p h e r4 ) 是应用最广泛的流加密算法,应用在安 全套接字层( s s l ) 上用来保护网络上传输的数据。在v o i p 应用中,经过s s l 协商 后,使用r c 4 算法对需要传输的数据进行加密。r c 4 产生一个伪随机比特流( a k e y s t r e a m ) ,加密的时候,把它跟明文进行比特级别的异或处理,解密时进行一样 的步骤( 因为异或操作是对称的) 。r c 4 所使用的密钥长度可变( 在8 - 2 0 4 8 位之间变 化) 。不管密钥长度有多长,密钥都被扩展成为一张固定尺寸的内部状态表,所以 无论是用什么长度的密钥,该算法的速度都一样快,可以达到d e s 加密速度的1 0 倍左右。 1 0 i n s t l i n k 统一通信系统中v o i p 模块的研究和实现 2 3 1 分组传输技术 2 3 与v o i p 语音质量改善相关的技术 v o i p 技术需要使用r t p r t c p 协议和u d t 协议保证对语音分组的实时、可 靠传输。r t p r t c p 协议应用在v o i p 中主要是为了确保语音包序列的乱序重排和 抖动缓冲二u d t 协议底层基于u d p 协议,并引入新的拥塞控制和重传机制。 i n s t l i n k 系统中使用u d t 支持数据流的传输,因为u d t 对于v o i p 中所需的 乱序重排和抖动缓冲则没有支持,需要应用程序自行设计解决方案。 2 3 2 混音技术 v o i p 系统对于多人语音会话的支持通过混音来实现。 当前混音技术有两个难题:是语音收缩算法设计;二是混音系统结构设计。 2 3 3 抖动缓冲技术 v o i p 依靠抖动缓冲来应对分组乱序问题。 分组乱序重排可以依靠r t p 协议中的时间戳来实现;也可以自行设计。抖动 缓冲的另一个关注点是缓冲队列长度的确定:可以是固定长度,也可以设计为随 网络环境动态变化。 2 3 4 分组丢失掩蔽技术 由于语音传输是一种实时过程,因此在发生分组丢失时接收端不能够请求发 送端重传丢失分组,而应该通过分组丢失掩蔽技术来解决。 分组丢失掩蔽策略面临的主要问题:一是如何根据之前的分组来掩蔽丢失的 分组;二是如何解决连续分组丢失问题;三是如何保证丢失分组掩蔽语音波形和 后续正常分组语音波形相位的连续性。 2 3 5 声学回声消除技术 v o i p 业务中声学回声对录入语音形成干扰。声学回声消除的基本思想是估计 回声路径的特征参数( 主要是指衰减和延迟) ,产生一个模拟的回音路径滤波模型, 得出模拟回声信号,从接收信号中减去该信号,实现回声抵消。 回声消除理论的难点是估计回声与近端输入信号之间的同步问题以及回声滤 波器参数估计的问题。 第三章v o l p 模块中的语音编解码技术 i1 第三章v o l p 的关键技术一语音编解码技术的研究和实现 一个v o i p 应用需要支持语音会话协商控制、语音传输信道管理、对应每个语 音信道的录音编码发送和接收解码播放管理、多方语音信道管理和多路语音的混 音等功能。 在w e n g v e 语音引擎中,语音分组的编码压缩和解码恢复是通过使用i l b c 、 s p e e x 、w e n i x 等c e l p 编解码器实现的。可见语音编解码器技术是实现v o i p 模块 所必须的基本技术。 目前主流编解码器分为三类:( 1 ) 波形编码:适应能力强,话音质量高;编码 速率高( 1 6 - - 6 4 k b s ) 。( 2 ) 参数编码:编码速率低( 1 2 2 4 k b s ) ;语音质量差,对环境 噪声敏感。( 3 ) 混合编码:结合了波形编码和参数编码的长处,克服了各自的弱点( 编 码速率4 1 6 k b s ) 。 在i t u t 、i e t f 等标准化组织制定的语音编解码算法主要包括:g 7 11 a 、 g 7 l l u 、g 7 2 3 、g 7 2 3 1 、g 7 2 6 、g 7 2 9 、g 7 2 9 a 和i l b c 、s p e e x 、s i l k 等。其 中,g 7 2 3 1 、g 7 2 9 、g 7 2 9 a 、i l b c 、s p e e x 、s i l k 等编解码器都属于c e l p 编 解码器,是当今v o l p 应用的首选编解码器。c e l p 编解码器编码后的速率在1 0 k b p s 左右,并且支持分组丢失掩蔽和v a d 等特性,非常适合于v o l p 应用。 3 1 c e l p 编解码器的关键技术 3 2 1 人体发声原理模型化 - 声门下系统 ; 声道 图3 1 :人体发声的离散时域模型 号 1 2i n s t l i n k 统一通信系统中v r o i p 模块的研究和实现 c e l p 编解码器将人体发声器官模型化为两部分:声门下系统和声道。声门下 系统产生激励信号x ( n ) 。x ( n ) 包含清音( 声带不振动) 成分和浊音( 声带振动) 成分;声 道相当于一个离散时变滤波器h ( z ) ,对激励x ( n ) 滤波,输出离散时域语音s ( n ) 。 3 2 2 线性预测编码( l p c ,l i n e a rp r e d i c t i v ec o d i n g ) 技术 c e l p 编解码器利用人体发生模型去除s ( n ) 样本短期相关性: 人体发声模型中的h ( z ) f l 皂用全极点模型近似表示: gg h z = 1 磊p 矛- i = 雨 ( 3 - 1 ) 由于h ( z ) 在极短时间( 2 0 m s 、3 0 m s ) 几乎不变,使s ( n ) 存在极大的短期相关性 ( 表现为共振峰) ,即当前的语音数值可以用它的一系列数值的线性组合来预测: 季【n 】= a i s n i 】 ( 3 - 2 ) 因此可以通过s ( n ) 计算出h ( z ) ,计算h ( z ) 中未知系数a i 的估计值a i 采用自相关 融r=2rnn铡靴r期n(2)rn r r 仔3 , l n ( 1 ) :( p 一2 ) ii 生l _ l i仃3 、i 【 ( p 一1 ) n ( p 一2 ) n ( o )j 【q p j 【r n ( p ) j 通过s ( n ) 和h ( z ) n - - i 以得到短期无相关性的残差( 即激励) 信号x ( n ) 。编码器只需 对h ( z ) 的系数和x ( n ) 进行编码,从而去除了编码冗余信息。 3 2 3 矢量量化技术 i l b c 在编码能量较低的残差时使用矢量量化技术,从而以较低编码速率表示 一帧的语音样本。 矢量量化的基本原理:将k ( k - 2 ) 个样本先归一化( 幅度量化) ,组成k 维空间 r 中的一个矢量,然后将该归一化矢量的形状用若干个k 维矢量中与之形状最接 近的一个表示( 形状量化) ,如下图所示。 k 维输入矢量f 计算最小距亭l 。i m 信道at x i ( 己司,找缃粼v ;mr j m i n或赫 失誉m 0 恐。 第三章v o i p 模块中的语音编解码技术1 3 图3 2 矢量量化原理图 3 2 i l b c 、s p e e x 、w e n i x 编解码器的设计实现 3 2 2i l b c 编解码技术的研究和实现 3 2 2 1i l b c 编码技术 剩 余 残 差 剩余残羞 图3 3 i l b c 编码原理图 1 ) 分帧:i l b c 将s ( n ) 按照每1 6 0 样点分为一帧,每帧编码为一个独立的语音 分组。由于编解码的需要,每帧又被进一步分为4 个子帧,即每4 0 样点为一个子 帧。 2 ) 预处理: 将输入语音通过高通滤波器h h p ( z ) 以滤除d c 电平和或5 0 6 0 h z 噪声,并且 可以增强语音中的高频分量,提高l p c 分析准确度。 3 ) 计算l p c 系数 计算l p c 系数要先计算出一帧语音样本的短时间自相关函数,再使用自相关 算法算出l p c 系数。 4 ) l p c 系数转l s f 系数 由于l p c 系数不利于量化,因此需要将l p c 系数转化为等价的l s f 系数保证 量化和内插的稳定。 5 ) l s f 系数的量化 将1 0 个l s f 系数以3 、3 、4 分为三个子矢量,对这3 个子矢量分别进行矢量 量化。 6 ) l s f 系数的稳定性检查 1 4 i n s t l i n k 统一通信系统中v o i p 模块的研究和实现 检查并纠正l s f 系数因为使用分段矢量量化方案而可能造成的量化后的系数 不稳定现象。 7 ) l s f 系数的内插 将当前帧l s f 系数和前一帧l s f 系数内插,获得每个子帧所对应的l s f 系数。 内插后,将各子帧的已量化l s f 系数重新转化为已量化l p c 系数,用此系数 来形成分析滤波器瓦( z ) ,此滤波器用来进行l p c 分析以滤除短期相关( 共振峰) 产 生变化较为平缓的残差信号,表达式如下所示: 。 1 0 瓦( z ) = 1 + 乱( i ) z 一( 3 - 4 ) - 一 i = t 8 ) 感观加权滤波 根据听觉掩蔽效应的原理,为了使解码后的语音获得最佳的主观听觉效果, 需要在编码残差信号前进行感观加权滤波。感官加权滤波器表达式如下: 1 w k ( z ) = :a k ( z l p c _ c h i r p w e i g h t d e n u m ) ( 3 - 5 ) 其中:l p c c h i r p _ w e i g h t d e n u m = 0 4 2 2 2 ;鑫k ( z ) 是未量化已内插的l s f 系数所对应的子块k 的l p c 分析滤波器。 9 ) 残差编码 将经感观加权滤波的残差分为两部分编码:开始状态和剩余残差。 开始状态是指残差中能量最大的连续5 7 5 8 个采样。使用a d p c m 量化。 剩余残差是指残差中除去开始状态的部分。剩余残差被分成三个子块,每个 子块分别进行三阶段矢量量化。 使用开始状态残差生成初始码本,来编码第一个剩余残差子块,随后每编完 一个剩余残差子块后,都将其添加到码本记忆库中以更新码本,然后使用新的码 本来编码新的残差子块,这个过程称为码本的动态更新。 1 0 ) 封装比特流 将一个2 0 m s p c m 语音封装为3 0 4 b i t s 的帧,填入3 8 b y t e s 中,相应的编码速率 为1 5 2 0 k b i t s 。 3 2 2 2 i l b c 解码技术 解码过程分为两种情况,正常解码和分组丢失掩蔽解码。 第三章v o l p 模块中的语音编解码技术 1 5 图3 4i l b c 正常解码原理图 正常解码的过程: o l r , c 参数提取和合成滤波器1 a ( z ) 重建: 2 ) 开始状态残差解码和码本建立; 3 ) 剩余残差解码和码本动态更新; 4 ) 全体已解码残差经改善和合成等步骤恢复成语音样本。 分组丢失掩蔽解码的过程: 1 ) 当前块被正确接收并且先前块也被正确接收:这种情况下,记录当前块的状 态信息,以便用于下一分组丢失的情况,每一个子块的l p c 系数和整个已解码的 激励信号都存储在解码器状态结构体中备用。 2 ) 当前分组没有正确接收但前一分组正确接收:这种情况下,使用基于音调同 步重复的残差信号来进行替换;使用前一帧的最后一个子帧的l p c 系数将残差信 号合成为语音信号。 3 ) 当前分组和前一分组都没有被正确接收:这种情况下,除了使用2 ) 中策略进 行丢包掩蔽外,还要对生成的p l c 残差帧进行向下加权: 对于p l c 残差 = 3 2 0 样点的部分,加权值为1 ; 对于3 2 0 样点 p l c 残差 = 2 * 3 2 0 样点的部分,加权值为0 9 ; 对于2 * 3 2 0 样点 p l c 残差 = 3 * 3 2 0 样点的部分,加权值为0 7 ; 对于3 * 3 2 0 样点 p l c 残差 3 * 3 2 0 样点的部分,加权值为0 0 ; 1 6i n s t l i n k 统一通信系统中v o i p 模块的研究和实现 3 2 3s p e e x 编解码器 3 2 3 1 s p e e x 编解码技术的研究和实现 同为基于c e l p 的编解码器,s p e e x 和i l b c 编码的主要区别在于残差编码。 s p e e x 在l p c 分析后对残差又进行了长期预测滤波,以去除残差中的长期相关性 ( 和音调有关的相关性) 。 s p e e x 编码的主要过程如下: 1 ) 全帧l p c 分析:和i l b c 的l p c 分析过程完全类似。主要是通过l p c 分析 去除s ( n ) 样点间的短期相关性( 共振峰) ,减少编码冗余信息。同时需要计算并编码 量化残差信号的全帧增益g 厅a m e ,从而将全帧残差归一化。 语音帧 2 ) 残差a b s 编码 图3 5 :窄带模式整帧开环分析 第三章v o i p 模块中的语音编解码技术 1 7 图3 6 残差a b s 编码 s p e e x 残差编码过程如下: ( 1 ) 编码残差信号音调周期,去除残差信号中的长期相关性。 s p e e x 使用整数来编码音调周期,但是使用了三抽头预测器,对应的预测表达 式为: e a i n 】= g o e n t 一1 】+ g l e n t 】+ 9 2 【n t + 1 】 ( 3 6 ) 这里g o ,9 1 和9 2 是联合量化基因增益,e n 】是残差记忆库。 去除长期相关性后,残差信号( r e s i d u a l ) 就变为革新信号( i n n o v a t i o n ) 。 ( 2 ) 编码子帧修正增益。 归一化的残差信号经步骤( 2 ) 编码为革新信号后,需要对革新信号的子帧增益 g s u b f 再次进行归一化,以便随后的革新信号编码。 ( 3 ) 将归一化后的每个革新信号子帧划分为相连的几个子矢量,对每个子矢量 使用固定码本进行矢量量化编码。 3 ) 封装比特流:按照不同的编码复杂度选择,s p e e x 每帧封装的比特流大小不 同。 1 8i n s t l i n k 统一通信系统中v o i p 模块的研究和实现 3 2 3 2 s p e e x 解码技术 s p e e x 的正常解码过程基本上是编码过程的逆过程,丢包掩蔽解码的原理和 i l b c 中的丢包掩蔽类似,这里不再详述。 3 2 4w e n i x 编解码技术的研究和实现 w e n i x 编解码器是基于c e l p 的原理的一种编解码器,与i l b c 和s p e e x 编解 码器相比,主要致力于得到尽量低的编码
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 稀土储氢材料工技能操作考核试卷及答案
- 激光头制造工5S管理考核试卷及答案
- 玻璃釉膜电阻器、电位器制造工抗压考核试卷及答案
- 在线学习服务师成本控制考核试卷及答案
- 2024版2025春新人音版艺术唱游音乐二年级上册(简谱)教学课件:第一单元 第2课 乃哟乃
- 中国特色社会主义建设及企业财务测试卷附答案
- 中医专业考研试题及答案
- 仓管员专业试题及答案
- 机车专业面试题目及答案
- 土壤专业试题及答案
- 2025年高等教育法学类自考-00859警察组织行为学历年参考题库含答案解析(5套典型考题)
- 2025年大队委选拔笔试题目及答案
- 2025年广东省中学生天文知识竞赛试题(及答案)
- 2025年秋期部编版五年级上册小学语文教学计划+教学进度表
- 2025年送气工考试试题及答案
- 国企投资融资管理办法
- 水电站大坝安全现场检查技术规程 -DL-T 2204
- 采购电脑管理办法细则
- 中国阅兵仪式课件
- 中医特色在手术室护理中的应用
- 事故应急救援包括事故单位自救和对事故单位
评论
0/150
提交评论