WebRTC语音引擎中NetEQ技术研究.doc

上传人：伐*** IP属地：宁夏上传时间：2019-12-23 格式：DOC 页数：36 大小：138KB 积分：15 举报 版权申诉

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

webrtc语音引擎中neteq技术研究代号 10701 学号 1075490151分类号 tn919.8 密级公开u d c 编号题 ( 中、英文 ) 目 webrtc 语音引擎中 neteq 技术的研究 research on neteq technologyin webrtc voice engine作者姓名吴江锐学校指导教师姓名职称张岗山副教授电子与通信工程王静高工工程领域企业指导教师姓名职称应用基础技术 2013.3 论文类型提交论文日期西安电子科技大学学位论文独创性声明秉承学校严谨的学风和优良的科学道德, 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢中所罗列的内容以外, 论文中不包含其他人已经发表或撰写过的研究成果; 也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切法律责任。本人签名: 日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定, 即: 研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件, 允许查阅和借阅论文; 学校可以公布论文的全部或部分内容, 可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证, 毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。本人签名: 导师签名:日期 : 日期: 摘要随着计算机网络的快速发展,voip 电话业务也得到广泛应用。这种基于 ip 网络的语音通话技术提供了方便廉价的交流途径 , 给通信行业带来了翻天覆地的变化。但随之而来出现的话音质量问题的解决,也迫在眉睫。 webrtc 语音引擎是目前最先进的语音引擎之一 ,其中包含了实现语音信号处理的 neteq 模块, 此模块很好地解决了 voip 电话业务出现的延迟、抖动和丢包问题。但由于 neteq 是专利技术,没有开放相应的开发文档,因此需要对 neteq进行详细分析研究 ,以便能够更好地应用于 voip 业务中。本文研究的核心内容是 neteq 集成的自适应抖动消除算法和语音包丢失隐藏算法。论文首先对 neteq 的体系结构及处理流程做了概括性的分析 ,并重点对neteq 的控制模块 -mcu 的控制机制 , 以及信号处理模块-dsp 对语音数据的处理方法做了详细的研究和性能分析。分析结果表明 neteq 在抖动消除和丢包隐藏方面的优势。最后,本文基于语音质量角度对 neteq 做了部分优化,开发了语音质量评估模块。论文基于 e-model 语音质量预测模型及 itu 的单端非侵入型评估算法 p.563算法进行了语音质量评估模块的设计和开发, 并用 uml 的时序图描述了模块的开发流程及方法。该模块的评估结果基本符合主观评价。关键词 :voip neteq 抖动消除丢包隐藏语音质量评估 abstract with the rapid development of the computer network, voip telephone service has already been widely used. this voice communication technology which based on ip network provides a kind of convenient and cheap voice calls, and brings great changes to communication industry. but, the requirement of voice quality which appears subsequently in voip , is urgentwebrtc is one of the most advanced voice engine technology, and contains the neteq module, which provides complicated speech signal processing. the neteq module provides a good solution to those problems in voip system, such as delay, jitter and packet loss, so widely used. but the neteq is a patent technology, and there is no public document to introduce or describe its detailed algorithm. thus, a research and analysis of neteq is necessary for better application of it in voip industrythe neteq algorithm integrated the adaptive jitter elimination algorithm and voice packet loss concealment algorithm, which is the core contents of this paper. firstly, the system structure and processing procedure of neteq have been analyzed briefly in this paperthen, the emphasis is putted on the control mechanism of neteq s control modulemcu and the speech data processing method of processing moduledsp. the analysis results showed that the neteq indeed has an advantage in jitter elimination and packet lost concealmentfinally, a speech quality evaluation module, which based on the speech quality of neteq, is developed in this paper. the evaluation module is based on voice quality prediction model e-model and single-end non-intrusive speech quality measurementp563, and an uml sequence diagram to describe development processes and methods of the speech quality evaluation module is also provide in this paper. the evaluation results are mainly in agreement with the subjective feeling keywords: voipneteqjitter elimination packet lost concealment speech quality 目录第一章绪论1 1.1 研究背景1 1.2 研究现状2 1.3 研究内容3 1.4 论文的章节安排5 第二章 neteq 工作原理和框架 7 2.1 webrtc 语音引擎概述7 2.2 neteq 模块概述 8 2.2.1 抖动定义及消除原理. 8 2.2.2 丢包隐藏原理10 2.2.3 neteq 模块简介12 2.3 neteq 模块详细分析13 2.3.1 neteq 的命令机制. 13 2.3.2 neteq 的播放机制. 15 2.3.3 neteq 算法流程16 2.4 小结18 第三章 mcu 模块的研究与分析19 3.1 网络延迟统计算法及性能分析 19 3.2 抖动延迟统计算法及性能分析 23 3.3 mcu 的控制机制24 3.4 小结28 第四章 dsp 模块的研究与分析 29 4.1 基音周期的检测算法. 29 4.1.1 常用的基音周期检测算法 29 4.1.2 基于自相关函数法的基音周期检测30 4.2 wsola 算法原理. 31 4.3 dsp 处理 32 4.3.1 丢包处理. 32 4.3.2 融合处理. 35 4.3.3 正常处理. 37 4.3.4 加速处理. 38 4.3.5 减速处理. 40 4.4 dsp 的后续处理 41 4.5 小结42 第五章基于语音质量评估的 neteq 改进. 43 5.1 基于网络的语音质量评估算法 43 5.2 单端非侵入的语音质量评估算法45 5.3 基于语音质量评估的 neteq 48 第六章结束语53 致谢55 参考文献 57第一章绪论 1 第一章绪论 1.1 研究背景 voip 是 voice over internet protocol 的缩写,一般称为 ip 电话或 ip 网络电话。这种技术是将传统电话的声音信号转换成 ip 数据包的格式,并利用 internet 传送至目的地后,再将 ip 数据包还原成传统电话的声音信号并播放,从而实现话音通信服务。ip 电话的基本功能是提供基于互联网的、费用低廉的语音、传真、数据、消息和视频等服务。此外,ip 电话的出现极大地提高了网络带宽的利用率,并大1大减少了通信费用,其广泛应用也促进了宽带多媒体应用的发展。voip 的发展大致经历了以下几个阶段: 1995 年1996 年, 技术突破期。语音质量基本没有保证, 技术还不成熟。 1996 年1999 年,应用启蒙期。电信公司开始使用连接 internet 与 pstn网的网关设备,voip 进入快速发展期。 2000 年2002 年, 市场启蒙期。voip 技术基本成熟, 与 pstn 有机结合,具有较好的语音质量。许多电信公司开始提供 voip 业务。 2002 年至今, 市场发展期。2006 年, 全球 voip 的业务将第一次超过电路交换电话业务。 ip 电话与传统电话相比具有不同的技术特点。传统电话(固定电话或手机)使用电路交换技术 , 在呼叫建立时预先分配一条物理或逻辑线路专门用于传输话音 , 因此需要独占通信资源 , 并且直到呼叫结束才能释放所分配的线路 , 造成线路利用低 (75% 时间线路空闲 ) 。虽然传统电话能够提供有保证的话音服务质量(qos ,quality of service ) ,但收费昂贵,功能单一,且难于增加新的业务。 ip 电话使用分组交换技术,并且将模拟声音信号经数字化、压缩编码后以 ip分组 (rtp 数据包) 的形式通过 internet 进行传输。与电路交换相比,ip 电话无需预先建立专门的电路, 因此用户之间可以共享 internet 网络的带宽 , 网络资源利用率较高。此外,ip 电话可以提供免费的话音服务,并支持综合业务 (话音、数据和视频) ,易于扩展新的业务。但从 ip 协议的本质上讲,ip 电话不能保证话音服务质量(时延、抖动和丢包) 。 ip 电话的典型架构如下图所示: 2 webrtc 语音引擎中 neteq 技术的研究原始话音数据原始话音数据话音编码话音解码rtp/rtcprtp/rtcpudp/ipudp/ip图 1.1 ip 电话基础图 1.1 左边为 ip 电话的发送端, 主要执行语音信号的编码、打包和传输工作。右边为 ip 电话的接收端,主要进行语音信号的还原工作,其中本文涉及到的语音引擎处在语音解码的前后,是保证语音质量的关键模块。 voip 技术的最大优势在于广泛地采用 internet 和全球 ip 互连的环境 ,提供比传统电话业务更广泛、更优质的服务。采用 voip 技术可以在 ip 网络上廉价地传送语音、数据、视频和传真等业务, 如电视会议、传真邮箱、虚拟语音、统一消息、电子商务、虚拟电话、internet 呼叫管理、internet 呼叫中心、查号业务、传真存储2转发和各种信息的存储转发等。因此, ip 电话成为一种新兴的得到广泛运用的网络业务。但是,由于传统的 ip 网络主要用于传输数据业务,采用一种尽力而为的无连3接的传输技术 , 因此没有服务质量 (qos ) 保证, 存在包乱序到达、端到端时延、分组丢失和时延抖动等情况。对于分组丢失, 数据业务可采用重发来弥补。但 voip4是实时业务, 对时延、抖动等有着严格的要求, 所以必须要有一定的 qos 保证。时延抖动是 voip 业务中最重要的一项 qos 参数,直接影响着语音通信质量,直接关系到话音在接收端能否真实再现。因此 , 需要采取一定算法和措施来消除时延抖动所造成的影响,从而保证一定的话音业务质量。在 ip 电话系统中, 一般通过语音引擎 (voice engine ) 中的抖动缓冲区 (jitter 5buffer )来消除网络传输所带来的不良影响 ,而抖动缓冲区技术的优劣会极大地影响使用者的主观感受。因此, 抖动缓冲区技术是 voip 中的关键技术之一, 是影响话音质量的关键因素。 1.2 研究现状抖动缓冲区主要用于有效地吸收网络抖动 , 降低丢包率 , 相对地减小延迟,其性能直接影响着 voip 的语音质量。另一方面 , 如果抖动缓冲区设置过大 , 则语音通话延时会随之增加 ; 如果抖第一章绪论 3 动缓冲区设置过小 , 则无法有效吸收延时抖动 , 导致语音数据在接收端的丢包率上升。因此,抖动缓冲区大小的设置必须对延时和丢包率进行综合平衡考虑。为了更合理地设置抖动消除算法中抖动缓冲区的大小 , 更好地适应网络环境的变化 , 国内外研究人员提出了很多种自适应抖动缓冲算法。其中最普遍的做法是 : 采用历史时段中传输延时统计的较大值 , 根据可接受的丢包率上限,决定在抖动缓冲区可以丢弃的数据包量 , 选择某一较大历史延迟作为下段时间内的抖动6缓冲区大小。这种方法操作简单便捷, 但自适应能力较差, 不能很好地适应网络延迟的改变。由于语音质量是 voip 业务的关键, 因此基于语音质量的自适应抖动7缓冲算法成为当前研究的热点。日前, 在建立语音质量预测模型的基础上提出的8自适应抖动缓冲算法,均采用 itu 的 e-model 方法预测语音质量 , 以语音质量9来平衡延时和丢包率, 但它仅仅考虑了 ip 网络的随机丢包模式 , 这与 voip 的突发丢包模式不相符。目前,全球著名的语音引擎提供商 global ip sound (gips )公司以其优异的语音引擎技术, 拥有了较高的市场占有率。gips 语音引擎的核心技术之一就是包含丢包隐藏算法的高级自适应抖动缓冲器技术,称作 neteq 。2010 年谷歌公司以6820 万美元收购 global ip solutions 公司而获得的这项技术。随后, 谷歌公司于 2011年将 gips 语音引擎以开源项目 webrtc 的形式对外公开发布。 webrtc 是一项在浏览器内部进行实时视频和音频通信的技术,其目的是通过简单的 javascript 编程就可以达到实时通信(rtc ,real-time communication )能力。 neteq 算法中集成了自适应抖动控制算法以及语音包丢失隐藏算法。这项技术使其能够快速且高解析度地适应不断变化的网络环境 , 确保音质优美且缓冲延迟最小。neteq 算法的创新之处在于它不仅在语音包缓冲器内, 而且还与解码器进行集成。由于 neteq 是 gips 开发的专利技术,没有任何公开的技术资料来介绍其基本原理和算法流程,因此对其进行研究并将其文档化,有利于 neteq 算法的广泛运用 , 缩短工程被引用的开发时间 , 且有助于快速找出项目中出现问题的原因及增大项目的优化空间。此外, 对 neteq 模块的性能分析和仿真实验有助于对 neteq 算法的进一步优化和完善。 1.3 研究内容 neteq 模块是 webrtc 语音引擎的核心模块 , 其功能框图如下图所示 (图 1.2): 4 webrtc 语音引擎中 neteq 技术的研究图 1.2 neteq 模块框图由上图可以看出 ,neteq 模块基本上分为自适应缓冲器 (adaptive packet buffer ) 、语音解码器 (speech decoder ) 、抖动控制和丢包隐藏模块 (jitter control and error concealment ) 及播放(play out )四大部分。其中,抖动控制和丢包隐藏模块是 neteq 的核心算法, 既控制着自适应缓冲器, 又与解码器进行紧密的交互,并且将最终的计算结果交给声卡去播放。另外 , 抖动控制和丢包隐藏模块 ( 如上图所示 ) 由三大主要操作所组成 ,即expansion 、normal 和 accelerate 。每个操作的具体含义如下: expansion :扩展操作, 即对语音时长的拉伸,其中包括 expand 及preemptive_expand 两种模式。前者为 neteq 的丢包隐藏操作,其作用是等待延迟包并补偿丢包,由于补偿丢包是实现数据从无到有,因此使用expand(扩展),表示语音数据的扩展;后者意为优先扩展,即在原有数据的基础上拉伸语音时长,因此可以实现减速播放功能。 normal :正常播放操作 ,即在网络状况正常且相对无抖动时的操作。 accelerate :加速操作 ,即对语音信号处理以实现快速播放。当语音引擎运行时 ,neteq 会根据网络的状况、缓冲区中未处理的数据包长度,以及等待播放的语音长度等参数智能地选择合适的操作。 neteq 是目前最为完善的抖动消除技术。与固定抖动缓冲器和传统的自适应抖动缓冲器进行比较(如图 1.3 所示) ,neteq 能够快速且高解析度地适应不断优化的网络环境,因此保证了语音引擎较小的延迟和很好的语音质量。第一章绪论 5图1.3 neteq 性能分析由上图可以看出,neteq 能够实时地响应当前的抖动延迟。其中,蓝色线所示的抖动因子由网络延迟所示,而 neteq 做出对抖动的响应(由黄线所示)则是抖动消除算法中研究的核心内容。综上所述,本文的研究内容主要是针对 neteq 中的抖动消除技术及丢包隐藏技术进行深入的分析和研究 , 并通过导入语音质量评估技术作为语音引擎优化的先决条件,来进一步提高语音引擎的主观质量。本文的研究课题来源于普罗通信 (西安) 有限公司 voip 网络电话服务 ?freepp语音引擎的开发和研究。neteq 是整个语音引擎的核心 ,是保证语音质量的关键技术。本课题研究目的是充分掌握 neteq 的相关算法,为语音引擎的优化打下坚实的基础。本文采用 webrtc 语音引擎实现 ip 网络上的语音通话功能 , 主要研究工作以vs2008 作为开发工具, 在对 neteq 模块进行单元测试和系统测试的基础上, 实现语音质量评估的模块化编程。 1.4 论文的章节安排本文的章节安排如下: 第一章是绪论,介绍了 voip 技术的发展及应用,对 webrtc 和 neteq 做了简单引入,并对本文的工作做了简要说明。第二章是 neteq 系统框架, 分析了 neteq 的系统框架、算法流程, 并对相关算法原理做了详细介绍。第三章是 mcu 模块的研究和分析, 重点分析了 neteq 的 mcu (微控制单元)的算法及流程,具体描述了 neteq 的控制机制。 6 webrtc 语音引擎中 neteq 技术的研究第四章是 dsp 模块的研究和分析, 重点分析了 neteq 的 dsp (数字信号处理)的算法及流程,具体描述了 neteq 处理语音信号的方法。第五章是基于语音质量评估的 neteq 改进,详细介绍了两大类型的语音质量评估算法的原理,并给出使用于 voip 的语音质量评估的解决方案。第六章是结束语,对所实现的 neteq 模块进行简单的性能分析,并指出其中的不足和进一步研究与改进的方向。第二章 neteq 工作原理和框架 7 第二章 neteq 工作原理和框架2.1 webrtc 语音引擎概述 webrtc 由语音引擎、视频引擎及网络传输三大模块组成 , 其中语音引擎是webrtc 极具价值的技术之一。webrtc 的系统架构如下图所示: 网络网络apiwebrtcwebrtc c+ api ( 端到端连接 )会话管理/ 信号摘要 ( 会话 )浏览视频引擎声音引擎传输器isac/ilbc 编解码器 vp8 编解码器 srtp声音处理的neteq 视频抖动缓冲区 multipleding回声消除/ 噪声抑制图像算法p2p stun+turn+ice音频捕获/ 渲染视频捕捉网络输入/ 输出供网络开供浏览器开可被浏览器发的api 发的api 开发商重写图 2.1 webrtc 架构图如上图所示,webrtc 语音引擎(voice engine )由一系列音频和网络处理模块所组成 , 包括了从音频采集到网络传输等处理流程的完整解决方案 ,其中主要包括 isac (internet speech audio codec )/ilbc (internet low bitrate codec ) 编解码器、回声消除 ( acoustic echo canceler aec ) / 噪声抑制 ( noise reduction nr )以及 neteq 等三大部分。webrtc 语音引擎的工作流程如下图所示:web 应用程序web 应用程序web 应用程序 8 webrtc 语音引擎中 neteq 技术的研究 adc aec ns agc encoder声音采集声学回声抵消噪声抑制自动增益控制压缩编码声音信号处理(远端)internet数据压缩和解压缩dac decoder plc jbagc ns丢包补偿抖动消除声音播放压缩解码声音设备驱动图 2.2 语音引擎工作流程图上图中 , 语音引擎的一般工作流程如下 : 首先在发送端进行声音采集 , 对采集到的声音信号进行回声消除、噪声抑制、自动增益控制等前处理 , 然后进行语音压缩编码, 并通过 internet 网络传输到接收端; 语音数据到达接收端后, 首先进入 neteq 模块进行抖动消除、丢包隐藏、解码等操作,然后将处理过后的音频数据送入声卡设备中进行播放。本文研究的重点是 neteq 模块,其中所涉及的处理过程包括抖动消除、丢包补偿和压缩解码(如图 2.2 粗虚线所示) ,其作用是使语音引擎能够快速且高解析度地适应不断变化的网络环境 ,确保音质优美且缓冲延迟最小。下面将对 neteq模块进行详细分析和论述。 2.2 neteq 模块概述 neteq 模块主要负责消除因网络传输路径和拥塞情况变化所造成的丢包和时延抖动问题。这里,首先简要介绍一下抖动消除原理及丢包隐藏原理。 2.2.1 抖动定义及消除原理抖动 (jitter ) 定义 1: 指由于各种延时的变化导致网络中的数据分组到达速率10的变化。具体地说 ,可将抖动定义为数据流在发送端发送间隔与接收端接收间隔之差: jr s i 1,2, .n2-1 i i i其中,s 为发送第 i 第 i+1 个数据包间的发送间隔; r 为接收第 i 和第 i+1 个i i数据包间的到达间隔, j 即为数据包 i 的抖动延迟。式(2-1)适用于可变码率业i务的抖动定义。 11抖动 (jitter ) 定义 2 : 接收端某个数据包到达间隔与平均数据包到达间隔之差定义为该数据包的延时抖动。即:jt e t i 1,2, .n2-2ii第二章 neteq 工作原理和框架 9 et其中,t 为第 i 个数据包到达间隔;? 为平均数据包到达间隔,当数据流iet为固定码率时,? 等于或者接近于数据流的发送间隔。因此, 式 (2-2) 适用于具有不同发送特征的业务。 12抖动是一个零均值的随机序列 , 是由排队 ip 包的延迟时间差构成的。当j 0 时,称之为正抖动;当 j 0 时,称之为负抖动;当 j 0 时,说明无抖动。i i i正抖动对应于数据包的堆积, 意味着数据包提前到达, 虽然保证了语音的完整性,但是容易造成接收端缓存溢出并且会增大端到端延迟。负抖动则意味着数据包经过网络传输后 , 走了不同路径而且一段时间内仍未到达接收端 , 说明数据包可能会延迟到达或者丢包 ; 由于超时和缓存溢出均可导致包丢失 , 因此不管是哪种抖动, 均增加了端到端的丢包概率。因此, 对于 voip 网络电话, 必须对抖动进行有效的控制,以减少由此引起的丢包。抖动通常采用抖动缓冲技术来消除 , 即在接收方建立一个缓冲区 , 语音包到达接收端时首先进人缓冲区暂存 , 随后系统再以稳定平滑的速率将语音包从缓冲13区提取出来,经解压后从声卡播出。这种缓冲技术可以在一定限度内有效消除语音抖动,并提高 voip 的音质。网络延迟/ms40b3020a c d10发送时间/ms30 60 90120 150到达时间/msa b c d播放时间/msa b c d图 2.3 抖动缓冲区的工作原理示意图 14抖动缓冲区的工作原理如图 2.3 所示,其中:4 个语音数据包(a 、b 、c 、d )以 30ms 为间隔进行发送,即发送时间分别为 30,60,90,120ms ,经过网络传输时分别产生了 10,30,10,10ms 的网络时延, 导致到达接收端的时间分别为40,90,100,130ms 时刻, 此时变产生了 50、10、30 的不同间隔, 即为抖动。因此,为了能够获得流畅的音质,就要求 a 、c 和 d 这 3 个语音包到达接收端后,先在缓冲器中分别延迟 20ms 再播放。也就是说,抖动消除的思想的理想状态为:每个数据包在网络传输中的延迟与其在抖动缓冲区中缓冲的延迟之和应该相等。因此一般的抖动消除思想是将抖动缓冲区的大小设为目前测到的最大网络延迟大小 , 而且每个包在网络中的延迟加上其在抖动缓冲区中缓冲产生的延迟之和应该10 webrtc 语音引擎中 neteq 技术的研究等于抖动缓冲区的大小。抖动缓冲控制算法包括静态抖动缓冲控制算法和自适应抖动缓冲控制算法两15种。静态抖动缓冲控制算法:缓冲区的大小在语音通话建立后一直到通话结束, 均为固定值, 对于抖动超出缓冲区大小的数据包将会被丢弃。该算法模型简单,易于实现; 但网络抖动较大时,丢包率高,而网络延迟及抖动小时, 语音延迟较大, 不能很好地根据网络状况来动态改变缓冲区的控制策略,而且初始状态对后面的语音质量影响较大。自适应抖动缓冲控制算法:缓冲区大小随着实际网络的抖动情况而变化。接收端将当前收到的数据包的延迟与算法中保存的延迟信息相比较, 得到当前网络的最大抖动, 从而选择恰当的缓冲区大小。该算法的优点是: 网络抖动较大时丢包率相对较低, 而网络延迟及抖动小时, 语音延迟相对较2小; 缺点是: 算法多样且相对复杂。考虑到当前网络状况的多样化 , 抖动缓冲区一般设置为自适应的。自适应抖动缓冲控制的重要参数是抖动缓存容量和从抖动缓冲区取出数据包的条件 , 二者决定了缓存控制对媒体流时间结构的作用。neteq 所采用的抖动消除技术属于自适应抖动缓冲算法,具体内容将在第三章中详细介绍。 2.2.2 丢包隐藏原理丢包隐藏又称为丢包补偿, 即 packet loss concealment , 简称为 plc 。应用于voip 的丢包隐藏技术可以分为两类:基于发送端补偿和基于接收端补偿。基于发送端补偿包括前向差错纠正、交织和重传技术 ; 基于接收端补偿包括了多种错误隐蔽算法(如图 2.4 所示) 。交织被动通道编码与媒体无关前向差错纠正基于发送端补偿丢主动重传拼接法媒体相关包补静音置换法偿基于插入技噪声置换法术重复法基于接收端补偿传输状态插值法基于重构基于模型的恢复法波形置换法基于插值基音波形复制法时间尺度修正法图 2.4 丢包隐藏技术第二章 neteq 工作原理和框架 11 上图中 , 接收端丢包隐藏技术的基本原理就是产生一个与丢失的语音包相似的替代语音。这种技术的可行性是基于语音的短时语音相似性 , 它可以处理较小的丢包率(15% )和较小的语音包。接收端的丢包隐藏技术可以分为三类: 1) 基于插入的方法, 即插入一个填充包来修复丢包, 而填充包一般都很简单,比如静音包、噪声包或重复前面的包。此方法虽然容易实现 , 恢复效果较差 , 其缺点就是没有利用语音的信息来重新产生信号。 2) 基于插值的方法, 即通过某种形式的模式匹配和插值技术以期望得到与原来丢包相似的代替包。此方法由于考虑到了语音的变化信息来产生信号 , 因此比插入方法实现难度要大但效果更好。 3) 基于重构的方法, 即通过丢包前后的解码信息来重构产生一个补偿包。由于重构修复技术使用压缩算法的知识来获得编码参数 , 有大量信息可用 , 因此合成的丢失包效果最好,但计算量也最大。在 webrtc neteq 中丢包隐藏技术是与编解码器相关的,下面简要介绍一下ilbc 编解码器的丢包隐藏技术。 ilbc 全称为 internet low bit rate codec,是 gips 开发的一种专为包交换网络通信设计的编解码, 它是低比特率 (8khz ) 的解码器, 在丢包时具有的强大的健壮性。ilbc 提供的语音音质等同于或超过 g.729 和 g.723.1 , 并比其它低比特率的16编码解码器更能阻止丢包。 ilbc 采用 8khz 采样率, 有 30 毫秒和 20 毫秒两种编码的格式, 并以 13.3kb/s(每帧 30 毫秒) 和 15.2kb/s (每帧 20 毫秒) 速度运行, 很适合拨号连接。本文对neteq 的研究主要基于每帧 30 毫秒的情况进行。 ilbc 的丢包隐藏只是在解码端进行处理, 即在解码端根据收到的比特流逐帧进行解码的过程中,ilbc 解码器首先拿到每帧的比特流时判断当前帧是否完整,如果没有问题则按照正常的 ilbc 解码流程重建语音信号 ,如果发现语音数据包丢失,那么就进入 plc 单元进行处理。 ilbc 的丢包隐藏技术属于基于重构的方法, 并采用基于模型恢复法产生补偿包,其具体步骤如下: 重建线性预测系数 (lpc ) , 即采用了过去帧的最后一个子帧的 lpc 系数来重建。因为无论从空间上还是时间上最后一个子帧都与当前丢失的 lpc 具有最相关性。但是这种简单的复制在处理连续多帧时,也显然会引入更大的失真。重建残差信号。残差信号通常可以分为两部分组成 : 准周期成分和类噪声成分 , 其中准周期成分可以根据测量前一帧的基音周期来近似得到 , 类噪声成分则可以通过产生随机噪声得到 , 二者的能量比例也可以借鉴前一帧的比例关系。因此 , 首先要对前一帧进行基音检测 , 然后以基音同步的方式重建丢失帧的话音部分,接着利用相关性得到类噪声的增益,最后进行混合以重建整个残差信号。dsp12 webrtc 语音引擎中 neteq 技术的研究在连续丢帧的情况下 ,plc 所补偿的各个语音帧具有相同的频谱特性(相同的 lpc 造成)和基音频率,为了减少各个补偿帧之间的相关性,会将能量进行逐帧递减。 2.2.3 neteq 模块简介 neteq 模块主要包含 mcu 和 dsp 两大处理单元、音频解码器模块以及抖动缓冲区(packet/jitter buffer ) 和语音缓冲区(speech buffer ) (如图 2.5 所示) 。 neteq 模块mcu 模块dsp 模块packet /jitterbuffer解码缓冲区解码器加慢正融丢共享内存处速速常合包理neteq 算法缓冲区 speech bufferplay buffer寄存器数据流图2.5 neteq 模块框图上图中,mcu (micro control unit )模块是抖动缓冲区的微控制单元,由于抖动缓冲区作用是暂存接收到的数据包, 因此 mcu 的主要作用是安排数据包的插入并控制数据包的输出。数据包的插入主要是确定来自网络的新到达的数据包在缓冲区中的插入位置 , 而控制数据包的输出则要考虑什么时候需要输出数据 , 以及输出哪一个插槽的数据包。抖动消除的算法思路在 mcu 控制模块中得以体现。 dsp 模块主要负责对从 mcu 中提取出来的 pcm 源数据包进行数字信号处理,包括解码、信号处理、数据输出等几个部分。

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

WebRTC语音引擎中NetEQ技术研究.doc

文档简介

温馨提示

最新文档

评论

WebRTC语音引擎中NetEQ技术研究.doc

文档简介

温馨提示

最新文档

评论

相关文档