（通信与信息系统专业论文）网络多媒体通信—语音编码技术研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：51 大小：1.57MB 积分：0 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

（通信与信息系统专业论文）网络多媒体通信—语音编码技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着l a n 、i n t r a n e t 、i n t e r n e t 在全世界的迅猛发展，i p 网络的性能逐步改善，基于i p 网络的多媒体通信已经成为未来通信系统重要的研究和发展方向。语音编码作为多媒体通信的一个重要环节正受到人们的广泛关注。g 7 2 9 a 是国际电信联盟新颁布的编码速率为8 k b s 的低速率语音压缩编码标准，它是基于i p 网络的多媒体会议系统标准h 3 2 3 可选的语音压缩编码标准之一。本文在对i p 网络的特性及g 7 2 9 a 编解码算法进行分析后，提出了用软件来实现语音信号编解码的方案。本方案实现时采用m i c r o s o f t 公司的新版本d i r e c t x8 0 中的d i r e c t s o u n d 技术，实现了语音信号的捕获与回放：采用g 7 2 9 a 编解码算法实现了语音信号压缩编解码，并提出了相应的改进措施。系统还将编码和解码部分做成动态链接库，提高了系统处理效率。关键词：语音编码 g 7 2 9 a矢量量化捕获1 鲥受摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to fl a n ，i n t r a n e ta n di n t e r n e ta n dt h ei m p r o v e m e n to fi p n e t w o r kp e r f o r m a n c e ，t h em u l t i m e d i ac o m m u n i c a t i o nb a s e do ni pn e t w o r kh a sb e c o m e a ni m p o r t a n tr e s e a r c ha n dd e v e l o p m e n tb r a n c ho ft h ef u t u r ec o m m u n i c a t i o ns y s t e m a s ab a s i so fm u l t i m e d i ac o m m u n i c a t i o n ，s p e e c hc o d i n gb e c o m e st h ef o c u so fd i s c u s s i o n t h eg 7 2 9 a ，an e wi s s u e ds p e e c hc o m p r e s s e dc o d i n gs t a n d a r da t8 k b i t s ，i so n eo ft h e o p t i o n a lc o d i n g s t a n d a r d so f h 3 2 3 ，w h i c hi sm u l t i m e d i a m e e t i n gs y s t e m s t a n d a r db a s e d o ni pn e t w o r k w i t hav i e wt oi pc h a r a c t e ra n dg 7 2 9 a c o d i n ga r i t h m e t i c as p e e c hc o d e cs c h e m e i ns o f t w a r ei sp r e s e n t e di nt h i sp a p e r w i t ht h ed i r e c t s o u n dt e c h n o l o g y , a ni m p o r t a n tp a r t o fd i r e c t x8 0 t h e c a p t u r i n ga n dp l a y b a c ko fs p e e c hi s a c h i e v e d t h ec o m p r e s s e d e n c o d i n go fs p e e c hi si m p l e m e n t e dw i t l lg 7 2 9 ac o d i n ga r i t h m e t i c t o g e t h e rw i t hs o m e r e l a t i v em e a s u r e sm e n t i o n e di nt h ep a p e r t h es o f t w a r em o d u l eo fc o d i n ga n dd e c o d i n g a r el i n k e dd y n a m i c a l l yt oi m p r o v et h es y s t e mp r o c e s s i n ge f f i c i e n c y k e y w o r d s ：s p e e c hc o d i n g g 7 2 9 a v qc a p t u r ep l a y b a c k 第一章绪论第一章绪论 1 1 多媒体通信概述 1 1 1 多媒体通信的产生与发展多媒体通信是一门新兴的通信技术，它涉及通信、计算机、信息处理等多个领域，是一种综合性技术。通常多媒体通信是指能够对多种表示媒体进行处理，同时能使多种显示媒体工作的通信。即在一次通信过程中交换的信息类型不是一种，而是文本、图像、音频、视频、数据等多种媒体类型的综合体。多媒体通信技术源于二十世纪八十年代初期，当时美国、日本以及欧洲的一些著名计算机公司开始致力于包括信息的压缩编码、多媒体存储、图形合成与同步等技术在内的多媒体技术的研究，并把该技术应用于p c 机，首先建立了基于局域网的多媒体通信系统。美国x e r o x 公司的以太电话系统就是最早的多媒体通信系统之一。进入九十年代后，全球步入了信息化时代，人们对于了解事物、交换信息的要求已经从纸、笔、书本、话音等发展到通过声、光、电信号等更准确、更快捷、更丰富的方式；同时，个人计算机的普及、微电子技术和多媒体技术的飞速发展、综合业务数字网的建立及宽带综合业务数字网、宽带i p 网的研究进展，这些都有力地推动了多媒体通信的发展。国外多媒体通信的研究开发首先是基于窄带综合业务数字网( n i s d n ) 。n 。i s d n 能够实现综合业务的传输，基本速率接口和基群速率接口都能满足视频、音频压缩信号的带宽要求。基于n i s d n 网络的多媒体会议电视系统和多媒体检索业务都已经达到了实用水平。从1 9 9 4 年开始，加拿大、欧盟、美国、日本等国家都开始对基于宽带综合业务数字网( b i s d n ) 的多媒体通信应用进行研究，对视频点播( r o d ) 、远程教育、远程医疗、多媒体会议电视等多项多媒体通信应用展开试验。而随着i p 网络规模、用户数以及业务量里指数型增长，世界各国电信公司都已经将i p 网络( t c p f l p 网络) 上的多媒体通信业务作为主流；国际上的标准化组织，如i t u t 、e t s i 、i e t f 和i m t c 等纷纷将多媒体通信标准的制定重点转移到基于分组的多媒体通信系统的标准上。在1 9 9 8 年 i t u t 将1 9 9 6 年制定的称为“不保证服务质量的局域网上的多媒体视听系统” h 3 2 3 标准扩展为“基于分组的多媒体通信系统”，即i t u th 3 2 3v 2 ，1 9 9 9 年5 月又进一步修改为h 3 2 3v 3 标准。随着i p 网络通信标准的臼益完善，a t m 、千兆以太网等技术与i p 技术逐渐结合，将多媒体通信的应用和研究带入了一个崭新的发展阶段。 1 1 2 我国多媒体通信的发展情况网络多媒体通信一语音编码技术研究近年来我国的多媒体通信发展迅速。特别是智能化布线在国内的普及，在很大程度上解决了多媒体通信的用户接入问题，这使得多媒体通信业务的普及成为可能。国内很多公司如中兴通讯、华为、普天信息产业集团等都致力于自主研制和开发会议电视系统、远程教学系统、远程医疗系统等多媒体通信应用系统，并且已经取得了很好的应用效果。目前，我国正在大规模建设“1 6 9 中国公众多媒体通信网”，它是个基于i p 寻址技术的多媒体通信网，网络结构由骨干网和省内网两层网络组成，端到端的设备间寻址是根据i p 地址完成的。该网络采用的许多技术在世界上都是领先的，因此这个网的建成，标志着我国的多媒体通信技术进入了世界先进行列。 1 1 3 多媒体通信的发展趋势从信息技术发展的趋势来看，多媒体业务将是“信息高速公路”的主要通信业务，也是未来通信发展的方向。随着l a n 、i n t r a n e t 、i m e m e t 在全世界的迅猛发展，基于i p 网络进行多媒体通信已是势在必行。现有的各种通信网络都可以在不同程度上支持多媒体通信业务。公众交换电话网( p s t n ) 由于信息传输速率较低，适合传输话音、静态图像和低质量的视频图像等；局域网( l a n ) 的传输时延大，只适合传输文本、图形、图像等非连续媒体的信息数据：n i s d n 支持可视电话、可视会议和传输静止画面：由于b i s d n 综合了电路交换和分组交换两方面的优点，通过b i s d n 可以传送高清晰度的图像信号、高保真的数字化立体声信号，所以可以应用于高清晰度电视及v o d 等业务，但它缺乏兼容性和较高的可扩展性。现代通信正在由窄带通信向宽带通信发展，由以电路交换为主的通信方式逐步向以分组交换为基础的i p 通信方式转变，顺应这种变化，多媒体通信也在向基于宽带i p 网络的多媒体通信方向发展。国外的公司如c i s c o 、v o c a l t c c ，国内的华为、中兴通讯等公司正在致力于宽带i p 网络下的多媒体业务的开发。随着p c 桌面系统的日益普及以及i p 网络性能的逐步改善，基于宽带i p 网络的多媒体通信将获得更为广泛的应用。 1 2 语音编解码技术概述多媒体通信中的信息主要包括音频、视频、文本等，其中音频信号是不可缺少的一个部分。目前常见的音频信号的频率范围大致如下：语音信号的频带范围是：2 0 0 3 4 0 0 h z ，调幅广播( a m ) 信号的频带范围是5 0 7 0 0 0 h z ，调频广播( f m ) 信号的频带范围是：2 0 1 5 0 0 0 h z ，高保真音频信号的频带范围是2 0 2 0 0 0 0 h z 。一般说来音频信息比视频信息要少得多，但与文本信息相比较，仍然是很庞大的。第一章绪论音频信息的处理包括采集和输出、压缩编码和解码以及与视频信号的同步等内容，其中音频信号特别是语音信号的压缩编解码是多媒体通信中的关键技术之一。语音信号的压缩编解码技术可分为三类。第一类是基于语音波形预测的波形编码方法。这类方法算法简单，易于实现，同时可以获得较高的语音质量，其缺陷是压缩比低，不适合于频率资源紧张的通信系统( 如移动通信) 。第二类是基于语音生成模型的参数编码方法，又称声源编码方法。它对声源信号在频率域或其它正交变换域提取特征参量，并将特征参量变换为数字代码进行传输。这类编码方法数据率低，可以使比特速率压缩到2 k b i v s - - 4 8 k b i t s 。甚至更低，但语音质量只能达到中等。第三类是混合编码方法，它是近年来提出的一类新的语音编码技术。它将波形编码和参数编码的优点结合起来，既利用了语音生成模型，通过对模型中的参数进行编码降低了编码速率，又使编码过程产生了接近原始语音波形的合成语音，保持了波形编码的高质量优点。该技术目前已经得到了广泛研究和应用。其中码激励线性预测c e l p 技术及其各种改进方法( 如v s e l p 、c s a c e l p 等) 是混合编码的典型代表。为了加速上述技术的发展，国内外专家们还致力于语音压缩编码标准的研究，国际电信联盟( 原国际电报电话咨询委员会c c i t t ) 等标准化组织先后制定了一系列语音压缩编码的标准，相应的部分国际标准见表1 1 。表1 1 语音压缩编码标准颁发比特奉时延标准编码器类型q o s 应用时间 ( k b i t s )( m s ) q 7 l l1 9 7 2 6 4压扩p c m0 1 2 5 g 7 2 61 9 8 8 1 6 ，2 4 p s t n 波形编码 a d p c m0 1 2 5 4 0 4 5 ( g 7 2 1 )( 1 9 8 4 ) 3 2 ，4 0 i s d n g 7 2 21 9 8 86 4 5 6 ，4 8子带编码 1 5 参数编码 2 4l p c 25 3 5 保密话音 g s m 1 9 8 71 3r p e u 甲 2 0 全速率移动通信 2 7 4 0 g s m 语音信箱 1 9 9 45 6c h ，p 2 5 半速率混合编码 g 7 2 81 9 9 4 1 6c e l p0 6 2 5 g 7 2 3 i1 9 9 5 5 ，3 ，6 3多脉冲c e l p3 7 5 2 7 4 0 多媒体通信 g 7 2 9 1 9 9 6bc e l pl s g 7 2 9 a1 9 9 6 8c e l p1 5 m p e g1 2 8m p e g5 0c d 网络多媒体通信一语音编码技术研究其中的g 7 1 1 标准是i t u t 于1 9 7 2 年制定的电话质量的p c m 语音编码标准，其取样频率为8 k h z ，编码速率为6 4 k b i t s ，使用扯律或a 律的非线性压扩技术，其质量相当于1 2 比特的线性量化。g 7 2 1 标准是i t u t 在1 9 8 4 年制定，使用自适应差分p c m 编码( a d p c m ) ，其编码速率为3 2 k b i v s 。a d p c m 是一种对中等音频质量信号进行压缩编码的有效算法之一，它不仅适用于语音压缩，而且也适用于调频广播质量的音频压缩和c d i 音频压缩等应用。g ；7 2 2 标准将取样速率提高到 1 6 k h z ，将所编码的模拟音频信号的高频限从3 k h z 提高到7 k h z ，同时把低频限从 3 0 0 h z 降低到5 0 h z ，输出编码数据的速率可为6 4 、5 6 或4 8 k b i t s ，从而在不增加数码率的情况下改进了音频信号编码的质量。1 2 7 2 9 是一个8 k b i 讹的语音编码标准，采用共轭结构代数码激励线性预测编码( c s - a c e l p ) 方法，可以达到3 2 k b w s a d p c m 的语音质量。近年来对其研究发现，在对算法进行适当地修改后，其编码速率范围可以是6 4 1 3 k b s 。语音编码标准q 7 2 9 a 是国际电信联盟制定的一种较新的编码标准，它是( 3 7 2 9 的d s v d ( 话音和数据同时传送数字系统) 形式。它与 g 7 2 9 的比特流兼容，编解码算法是在g 7 2 9 算法的基础上进行一些简化后形成的。虽然在某些指定条件下其编码质量不及g 7 2 9 ，但其算法复杂度只是g 7 2 9 算法的一半。g 7 2 9 a 的算法特性决定了它很适合用于i p 网络条件下的多媒体通信系统中，对语音信号进行压缩编码。 1 3 本文研究的主要内容由于大容量通信信道光纤信道的引入，有一段时间人们曾认为语音压缩技术已没有研究的必要，因为语音压缩量相对于光纤信道容量来说已微不足道。但是光纤信道目前也只是在骨干网上得到应用，在接入网及支线的大规模应用仍需一定时间。另外，无线领域的信道带宽紧张始终是一个突出的问题。因此低速率语音编码技术仍然有广泛的应用前景。本文主要研究如何用软件实现基于g 7 2 9 a 标准的语音信号压缩编解码，以及基于d i r e c t s o u n d 技术的语音信号捕获与回放。采用g 7 2 9 a 标准进行编解码，编码速率能够达到8 k b s ，可以应用于i p 网络条件下的多媒体视频会议系统； d i r e c t s o u n d 技术是m i c r o s o f t 公司于2 0 0 1 年推出的新版本d i r e c t x8 0 技术的一个重要组成部分，调用其中特有的c o m ( c o m p o n e n to b j e c tm o d e l - 组件对象模型) 接口函数可以实现语音信号的实时捕获与回放。本文的主要内容安排如下：在第一章绪论中简要介绍了多媒体通信发展的历史和现状，对语音编解码技术作了概括说明。第二章详细地阐述了本系统的实现方案，并对语音信号压缩编码的基础及本系统采用的关键技术进行了介绍。第三章详细地讲述了语音信号捕获与回放的原理及本系统实现语音信号实时捕获与回第一章绪论放的具体方法。在第四章对语音信号编解码的实现做了详细说明，讲述了本系统是如何采用i t u tq 7 2 9 a 编解码算法来具体实现语音信号的编码和解码，并提出了相应的改进措施。 6网络多媒体通信一语音编码技术研究第二章系统设计方案及其关键技术 2 1 系统设计方案本文针对i p 网络条件下的多媒体通信系统，提出了用软件实现语音信号编解码的系统设计方案。本系统软件应用于w i n d o w s 9 8 2 0 0 0 操作系统，语音信号的捕获和回放都是由计算机中的声卡来完成的。为了保证软件运行时用户能够同时发送和接收语音信号，要求计算机中的声卡必须工作于全双工。该设计的整体结构如图2 1 所示。系统划分为四个功能模块，各模块的具体功能如下：语音信号捕获模块：该模块实现了语音信号的实时捕获。它首先通过声卡将输入的模拟语音信号转换为数字信号；然后将捕获到的语音数据存放在预先指定的捕获缓冲区中。语音信号的捕获是通过调用d i r e c t s o u n da p i 函数来完成的。语音压缩编码模块：该模块是系统的核心部分，采用前面介绍的g 7 2 9 a 压缩编码算法，对捕获到的语音数据进行压缩编码。编码模块以帧为基本单位，对编码缓冲区中的输入数据进行处理。首先从编码缓冲区中取出一个语音帧( 1 0 m s ) 进行高通滤波，去除信号中直流分量和低频分量的干扰，同时进行输入信号幅度控制。然后通过1 0 阶线性预测分析提取出l p 系数并转化为l s p ( 线谱对) 参数，对线谱对参数进行量化、编码。用量化后的线谱对参数反求得的l p 参数构造感知加权滤波器与合成滤波器。再进行开环分析求得基音时延，在开环基音估计的基础上进行闭环基音估计。将已经提取参数代入语音生成模型对激励码本进行搜索，提取激励参数。最后对各参数进行量化和编码，形成码元比特流并存放到已编码缓冲区中。语音解码模块：该模块采用c x 7 2 9 a 解码算法，实现对接收到的数据比特流解码。解码模块同样是以帧为单位，对解码缓冲区中的数据比特流( 包括l p 系数、自适应码本矢量、固定码本矢量和增益) 进行解码。解码后的参数用于计算重构语音信号。所得到的重构语音信号还需经过后置处理，以使信号性能改善。最后语音数据被存放在已解码缓冲区中。语音回放模块：该模块完成解码后语音数据的回放。它从已解码缓冲区中取出解码后的数据并存放到回放缓冲区中，通过调用d i r e c t s o u n da p i 接口函数进行回放。由计算机中的声卡将其转换为模拟语音信号，通过扬声器将声音播放出来。相对来说，语音信号的回放过程比捕获过程要复杂一些。第二章系统设计方案及其关键技术图2 1 语音处理系统结构图本软件在编程实现时，分别将编码模块和解码模块做成动态连接库 ( d l l d y n a m i cl i n kl i b r a r y ) 。这样做的好处是在建立应用程序的可执行文件时，不用将编码模块和解码模块链接到应用程序中，而是在应用程序运行时才动态地装载编解码模块d l l 。这样可以提高软件的运行速度。同时分别建立了捕获缓冲区、编码缓冲区、已编码缓冲区、解码缓冲区和已解码缓冲区，用它们存放待处理和已处理的语音数据，避免了各种数据在存放时可能出现的混乱情况。 2 2 语音编码基础语音压缩编码研究的基本问题是在给定编码速率的条件下，如何得到尽量好的重构语音质量或称编码质量，同时尽量减小编解码时延和算法的复杂度。因此，压缩编码要考虑的主要因素有：输入信号的特点、传输比特率的限制及对重构信号的质量要求。科学家们从大量的实验中发现了一些可以被利用的特性，主要包括两个方面：一是语音信号本身的特性，二是人类听觉功能的特性。语音压缩编码技术就是依据语音信号自身的特性和人类听觉功能的特性，辅以不同的算法，在保证一定音质水平的前提下尽可能地减少数据量。本文采用的语音编码技术就是以语音信号的特性及人类听觉功能特性为基础的。一、语音信号的特性语音信号的自有特性包括以下四个方面： ( 1 ) 有用信号的分布特性通过对语音信号的长时和短时统计发现，语音信号小幅度出现的概率大，大幅度出现的概率小，即有用信号更靠近低信号电平。因此只要在低信号电平处建立较多的量化点，就能够保证信号质量。非均匀量化就是直接利用了语音信号的这一特点，使量化质量得以提高。i t u t 的g 7 1 1 编码标准中的“律和a 律p c m 编码方法就是利用这一特性，采用每个样值点8 比特( 包括符号位) 的非均匀量化，达到了每个样值点l l 比特的均匀量化效果。 ( 2 ) 语音样本间的相关性语音信号大体上可以分为清音和浊音两大类。从声音产生的机理上看，二者有显著的差异，因而在信号特征上也有明显的区别。清音没有明显的时域和频域特征，类似于白噪声。浊音在时域上有明显的周期性，在频域上有共振峰结构，网络多媒体通信一语音编码技术研究频谱含有谱线结构，而且能量大部分集中在较低频段内。因此，除了频谱包络代表的短时相关性以外，浊音还具有长时相关性。利用语音信号的这些相关性，可以有效地提高语音编码质量。例如，可以在时域中采用短时或长时线性预测，在变换域中对不同能量的谱分量分配不同的量化比特数等。 ( 3 ) 语音信号具有可预测性语音信号是一个时变的、非平稳的随机过程，但它又具有短时平稳的特点。也就是说，语音信号的一些特征参数( 如短时能量、过零率、相关系数等) 在短时间内( 几m s 几十m s ) 基本保持不变。人类的发音器官运动速度有限决定了相邻短时段的语音信号参数变化不会很大，这说明相邻语音信号之间也存在相关性。所有的预测编码方法都是利用语音信号之间具有相关性这特点，来有效地降低编码速率。在中、低速率编码中采用短时能量预测、l s p 参数预测等方法可以进一步降低编码速率。 ( 4 ) 每个样本的误差敏感度不同对于每个语音样本来说，并非所有的信息都重要，因此可以根据信号对误差敏感程度的不同，区别对待，分级处理。g s m 编码方法就是针对这一特点采用了相应的对策。二、人类听觉特性 ( 1 ) 人耳分辨率有限的特性语音样本点在幅度上是连续的，它的精确表示需要无穷多比特。但实际上并不需要这样做，因为人耳对幅度的分辨能力是有限的。也就是说，语音信号对于人耳带有过多的信息，通过量化可以去除这些过多的信息。一般而言，线性量化中每个样本点取1 2 1 4 比特己听不出量化失真；对于非线性量化，每个样本点取 8 比特就能获得令人满意的效果；如果采用自适应量化，所需的比特数还可以进一步地压缩。 ( 2 ) 对低频信号更为敏感子带编码( s b c - - s u b - b a n dc o d i n g ) 技术就是利用这一特性，将语音信号分割成若干个子频带，然后分别对它们独立地进行编码，通过分配给各个子带不同的量化比特数和量化间隔来控制它们的信噪比, ( s n r - - - s i g n a lt on o i s er a t i o ，信号的信噪比是信号质量的量度标准，信噪比越高，信号相对于噪声所包含的能量就越大，信号质量越好) 。比如，信号的低频部分对声音清晰度影响较大，量化可以较细些，分配较多的量化比特数；对于信号的高频部分则可以给予较少的比特数进行粗量化，这样在获得同样音质的情况下比特数却可以降低。由于量化噪声只出现在各个子带内，所以很容易控制。m p e g 音频编码方法就采用了子带编码技术。 ( 3 ) 听觉掩蔽现象与音质模型科学家从大量的听觉试验中发现了两个事实：一个是当人耳昕到某一频率的第二章系统设计方案及其关键技术9 声音时，就听不到邻近频率的较低声强部分：另一个是当一个很大的声音刚刚停止的瞬间，入耳无法昕到近处的轻声。这就是声音的掩蔽特性，前者称为“频率掩蔽”，后者称为“时间掩蔽”。由于被掩蔽的声音是听不到的，人们就可以将它们从信号数据流中去除，达到压缩的目的。“音质模型”应运而生，它是剔除掩蔽信号数据的依据。另外，在编码过程中，通过采用最小均方差准则或其它方法，改变量化噪声的频谱形状，使量化噪声在主观听觉上能够部分或全部被语音信号所屏蔽，这样可以提高语音编码质量。在变换域变换中采用相应的方法，能够达到同样的目的。 ( 4 ) 人耳对相位信息不敏感人耳对语音的感知是通过语音信号中各频谱分量幅度获得的，而对各分量的相位不敏感。因此可以利用人耳对相位失真不敏感的特性，达到压缩编码速率和提高语音质量的目的。线性预测编码器就是利用了这一特点，不传送语音谱中的相位信息，使编码速率可以压缩到2 4 k b s ，甚至更低，而且仍然可以保持很高的可懂度。 2 3 本系统采用的关键技术目前，如何在中低速率( 1 6 k b i f f s 以下) 上获得高质量的语音编码信号是语音编码技术研究的重点。本系统采用的g 7 2 9 a 语音编码算法，主要是基于共轭结构代数码本激励线性预测技术c s a c e l p 。采用这种技术，编码速率能够达到8 k b i t ，s 。这一性能的获得主要是基于许多关键技术，包括线性预测编码、合成分析、感知加权滤波和矢量量化等。 1 线性预测编码l p c ( l i n e a r p r e d i c t i v ec o d i n g ) 线性预测技术是最常用的一种语音分析技术，将它应用到语音编码中就构成了线性预测编码。图2 2 中给出了线性预测编解码的原理框图。在编码端进行语音分析时，要将语音信号s ( n ) 分成帧，逐帧进行语音分析。在解码端进行的语音合成也是逐帧实现的。叫一倒鲎黔编信道l 码ir 。。 1 清浊音清，浊音判决码蛔绷耳判决量基音基音周期。化提取图2 2 线性预测编解码框图线性预测分析是l p c 的关键。线性预测分析的基本原理是一个语音抽样可以用过去若干个语音抽样的线性组合来逼近，通过使有限时间内的实际语音抽样与网络多媒体通信一语音编码技术研究线性预测抽样之间的差值平方和最小，来唯一地确定一组预测参数，即线性组合中所用的加权系数。语音分析包括两类：一类是基音提取，提取的参数包括清音浊音判决和基音周期：另一类是短时线性分析，提取的参数包括线性滤波器系数 a j ) 和增益g ，将所提取的参数进行量化和编码就可以得到了编码语音信号。图2 2 中的预加重模块的作用是增强语音频谱中的高频共振峰，使语音短时谱和线性预测分析中的余量频谱变得更为平坦，从而提高参数 a i 的估计精度。加窗模块的作用是实现逐帧分析时的平滑衔接。当短时线性预测采用自相关方法时，在截断时间片的边缘会产生较大误差。为了减少误差，在分帧同时加上有限宽度的窗口就可以平滑数据的过渡，在实际应用中多采用汉明窗口。本系统的编码模块采用1 0 阶线性预测滤波器对输入语音信号进行短时相关分析，采用半个汉明窗口和四分之一的余弦函数环对输入语音信号进行加窗处理。 2 合成分析法a b s ( a n a l y s i s - b y - s y n t h e s i s ) 合成分析方法将合成器引入编码器，使之与分析器相结合。先对输入语音信号进行分析，提取发声模型中的声道模型参数。然后选择激励信号去激励声道模型，产生合成语音。将此合成语音与原始语音进行比较，根据一定的误差准则调整计算各个参数，使得二者之间的误差达到最小。在本系统的编码模块中，将激励信号输入到合成滤波器，令其产生的合成语音信号与原始语音信号相比较，从而求得使二者均方误差最小的激励信号。合成分析编码过程是一个分析加合成的过程，这种合成分析编码系统的原理框图如图2 3 所示。输入语音感知加权滤波是根据人耳听觉的屏蔽效应来提高合成语音听觉质量的一种方法。由于在语音频谱中能量较高的频段即共振峰处的噪声相对于能量较低频段的噪声而言不容易被感知，因此可以在语音信号频谱分量较强的地方产生较大的量化误差而不影响听觉效果。在编码过程中选择最佳激励信号源时，首先要对目标函数进行感知加权修正。通常，感知加权滤波器的传递函数为：晔，= 嬲= 筹 p ，第二章系统设计方案及其关键技术感知加权滤波器使实际误差信号的频谱不再趋于平坦，而是具有与语音信号相似的包络形状。这样就使误差度量的优化过程与感觉上共振峰对误差的屏蔽效应相吻合，从而产生较好的主观听觉效果。其中n ，y ，是可选择的常数。当 = l ，扎= 0 时，误差信号的频谱包络与语音信号的频谱包络一致。但是实际上这样的听觉效果并不好，原因在于人耳对语音的共振峰部分更为敏感，相应地对其信噪比要求也更高一些。在实际应用中，n 的值一般取l ，y ：的值取o 8 左右。在本系统的编码算法中n 取值为1 ，y ，取值为o 7 5 。 4 矢量量化v q ( v e e t o rq u a n t i z a t i o n ) 矢量量化不同于标量量化，它不是对每个参数独立地进行量化，而是将所有参数组合起来作为一个整体进行量化，在数学上用矢量表示参数的组合，所以称为矢量量化。矢量量化的工作原理是利用相邻数据之间的高度相关性，将待编码的输入数据序列分组，每一组( 包含m 个数据) 被描述成一个有m 个元素的矢量，让每个矢量与一个已经预先训练好的码本( c o d e b o o k ) 中的矢量按某种失真准则进行比较，找到一个最匹配的矢量，并用它的序列号( 即码本的下标) 对输入矢量进行编码：解码端具有与编码端完全相同的码本，这样就可以根据接收到的码本下标找到对应的矢量，恢复出原来的参数。矢量量化编码过程如图2 4 所示。由于在信道中传输的不是信号码本矢量而是信号码本矢量对应的序列号，所以传输数据量得到了很大的压缩。矢量量化在中低速率语音编码领域已经得到了广泛应用，如g 7 2 3 1 、 g 7 2 8 、g 7 2 9 等编码标准中都采用了矢量量化的思想。图2 4 矢量量化编码过程示意图矢量量化编码技术中有两个关键问题，一是如何建立码本结构，使其忠实地反映实际参数的组合情况：二是采用何种量化编码准则，这一点与被编码对象的特性有很大关系，一般多采用最小均方误差准贝t ( m i n i m u m - m s ec r i t e r i o n ) 。码本结构一般通过码本训练过程来确定。码本结构的好坏直接关系到码本搜索的效率，有一种码本结构是将激励信号表示为有限个预定位置的单位增益脉冲，称之为代数码本结构。g 7 2 9 a 编码算法中的固定码本搜索就采用了代数码本结构，搜索得到语音模型的随机激励信号。根据编码过程中采用的不同码本结构，可以将矢量量化分为以下几种类型：全码本矢量量化它是最简单的一种矢量量化方法。它只有一个总的码本，量化时要对码本中网络多媒体通信一语音编码技术研究的所有矢量进行搜索，找出与输入矢量最接近的码本矢量。它的缺点是存储量大、计算复杂。分割码本矢量量化它先将待量化的矢量分割成两个或多个子矢量，然后再对每个子矢量独立地进行量化，每个子矢量都有自己的码本，最后的量化结果是选定的各子码本矢量之和。在搜索第1 个码本时，没有任何约束，而后续码本的搜索必须考虑前面已经确定的子矢量，保证输入矢量的单调性。码本分割后每个子码本的尺寸按指数关系递减，而顺序搜索各子码本的计算量是各子码本搜索量的线性和，由此可知分割码本矢量量化的计算复杂度大为简化了。在本系统编码模块中，线谱频率l s f 量化就采用了分割矢量量化技术，大大减少了码本的搜索量和存储量，同时又保持了整体的量化精度。多级矢量景化这种量化方法采用了分阶段量化技术。首先对输入矢量进行较粗的量化，对应的码本只需要较少数量的矢量，然后再用另一个码本进行细量化，进一步减小量化误差。原则上可以进行更多级的量化，在g 7 2 9 a 编码标准中采用了两级矢量量化方法对线谱频率l s f 进行量化。自适应矢量量化这种量化方法的码本内容需要不断地更新，如果在一段时间内某些概率较低的码本矢量一直没有被使用，就可以用概率较高的码本将这些低概率码本替换掉。这些高概率码本矢量来自于当前输入的数据，而且没有被包含在现有的码本中。这些更新的码本矢量可以在静音期或语音数据量较低的时期发送给接收方。以上介绍了几种常用的矢量量化方法，可以看出矢量量化技术是语音信号编码中一种十分重要的技术。 5 码激励线性预测编码( c e l p - - - c o d e e x c i t a t i o nl i n e a r p r e d i c t i o n ) 码激励线性预测技术是19 8 5 年由m a n f r e dr s c h r o e d e r 和b s a t a l 在i e e e i c a s s p 年会上提出来的，用码本作为激励源的线性预测编码技术。它以高质量的合成语音及很好的抗噪声性能，在4 8 1 6 k b s 速率上得到广泛的应用，是中低速率编码领域最成功的方案。后来经过研究又提出了多种改进方案，如短时延码激励线性预测编码l d c e l p ，矢量和激励线性预测编码v s e l p 以及采用共轭结构的代数码激励线性预测编码c s a c e l p 等。其中矢量和激励线性预测编码v s e l p 方案采用自适应长时码本以及两个结构化的随机激励码本，比较基本的c e l p ， v s e l p 运算量减少了很多；共轭结构代数码激励线性预测( c s - - a c e l p ) 是最近开发的一个算法，它提供了良好的音质和很小的时延，是一种基于人的语音所建立的模型。国际电信联盟i t u 的c t 7 2 9 语音压缩编解码标准就是以c s a c e l p 为基础，0 7 2 9 标准后来进一步优化改进后，已成为最重要的语音压缩编解码标准。第二章系统设计方案及其关键技术 c e l p 采用分帧技术对语音信号进行编码，帧长一般为1 0 3 0 m s 。在_ 【2 7 2 9 a 建议中，语音信号的帧长为1 0 r e s 。c e l p 编码是基于合成分析( a n a l y s i s - b y s y n t h e s i s ， a b s ) 、感觉加权滤波、矢量量化( v e c t o rq u a n t i z a t i o n ，v q ) 及线性预测几种技术基础之上的。 c e l p 算法是用搜索得到的最佳码本矢量乘以最佳增益，代替l p 残差信号作为激励信号源。c e l p 一般将每一语音帧分为2 5 个子帧，在每个子帧中搜索最佳的码本矢量作为激励信号。图2 5 是c e l p 的编码示意图，图中虚线框内是c e l p 合成器。一般情况下c e l p 用一个自适应码本中的码字( 码矢量) 来逼近语音的长时周期性( 基音) 结构：用一个固定码本中的码字( 码矢量) 来逼近语音信号经过短时、长时预测后的残差信号。从自适应码本和固定码本中搜索出来的最佳码本矢量，分别乘以各自的最佳增益后相加，其和就是c e l p 激励信号源。将激励信号输入到p 阶l p 合成滤波器y a ( z ) ，得到合成语音信号s ( 竹) ，s ( 月) 与原始语音信号s ( n ) 之间的误差经过感知加权滤波器w ( z ) ，得到感觉加权误差e ( n ) 。c e l p 用感觉加权的最小均方预测误差m s p e ( m i n i m u ms q u a r e dp r e d i c t i o ne = 0 0 作为搜索最佳码本矢量及幅度的度量准则，使感觉加权误差均方最小的码本矢量就是最佳码本矢量。实际上当语音信号的短时、长时预测都很准确时，语音信号中的各种线性相关性是可以去除掉的。因此，理论上讲，语音信号经过短时、长时预测后得到的残差信号可以看成是种无相关性的噪声序列。这样就可以采用随机噪声码本，而不必根据常规的矢量量化方法进行码本训练，因此固定码本有时又称为随机码本。一。一一。+ 一一一固定码本；图2 5c e l p 编码示意图网络多媒体通信一语音编码技术研究其中自适应码本和固定码本的搜索过程在本质上是一致的，不同之处在于码本结构和目标矢量的差别。自适应码本要生成的是具有准周期特性的语音，它的码字与固定码本的白噪声特性码字是不同的。c e l p 码本搜索时，为了减少计算量，一般采用两级码本顺序搜索的方法。第一级自适应码本搜索的目标矢量是加权l p 残差信号。该目标矢量逼近只经过加权短时线性预测的误差信号，主要是要逼近其中的周期频率成分。第二级固定码本搜索的目标矢量是第一级搜索的目标矢量减去自适应码本搜索得到的最佳码本矢量激励合成加权滤波器的结果。它是为了逼近语音信号经长时、短时预测后剩余的随机成分。由于两个码本的尺寸远小于采用基音预测的单码本尺寸，因此码本搜索的效率大大提高了。c e l p 编码器的计算量主要是对最佳码本矢量的搜索。计算复杂度和合成语音的质量取决于码本的大小。第三章语音信号捕获回放的原理与实现第三章语音信号捕获回放的原理与实现 3 1 语音信号捕获与回放的原理本系统中语音信号捕获与回放是通过m i c r o s o f t 公司的d i r e c t s o u n d 技术来实现的。d i r c c t s o u n d 是d i r e c t x 的一个重要组成部分，它有专门用于实现语音信号捕获与回放的接口函数。本章首先对d i r e c t x 及d i r e c t s o u n d 进行介绍，然后对本系统语音信号捕获与回放的具体实现过程进行详细的说明。 3 1 1d i r e c t x 简介 d i r e c t x 是m i c r o s o f t 公司推出的一套用于开发计算机游戏和其他高性能多媒体应用程序的软件开发工具包s d k 。它为广大程序员提供了一整套的应用程序接口( a p i - a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e ) ，使程序员能够在w i n d o w s 平台下设计出高性能、实时的多媒体应用程序。它包括对2 d ，3 d 图形、声音效果及音乐、输入设备的支持以及如多人网络游戏的支持。 m i c r o s o f t 公司开发d i r e c t x 的目的在于促进w i n d o w s 下的多媒体、图形图像、动画以及游戏程序开发，首要的目标是实现d o s 游戏平台向w i n d o w s 平台的迁移。以前的d o s 游戏编程人员要面对很多不同的硬件和各种各样的加速卡，而在 d i r e c t x 环境下，游戏编程人员可以获得各种硬件加速特性而又不用考虑硬件的组成，使w i n d o w s 环境下的游戏开发变得更简单，性能更稳定，效果更加卓越。为了使硬件升级对应用程序的影响减到最小，d i r e e t x 提供了种即插即用的方法，使应用程序的开发独立于硬件。编程人员可以直接访问计算机中的硬件和将来系统中可能会具有的硬件设备，开发出具有强大实时性、高性能的应用程序。 d i r e c t x 提供了硬件和应用程序之间一致的接口，降低了安装和设置硬件的复杂性，使得对硬件的利用达到了最优。利用d i r e c t x 提供的a p i 接口，程序员可以充分利用系统加速卡和各种即插即用的硬件所提供的卓越特性，而不需要考虑硬件实现的具体细节。 3 1 2d i r e c t x8 0 的新特性及组成部分 d i r e c t x8 0 是微软公司在2 0 0 1 年2 月推出的d i r e c t x 版本。它融合了微软的最新技术，使游戏和视听多媒体方面的功能更为强大，适用于w i n d o w s9 5 9 8 、 w i n d o w sm e 及w i n d o w s2 0 0 0 系统。它保持了很好的向下兼容性，以前版本的 d i r e c t x 已有的特性在d i r e c t x8 0 中都可以找到。网络多媒体通信语音编码技术研究 d i r e c t x8 0 中的每个组件都包括了重要的新特性，它们极大地增强了d i r e c t x 的功能。图形、音频和网络三个组件被彻底重写；d i r e c t l n p u t 包括了新的配置功能、操作映射和更好的国际化支持；d i r e e t s h o w 第一次作为d i r e c t x 的一部分出现在运行时和s d k 中。 d i r e c t x8 0 提供的新特性包括： ( 1 ) d i r e e t d r a w 和d i r e e t 3 d 完全集成在一起 m i c r o s o f t d i r e c t d r a w 和d i r e e t 3 d 并入到一个单独的d i r e c t x g r a p h i c s 组件中。 a p i 进行了大幅度更新，变得更容易使用，并且支持最新的图

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）网络多媒体通信—语音编码技术研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）网络多媒体通信—语音编码技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档