




已阅读5页,还剩46页未读, 继续免费阅读
(通信与信息系统专业论文)网络多媒体通信—语音编码技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着l a n 、i n t r a n e t 、i n t e r n e t 在全世界的迅猛发展,i p 网络的性能逐步改善, 基于i p 网络的多媒体通信已经成为未来通信系统重要的研究和发展方向。语音编 码作为多媒体通信的一个重要环节正受到人们的广泛关注。g 7 2 9 a 是国际电信联 盟新颁布的编码速率为8 k b s 的低速率语音压缩编码标准,它是基于i p 网络的多 媒体会议系统标准h 3 2 3 可选的语音压缩编码标准之一。本文在对i p 网络的特性 及g 7 2 9 a 编解码算法进行分析后,提出了用软件来实现语音信号编解码的方案。 本方案实现时采用m i c r o s o f t 公司的新版本d i r e c t x8 0 中的d i r e c t s o u n d 技术,实 现了语音信号的捕获与回放:采用g 7 2 9 a 编解码算法实现了语音信号压缩编解码, 并提出了相应的改进措施。系统还将编码和解码部分做成动态链接库,提高了系 统处理效率。 关键词:语音编码 g 7 2 9 a矢量量化捕获1 鲥受 摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to fl a n ,i n t r a n e ta n di n t e r n e ta n dt h ei m p r o v e m e n to fi p n e t w o r kp e r f o r m a n c e ,t h em u l t i m e d i ac o m m u n i c a t i o nb a s e do ni pn e t w o r kh a sb e c o m e a ni m p o r t a n tr e s e a r c ha n dd e v e l o p m e n tb r a n c ho ft h ef u t u r ec o m m u n i c a t i o ns y s t e m a s ab a s i so fm u l t i m e d i ac o m m u n i c a t i o n ,s p e e c hc o d i n gb e c o m e st h ef o c u so fd i s c u s s i o n t h eg 7 2 9 a ,an e wi s s u e ds p e e c hc o m p r e s s e dc o d i n gs t a n d a r da t8 k b i t s ,i so n eo ft h e o p t i o n a lc o d i n g s t a n d a r d so f h 3 2 3 ,w h i c hi sm u l t i m e d i a m e e t i n gs y s t e m s t a n d a r db a s e d o ni pn e t w o r k w i t hav i e wt oi pc h a r a c t e ra n dg 7 2 9 a c o d i n ga r i t h m e t i c as p e e c hc o d e cs c h e m e i ns o f t w a r ei sp r e s e n t e di nt h i sp a p e r w i t ht h ed i r e c t s o u n dt e c h n o l o g y , a ni m p o r t a n tp a r t o fd i r e c t x8 0 t h e c a p t u r i n ga n dp l a y b a c ko fs p e e c hi s a c h i e v e d t h ec o m p r e s s e d e n c o d i n go fs p e e c hi si m p l e m e n t e dw i t l lg 7 2 9 ac o d i n ga r i t h m e t i c t o g e t h e rw i t hs o m e r e l a t i v em e a s u r e sm e n t i o n e di nt h ep a p e r t h es o f t w a r em o d u l eo fc o d i n ga n dd e c o d i n g a r el i n k e dd y n a m i c a l l yt oi m p r o v et h es y s t e mp r o c e s s i n ge f f i c i e n c y k e y w o r d s :s p e e c hc o d i n g g 7 2 9 a v qc a p t u r ep l a y b a c k 第一章绪论 第一章绪论 1 1 多媒体通信概述 1 1 1 多媒体通信的产生与发展 多媒体通信是一门新兴的通信技术,它涉及通信、计算机、信息处理等多个 领域,是一种综合性技术。通常多媒体通信是指能够对多种表示媒体进行处理, 同时能使多种显示媒体工作的通信。即在一次通信过程中交换的信息类型不是一 种,而是文本、图像、音频、视频、数据等多种媒体类型的综合体。 多媒体通信技术源于二十世纪八十年代初期,当时美国、日本以及欧洲的一 些著名计算机公司开始致力于包括信息的压缩编码、多媒体存储、图形合成与同 步等技术在内的多媒体技术的研究,并把该技术应用于p c 机,首先建立了基于局 域网的多媒体通信系统。美国x e r o x 公司的以太电话系统就是最早的多媒体通信 系统之一。进入九十年代后,全球步入了信息化时代,人们对于了解事物、交换 信息的要求已经从纸、笔、书本、话音等发展到通过声、光、电信号等更准确、 更快捷、更丰富的方式;同时,个人计算机的普及、微电子技术和多媒体技术的 飞速发展、综合业务数字网的建立及宽带综合业务数字网、宽带i p 网的研究进展, 这些都有力地推动了多媒体通信的发展。国外多媒体通信的研究开发首先是基于 窄带综合业务数字网( n i s d n ) 。n 。i s d n 能够实现综合业务的传输,基本速率接口 和基群速率接口都能满足视频、音频压缩信号的带宽要求。基于n i s d n 网络的多 媒体会议电视系统和多媒体检索业务都已经达到了实用水平。从1 9 9 4 年开始,加 拿大、欧盟、美国、日本等国家都开始对基于宽带综合业务数字网( b i s d n ) 的多 媒体通信应用进行研究,对视频点播( r o d ) 、远程教育、远程医疗、多媒体会议电 视等多项多媒体通信应用展开试验。而随着i p 网络规模、用户数以及业务量里指 数型增长,世界各国电信公司都已经将i p 网络( t c p f l p 网络) 上的多媒体通信业务 作为主流;国际上的标准化组织,如i t u t 、e t s i 、i e t f 和i m t c 等纷纷将多媒 体通信标准的制定重点转移到基于分组的多媒体通信系统的标准上。在1 9 9 8 年 i t u t 将1 9 9 6 年制定的称为“不保证服务质量的局域网上的多媒体视听系统” h 3 2 3 标准扩展为“基于分组的多媒体通信系统”,即i t u th 3 2 3v 2 ,1 9 9 9 年5 月又进一步修改为h 3 2 3v 3 标准。随着i p 网络通信标准的臼益完善,a t m 、千兆 以太网等技术与i p 技术逐渐结合,将多媒体通信的应用和研究带入了一个崭新的 发展阶段。 1 1 2 我国多媒体通信的发展情况 网络多媒体通信一语音编码技术研究 近年来我国的多媒体通信发展迅速。特别是智能化布线在国内的普及,在很 大程度上解决了多媒体通信的用户接入问题,这使得多媒体通信业务的普及成为 可能。国内很多公司如中兴通讯、华为、普天信息产业集团等都致力于自主研制 和开发会议电视系统、远程教学系统、远程医疗系统等多媒体通信应用系统,并 且已经取得了很好的应用效果。目前,我国正在大规模建设“1 6 9 中国公众多媒体 通信网”,它是个基于i p 寻址技术的多媒体通信网,网络结构由骨干网和省内网 两层网络组成,端到端的设备间寻址是根据i p 地址完成的。该网络采用的许多技 术在世界上都是领先的,因此这个网的建成,标志着我国的多媒体通信技术进入 了世界先进行列。 1 1 3 多媒体通信的发展趋势 从信息技术发展的趋势来看,多媒体业务将是“信息高速公路”的主要通信 业务,也是未来通信发展的方向。随着l a n 、i n t r a n e t 、i m e m e t 在全世界的迅猛发 展,基于i p 网络进行多媒体通信已是势在必行。 现有的各种通信网络都可以在不同程度上支持多媒体通信业务。公众交换电 话网( p s t n ) 由于信息传输速率较低,适合传输话音、静态图像和低质量的视频图 像等;局域网( l a n ) 的传输时延大,只适合传输文本、图形、图像等非连续媒体 的信息数据:n i s d n 支持可视电话、可视会议和传输静止画面:由于b i s d n 综 合了电路交换和分组交换两方面的优点,通过b i s d n 可以传送高清晰度的图像信 号、高保真的数字化立体声信号,所以可以应用于高清晰度电视及v o d 等业务, 但它缺乏兼容性和较高的可扩展性。 现代通信正在由窄带通信向宽带通信发展,由以电路交换为主的通信方式逐 步向以分组交换为基础的i p 通信方式转变,顺应这种变化,多媒体通信也在向基 于宽带i p 网络的多媒体通信方向发展。国外的公司如c i s c o 、v o c a l t c c ,国内的华 为、中兴通讯等公司正在致力于宽带i p 网络下的多媒体业务的开发。随着p c 桌 面系统的日益普及以及i p 网络性能的逐步改善,基于宽带i p 网络的多媒体通信将 获得更为广泛的应用。 1 2 语音编解码技术概述 多媒体通信中的信息主要包括音频、视频、文本等,其中音频信号是不可缺 少的一个部分。目前常见的音频信号的频率范围大致如下:语音信号的频带范围 是:2 0 0 3 4 0 0 h z ,调幅广播( a m ) 信号的频带范围是5 0 7 0 0 0 h z ,调频广播( f m ) 信号的频带范围是:2 0 1 5 0 0 0 h z ,高保真音频信号的频带范围是2 0 2 0 0 0 0 h z 。 一般说来音频信息比视频信息要少得多,但与文本信息相比较,仍然是很庞大的。 第一章绪论 音频信息的处理包括采集和输出、压缩编码和解码以及与视频信号的同步等内容, 其中音频信号特别是语音信号的压缩编解码是多媒体通信中的关键技术之一。 语音信号的压缩编解码技术可分为三类。第一类是基于语音波形预测的波形 编码方法。这类方法算法简单,易于实现,同时可以获得较高的语音质量,其缺 陷是压缩比低,不适合于频率资源紧张的通信系统( 如移动通信) 。第二类是基于语 音生成模型的参数编码方法,又称声源编码方法。它对声源信号在频率域或其它 正交变换域提取特征参量,并将特征参量变换为数字代码进行传输。这类编码方 法数据率低,可以使比特速率压缩到2 k b i v s - - 4 8 k b i t s 。甚至更低,但语音质量只 能达到中等。第三类是混合编码方法,它是近年来提出的一类新的语音编码技术。 它将波形编码和参数编码的优点结合起来,既利用了语音生成模型,通过对模型 中的参数进行编码降低了编码速率,又使编码过程产生了接近原始语音波形的合 成语音,保持了波形编码的高质量优点。该技术目前已经得到了广泛研究和应用。 其中码激励线性预测c e l p 技术及其各种改进方法( 如v s e l p 、c s a c e l p 等) 是混 合编码的典型代表。 为了加速上述技术的发展,国内外专家们还致力于语音压缩编码标准的研究, 国际电信联盟( 原国际电报电话咨询委员会c c i t t ) 等标准化组织先后制定了一系 列语音压缩编码的标准,相应的部分国际标准见表1 1 。 表1 1 语音压缩编码标准 颁发比特奉 时延 标准编码器类型q o s 应用 时间 ( k b i t s )( m s ) q 7 l l1 9 7 2 6 4压扩p c m0 1 2 5 g 7 2 61 9 8 8 1 6 ,2 4 p s t n 波形编码 a d p c m0 1 2 5 4 0 4 5 ( g 7 2 1 )( 1 9 8 4 ) 3 2 ,4 0 i s d n g 7 2 21 9 8 86 4 5 6 ,4 8子带编码 1 5 参数编码 2 4l p c 25 3 5 保密话音 g s m 1 9 8 71 3r p e u 甲 2 0 全速率 移动通信 2 7 4 0 g s m 语音信箱 1 9 9 45 6c h ,p 2 5 半速率 混合编码 g 7 2 81 9 9 4 1 6c e l p0 6 2 5 g 7 2 3 i1 9 9 5 5 ,3 ,6 3多脉冲c e l p3 7 5 2 7 4 0 多媒体通信 g 7 2 9 1 9 9 6bc e l pl s g 7 2 9 a1 9 9 6 8c e l p1 5 m p e g1 2 8m p e g5 0c d 网络多媒体通信一语音编码技术研究 其中的g 7 1 1 标准是i t u t 于1 9 7 2 年制定的电话质量的p c m 语音编码标准, 其取样频率为8 k h z ,编码速率为6 4 k b i t s ,使用扯律或a 律的非线性压扩技术,其 质量相当于1 2 比特的线性量化。g 7 2 1 标准是i t u t 在1 9 8 4 年制定,使用自适应 差分p c m 编码( a d p c m ) ,其编码速率为3 2 k b i v s 。a d p c m 是一种对中等音频质 量信号进行压缩编码的有效算法之一,它不仅适用于语音压缩,而且也适用于调 频广播质量的音频压缩和c d i 音频压缩等应用。g ;7 2 2 标准将取样速率提高到 1 6 k h z ,将所编码的模拟音频信号的高频限从3 k h z 提高到7 k h z ,同时把低频限从 3 0 0 h z 降低到5 0 h z ,输出编码数据的速率可为6 4 、5 6 或4 8 k b i t s ,从而在不增加 数码率的情况下改进了音频信号编码的质量。1 2 7 2 9 是一个8 k b i 讹的语音编码标 准,采用共轭结构代数码激励线性预测编码( c s - a c e l p ) 方法,可以达到3 2 k b w s a d p c m 的语音质量。近年来对其研究发现,在对算法进行适当地修改后,其编码 速率范围可以是6 4 1 3 k b s 。语音编码标准q 7 2 9 a 是国际电信联盟制定的一种较 新的编码标准,它是( 3 7 2 9 的d s v d ( 话音和数据同时传送数字系统) 形式。它与 g 7 2 9 的比特流兼容,编解码算法是在g 7 2 9 算法的基础上进行一些简化后形成的。 虽然在某些指定条件下其编码质量不及g 7 2 9 ,但其算法复杂度只是g 7 2 9 算法的 一半。g 7 2 9 a 的算法特性决定了它很适合用于i p 网络条件下的多媒体通信系统中, 对语音信号进行压缩编码。 1 3 本文研究的主要内容 由于大容量通信信道光纤信道的引入,有一段时间人们曾认为语音压缩技术已 没有研究的必要,因为语音压缩量相对于光纤信道容量来说已微不足道。但是光纤信 道目前也只是在骨干网上得到应用,在接入网及支线的大规模应用仍需一定时间。另 外,无线领域的信道带宽紧张始终是一个突出的问题。因此低速率语音编码技术仍然 有广泛的应用前景。 本文主要研究如何用软件实现基于g 7 2 9 a 标准的语音信号压缩编解码,以及 基于d i r e c t s o u n d 技术的语音信号捕获与回放。采用g 7 2 9 a 标准进行编解码,编 码速率能够达到8 k b s ,可以应用于i p 网络条件下的多媒体视频会议系统; d i r e c t s o u n d 技术是m i c r o s o f t 公司于2 0 0 1 年推出的新版本d i r e c t x8 0 技术的一个 重要组成部分,调用其中特有的c o m ( c o m p o n e n to b j e c tm o d e l - 组件对象模型) 接 口函数可以实现语音信号的实时捕获与回放。 本文的主要内容安排如下:在第一章绪论中简要介绍了多媒体通信发展的历 史和现状,对语音编解码技术作了概括说明。第二章详细地阐述了本系统的实现 方案,并对语音信号压缩编码的基础及本系统采用的关键技术进行了介绍。第三 章详细地讲述了语音信号捕获与回放的原理及本系统实现语音信号实时捕获与回 第一章绪论 放的具体方法。在第四章对语音信号编解码的实现做了详细说明,讲述了本系统 是如何采用i t u tq 7 2 9 a 编解码算法来具体实现语音信号的编码和解码,并提出 了相应的改进措施。 6网络多媒体通信一语音编码技术研究 第二章系统设计方案及其关键技术 2 1 系统设计方案 本文针对i p 网络条件下的多媒体通信系统,提出了用软件实现语音信号编解 码的系统设计方案。本系统软件应用于w i n d o w s 9 8 2 0 0 0 操作系统,语音信号的捕 获和回放都是由计算机中的声卡来完成的。为了保证软件运行时用户能够同时发 送和接收语音信号,要求计算机中的声卡必须工作于全双工。该设计的整体结构 如图2 1 所示。系统划分为四个功能模块,各模块的具体功能如下: 语音信号捕获模块:该模块实现了语音信号的实时捕获。它首先通过声卡 将输入的模拟语音信号转换为数字信号;然后将捕获到的语音数据存放在预先指 定的捕获缓冲区中。语音信号的捕获是通过调用d i r e c t s o u n da p i 函数来完成的。 语音压缩编码模块:该模块是系统的核心部分,采用前面介绍的g 7 2 9 a 压缩编码算法,对捕获到的语音数据进行压缩编码。编码模块以帧为基本单位, 对编码缓冲区中的输入数据进行处理。首先从编码缓冲区中取出一个语音帧( 1 0 m s ) 进行高通滤波,去除信号中直流分量和低频分量的干扰,同时进行输入信号幅度 控制。然后通过1 0 阶线性预测分析提取出l p 系数并转化为l s p ( 线谱对) 参数, 对线谱对参数进行量化、编码。用量化后的线谱对参数反求得的l p 参数构造感知 加权滤波器与合成滤波器。再进行开环分析求得基音时延,在开环基音估计的基 础上进行闭环基音估计。将已经提取参数代入语音生成模型对激励码本进行搜索, 提取激励参数。最后对各参数进行量化和编码,形成码元比特流并存放到已编码 缓冲区中。 语音解码模块:该模块采用c x 7 2 9 a 解码算法,实现对接收到的数据比特 流解码。解码模块同样是以帧为单位,对解码缓冲区中的数据比特流( 包括l p 系 数、自适应码本矢量、固定码本矢量和增益) 进行解码。解码后的参数用于计算重 构语音信号。所得到的重构语音信号还需经过后置处理,以使信号性能改善。最 后语音数据被存放在已解码缓冲区中。 语音回放模块:该模块完成解码后语音数据的回放。它从已解码缓冲区中 取出解码后的数据并存放到回放缓冲区中,通过调用d i r e c t s o u n da p i 接口函数进 行回放。由计算机中的声卡将其转换为模拟语音信号,通过扬声器将声音播放出 来。相对来说,语音信号的回放过程比捕获过程要复杂一些。 第二章系统设计方案及其关键技术 图2 1 语音处理系统结构图 本软件在编程实现时,分别将编码模块和解码模块做成动态连接库 ( d l l d y n a m i cl i n kl i b r a r y ) 。这样做的好处是在建立应用程序的可执行文件时, 不用将编码模块和解码模块链接到应用程序中,而是在应用程序运行时才动态地 装载编解码模块d l l 。这样可以提高软件的运行速度。同时分别建立了捕获缓冲 区、编码缓冲区、已编码缓冲区、解码缓冲区和已解码缓冲区,用它们存放待处 理和已处理的语音数据,避免了各种数据在存放时可能出现的混乱情况。 2 2 语音编码基础 语音压缩编码研究的基本问题是在给定编码速率的条件下,如何得到尽量好 的重构语音质量或称编码质量,同时尽量减小编解码时延和算法的复杂度。因此, 压缩编码要考虑的主要因素有:输入信号的特点、传输比特率的限制及对重构信 号的质量要求。科学家们从大量的实验中发现了一些可以被利用的特性,主要包 括两个方面:一是语音信号本身的特性,二是人类听觉功能的特性。语音压缩编 码技术就是依据语音信号自身的特性和人类听觉功能的特性,辅以不同的算法, 在保证一定音质水平的前提下尽可能地减少数据量。本文采用的语音编码技术就 是以语音信号的特性及人类听觉功能特性为基础的。 一、语音信号的特性 语音信号的自有特性包括以下四个方面: ( 1 ) 有用信号的分布特性 通过对语音信号的长时和短时统计发现,语音信号小幅度出现的概率大,大 幅度出现的概率小,即有用信号更靠近低信号电平。因此只要在低信号电平处建 立较多的量化点,就能够保证信号质量。非均匀量化就是直接利用了语音信号的 这一特点,使量化质量得以提高。i t u t 的g 7 1 1 编码标准中的“律和a 律p c m 编码方法就是利用这一特性,采用每个样值点8 比特( 包括符号位) 的非均匀量化, 达到了每个样值点l l 比特的均匀量化效果。 ( 2 ) 语音样本间的相关性 语音信号大体上可以分为清音和浊音两大类。从声音产生的机理上看,二者 有显著的差异,因而在信号特征上也有明显的区别。清音没有明显的时域和频域 特征,类似于白噪声。浊音在时域上有明显的周期性,在频域上有共振峰结构, 网络多媒体通信一语音编码技术研究 频谱含有谱线结构,而且能量大部分集中在较低频段内。因此,除了频谱包络代 表的短时相关性以外,浊音还具有长时相关性。利用语音信号的这些相关性,可 以有效地提高语音编码质量。例如,可以在时域中采用短时或长时线性预测,在 变换域中对不同能量的谱分量分配不同的量化比特数等。 ( 3 ) 语音信号具有可预测性 语音信号是一个时变的、非平稳的随机过程,但它又具有短时平稳的特点。 也就是说,语音信号的一些特征参数( 如短时能量、过零率、相关系数等) 在短时间 内( 几m s 几十m s ) 基本保持不变。人类的发音器官运动速度有限决定了相邻短时 段的语音信号参数变化不会很大,这说明相邻语音信号之间也存在相关性。所有 的预测编码方法都是利用语音信号之间具有相关性这特点,来有效地降低编码 速率。在中、低速率编码中采用短时能量预测、l s p 参数预测等方法可以进一步 降低编码速率。 ( 4 ) 每个样本的误差敏感度不同 对于每个语音样本来说,并非所有的信息都重要,因此可以根据信号对误差 敏感程度的不同,区别对待,分级处理。g s m 编码方法就是针对这一特点采用了 相应的对策。 二、人类听觉特性 ( 1 ) 人耳分辨率有限的特性 语音样本点在幅度上是连续的,它的精确表示需要无穷多比特。但实际上并 不需要这样做,因为人耳对幅度的分辨能力是有限的。也就是说,语音信号对于 人耳带有过多的信息,通过量化可以去除这些过多的信息。一般而言,线性量化 中每个样本点取1 2 1 4 比特己听不出量化失真;对于非线性量化,每个样本点取 8 比特就能获得令人满意的效果;如果采用自适应量化,所需的比特数还可以进一 步地压缩。 ( 2 ) 对低频信号更为敏感 子带编码( s b c - - s u b - b a n dc o d i n g ) 技术就是利用这一特性,将语音信号分割成 若干个子频带,然后分别对它们独立地进行编码,通过分配给各个子带不同的量 化比特数和量化间隔来控制它们的信噪比, ( s n r - - - s i g n a lt on o i s er a t i o ,信号的信噪 比是信号质量的量度标准,信噪比越高,信号相对于噪声所包含的能量就越大, 信号质量越好) 。比如,信号的低频部分对声音清晰度影响较大,量化可以较细些, 分配较多的量化比特数;对于信号的高频部分则可以给予较少的比特数进行粗量 化,这样在获得同样音质的情况下比特数却可以降低。由于量化噪声只出现在各 个子带内,所以很容易控制。m p e g 音频编码方法就采用了子带编码技术。 ( 3 ) 听觉掩蔽现象与音质模型 科学家从大量的听觉试验中发现了两个事实:一个是当人耳昕到某一频率的 第二章系统设计方案及其关键技术9 声音时,就听不到邻近频率的较低声强部分:另一个是当一个很大的声音刚刚停 止的瞬间,入耳无法昕到近处的轻声。这就是声音的掩蔽特性,前者称为“频率 掩蔽”,后者称为“时间掩蔽”。由于被掩蔽的声音是听不到的,人们就可以将它 们从信号数据流中去除,达到压缩的目的。“音质模型”应运而生,它是剔除掩蔽 信号数据的依据。另外,在编码过程中,通过采用最小均方差准则或其它方法, 改变量化噪声的频谱形状,使量化噪声在主观听觉上能够部分或全部被语音信号 所屏蔽,这样可以提高语音编码质量。在变换域变换中采用相应的方法,能够达 到同样的目的。 ( 4 ) 人耳对相位信息不敏感 人耳对语音的感知是通过语音信号中各频谱分量幅度获得的,而对各分量的 相位不敏感。因此可以利用人耳对相位失真不敏感的特性,达到压缩编码速率和 提高语音质量的目的。线性预测编码器就是利用了这一特点,不传送语音谱中的 相位信息,使编码速率可以压缩到2 4 k b s ,甚至更低,而且仍然可以保持很高的 可懂度。 2 3 本系统采用的关键技术 目前,如何在中低速率( 1 6 k b i f f s 以下) 上获得高质量的语音编码信号是语音编 码技术研究的重点。本系统采用的g 7 2 9 a 语音编码算法,主要是基于共轭结构代 数码本激励线性预测技术c s a c e l p 。采用这种技术,编码速率能够达到8 k b i t ,s 。 这一性能的获得主要是基于许多关键技术,包括线性预测编码、合成分析、感知 加权滤波和矢量量化等。 1 线性预测编码l p c ( l i n e a r p r e d i c t i v ec o d i n g ) 线性预测技术是最常用的一种语音分析技术,将它应用到语音编码中就构成 了线性预测编码。图2 2 中给出了线性预测编解码的原理框图。在编码端进行语音 分析时,要将语音信号s ( n ) 分成帧,逐帧进行语音分析。在解码端进行的语音合成 也是逐帧实现的。 叫一倒鲎黔编 信道l 码ir 。 。 1 清浊音 清,浊音判决 码 蛔绷耳 判决 量 基音 基音周期 。 化 提取 图2 2 线性预测编解码框图 线性预测分析是l p c 的关键。线性预测分析的基本原理是一个语音抽样可以 用过去若干个语音抽样的线性组合来逼近,通过使有限时间内的实际语音抽样与 网络多媒体通信一语音编码技术研究 线性预测抽样之间的差值平方和最小,来唯一地确定一组预测参数,即线性组合 中所用的加权系数。语音分析包括两类:一类是基音提取,提取的参数包括清音 浊音判决和基音周期:另一类是短时线性分析,提取的参数包括线性滤波器系数 a j ) 和增益g ,将所提取的参数进行量化和编码就可以得到了编码语音信号。图2 2 中的预加重模块的作用是增强语音频谱中的高频共振峰,使语音短时谱和线性预 测分析中的余量频谱变得更为平坦,从而提高参数 a i 的估计精度。加窗模块的作 用是实现逐帧分析时的平滑衔接。当短时线性预测采用自相关方法时,在截断时 间片的边缘会产生较大误差。为了减少误差,在分帧同时加上有限宽度的窗口就 可以平滑数据的过渡,在实际应用中多采用汉明窗口。本系统的编码模块采用1 0 阶线性预测滤波器对输入语音信号进行短时相关分析,采用半个汉明窗口和四分 之一的余弦函数环对输入语音信号进行加窗处理。 2 合成分析法a b s ( a n a l y s i s - b y - s y n t h e s i s ) 合成分析方法将合成器引入编码器,使之与分析器相结合。先对输入语音信 号进行分析,提取发声模型中的声道模型参数。然后选择激励信号去激励声道 模型,产生合成语音。将此合成语音与原始语音进行比较,根据一定的误差 准则调整计算各个参数,使得二者之间的误差达到最小。在本系统的编码模块中, 将激励信号输入到合成滤波器,令其产生的合成语音信号与原始语音信号相比较, 从而求得使二者均方误差最小的激励信号。合成分析编码过程是一个分析加合成 的过程,这种合成分析编码系统的原理框图如图2 3 所示。 输入语音 感知加权滤波是根据人耳听觉的屏蔽效应来提高合成语音听觉质量的一种方 法。由于在语音频谱中能量较高的频段即共振峰处的噪声相对于能量较低频段的 噪声而言不容易被感知,因此可以在语音信号频谱分量较强的地方产生较大的量 化误差而不影响听觉效果。在编码过程中选择最佳激励信号源时,首先要对目标 函数进行感知加权修正。通常,感知加权滤波器的传递函数为: 晔,= 嬲= 筹 p , 第二章系统设计方案及其关键技术 感知加权滤波器使实际误差信号的频谱不再趋于平坦,而是具有与语音信号 相似的包络形状。这样就使误差度量的优化过程与感觉上共振峰对误差的屏蔽效 应相吻合,从而产生较好的主观听觉效果。其中n ,y ,是可选择的常数。当 = l , 扎= 0 时,误差信号的频谱包络与语音信号的频谱包络一致。但是实际上这样的听 觉效果并不好,原因在于人耳对语音的共振峰部分更为敏感,相应地对其信噪比 要求也更高一些。在实际应用中,n 的值一般取l ,y :的值取o 8 左右。在本系统 的编码算法中n 取值为1 ,y ,取值为o 7 5 。 4 矢量量化v q ( v e e t o rq u a n t i z a t i o n ) 矢量量化不同于标量量化,它不是对每个参数独立地进行量化,而是将所有 参数组合起来作为一个整体进行量化,在数学上用矢量表示参数的组合,所以称 为矢量量化。 矢量量化的工作原理是利用相邻数据之间的高度相关性,将待编码的输入数 据序列分组,每一组( 包含m 个数据) 被描述成一个有m 个元素的矢量,让每个 矢量与一个已经预先训练好的码本( c o d e b o o k ) 中的矢量按某种失真准则进行比较, 找到一个最匹配的矢量,并用它的序列号( 即码本的下标) 对输入矢量进行编码:解 码端具有与编码端完全相同的码本,这样就可以根据接收到的码本下标找到对应 的矢量,恢复出原来的参数。矢量量化编码过程如图2 4 所示。由于在信道中传输 的不是信号码本矢量而是信号码本矢量对应的序列号,所以传输数据量得到了很 大的压缩。矢量量化在中低速率语音编码领域已经得到了广泛应用,如g 7 2 3 1 、 g 7 2 8 、g 7 2 9 等编码标准中都采用了矢量量化的思想。 图2 4 矢量量化编码过程示意图 矢量量化编码技术中有两个关键问题,一是如何建立码本结构,使其忠实地 反映实际参数的组合情况:二是采用何种量化编码准则,这一点与被编码对象的 特性有很大关系,一般多采用最小均方误差准贝t ( m i n i m u m - m s ec r i t e r i o n ) 。码本结 构一般通过码本训练过程来确定。码本结构的好坏直接关系到码本搜索的效率, 有一种码本结构是将激励信号表示为有限个预定位置的单位增益脉冲,称之为代 数码本结构。g 7 2 9 a 编码算法中的固定码本搜索就采用了代数码本结构,搜索得 到语音模型的随机激励信号。根据编码过程中采用的不同码本结构,可以将矢量 量化分为以下几种类型: 全码本矢量量化 它是最简单的一种矢量量化方法。它只有一个总的码本,量化时要对码本中 网络多媒体通信一语音编码技术研究 的所有矢量进行搜索,找出与输入矢量最接近的码本矢量。它的缺点是存储量大、 计算复杂。 分割码本矢量量化 它先将待量化的矢量分割成两个或多个子矢量,然后再对每个子矢量独立地 进行量化,每个子矢量都有自己的码本,最后的量化结果是选定的各子码本矢量 之和。在搜索第1 个码本时,没有任何约束,而后续码本的搜索必须考虑前面已 经确定的子矢量,保证输入矢量的单调性。码本分割后每个子码本的尺寸按指数 关系递减,而顺序搜索各子码本的计算量是各子码本搜索量的线性和,由此可知 分割码本矢量量化的计算复杂度大为简化了。在本系统编码模块中,线谱频率l s f 量化就采用了分割矢量量化技术,大大减少了码本的搜索量和存储量,同时又保 持了整体的量化精度。 多级矢量景化 这种量化方法采用了分阶段量化技术。首先对输入矢量进行较粗的量化,对 应的码本只需要较少数量的矢量,然后再用另一个码本进行细量化,进一步减小 量化误差。原则上可以进行更多级的量化,在g 7 2 9 a 编码标准中采用了两级矢量 量化方法对线谱频率l s f 进行量化。 自适应矢量量化 这种量化方法的码本内容需要不断地更新,如果在一段时间内某些概率较低 的码本矢量一直没有被使用,就可以用概率较高的码本将这些低概率码本替换掉。 这些高概率码本矢量来自于当前输入的数据,而且没有被包含在现有的码本中。 这些更新的码本矢量可以在静音期或语音数据量较低的时期发送给接收方。 以上介绍了几种常用的矢量量化方法,可以看出矢量量化技术是语音信号编 码中一种十分重要的技术。 5 码激励线性预测编码( c e l p - - - c o d e e x c i t a t i o nl i n e a r p r e d i c t i o n ) 码激励线性预测技术是19 8 5 年由m a n f r e dr s c h r o e d e r 和b s a t a l 在i e e e i c a s s p 年会上提出来的,用码本作为激励源的线性预测编码技术。它以高质量的 合成语音及很好的抗噪声性能,在4 8 1 6 k b s 速率上得到广泛的应用,是中低速 率编码领域最成功的方案。后来经过研究又提出了多种改进方案,如短时延码激 励线性预测编码l d c e l p ,矢量和激励线性预测编码v s e l p 以及采用共轭结构的 代数码激励线性预测编码c s a c e l p 等。其中矢量和激励线性预测编码v s e l p 方 案采用自适应长时码本以及两个结构化的随机激励码本,比较基本的c e l p , v s e l p 运算量减少了很多;共轭结构代数码激励线性预测( c s - - a c e l p ) 是最近开 发的一个算法,它提供了良好的音质和很小的时延,是一种基于人的语音所建立 的模型。国际电信联盟i t u 的c t 7 2 9 语音压缩编解码标准就是以c s a c e l p 为基 础,0 7 2 9 标准后来进一步优化改进后,已成为最重要的语音压缩编解码标准。 第二章系统设计方案及其关键技术 c e l p 采用分帧技术对语音信号进行编码,帧长一般为1 0 3 0 m s 。在_ 【2 7 2 9 a 建议中,语音信号的帧长为1 0 r e s 。c e l p 编码是基于合成分析( a n a l y s i s - b y s y n t h e s i s , a b s ) 、感觉加权滤波、矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 及线性预测几种技术基 础之上的。 c e l p 算法是用搜索得到的最佳码本矢量乘以最佳增益,代替l p 残差信号作 为激励信号源。c e l p 一般将每一语音帧分为2 5 个子帧,在每个子帧中搜索最 佳的码本矢量作为激励信号。图2 5 是c e l p 的编码示意图,图中虚线框内是c e l p 合成器。一般情况下c e l p 用一个自适应码本中的码字( 码矢量) 来逼近语音的长时 周期性( 基音) 结构:用一个固定码本中的码字( 码矢量) 来逼近语音信号经过短时、 长时预测后的残差信号。从自适应码本和固定码本中搜索出来的最佳码本矢量, 分别乘以各自的最佳增益后相加,其和就是c e l p 激励信号源。将激励信号输入 到p 阶l p 合成滤波器y a ( z ) ,得到合成语音信号s ( 竹) ,s ( 月) 与原始语音信号s ( n ) 之间的误差经过感知加权滤波器w ( z ) ,得到感觉加权误差e ( n ) 。c e l p 用感觉加 权的最小均方预测误差m s p e ( m i n i m u ms q u a r e dp r e d i c t i o ne = 0 0 作为搜索最佳码 本矢量及幅度的度量准则,使感觉加权误差均方最小的码本矢量就是最佳码本矢 量。 实际上当语音信号的短时、长时预测都很准确时,语音信号中的各种线性相 关性是可以去除掉的。因此,理论上讲,语音信号经过短时、长时预测后得到的 残差信号可以看成是种无相关性的噪声序列。这样就可以采用随机噪声码本, 而不必根据常规的矢量量化方法进行码本训练,因此固定码本有时又称为随机码 本。 一。一一。+ 一一一 固定码本; 图2 5c e l p 编码示意图 网络多媒体通信一语音编码技术研究 其中自适应码本和固定码本的搜索过程在本质上是一致的,不同之处在于码 本结构和目标矢量的差别。自适应码本要生成的是具有准周期特性的语音,它的 码字与固定码本的白噪声特性码字是不同的。c e l p 码本搜索时,为了减少计算量, 一般采用两级码本顺序搜索的方法。第一级自适应码本搜索的目标矢量是加权l p 残差信号。该目标矢量逼近只经过加权短时线性预测的误差信号,主要是要逼近 其中的周期频率成分。第二级固定码本搜索的目标矢量是第一级搜索的目标矢量 减去自适应码本搜索得到的最佳码本矢量激励合成加权滤波器的结果。它是为了 逼近语音信号经长时、短时预测后剩余的随机成分。由于两个码本的尺寸远小于 采用基音预测的单码本尺寸,因此码本搜索的效率大大提高了。c e l p 编码器的计 算量主要是对最佳码本矢量的搜索。计算复杂度和合成语音的质量取决于码本的 大小。 第三章语音信号捕获回放的原理与实现 第三章语音信号捕获回放的原理与实现 3 1 语音信号捕获与回放的原理 本系统中语音信号捕获与回放是通过m i c r o s o f t 公司的d i r e c t s o u n d 技术来实 现的。d i r c c t s o u n d 是d i r e c t x 的一个重要组成部分,它有专门用于实现语音信号 捕获与回放的接口函数。本章首先对d i r e c t x 及d i r e c t s o u n d 进行介绍,然后对本 系统语音信号捕获与回放的具体实现过程进行详细的说明。 3 1 1d i r e c t x 简介 d i r e c t x 是m i c r o s o f t 公司推出的一套用于开发计算机游戏和其他高性能多媒 体应用程序的软件开发工具包s d k 。它为广大程序员提供了一整套的应用程序接 口( a p i - a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e ) ,使程序员能够在w i n d o w s 平台下设 计出高性能、实时的多媒体应用程序。它包括对2 d ,3 d 图形、声音效果及音乐、 输入设备的支持以及如多人网络游戏的支持。 m i c r o s o f t 公司开发d i r e c t x 的目的在于促进w i n d o w s 下的多媒体、图形图像、 动画以及游戏程序开发,首要的目标是实现d o s 游戏平台向w i n d o w s 平台的迁移。 以前的d o s 游戏编程人员要面对很多不同的硬件和各种各样的加速卡,而在 d i r e c t x 环境下,游戏编程人员可以获得各种硬件加速特性而又不用考虑硬件的组 成,使w i n d o w s 环境下的游戏开发变得更简单,性能更稳定,效果更加卓越。 为了使硬件升级对应用程序的影响减到最小,d i r e e t x 提供了种即插即用的 方法,使应用程序的开发独立于硬件。编程人员可以直接访问计算机中的硬件和 将来系统中可能会具有的硬件设备,开发出具有强大实时性、高性能的应用程序。 d i r e c t x 提供了硬件和应用程序之间一致的接口,降低了安装和设置硬件的复杂性, 使得对硬件的利用达到了最优。利用d i r e c t x 提供的a p i 接口,程序员可以充分利 用系统加速卡和各种即插即用的硬件所提供的卓越特性,而不需要考虑硬件实现 的具体细节。 3 1 2d i r e c t x8 0 的新特性及组成部分 d i r e c t x8 0 是微软公司在2 0 0 1 年2 月推出的d i r e c t x 版本。它融合了微软的 最新技术,使游戏和视听多媒体方面的功能更为强大,适用于w i n d o w s9 5 9 8 、 w i n d o w sm e 及w i n d o w s2 0 0 0 系统。它保持了很好的向下兼容性,以前版本的 d i r e c t x 已有的特性在d i r e c t x8 0 中都可以找到。 网络多媒体通信语音编码技术研究 d i r e c t x8 0 中的每个组件都包括了重要的新特性,它们极大地增强了d i r e c t x 的功能。图形、音频和网络三个组件被彻底重写;d i r e c t l n p u t 包括了新的配置功 能、操作映射和更好的国际化支持;d i r e e t s h o w 第一次作为d i r e c t x 的一部分出 现在运行时和s d k 中。 d i r e c t x8 0 提供的新特性包括: ( 1 ) d i r e e t d r a w 和d i r e e t 3 d 完全集成在一起 m i c r o s o f t d i r e c t d r a w 和d i r e e t 3 d 并入到一个单独的d i r e c t x g r a p h i c s 组件中。 a p i 进行了大幅度更新,变得更容易使用,并且支持最新的图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州毕节金沙县城乡建设发展集团有限公司面向社会招聘经理层高级管理人员(财务总监)考察政审情况及拟聘用笔试历年参考题库附带答案详解
- 2025湖南邵阳市洞口县黄桥镇中心卫生院面向社会公开招聘编外合同制影像(医师)技师模拟试卷附答案详解(典型题)
- 2025福建福州市鼓楼区国有资产投资发展集团有限公司招聘16人笔试历年参考题库附带答案详解
- 2025福建省长汀金龙稀土有限公司岗位招聘169人笔试历年参考题库附带答案详解
- 2025福建省人力资源发展集团有限公司邵武分公司招聘笔试历年参考题库附带答案详解
- 2025福建泉州金控集团权属省五建公司招聘73人笔试历年参考题库附带答案详解
- 2025福建晋江市新丝路商贸有限责任公司招聘4人笔试历年参考题库附带答案详解
- 2025福建厦门环境保护机动车污染控制技术中心招聘27人笔试历年参考题库附带答案详解
- 2025福建亚通新材料科技股份有限公司招聘15人笔试历年参考题库附带答案详解
- 2025恒丰理财有限责任公司社会招聘10人笔试历年参考题库附带答案详解
- 房地产销售岗位简历模版大全
- 智能楼宇管理员试卷及答案
- 创新成果转化高效推进承诺书6篇范文
- 自卸车安全教育培训课件
- 冶金行业事故回放课件
- 5年(2021-2025)高考1年模拟地理真题分类汇编专题03 地球上的水(解析版)(浙江专用)
- 电气检修班组安全培训课件
- 2024版中国高血压防治指南(完整版)
- 不再举报协议书6篇
- 空管知识培训材料课件
- 患者身份识别管理标准WST840-2025学习解读课件
评论
0/150
提交评论