(通信与信息系统专业论文)voip丢失包的语音估计工程研究.pdf_第1页
(通信与信息系统专业论文)voip丢失包的语音估计工程研究.pdf_第2页
(通信与信息系统专业论文)voip丢失包的语音估计工程研究.pdf_第3页
(通信与信息系统专业论文)voip丢失包的语音估计工程研究.pdf_第4页
(通信与信息系统专业论文)voip丢失包的语音估计工程研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(通信与信息系统专业论文)voip丢失包的语音估计工程研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学硕士学位论文 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究 成果。据我所知。除文中已经注明引用的内容外,本论文不包含其他个人已经 发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在 文中作了明确说明并表示谢意。 作者签名:盈熟整日期:焦:! :2 学位论文使用授权声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保 留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权 将学位论文用于非赢利目豹的少量复制并允许论文进入学校图书馆被查阅。有 权将学位论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要 汇编出版。保密的学位论文在解密后适用本规定。 学位论文作者签名: 日期:怒酿起 一名:洮节 日期;生竺 华东师范大学硕士学位论文 o r i g i n a l i t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to f t h e r e q u i r e m e n t sf o r t h em a s t e r s d e g r e ea te a s tc h i n a n o r m a l u n i v e r s i t y , 1w a r r a n t t h a tt h i st h e s i si so r i g i n a la n da n y o ft h et e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v eb e e nf i g u r e do u tb y m e 。a n y o ft h e r e f e r e n c e st ot h ec o p y r i g h t ,t r a d e m a r k ,p a t e n t ,s t a t u t o r yn g h t ,o rp r o p r i e t yr i g h to f o t h e r sh a v eb e e ne x p l i c i t l ya c k n o w l e d g e da n di n c l u d e di nt h er e f e r e n c e ss e c t i o na t t h ee n do f t h i st b e s i s 。 c o p y r i g h tn o t i c e ih e r e i na g r e et h a tt h el i b r a r yo f e c n us h a l lm a k ei t sc o p i e sf r e e l y a v a i l a b l ef o ri n s p e c t i o n 。if u l l e ra g r e et h a te x t e n s i v ec o p i n go f t h et h e s i si s a l l o w a b l e o n l y f o rs c h o l a r l y p u r p o s e s ,i np a r t i c u l a r , s t o r i n gt h ec o n t e n t o f t h i st h e s i s i n t or e l e v a n td a t a b a s e s ,a sw e l la sc o m p i l i n ga n d p u b l i s h i n gt h et i t l ea n d a b s t r a c to f t h i st h e s i s ,c o n s i s t e n tw i t h ”f a i ru s e ”a sp r e s c r i b e di nt h ec o p y r i g h tl a wo f t h e p e o p l e sr e p u b l i co f c h i n a 。 s 咖a t 叭:蕴噬一d a t e :丛! :2 2 华东师范大学硕士学位论文 论文摘要 v o ( v o i c e o v e r - i p ) 是当前非常流行的一种基于在p 网络上传输的语音 媒体流的技术。它以通信成本低和支持的业务丰富等优点,迅速发展起来。然而, 由于p 网络的无法保证服务质量( q o s :q u a l i t y o fs e r v i c e ) 的固有特性。 在语音包的接收端,由于网络路由,网络延时,网络拥塞或网络发生错误造成的 语音包丢失,延迟到达或到达乱序都时有发生。语音包的丢失将带来在接受端语 音解码后的话音实时回放质量的损失,劣化。 由于语音业务是一种对实时性和交互性要求很高的业务,所以不可能利用丢 失数据包重传的机制来改善性能。包丢失修复技术就是一种试图解决语音的实时 性要求和改善语音听觉感受的技术。无论是基于发送和接收端或者单纯基于接收 端的修复算法,都是产生重构包来替换丢失部分的语音,改善听觉质量。 现有的国际标准对包丢失修复技术有很多的研究,如a n s i t i 5 2 1 ( a n n e x b ) 及i t u t r e c g 7 1 1 ( a p p e n d i x i ) ,它们都是针对于g 7 1 1 语音编码器的,基于接 受端的修复算法,有着较好的性能,但它们都是利用历史数据包,并未考虑应用 后继数据包来重构丢失部分的语音。另外,在重构语音和真实语音捞接过程中, 仍然有断续现象发生,特别是在从浊音到清音及音节间过渡时刻,这种断续现象 比较明显。 本论文的目的是对改进的语音丢失修复算法的研究。在后继包有效的前提 下,同时应用历史包和后继包的信息。并且采用基于波形相似重叠相加算法来实 现时间尺度的调整,重构丢失的语音部分。 最后,在v o w i f i ( v o i p o v e r w i ) 的实验系统上实现了这个算法,在模拟 随机丢包率从1 到3 5 的测试环境下,算法表现了优越的性能和健壮性。 关键词:v o i p ;语音包丢失修复;线性预测编码:时间尺度调整;波形相 似重叠相加算法 华东师范大学硕士学位论文 a b s t r a c t v o i c e o v e r i p ( v o l p ) u s e sp a c k e tt r a n s m i s s i o no fs p e e c ho v e rt h e i n t e r n e t ( i pn e t w o r k ) 。h o w e v e r ,a tt h er e c e i v i n ge n d ,p a c k e t sa r em i s s i n g d u et on e t w o r kd e l a y ,n e t w o r kc o n g e s t i o n ( j i t t e r ) a n dn e t w o r ke r r o r s 。 t h i sp a c k e tl o s sd e g r a d e st h eq u a l i t yo fs p e e c ha tt h er e c e i v i n ge n do f av o i c et r a n s m is s i o n s y s t e m i na ni p n e t w o r k 。s i n c et h ev o i c e t r a n s m i s s i o ni sar e a l t i m ep r o c e s s ,t h er e c e i v e rc a n n o tr e q u e s tf o r r e t r a n s m i s s i o no ft h em i s s i n gp a c k e t s 。c o n c e a l m e n ta l g o r i t h m s e i t h e r t r a n s m i t t e ro rr e c e i v e rb a s e d ,a r eu s e dt or e p l a c et h e s el o s tp a c k e t s 。 t h ep a c k e tl o s sc o n c e a l m e n t ( p l c ) t e c h n i q u e sd e s c r i b e di nt h es t a n d a r d s a n s i t 1 5 2 1 ( a n n e xb ) a n di t u tr e c g 7 1 1 ( a p p e n d i xi ) ,h a v eg o o d p e r f o r m a n c e ,b u tt h e s ea l g o r i t h m s s on o tu s e s u b s e q u e n tp a c k e t sf o r r e c o n s t r u c t i o n 。f u r t h e r m o r e ,t h e r ea r ed i s c o n t i n u i t i e sb e t w e e nt h e r e c o n s t r u c t e da n dt h es u b s e q u e n tp a c k e t s 。e s p e c i a l l ya tt h et r a n s i t i o n s f r o mv o i c e dt ou n v o i c e da n dp h o n e m e t o p h o n e m e 。 t h eg o a lo ft h i sw o r ki st od e v e l o pa ni m p r o v e dp l ca l g o r i t h m , u s i n g t h es u b s e q u e n tp a c k e ti n f o r m a t i o nw h e na v a i l a h l e 。f o rt h i s ,w eu s et h e t i m e s c a l em o d i f i c a t i o n ( t s m t e c h n i q u eb a s e do nw a v e f o r ms i m i l a r i t y o v e r - l a pa d d ( w s o l a ) t or e c o n s t r u c tt h ed r o p p e do rl o s tp a c k e t s 。t h e a l g o r i t h ml o o k sa h e a df o rs u b s e q u e n tp a c k e t s 。i ft h e s ep a c k e t sa r en o t a v a i l a b l ef o rr e c o n s t r u c t i o n , a l g o r i t h mu s e si n f o r m a t i o nf r o mp a s t p a c k e t s 。s u b j e c t i v et e s t ss h o wt h a tt h ep r o p o s e dm e t h o di m p r o v e st h e r e c o n s t r u c t e ds p e e c hq u a l i t ys i g n i f i c a n t l y 。 b yi m p l e m e n t i n g t h e a l g o r i t h m o nh a r d w a r e d e v e l o p m e n t k i to f v o i c e o v e r i po v e rw i f i ,u n d e rt h em a n u a l l ys i m u l a t et h er a n d o mp a c k e t l o s sr a t i of r o m1 t o3 蹋,t h i sa l g o r i t h ms h o w se x c e l l e n ta n dr o b u s t p e r f o r m a n c e 。 k e y w o r d s :v o l p :p l o ( p a c k e tl o s s c o n c e a i m n t ) ;l p ( l i n e a rp r e d i c t i o n ) : t s m ( t i m a s o a l em o d i f i c a t i o n ) :w s o l a ( w a v e f o r m s i m il a r i t y o v e r - l a p a d d ) 4 华东师范大学硕士学位论文 1 1概述 第一章前言 v o l p ( v o i c eo v e r i n t e m e t p r o t o c 0 1 ) 技术的出现,将话音通信技术带入到一 个全新的领域。以往的话音通信都是基于电路交换的,也就是时分复用系统 t d m ,系统资源的利用率的低下造成了通信成本的提高。基于因特网的语音技 术( v o i p ) ,不同于传统的电路交换的结构,语音被编码,压缩,打包在d 包中, 在因特网上传输,使得网络资源的重复利用率提高,更重要的是,它的资费不区 分本地通话和长途通话,可以极低的费用进行国际问的通话。这些优点都得益于 因特网的特性。一些基于p c 机的通信软件,如n e t m e e t i n g ,m s n m e s s e n g e r 都 支持v 0 d 的功能,使用者可以感受到这种技术的灵活性和便利性。除了这些应 用软件外,独立的硬件设备,如m 电话机,p 电话网关等都应运而生。但它 们的本质都是一样的:模拟语音先被数字化,按照一定的语音编码标准进行编 码,再按照规定的时间间隔( 一般1 0 m s - - 4 0 m s 之间) 打包,将语音编码封装到 u d p 和口包中传输到接收端。在接收端,采用与发送端一致的编码标准解码, 回放语音,以完成通话的全过程。 包丢失是p 网络的普遍问题。造成丢包的主要因素是网络传输和网络拥塞 时网络设备主动丢包。包丢失会严重降低口电话的话音质量。每一个p 语音包 通常包含1 0 - - 4 0m s 的语音信息,与语音的基本单位一一音素的持续时长大致匹 配。当一个包丢失时,就会导致在连续的话音中丢掉一个或两个音素。尽管人脑 可以重构话音中丢失的一些音素,但是太多的音素丢失将导致话音不可理解。一 般来说,当包丢失率超过5 时,就会对通话的质量产生很大的影响。 口网络的固有缺点在于,它是一个基于“尽力而为”( b e s t - e f f o r t ) 特性的 技术,数据在口网中传播,会有时延( d e l a y ) ,抖动( j i t t e r ) ,包丢失( l o s s ) 及顺序颠倒等现象。一般而言,语音特性允许一定数量的语音包丢失,因为每个 包长度都很小( 1 0 m s - - 4 0 m s ) ,少量的丢失,人耳的特性使其不易觉察出变化。 语音的这样的容错特性明显优于数据通信中完全无错的要求。但是,如果语音包 丢失比率超过5 以上,就会在很大程度上损伤在接收端重放的语音的质量。因 此,需要一个很好的语音包丢失修复技术,重新构建丢失的语音包,带来听觉上 6 华东师范大学硕士学位论文 的改善。在不同的语音编码标准,语音流的采样率条件下,需要不同程度的包丢 失修复算法。本论文就将讨论基于脉冲幅度的编码器g 7 1l 的语音包丢失修复 算法。 许多的应用中,实时语音的应用对端到端的时延是有限制的,过大会严重影 响听众的感官感受,认为话音质量过差。通常情况下,当时延小于1 5 0 m s 时, 对交谈基本没有影响,当时延超过1 5 0 m s 时,交谈者开始昕到回音并且声音开 始互相干扰。对于长距离通信,界于1 5 0 - - 4 0 0 m s 之间的时延一般还是可以接受 的。f l u - tg 1 1 4 建议提出对于语音通信单向的时延门限为4 0 0 m s 。在实际应用 中当话音时延达到4 0 0 m s 时,即使完全没有回音,已有1 0 p e r c e n t a g e 的人感觉到 通话困难对于电话会议这类交互性很强的应用,最大端到端的延时应该在2 5 0 m s - - 5 0 0 m s 之间,在l a n 和一些校园网这类的专网中,网络造成的延时,时延抖动 和包丢失是相对于因特网来说比较小的,绝大部分是由于终端设备在处理过程中 引入的。 1 2 研究范围及方法 当前,象因特网这种基于包交换的网络,不仅承载存数据包的传输,也同时 承载语音和图像这类实时媒体流的信息。在此情况下,基于波型编码调制p c m 的语音,如果我们仅仅将丢失的部分语音包用静默来替换,将使得收听者感觉质 量非常差。因此,必须用有效的包丢失修复算法来改善这类丢失产生的音质劣化 的问题。现在常用的基于软件的丢失修复技术可以归为两类: a :基于接收端的技术 b :基于发送端和接收端的技术 目前已有多种技术方案用于解决包丢失的问题。这些技术方案大致可划分为 两大类:一类集中在如何避免或减少包丢失造成的损失,如冗余编码法、帧交织 法。另一类集中在如何在解码时对包丢失造成的损失进行补偿,如静音白噪声 替代法、修复法等。 最简单的,基于接收端的话音重构方案是,将丢失的语音包部分,用全零的 数据包来填充,表现为声音上的静音,或者填充白噪声数据,表现为舒适的背景 噪声。再进一步的方法是,在语音包丢失的时候,重放包丢失前的数据,是在听 觉感受上,相似于丢失的语音包。但这是基于重复完整的包来实现的,可能引入 华东师范大学硕士学位论文 回声的产生。为了避免这种不足,可以应用基于基音( p i t c h ) 波型的重复机制, 就是在包丢失的时间内,反复重复一个基音周期内的历史语音包的数据。但这些 机制仅仅适合于少量并且不频繁地发生包丢失的情况下,当大量丢失情况下,可 被听觉察觉到的音质劣化现象将十分严重。 更加有效的机制是基于发送端和接收端的方案,但复杂度比较高。其实现过 程是: 在发送端首先处理输入的语音流数据,使在接收端可以更好的重新构建 语音流。细分下去又有几种方案,在传输的数据流中添加冗余的数据和控制信息, 例如重复传输语音包,在语音包中加入可用于前向纠错的数据位,但这些方式都 加大了对数据带宽的需求和端到端的延时。另外还有一种方式,并不增加冗余信 息和增加数据带宽,就是采用交织语音包,在不同的包中发送,在接收端去交织, 若发生的少量包丢失的情况下,完全可以根据相邻的数据,计算并重构出正确的 数据包。但交织的缺点同样是增大了延时。 本论文研究的目标是构造一个新颖的基于接收端的包丢失重构算法。考虑使 用丢失包的后继数据包的信息,也就是包丢失结束后,再次接收到的完好语音包, 也称其为将来语音包。 在国际标准中,如i t u t g 7 1 1 a p p e n d i x a 1 】;a n s i t l 5 2 1 a 2 0 0 0 【2 等, 都是应用历史包信息来重构丢失包内容。其实,后继包包含非常重要的信息,特 别是语音中的一些过渡信息,如浊音到清音和从清音到浊音的过渡,还有和爆破 音之间的过渡。在后继包可以获得的情况下,算法将利用历史包和后继包双重的 信息来构造语音包,但如果连续发生包丢失,且其持续时间超过了历史缓存的容 量时,在后继包无法得到的情况下,算法将自动切换至仅使用历史包来构造语音 包。 同时应用波形相似重叠相加算法w s o l a 来实现时间尺度的调整,即调整语音 信号发声的持续时间,表现为加快或减慢发音速度。可以伸展语音信号,使重构 的语音包中的语音在发音速率尽可能与真实值一致,不会发生发音时快时慢的现 象,改善听觉感受和语音的可识别性能,最大性能地保留自然的语音的特性。 1 3 国内外研究现状分析 语音编码器通常有两种类型:基于语音模型的编码器g 7 2 9 a 3 和g 7 2 3 4 以及基于脉冲幅度的编码器g 7 1 1 5 ,基于语音模型的编码器有内在的机制, 华东师范大学硕士学位论文 可以修复一定程度上的语音包丢失,但是基于脉冲幅度的编码器,没有内在机 制,我们需要应用一定的算法来弥补包丢失对语音造成的劣化影响。 两种编码器的优缺点在于:基于语音模型的编码器g 7 2 9 虽然可以承受一定 程度的包丢失,但在包丢失后,需要一定数量的完好语音包才能恢复语音质量, 但基于脉冲幅度的编码器g 7 1 1 在包丢失后,只需要很少数量的完好语音包,就 可以快速地恢复语音质量。目前国际上通用的,应用于基于脉冲幅度调制p c m ( 如 g 7 1 1 ) 的p l c 语音包丢失修复的标准是一i t u - tg 7 1 la p p e n d i xa ( 2 0 0 0 ) , 它是一种高质量,低复杂度的包丢失修复技术的标准算法,提供了基本的包丢失 修复算法。 华东师范大学硕士学位论文 第二章语音信号在i p 网络上的传输技术 v o l p 技术具有许多传统电话交换技术所不具有的优点,如灵活,低成本等。 但其缺陷也同时存着,如网络时延较大,话音质量不稳定等。本论文在分析了多 种当前丢包恢复技术 6 后,试图探讨一种新的算法来消除和改善由因特网带来 的包丢失,延时,抖动所造成语音业务的语音质量的下降。提高基于因特网的语 音业务的听觉质量。本章将简要介绍v o l p 技术的一些优势,网络信令协议和v o l p 系统的具体实现和应用等重要的背景知识。 2 1 v b l p 简介 基于i p 网的实时语音业务,通常来说效果并不令人满意,这主要是由于i p 网的固有特性决定的。 i p 网最初设计是用来传输存数据的,它的应用也主要是那些非实时的应用, 所要保证的主要也是保证数据的无错传输,并未强调其实时性,若出现数据的丢 失和错误,可以由传输层协议如t c p 控制重传等动作。这样带来的时延对于一些 非实时应用来说并不重要。 但是,当我们应用i p 网来传输实时语音数据时,由于话音业务,如电话, 电话会议等,实时性和互动性要求非常高,以往那种通过重传数据来弥补数据包 的丢失和错误的做法,会引入极大延时,并使实时业务的性能降低到无法被接受 的程度。 网络层的主要任务是路由选择。现在的i p 路由协议都是不区分数据类型 的。路由协议并不关心所要转发的数据是否有时间延迟的限制,都同样地进入队 列缓冲。因此,现在的因特网提供的是单一的尽力而为的服务,所有应用都完全 平等地共享网络资源,这种策略非常适合于数据业务的传输,却并不适合于实时 多媒体业务的传输。 传输层的任务是提供端到端的通信。u d p 协议为i p 提供了一种应用编程接 口,因此在传输数据时与i p 协议没有多大联系。t c p 协议在基于无连接的i p 协 议层上提供了种面向连接的可靠传输协议。但是,t c p 的重传纠错对实时业务 的传输非常不利,因为重传数据块的延迟要远大于其正常传送的延迟,同时也带 1 0 华东师范大学硕士学位论文 来了相当多的延迟波动。另外,t c p 的滑动窗口流控制机制也会带来相当大的延 迟波动。 实时应用的另一个重要特性是,其数据在大多数情况下并不需要1 0 0 的准 确,例如语音包内数据发生少量的错误位,在语音播放时,并不会被听众轻易觉 察,这也是人的听觉系统的生理特性决定的。所以,这些实时应用业务都使用 u d p i p 这种面向非连接的传输层网络层协议来传输。如t c p 这类面向连接的传 输层协议的机制可以确保数据准确无误地,可靠地传输到接受端,t c p i p 比较 适于非实时应用,并且要求数据绝对正确的纯数据业务。 在本论文中,将讨论一种新的重构方案来修复语音包丢失时造成的影响,用 来改善和提高v o i p 应用的语音质量的客观评估。 2 2v o l p 的特点和应用 v o i p 可以应用在任何基于i p 的网络上,如互联网,局域网,企业网。而近 年来,i p 网络的发展速度十分迅猛,超过了p s t n 电路交换网络的发展。这在基 础上奠定了v o i p 业务发展需要的条件。其特点也很明显: 1 成本低,远远低于传统电话的成本。特别是长途电话,国际长途电 话。因为i p 网络没有地域的概念。国际间的v o i p 数据的传输也只 是增加了些传输延时。并不象传统电话的本地通话和传统通话,费 用上具有悬殊的差别。 2 因特网可以同时支持话音业务和纯数据业务的应用。这使得它具有 极大的优势,对比于传统电话交换网络。 3 支持多媒体业务的需求。 综上所述,v o i p 语音应用可以在成本上优于传统电话,还具有支持网络的种类 多样,应用灵活的优越性。 2 3i p 协议 i p 协议 7 是一种面向非连接的协议,不同的i p 包可能走不同的路径到达 目的地,并且这些路径不是独占的,属于共享的路径。其优点是充分利用网络带 宽和资源,并尽量选择非拥塞的路径到达目的地节点。但如果遇到网络拥塞,网 华东师范大学硕士学位论文 关节点的缓存器溢出,节点中断等故障,这些i p 包有可能被节点网关丢弃或丢 失,造成包丢失现象。 i p9 ;9 的网络层协议( i p ) 和传输层协议( t c p u d p ) 能够非常高效地传输 数据,佩不能很好地支持实时多媒体业务的传输。i p 层对向上的终端用户,屏 蔽了底层硬件细节,不论底层硬件是以太网,a t m ,m o d e m ,只要在网络层应用的 是i p 协议,都可以进行网际间的互连。但i p 协议属于尽力而为( b e s t e f f o r t ) 的数据报协议,在这一层上,没有重传机制,无法对错误进行恢复,所以承载在 它上面的数据包可能发生丢失,重复,和到达目的地顺序紊乱。这些问题在i p 层是无法解决的,它的上一层传输层如t c p 层,被设计来解决此类问题。 2 4v o l p 存在的问题 2 4 1 服务质量q o s 因特网最初的设计目的是进行高效的数据传输,因此所使用的t c p i p 协议 族是一种无连接的、基于数据报的传输模式。i p ( i p v 4 ) 所提供的是一种“尽力 而为”的服务,无法保证吞吐量和传送时延等服务质量 8 ,并且不保证传输的 时延和丢失与否,最重要的是它并不对实时数据如语音和视频和非实时数据进行 区分,可就造成在网络拥塞的时刻,同等地处理语音包和纯数据包,如丢弃或延 时处理这些包。而我们更加希望网络可以区分对待它们,在网络拥塞时,丢弃非 实时应用的纯数据包,或优先处理实时应用的数据包,以保证语音包或视频包 的正常及时被传输。这样的非q o s 的特性也造成v o i p 应用中的语音质量的不佳。 2 4 2 影响服务质量q o s 的因素 1 语音编码器 由于因特网的网络环境的限制,无法保证传输的时间延时特性,和数据包丢 失情况,我们需要使用一些特殊的语音编解码器来适应这些网络特性。 i t u t 国际电信联盟制定了一系列的话音编解码器的标准,如g 7 “,g 7 2 3 ; g 7 2 9 等。尽管制定这些标准的目的不同,但都可被用在v o i p 应用中。 g 7 1 1 g 7 1 1 是一种非压缩的编码方法,其数据直接来自p c m ,抽样频率为8 kh z , 编码方法采用a 律转换表和u 律转换表,速率为6 4 kb i f f s 。该编码器所获得的话 华东师范大学硕士学位论文 音质量最好。 g 7 2 3 1 g 7 2 3 1 算法使用线性预测编码和词典来完成平滑,对处理器的计算功能要求 较高,运行速率为6 4 k b i t s 或5 3 k b i t s 。在i t u 指定的语音编码器中,g 7 2 3 1 在最低的速率上实现了长话质量的性能,它还在静音状态时设定等待噪音帧,这 样可以大大提高话音的质量。 g 7 2 9 a g 7 2 9 a 是一种8 k b i t s 的编码算法,提供接近于市话质量的性能。该种编码 抗随机比特错误的能力与抗随机突发消失帧的能力相同。在噪声较大的环境下, 它能有更好的话音质量。 下表列出一些常用的语音编解码标准的特性:m o s ( m e a no p i n i o ns c o r e s ) 评 分、比特率和帧长度。 标准语音编码器的性能比较 编码器标算法算法复杂压缩率比特率m o s 分值 准度 ( k b s ) ( 1 5m a x ) ( m p i s ) g 7 1 1p c m016 44 1 0 g 7 2 6a d p c m1 4 ,2 7 ,2 ,i 61 6 2 4 3 2 4 0 3 8 5 g 7 2 8l d - c e l p3 041 63 6 1 g 7 2 9c s - a c e l p2 0883 9 2 g 7 2 9 ac e - a c e l p1 1883 7 g 7 2 3 1m p c m l q1 61 0 2 1 2 1 6 3 ,5 3 3 9 g s mr p e l t pi 04 91 33 5 表2 - 1常用的语音编解码标准的特性 t a b l e 2 1v o i c ec o d e c d e c o d ec h a r a c t e r i s t i cc o m p a r i s o nt a b l e m o s 平均意见评分,是衡量声音回放质量的一种方法。它是让一组听众对某 段声音质量进行主观评分,从最低1 分到最高5 分进行打分( 1 :不可接受;2 : 较差:3 :一般:4 :好;5 :极好) ,最后将各听众的打分结果作平均,最后得到m o s 华东师范大学硕士学位论文 的分数。m o s 方法是对声音进行评分的较常用方法。 2 延时现象 语音数据包在因特网上的延时现象有几类:积聚延时,打包延时,传输延 时和网络延时。积聚延时是指,为了等待从a d 转换器产生足够数量的采样点, 若定义l o m s 的帧长度,需要等待l o m s ,积累8 0 个采样点。随后这8 0 个采样点 被送到语音编码器,进行封包操作,这引入了打包延时。一旦语音数据包被发送 到网络上进行传输,在从发送时刻到目的地之间的传输时间称为传输延时。网络 中间结点的路由器,交换机在处理包过程也引入了网络延时。 3 时延抖动 在基于包交换的i p 网络中,两个从相同源地址到相同目的地址的数据包, 可以选取不同的路由。不同的路由路径可能经过拥塞状况不同的网络,并且不同 的路由器也引入了不同的处理延时,最终可能使到达时刻不同,产生时延抖动和 到达时刻乱序。为了解决时延抖动问题,一般在目的地主机内采用先进先出的存 储器结构的缓冲器。但其同样引入了处理延时,这是缓冲器的缺点。 2 5v o l p 相关的标准 有两个国际组织都参加了制定v o i p 的标准,他们是i t u - t 和i e t fh 3 2 3 系 列标准是第一个由i t u _ t 发展出的标准。s i p ,m g c p ,h 2 4 8 标准则是由i e t f 开发 的。下面对这几种协议作一简要介绍。 2 5 1h 3 2 3 协议 h 3 2 3 协议 9 制定了在无q o s 服务质量保证的分组网络上的多媒体通信系 统标准,这些分组网络主宰了当今的桌面网络系统,包括基于t c p i p 、i p x 分组 交换的以太网、快速以太网、令牌网、f d d i 技术。因此,h 3 2 3 标准为l a n 、w a n 、 i n t e r n e t 、因特网上的多媒体通信应用提供了技术基础和保障。 2 5 2s 协议 s i p 协议是应用层控制协议,由i e t f 提出来的一个应用控制( 信令) 协议, 它与h 3 2 3 协议并列。s i p 协议的出发点是以现有的i n t e r n e t 为基础构架i p 电话业务网,是分散式协议,将网络设备的复杂性推向网络边缘。与以h 3 2 3 1 4 华东师范大学硕士学位论文 协议为基础的i p 电话不同,s i p 协议需要智能化终端。若用户终端是非智能化 终端,也可使用s i p 协议作为呼叫信令,但将大大削弱s i p 协议特有的优势,因 此s i p 协议更适用于智能用户终端。 2 5 3m g c p 协议 m g c p 协议与h 2 2 3 和s i p 不同,h 3 2 3 和s i p 提出两套i p 电话体系结构, 二者完全独立,不能互相兼容,只能互通。m g c p 不涉及i p 电话的体系结构,只 涉及网关分解问题,因而不仅可用于h 3 2 3i p 电话系统,也可用于s i pi p 电 话系统。网关可分解成媒体网关( m g ) 和媒体网关控制器( m g c ) 。它是1 9 9 9 年由 i n t e r n e t 工程任务组( i e t f ) 制定的媒体网关控制协议。 2 5 4 h 2 4 8 m e g a e o 协议 h 2 4 8 协议 1 0 是2 0 0 0 年由i t u t 第1 6 工作组提出的媒体网关控制协议, 它是在早期的m g c p 协议基础上改进而成。h 2 4 8 m e g a c o 协议是用于连接m g c 与m g 的网关控制协议,应用于媒体网关与软交换之间及软交换与h 。2 4 8 m e g a c o 终端之间,是软交换应支持的重要协议。 2 6 其它v b l p 相关协议 2 6 1r s v p 协议 r s v p ( r e s o u r c er e s e r v a t i o np r o t o c 0 1 ) 资源预留协议协议 1 1 是一种可 以提供音频、视频、数据等混合服务的互联网络综合服务( i i si n t e r n e t i n t e g r a t e ds e r v i c e ) 。通过它,主机端可以向网络申请特定的q o s ,为特定 的应用程序提供有保障的数据流服务。r s v p 在数据流经过的各个路由器节点上 对资源进行预留,并维持该状态直到应用程序释放这些资源。 2 6 2r t p 协议 r t p ( r e a lt i m ep r o t o c 0 1 ) 实时协议 1 2 是一种提供端对端传输服务的实 时传输协议,用来支持在单目标广播和多目标广播网络服务中传输实时数据,而 实时数据的传输则由r t c p 协议来监视和控制。 华东师范大学硕士学位论文 r t p 信息包的结构包含广泛用于多媒体的若干个域,包括声音点播、影视点 播、因特网电话和电视会议业务。r t p 包一般被封装在u d p 的内,使用u d p 的端 口号和检查和。由多媒体应用程序生成的声音和电视数据块被封装在r t p 信息包 中,每个r t p 信息包被封装在u d p 消息段中,然后再封装在i p 数据包中。 2 6 3r t c p 实时传输控制协议 r t c p ( r e a l t i m ec o n t r o lp r o t o c 0 1 ) 实时传输控制协议 1 2 定义在r f c 1 8 8 9 中。多媒体网络应用把r t c p 和r t p 起使用,r t c p 的主要功能是为应用程 序提供会话质量或者广播性能质量的信息。每个r t c p 信息包不封装声音数据或 者电视数据,而是封装发送端和或者接收端的统计报表。这些信息包括发送的 信息包数目、丢失的信息包数目和信息包的抖动等情况,这些反馈信息对发送端、 接收端或者网络管理员都是很有用的。 总之,v o i p 的应用是建立在m 网络协议基础上的,其分层结构如下表所示。 传输层 网络层 数据链路层 物理层 h 。3 2 3 ;s i p ;h 。2 4 8 ;m g c p r t p :r t c p u d f ,t c p i p d a t al i n kl a y e r p h y s i c a ll a y e r v o i p 协议结构 表2 - 2v o i p 协议层次结构 t a b l e 2 2v o i pr e l a t e dp r o t o c o lh i e r a r c h yt a b l e 1 6 华东师范大学硕士学位论文 第三章语音的线性预测技术 3 1人的语音的产生及声学模型 语音的最基本组成单元是音素,语音就是由一连串的音素所组成的。 3 1 1发声器官 语音的产生来源于人的发声器官:喉,嘴及声道等。声道起始于声带的开口 ( 即声门处) ,而结束在嘴唇。对于不同性别来说,声道长度是不同的,男性声 道平均长度为1 7 c m ,声道的截面积取决于舌,唇,颌和小舌的位置,可以从完 全闭合状态变化到完全打开约2 0 平方厘米。 完整的发声器官结构 1 3 还包括有肺,支气管和气管组成的次声门系统,这 个次声门系统就是产生语音努力的来源。当空气从肺里出来时,呼出的气流由于 声道某以地方的收缩而受到扰动,语音就是这一系统在此时辐射出的声波。 语音按其激励形式的不同可分为三种: 1 浊音( v o i c e ds p e e c h ) 。当气流通过声门时,如果声带的张力刚好使声 带发生张驰振荡式的振荡,产生一股准周期的气流,这以气流激励声道就产生了 浊音。 2 轻音( u n v o i c e ds p e e c h ) 。当气流通过声门时,如果声带不振动,而只 是在某处收缩,迫使气流以高速通过这一收缩部分,而产生湍急的气流,就产生 轻音。 3 爆破音( p l o s i v es p e e c h ) 。如果使声道完全闭合,在闭合后建立气压, 然后突然释放,就得到了爆破音。 3 2人的语音特性 3 2 1基音频率 当发浊音时,气流通过声门使声带发生振动,产生准周期的激励脉冲串,其 波形如下,这个脉冲串的周期就称为基音周期,它的倒数就是基音频率。 基音频率于每个人的声带长短,厚薄,韧性劲度和发音习惯等都有关,很大 华东师范大学硕士学位论文 程度上反映个人的特征。一般来说,男性说话者的语音频率大致分布在5 0 h z 一 信 号 幅 度 轴 图3 - 1人类语音的清音和浊音时域波形 时间轴 f i g u r e 3 1 h u m a ns p e e c hv o i c e d u n v o i c e dv o i c et i m ed o m a i nw a v e f o r m 2 0 0 h z ( 对应基音周期为2 0 m s - - 5 m s ) ,女性说话者和小孩的基音频率在2 0 0 h z 一 4 5 0 h z ( 对应于5 m s 一2 2 2 m s ) ,这也就是为什么女性和儿童声音较成年男性声音 较尖,也就是声音的基本频率较高所致。 3 2 2 共振峰 人类的声道和鼻道都可以看作是非均匀截面的声道管,声道的谐振频率称为 共振峰频率,简称为共振峰,其与发音器官的确切位置有很大的关系,即共振峰 频率与声道的形状和大小有关,每种形状都有一套共振峰频率作为其特征。改变 声道的形状就可以产生不同的声音,因此,当声道形状改变时,语音信号的频谱 就随之改变。共振峰频率由低到高排列依次为第一共振峰,第二共振峰,第三共 振峰等等,一般浊音信号在进行频域转换后,可在其频谱图中辨别出5 个共振峰。 共振峰及基音频率都是人类声学的重要特征。 3 3 线性预测模型 3 3 1 语音信号的数字模型 建立起语音信号的数字模型对于语音处理具有重要的意义。图3 2 是一个比 较简单的语音产生的离散时域模型,它包括三部分:激励源,声道模型和辐射 华东师范大学硕士学位论文 模型。激励源分为浊音和清音两种( 为了简化,省去了爆破音的类型) ,其中浊 音部分如前所述类似准周期信号,此处用周期脉冲发生器模拟,清音信号类似在 频谱上类似白噪声,此处用随机噪声发生器模拟。 基音频率 图3 2人类语音信号的产生模型框图 f i g u r e 3 - 2 h u m a n s p e e c hs i g n a lg e n e r a t i o nm o d e l 按照浊音,清音开关所处的位置来决定产生的语音是浊音还是清音。浊音时, 激励信号由一个脉冲发生器产生,产生的序列是一个频率等于基音频率的激励序 列。如前所述,人的发生原理是周期性气流通过声门,激励声道产生浊音的原理, 为了使浊音的激励信号具有声门脉冲的实际波形,还需要使上述的冲击序列通过 一个声门脉冲模型滤波器g ( z ) : “z ) 。f i 而, ( 3 1 ) 其中g 。和g :都是很接近l ,这样形成的浊音激励信号很接近声门脉冲的频谱。 图中a v 用来调节浊音信号的幅度。对于清音,可以采用一个随机噪声发生器产 生,设其平均值为0 ,自相关函数是单位冲激函数,这表明它的任何两个不同样 点都不相关。a u 也是用来调整清音的幅度的。 随后的部分是声道模型v ( z ) ,如前发声原理所述,气流从声门发出后,将激 1 9 语音 信号 华东师范大学硕士学位论文 励声道发声。v ( z ) 给出力离散时域的声道传输函数,把实际声道作为一个截面声 管加以研究,由经验导出v ( z ) 是一个全极点函数,表示为 1 v ( z ) = 百三一 ( 3 2 ) p 娜。 蒿 其中a 。= 1 ,q 为实数,并把截面积连续变化的声管近似为p 段短声管的串联, 每段短声管的截面积是不变的,p 称为全极点滤波器的阶,也就是我们后面将要 提到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论