(信号与信息处理专业论文)多速率分组语音平台的研究与实现.pdf_第1页
(信号与信息处理专业论文)多速率分组语音平台的研究与实现.pdf_第2页
(信号与信息处理专业论文)多速率分组语音平台的研究与实现.pdf_第3页
(信号与信息处理专业论文)多速率分组语音平台的研究与实现.pdf_第4页
(信号与信息处理专业论文)多速率分组语音平台的研究与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(信号与信息处理专业论文)多速率分组语音平台的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 y3 1 9 6 2 5 , ( 二十一世纪将是一个信息的社会,人们要求随时随地可获取 所需韵信息,由以分组交换技术为核心的i n t e r n e t 网络所构成 的通讯网络满足了人们这种需求,并已逐渐代替了原有的以电路 交换技术为核心的通信网,成为未来通讯网骨干。它综合了声音、 图象和数据等多种传输媒体,充分利用人的各种感官,实现最生 动、最直接、最有效的信息交流。) 作为国家计委“九五”科技攻关项目“可视化通信平台的研 制与实施”的一个重要组成部分。本文工作主要集中于多媒体通 信系统中语声通讯平台的研究及其实现。 作者主要做了三方面的工作:第一,改善了原多路g 7 2 3 1 语声混合算法的不足之处;提出了g 7 2 3 1 和g 7 2 9 a 两种低速率 语声混合算法的思想;并利用软件具体实现了多路g 7 2 9 a 语声 混合算法。 第二,设计开发了一套分组语音的软、硬件平台,该平台是 基于p c 机和w i n d o w s 操作系统,适用于个人用户或企业内部 多媒体通讯。 第三,在前面所提到的开发平台的基础之上,实现了多种应 用,如:i p 网上可视会议系统、语声邮件、用户网关以及会议语 声记录下载等。山p i 琶苗= i ; 嗲毒军 a b s t r a c t t h e21s tc e n t u r yi sas o c i e t yo fi n f o r m a t i o n p e o p l en e e da l l k i n d so fi n f o r m a t i o nt h a ne v e r t h ec o m i n go fn e w c o m m u n i c a t i o n n e t w o r k ,w h i c hi sc o n s i s t e do f i n t e r a c tb a s e do np a c k e ts w i t c h i n g t e c h n o l o g y ,s a t i s f i e dt h i sn e e d t h en e w c o m m u n i c a t i o nn e t w o r kh a s r e p l a c e dt h ep o s i t i o no ft r a d i t i o n a lc o m m u n i c a t i o n n e t w o r kb a s e do n c i r c u i ts w i t c h i n gt e c h n o l o g y ,a n db e c a m et h em a i nc o m m u n i c a t i o n w a y o ft h ef u t u r e i ti n t e g r a t em a n yt r a n s f e r r i n gm e d i as u c ha sv o i c e , i m a g e ,d a t aa n ds of o r t h t ob r i n gi n t oe x e c u t i o nt h em o s tv i v i d ,d i r e c t a n de f f i c i e n ti n f o r m a t i o ne x c h a n g eb ym a k i n gf u l lu s eo ft h es e n s e o r g a n so fm a n k i n d c o n s e q u e n t l y i ti sn od o u b tt h a t 血em u l t i m e d i a c o m m u n i c a t i o n s y s t e m s w i l la c q u i r et h ec o m p r e h e n s i v e e m p h a s e s a n d d e v e l o p a tu n p r e c e d e n t e d s p e e d a sa n i m p o r t a n tp a r t o f “t h er e s e a r c ha n dt h ei m p l e m e n t a t i o no f t h ev i s u a l i z e dt e l e c o m m u n i c a t i o np l a t f o r m ”,t h es c i e n t i f i ca n d t e c h n o l o g i c a l r e s e a r c h p r o j e c to f t h eg o s p l a n i nt h e9 t h f i v e - y e a rp l a n , t h ew o r ki n v o l v e di nt h i sp a d e ri sc o n c e n t r a t e do nt h er e s e a r c ho f t h e s p e e c hc o m m u n i c a t i o np l a t f o r m i nm u l t i m e d i ac o m m u n i c a t i o n s y s t e m a n dt h e i ri m p l e m e n t i n gs c h e m e s t h ea u t h o rh a sa c h i e v e dt h r e ew o r k f i r s t l y ,i i m p r o v et h e m i x i n ga l g o r i t h m o fg 7 2 3 1 :a n di p r o v i d e t h em i x i n g c o n c e p t b e t w e e ng 7 2 3 1a n dg 7 2 9 a b e s i d et h i s ir e a l i z et h e m i x i n g a l g o r i t h mo f g ,7 2 9w i t hp r o g r a m i n g s e c o n d l y ,id e s i g n e d a n da c h i e v e dap a c k e tv o i c ep l a t f o r m w h i c hi n c l u d es o f t w a r ea n dh a r d w a r e t h i sp l a t f o r mi sas u i t a b l e p l a t f o r mf o rp e r s o n a lu s e r sa n dm i d d l e s m a l le n t e r p r i s e t h i r d l y ,b a s e do n t h ep l a t f o r i l lt h a ti d e s i g n e d ,ia c h i e v es o m e a p p l i c a t i o n s ,s u c ha st h ev i d e o m e e t i n go ni pn e t w o r k ,v o i c e e m a i l , u s e rg a t e w a ya n dt h ed o w n l o a do f m e e t i n g r e c o r d 北方交通大学硕士学位论文 第一章绪论 1 1 研究分组语音的重要意义 语言,一直是人类最自然和便利的一种交流方式。语言是人 类特有的、具有多种功能进行沟通、交流的工具,是人类区别于 其他动物的一个根本特征。在人们日常生活的每一天中,都需要 使用语言进行大量的信息交流和传递。在这其中,身处异地的两 个人如何利用语言进行沟通,则从一个方面反映了社会发展进步 的程度;在贝尔发明电话之前,往往采用传令兵传递口头信息或 书信,而在电话发明之后,才真正实现了身处异地的人们之间直 接语音交流,电话的发明标志着通讯史上一次革命性的突破。 在此后的时间里,电话经历了从模拟到数字、从有线到无线 的的变更,技术越来越先进,并已几乎覆盖了全球每一个角落, 形成了有史以来最大的一个通讯网络。但电话的基本原理一直遵 循贝尔集中电路交换的模式,在体系结构上也没有什么改进。在 二十世纪最后的二十年内,爆发了信息为核心内容的全球大革 命,计算机技术、网络技术等铺天盖地而来。逐步渗入了人们日 常生活的每一个角落,人们的生活观念正在经历着一场深刻的变 革。作为人类最常使用的通讯方式话音,自然也发生了变化, 分组语音便是这场变革的代表产物。 所谓分组语音就是用数字化的方法进行语音信号的存储、压 缩、解压等处理,打成包以分组交换模式进行传输。与传统的电 路交换模式相比,分组话音具有以下的优点:不独占线路,线 路的利用率高。只要带宽允许,可以许多人同时利用一根线路进 行通讯。可以和数据业务进行混合传输。由于分组包的包头之 中包含了这个包所载信息的类型、目的地等信息,各种业务流之 间不会混淆,因而可以在网上同时传递多种业务,为三网融合奠 定了基础。可靠性高。由于在网络上进行传输,可以由不同的 路径到达同一目的地,当一条线路发生故障时,可以经由其它线 路进行传送。 北方交通大学坝j j 学位论义 从目前的发展情况来看,分组语音的发展已经具备了比较好 的基础,主要体现在以下四点:i t u t 联盟推出了多个语音 压缩标准,如g 7 2 3 1 、g7 2 9 、g7 2 9 a - 和g 7 2 8 等,在保证语音 质量的前提上,大幅度降低了传输语音所需的带宽,满足了不同 环境下对于语音的需求。网络技术迅猛发展。各种新材料、新 技术层出不穷,网络带宽越来越宽。这为确保分组语音的传输质 量提供了可靠的保证。分组交换技术已经由单一的数据应用向 网络核心转移,开始取代传统电路交换设备所具有的地位。这为 分组语音的使用确立了基石。计算机软硬件技术发展迅猛。c p u 的主频越来越快,内存越来越大,各种专用芯片的运算速度也是 与日俱增,从而降低甚至消除了由于算法计算或通讯负载过重所 带来的延迟和抖动。而延迟和抖动正是影响分组语音质量最大的 障碍。综上所述,我们可以看到分组语音已经具备了投入实用的 基础。 在分组语音所具有的巨大商机的吸引之下,目前各家厂商在 分组语音的研究上投入了大量的资金,也取得了丰硕的研究成 果。i p p h o n e 就是其中的代表例子。1 9 9 9 年可以说是i p 电话年, 各主要厂商都推出了自己的产品,而i p p h o n e 以其低廉的价格也 吸引了越来越多的用户,一时间i p p h o n e 几乎成了分组语音的代 名词。但i p p h o n e 只是分组语音技术投入实用的一个开始,它的 功用远不止于此。实际上,几乎所有的语音通讯设备都可以利用 分组语音,因为分组语音是融合了网络技术、计算机技术和通讯 技术的一种新形式,代表了未来通讯行业发展的方向,已经成为 推动社会信息化进程的一支骨干力量。 1 2 分组语音中的技术难点 对于分组语音的研究,起步时间并不长,在实际应用中,还 有许多问题待于解决,如低速率语音混合问题,分组语音质量问 题,分组语音实现方案的合理性等问题。下面对这些问题分别进 行介绍。 首先是低速率语音混合问题。在人们的同常生活中,经常需 北方交通大学颂上学位论文 要多人对同一件事进行讨论,如果与会人员身处异地,在语音通 讯中就涉及到了语音混合问题。目前,应用较广的语音混合算法, 主要有“选大”和“线性叠加”两大类。“选大”算法是将需要 混合的几路语音信号按j 贞进行能量比较。( 不同格式的信号,其 帧的定义不同。) 然后,根据比较的结果,将能量最大的一路信 号从中选择出来,作为混合后的输出信号。“线性叠加”则是将 输入的几路语音信号按样点的幅值求和,从而获得混合的效果。 在标准速率( 指i t u t 建议g 7 1 1 规定的6 4 k b s p c m 格式 ( 下同) ) 的语音通信中,这两种算法以其延时小、复杂度低和 方便实用的优点,得到了广泛的应用。目前,这两种算法都有专 用的集成电路( a s i c ) 芯片可供选用。如m o t o r o l a 公司的 m c l 4 5 6 1 1 ( “选大”电路) 和m i t e l 公司的m t 8 9 2 4 ( “线性叠 加”电路) 。然而,实验表明,现有的a s i c 芯片的输出音质仍有 一些不理想的地方,其性能有待于进一步改进。 在“选大”算法中,由于每个时刻只有一路输入信号被选中, 故输出信号的幅值不会溢出,信噪比也不会降低,即输出信号的 音质是有保证的。然而,由于“选大”算法采取了“非此即彼” 的判决方法,如果输入话路中有多于一路的语音信号同时激活( 即 正在讲话) ,该算法就会造成“卡音”,即声音被“剪头去尾”。 这是算法本身的缺陷造成的,不改变算法,就无法从根本上解决 “卡音”问题。 “线性叠加”算法用样值相加的方法实现语音信号的线性叠 加。它对所有的输入信号“兼收并蓄”,故不存在“卡音”问题, 能够保证输入信号的完整,从而提供较好的舒适度和自然度。但 是,由于叠加后的信号动态范围有较大幅度的增加,有可能因为 信号幅值溢出,而造成声音失真。m t 8 9 2 4 芯片设置了一个专用 输出端,用以反映信号的溢出现象。根据其状态,用户可以判断 混合电路有无溢出,从而适当的调整输入信号的增益,控制溢出。 然而,这使得外围电路过于复杂,影响了该算法的实际应用。另 外,在集中管理的通信系统中,语音混合电路需要具有“多入多 出”的功能,即通过对输入的n 路语音信号进行有选择的混合, 获得n 路输出信号。而m t 8 9 2 4 只能提供“四入一出”的功能, 北方交通夫学坝i j 学位论文 这也限制了它的应用。 。 相对于标准速率的语音信号来说,在低速率语音通信中,语 音混合算法的延迟是影响通话质量的一个主要指标。目前,在低 速率语音通信中采用的语音混合算法主要是二次编解码算法。也 就是首先将输入的各路语音解码,恢复到压缩以前的状态,进行 线性叠加和自适应增益调整。叠加后的信号经过第二次压缩编 码,降低比特率,然后,再传输出去。 由于低速率语音编码算法复杂度高、延迟大,二次编解码的 过程,使得语音信号的单向系统延迟增加了一倍以上,降低了语 音信号的实时性,对通话质量有较为严重的影响。因而,妨碍了 低速率语音编码算法的推广应用。以1 t u t 最新颁布的语音压 缩标准g 7 2 3 1 声码器为例,其算法延迟为3 75 m s ,经过“桥接” 后,单向系统延迟将远大于7 5 m s ,如此高的延迟,对音质和舒适 度的影响是很严重的。即使是算法延迟相对较小的g 7 2 9 和 g 7 2 9 a 语音编码器,二次编解码对其音质的影响也是很明显的。 另外,现有的低速率声码器的算法复杂度均在1 0 m i p s 以上。 以性能较好的d s p 芯片为参考,g 7 2 9 的复杂度为2 0 m i p s , g 7 2 9 a 为1 0 5 m i p s ,g 7 2 3 1 的高速率版本为1 4 6 m i p s ,低速 率版本为1 6 m i p s 。在采用二次编解码的“多入多出”混合方案 中,( 假设输出语音为n 路,) 由于各个输出话路的内容是互不相 同的,混合电路的复杂度将高于单个声码器的n 倍。如此大的运 算量也是现有的d s p 芯片所难以完成的。 再者,无论应用于标准速率的语音信号,还是低速率语音信 号,线性叠加算法都存在着噪声累加问题。即由于每个话路中除 了语音信号之外,还存在有背景噪声信号。线性叠加算法输出的 混合信号很大程度上是噪声的累加,这使得输出信号的信噪比远 远低于输入信号。最后,混合后的语音信号会因为信噪比太低, 而令人无法接受。 综上所述,线性叠加算法如果应用于标准速率语音信号的混 合,需要考虑l 晤值溢出和噪声叠加问题。如果应用于低速率语音 信号的混合,则必须采取二次编解码算法。然而,二次编解码算 法显然不是低速率语音混合的最佳方案。 北方交通大学硕l 学位论文 以每个语音帧中的增益信息为参考对象,结合声音活性检测 ( v a d ) ,采用“选大”的算法,实现低速率语音混合是可行的。 这主要是因为,一方面,对电话谈话的有声期和无声期的统计结 果表明,每个人的讲话时间只占整个通话时间的4 2 左右【2 ; 另一方面,谈话过程中的自然礼让现象还会使上述的比例进一步 降低。这样,在实际应用中,两个以上的话路同时激活的概率是 很小的。因此,尽管采用“选大”的算法,会造成少量的“卡音”, 使通话质量有轻微的降低,但是,“选大”算法又可以大幅度降 低算法复杂度和处理延迟,从而有效地提高混合后的语音质量。 从总体上来看,“选大”算法对音质的影响是利大于弊的。 因此,马金明硕士在“选大”算法的基础上,提出了一种新 的低速率语音混合思路,即:利用压缩语音帧结构中有关增益信 息,直接判断各路语音能量的大小,从而实现语音混合。实践表 明,这种方法是可行的。但该算法还不成熟,在具体实践中,发 现存在着下述问题:马金明硕士只实现了一种压缩语音的混合, 而实际上与会各方可以采用不同的压缩语音,算法存在着一定的 局限性;由于采用逐帧比较,“卡音”现象比较严重。针对这些 问题,笔者做了大量的工作,改进了不足之处。在此基础之上, 提出了多种低速率语音的混合算法,真正实现了低速率语音混 合。 分组语音研究中的第二个难点问题是语音质量问题。在分组 语音中,延迟和抖动是造成语音质量下降的主要原因,这是因为 采用了分组交换机制,而分组交换采用的是“尽力而为”的服务 策略。当双方通过网络进行通讯时,语音包有可能通过不同的路 径到达受话方,后发包有可能先到,对于受话方理解语义造成影 响。其次,当某一个传输节点发生拥塞时,会造成语音包大量积 压,甚至于丢失,这同样会在受话方造成较长的延迟,由于话音 对时延敏感,因而造成通话断断续续,使得通话无法正常进行。 随着网络技术和计算机技术的发展,上述问题都已得到了一定程 度的缓解。例如在受话方加一个缓冲区,就可以很好的解决后发 先到的问题和丢包的问题。增大网络带宽,增加节点机运行速度, 就会降低拥塞的可能性,从而降低延迟。增加节点机缓冲的长度, 北方变通夫学颂i 学位论立 则可以防止由于丢包而带来的抖动,但是增加语声包的延迟。此 外,r s v p 等协议的问世,以及确立了语音包的优先服务等级等 措施,保证了网络带宽的合理负载和业务的正常开展。 第三个难点问题是分组语音实现方案的合理性。实现分组语 音的方案大致分为三类,一类是纯硬件实现,一类是纯软件实现, 还有一种是软硬件混合实现。纯硬件实现是利用微处理器和专用 d s p 芯片等设计一个内嵌式系统,语音的压缩、解压、打包、发 送和接收完全由硬件完成。其优点在于处理速度快,专用性强, 保密性好,其缺点在于,造价高,维护不便,不利于升级换代, 不能根据用户的不同需求灵活的进行调整。纯软件实现是指利用 微机声卡采集p c m 语音,而后利用计算机软件实现语音的压缩、 打包、解包、解压缩和发送等功能,从而实现分组语音通信,这 种实现方案的优点在于灵活性高,便于根据实际情况进行修改, 而且也能更改分组语音的速率。缺点在于大量占用c p u 资源和存 储器资源,难以同时开展其它类型业务,如数据会议、视频会议 等。对比了上诉两种方案的优缺点,现在大家一般采用一种折衷 的方案,即软硬件相配合的模式。具体的讲,就是将相对固定的 语音压缩算法利用专用d s p 实现,而将打包、传输等功能放到了 软件中实现,这种方案充分利用了前两种方案的优点,又避免了 它们的缺点。笔者也是采用这种模式设计实现了一种多速率分组 语音平台。 1 3 论文工作介绍及论文结构 由于分组语音存在着广泛的应用前景,吸引了我们研究室对 其进行研究开发。在仔细调研了目前分组语音的发展状况之后, 我们发现目前分组语音的应用主要集中在点到点通讯方面,如 i p p h o n e 和呼叫中心等,而对于点到多点、多点之间的业务开发 则显得力量不足。此外,分组语音产品是基于电信级,面向系统 经营商,运行维护费用高,技术复杂,不利于普通用户使用。 因而我们下决心设计开发一套基于普通p c 机、面向个人用 户和中小企业使用的分组语音平台,并且要解决点到多点、多点 之间的通信问题。在此基础之上,还要刀:发一些实际的应用,以 北方交通大学坝j 学位沦文 期收到科研和效益双重效果。 由于网上传输的语音一般是经过压缩处理,因而在研发过程 中,首先需要解决的就是低速率语声混合问题。其次是分组语音 平台的具体实现方案问题。笔者对这些问题进行了深入的探讨和 研究,并提出了自己的解决方案。 其一,针对低速率语音混合问题,在马金明硕士所提出的“基 于帧间能量并结合v a d 监测的能量选大”混合算法的基础之上, 笔者对其进行了改进。改进之处在于:原来算法对于v a d 的利 用只是简化了帧能量的计算,笔者认为,利用v a d 可以判决是 否一个人一句话说完,即通过判决当前帧之后,连续多少帧是静 默帧,判决一个人的发言情况,从而在很大程度上避免了将发言 人的话打断。从而提高了话音质量。在此基础之上,笔者具体提 出并实现了基于g 7 2 9 a 压缩语音标准的多路语音混合,实践表 明,语音混合质量达到了实用的要求。 其二,笔者还提出了利用选大算法实现多种低速率语音混合 的算法,简单的说,该算法的思想是:利用同幅度的波形进行录 音,而后按照不同的压缩标准压缩成不同的声音文件,比较其中 帧结构中有关增益参数之间的关系,从而建立不同速率语音增益 参数之间的对应关系,这样不同低速率的语音之间也可以直接在 帧结构中进行能量比较,从而实现了选大混合算法,真正实现了 多标准压缩算法语音信号的混合。在这里需要注意的问题是,由 于不同压缩标准的语声帧长度不同,如果需要进行比较,需要在 相同的时间片内进行比较,该时间片的长度因该大于最长的帧结 构,并且是最短帧结构的整数倍。如g 7 2 9 a 和g 7 2 3 1 混合时, 时间片长度取6 0 m s 比较合适。笔者论文的工作重点就集中在低 速率语声混合问题上,在第二章介绍了有关g 7 2 9 协议及其附录 v a d 检测等内容之后,低速率语声混合算法的具体实现将在论 文的第三章中进行讨论。 其三,笔者动手设计并实现了一种多速率分组语音平台。这 个名称包含了两层含义,一方面,该平台可以实现多种速率的语 音,适用于各种应用;另一方面,该平台是为网上应用而开发的, 在设计时就考虑到了网上应用的各种特点,对平台进行了优化设 北方交通大学坝卜学位论文 计,使之适用于网络环境。 该平台基于p c 机和w i n d o w s 操作系统,有软件平台和硬 件平台两部分构成,硬件平台主要完成多种速率语声的压缩、解 压;提供对专用d s p 芯片和模拟话音输入输出接口电路的控制 及状态接收;可完成全双工状态下,各种电平模拟语音到多种速 率语声的处理和反向处理。该平台采用了目前广泛采用的可编程 逻辑器件( e p l d ) 和超高速集成电路硬件描述语言( v h d l ) 等e d a 设计工具和方法进行设计,便于升级更新,且体积小, 使用灵活方便。 软件平台主要由w i n d o w s 下的驱动程序构成,由于在 w i n d o w s 操作系统下,上层应用软件不能直接控制操作底层硬 件,必须借助于驱动程序。在驱动程序的帮助之下,上层应用软 件才能对硬件发送各种控制命令,接收或发送语音数据。由于很 少涉及驱动程序设计这个领域,因而在开发过程中碰到了很多问 题,也积累了一些经验,在后面的章节中将会详细介绍到这些内 容。第四章和第五章主要介绍了有关该平台的内容。 目前,笔者所设计的分组语音平台已经被用于建立网上可视 会议系统,结合语音混合算法,取得了良好的效果,在铁道部科 技司组织的鉴定会上,获得了专家的一致好评。其实该平台的应 用还远不止于此,在i p p h o n e 、客户服务中心、留言系统、自动 售票系统和网上商务等多种应用中都大有用武之地。笔者就在该 平台之上,开发了一些应用。 其四,在前面介绍的分组语音平台基础上,笔者利用v c 语 言编程实现了一些应用。如语音邮件、会议语音记录下载和呼叫 中心等。第六章中介绍了有关内容。 北方交通大学琐l 一学位论文 第二章低速率语音编码算法 和静默压缩方案 2 1 概述 语音编码是指在传输和存储时降低描述数字语音的比特率, 而又使语音音质在应用中能被接受的处理过程。 自从1 9 3 9 年美国贝尔实验室的h d u l e y 发明了世界上第一个 声码器( v o c o d e r ) 以来,人们已经研究出各种各样的声码器系 统,如通道声码器、相位声码器、共振峰声码器、图样匹配声码 器和同态声码器等。其中,线性预测声码器是迄今为止最成功的, 也是应用最为广泛的声码器。目前,几乎所有的世界性或区域性 语音编码标准都属于线性预测分析与合成编码器的类型。这一 类编码器包括i i u t 建议g 7 2 3 1 、g 7 2 8 、g 7 2 9 、g 7 2 9 a 以及 当前所有的数字蜂窝标准。尽管,每个编码器的具体细节有所不 同,但它们的基本原理都是基于线性预测分析与合成技术。 为了能够寻求一种新的解决低速率语声混合的方法,我们需 要对线性预测分析和合成等低速率压缩语声原理进行分析,以期 从中发现突破点。 2 2 线性预测声码器的基本原理 根据人体发声器官的工作原理,语音信号的产生过程可以用 一个离散时域模型来表示( 图2 1 ) 。它包括三个组成部分:激 励源、声道模型和辐射模型。激励源模拟发声器官的声门特性, 声道模型模拟发声器官的声道特性,辐射模型则反映声道气流通 过唇端向外辐射时,受到的类似高通滤波的处理过程 1 2 。 浊音和清音的激励信号有很大的差别,前者为周期性脉冲序 列,后者为随机自噪声过程,而在浊音和清音的过渡阶段则两者 兼而有之f 】3 】。图2 】中,激励信号e ( ”) = a 矿( ”) + 4 ,u ( ”) , 北方变通人学倾l 学位睑文 能较好地反映各种情况下激励信号的变化:发清音时,a v = 0 , 发浊音时,a u = 0 ,在浊音和清音的过渡阶段 a u 图2 1 语音信号产生的离散时域模型 i j a v 、a u 均不为零。严格地说,声道模型应该是一个零极点模 型。但为了简化算法,降低声码器的复杂度,通常用全极点模型 取而代之: tp 矿( z ) = 1 q z , ( = l ,a , n g 数) ,i = o 实践证明,这样做对合成语音音质影响不大。 人体发声是一个非常复杂的生理和物理过程。在上述的离散 时域模型中,激励信号e ( n ) 和声道参数( i = 0 ,p ) 都是随时 间变化的。但是,语音信号具有短时平稳性,在一段较短的时间 间隔( 通常为1 0 m s 一3 0 m s ) 内,可以认为声道参数q ( f _ 0 ,p ) 是非时变的 1 4 1 。这样,在一个语音帧( 1 0 m s 3 0 m s ) 中,就可 以把声道参数珥( i = 0 ,p ) 当作常数来处理。根据对合成语音质 量的具体要求,通常耿p = 1 0 。基于上述假设,依据一定的失真 评价准则,( 通常采用最小均方误差准则( m s e ) ,) 就可以 计算出激励信号e ( n ) 、声道参数( f _ 0 ,p ) 和线性预测剩余 北方交通火学顾士学位论文 信号,( ”) 。接收端的解码器利用接收到的e ( n ) 、q ( f = 0 ,p ) 和r ( n ) ,就可以重构语音信号。但通常并不直接传输激励信号 e ( n ) 和声道参数啦( i = 0 ,- ,p ) ,原因是预测系数q ( i = 0 ,p ) 量 化特性较差,且发生信道误码时,容易造成系统不稳定。( 系统 稳定的充要条件是l q i 1 ( i = 0 ,p ) 。) 可以证明,传输函数 v ( z ) 的极点都在单位园上。 ,p v ( z ) = l a ,z “ ,i = 0 将矿( z ) 所有极点( 除+ l 和一1 外) 的幅角经量化后传输出 去,既可以保证系统稳定,又降低了比特率。这就是常用的线谱 对( l s p ) 变换。激励信号v ( n ) 、u ( n ) 及其振幅a v 、a 。也都经 过矢量量化( v q ) ,再传输出去。尽管量化的方法和准则不同, 但目的都是为了降低比特率 1 7 。 2 38 k b s 速率的低延时语音压缩算法 g 7 2 9 和g 7 2 9 a i t u t 建议g 7 2 9 最初是为无线应用设计的语音压缩编码 算法,但也可以应用于多媒体通讯。g 7 2 9 建议的附录a 算法是 c s - c e l p 的一个低复杂度版本。它针对于低比特率多媒体通信普 遍存在的语音、数据同传而设计。g 7 2 9 a 是可与g 7 2 9 进行互操 作的比特码流:即用g 7 2 9 a 编码的语音可以用g 7 2 9 进行解码, 反之亦然。如果与其专门的静默压缩方案g 7 2 9a n n e xb 配合使用,其平均传输速率还可以进一步低于8 k b s 的水平。主 观测试表明,3 2 k b s 的速率时,g 7 2 9 a 的性能在多数操作环境中 等嗣于g 7 2 9 和g 7 2 6 ,m o s 达到了3 6 1 分:不过在三级级联而 北方交姬人学坝卜学位论文 且有背景噪音的情况下,其性能要略差一些 1 8 】。因而,在多种 多媒体通信领域,g 7 2 9 a 声码器也得到了广泛的应用。 g 7 2 9 a 语音编码算法同g 7 2 9 算法相同,采用了共模结构代 数码激励线性预测( c s a c e l p ) 的编码概念。主要由预处理、短时 线性预测分析及量化、感觉加权、自适应码本的生成及搜索、固 定码本搜索、自适应及固定码本增益量化和滤波器的更新七个部 分组成 1 5 】。下面首先介绍g 7 2 9 算法,然后介绍g 7 2 9 a 的改进 之处。 2 3 1 编码器 编码原理见图2 2 。在预处理模块中输入信号被高通滤波量 化。预处理过的信号作为所有后续分析的输入信号。每个1 0 m s 的帧一旦经过计算机计算出低通滤波器1 a ( z ) 的系数后就要依 次进行1 0 个线性预测分析。这些系数被反转成对称谱线并利用 两段1 8 比特的预测量化矢量进行量化,然后一个分析合成搜索程 序选出激励信号。此程序可根据感觉加权失真测度将原话音信号 与恢复的话音信号间的误差最小化。此功能的完成是借助一个感 觉加权滤波器滤除误差信号实现的,不同于g 7 2 9 ,这种滤波器的 系数是从低通量化滤波器演绎出来的,并且采用了形式为 ( z ) =:三呈兰兰! 的加权滤波器。 1 + 7 2 叩“ 激励参数( 固定的和自适应的码本参数) 由每个5 m s 的子帧 ( 4 0 个样点) 决定,量化低通滤波器的系数由第二个子帧决定, 而补差低通滤波器的系数由第一个子帧决定。由感觉加权和低通 滤波语音信号组成的1 0 m s 的帧建立一个丌环基音延迟,然后每 个子帧重复此操作。通过用加权合成滤波器 爿( 形。) 1 + yy 1 口,z 1 w ( z ) = 之乒= 二二一对l p 残余进行滤波来计算目标信 彳( 形) 1 + 乏:,2 a ,:1 ,i 一 号x ( n ) ,然后计算子帧尾部的加权误差信号以修改此滤波器的初 始状态。这等同于般的从加权的语音信号中减去加权合成滤波 2 北方变通大学坝上学位论文 l p c 信息 图2 2g 7 2 9 编码器原理框图 器的零输入响应。加权合成滤波器的脉冲响应h ( n ) 是由计算机计 算出来的。然后利用目标信号x ( n ) 和脉冲响应h ( n ) 通过搜索开环 基音延迟来完成闭环基音分析( 搜索自适应码本的延迟和增益) 。 带1 3 决议的部分基音延迟被采用。第一个子帧用8 比特对基音 延迟编码,第二个子l 帧用另外不同的5 个比特对其编码。通过减 去( 滤波后的) 自适应码本贡献修改目标x ( n ) ,而且新的目标 北方交通大学f 砚卜学位论文 填 ) = x ( n ) 一g p y ( n ) = o 3 9 被用于固定码本寻找最优激 励。一个1 7 比特的代数码本被用作固定码本激励。自适应和固 定码本贡献增益是7 比特的量化矢量( 带有用于固定码本增益的 移动平均预测) 。最后用决定了的信号修改滤波器的存储器。 2 3 2 解码器 图23 g7 2 9 斛码器原理框图 解码器原理如图2 3 所示。首先,从接收到的比特码流中提 取出参数索引,这些索引被解码以得到有关1 0 m s 语音帧信号中 的编码参数。这些参数是l s p 系数、两个分数基音延迟、两个固 定码本矢量、两个自适应和固定码本增益的集合。在每个子;帧对 【。s p 系数内插,转换成l p 滤波系数。然后对每个5 m s 的子帧做 北方交通大学倾卜学位论文 入一p 几步: 增加由各自增益刻度的自适应和固定码本矢量以建立激 励。 用l p 合成滤波器滤除激励以恢复模拟话音。 $ 恢复的模拟话音信号通过后置处理阶段。包括一个基于长 期和短期合成滤波器的自适应后噩滤波器,随后是一个高通滤波 器和刻度操作。 2 3 3 g 7 2 9 a 算法更改 由于g7 2 9 算法复杂度比较高,以t m s3 2 0 c 5 x 为例,达到 了2 2 3 m i p s ,为了进一步降低算法复杂度,使之实现更为简便, i t u t 推出了g 7 2 9 a 协议。其中,l p 分析与量化过程以及自适 应和固定码本的量化节点与g 7 2 9 4 6 一样。对g 7 2 9 算法的 主要更改总结如下: 感觉加权滤波器采用量化l p 滤波器的参数,并由式 ( z ) = 爿( z ) a ( z g ) 给出,其中y = o 7 5 。 木计算相关加权语音时采用批处理方式简化开环增益分析。 $ 用1 4 ( z r ) 代替w ( z ) a ( z ) 以使计算加权滤波器 v ( z ) 2 t ( z ) 的冲激响应、目标信号和修改滤波器的状态简化。 $ 简化自适应码本的查询。此查询使后面的激励与后面滤波 过的目标信号之间的相关最大化( 被滤掉的后激励的能量不考 虑) 。 简化固定代数码本的查询。 解码器用整数延迟简化调谐后置滤波器。 经过更改,大大降低了算法的运算量,以在芯片t i t m s 3 2 0 c 5 0d s p 上执行g 7 2 9 和g 7 2 9 a 为例:g 7 2 9 a 的全 双工编解码算法要求1 2 4 m i p s ,而g 7 2 9 要求2 2 3 m i p s 。 2 4 进一步降低平均比特率的措施 静默压缩方案 众所周知,人们在交谈时,除了表述自己的观点之外,还在 不停地停顿、等待和倾听对方的意见。这样一来,每一路语音码 北方交通火学坝j j 学位论文 流中都存在着大量的“空白”时间,即只包含背景噪声的间歇时 间。统计表明,在电话信道上,平均起来大约只有4 0 的时间 存在激活的话音,而其他6 0 的时间被浪费掉了。为了进一步 利用这6 0 的闲散时间,人们从技术上提出了很多改进方案, 如模拟信道中的时间分配话音插空( t a s i ) 和数字信道中的数字 话音插空( d s i ) 等方案。所有这些技术的应用,对提高信道利 用率,降低通话成本,发挥了很大的作用。 在低速率 多媒体通信 中,信道容量 一直是一个“瓶 颈”。为了在 现有的公用电 话网( p s t n ) 上传输包括图 象、数据和话 音的多媒体可 图2 4 静默压缩方案方框图 视电话,人们在图象和语音信号的数据压缩方面做了不懈的努 力。而针对各种低速率声码器的静默压缩方案,就是其中的一项 卓有成效的措施。i t u t 在其近期公布的低速率语音压缩标准 中,都附加了一个静默压缩方案,以实现语音信号的间断传输 ( d t x 。d i s c o n t i n u e dt r a n s m i s s i o n ) ,进一步降低平均比特率, 提高信道使用效率。根据上述统计结果,考虑到间断传输( d t x ) 中的系统开销,估计话音的平均激活时间在通话时间中所占的比 例相对较低。以g 7 2 9 a 为例,采用静默压缩方案后,语音信号 的平均比特率将小于8 k b s 。 如图2 4 中虚线方框内的部分所示,静默压缩方案主要由声 音活性检测( v a d ) 算法和舒适噪声生成( c n g ) 算法组成 1 6 。 其中v a d 算法由于检测输入语音的状态是否激活,c n g 算法则 在输入语音处于非激活状态时,提取发送端的背景噪声信息,以 非常低的比特率传输出去,用于接收端的背景噪声重构。 v a d 算法通过计算输入语音的激励序列的能量、过零率和 北方交通大学坝l 学位论文 反射系数等指标来判断当前输入语音序列的状态。通常背景噪声 的能量远远小于语音信号的能量,因此,能量指标是判断语音信 号是否激活的一个主要指标。由于背景噪声的能量较小,且其过 零率与激活的语音信号差异很大。以自适应的方式不断修改噪声 能量门限,配合以过零率和反射系数等指标,通常v a d 算法的 判决准确率可以达到9 7 以上 1 4 。 v a d 算法与c n g 算法相辅相成,协同工作。c n g 电路根据 v a d 电路提供的声音激活状态信息,进行背景噪声信息的提取。 而v a d 电路在计算输入语音的激励能量时,则需要使用c n g 电 路提供的滤波器参数。 根据输入语音的状态变化情况,v a d 算法对当前的语音帧 给出三种判决结果:激活帧( a c t i v a t e d ) 、噪声插入描述器帧 ( s i l e n c ei n s e r t i o nd e s c r i p t o r ) 和空白帧( u n t r a n s m i t t e d ) 。 如果当前帧为激活帧,复用电路将编码器产生的语音信息传送到 接收端。若当前帧处于无话音时间的开始位置,或者处于无话音 时间的中间位置,但此时背景噪声发生了较大的变化时,则属于 噪声插入描述器帧,复用器传输c n g 电路产生的s i d 信息。如果 当前帧处于无话音时间的中间位置,并且背景噪声未发生显著变 化,则其类型为空白帧。 在实际应用中,g 7 2 9 每一个语音帧中均包含一个字节包含 有关d t x 信息,用以表示当前帧的类型。 2 5 本章小结 尽管线性叠加算法可以将输入的各路语音信息叠加到一路语 音信号中输出,从而避免混合过程中的信息丢失。但是,这种混 合方法的适用对象是集中式的会议模式,即存在一个中心设备: m c u ,在m c u 处实现各路语声的混合,并发送到各个终端,如 图2 5 所示。而分组语音使用在网络环境之下,网络环境是典型 的分布式结构,不利于采用传统集中式语声混合方法,如图2 6 所示。特别对于低速率语音信号,线性叠加算法是通过二次编解 码来实现的。也就是说,在低速率语音信号的混合电路中,采用 线性叠加算法,就必须采用二次编解码方案。第一章的讨论已经 北方交通人学i k l :学位论文 说明,二次编解码方案复杂度高,并且延迟大。因而,成本高, 音质差,实用价值低。故有必要采用其它适合网络实际情况的算 法实现低速率语音信号的混合。 图2 5 集中式会议系统 针对上述情况,结合前面对人体发声器官的线性预测模型和 低速率语音压缩算法的分析,笔者认为以激励信号的能量为比较 对象,采用“选大”的方法,实现低速率语音信号的混合是切实 可行的。一方面,第一章的讨论表明,“选大”算法对低速率语 音混合来说,利大于弊。另一方面,从人体发声器官的生理结构 来看,其线性预测模型中的声道部分和辐射部分是两个无源器 件,即声门激励的能量在经过声道和唇端辐射时,能量不会受到 放大。故可以认为,语音信号的能量主要由声门发出的激励信号 的能量决定。由于低速率语音信号中的增益( 包括自适应码本的 北方交通大学硼7 l :学位论文 增益和固定码本的增益) 信息正是反映了声门激励信号的能量, 各路低速率语音信号中激励信息的能量之间的比较,能够比较准 确的反映实际的语音能量之问的相互关系。这样,就可以不解码 而直接对低速率语音信号的码流进行比较“选大”,从而,简化 算法,缩短延迟,提高音质。 从v a d 技术发展的历史背景来看,其主要目的是通过间断 传输,进一步降低比特率,提高信道使用效率。然而,笔者通过 分析语音信号的统计特性署1 v a d 算法的基本原理,认为把v a d 算法应用到低速率语音混合算法中来,是非常有意义的。因为, 为保证每一个发言人完整清楚的表达自己的思想,尽量不被随意 的打断,以及自然礼让等原因,人们在交谈中,多个人同时发言 的情况是很少见的,通过电话交谈则更是如此。因而,在进行语 音混合时,可以首先利用v a d 算法判断是否只有一路语音激活。 如果只有一路语音激活,直接将激活的话路选择出来,就已经达 到混合的目的。如果激活的语音多于一路,则需要利用上述的基 于激励序列能量比较的“选大”算法,进行进一步的选择。此外, 还可以利用v a d 判决当前激活话路是否已经讲话完毕,从而在 一定程度上降低了卡音现象的发生。 在下面的第三章中,笔者以g 7 2 9 压缩算法为基础,利用v a d 技术和基于激励信号能量比较的“选大”算法,实现了多路输入 的低速率语音信号的混合,在本实验室开发的实际工程的应用 中,取得了令人满意的效果。此外,在充分挖掘g 7 2 9 和g 7 2 3 1 增益参数的基础上,发现了两者之间存在着一定的对应关系,从 而为g 7 2 9 和g 7 2 3 1 之间的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论