（信号与信息处理专业论文）高速率数字语音混合算法的研究与实现.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：85 大小：2.77MB 积分：0 举报 版权申诉

已阅读5页，还剩80页未读，继续免费阅读

（信号与信息处理专业论文）高速率数字语音混合算法的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 i 信息社会中，人们对获取信息的数量和质量的要求不断的提高。网络的迅猛发展使其日益成为人们获取信息，相互交流的重要手段。综合了声音、图像和数据等多种传输媒体的多媒体通信系统，充分利用人的各种感官，实现最生动、最直接、最有效的信息交流。作为国家计委“九五”科技攻关项目“可视化通信平台的研制与实施”的一个重要组成部分。j 本文工作主要集中于多媒体通信系统中语音混合算法的研究与实现。本文的工作主要体现在如下几个方面：第一、对语音混合算法进行了研究，尤其是对高速率语音混合算法进行了深入的研究，分析了线性叠加算法存在的一些问题，对改进的结果从时域和频域的角度，对单一频率混合，语音混合的仿真结果做了分析，得出了较为客观的结论。在此基础上完善并实现了高速率语音编码样点交织混合算法。附混合的结果和线性叠加混合的仿真结果做了时域和频域的分析和比较，从波形分析和主观感觉上得到的结果都证明了这一算法的优越性。一一第二、在软件仿真的基础上，独立开发了语音混合的硬件板卡。利用“硬件软化”的设计模式，和“模块化”的设计方法，采用先进的e p l d 技术实现了算法和各种控制。共完成了l5 个功能模块的设计。系统具有很高的可扩展性和可重用性o ) - “，第三、在此基础上开发了基于w i n d o w s 9 x 的软件，包括虚拟设备驱动程序( v x d ) 和接口程序。使主机能够在 w i n d o w s 9 x 环境下和硬件板卡进行数据通信。 a b s t r a c t i ni n f o r m a t i o ns o c i e t y ，p e o p l em o r ea n dm o r ea s p i r e l a r g e a m o u n to fh i g hq u a l i t yi n f o r m a t i o n f o l l o w i n gt h e r a p i dd e v e l o p m e n to fn e t w o r k ，p e o p l em o r ea n dm o r eu s e n e t w or kt o g e t i n f o r m a t i o na n dc o m m u n i c a t ew i t he a c h o t h e r t h es y s t e mo fm u l t i m e d i ac o m m u i l i c a t i o ni n t e g r a t e m a n y tr a n s m iss i o nm e d i u ms u c ha sv o i c e ，i m a g e ，d a t aa n d s oo n i t i m p l e m e n tt h em o s t v i v i d ，d i r e c ta n de f f i c i e n t i n f or m a t i o ne x c h a n g eb ym a k i n gf u l lu s eo ft h es e n s eo f m a n k i n d a sa n i m p o r t a n t p a r t o f “t h er e s e a r c ha n dt h e i m p l e m e n t a t i o n o ft h ev is h a l i z e dt e l e c o m m a n i c a t i o n p l a t f o r m ”，w h i c h isak e yp r o je c to fn a t i o n a lp l a n n i n g c o m m i t t e ei nt h e9 t hf i v e y e a rp l a n ，m yw o r kisf o c u s e do n t h er e s e a r c ha n di m p l e m e n t a t i o n0 ft h ea u d i om i x i n gi nt h e s y s t e mo fm u l t i m e d i ac o m m u n i c a t i o n w h a tih a v ed o n ea r ef o c u s e do nt h r e ea s p e c t s ： 1 ih a v e d o n es o m er e s e a r c ho nt h ea r i t h m e t i co fa u d i o m i x i n g e s p e c i a l l yd o i n g r e s e a r c ho nt h ea u d i o m i x i n go fh i g h r a t ev o i c e ，ia n a l y z e dt h ee x is t i n g p r o b l e mo fu s i n gt h el i n e a ra c c u m u l a t i o na l g o r i t h m t o m i x i n g a u d i o s i g n a l f u r t h e r m o r ed o i n gs o m e i m p r o v e m e n ti nt h e a l g o r i t h m ，ia n a l y z e d a n d c o m p a r e d t h es i m u l a t i o nr e s u l tf r o m f r e q u e n c y f i e l da n dt i m ef i e l d ，a n d g e t s o m e w h a to b je c t i v e c o n c l u s i o n s b a s i n g t h ew o r kd o n eb e f o r e ，i p u t f or w a r dt h e a l g o r i t h m o f s a m p l ei n t e r l e a v i n g t h r o u g hc o m p a r i n ga n da n a l y z i n gt h e s i m u l a t i o n r e s u l tw i t ht h er e s u l to fu s i n gl i n e a ra c c u m u l a t i o n a l g o r i t h m f r o m f r e q u e n c y f i e l da n dt i m e f i e l d ，i p r o v e dt h es u p e r i or i t y o ft h ea l g o r i t h mo fs a m p l e i l i n t e r l e a v i n gf r o mw a v e f o r ma n ds u b ie c t i v es e n s e 2 b a s i n g o nt h es i m u l a t i o no f s o f t w a r e ， i i n d e p e n d e n t l yd e v e i o p e dt h eh a r d w a r ep 1 a t f o r mo f a u d i om i x i n g b e c a u s eo fa p p l y i n gt h et e c h n o l o g y o fe p l d ，m ys y s t e mh a s h i g hp e r f o r m a n c ei nt h e a b i l i t yo fe x t e n s i o na n dr e u s e 3 f orf u r t h eru s ed e v e l o p m e n t ，i d e s i g n e d s o f t w a r e p l a t f o r mb a s e do nw i n d o w s9 x s o f t w a r e p l a t f o r m i n c l u d esd r i v e t ( v x d ) a n di n t er f a c es o f t w a r e i t m a k et h eh os tc a nc o n t r 0 1a n d e x c h a n g et h e d a t a w i t ht h ec i r e u i tb o a r d i i i 北方交通大学硕士学位论文第一章概述 1 i 研究语声混合的意义语言是人类为了相互了解、统一意志、协调行动，进行社会生产、生活而创造的一套音义结合的符号系统，是人类特有的、具有多种功能的交际工具，是人类区别于其他动物的一个根本特征。它不仅具有交际的功能、思维的功能，还具有传递信息、表达思想和认识世界的功能 i 。在人们的日常生活中，有大量的信息是以语言的形式传播的。语言是人们交流思想、传播信息的一种最为直接、有效、方便、快捷的方式。今天，在这个高度发达的信息社会中，用数字化的方法进行语声信号的存储、传送、识别、合成和增强等处理，是整个数字化通信网的最重要的组成部分之一，数字化的语声信号在各种网络的流量中占有相当大的比重，并且还在不断增加。尤其是在多媒体通信系统中，语声信息作为最主要的信息载体，占有极其重要的地位，不包含语声信息的多媒体通信是不可想象的。随着网络应用的普及和网络技术的发展，各种各样的信息网络为人们的日常生活和学习、工作提供了数不清的便利条件，对整个社会的牛产、牛活产生了巨大的影。近年来基于i p 网络的多媒体通信的需求也在急速膨胀，基于l p 的多媒体通信的应用得到了蓬勃的发展。使得人们对网络通信的依赖性越来越强。多媒体会议作为网络通信的一种重要形式，以其实时、高效、直观、方便的特点，受到人们越来越多的重视，得到了迅速的普及和发展。在多媒体会议中，要求参与通信的各方，必须实时、高效、方便、舒适地进行语言交流。要做到这一点，一方面要有优质高效的语声信号压缩技术，以尽可能少的传输带宽，传递音质优美的语声信号；另一方面，还必须有切实可行的语声混合技术，使得远在不同城市，甚至是不同国家的参与通信的各方，都能够身临其境地进行实时的语言交流。这就对语声混合技术，提出 1 北方交通大学硕十学位论文了更高的要求。没有语音混合的功能就不能叫作真正的多媒体会议。而对于目前发展的网络多媒体的应用，语音混合技术还远远不能达到人们的要求，这要求我们对语音混合技术做更加深入的研究，提出实际可行的解决方案，满足人们日益提高的对语音质量的要求。 1 2 语声混合的现状和难点目前广泛使用的语音信号编码标准主要分为波形编码和参数编码。应用较广的语声混合算法，主要有“线性叠加”和“选大”两大类。 “选大”算法是将需要混合的几路语声信号按帧进行能量比较。 ( 不同格式的信号，其帧的定义不同。) 然后，根据比较的结果，将能量最大的一路信号从中选择出来，作为混合后的输出信号。“线性叠加” 则是将输入的几路语声信号按样点的幅值求和，从而获得混合的效果。在标准速率( 指i t u t 建议g 7 1 1 规定的6 4 k b s p c m 格式( 下同) ) 的语声通信中，这两种算法以其延时小、复杂度低和方便实用的优点，得到了广泛的应用。目前，这两种算法都有专用的集成电路( a s i c ) 芯片可供选用。如m o t o r o l a 公司的m c l 4 5 6 1 1 ( “选大”电路) 和m i t e l 公司的m t 8 9 2 4 ( “线性叠加”电路) 。然而，实验表明，现有的a s i c 芯片的输出音质仍有一些不理想的地方，其性能有待于进一步改进。在“选大”算法中，由于每个时刻只有一路输入信号被选中，故输出信号的幅值不会溢出，信噪比也不会因为噪声的叠加而降低，输出信号的音质是有保证的。因此，马金明硕士在“选大”算法的基础上，提出了一种新的低速率语音混合的方案，利用压缩语音帧结构中有关增益信息，直接判断各路语音能量的大小，逐帧的进行比较来选大来实现语音混合。然而，由于“选大”算法采取了“非此即彼”的判决方法，如果输入话路中有多于一路的语声信号同时处于活动状态 ( 即正在讲话) ，该算法就会造成“卡音”，即声音被“剪头去尾”。王黎炜硕士在此基础上做了改进，他基于对电话谈话的有声期和无声期的统计结果，即每个人的讲话时间只占整个通话时间的4 2 左右 2 ：而且，谈话过程中的自然礼让现象还会使上述的比例进一步降低 2 北方交通大学硕士学位论文的这一事实。在“选大”算法中引入了v a d ( 声音活性检测) 技术。他的方案不是进行逐帧的比较来选大，而是在进行语音混合时，首先利用 c a d 算法判断是否只有一路语音激活。如果只有一路语音激活，直接将激活的话路选择出来，如果激活的语音多于一路，则利用基于激励序列能量比较的“选大”算法，进行进一步的选择。此外，还可以利用v a d 半4 j 决当前激活话路是否已经讲话完毕。在实际应用中，两个以上话路同时激活的概率不是很大，从而这种方案在一定程度上降低了“卡音”现象的发生。但是“卡音”现象是“选大”算法本身的缺陷造成的，不从根本上改变算法，就无法完全解决“卡音”问题。 “线性叠加”算法用样值相加的方法实现语声信号的线性叠加。它包括了所有的输入信号的信息，故不存在“卡音”问题，能够保证输入信号的完整，从而提供较好的舒适度和自然度。但是，它同样有自身的问题，由于几路信号叠加后的信号动态范围有较大幅度的增加，有可能因为信号幅值溢出，而造成声音失真。而且混合的路数越多溢出的几率越大。m t 8 9 2 4 芯片设置了一个专用输出端，用以反映信号的溢出现象。根据其状态，用户可以判断混合电路有无溢出，从而适当的调整输入信号的增益，控制溢出。然而，这使得外围电路过于复杂，影响了该算法的实际应用。另外，在集中管理的通信系统中，语声混合电路需要具有“多入多出”的功能，即通过对输入的n 路语声信号进行有选择的混合，获得n 路输出信号。而m t 8 9 2 4 只能提供“四入一出” 的功能，这也限制了它的应用。线性叠加算法的一个无法避免的问题是它会将会带来n 路的噪声叠加。无论应用于标准速率的语音信号，还是低速率语音信号，线性叠加算法都存在着噪声累加问题。由于每个话路中除了语音信号之外，不可避免的还会存在背景噪声信号。而且每个话路中语声激活的时间相对较少，( 只有总的通话时间的三分之一左右，) 线性叠加算法输出的混合信号的能量很大程度上是累加的噪声，这使得混合语声输出信号的信噪比远远低于输入信号。如果几路语声不是在背景安静的情况下，尤其当n 的数量较大时，混合的效果令人无法接受。这也大大限制了线性叠加算法的应用范围。相对于标准速率的语声信号来说，在低速率语声通信中，语声混合算法的延迟是影响通话质量的一个主要指标。目前，在低速率语声通信中采用的语声混合算法主要是二次编解码算法。也就是首先将输入的各路语声解码，恢复到压缩以前的状态，进行线性叠加和自适应 3 北方交通火学硕士学位论文增益调整。叠加后的信号经过第二次压缩编码，降低比特率，然后，再传输出去。由于低速率语声编码算法复杂度高、延迟大，二次编解码的过程，使得语声信号的单向系统延迟增加了一倍以上，降低了语声信号的实时性，对语声质量有较为严重的影响。因而，妨碍了低速率语声编码算法的推广应用。以i t u t 最新颁布的语声压缩标准g 7 2 3 1 声码器为例，其算法延迟为3 7 5 m s ，经过“桥接”后，单向系统延迟将远大于 7 5 m s ，如此高的延迟，对音质和舒适度的影响是很严重的。即使是算法延迟相对较小的g 7 2 9 和g 7 2 9 a 语声编码器，二次编解码对其音质的影响也是很明显的。另外，现有的低速率声码器的算法复杂度均在1 0 m i p s 以上。以性能较好的d s p 芯片为参考，g 7 2 9 的复杂度为2 0 t i p s ，g 7 2 9 a 为 1 0 5 m i p s ，g 7 2 3 1 的高速率版本为1 4 6 m i p s ，低速率版本为1 6 m i p s 。在采用二次编解码的“多入多出”混合方案中，( 假设输出语声为n 路，) 由于各个输出话路的内容是互不相同的，混合电路的复杂度将高于单个声码器的n 倍。这对d s p 芯片的运算速度提出了很高的要求。综上所述，线性叠加算法如果应用于标准速率语声信号的混合，需要考虑幅值溢出和噪声叠加问题。如果应用于低速率语声信号的混合，则必须采取二次编解码算法。然而，二次编解码算法显然不是低速率语声混合的最佳方案。由此可见“选大”和“线性叠加”这两种算法都存在自身无法克服的缺陷，尽管在算法上的一些改进可以在某些情况下不同程度的克服这些缺陷，但都是治标不治本的。需要有更新的算法来解决这些问题。 1 3 论文的工作和结构 1 3 1 论文工作的介绍针对如上所述的语音混合中的一些难点问题，笔者在前人的基础上做了进一步的研究，对“线性叠加”算法提出了一些改进方案，并对高速率的语音混合实现了一种新的算法“样点交织算法”。 1 、对“线性叠加”算法的溢出问题提出的几种改进方案 4 北方交通大学硕士学位论文笔者在对大量语音波形观察的基础上，提出了几种对溢出的改进方案，并通过c 语言的仿真得到了相应的波形文件，通过对波形文件的时域和频域的波形分析了各种改进的效果。 2 、实现了基于“样点交织算法”的语音混合的平台笔者在硬件方面的主要工作是利用e p l d 技术完成了对“样点交织算法”的实现和对外围电路的控制。e p l d 技术是硬件软化思想的一个具体的体现，是目前最为先进数字电路设计技术之一，是现代电路的设计发展的趋势，它可以将以前需要很多逻辑器件才能完成的工作集成到一块芯片中完成，该技术的使用克服了分离电子元件设计繁琐，修改、优化不方便，占用面积大，调试必需全部要在电路板上完成等缺点，缩短了丌发的周期，提高了资源的利用率，容易完成逻辑优化和系统升级。笔者在e p l d 设计方面做了大量的工作，整个论文工作的最大的工作量也在于此。一共实现了1 5 个功能模块的设计，每个模块及模块内部的子模块都做了时序的仿真，不仅为本系统的进一步优化和升级提供了坚实的基础。其中一些通用的模块的设计也为他人在e p l d 的设计提供了非常丰富的可利用的资源。设计中采用了图形方式和v h d l 语言来实现各种功能，兼顾了系统的灵活性、实现功能的效率，资源利用的效率以及可扩展性。在设计过程中对工程的思想有了进一步的认识，在后期的设计中注意了模块的通用性和可重用性。此外，笔者还设计了外围的电路，实现了a d 、d a 、低通滤波器、 r a m 、f i f o 以及和i s a 总线的接口，和网关接口卡的接口的设计。外围电路的控制信号和时钟信号都来自e p l d ，外围电路的状态信号送入 e p l d 进行相应的处理和响应。主机对板卡的控制通过i s a 总线写入 e p l d 控制和标志信息。总的说来，系统所能实现的主要功能有：提供了两种本地输入接口：线路输入接口和麦克风输入接口。麦克风输入的语音信号的前置放大。语音信号的a d 、d a 转换。和网关接口卡的输入输出接口。 2 8 路的可设话路数的语言信号的混合。本地的语音信号的自环测试( 包括通过e p l d 的自环和在e p l d 外部的自环) 。本地语音信号的录音。主机语声文件的播放。 5 北方交通大学硕士学位论文提供数据传输方式( 中断方式和d m a 方式) 的选择。在软件方面的工作包括：驱动程序和接口软件。我们设计的这个硬件平台要工作在w j n d o w s 9 x 下，而w i n d o w s 环境下是不允许应用程序直接对硬件进行操作的，因此必需开发w i n d o w s 9 x 下驱动程序v x d ( v i r t u a lxd r i v e r ，虚拟设备驱动) 。由于m j c r o s o f t 公司对底层代码的保密，导致了关于设备驱动开发的资料相当少，笔者在开发中花费了很大的周折。这部分工作的重点和难点是对 w i n d o w s 9 x 底层操作系统的深入了解，尤其是r i n 9 3 和r i n g o 之间的通信机制。另外，进行调试的工作也很繁重。 1 3 2 论文的结构本论文的结构安排如下：第一章，对论文研究的课题的概述。简要论述了语音研究混合的意义，以及语音混合的现状和难点。对本文所做的工作做了简要的介绍。第二章，会议电视中的相关的语音编码的规范。这部分对会议电视中常用的几种语音编码规范做了简要的介绍。包括低速率的g 7 2 3 1 ，g 7 2 9 ，和高速率的g 7 1 1 。这部分的原理是后面对混合算法研究的理论基础。第三章，语音混合算法的研究。这一章中论述了低速率和高速率语音混合的几种算法，尤其对高速率的语音混合中传统的线性叠加算法做了详细的论述，对线性叠加算法中控制溢出的几种改进方法的做了时域和频域的分析得出了较为客观的评价。第四章，样点交织算法的研究。针对上一章中的线性叠加算法的缺陷提出了样点交织算法。论述了样点交织算法的基本原理。对采用样点交织算法的语音混合的仿真结果和采用线性叠加算法的语音混合的仿真结果进行了比较，从结果的分析中看出了样点交织算法的优越性和本文研究的课题的意义。 6 ! ! 查銮望查兰堕主兰丝笙壅第五章，基于样点交织混合算法的高速率语音混合平台的硬件设计。这部分主要讲述了笔者设计的高速率语音混合平台的框架结构，系统操作的时序流程，几个重要和复杂的模块的设计，以及调试的步骤和方法。这部分是笔者工作的重点。第六章，语音混合软件的实现。这部分主要论述了虚拟设备驱动程序的原理、w i n d o w s 对硬件的的管理机制和工作原理、驱动和接口程序的开发。其中w i n d o w s 对硬件的管理、应用程序和驱动程序之间的通信是难点。第七章，进一步的工作及展望。针对目前工作做到的程度提出下一步的改进和优化和系统进一步升级的方案和设想。 7 北方交通大学硕士学位论文第二章会议电视中关于语音编码的标准及各种标准的比较随着信息时代的到来，人们对通信方式提出了越来越高的要求。通信的种类和手段也越来越丰富。声音和图像具有很强的直观性，人们早就渴望既能听到对方的声音，又能看到对方图像的一种通信方式，会议电视正是为了满足人们的这一需求而产生的。在召开会议电视时处于多个不同地点的与会代表，既可以听到对方的声音，同时还可以看到对方的图像，以及在会议中展示的图片、表格、文件等。使得在不同地点的与会者就象在同一间会议室开会一样。会议电视系统最早是美国的贝尔实验室6 0 年代研制出来的。近年来多媒体通信技术发展迅猛，会议电视也得到了迅速发展。各种标准相继制定，会议电视系统随着价格的降低和技术的成熟逐步走向市场，得到推广和普及。 9 0 年代初期，i t u - t 制定了会议电视的国际标准h 3 2 0 ，规范了 i s d n 网上的会议电视系统的主要技术环节，为不同产品之间的兼容行问题和互通互联提供了有力的保证。大大促进了会议电视的技术和业务的发展。1 9 9 5 年以来，i t u t 又陆续推出了用于公共电话网的h 3 2 4 标准，用于a t m 的h 3 1 0 和h 3 2 1 系列标准。1 9 9 6 年推出了用于计算机局域网的h 3 2 2 标准。9 6 年1 1 月公布了h 3 2 3 v 1 标准，即“不保证服务质量的局域网上的可视电话系统与设备”标准。该标准定义了在局域网上进行视听通信的设备、规程和协议，这种局域网在今天桌面协同工作环境中居于统治地位。1 9 9 7 年1 0 月，由于h 3 2 3 版本1 不能够保证q o s ，i t u t 又推出了h 3 2 3 版本2 ，而版本2 能通过在终端和路由器中采用r s v p 协议实现一定的o o s ，故版本2 的名称也变成了“基于包的多媒体通信系统”。1 9 9 9 年9 月，i t u - t 又推出h 3 2 3 版本3 。随着l a n 、i n t e r n e t 、i n t r a n e t 在全世界的迅猛发展、壮大，基于i p 网络进行多媒体通信已是势在必行。基于i p 的h 3 2 3 会议电视系统有着比其他系统有着更广泛的应用前景。我们实验室的项目也是“基于i p 的可视化通信平台”，笔者主要的工作是语音混合方面的，因此本文仅涉及了h 3 2 3 中的相关的几种语音编码的规范，而免去了 h 3 2 3 视频编码的规范。北方交通大学硕士学位论文 2 1 会议电视中关于语音编码的标准语音压缩编码主要有三种：波形编码、参数编码、混合编码。基于波形的编码可获得较高的语音质量，但数据量压缩得不多，是高速率的语音编码。如g 7 1 1 ( p c m ) 、g 7 2 1 ( a d p c m ) 、g 7 2 2 ( s b a d p c m ) 。参数编码是根据输入的语声信号分析出模型参数，然后在解码端根据这些模型参数来恢复语音。这种编码并不忠实的反映输入语音的波形，而是着眼于人耳的听觉特性，确保解码器有一定的可懂度和清晰度。它的数码率低，但语音质量相对较低。如l p c 。混合编码把波形编码的高质量和参数编码的低数据率结合在一起，取得了比较好的效果。如c e l p c 、m p l p c 、v s e l p ，g 7 2 8 ( l d c e l p ) ，g 7 2 3 1 ( a c e l p ，m p m l q ) 等。在h 3 2 3 中规定了六种语音编码标准，即g 7 1 1 、g 7 2 2 、g 7 2 8 、 g 7 2 3 1 、g 7 2 9 和m p e ga u d i 0 ，其中g 7 1 1 是必备的，其他5 种是可选的。 2 2 低速率语声编码算法介绍 h 3 2 3 中规定的低速率语音编码标准有：g 7 2 8 、g 7 2 3 1 、g 7 2 9 。尽管它们编码的具体细节有所不同，但它们的基本原理都是基于线性预测分析与合成技术。 2 2 1 线性预测声码器的基本原理根据人体发声器官的工作原理，语声信号的产生过程可以用一个离散时域模型来表示( 图2 1 ) 。它包括三个组成部分：激励源、声道模型和辐射模型。激励源模拟发声器官的声门特性，声道模型模拟发声器官的声道特性，辐射模型则反映声道气流通过唇端向外辐射时，受到的类似高通滤波的处理过程 1 2 。 9 北方交通大学硕士学位论文基音频 r 盛l l 周期冲发生器 ili1 ” j - l 上l l i 芦门脉冲l 堡型竺阿丽竺! ! 竺：竺! 广面两广 a “ 图2 1 语音信号产生的离散时域模型硼语搿 r ( z ) r 一浊音和清音的激励信号有很大的差别，前者为周期性脉冲序列，后者为随机白噪声过程，而在浊音和清音的过渡阶段则两者兼而有之 1 3 。图2 1 中，激励信号e ( ”) = a 。- v ( n ) + a u ( n ) ，能较好地反映各种情况下激励信号的变化：发清音时，a v = 0 ，发浊音时，a u = 0 ，在浊音和清音的过渡阶段则a v 、a u 均不为零。严格地说，声道模型应该是一个零极点模型。但为了简化算法，降低声码器的复杂度，通常用全极点模型取而代之：，尸矿( z ) = 1 a , z ，( = 1 ，q 为实数) ，i = 0 实践证明，这样做对合成语声音质影响不大。人体发声是一个非常复杂的生理和物理过程。在上述的离散时域模型中，激励信号e ( n ) 和声道参数q ( i = 0 ，p ) 都是随时间变化的。但是，语声信号具有短时平稳性，在一段较短的时间间隔( 通常为 1 0 m s 一3 0 m s ) 内，可以认为声道参数q ( i = 0 ，p ) 是非时变的 1 4 。这样，在一个语音帧( 1 0 m s 一3 0 m s ) 中，就可以把声道参数q ( f _ 0 ，p ) 当作常数来处理。根据对合成语音质量的具体要求，通常取p = l o 。基于上述假设，依据一定的失真评价准则，( 通常采用最小均方误差准 o 一匿 “力一烈北方交通大学硕_ 上学位论文则( m s e ) ，) 就可以计算出激励信号e ( n ) 、声道参数q ( i = 0 ，p ) 和线性预测剩余信号r ( n ) 。接收端的解码器利用接收到的e ( ”) 、 q ( f _ 0 ，p ) 和r ( 月) ，就可以重构语声信号。但通常并不直接传输激励信号e ( n ) 和声道参数e ( f - 0 ，p ) ，原因是预测系数q ( i _ 0 ，p ) 量化特性较差，且发生信道误码时，容易造成系统不稳定。( 系统稳定的充要条件是k l 1 ( i = 0 ，p ) 。) 可以证明，传输函数v ( z ) 的极点都在单位园上。 v ( z ) = 1 口，z “ ，：0 将矿( z ) 所有极点( 除+ l 和一l 外) 的幅角经量化后传输出去，既可以保证系统稳定，又降低了比特率。这就是常用的线谱对( l s p ) 变换。激励信号v ( n ) 、u ( n ) 及其振幅a v 、a 。也都经过矢量量化( v q ) ，再传输出去。尽管量化的方法和准则不同，但目的都是为了降低比特率 1 9 。在低速率语音编码中g 7 2 3 1 和g 7 2 9 是从语音码率和语音质量两方面来综合考虑不错的两种编码标准。 2 2 2 g 7 2 3 1 的介绍 i t u t 建议g 7 2 3 1 最初是为低比特率可视电话设计的双速率语声压缩编码算法，它不但能按照要求分别以5 3 k b s $ 1 j6 3 k b s 两种速率，完成语声信号的压缩编码，而且，还可以在任意的两帧之间进行两种速率的切换。如果与其专门的静默压缩方案g 7 2 3 1a n n e xa 配合使用，其平均传输速率还可以进一步降低到远远低于5 3 k b s 的水平。由于该语声编码算法比特率低，且音质较好，在没有误码的情况下，其音质与g 7 2 6 a d p c m 声码器接近 2 0 。因而，在可视电话以外北方交通大学硕士学位论文的多媒体通信领域，g 7 2 3 1 声码器也得到了广泛的应用。如图2 2 所示，g 7 2 3 1 语声编码算法主要由预处理、线性预测分析、基音周期提取、增益码本量化和解码过程五个部分组成 1 5 。预处理预处理包括成帧器和高通滤波器两个部分。成帧器将输入的语声信号序列按照2 4 0 个样点( 3 0 m s ) 一块的格式，进行分块，每块为一帧。分块通过从缓冲区截取输入序列来实现。这有利于简化算法，降低复杂度，但也使编码语声音质受到一定的影响。通常认为3 0 m s 是语声信号具有短时平稳性的上限。帧越长，语声信号的平稳性就越差。高通滤波器的主要功能是从输入语声中滤除直流分量和5 0 h z 的公频干扰。线性预测分析线性预测系数提取由线性预测系数分析和线谱对量化两部分组成。 1 ) 线性预测系数分析在线性预测系数分析过程中，g 7 2 3 1 编码器首先以每一个子帧 ( 6 0 个样点) 为中心，对语声序列进行加窗( 宽度为1 8 0 的汉明窗) 处理，得到四个长度为1 8 0 个样点的序列。然后，计算出每个序列的十一个自相关系数r ，【】( ，= 0 ，3 ，i = o ，人，1 0 ) ( 下标j 表示第j 个子帧) ，并对自相关系数r j 【o 进行白噪声修正。在此基础上，利用杜宾递归算法求出四个子帧的线性预测系数q = 1 ，1 0 ，j - = o ，人，3 ) ，用以构成短期感觉加权滤波器矽( z ) 。最后一个子帧的线性预测系 1 2 北方交通大学硕士学位论文 l p c 分析感觉加权正基音估计 l p c 系牧鞋比 p ( z ) 万( z ) l p c 解码 l p c 内插计算脉冲响应谐波l 声噪声k 一成形| 一计算零输入响应存储刷新 u n 基音解码激励解码基音预测 l i , i b i l l 粼叫激励线性预测 r n 图2 2g 7 2 3 1 编码器原理框图数砰( f - l ，1 0 ) 供线谱对量化电路使用。 2 ) 线谱对量化为了进一步降低比特率，提高声码器的稳定性。g 7 2 3 1 声码器不直接对预测系数钟( f - l ，l o ) 进行量化，而是将其转化为线谱频( l s f ) ( f _ l ，1 0 ) ，然后，对线谱对进行量化。首先，从线谱频( l s f ) 矢量p = 1 ，1 0 ) 中去掉直流成分最：罗= 伊一雳然后，用前一帧解码得到的芦一，( 上标表示解码结果) ，计算一阶预测值萝”= 6 【芦“一最】，再将差值 13 n 一一0一10州l嚣匹篓北方交通大学碗士学位论文口神：罗卅一芦( m 表示当前帧为第m 帧) 分解为三个子向量露、郡、器m 1 ( 分别为3 ，3 ，4 维) 。最后，按照最小加权均方误差原则，利用预测分裂矢量量化，将嚣州、郡、霉”分别量化为索引为8 比特的码本向量，传输到接收端。接收端的解码器，利用这2 4 个比特的码本索引，重构当前帧的线谱对矢量，并利用内插法计算出四个子帧的线谱频。基音周期的提取 g 7 2 3 1 的基音周期提取包括开环基音估计和闭环基音提取两个阶段。 1 ) 开环基音估计在g 7 2 3 1 编码算法中，开环基音估计每帧进行两次，即每两个子帧进行一次。这样做，可以比较准确地跟踪语声信号基音频率的变化，提高合成语声的音质。开环基音周期通过分段搜索、比较短时自相关函数的峰值点来确定。这样做的理论依据是自相关函数在基音周期的整数倍样点上出现峰值。为了避免把基音周期的倍频作为基音周期提取出来，在比较各个峰值点时，g 7 2 3 1 采取了一定的修正措施。 2 ) 闭环基音提取由于基音信息是低速率语声信号中最重要的信息，完成开环基音延迟估计之后，需要依据最小均方误差准则，在开环基音延迟的附近，寻找更为精确的闭环基音延迟。在g 7 2 3 1 中，闭环基音提取与自适应码本贡献的计算结合在一起，用一个五阶预测器完成。这样做，降低了g 7 2 3 1 的复杂度，也使合成语声的音质有所降低。完成闭环基音提取后，第0 、2 子帧的闭环基音延迟分别用7 个比特编码后，第l 、3 子帧分别与第0 、2 子帧的闭环基音延迟的差值各用两个比特编码。每一个语声帧的基音信息共需要用1 8 比特表示。激励码本的搜索激励码本的搜索，包括自适应码本的搜索和固定码本的搜索两个 1 4 北方交通大学硕士学位论文部分。 1 ) 自适应码本的搜索自适应码本的搜索是与闭环基音提取同时进行的。自适应激励码本含有1 7 0 个元素，每个元素都是一个五维的激励矢量。根据最小均方误差原则，搜索最符合条件的闭环基音延迟彰( j = o ，a ，3 ) 和自适应激励矢量( j = o ，a ，3 ) ，这里上标j 表示第j 个子帧。自适应激励矢量的索引p g l n d j ( 0 ，1 6 9 ，连同后面的固定码本增益g ，一起编码后，传输到接收端，供解码器使用。 2 ) 固定码本的搜索 g 7 2 3 1 的两个版本的主要区别在于它们的固定码本形式不同。 g 7 2 3 1 高速率版本( 6 3 k b s 版本) 的多脉冲激励最大似然量化器( m p - - m l q ) ，比低速率版本( 5 3 k b s 版本) 的码激励线性预测量化( c e l p ) ，增加了激励脉冲的数量，从而进一步改善了合成语声的音质。然而，在本质上，两者是一回事，多脉冲激励最大似然量化实际上是码激励线性预测量化的一种改进形式。在低速率版本使用的固定码本中，规定每一个固定码矢都由四个位于不同样点子集的单位脉冲构成，因而被称为代数码本。在高速率版本中，对于偶数子帧，激励脉冲数量增加为6 个，对于奇数子帧，激励脉冲数量增加为5 个。另外，两种版本都采用了解析码本，解码器利用传输码流本身的信息，就可以重构码矢和码本增益，而不需要象通常的矢量量化方法那样，去搜索一个具体的码本，来获得码矢。这样做，简化了声码器的结构，并进一步提高了工作效率。固定码本搜索的任务就是确定激励脉冲的极性和确切位置。由于子帧长度为6 0 个样点，为简化搜索，又进一步规定，所有脉冲或者全部位于偶数样点，或者全部位于奇数样点。编码时，这些脉冲位于奇数样点，还是偶数样点，用一个专门的比特表示。 3 ) 激励信息编码完成自适应码本搜索和固定码本搜索后，按照公式 g l n d j = 2 4 p l n d i + 岔北方交通大学硕士学位论文构造子帧j 的增益矢量g 协一，传送到接收端，供解码器使用。解码过程图2 3 给出了g 7 2 3 1 的解码原理框图。解码是编码的逆过程。 g 7 2 3 1 是分析基于合成的编码器，因而，编码过程包含了解码过程。在解码器中，线性预测编码信息( l p c ) 、自适应码本信息和固定码本信息一起完成解码。然后，用它们重构出语声信号。为抑制可察觉的噪声，解码器中使用了自适应后向滤波器。图2 3g 7 2 3 1 解码器原理框图 2 2 3 g 7 2 9 的介绍宙 i t u t 建议g 7 2 9 最初是为无线应用设计的语音压缩编码算法，但也可以应用于多媒体通讯。g 7 2 9 建议的附录a 算法是c s c e l p 的一个低复杂度版本。它针对于低比特率多媒体通信普遍存在的语音、数据同传而设计。g 7 2 9 a 是可与g 7 2 9 进行互操作的比特码流：即用 g 7 2 9 a 编码的语音可以用g 7 2 9 进行解码，反之亦然。如果与其专门的静默压缩方案- - - - - g 7 2 9a n n e xb 配合使用，其平均传输速率还可以进一步低于8 k b s 的水平。主观测试表明，3 2 k b s 的速率时，g 7 2 9 a 的性能在多数操作环境中等同于g 7 2 9 和g 7 2 6 ，m o s 达到了3 6 1 分：不过在三级级联而且有背景噪音的情况下，其性能要略差一些 1 8 。因而，在多种多媒体通信领域，g 7 2 9 a 声码器也得到了广泛的应用。 g 7 2 9 a 语音编码算法同g 7 2 9 算法相同，采用了共模结构代数码激励线性预测( c s a c e l p ) 的编码概念。主要由预处理、短时线性预测分析及量化、感觉加权、自适应码本的生成及搜索、固定码本搜索、北方交通火学硕士学位论文自适应及固定码本增益量化和滤波器的更新七个部分组成 1 7 。 ( 1 ) 编码器编码原理见图2 4 。在预处理模块中输入信号被高通滤波量化。预处理过的信号作为所有后续分析的输入信号。每个1 0 m s 的帧一旦经过计算机计算出低通滤波器1 a ( z ) 的系数后就要依次进行1 0 个线性预测分析。这些系数被反转成对称谱线并利用两段1 8 比特的预测量化矢量进行量化，然后一个分析合成搜索程序选出激励信号。此程序可根据感觉加权失真测度将原话音信号与恢复的话音信号间的误差最小化。此功能的完成是借助一个感觉加权滤波器滤除误差信号实现的，不同于g 7 2 9 ，这种滤波器的系数是从低通量化滤波器演绎出来的，并且忡，= 筹= 等等胁器。激励参数( 固定的和自适应的码本参数) 由每个5 m s 的子帧( 4 0 个样点) 决定，量化低通滤波器的系数由第二个子帧决定，而补差低通滤波器的系数由第一个子帧决定。由感觉加权和低通滤波语音信号组成的l o m s 的帧建立一个开环基音延迟，然后每个子帧重复此操作。通过用加权合成滤波器w ( z ) = 三墼对l p 残余进行 1 + y 2 q z l 一。滤波来计算目标信号x ( n ) ，然后计算子帧尾部的加权误差信号以修改此滤波器的初始状态。这等同于一般的从加权的语音信号中减去加权合成滤波器的零输入响应。 )一) 形一衫钺似北方交通大学硕士学位论文厂 l l p o 信息虿2 4g 7 2 9 编码器原理框虿 ( 2 ) 解码器解码器原理如图2 5 所示。首先，从接收到的比特码流中提取出参数索引，这些索引被解码以得到有关l o m s 语音帧信号中的编码参数。这些参数是l s p 系数、两个分数基音延迟、两个固定码本矢量、两个自适应和固定码本增益的集合。在每个子帧对l s p 系数内插，转换成l p 滤波系数。然后对每个5 m s 的子帧做入下几步：增加由各自增益刻度的自适应和固定码本矢量以建立激励。用l p 合成滤波器滤除激励以恢复模拟话音。恢复的模拟话音信号通过后置处理阶段。包括一个基于长期和短期合北方交通大学硕士学位论文成滤波器的自适应后置滤波器，随后是一个高通滤波器和刻度操作。图2 5g 7 2 9 解码器原理框图 ( 3 ) g 7

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）高速率数字语音混合算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）高速率数字语音混合算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档