毕业设计(论文)-基于语音压缩编码算法的设计.docx_第1页
毕业设计(论文)-基于语音压缩编码算法的设计.docx_第2页
毕业设计(论文)-基于语音压缩编码算法的设计.docx_第3页
毕业设计(论文)-基于语音压缩编码算法的设计.docx_第4页
毕业设计(论文)-基于语音压缩编码算法的设计.docx_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章 前 言1.1 概述随着计算机技术的发展,信道资源显得更加宝贵,为了在有限的信道内进行更多的信息传输,必须对语音信号进行压缩。语音信号能够压缩的基本依据是语音信号中存在的冗余和人类的听觉感知机理。语音信号存在多种多样的冗余,可分别从时间域和频率域描述。从时间域分析:幅度的非均匀分布,即语音中的小幅度样本出现的概率高,信息主要集中在低功率上;采样数据间的相关,相邻的语音信号间有很强的相关性,研究表明,当采样率为8kHz时,相邻样值之间的相关系数大于0.85,如果采样率提高,相关性将更强;周期间的相关,浊音语音段具有准周期性,反映在波形上出现图形的重复,即信息冗余;语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双:r话路的典型效率约为通话时间的40,即静止系数为0.6;长时自相关,除了样本间、同期间的相关外,在较长的时间间隔上,语音信号也存在相关,统计表明,8 kHz采样时的平均相关系数高达0.9 ,从频率域分析:非均匀的长时功率谱密度,从相当长的时间内统计平均,语音信号的功率谱呈现强烈的非平坦性,这说明语音信号对给定的频段利用的不充分,存在固定的冗余度;语音特有的短时功率谱密度,语音信号的短时功率潜在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大的频率,称为共振峰(Formant),语音特征主要由前3个共振峰频率决定,随着频率的增高,对整个功率谱的影响会快速递减。语音压缩的第二个依据是人的听觉生理和心理特性对语音的感知。其影响主要表现在:第一,人的听觉系统(Human Auditory System,HAS)对声音具有掩蔽效应(Mask Effect),即一个强的声音能够抑制另一个同时存在相对较弱的声音,利用这一性质可以抑制与信号同时存在的量化噪声。第二,对不同频段的声音的敏感程度不同。人的听觉对低频端比较敏感,而对高频端不太敏感,这主要是因为浊音的周期和共振峰在这里。第三,人耳对语音信号的相位变化不敏感。人耳的听觉不像人的视觉对感知的信号相位那样敏感,一定程度的相位失真对听觉来说是可以容忍的。人耳听不到或感官极不灵敏的语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩1 。1.2 语音压缩技术的现状及发展方向语音是人类最重要、最有效、最常用和最方便的交换信息的形式,使人们思想疏通和情感交流的最主要途径。在实际的语音通信中,有些信道难以扩宽且质量很差;有些信道正被广泛使用,短期内难以更新;有些昂贵的信道,每压缩一个比特都意味着节省开支。因此,语音压缩编码无疑在语音通信及人类信息交流中占有举足轻重的地位。语音压缩编码技术的发展是十分迅速的,CELP的编码速率较低,但复杂度较高,可以在4.8kb/s左右的码速率上获得较高质量的语音,是当今中低速率语音编码技术的主流技术之一,许多国际标准化组织及机构纷纷将这一编码方案作为语音编码标准。在对其改善质量、降低复杂度、减少编码延迟等方面都提出了不少新的方法,使CELP在实践中得到广泛应用。随着DSP技术的发展,CELP技术还具有一定的潜力,例如将G.729扩展到6.4kb/s,用于TDMA/CDMA移动无线系统和DCME。目前,语音压缩编码技术主要有两个努力方向:一个是中低速率的语音编码的实用化,及如何使用化过程中进一步减低编码速率和提高其抗干扰、抗噪声能力;另一个是如何进一步的降低其编码速率,目前已能在5kb/s-6kb/s的速率上获得高质量的重建语音,下一个目标则是要在4kb/s的速率上获得短延时、高质量的重建语音。特别是对中长延时编码,人们正在研究其更低速率(如400b/s-1200b/s)的编码算法,在这个过程中当编码速率降至2.4kb/s速率以下时,CELP算法即使应用更高效的量化技术也无法达到预期的指标,需要其它一些更符合低速率编码要求的算法,目前比较好的算法还有正弦变换编码(STC)、混合激励线性预测编码(MELPC)、时频域插值编码(TFI)、基音同步激励线性预测编码(PSELP)等,同时还要求引入新的分析技术,如非线性预测、多精度时频分析技术(包括子波变换技术)、高阶统计分析技术等,这些技术更能挖掘人耳听觉掩蔽等感知机理,更能以类似人耳的特性作语音的分析与合成,使语音编码系统更接近于人类听觉器官的处理方式工作,从而在低速率语音编码的研究上取得突破。1.3 本文所研究的内容本文主要研究的内容:第一章 前言部分介绍了语音压缩的概念,给出了语音压缩的分类特点,主要应用领域、研究背景、研究现状。第二章 介绍了语音压缩的基本原理,及语音压缩编码的方法及其目前标准。第三章 首先介绍了语音压缩的几种算法,紧接着简单介绍了各种算法的概念和其优点,并且对各种算法之间的联系进行了讲解。第四章 首先介绍了MATLAB的基本原理及其特点,其仿真所需条件,并且对ADPCM算法进行了仿真,并得出结果。 第五章 对论文进行了总结指出文章的主要贡献并对语音压缩编码技术做出了展望。第2章 语音信号压缩编码技术2.1 语音编码概述2.1.1 什么是语音编码 在现代通信中,随着科学技术的迅速发展,图像、数据等非话音信息在通信信息总量中所占比例大大提高,而且这种提高的趋势仍然会继续下去。但是,到目前为止,在大多数通信系统中,传输最多的信息仍然是语音信号。在可以预见的未来通信中,尽管语音信号在通信信息总量中所占比例会有所下降,但仍然会是传输最多的信息。语音信号时模拟信号,不能直接在数字通信系统中传输,必须先进行模/数转换在进行数/模转换。这种模数转换和数模转换就成为语音编译码,起作用是将语音信号转换为数字信号,到了接收端,再将收到的语音数字信号还原为语音模拟信号。语音编译码又简称为语音编码。2.1.2 语音信号编码的分类语音编码按照传统的分类方法通常分为3类:波形编码、参数编码和混合编码。其编码质量大致如图2.1所示,表2.1给出了各种编码方法的典型例子。(1)波形编码是将时间或频率域(或变换域)信号直接变换为数字信号,力求使重建语音波形保持原始语音信号的波形形状。波形编码具有语音质量好、抗噪声性能强等优点。其缺点是所需要的编码速率高,一般在16kbit/s64kbit/s之间。脉冲编码调制(PCM)、增量调制(M或DM)、自适应增量调制(ADM)、自适应差分脉码调制(ADPCM)等,都属于波形编码。波形编码的性能和压缩比特率决定于所用的变换方法的性能,由于语音波形的动态范围很大,目前所用的变换算子的作用又有限,因此,波形编码的比特率不能压得很低,一般在16 kbs以上,再往下,性能就下降很快。新近蓬勃发展的小波变换,尽管具有分层的思想、“显微镜”的功能、与图像的视觉感知相吻合,但用于语音编码效果不理想。因为与人的听觉感知不相吻合。国际电报电话咨询委员会CCITT(现已并入国际电信联盟)于1972年制定的G711 64 kbs的脉冲编码调制(PCM)和ITU在1984年公布的G721 32 kbs自适应差分脉冲编码调制(ADPCM)编码器标准等都属于这一类编码器2。语音质量 优良 混合编码 波形编码中差 模型编码(源编码)坏 码率(kb/s) 1 2 4 8 16 32 64 极 低 中 低 图2.1 语音编码方法 分类 波形编码 参数编码 混合编码 MPLPC.RPE/LTP, 典型应用 PCM,ADPCM, LPC CELP.VSELP表2.1 语音编码的分类与应用PCM:脉冲编码调制;ADPCM:自适应脉冲编码调制;LPC:线性预测分析;MPLPC:多脉冲线性预测编码;RPE/LTP:规则脉冲激励-长项预测编码;CELP:码激励线性预测;VSELP:矢量和激励线性预测编码由表2.1可以知道,随着语音编码算法的不断研究,传输速率总是不断地下降,这可以有效地节省传输带宽的资源。但是在传输速率降低的同时,输出的语音质量也下降。(2)参数编码又称为声源编码或声码器,它是将信源信号在频域或其他变频域提取特征参数,然后对这些参数进行编码和传输;在译码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。参数编码是通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,既保持原语音信号的语意,但重建语音信号的波形与原语音信号波形却相差甚远。参数编码的优点是可实现低速率语音编码,其编码速率可低至2.4kbit/s以下。其缺点是语音质量差,自然度较低,即使是熟人一般也听不出来讲话人是谁。此外,参数编码的坚韧性也不够好。LPC-10和LPC-10e声码器就是属于参数编码。美国政府1980年公布的24 kbs线性预测编码算法LPC-10就是采用的这种方法。1986年,美国第三代保密电话装置采用了24 kbs的LPC-10e(LPC-10的增强型)作为话音处理方法2。 (3)混合编码将波形编码和参数编码结合起来,克服了波形编码和参数编码的缺点,吸收了它们的长处,在4kbit/s16kbit/s速率上能够得到高质量的合成语音。多脉冲激励线性预测编码(MPE-LP)、规则脉冲激励线性预测编码(RPE-LP)和码激励线性预测编码(CELP)等都属于混合编码。近年来码激励线性预测(CELP)编码作为一种优秀的中、低速率方案得到了很好的重视和研究,在降低复杂度、增强CELP性能、提高语音质量等方面取得了许多新的进展3。2.2 语音编码的主要方法 语音编码按照编码速率的分类方法可分为5类:高速率语音编码(编码速率为32kbit/s以上);中高速率语音编码(编码速率为32kbit/s16kbit/s);中速率语音编码(编码速率为16kbit/s4.8kbit/s);低速率语音编码(编码速率为4.8kbit/s1.2kbit/s);极低速率语音编码(编码速率为1.2kbit/s以下)。对于中高速率的语音压缩编码而言,高速率编码主要以波形编码为主,其适应能力强、语音质量好,但编码速率较高。中速率编码以混合编码为主,基于语音产生模型的假定并采用了分析合成技术,同时又利用语音的时间波形信息,增强了重建语音的自然度。低速率及极低速率编码以参数编码为主,通过建立语音信号的产生模型,提取代表语音信号特征的参数来编码。编码速率在16kbit/s以下的语音编码,通常称为语音压缩编码。2.2.1 中高速率编码(1)连续可变斜率增量调制(CVSD)CVSD(Continuously Variable Slope Delta Modulation)针对输入信号振幅的变化率,调节量化步长的增量值。当输入信号的振幅变化率增大时,增量值也相应地增大;当输入信号的振幅变化率减小时,增量值也相应地减小。利用TI公司的TMS320VC5509定点DSP芯片实现多路全双工16kbps CVSD语音编解码的方案,并基于摩托罗拉公司的MPC800提出了利用嵌入式系统扩展DSP应用的方法4。与其它编码方式相比,CVSD有如下突出特点:1)较高的抗误码能力;2)算法简单,硬件实现容易;3)单路应用时无须采取码元与码组同步措施等。因此,它是一种在卫星通信、移动通信和军事通信等领域应用非常广泛的波形编码方式。(2)基于小波分析的语音编码方法 小波在时域频域同时具有良好的局部特性,并且它的基具有多样性, 使得它优于傅立叶分析,更适合于语音。它不仅可以单独的处理语音,还可以和其它理论结合用于语音压缩。小波技术与离散余弦变换(DCT)结合:离散余弦变换系数能较好地体现语音信号能量在频域中集中分布的特性,可以重构出高质量的话音,如果采用矢量量化(VQ)的方法直接对离散余弦变换的系数进行编码,运算量较大。可以利用小波变换的多分辨分析特性,对离散余弦变换系数进行离散二进小波变换后,再对其小波系数进行编码5。其优点为:1)编码算法简单;2)可方便灵活地控制各频率段的位数分配,满足不同编码质量的要求;3)在16kbps 数据率时,可实现与原话音质量相同的重构语音。(3)多脉冲激励线性预测编码(MPLPC)的改进 原始的MPLPC方法中,LP滤波器的阶数和激励脉冲的个数都是固定的。文献对其改进算法使用了可变阶数滤波器的语音编码方法。主要思想是:对于不同的语音帧使用不同阶数的线性预测滤波器,只要低阶滤波器满足要求就不使用高阶滤波器。由于各语音帧滤波器阶数不同,使用的编码位数也不同。为了使整个语音传输速率基本恒定,对于滤波器阶数较低的语音帧,可以相应地增加激励脉冲的个数或增加各脉冲的比特数。用MATLAB对改进MPLPC方法进行模拟,结果表明, 此方法可以以下的速率上得到有一定自然度的合成语音,比同速率下的原始多脉冲激励方法有明显改善。但此方法在有噪声和失真的信道上传输的情况需要进一步实验, 每帧激励脉冲个数的最佳值需要进一步研究。2.2.2 低速率编码(1) 散布脉冲码激励线性预测(DP-CELP)码激励线性预测(CELP)算法是最近20 年来语音编码中最为成功的一项技术。但是当速率降至4kb/s以下时,为了提高量化效率,必须增加激励矢量的长度, 这时还用很少的符号脉冲来描述激励信号就会导致语音质量的急剧下降, 这就是传统的CELP算法在4kb/s速率以下质量难以提高的根本原因。为了解决传统CELP算法在4 kb/s速率以下质量难以提高的问题,因此提出了一种散布脉冲CELP(DP-CELP)语音编码算法。激励矢量由特殊结构的代数码书与固定形式的散布脉冲的卷积获得,在不增加代数码书搜索复杂度的前提下,较好地解决了传统代数码书中符号脉冲不足带来的缺陷,有效地改善了重建语音质量。非正式的主观听力测试表明,这种4kb/s DP-CELP语音编码算法的合成语音质量非常接近G.723.1中6.3kb/s语音编码器,可产生高质量的合成语音。在此算法的基础上,又开发了一种基于TMS320VC5410定点DSP的实时低速率语音压缩系统,将低比特率语音编码算法应用于实际的语音处理系统。为了降低运算复杂度,算法程序使用DSP汇编语言实现。根据C5410定点DSP的指令集特性,以及算法自身的特点,对整个算法进行了2次整体优化和若干次的局部优化, 达到了实时实现的要求。由此,产生出了性价比极高的语音编解码系统,在数字存储、多媒体通信等领域有着广泛的应用前景。(2)多重脉冲散布非均匀代数码本激励线性预测(MPD-USACELP)由于CELP算法在4kb/s速率以下质量难以提高,文献6在编码器和解码器中分别引入了不同的脉冲散布技术,从而达到了利用较少比特提供高质量激励的目的。根据理想代数码本脉冲在子帧中各位置的概率分布规律,提出了新的非均匀结构代数码本,提高了代数码本的效率,并且引入了基音预加重技术优化了自适应码本搜索。经主观听音和计算机模拟测试,最后形成的3.35kb/s多重脉冲散布非均匀代数码本激励线性预测(MPD-USACELP)语音编码算法的质量达到了北美IS-54 标准8 kb/s算法的水平。2.2.3 极低速率编码(1) 波形内插(WI)算法的改进 波形内插语音编码在2kb/s4kb/s的速率上表现出良好性能,并产生了高质量合成语音。但是这种编码算法的计算复杂度非常高,很难在实际中应用,因此在保持语音质量的前提下,降低WI模型的计算复杂度势在必行。 基本的WI 编码算法需要在编、解码端都要进行复杂的特征波形(CW)对齐,以保证提取的CW和合成的CW在相位上一致,这使得实时实现整个算法变得非常困难。为了减少这种复杂度,又提出一种在编码端去除对齐过程,译码端采用三次B样条的插值模型。通过对慢渐变波形只量化低频分量,而快渐变波形用正交多项式拟合,实现了变维矢量到定维矢量的转换,进一步降低了算法的复杂度。DRT测试结果表明,此2 kb/s语音编码方法能获得高可懂度的重建语音。在WI模型的原理的基础上,针对模型中占主要计算量的2个模块(特征波形的表示和对齐)进行了相应的改进。原WI模型中的特征波形使用了离散傅里叶级数表示,CW对齐也是通过频域傅氏级数实现的,CW的表达和对齐都没有使用快速算法。在改进算法中,先对时域的CW尾部补0,使它的长度为2的整次幂,然后作快速傅里叶变换得到CW的频域表示。因为时域补0起到了对原频域做插值的作用,并不改变原频谱形状,所以再利用三次B样条插值技术,就可以得到相应的傅氏级数;对于CW对齐则先将它的周期延拓为2的整次幂,再利用圆周相关定理通过FFT计算出对齐所需要的位移。改进后的算法相对独立没有影响原编码器其它模块,在保持高质量重建语音的前提下使复杂度大幅下降,更易于在单片DSP芯片上实现。(2) 奇异值分解的波形内插(SVD-WI)算法 波形内插算法中, 针对奇异值分解(Singu-lar Value Decomposition,简称SVD)理论用于特征波形的分解时,算法延时长、计算复杂和高比特量化参数的问题,从而提出了一种新颖的基于奇异值分解的特征波形的分解与量化模型。基于降低运算复杂度的考虑, 利用语音信号的感知特性,根据所含频率成分的不同,将特征波形的幅度谱分成基本矩阵、过渡矩阵和补充矩阵三个矩阵,并各自采用不同的量化方法;由于特征波形谐波数是时变的,将三个矩阵分为三种组合模式表示特征波形幅度谱,提高了特征波形的表示精度,合成端可以根据不同的精度要求重建语音。这种方法比传统的WI语音编码器减少了一帧延时, 主观测试表明,SVDWI编码器的重建语音质量要好于2.4kb/s混合激励线性预测(MELP)编码器。(3) 线谱对(频率)的量化算法 线性预测是许多低速率语音编码方案的核心技术。为降低编码速率,选用高效的线性预测系数编码方法至关重要。线谱对(line spectrum pair,简称LSP)即线谱频率(line spectrum frequency,简称LSF)是线性预测系数的等价参数。因此,研究高效率的LSP参数量化方法对低速率语音编码算法的研究具有极其重要的意义。在极低速率的声码器算法研究中,为了实现对LSP参数的高质量低速率量化,提出了一种新的量化算法,称作P-RS-MSMQ(Pattern-based Residual Split Multi-Stage Matrix Quantization)。此算法在多帧联合矩阵量化的框架下,提出了以下几点新的策略:基于超级帧模式的均值去除和基于超级帧模式转移的帧间预测;将预测余量矩阵分裂成子矩阵,并对各子矩阵分别进行多级矩阵量化;对多帧联合量化引入新的加权策略等。通过这些措施,有效的提高了量化性能,能够在极低的编码速率下获得高质量的量化效果并且大大降低了量化码本的存贮量和运算量,提高了算法的实用性。此算法已经成功地实现了高质量的1.2kb/s和600 b/s语音编码算法。因此,它可以广泛应用于极低速率语音编码算法中。为了降低线谱频率(LSF)参数矢量量化器的搜索复杂度和码字存储单元,利用LSF参数的帧内和帧间相关性, 设计了一种LSF参数的预测式多级分裂矢量量化器。该量化器对LSF参数的预测残差矢量进行两级矢量量化。其中第2级的误差矢量分裂成2个维数分别为4和6的子矢量进行矢量量化,采用瞬时联合多级矢量量化器设计算法设计码本,应用M-L树搜索算法搜索码字,降低了搜索复杂度和码字存储单元,同时保持了高效的量化性能。2.3 语音编码标准2.3.1 语音编码的国际标准语音编码的各种标准集中反映了语音编码技术水平的发展过程。随着80年代语音编码技术的迅速发展,在国际电报电话咨询委员会的推动下,制定了一系列数字语音编码的国际标准,详见表2.2。2.3.2 移动电话语音编码标准 数字蜂窝网(GSM)中的RPE-LTP编码方案采用规则脉冲作激励源,而北美数字移动通信系统中VSELP采用码本激励的方法。表2.3给出了当今正在使用的GSM、CDMA等移动通信系统语音压缩编码的标准及其参数。2.3.3 美国国防部保密电话标准保密电话的一些标准,由于其应用领域的特殊性,关于他的详细信息及其某些参数仍处于保密当中。表2.4给出一些保密电话的编码标准及其大概信息。压缩标准 压缩方法 码率(kb/s) 复杂度(MIPS) 语音质量(MOS) 颁布年代G.711 PCM 64 4.5 1972G.721 ADPCM 32 2 4.0 1984G.722 SB-ADPCM 64/56/48 / 1988G.726 VBB-ADPCM 40/32/24/16 3 4.2/4.0/3.2/2.0 1990G.727 嵌入式ADPCM 40/32/24/16 / 1990G.728 LD-CELP 16 4.3 1992G.729 CS-ACELP 8 20 4.0 1995G.723.1 MP-MLQ/ACELP 6.3/5.3 16 3.x 1995表2.2 语音信号压缩编码的国际标准及参数编码标准 编码方式 码率(kb/s) 语音质量(MOS) 算法时延(ms) 复杂度(MIPS) 颁布年代GMS RPE-LTP 13 3.7 20 5 1989IS-54 VSELP 7.98 3.6 20 15 1991IS-96 QCELP 8/4/2/1 3.5 20 15 1991 JDC VSELP 6.3 通信质量 20 15 /Inmarsat-M IMBE 4.5 3.4 78.8 15 1990GSM(HR) VSELP 5.6 3.5 4.4 15 1994表2.3 移动通信系统中语音压缩编码标准及参数 编码标准 编码方式 码率(kb/s) 语音质量(MOS) 算法时延(ms) 复杂度(MIPs) 颁布年代 FS-1015 LPC-10E 2.4 / 22.5 20 1984 FS-1016 CELP 4.8 3.0 30 20 1990MELP MELP 2.4 / 22.5 40 1997表2.4 保密电话标准及参数第3章 ADPCM压缩编码方式的研究3.1 PCM 编码方案 脉冲编码调制(PCM)是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的编码系统。运用软件方法来实现PCM编解码芯片的部分功能并与PCM编解码芯片相结合来共同完成整个电路设计上的编解码,不仅设计简单,灵活方便,而且往往可以达到事半功倍的结果,具体调制过程是将输入的模拟信号进行取样,量化和编码。这种方法通过用脉冲编码来代表取样后的模拟信号的幅度。即用二进制的大小来代表取样后的信号幅度。在接收端再将这些编码的二进制数还原为原来的模拟信号7。3.1.1 PCM通信的原理PCM通信即脉冲编码调制通信, 是时分制多路通信。实现PCM通信, 对发送端而言, 要完成抽样、量化、编码三步操作对接收端而言, 要完成译码、扩张、分路逆向操作。图3.1为通信方式构成的示意图。第1路第1路低通滤波低通滤波抽样第2路传 输第2路通 道编码分路扩展译码量化 第24路第24路 图3.1 P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论