第3章话音编码.doc

上传人：t*** IP属地：河南上传时间：2020-03-15 格式：DOC 页数：30 大小：382KB 积分：15 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第3章话音编码随着数字电话和数据通信容量日益增长的迫切要求，而又不希望明显降低传送话音信号的质量，除了提高通信带宽之外，对话音信号进行压缩是提高通信容量的重要措施。另一个可说明话音数据压缩的重要性的例子是，用户无法使用28.8 kb/s的调制解调器来接收因特网上的64 kb/s话音数据流，这是一种单声道、8位/样本、采样频率为8 kHz的话音数据流。ITU-TSS为此制定了并且继续制定一系列话音(speech)数据编译码标准。其中，G.711使用率和A率压缩算法，信号带宽为3.4 kHz，压缩后的数据率为64 kb/s；G.721使用ADPCM压缩算法，信号带宽为3.4 kHz，压缩后的数据率为32 kb/s；G.722使用ADPCM压缩算法，信号带宽为7 kHz，压缩后的数据率为64 kb/s。在这些标准基础还制定了许多话音数据压缩标准，例如G.723，G.723.1，G.728，G.729和G.729.A等。本章将重点介绍话音编码的基本思想，而详细计算则留给那些开发和具体设计编译码器软硬件的读者去研究，并可从本章所列的参考文献和站点中找到你满意的文献资料。3.1 话音编码概要 3.1.1 话音波形的特性了解话音波形的基本特性对声音数据的压缩编码、声音的识别和文本-声音的转换等都有很重要的意义。当肺部中的受压空气沿着声道通过声门发出时就产生了话音。普通男人的声道从声门到嘴的平均长度约为17厘米，这个事实反映在声音信号中就相当于在1 ms数量级内的数据具有相关性，这种相关称为短期相关(short-term correlation)。声道也被认为是一个滤波器，这个滤波器有许多共振峰，这些共振峰的频率受随时间变化的声道形状所控制，例如舌的移动就会改变声道的形状。许多话音编码器用一个短期滤波器(short term filter)来模拟声道。但由于声道形状的变化比较慢，模拟滤波器的传递函数的修改不需要那么频繁，典型值在20 ms左右。压缩空气通过声门激励声道滤波器，根据激励方式不同，发出的话音分成三种类型：浊音(voiced sounds)，清音(unvoiced sounds)和爆破音(plosive sounds)。1.浊音浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音，这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现为音节(pitch)的大小，它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性，其值在220 ms之间，这个周期性称为长期周期性(long-term periodicity)。图3-01表示了某一浊音段的波形，音节周期大约8 ms。这一浊音段的功率谱密度(power spectral density，PSD)如图3-02所示。图3-01 浊音段的波形举例图3-02 浊音段的功率普密度举例2. 清音清音是由不稳定气流激励所产生的，这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的，如图3-03所示。这一清音段的功率谱密度PSD和图3-04所示。图3-03 清音段的波形举例图3-04 清音段的功率谱密度举例3. 爆破音爆破音是在声道关闭之后产生的压缩空气然后突然打开声道所发出的音。某些音不能归属到上述三种音中的任何一种，例如在声门振动和声道收缩同时出现的情况下产生的摩擦音，这种音称为混合音。虽然各种各样的话音都有可能产生，但声道的形状和激励方式的变化相对比较慢，因此话音在短时间周期(20 ms的数量级)里可以被认为是准定态(quasi-stationary)的，也就是说基本不变的。从图3-01, -02, -03和-04中可以看到话音信号显示出的高度周期性，这是由于声门的准周期性的振动和声道的谐振所引起的。话音编码器就是企图揭示这种周期性，目的是为了减少数据率而又尽可能不牺牲声音的质量。3.1.2 三种话音编译码器通常把已有的话音编译码器分成以下三种类型：波形编译码器(waveform codecs)，音源编译码器(source codecs)和混合编译码器(hybrid codecs)。一般来说，波形编译码器的话音质量高，但数据率也很高；音源编译码器的数据率很低，产生的合成话音的音质有待提高；混合编译码器使用音源编译码技术和波形编译码技术，数据率和音质介于它们之间。图3-05表示了目前这三种编译码器的话音质量和数据率的关系。图3-05 普通编译码器的音质与数据率1. 波形编译码器波形编译码的想法是，不利用生成话音信号的任何知识而企图产生一种重构信号，它的波形与原始话音波形尽可能地一致。一般来说，这种编译码器的复杂程度比较低，数据速率在16 kb/s以上，质量相当高。低于这个数据速率时，音质急剧下降。最简单的波形编码是脉冲编码调制(pulse code modulation，PCM)，它仅仅是对输入信号进行采样和量化。典型的窄带话音带宽限制在4 kHz，采样频率是8 kHz。如果要获得高一点的音质，样本精度要用12位，它的数据率就等于96 kb/s，这个数据率可以使用非线性量化来降低。例如，可以使用近似于对数的对数量化器(logarithmic quantizer)，使用它产生的样本精度为8位，它的数据率为64 kb/s时，重构的话音信号几乎与原始的话音信号没有什么差别。这种量化器在20世纪80年代就已经标准化，而且直到今天还在广泛使用。在北美的压扩(companding)标准是律(-law)，在欧洲的压扩标准是A律(A-law)。它们的优点是编译码器简单，延迟时间短，音质高。但不足之处是数据速率比较高，对传输通道的错误比较敏感。在话音编码中，一种普遍使用的技术叫做预测技术，这种技术是企图从过去的样本来预测下一个样本的值。这样做的根据是认为在话音样本之间存在相关性。如果样本的预测值与样本的实际值比较接近，它们之间的差值幅度的变化就比原始话音样本幅度值的变化小，因此量化这种差值信号时就可以用比较少的位数来表示差值。这就是差分脉冲编码调制(differential pulse code modulation，DPCM)的基础对预测的样本值与原始的样本值之差进行编码。这种编译码器对幅度急剧变化的输入信号会产生比较大的噪声，改进的方法之一就是使用自适应的预测器和量化器，这就产生了一种叫做自适应差分脉冲编码调制(adaptive differential PCM，ADPCM)。在20世纪80年代，国际电话与电报顾问委员会 (International Telephone and Telegraph Consultative Committee，CCITT)，现改为国际电信联盟-远程通信标准部(International Telecommunications Union-Telecommunications Standards Section，ITU-TSS )，就制定了数据率为32 kb/s的ADPCM标准，它的音质非常接近64 kb/s的PCM编译码器，随后又制定了数据率为16，24和40 kb/s的ADPCM标准。上述的所有波形编译码器完全是在时间域里开发的，在时域里的编译码方法称为时域法(time domain approach)。在开发波形编译码器中，人们还使用了另一种方法，叫做频域法(frequency domain approach)。例如，在子带编码(sub-band coding，SBC)中，输入的话音信号被分成好几个频带(即子带)，变换到每个子带中的话音信号都进行独立编码，例如使用ADPCM编码器编码，在接收端，每个子带中的信号单独解码之后重新组合，然后产生重构话音信号。它的优点是每个子带中的噪声信号仅仅与该子带使用的编码方法有关系。对听觉感知比较重要的子带信号，编码器可分配比较多的位数来表示它们，于是在这些频率范围里噪声就比较低。对于其他的子带，由于对听觉感知的重要性比较低，允许比较高的噪声，于是编码器就可以分配比较少的位数来表示这些信号。自适应位分配的方案也可以考虑用来进一步提高音质。子带编码需要用滤波器把信号分成若干个子带，这比使用简单的ADPCM编译码器复杂，而且还增加了更多的编码时延。即使如此，与大多数混合编译码器相比，子带编译码的复杂性和时延相对来说还是比较低的。另一种频域波形编码技术叫做自适应变换编码(adaptive transform coding，ATC)。这种方法使用快速变换(例如离散余弦变换)把话音信号分成许许多多的频带，用来表示每个变换系数的位数取决于话音谱的性质，获得的数据率可低到16 kb/s。2. 音源编译码器音源编译码的想法是企图从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。针对话音的音源编译码器叫做声码器(vocoder)。在话音生成模型中，声道被等效成一个随时间变化的滤波器，叫做时变滤波器(time-varying filter)，它由白噪声无声话音段激励，或者由脉冲串有声话音段激励。因此需要传送给解码器的信息就是滤波器的规格、发声或者不发声的标志和有声话音的音节周期，并且每隔1020 ms更新一次。声码器的模型参数既可使用时域的方法也可以使用频域的方法确定，这项任务由编码器完成。这种声码器的数据率在2.4 kb/s左右，产生的语音虽然可以听懂，但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事，这是因为受到话音生成模型的限制。尽管它的音质比较低，但它的保密性能好，因此这种编译码器一直用在军事上，3. 混合编译码混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。波形编译码器虽然可提供高话音的质量，但数据率低于16 kb/s的情况下，在技术上还没有解决音质的问题；声码器的数据率虽然可降到2.4 kb/s甚至更低，但它的音质根本不能与自然话音相提并论。为了得到音质高而数据率又低的编译码器，历史上出现过很多形式的混合编译码器，但最成功并且普遍使用的编译码器是时域合成-分析(analysis-by-synthesis，AbS)编译码器。这种编译码器使用的声道线性预测滤波器模型与线性预测编码(linear predictive coding，LPC)使用的模型相同，不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号，而是企图寻找这样一种激励信号，使用这种信号激励产生的波形尽可能接近于原始话音的波形。AbS编译码器由Atal和Remde在1982年首次提出，并命名为多脉冲激励(multi-pulse excited，MPE)编译码器，在此基础上随后出现的是等间隔脉冲激励(regular-pulse excited，RPE)编译码器、码激励线性预测CELP(code excited linear predictive)编译码器和混合激励线性预测(mixed excitation linear prediction，MELP)等编译码器。AbS编译码器的一般结构如图3-06所示。(a) 编码器(b) 译码器图3-06 AbS编译码器的结构AbS编译码器把输入话音信号分成许多帧(frames)，一般来说，每帧的长度为20 ms。合成滤波器的参数按帧计算，然后确定滤波器的激励参数。从图3-06(a)可以看到，AbS编码器是一个负反馈系统，通过调节激励信号可使话音输入信号与重构的话音信号之差为最小，也就是重构的话音与实际的话音最接近。这就是说，编码器通过“合成”许多不同的近似值来“分析”输入话音信号，这也是“合成-分析编码器”名称的来由。在表示每帧的合成滤波器的参数和激励信号确定之后，编码器就把它们存储起来或者传送到译码器。在译码器端，激励信号馈送给合成滤波器，合成滤波器产生重构的话音信号，如图3-06(b)所示。合成滤波器通常使用全极点(all pole)的短期(short-term)线性滤波器，它的函数如：其中是预测误差滤波器，这个滤波器是按照这样的原则确定的：当原始话音段通过该滤波器时产生的残留信号的能量最小。滤波器的极点数的典型值等于10。这个滤波器企图去模拟由于声道作用而引入的话音相关性。合成滤波器也可以包含音节(pitch)滤波器，用来模拟话音中出现的长期预测。MPE和RPE编译码器一般不使用音节滤波器，对于CELP编译码器，音节滤波器则显得非常重要。图3-06中的“误差加权”方框用来塑造误差信号谱的形状，目的是减少误差信号的主观响度。这样做的想法是，在话音信号能量很高的频段中，误差信号至少有部分能够被高能量的话音掩蔽掉。AbS编译码器的性能与如何选择激励合成滤波器的波形u(n)有很大关系。从概念上说，可把每一种可能的波形输送给合成滤波器试试看，这种激励信号将会产生什么样的重构话音信号，它和原始话音信号之间的误差如何变化，然后选择产生最小加权误差的激励信号，并把它作为译码器中的合成滤波器的驱动信号。由于编码器是一个闭环系统，因此可以获得比较高的音质而数据率又比较低。但由于可能的激励信号的数目巨大，因此需要有某种方法来减少计算的复杂性而音质又不会牺牲太大。MPE，RPE和CELP编译码器之间的差别在于所使用的激励信号的表示方法。在MPE中，对每帧话音所用的激励信号u(n)是固定数目的脉冲，在一帧中脉冲的位置和幅度必须由编码器来确定，这在理论上可以找到很好的值，但实际上不太可能，因为计算太复杂。因此在实际上就使用次佳方法，一般来说，每5 ms使用4个脉冲，在数据率为10 kb/s时可以获得好的重构话音。像MPE那样，RPE编译码器使用固定间隔的脉冲，于是编码器就只需要确定第一个激励脉冲的位置和所有其他脉冲的幅度，所需要的脉冲位置信息也就可以减少，而脉冲的数目则比MPE使用的数目多。数据率在10 kb/s左右时，每5 ms可使用10个脉冲，比MPE多6个，产生比MPE音质高一些的重构话音。然而RPE仍然显得比较复杂，因此欧洲的GSM移动电话系统使用了一个带长期预测的简化了的RPE编译码器，数据率为13 kb/s。虽然MPE和RPE编译码器在10 kb/s左右的数据率下可提供好的音质，但数据率低于10 kb/s情况下提供的音质还不能接受，这是因为它们需要提供大量有关激励脉冲的位置和幅度信息。对要求音质好而数据率又低于10 kb/s的编译码器，现在普遍使用的算法是1985年由Schroeder和Atal提出的CELP算法。与MPE和RPE的不同之处是，CELP使用的激励信号是量化矢量。激励信号由一个矢量量化大码簿的表项给出，还有一个增益项用来扩展它的功率。典型的码簿索引有10位，就是有1024个表项的码簿，增益用5位表示。因此激励信号的位数可以减少到15位，这与GSM RPE编译码器中使用的47位相比减少了32位。CELP最初使用的码簿包含白高斯序列(white Gaussian sequences)，这是因为作了这样的假设：长期预测和短期预测能够从话音信号中去除几乎所有的冗余度，产生随机的像噪声那样的残留信号。试验也显示出短期概率密度函数几乎是高斯状的。Schroeder和Atal发现，对长期和短期滤波器使用这样的码簿能够产生高质量的话音。然而，在合成-分析过程中要选择使用哪一个码簿表项，这就意味每一个激励序列都要传送给合成滤波器，看看重构话音与原始话音的近似程度。这也就是说原始CELP编译码器的计算量太大，难以实时执行。从1985年开始，在简化CELP的码簿结构方面做了大量的工作，使用数字信号处理(DSP)芯片提高执行速度方面也取得了很大的进展，因此现在在低成本的单片DSP上实时执行CELP算法相对容易了，在CELP基础上制定了好几个重要的话音编码标准，例如美国的“Department of Defence(DoD) 4.8 kb/s codec”标准和CCITT的“low-delay 16 kb/s codec”标准。CELP编译码器在话音通信中取得了很大成功，话音的速率在4.8 kb/s16 kb/s之间。近年来对运行在4.8 kb/s以下的编译码器作了大量的研究工作，其目标是开发运行在2.4 kb/s或者更低数据率下的编译码器。通过对话音段进行分类，例如分成浊音帧、清音帧和过渡帧，CELP编译码器的结构可以进一步得到改善，不同类型的话音段使用专门设计的编码器进行编码。例如，对于浊音帧编码器不使用长期预测，而对于清音帧使用长期预测就显得特别重要。这种按话音类型设计的编译码器在数据率为2.4 kb/s下呈现的音质已经得到认可。多带激励MBE(multi-band excitation)编译码器把频域中的某些频段看成是浊音频段，其他频段看成是清音频段。它们传送每帧的音节周期、频谱的幅度和相位信息以及浊音/清音的判决。这种编译码器经过改造以后也显示出了它的潜力，在低数据率下可提供认可的音质。在数据率为2.4 kb/s64 kb/s的范围里，部分编码器的MOS分数大致如表3-01所示。表3-01 部分编码器的MOS分编码器MOS分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/s码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.53.2 脉冲编码调制(PCM)3.2.1 PCM的概念脉冲编码调制(pulse code modulation，PCM)是概念上最简单、理论上最完善的编码系统，是最早研制成功、使用最为广泛的编码系统，但也是数据量最大的编码系统。PCM的编码原理比较直观和简单，它的原理框图如图307所示。在这个编码框图中，它的输入是模拟声音信号，它的输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号；“波形编码器”可暂时理解为“采样器”，“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。图3-07 PCM编码框图在第2章介绍声音数字化的时候，谈到声音数字化有两个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法，但可归纳成两类：一类称为均匀量化，另一类称为非均匀量化。采用的量化方法不同，量化后的数据量也就不同。因此，可以说量化也是一种压缩数据的方法。3.2.2 均匀量化如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图3-08所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。图3-08 均匀量化用这种方法量化输入信号时，无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应幅度大的输入信号，同时又要满足精度要求，就需要增加样本的位数。但是，对话音信号来说，大信号出现的机会并不多，增加的样本位数就没有充分利用。为了克服这个不足，就出现了非均匀量化的方法，这种方法也叫做非线性量化。3.2.3 非均匀量化非线性量化的基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，如图3-09所示。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时，采用相同的规则。在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为m 律压扩(companding)算法，另一种称为A律压扩算法。图3-09 非均匀量化3.2.4 m 律压扩m 律(m -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中，按下面的式子确定量化输入和输出的关系：式中：x为输入信号幅度，规格化成 ;sgn(x)为x的极性；m 为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取100 m 500。由于m 律压扩的输入和输出关系是对数关系，所以这种编码又称为对数PCM。具体计算时，用m 255，把对数曲线变成8条折线以简化计算过程。详细计算请看参考文献17。3.2.5 A律压扩A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中，按下面的式子确定量化输入和输出的关系：0 |x| 1/A1/A |x| 1式中：x为输入信号幅度，规格化成 -1 x 1;sgn(x)为x的极性；A为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。A律压扩的前一部分是线性的，其余部分与m 律压扩相同。具体计算时，A87.56，为简化计算，同样把对数曲线部分变成折线。详细计算请看参考文献17。对于采样频率为8 kHz，样本精度为13位、14位或者16位的输入信号，使用m 律压扩编码或者使用A律压扩编码，经过PCM编码器之后每个样本的精度为8位，输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准：话音频率脉冲编码调制(Pulse Code Modulation (PCM) of Voice Frequences)。3.3 PCM在通信中的应用PCM编码早期主要用于话音通信中的多路复用。一般来说，在电信网中传输媒体费用约占总成本的65%，设备费用约占成本的35%，因此提高线路利用率是一个重要课题。提高线路利用率通常用下面两种方法：1. 频分多路复用 (frequency-division multiplexing，FDM)这种方法是把传输信道的频带分成好几个窄带，每个窄带传送一路信号。例如，一个信道的频带为1400 Hz，把这个信道分成4个子信道(subchannels)：820990 Hz, 12301400 Hz, 16401810 Hz和20502220 Hz，相邻子信道间相距240 Hz，用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。(2) 时分多路复用(time-division multiplexing，TDM)这种方法是把传输信道按时间来分割，为每个用户指定一个时间间隔，每个间隔里传输信号的一部分，这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。例如，话音信号的采样频率f8000 Hz，它的采样周期125 m s，这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格：24路制和30路制。图3-10表示了24路制的结构。图3-10 24路PCM的帧结构24路制的重要参数如下：1. 每秒钟传送8000帧，每帧125 m s。 2. 12帧组成1复帧(用于同步)。 3. 每帧由24个时间片(信道)和1位同步位组成。 4. 每个信道每次传送8位代码，1帧有24 8 1193位(位)。 5. 数据传输率R80001931544 kb/s。 6. 每一个话路的数据传输率80008=64 kb/s。30路制的重要参数如下：1. 每秒钟传送8000帧，每帧125 m s。 2. 16帧组成1复帧(用于同步)。 3. 每帧由32个时间片(信道)组成。 4. 每个信道每次传送8位代码。 5. 数据传输率：R80003282048 kb/s。 6. 每一个话路的数据传输率80008=64 kb/s。时分多路复用(TDM)技术已广泛用在数字电话网中，为反映PCM信号复用的复杂程度，通常用“群(group)”这个术语来表示，也称为数字网络的等级。PCM通信方式发展很快，传输容量已由一次群(基群)的30路(或24路)，增加到二次群的120路(或96路)，三次群的480路(或384路)，。图3-11表示二次复用的示意图。图中的N表示话路数，无论N30还是N24，每个信道的数据率都是64 kb/s，经过一次复用后的数据率就变成2048 kb/s(N30)或者1544 kb/s(N24)。在数字通信中，具有这种数据率的线路在北美叫做T1远距离数字通信线，提供这种数据率服务的级别称为T1等级，在欧洲叫做E1远距离数字通信线和E1等级。T1/E1，T2/E2，T3/E3，T4/E4和T5/E5的数据率如表3-02所示。请注意，上述基本概念都是在多媒体通信中经常用到的。图3-11 二次复用示意图表3-02 多次复用的数据传输率数字网络等级T1/E1T2/E2T3/E3T4/E4T5/E5美国64 kb/s话路数24966724.32总传输率(Mb/s)1.5446.51244.736274.176数字网络等级12345欧洲64 kb/s话路数3012048019207680总传输率(Mb/s)2.0488.44834.368139.2645600日本64 kb/s话路数24964801440总传输率(Mb/s)1.5446.31232.06497.7283.4 增量调制与自适应增量调制由于DM编码的简单性，它已成为数字通信和压缩存储的一种重要方法，很多人对最早在1946年发明的DM系统做了大量的改进和提高工作。后来的自适应增量调制ADM系统采用十分简单的算法就能实现32 kb/s48 kb/s的数据率，而且可提供高质量的重构话音，它的MOS评分可达到4.3分左右。3.4.1 增量调制(DM)增量调制也称调制(delta modulation，DM)，它是一种预测编码技术，是PCM编码的一种变形。PCM是对每个采样信号的整个幅度进行量化编码，因此它具有对任意波形进行编码的能力；DM是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反。由于DM编码只须用1位对话音信号进行编码，所以DM编码系统又称为“1位系统”。DM波形编码的原理如图3-12所示。纵坐标表示“模拟信号输入幅度”，横坐标表示“编码输出”。用表示采样点的位置，表示在点的编码输出。输入信号的实际值用表示，输入信号的预测值用表示。假设采用均匀量化，量化阶的大小为，在开始位置的输入信号，预测值，编码输出。现在让我们看几个采样点的输出。在采样点=1处，预测值，由于实际输入信号大于预测值，因此；；在采样点=4处，预测值，同样由于实际输入信号大于预测值，因此；其他情况依此类推。从图3-12中可以看到，在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象就称为增量调制器的“斜率过载”(slope overload)。一般来说，当输入信号的变化速度超过反馈回路输出信号的最大变化速度时，就会出现斜率过载。之所以会出现这种现象，主要是反馈回路输出信号的最大变化速率受到量化阶大小的限制，因为量化阶的大小是固定的。从图3-12中还可以看到，在输入信号缓慢变化部分，即输入信号与预测信号的差值接近零的区域，增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granular noise)，这种噪声是不可能消除的。图3-12 DM波形编码示意图在输入信号变化快的区域，斜率过载是关心的焦点，而在输入信号变化慢的区域，关心的焦点是粒状噪声。为了尽可能避免出现斜率过载，就要加大量化阶，但这样做又会加大粒状噪声；相反，如果要减小粒状噪声，就要减小量化阶，这又会使斜率过载更加严重。这就促进了对自适应增量调制(adaptive delta modulation，ADM)的研究。3.4.2 自适应增量调制(ADM)为了使增量调制器的量化阶能自适应，也就是根据输入信号斜率的变化自动调整量化阶的大小，以使斜率过载和粒状噪声都减到最小，许多研究人员研究了各种各样的方法，而且几乎所有的方法基本上都是在检测到斜率过载时开始增大量化阶，而在输入信号的斜率减小时降低量化阶。例如，宋(Song)在1971描述的自适应增量调制技术中提出：假定增量调制器的输出为1和0，每当输出不变时量化阶增大50%，使预测器的输出跟上输入信号；每当输出值改变时，量化阶减小50%，使粒状噪声减到最小，这种自适应方法使斜率过载和粒状噪声同时减到最小。又如，使用较多的另一种自适应增量调制器是由格林弗基斯(Greefkes)1970提出的，称为连续可变斜率增量调制(continuously variable slope delta modulation，CVSD)。它的基本方法是：如果连续可变斜率增量调制器(continuously variable slope delta modulator，CVSD)的输出连续出现三个相同的值，量化阶就加上一个大的增量，反之，就加一个小的增量。为了适应数字通信快速增长的需要，Motorola公司于80年代初期就已经开发了实现CVSD算法的集成电路芯片。如MC3417/MC3517和MC3418/MC3518，前者采用3位算法，后者采用4位算法。MC3417/MC3517用于一般的数字通信，MC3418/MC3518用于数字电话。MC3417/MC3418用于民用，MC3517/MC3518用于军用。3.5 自适应差分脉冲编码调制G.711使用A律或律PCM方法对采样率为8 kHz的声音数据进行压缩，压缩后的数据率为64 kb/s。为了提高充分利用线路资源，而又不希望明显降低传送话音信号的质量，就要对它作进一步压缩，方法之一就是采用ADPCM。3.5.1 自适应脉冲编码调制(APCM)的概念自适应脉冲编码调制(adaptive pulse code modulation，APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。改变量化阶大小的方法有两种：一种称为前向自适应(forward adaptation)，另一种称为后向自适应(backward adaptation)。前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶，所以它不需要传送边信息。前向自适应和后向自适应APCM的基本概念，如图3-13所示。图中的是发送端编码器的输入信号，是接收端译码器输出的信号。 (a) 前向自适应(b) 后向自适应图3-13 APCM方块图3.5.2 差分脉冲编码调制(DPCM)的概念差分脉冲编码调制DPCM(differential pulse code modulation)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是，根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。此外，它还能适应大范围变化的输入信号。差分脉冲编码调制的概念示于图3-14。图中，差分信号是离散输入信号和预测器输出的估算值之差。注意，是对的预测值，而不是过去样本的实际值。DPCM系统实际上就是对这个差值进行量化编码，用来补偿过去编码中产生的量化误差。DPCM系统是一个负反馈系统，采用这种结构可以避免量化误差的积累。重构信号是由逆量化器产生的量化差分信号，与对过去样本信号的估算值求和得到。它们的和，即作为预测器确定下一个信号估算值的输入信号。由于在发送端和接收端都使用相同的逆量化器和预测器，所以接收端的重构信号可从传送信号获得。图3-14 DPCM方块图3.5.3 自适应差分脉冲编码调制(ADPCM)ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值,使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图3-15所示。接收端的译码器使用与发送端相同的算法，利用传送来的信号来确定量化器和逆量化器中的量化阶大小，并且用它来预测下一个接收信号的预测值。图3-15 ADPCM方块图3.5.4 G.721 ADPCM编译码器ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术，CCITT为此制定了G.721推荐标准，这个标准叫做32 kb/s自适应差分脉冲编码调制32 kb/s Adaptive Differential Pulse Code Modulation7。在此基础上还制定了G.721的扩充推荐标准，即G.723 Extension of Recommendation G.721 Adaptive Differential Pulse Code Modulation to 24 and 40 kb/s for Digital Circuit Multiplication Equipment Application，使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。CCITT推荐的G.721 ADPCM标准是一个代码转换系统。它使用ADPCM转换技术，实现64 kb/s A律或律PCM速率和32 kb/s速率之间的相互转换。G.721 ADPCM的简化框图如图3-16所示。(a) ADPCM编码器(b) ADPCM译码器图3-16 G.721 ADPCM简化框图在图3-16(a)所示的编码器中，A律或律PCM输入信号转换成均匀的PCM。差分信号等于均匀的PCM输入信号与预测信号之差。“自适应量化器”用4位二进制数表示差分信号，但只用其中的15个数(即15个量级)来表示差分信号，这是为防止出现全“0”信号。“逆自适应量化器”从这4位相同的代码中产生量化差分信号。预测信号和这个量化差分信号相加产生重构信号。“自适应预测器”根据重构信号和量化差分信号产生输入信号的预测信号，这样就构成了一个负反馈回路。G.721 ADPCM编译码器的输入信号是G.711 PCM代码，采样率是8 kHz，每个代码用8位表示，因此它的数据率为64 kb/s。而G.721 ADPCM的输出代码是“自适应量化器”的输出，该输出是用4位表示的差分信号，它的采样率仍然是8 kHz，它的数据率为32 kb/s，这样就获得了21的数据压缩。在图3-16(b)所示的译码器中，译码器的部分结构与编码器负反馈回路部分相同。此外，还包含有均匀PCM到A律或律PCM的转换部分，以及同步编码调整(synchronous coding adjustment)部分。设置同步(串行)编码调整的目的是为防止在同步串行编码期间出现的累积信号失真。3.5 自适应差分脉冲编码调制G.711使用A律或律PCM方法对采样率为8 kHz的声音数据进行压缩，压缩后的数据率为64 kb/s。为了提高充分利用线路资源，而又不希望明显降低传送话音信号的质量，就要对它作进一步压缩，方法之一就是采用ADPCM。3.5.1 自适应脉冲编码调制(APCM)的概念自适应脉冲编码调制(adaptive pulse code modulation，APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。改变量化阶大小的方法有两种：一种称为前向自适应(forward adaptation)，另一种称为后向自适应(backward adaptation)。前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶，所以它不需要传送边信息。前向自适应和后向自适应APCM的基本概念，如图3-13所示。图中的是发送端编码器的输入信号，是接收端译码器输出的信号。 (a) 前向自适应(b) 后向自适应图3-13 APCM方块图3.5.2 差分脉冲编码调制(DPCM)的概念差分脉冲编码调制DPCM(differential pulse code modulation)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是，根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。此外，它还能适应大范围变化的输入信号。差分脉冲编码调制的概念示于图3-14。图中，差分信号是离散输入信号和预测器输出的估算值之差。注意，是对的预测值，而不是过去样本的实际值。DPCM系统实际上就是对这个差值进行量化编码，用来补偿过去编码中产生的量化误差。DPCM系统是一个负反馈系统，采用这种结构可以避免量化误差的积累。重构信号是由逆量化器产生的量化差分信号，与对过去样本信号的估算值求和得到。它们的和，即作为预测器确定下一个信号估算值的输入信号。由于在发送端和接收端都使用相同的逆量化器和预测器，所以接收端的重构信号可从传送信号获得。图3-14 DPCM方块图3.5.3 自适应差分脉冲编码调制(ADPCM)ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值,使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图3-15所示。接收端的译码器使用与发送端相同的算法，利用传送来的信号来确定量化器和逆量化器中的量化阶大小，并且用它来预测下一个接收信号的预测值。图3-15 ADPCM方块图3.5.4 G.721 ADPCM编译码器ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术，CCITT为此制定了G.721推荐标准，这个标准叫做32 kb/s自适应差分脉冲编码调制32 kb/s Adaptive Differential Pulse Code Modulation7。在此基础上还制定了G.721的扩充推荐标准，即G.723 Extension of Recommendation G.721 Adaptive Differential Pulse Code Modulation to 24 and 40 kb/s for Digital Circuit Multiplication Equipment Application，使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。CCITT推荐的G.721 ADPCM标准是一个代码转换系统。它使用ADPCM转换技术，实现64 kb/s A律或律PCM速率和32 kb/s速率之间的相互转换。G.721 ADPCM的简化框图如图3-16所示。(a) ADPCM编码器(b) ADPCM译码器图3-16 G.721 ADPCM简化框图在图3-16(a)所示的编码器中，A律或律PCM输入信号转换成均匀的PCM。差分信号等于均匀的PCM输入信号与预测信号之差。“自适应量化器”用4位二进制数表示差分信号，但只用其中的15个数(即15个量级)来表示差分信号，这是为防止出现全“0”信号。“逆自适应量化器”从这4位相同的代码中产生量化差分信号。预测信号和这个量化差分信号相加产生重构信号。“自适应预测器”根据重构信号和量化差分信号产生输入信号的预测信号，这样就构成了一个负反馈回路。G.721 ADPCM编译码器的输入信号是G.711 PCM代码，采样率是8 kHz，每个代码用8位表示，因此它的数据率为64 kb/s。而G.721 ADPCM的输出代码是“自适应量化器”的输出，该输出是用4位表示的差分信号，它的采样率仍然是8 kHz，它的数据率为32 kb/s，这样就获得了21的数据压缩。在图3-16(b)所示的译码器中，译码器的部分结构与编码器负反馈回路部分相同。此外，还包含有均匀PCM到A律或律PCM的转换部分，以及同步编码调整(synchronous coding adjustment)部分。设置同步(串行)编码调整的目的是为防止在同步串行编码期间出现的累积信号失真。3.6 G.722 SB-ADPCM编译码器为了适应可视电话会议日益增长的迫切需要，1988年CCITT为此制定了G.722推荐标准，叫做“数据率为64 kb/s的7 kHz声音信号编码7 kHz Audio-coding with 64 kb/s”89。这个标准把话音信号的质量由电话质量提高到AM无线电广播质量，而其数据传输率仍保持为64 kb/s。宽带话音是指带宽在507000 Hz的话音，这种话音在可懂度和自然度方面都比带宽为3003400的话音有明显的提高

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第3章话音编码.doc

文档简介

温馨提示

最新文档

评论

第3章 话音编码.doc

文档简介

温馨提示

最新文档

评论

相关文档

第3章话音编码.doc