第三章语音编码

上传人：v*** IP属地：湖北上传时间：2022-07-01 格式：PPT 页数：62 大小：1.17MB 积分：28 举报 版权申诉

已阅读5页，还剩57页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第第3 3章章话音编码话音编码 3.1 话音编码概要3.2 脉冲编码调制(PCM) 3.3 PCM在通信中的应用3.4 增量调制与自适应增量调制 3.5自适应差分脉冲编码调制3.6 G.722 SB-ADPCM编译码器 3.7 线性预测编码(LPC)的概念 3.8 GSM编译码器简介 3.1 话音编码概要话音编码概要一、一、话音波形的特性话音波形的特性声道可以认为是一个滤波器，压缩空气通过声门激励声道滤波器，根据激励方式不同，发出的话音分成三种类型：浊音(voiced sounds)：清音(unvoiced sounds)爆破音(plosive sounds)。 3.1 话音编码概要话音编码

2、概要浊音浊音：浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音，这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。 3.1 话音编码概要话音编码概要清音清音：清音是由不稳定气流激励所产生的，这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的。 3.1 话音编码概要话音编码概要爆破音：爆破音：爆破音是在声道关闭之后产生的压缩空气然后突然打开声道所发出的音。 3.1 话音编码概要话音编码概要二、二、三种话音编译码器三种话音编译码器话音编译码器分成以下三种类型：波形编译码器(waveform codecs)：话音质量高，但数据率也

3、很高音源编译码器(source codecs)：数据率很低，产生的合成话音的音质差混合编译码器(hybrid codecs)：数据率和音质介于它们之间 3.1 话音编码概要话音编码概要普通编译码器的音质与数据率 3.1 话音编码概要话音编码概要1 1、波形编译码器波形编译码器最简单的波形编码是脉冲编码调制(pulse code modulation，PCM)，它仅仅是对输入信号进行采样和量化。可采用非线性量化来降低数据率，如律和A律。优点是编译码器简单，延迟时间短，音质高缺点是数据速率比较高，对传输通道的错误比较敏感。 3.1 话音编码概要话音编码概要预测技术：从过去的样本来预测下一

4、个样本的值差分脉冲编码调制(d differential p pulse c code m modulation，DPCM)的基础对预测的样本值与原始的样本值之差差进行编码 3.1 话音编码概要话音编码概要 DPCM对幅度急剧变化的输入信号会产生比较大的噪声，改进的方法之一就是使用自适应的预测器和量化器自适应差分脉冲编码调制自适应差分脉冲编码调制(adaptive (adaptive differential PCMdifferential PCM，ADPCM)ADPCM) 有16，24，32，40 kb/s的ADPCM标准。其中32 kb/s的ADPCM标准的音质非常接近64 kb/s的PC

5、M编译码器。 3.1 话音编码概要话音编码概要时域法时域法(time domain approach)：在时域里的编译码方法，如DPCM、ADPCM。频域法频域法(frequency domain approach):如子带编码和自适应变换编码。 3.1 话音编码概要话音编码概要子带编码子带编码(sub-band coding(sub-band coding，SBC)SBC)：输入的话音信号被分成好几个频带(即子带)，变换到每个子带中的话音信号都进行独立编码，例如使用ADPCM编码器编码，在接收端，每个子带中的信号单独解码之后重新组合，然后产生重构话音信号。由于对不同的子带单独编码，从而可以

6、对不同的子带分配不同的量化位数。3.1 话音编码概要话音编码概要自适应变换编码自适应变换编码(adaptive transform coding(adaptive transform coding，ATCATC) )：使用快速变换(例如离散余弦变换)把话音信号分成许许多多的频带，用来表示每个变换系数的位数取决于话音谱的性质。 3.1 话音编码概要话音编码概要2 2、音源编译码器音源编译码器从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。针对话音的音源编译码器叫做声码器(vocoder)。声道被等效成一个随时间变化的滤波器，叫做时变滤波器。如LPC(线性预测编

7、码)。3.1 话音编码概要话音编码概要3. 3. 混合编译码混合编译码利用波形编码的高质量和音源编码的高压缩率。如时域合成-分析(a analysis-b by-s synthesis，AbS)编译码器：使用的声道线性预测滤波器模型与线性预测编码(l linear p predictive c coding，LPC)使用的模型相同，但不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号，而使用其它的激励信号。话音信号分成许多帧(frames)，一般来说，每帧的长度为20 ms。合成滤波器的参数按帧计算，然后确定滤波器的激励参数。得到激励参数和激励信号进行存储。3.1 话音编码概要话

8、音编码概要激励信号馈送给合成滤波器，合成滤波器产生重构的话音信号。3.1 话音编码概要话音编码概要3.1 话音编码概要话音编码概要多脉冲激励(m multi-p pulse e excited，MPE)编译码器等间隔脉冲激励(r regular-p pulse e excited，RPE)编译码器码激励线性预测(c code e excited l linear p predictive，CELP)编译码器混合激励线性预测(m mixed e excitation l linear p prediction，MELP)等 3.1 话音编码概要话音编码概要MPE，RPE和CELP编译码器之间的

9、差别在于所使用的激励信号的表示方法：MPE中，对每帧话音所用的激励信号u(n)是固定数目的脉冲； RPE编译码器使用固定间隔的脉冲，但脉冲的数目则比MPE使用的数目多；CELP使用的激励信号是量化矢量，激励信号由一个矢量量化大码簿的表项给出。 3.1 话音编码概要话音编码概要编码器MOS分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/s码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.53.

10、2 脉冲编码调制脉冲编码调制(PCM) 一、一、PCMPCM的概念的概念脉冲编码调制(pulse code modulation，PCM)的编码原理比较直观和简单，它的原理框图如下图所示： “防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号 “波形编码器”可暂时理解为“采样器” “量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器 3.2 脉冲编码调制脉冲编码调制(PCM)量化但可归纳成两类：一类称为均匀量化另一类称为非均匀量化采用的量化方法不同，量化后的数据量也就不同。因此，可以说量化也是一种压缩数据的方法。 3.2 脉冲编码调制脉冲编码调制(P

11、CM)二、均匀量化二、均匀量化如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。也称为线性量化。量化误差或量化噪声：量化后的样本值Y和原始值X的差E=Y-X 3.2 脉冲编码调制脉冲编码调制(PCM)三、三、非均匀量化非均匀量化基本想法：对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。有两种算法：律压扩算法A律压扩算法四、四、律压扩律压扩律(-Law)压扩(G.711标准）量化输入和输出的关系：式中：x为输入信号幅度，规格化成 ; sgn(x)为x的极性；为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取100

12、500。3.2 脉冲编码调制脉冲编码调制(PCM)1ln(|)|1ln()sgn()(xxxF11x五、五、A A律压扩律压扩 A律(A-Law)压扩(G.711) 0 |x| 1/A 1/A |x| 1式中：x为输入信号幅度，规格化成 -1 x 1; sgn(x)为x的极性； A为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。 3.2 脉冲编码调制脉冲编码调制(PCM)AxAxxFAln1|)sgn()(AxAxxFAln1|)|ln(1)sgn()(3.2 脉冲编码调制脉冲编码调制(PCM) G.711标准：话音频率脉冲编码调制(Pulse Code Modulation (PC

13、M) of Voice Frequences)。对于采样频率为8 kHz，样本精度为13位、14位或者16位的输入信号，使用律压扩编码或者使用A律压扩编码，经过PCM编码器之后每个样本的精度为8位，输出的数据率为64 kb/s。 3.3 PCM在通信中的应用在通信中的应用一、频分多路复用一、频分多路复用频分多路复用 (f frequency-d division m multiplexing，FDM)把传输信道的频带分成好几个窄带，每个窄带传送一路信号。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。例：频分复用 3.3 PCM在通信中的应用在通信中的应用二、二、时分多路复用时分

14、多路复用时分多路复用(time-division multiplexing，TDM)把传输信道按时间来分割，为每个用户指定一个时间间隔，每个间隔里传输信号的一部分，这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。例：时分复用3.3 PCM在通信中的应用在通信中的应用例如，话音信号的采样频率f8000 Hz/s，它的采样周期125 s，在这个时间内在信道上传输多路语音信号，有24路（24个时间片和一个同步位）和30路标准（32个时间片），这些多路信号组成帧。3.3 PCM在通信中的应用在通信中的应用时分多路复用(TDM)技术在数字电话网中用“群(group)”这个术语来表

15、示，现在传输容量已由一次群(基群)的30路(或24路)，增加到二次群的120路(或96路)，三次群的480路(或384路) 3.4 3.4 增量调制与自适应增量调制增量调制与自适应增量调制一、一、增量调制增量调制(DM)(DM) 增量调制也称调制(d delta m modulation，DM)，它是一种预测编码技术，是PCM编码的一种变形。 DM是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。由于DM编码只须用1位对话音信号进行编码，所以DM编码系统又称为“1位系统”。 3.4 3.4 增量调制与自适应增量调制增量调制与自适应增量调制

16、 3.4 3.4 增量调制与自适应增量调制增量调制与自适应增量调制图中用i表示采样点的位置，xi表示在i点的编码输出。输入信号的实际值用yi表示，输入信号的预测值用yi+1= yi表示。假设采用均匀量化，量化阶的大小为，在开始位置的输入信号y0=0，预测值y0=0，编码输出x0=1。当yiyi时， xi=1，否则xi=0。 3.4 3.4 增量调制与自适应增量调制增量调制与自适应增量调制“斜率过载斜率过载”(slope overload) ：增量调制器的输出不能保持跟踪输入信号的快速变化。粒状噪声粒状噪声(granular noise)：在输入信号缓慢变化部分，即输入信号与预测信号的差

17、值接近零的区域，增量调制器的输出出现随机交变的“0”和“1”。产生这种现象的原因是由于量化阶的大小是固定的。为了尽可能避免出现斜率过载，就要加大量化阶，但这样做又会加大粒状噪声；相反，如果要减小粒状噪声，就要减小量化阶。 3.4 3.4 增量调制与自适应增量调制增量调制与自适应增量调制二、自适应增量调制二、自适应增量调制(adaptive delta modulation， ADM) 为了使增量调制器的量化阶能自适应，也就是根据输入信号斜率的变化自动调整量化阶的大小，以使斜率过载和粒状噪声都减到最小。当检测到斜率过载时开始增大量化阶，而在输入信号的斜率减小时降低量化阶。1、输出值不变时，增大

18、量化级50%，输出值改变时，减少量化级50%。2、连续出现三个相同的值，增大量化级，反之减少量化级。称为连续可变斜率增量调制(CVSD)3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制一、一、自适应脉冲编码调制自适应脉冲编码调制(APCM)(APCM)的概念的概念自适应脉冲编码调制(a adaptive p pulse c code m modulation，APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。 3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制改变量化阶大小的方法有两种：1、前向自适应(forward adaptation) 根据未量

19、化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。S(k)Sr(k)缓冲器量化器量化阶适配器逆量化器边信道信道3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制2 2、后向自适应后向自适应(backward adaptation)(backward adaptation) 从量化器刚输出的过去样本中来提取量化阶信息。从量化器刚输出的过去样本中来提取量化阶信息。Sr(k)信道量化器量化阶适配器逆量化器S(k)量化阶适配器3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制二、二、差分脉

20、冲编码调制差分脉冲编码调制(DPCM)(DPCM)的概念的概念差分脉冲编码调制DPCM(d differential p pulse c code m modulation)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。其基本思想是，根据过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。 3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制DPCM结构图3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制三、三、自适应差分脉冲编码调制自适应差分脉冲编码调制(ADPCM

21、)(ADPCM) ADPCM(a adaptive d difference p pulse c code m modulation)的核心想法是：利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值；使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。 3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制ADPCM框图3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制四、四、G.721 ADPCMG.721 ADPCM编译码器编译码器 ADPCM是利用样本与样本之间的高度相关性和

22、量化阶自适应来压缩数据的一种波形编码技术，CCITT为此制定了G.721推荐标准，这个标准叫做32 kb/s自适应差分脉冲编码调制32 kb/s Adaptive Differential Pulse Code Modulation 。 G.723作为G.721的扩充，将编码器的数据率降低到40 kb/s和24 kb/s 3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制ADPCM编码器 “自适应量化器”用4 4位位二进制数表示差分信号3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制ADPCM译码器 3.5 3.5 自适应差分脉冲编码调制自适应差分脉冲编码调制 G.721

23、 ADPCM编译码器的输入信号是G.711 PCM代码，采样率是8 kHz，每个代码用8位表示，因此它的数据率为64 kb/s。而G.721 ADPCM的输出代码是“自适应量化器”的输出，该输出是用4位表示的差分信号，它的采样率仍然是8 kHz，它的数据率为32 kb/s，这样就获得了21的数据压缩。 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器 G.722推荐标准，叫做“数据率为64 kb/s的7 kHz声音信号编码7 kHz Audio-coding with 64 kb/s”。这个标准把话音信号的质量由电话质量提高到AM无线电广播质量，而其数据

24、传输率仍保持为64 kb/s。 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器一、子带编码一、子带编码(SBC) 子带编码(subband coding，SBC)的基本过程是：使用一组带通滤波器(band-pass filter，BPF)把输入音频信号的频带分成若干个连续的频段，每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。在信道上传送时，将每个子带的代码复合起来。在接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，还原成原来的音频信号。 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译

25、码器BPF 1BPF 2编码器BPF N编码器编码器译码器译码器译码器BPF 1BPF 2BPF N分解器复合器编码信道译码x(n)x(n)子带编码方块图 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器采用对每个子带分别编码的好处有二个：第一，对每个子带信号分别进行自适应控制，量化阶(quantization step)的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化，以减少总的量化噪声。第二，可根据每个子带信号在感觉上的重要性，对每个子带分配不同的位数，用来表示每个样本值。 3.6 G.722 SB-ADPCM3.6

26、 G.722 SB-ADPCM编译码器编译码器音频频带的分割可以用树型结构的式样进行划分。首先把整个音频信号带宽分成两个相等带宽的子带：高频子带和低频子带。然后对这两个子带用同样的方法划分，形成4个子带。这个过程可按需要重复下去，以产生2K个子带，K为分割的次数。把音频信号分割成相邻的子带分量之后，用2倍于子带带宽的采样频率对子带信号进行采样，就可以用它的样本值重构出原来的子带信号。 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器 hH(n)hL(n)2:1抽取器2:1抽取器1:2插值器1:2插值器hH(n)hL(n)编信译码码器道器x(

27、n)x(n)低端子带高端子带xHxLxHxLQMF分割频道方框图正交镜象滤波器(q quandrature m mirror f filter，QMF) 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器二、二、子带子带- -自适应差分脉冲编码调制自适应差分脉冲编码调制(SB-(SB-ADPCM)ADPCM) G.722是CCITT推荐的音频信号(audio)编码译码标准。该标准是描述音频信号带宽为7 kHz、数据率为64 kb/s的编译码原理、算法和计算细节。 G.722标准把音频信号采样频率由8 kHz提高到16 kHz，是G.711 PCM采样率的

28、2倍，因而要被编码的信号频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有很大改善，由数字电话的话音质量提高到调幅(AM)无线电广播的质量。 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器 G.722编译码系统采用子带自适应差分脉冲编码调制(s sub-b band a adaptive d differential p pulse c code m modulation，SB-ADPCM)技术。在这个系统中，用正交镜象滤波器(QMF)把频带分割成两

29、个等带宽的子带，分别是高频子带和低频子带。在每个子带中的信号都用ADPCM进行编码。 3.6 G.722 SB-ADPCM3.6 G.722 SB-ADPCM编译码器编译码器 outX 发送正交镜象滤波器高子带 ADPCM 编码器低子带 ADPCM 编码器高子带 ADPCM 译码器低子带 ADPCM 译码器多路复合器多路分解器数据插入部件数据抽出部件附加数据 0, 8, 16 kbps 附加数据 0, 8, 16 kbps 声音数据传送部件声音数据传送部件音频信号输出音频信号输入 inX HX LX HY LY HI HI LI LI 16 kbps 16 kbps 48 kbps 48 kbps 接收正交镜象滤波器 7 kHz音频信号64 kb/s数

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章语音编码

文档简介

温馨提示

最新文档

评论

第三章语音编码

文档简介

温馨提示

最新文档

评论

相关文档