多媒体技术基础03

上传人：活*** IP属地：宁夏上传时间：2021-10-12 格式：PPT 页数：37 大小：379KB 积分：15 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、图形图像处理实验室第三讲话音编码(speech coding) 图形图像处理实验室主要内容话音编码概要三种话音编译码器脉冲编码调制(pcm) 增量调制与自适应增量调制(dm/adm) 自适应差分脉冲编码调制(adpcm) 子带编码(sbc) 其他编码图形图像处理实验室话音编码概要话音形成原理: 肺中的空气受到挤压形成气流，气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去，就形成了话音。气流、声门可以等效为一个激励源，声道可以等效为一个时变滤波器(共振峰)。话音信号具有很强的相关性(长期相关、短期相关 )。图形图像处理实验室话音分类: 浊音(voice

2、d sounds)：声道打开，声带在先打开后关闭，气流经过使声带要发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。清音(unvoiced sounds)：声带不振动，而在某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。爆破音(plosive sounds)：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。话音编码概要(续) 图形图像处理实验室幅度非均匀分布样本之间的相关性周期之间的相关性基音之间的相关性静止系数(话音间隙) 长期相关性(long term

3、 correlation) 话音编码概要(续) 图形图像处理实验室波形编译码器(waveform coder)：不利用生成话音的信号的任何知识，将话音视为一种普通的声音，直接对波形信号进行采样和量化。例如pcm、dpcm、 adpcm等。音源编译码器(source coder)：也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取话音生成模型的参数，使用这些参数通过话音生成模型重构出话音。混合编译码器(hybrid coder)：综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如celp。三种话音编译码器图形图像处理实验室三种话

4、音编译码器(续) 三种话音编译码器质量对比图形图像处理实验室衡量编译码器的重要指标: 1. 数据输出速率 2. 延迟时间 3. 话音质量 4. 价格(实现代价) 三种话音编译码器(续) 图形图像处理实验室话音质量: 广播质量：带宽为7000hz的高质量话音长途电话质量：带宽为3400hz，信噪比为30db，有失真合成质量：8090的可懂度，听起来象机器讲话，失去了讲话者的特征三种话音编译码器(续) 图形图像处理实验室脉冲编码调制(pcm) pulse code modulation 图形图像处理实验室 pcm编码的量化方式:均匀量化与非均匀量化脉冲编码调制(pcm)(续)

5、均匀量化非均匀量化图形图像处理实验室非均匀量化:对小的输入信号采用小的量化间隔，对大的输入信号采用大的量化间隔，这样可以用较少的位数编码声音信号。对大信号来说，虽然绝对量化误差较大，但是因为： (1)大信号出现的机会不多。 (2)大信号的信噪比(相对误差)与小信号是一致的，所以对总的话音质量影响不大。非均匀量化也是一种压缩。非均匀量化有两种压扩算法：律压扩和a律压扩脉冲编码调制(pcm)(续) 图形图像处理实验室律压扩 m律(m -law)压扩(g.711)主要用在北美和日本等地区的数字电话通信中。 x为输入信号，规格化为1= x =1。 sgn(x)为x的极性。 m为确

6、定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取100=m=500。图形图像处理实验室 a律压扩 0 0 = | |x x| | = 1/a 1/a 1/a1/a = | |x x| | = 1 1 a律(a-law)压扩(g.711)主要用在欧洲和中国大陆等地区的数字电话通信中 x为输入信号，规格化为1= x =1。 sgn(x)为x的极性。 a为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。a律压扩前一部分是线性的，其余与律压扩相同，a取87.56。图形图像处理实验室律压扩的输入与输出是对数关系，所这种编码又称为对数pcm。对于采样频率为8khz，样本精

7、度为13位、14位或者16位的输入信号，使用m律压扩编码或者使用a律压扩编码，经过pcm编码器之后每个样本的精度为8位，输出的数据率为 64 kb/s。这个数据就是ccitt推荐的g.711标准。脉冲编码调制(pcm)(续) 图形图像处理实验室 pcm与时分多路复用(tdm) 图形图像处理实验室增量调制(m) 增量调制(delta modulation，dm)是一种预测编码技术，是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成 “0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为 “正”，则用“1”表示；相反则用“0”表示。 dm

8、编码系统又称为“1位系统”。如下图所示。图形图像处理实验室增量调制(m)(续) 如上图所示，dm调制会出现两种失真现象: 斜率过载和粒状噪声。图形图像处理实验室斜率过载从上图可以看到，在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象就称为增量调制器的“斜率过载”(slope overload)。一般来说，当输入信号的变化速度超过反馈回路输出信号的最大变化速度时，就会出现斜率过载。之所以会出现这种现象，主要是反馈回路输出信号的最大变化速率受到量化阶大小的限制，因为量化阶的大小是固定的。图形图像处理实验室粒状噪声从上图中还可以看到，在输入信号缓慢变

9、化部分，即输入信号与预测信号的差值接近零的区域，增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granular noise)，这种噪声是不可能消除的。解决这两种失真现象的方式就是自适应增量调制。图形图像处理实验室自适应增量调制(adm) 自适应增量调制(adm)：为了使增量调制器的量化阶能自适应，也就是根据输入信号斜率的变化自动调整量化阶的大小，以使斜率过载和粒状噪声都减到最小。宋(song)在1971描述的自适应增量调制技术：假定增量调制器的输出为1和0，每当输出不变时量化阶增大 50%，使预测器的输出跟上输入信号；每当输出值改变时，

10、量化阶减小50%，使粒状噪声减到最小，这种自适应方法使斜率过载和粒状噪声同时减到最小。格林弗斯基提出的cvsd(连续可变斜率增量调制)：如果编码器的输出连续出现三个相同的值，量化阶就加上一个大的增量；反之，就加一个小的增量。图形图像处理实验室自适应脉冲编码调制是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。改变量化阶大小的方法有两种：一种称为前向自适应，另一种称为后向自适应。前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适

11、应能在发收两端自动生成量化阶，所以它不需要传送边信息。前向自适应和后向自适应apcm的基本概念，如下图所示。自适应差分脉冲编码调制(adpcm) 图形图像处理实验室自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室差分脉冲编码调制(dpcm)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是，根据过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。 dpcm是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，

12、这就降低了传送或存储的数据量。此外，它还能适应大范围变化的输入信号。 dpcm编码如下图所示。自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 adpcm是一种综合了apcm的自适应特性和dpcm的差分特性的性能比较好的波形编译码器。它的核心想法是： 1.利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值。 2.使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。 adpcm的编码简化框图如下图所示。自

13、适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 adpcm是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术， ccitt为此制定了g.721推荐标准，这个标准叫做 32kb/sadpcm。在此基础上还制定了g.721的扩充推荐标准g.723，使用该标准的编码器的数据率可降低到40kb/s和24kb/s。 g.721的输入信号是g.711pcm代码，它的数据率为64 kb/s。而g.721adpcm的输出是用4位表示的差分信号，它的采样率仍然是8khz，它的数据率为32kb/s，这

14、样就获得了2:1的数据压缩。自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室子带编码的主要过程是： 1. 使用一组带通滤波器把输入音频信号的频带分成若干个连续的频段，每个频段称为子带。 2. 对每个子带中的音频信号采用单独的编码方案去编码。 3. 在信道上传送时，将每个子带的代码复合起来。 4. 在接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，还原成原来的音频信号。子带编码的方块图如下图所示。子带编码(sbc) 图形图像处理实验室子带编码(sbc)(续) 图中的编码/译码器，可以采用 adpcm，apcm，pcm等。图形图像处理实验室由于分割频带

15、所用的滤波器不是理想的滤波器，经过分带、编码、译码后合成的输出音频信号会有混迭效应。为了消除混迭效应，采用正交镜象滤波器(qmf)来划分频带。下面是qmf的幅频特性简化图和qmf滤波器的频率特性。子带编码(sbc)(续) 图形图像处理实验室子带编码(sbc)(续) 窄带和宽带音频信道频率特性图形图像处理实验室 7khz音频信号64kb/s数据率的编译码方块图子带编码(sbc)(续) 图形图像处理实验室 g.722是ccitt推荐的音频信号编码译码标准。 g.722标准的数据率为64 kb/s，采样频率由8 khz 提高到16 khz，是g.711 pcm采样率的2倍，因而要被编码的信号频率由原来的3.4 khz扩展到7 khz。这就使音频信号的质量有很大改善，由数字电话的话音质量提高到调幅(am)无线电广

人人文库> 全部分类> 行业资料 > 农林牧渔

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多媒体技术基础03

文档简介

温馨提示

最新文档

评论

多媒体技术基础03

文档简介

温馨提示

最新文档

评论

相关文档