多媒体技术基础03_第1页
多媒体技术基础03_第2页
多媒体技术基础03_第3页
多媒体技术基础03_第4页
多媒体技术基础03_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、图形图像处理实验室 第三讲 话音编码(speech coding) 图形图像处理实验室 主要内容 话音编码概要 三种话音编译码器 脉冲编码调制(pcm) 增量调制与自适应增量调制(dm/adm) 自适应差分脉冲编码调制(adpcm) 子带编码(sbc) 其他编码 图形图像处理实验室 话音编码概要 话音形成原理: 肺中的空气受到挤压形成气流,气流通过声门(声 带)沿着声道(由咽、喉、口腔等组成)释放出去, 就形成了话音。 气流、声门可以等效为一个激励源,声道可以等 效为一个时变滤波器(共振峰)。 话音信号具有很强的相关性(长期相关、短期相关 )。 图形图像处理实验室 话音分类: 浊音(voice

2、d sounds):声道打开,声带在先打开后 关闭,气流经过使声带要发生张驰振动,变为准周 期振动气流。浊音的激励源被等效为准周期的脉冲 信号。 清音(unvoiced sounds):声带不振动,而在某处保 持收缩,气流在声道里收缩后高速通过产生湍流, 再经过主声道(咽、口腔)的调整最终形成清音。清 音的激励源被等效为一种白噪声信号。 爆破音(plosive sounds):声道关闭之后产生压缩 空气然后突然打开声道所发出的声音。 话音编码概要(续) 图形图像处理实验室 幅度非均匀分布 样本之间的相关性 周期之间的相关性 基音之间的相关性 静止系数(话音间隙) 长期相关性(long term

3、 correlation) 话音编码概要(续) 图形图像处理实验室 波形编译码器(waveform coder):不利用生成话音 的信号的任何知识,将话音视为一种普通的声音,直 接对波形信号进行采样和量化。例如pcm、dpcm、 adpcm等。 音源编译码器(source coder):也叫参数编译码器、 声码器(vocoder)。它从话音波形信号中提取话音生 成模型的参数,使用这些参数通过话音生成模型重构 出话音。 混合编译码器(hybrid coder):综合使用上述两种 技术。使用的激励信号波形尽可能接近于原始话音信 号的波形。例如celp。 三种话音编译码器 图形图像处理实验室 三种话

4、音编译码器(续) 三种话音编译码器质量对比 图形图像处理实验室 衡量编译码器的重要指标: 1. 数据输出速率 2. 延迟时间 3. 话音质量 4. 价格(实现代价) 三种话音编译码器(续) 图形图像处理实验室 话音质量: 广播质量:带宽为7000hz的高质量话音 长途电话质量:带宽为3400hz,信噪比为30db, 有失真 合成质量:8090的可懂度,听起来象机器 讲话,失去了讲话者的特征 三种话音编译码器(续) 图形图像处理实验室 脉冲编码调制(pcm) pulse code modulation 图形图像处理实验室 pcm编码的量化方式:均匀量化与非均匀量化 脉冲编码调制(pcm)(续)

5、均匀量化非均匀量化 图形图像处理实验室 非均匀量化:对小的输入信号采用小的量化间隔,对 大的输入信号采用大的量化间隔,这样可以用较少的 位数编码声音信号。 对大信号来说,虽然绝对量化误差较大,但是因为: (1)大信号出现的机会不多。 (2)大信号的信噪比(相对误差)与小信号是一致的, 所以对总的话音质量影响不大。 非均匀量化也是一种压缩。 非均匀量化有两种压扩算法:律压扩和a律压扩 脉冲编码调制(pcm)(续) 图形图像处理实验室 律压扩 m律(m -law)压扩(g.711)主要用在北美和日本等地 区的数字电话通信中。 x为输入信号,规格化为1= x =1。 sgn(x)为x的极性。 m为确

6、定压缩量的参数,它反映最大量化间隔和最 小量化间隔之比,取100=m=500。 图形图像处理实验室 a律压扩 0 0 = | |x x| | = 1/a 1/a 1/a1/a = | |x x| | = 1 1 a律(a-law)压扩(g.711)主要用在欧洲和中国大陆等 地区的数字电话通信中 x为输入信号,规格化为1= x =1。 sgn(x)为x的极性。 a为确定压缩量的参数,它反映最大量化间隔和最 小量化间隔之比。a律压扩前一部分是线性的,其余 与律压扩相同,a取87.56。 图形图像处理实验室 律压扩的输入与输出是对数关系,所 这种编码又称为对数pcm。 对于采样频率为8khz,样本精

7、度为13位 、14位或者16位的输入信号,使用m律压扩 编码或者使用a律压扩编码,经过pcm编码器 之后每个样本的精度为8位,输出的数据率为 64 kb/s。这个数据就是ccitt推荐的g.711标 准。 脉冲编码调制(pcm)(续) 图形图像处理实验室 pcm与时分多路复用(tdm) 图形图像处理实验室 增量调制(m) 增量调制(delta modulation,dm)是一种 预测编码技术,是对实际的采样信号与预测的 采样信号之差的极性进行编码,将极性变成 “0”和“1”这两种可能的取值之一。如果实 际的采样信号与预测的采样信号之差的极性为 “正”,则用“1”表示;相反则用“0”表示。 dm

8、编码系统又称为“1位系统”。如下图所示。 图形图像处理实验室 增量调制(m)(续) 如上图所示,dm调制会出现两种失真现象: 斜率过载和粒状噪声。 图形图像处理实验室 斜率过载 从上图可以看到,在开始阶段增量调制器 的输出不能保持跟踪输入信号的快速变化,这 种现象就称为增量调制器的“斜率过载”(slope overload)。 一般来说,当输入信号的变化速度超过反 馈回路输出信号的最大变化速度时,就会出现 斜率过载。之所以会出现这种现象,主要是反 馈回路输出信号的最大变化速率受到量化阶大 小的限制,因为量化阶的大小是固定的。 图形图像处理实验室 粒状噪声 从上图中还可以看到,在输入信号缓慢 变

9、化部分,即输入信号与预测信号的差值接 近零的区域,增量调制器的输出出现随机交 变的“0”和“1”。这种现象称为增量调制器 的粒状噪声(granular noise),这种噪声是不 可能消除的。 解决这两种失真现象的方式就是自适应 增量调制。 图形图像处理实验室 自适应增量调制(adm) 自适应增量调制(adm):为了使增量调制器的量化阶 能自适应,也就是根据输入信号斜率的变化自动调整量 化阶的大小,以使斜率过载和粒状噪声都减到最小。 宋(song)在1971描述的自适应增量调制技术:假定 增量调制器的输出为1和0,每当输出不变时量化阶增大 50%,使预测器的输出跟上输入信号;每当输出值改变时,

10、 量化阶减小50%,使粒状噪声减到最小,这种自适应方法 使斜率过载和粒状噪声同时减到最小。 格林弗斯基提出的cvsd(连续可变斜率增量调制): 如果编码器的输出连续出现三个相同的值,量化阶就加上 一个大的增量;反之,就加一个小的增量。 图形图像处理实验室 自适应脉冲编码调制是根据输入信号幅度大小来 改变量化阶大小的一种波形编码技术。 改变量化阶大小的方法有两种:一种称为前向自 适应,另一种称为后向自适应。前者是根据未量化的 样本值的均方根值来估算输入信号的电平,以此来确 定量化阶的大小,并对其电平进行编码作为边信息传 送到接收端。后者是从量化器刚输出的过去样本中来 提取量化阶信息。由于后向自适

11、应能在发收两端自动 生成量化阶,所以它不需要传送边信息。 前向自适应和后向自适应apcm的基本概念,如下 图所示。 自适应差分脉冲编码调制(adpcm) 图形图像处理实验室 自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 差分脉冲编码调制(dpcm)是利用样本与样本之间 存在的信息冗余度来进行编码的一种数据压缩技术。 差分脉冲编码调制的思想是,根据过去的样本去估算 下一个样本信号的幅度大小,这个值称为预测值,然 后对实际信号值与预测值之差进行量化编码,从而就 减少了表示每个样本信号的位数。 dpcm是对实际信号值与预测值之差进行量化编码, 存储或者传送的是差值而不是幅度绝对值,

12、这就降低 了传送或存储的数据量。此外,它还能适应大范围变 化的输入信号。 dpcm编码如下图所示。 自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 adpcm是一种综合了apcm的自适应特性和dpcm的差 分特性的性能比较好的波形编译码器。它的核心想 法是: 1.利用自适应的思想改变量化阶的大小,即使用小 的量化阶(step-size)去编码小的差值,使用大的 量化阶去编码大的差值。 2.使用过去的样本值估算下一个输入样本的预测值, 使实际样本值和预测值之间的差值总是最小。 adpcm的编码简化框图如下图所示。 自

13、适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 adpcm是利用样本与样本之间的高度相关性和 量化阶自适应来压缩数据的一种波形编码技术, ccitt为此制定了g.721推荐标准,这个标准叫做 32kb/sadpcm。在此基础上还制定了g.721的扩充 推荐标准g.723,使用该标准的编码器的数据率可 降低到40kb/s和24kb/s。 g.721的输入信号是g.711pcm代码,它的数据 率为64 kb/s。而g.721adpcm的输出是用4位表示 的差分信号,它的采样率仍然是8khz,它的数据 率为32kb/s,这

14、样就获得了2:1的数据压缩。 自适应差分脉冲编码调制(adpcm)(续) 图形图像处理实验室 子带编码的主要过程是: 1. 使用一组带通滤波器把输入音频信号的频带分成 若干个连续的频段,每个频段称为子带。 2. 对每个子带中的音频信号采用单独的编码方案去 编码。 3. 在信道上传送时,将每个子带的代码复合起来。 4. 在接收端译码时,将每个子带的代码单独译码, 然后把它们组合起来,还原成原来的音频信号。 子带编码的方块图如下图所示。 子带编码(sbc) 图形图像处理实验室 子带编码(sbc)(续) 图中的编码/译码器,可以采用 adpcm,apcm,pcm等。 图形图像处理实验室 由于分割频带

15、所用的滤波器不是理想的滤波器,经过分带 、编码、译码后合成的输出音频信号会有混迭效应。 为了消除混迭效应,采用正交镜象滤波器(qmf)来划分频 带。下面是qmf的幅频特性简化图和qmf滤波器的频率特性 。 子带编码(sbc)(续) 图形图像处理实验室 子带编码(sbc)(续) 窄带和宽带音频信道频率特性 图形图像处理实验室 7khz音频信号64kb/s数据率的编译码方块图 子带编码(sbc)(续) 图形图像处理实验室 g.722是ccitt推荐的音频信号编码译码标准。 g.722标准的数据率为64 kb/s,采样频率由8 khz 提高到16 khz,是g.711 pcm采样率的2倍,因而要 被编码的信号频率由原来的3.4 khz扩展到7 khz。这 就使音频信号的质量有很大改善,由数字电话的话音 质量提高到调幅(am)无线电广

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论