第3章_音频信息处理技术_第1页
第3章_音频信息处理技术_第2页
第3章_音频信息处理技术_第3页
第3章_音频信息处理技术_第4页
第3章_音频信息处理技术_第5页
已阅读5页,还剩243页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 3章 音频信息处理技术 第 3章 音频信息处理技术 3.1 基本概念 3.2 音频信号数字化 3.3 音频信号压缩编码 3.4 语音压缩编码标准 3.5 常见多媒体应用的语音编码器的选择3.6 IP电话技术 练习与思考题 第 3章 音频信息处理技术 3.1 基 本 概 念 1 听觉掩蔽 在人类听觉系统中, 一个声音的存在会影响人们对其他声音的听觉能力, 使一个声音在听觉上掩蔽了另一个声音, 即所谓的 “掩蔽效应 ”。 由于掩蔽声的存在, 使被掩蔽声的闻域(人刚好可听到声音的响度)必须提高的分贝数被定义为一个声音对另一个声音的掩蔽值。 掩蔽效应受四种要素的影响: 时间、 频率、 声压级、 声音品质 (例如, 纯音和噪音 )。 第 3章 音频信息处理技术 2 频谱掩蔽 频谱掩蔽发生在高电平音调使附近频率的低电平声音不能被人耳听到的情况下。 当频率离掩蔽音调越远时, 掩蔽效应减弱的速度就越快。 可以这样来解释这种效应, 雪橇上的铃声可以掩蔽高音碰撞的声音, 但不能掩蔽低音鼓的声音。 第 3章 音频信息处理技术 3 瞬态掩蔽 声音有一个冲击时间(即幅值随时间推移而增大的时间段)和一个衰退时间(即幅值随时间推移而减小的时间段)。 拨小提琴所产生声音的冲击和衰退都很快, 而拉小提琴所产生声音的冲击和衰退都很慢。 此外, 在冲击前和衰退后, 声音都有掩蔽效应。 前掩蔽时间为 50 200 ms, 而后掩蔽时间约为该范围的1/10。第 3章 音频信息处理技术 4 失真 失真是用得非常广泛的概念, 在这里主要用来描述重现声音和原来声音的相差程度。 而表示这种相差程度的方法有两种: ( 1) 失真的主观度量。 失真的一个主观评价指标称为平均观点分 (Mean Opinion Score, MOS)。 听众根据系统质量的好坏使用 N分制给系统打分。 例如, 在为 HDTV选择音频压缩方案时就使用了这种度量方法。 表 3.1-1给出了一种常见的 5分制系统。 第 3章 音频信息处理技术 表 3.1-1 5分制平均观点分举例 平均观点分 质量等级 主观感觉5 极好 觉察不到4 好 觉察得到,但不难听3 一般 有点难听2 差 难听,但不反感1 极差 难以忍受第 3章 音频信息处理技术 一方面, MOS确实是度量音频重现的最低限度: 听起来感觉怎么样 ?另外一方面, 度量的结果随听众、 测试位置和原材料的不同而不同, 因此, 很难将一组结果和另一组结果相比较。 第 3章 音频信息处理技术 ( 2) 失真的客观度量。 失真的客观度量是一种可以校准和重现的测试, 它可对原始信号和重现信号之间的差别进行度量。 这里有个问题, 就是失真的绝对大小也许和失真声音使人厌烦的程度没有多大关系。 现实生活中有一个失真的例子, 我们几乎每天都会碰到, 但它并不是那么令人厌烦, 这个例子就是削波。 如果一个纯音 (正弦波 )通过一个动态范围不足的放大器, 那么, 放大器也许会将该正弦波的波峰和波谷拉平, 这样就产生了一组奇谐波。 对于这种类型的失真, 原始 (或基波 )信号和失真之间有一种一致的对应关系, 因此, 这种失真并不一定使你感到烦躁。 第 3章 音频信息处理技术 5 声道 单声道 (Monophonic)意味着单个声源, 而立体声并不表示有两个声源, 立体声 (Stereophonic)指的是三维听觉效果。 为了确定声源位置, 大脑要将每个耳朵所听到声音的三个属性进行比较, 这三个属性分别是: ( 1) 幅值 (Amplitude): 如果左耳听到的声音比右耳的大, 那么我们就认为声音在左边。 第 3章 音频信息处理技术 ( 2) 相位 (Phase): 如果人的两耳听到的信号具有相同的相位, 那么大脑就认为声音在中部; 如果两耳听到信号有 180的相位差, 那么声音就不包含方向信息了。 ( 3) 时序 (Timing): 声音的传播速度为 1英尺每毫秒; 如果声音到达右耳的时间比到达左耳的早, 我们就认为声源就在右边。 一般来说, 如果听众所处的位置刚好是两个声源(例如两个扬声器)的中轴线上, 则听众就可以享受三维立体声的效果; 否则听众就会失去完全的立体声效果, 因为他距离其中一个声源的距离更短。 第 3章 音频信息处理技术 声源位置可以通过添加一个中央通道的方法来确定。 为此, Dolby公司在上个世纪 70年代就实现了由四个声道产生三维立体声的效果, 这四个声道分别是: 左声道、 右声道、 中央声道、 环绕声道。 为了使声音更加丰富, 现在的立体声剧院(包括家庭剧院)都增加了一个超低音声道, 主要目的是增强低音。 第 3章 音频信息处理技术 3.2 音频信号数字化 音频信息处理主要包括音频信号的数字化和音频信息的压缩两大技术, 图 3.2-1为音频信息处理结构框图。 音频信息的压缩是音频信息处理的关键技术, 而音频信号的数字化是为音频信息的压缩作准备的。 音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散序列, 即数字音频序列, 在这一处理过程中涉及到模拟音频信号的采样、 量化和编码。 对同一音频信号采用不同的采样、 量化和编码方式就可形成多种形式的数字化音频。 第 3章 音频信息处理技术 图 3.2-1 音频信息处理框图 第 3章 音频信息处理技术 ( 1) 采样过程。 模拟音频信号是一个在时间上和幅值上都连续的信号。 采样过程就是在时间上将连续信号离散化的过程, 采样一般是按均匀的时间间隔进行的。 目前常见的音频信号的频率范围如图 3.2-2所示, 由图可见: 电话信号的频带为 200 Hz 3.4 kHz, 调幅广播 (AM)信号的频带为 50 Hz 7 kHz, 调频广播(FM)信号的频带为 20 Hz 15 kHz, 高保真音频信号的频带为 10 Hz 20 kHz。 根据不同的音频信源和应用目标, 可采用不同的采样频率, 如 8 kHz、 11.025 kHz、 22.05 kHz、 16 kHz、 37.8 kHz、 44.1 kHz或 48 kHz等都是典型的采样频率值。 第 3章 音频信息处理技术 图 3.2-2 常见音频应用带宽示意图 第 3章 音频信息处理技术 (2) 量化过程。 量化过程是指将每个采样值在幅度上再进行离散化处理。 量化可分为均匀量化(量化值的分布是均匀的或者说每个量化阶距是相同的)和非均匀量化。 量化会引入失真, 并且量化失真是一种不可逆失真, 这就是通常所说的量化噪声。 (3) 编码过程。 编码过程是指用二进制数来表示每个采样的量化值。 如果量化是均匀的, 又采用自然二进制数表示, 这种编码方法就是脉冲编码调制 (Pulse Code Modulation, PCM), 这是一种最简单、 最方便的编码方法。 第 3章 音频信息处理技术 3.3 音频信号压缩编码 从 20世纪 30年代提出 PCM( 脉冲编码调制)原理以及声码器的概念以来, 音频信息压缩编码技术主要是向基于波形和基于参数两个方向发展的, 从这个角度出发, 音频信息编码技术可分为三类: 第 3章 音频信息处理技术 ( 1) 波形编码。 这种方法主要基于语音波形预测, 它力图使重建的语音波形保持原信号的波形状态。 它的优点是编码方法简单、 易于实现、 适应能力强、 语音质量好等, 缺点是压缩比相对来说较低, 需要较高的编码速率。 常用的波形法编码技术有增量调制(DM)、 自适应差分脉冲编码调制( ADPCM)、 子带编码 (SBC)和矢量量化编码( VQ) 等等。 第 3章 音频信息处理技术 ( 2) 参数编码。 这种方法主要基于参数的编码方法。 与波形编码不同的是, 这类编码方法通过语音信号的数学模型对语音信号特征参数(主要是指表征声门振动的激励参数和表征声道特性的声道参数)进行提取及编码, 力图使重建的语音信号尽可能保持原信号的语意, 而重建的语音信号波形同原信号的波形可能会有较大的区别。 基于这种编码技术的编码系统一般称为声码器, 它主要用于在窄带信道上提供 4.8 kb/s以下的低速语音通信和一些对延时要求较宽的 应用场合(如卫星通信等)。 最常用的参数编码法为线性预测编码( LPC)。 第 3章 音频信息处理技术 (3) 混合编码。 这种方法克服了原有波形编码与参数编码的弱点, 并且结合了波形编码的高质量和参数编码的低数据率, 取得了比较好的效果。 混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。 由于每种编码方法都有自己的优势和不足, 若是用两种, 甚至两种以上的编码方法进行编码, 可以优势互补, 克服各自的不足, 从而达到高效数据压缩的目的。 无论是在音频信号的数据压缩中, 还是后面章节将要描述的图像信号的数据压缩中, 混合编码均被广泛采用。 第 3章 音频信息处理技术 3.3.1 增量调制 1 一般增量调制 增量调制( DM) 是一种比较简单且有数据压缩功能的波形编码方法。 增量调制的系统结构框图如图 3.3-1所示。 在编码端, 由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。 输入的模拟音频信号与预测值在比较器上相减, 从而得到差值。 差值的极性可以是正也可以是负。 若为正, 则编码输出为 1; 若为负, 则编码输出为 0。 这样, 在增量调 制的输出端可以得到一串 1位编码的 DM码。 增量调制编码过程示意图如图 3.3-2所示。 第 3章 音频信息处理技术 图 3.3-1 增量调制的系统结构框图 第 3章 音频信息处理技术 图 3.3-2 增量调制编码过程示意图 第 3章 音频信息处理技术 在图 3.3-2中, 纵坐标表示输入的模拟电压, 横坐标表示随时间增加而顺序产生的 DM码。 图中虚线表示输入的音频模拟信号。 从图 3.3-2可以看到, 当输入信号变化比较快时, 编码器的输出无法跟上信号的变化, 从而会使重建的模拟信号发生畸变, 这就是所谓的 “斜率过载 ”。 可以看出, 当输入模拟信号的变化速度超过了经解码器输出的预测信号的最大变化速度时, 就会发生斜率过载。 增加采样速度, 可以避免斜率过载的发生。 但采样速度的增加又会使数据的压缩效率降低。 第 3章 音频信息处理技术 从图 3.3-2中还能发现另一个问题: 当输入信号没有变化时, 预测信号和输入信号的差会十分接近, 这时, 编码器的输出是 0和 1交替出现的, 这种现象就叫做增量调制的 “散粒噪声 ”。 为了减少散粒噪声, 就希望使输出编码 1位所表示的模拟电压 ( 又叫量化阶距)小一些, 但是, 减少量化阶距 会使在固定采样速度下产生更严重的斜率过载。 为了解决这 些矛盾, 促使人们研究出了自适应增量调制( ADM) 方法。 第 3章 音频信息处理技术 2. 自适应增量调制( ADM) 从前面分析可以看出, 为减少斜率过载, 希望增加阶距; 为减少散粒噪声, 又希望减少阶距。 于是人们就想, 若是能使 DM的量化阶距 适应信号变化的要求, 必须是既降低了斜率过载又减少了散粒噪声的影响。 也就是说, 当发现信号变化快时, 增加阶距; 当发 现信号变化缓慢时, 减少阶距。 这就是自适应增量调制的基本出发点。 第 3章 音频信息处理技术 在 ADM中, 常用的规则有两种: 一种是控制可变因子 M, 使量化阶距在一定范围内变化。 对于每一个新的采样, 其量化阶距为其前面数值的 M倍。 而 M的值则由输入信号的变化率来决定。 如果出现连续相同的编码, 则说明有发生过载的危险, 这时就要加大 M。 当 0, 1信号交替出现时, 说明信号变化很慢, 会产生散粒噪声, 这时就要减少 M 值。 其典型的规则为( 3.3-1) 第 3章 音频信息处理技术 另一类使用较多的自适应增量调制称为连续可变斜率增量( CVSD) 调制。 其工作原理如下: 如果调制器( CVSD) 连续输出三个相同的码, 则量化阶距加上一个大的增量, 也就是说, 因为三个连续相同的码表示有过载发生。 反之, 则量化阶距增加一个小的增量。 CVSD的自适应规则为其他 ( 3.3-2) 第 3章 音频信息处理技术 式中, 可在 0 1之间取值。 可以看到, 的大小可以通过调节增量调制来适应输入信号 变化所需时间的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论