音频压缩编码技术 PPT课件_第1页
音频压缩编码技术 PPT课件_第2页
音频压缩编码技术 PPT课件_第3页
音频压缩编码技术 PPT课件_第4页
音频压缩编码技术 PPT课件_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 音频压缩编码技术 信息学院电子二班 2 本内容参照清华大学出版社许志祥编著的 数字电视与图像通信技术 2009年8月第1版 先讲声音编码机器压缩依据 分析人的听觉生理 心理特性 再简单介绍数字音频信号压缩编码的主要类型 最后重点介绍MPEG 1音频压缩编码标准 一 概述二 人的听觉生理 心理特性三 数字音频信号压缩编码的主要类型四 MPEG 1音频压缩编码标准 3 一 概述 1 声音 Audio 声音的传送是通信中一个极为重要的内容 电视及图像通信中除了传送图像外 传送声音也是极为重要的 如在会议电视中 由于通信线路带宽的限制 图像是可以跳帧的 每秒钟能传送10帧已经很不错了 但语音的传送却不可以断续 而且要有较高音质 4 2 声音编码 AudioCoding 声音编码 AudioCoding 是一类高保真的音频编码 它的带宽应为20Hz 20kHz 但在许多场合 主要是传送语音而不是音乐音频带宽在50Hz 7kHz就够了 在声音编码中主要传送语音的一类编码称之为语音编码 speechcoding 数字声音信号与图像信号一样 通过取样 量化 编码后的数据量也非常大 传输与存储均有很大困难 5 3 压缩依据 声音信息能够进行压缩的基本依据是声音信息的冗余度及人类的听觉特性 从信息保持的角度讲 只有当信源本身具冗余度 才能进行压缩 因为语音和音乐信号中存在着时域信息冗余及频域信息冗余 所以可以进行压缩 这是对音频信号进行压缩的一个理论基础 语音和音乐信号最终是传送给人听的 人的听觉生理 心理特性在整个音频传输过程中起着重 6 要的作用 由于人们的听觉系统存在着某些不敏感效应 某些情况下的音频不能被感知 因此从感知效果来看这些不敏感的音频分量可认为是知觉冗余 如果将这部分冗余压缩掉 可提高编码效率 这是音频压缩的另一个理论基础 4 对音频数据压缩的两个途径 1 利用信号本身的统计特性 在完全不丢失信息的情况下进行高效的熵编码 平均信息量编码 2 利用人们对音频信号的感知特性 通过省略人们所不能分辨或不敏感的信息来压缩信息量 这就是知觉编码 7 二 人的听觉生理 心理特性 听觉的掩蔽效应是声音编码的基础 掩蔽效应既和频率与有关 也和时间域有关 1 频谱掩蔽效应若有一个声压强度达70db 频率1kHz的纯音出现时 处于1kHz邻近某一频带内强度较小的信号声音信号人耳是听不见的 即被1kHz纯音掩蔽掉了 8 2 时间掩蔽效应除了在较强的声音信号出现时 弱信号会被屏蔽掉外 在强的声音信号出现之前或之后的短暂时间内已存在的弱因信号也会被强信号屏蔽掉 分别称为前掩蔽和后掩蔽 这种情况叫做时间掩蔽效应 TemporalMaskingEffect 3 方向掩蔽效应人耳除具有听觉掩蔽效应外 还不能分别判断频率接近的高频声音信号的方向 在声音 9 编码中可利用此特性 把高频声道的多个部分耦合到一个公共声道 已达到压缩编码的目的 三 数字音频信号压缩编码的主要类型数字音频信号的压缩编码主要分为熵编码 波形编码 参数编码和混合编码四种类型 1 熵编码主要包括霍夫曼编码 算术编码与游程编码 10 2 波形编码主要包括全频带编码子带编码和矢量量编码 波形编码能够在高码率的条件下获得高质量的音频信号 因而适用于高保真语音及音乐信号的压缩编码 3 参数编码指使用合适的模型参数与参考激励信号来模拟音频信号进行编码 当声音重放时 根据这些参数重建音频信号 这就是通常所说的声码器 Vocoder 参数编码压缩比很高 计算量也很大 因而不适合高保真要求的应用场合 11 4 混合编码混合编码充分吸收了波形编码与参数编码的优点 并将二者结合 它包括多脉冲线性预测编码 MPL PC 矢量和激励线性预测编码 VSELP 码激励线性预测编码 CELP 等 12 四 MPEG 1音频压缩编码标准 1 MPEG 1音频的三个层次MPEG 1 ISO IEC11172 标准的第三部分 ISO IEC11172 3 称为MPEG 1音频 MPEG 1音频部分提供单声道 mono 与双声道 stereo 数字音频 取样频率为32kHz 44 1kHz和48kHz 音频的压缩编码技术采用的是MUSICAM方案 MPEG 1音频按照压缩编码的复杂程度规定了3个层次 即Layer1 Layer2 Layer3三个层 13 次的基本模型是相同的 层次越高 压缩比越大 编 解码器越复杂 每个层次针对不同应用 三个层的解码器后相兼容 即Layer3的解码器可以对三个层的码流解码 Layer2解码器可以解码Layer1和Layer2 2 Layer1音频编码器Layer1是简单型 通常目标码率为为每通道192kb s 立体声码率为384kb s 压缩比为1 4 Layer1被广泛应用在VCD的音频压缩编码中 Layer1音频编码器的方框图如下图 14 PCM输入信号3232比例因子音频码流输出Layer1音频编码器的方框图 32子带滤波器组 量化编码 比例因子计算 心里声学模型 动态比特分配 512点FFT 复用器 15 输入的PCM数字音频信号首先通过一个多通道滤波器组 变换成32个等宽频带子带 这些滤波器的输出是临界频带系数样值 通过研究人耳对频率的分辨率可知 在低频段可以分辨出相差几赫兹的音调声 而在高频段 要分辨音调音 其频率间隔必须相差几百赫兹 这些固有区域称为临界频带 输出临界频带样值是经过量化的 如果一个子带覆盖若干个临界频带 就选择具有最小噪声掩蔽的临界频带 并利用该临界频带来计算分配给自带量化信号的比特数 心理声学模型首先确定各个子带中允许的最大量化噪声 对小于它的量化噪声的子带都会被掩蔽掉 即如果自带内的信号功率低于掩蔽阈值 则不进行编码 对子带内的信号功率不低于掩蔽阈值时 需要确定编码的系数所需的比特数 16 为了实现音频心理声学模型 首先要用快速傅里叶变换FFT将音频样值转换到频域 Layer1的FFT为512点 Layer2的FFT为1024点 将得到的频率组成临界频带 计算由临界频带引起的每个子带的掩蔽值 并计算每个子带的信号掩蔽比SMR SMR的计算方法是将信号的子带能量除以子带的最小掩蔽阈值 有一组32个SMR 每个子带一个 构成模型的输出 最后将该子带的最大信号 掩蔽阈值率输入给量化器 根据心理声学模型的信息 决定分配给各个子带的编码比特数 即比特分配 先计算出掩蔽噪声比MNR MNR SNR 信噪比 SMR 信号掩蔽比 一旦所有的自带都计算出了掩蔽信噪比MNR 就可找出其中具有最低MNR的子带 并给这个子带分配多一点比特 当一个子带获得了更多的编码比特 比特分配单位 17 就找出信噪比的新估计值 重新计算该子带的掩蔽噪声比 上述过程重复进行 直到再没有多余的比特可分配了为止 这个过程称为比特分配 按输入信号的大小来改变量化步长 输入信号小时用较小的量化步长 输入信号大时用较大的量化步长 因此 需要将码中的比特分为两组 一组比特用来量化步长大小 这组比特代表幅度值的 比例因子 其余比特用来均匀量化与这些量化步长对应的信号 这组比特代表幅度值的 尾数 通常量化信噪比SNR取决于位数的比特数 MPEG 1音频数据是一帧一帧传送的 Layer1每帧有32个子带组成 每个子带包括12个样值每帧有384个样值的数据组成 Layer1的帧结构由32bit的帧同步头开始 其中12bit作为帧同步 其余的20bit为系统信息 18 如比特率标记 然后是长度为16bit的循环冗余码 接着是用于描述比特分配长度为4bit的比特分配域 长度为6bit的比例因子域 以及子带样值域等 3 Layer1的解码系统声音信号声音码流 子带样值及量化 32子带合成滤波器组 边信息解码 解复用与纠错解码 19 4 Layer2和Layer3编 解码器 1 Layer2音频编 解码器PCM输入信号3232音频码流Layer2音频编码器框图Layer2音频解码器与Layer1的相同 这里不再重复 32子带分析滤波器组 量化编码 比例因子选择 比例因子计算 辅助数据编码 1024点FFT 心理声学模型 动态比特分配 复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论