数字音频技术PPT课件.ppt_第1页
数字音频技术PPT课件.ppt_第2页
数字音频技术PPT课件.ppt_第3页
数字音频技术PPT课件.ppt_第4页
数字音频技术PPT课件.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息工程系 1 2020 3 19 8 2MPEG音频压缩技术 8 2 1音频特性及其编码研究听觉系统对声音的感知特性 下面介绍已经用在MPEGAudio压缩编码算法中的三个特性 响度 音高和掩蔽效应 听觉感知编码 1 对响度的感知声音的响度就是声音音频弱 在物理上 客观 声音的响度使用客观测量单位来度量 即dyn cm2 达因 平方厘米 声压 或W cm2 瓦特 平方厘米 声强 在心理上 主观 主观感觉的声音强弱使用响音频 方 phon 或者 宋 sone 来度量 信息工程系 2 2020 3 19 8 2MPEG音频压缩技术 这两种感知音频强弱的计量单位是完全不同的两种概念 但是它们之间又有一定的联系当音频弱到人的耳朵刚刚可以听见时 我们称此时的音频强度为 听阈 例如 1kHz纯音的声强达到10 16w cm2 定义成零dB声强级 时 人耳刚能听到 此时的主观响度级定为零方实验表明 听阈是随频率变化的 测出的 听阈 频率 曲线如图所示 图中最靠下面的一根曲线叫做 零方等响度级 曲线 也称 绝对听阈 曲线 即在安静环境中 能被人耳听到的纯音的最小值另一种极端的情况是音频强到使人耳感到疼痛 实验表明 如果频率为1kHz的纯音的声强级达到120dB左右时 人的耳朵就感到疼痛 这个阈值称为 痛阈 信息工程系 3 2020 3 19 8 2MPEG音频压缩技术 听阈 频率 曲线 信息工程系 4 2020 3 19 8 2MPEG音频压缩技术 人耳对不同频率的敏感程度差别很大 其中对2kHz 4kHz范围的信号最为敏感 幅度很低的信号都能被人耳听到 而在低频区和高频区 能被人耳听到的信号幅度要高得多 信息工程系 5 2020 3 19 8 2MPEG音频压缩技术 2 对音高的感知客观上用频率来表示声音的音高 其单位是Hz主观感觉的音高单位则是 美 Mel 主观音高与客观音高的关系是 其中f的单位为Hz这也是两个既不相同又有联系的单位人耳对频率的感觉也有一个范围 人耳可以听到的最低频率约20Hz 最高频率约20000Hz 信息工程系 6 2020 3 19 8 2MPEG音频压缩技术 音高 频率曲线 信息工程系 7 2020 3 19 8 2MPEG音频压缩技术 3 掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应 前者称为掩蔽声音 maskingtone 后者称为被掩蔽声音 maskedtone 掩蔽可分成频域掩蔽和时域掩蔽 1 频域掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音 这种特性称为频域掩蔽 也称同时掩蔽 simultaneousmasking 信息工程系 8 2020 3 19 8 2MPEG音频压缩技术 声强为60dB 频率为1000Hz纯音的掩蔽效应 信息工程系 9 2020 3 19 8 2MPEG音频压缩技术 频率为250Hz 1kHz 4kHz和8kHz纯音的掩蔽效应 它们的声强均为60dB 在250Hz 1kHz 4kHz和8kHz纯音附近 对其他纯音的掩蔽效果最明显 低频纯音可以有效地掩蔽高频纯音 但高频纯音对低频纯音的掩蔽作用则不明显 信息工程系 10 2020 3 19 8 2MPEG音频压缩技术 2 时域掩蔽时间上相邻的声音之间也有掩蔽现象 并且称为时域掩蔽 时域掩蔽又分为超前掩蔽 pre masking 和滞后掩蔽 post masking 超前掩蔽较短 只有大约5 20ms 而滞后掩蔽可以持续50 200ms 信息工程系 11 2020 3 19 8 2MPEG音频压缩技术 时域掩蔽 信息工程系 12 2020 3 19 8 2MPEG音频压缩技术 听觉感知编码的编码思路 1 根据听觉域度对可闻信号进行编码 听觉域度对编码的作用 信息工程系 13 2020 3 19 8 2MPEG音频压缩技术 2 根据掩蔽效应 只对幅度强的掩蔽信号进行编码 信息工程系 14 2020 3 19 8 2MPEG音频压缩技术 3 量化噪声使得不必全部编码原始信号 信息工程系 15 2020 3 19 8 2MPEG音频压缩技术 4 通过子带分割来进行优化 编码 子带编码 优化 信息工程系 16 2020 3 19 8 2MPEG音频压缩技术 8 2 2MPEG 1音频压缩技术MPEG音频压缩的的主要依据是人耳朵的听觉特性 使用 心理声学模型 psychoacousticmodel 来达到压缩声音数据的目的心理声学模型听觉系统中存在一个听觉阈值电平 低于这个电平的声音信号就听不到 因此就可以把这部分信号去掉听觉阈值的大小随声音频率的改变而改变 各个人的听觉阈值也不同 大多数人的听觉系统对2kHz 5kHz之间的声音最敏感 一个人是否能听到声音取决于声音的频率 以及声音的幅度是否高于这种频率下的听觉阈值 信息工程系 17 2020 3 19 8 2MPEG音频压缩技术 听觉系统存在掩蔽特性 听觉阈值电平是自适应的 即听觉阈值电平会随听到的不同频率的音频而发生变化例如 同时有两种频率的音频存在 一种是1000Hz的音频 另一种是1100Hz的音频 但它的强度比前者低18分贝 在这种情况下 1100Hz的音频就听不到 信息工程系 18 2020 3 19 8 2MPEG音频压缩技术 MPEG音频压缩算法框图 信息工程系 19 2020 3 19 8 2MPEG音频压缩技术 MPEG 1音频压缩标准的主要性能 1 输入信号为线性PCM信号 采样率为32 44 1或48kHz 输出为32kb s 384kb s 2 MPEG 1音频压缩标准提供三个独立的压缩层次 层1的编码器最为简单 编码器的输出数据率为384kb s 主要用于小型数字盒式磁带 digitalcompactcassette DCC 层2的编码器的复杂程度属中等 编码器的输出数据率为256kb s 192kb s 其应用包括数字广播声音 DAB 数字音乐 CD I compactdisc interactive 和VCD videocompactdisc 等 层3的编码器最为复杂 编码器的输出数据率为64kb s 主要应用于网络音乐 信息工程系 20 2020 3 19 8 2MPEG音频压缩技术 1 子带编码滤波器组的划分MPEG 1音频编码器把输入信号变换到32个频域子带中去 子带的划分方法有两种 一种是线性划分 另一种是非线性划分 信息工程系 21 2020 3 19 8 2MPEG音频压缩技术 2 子带编码 SNR signalnoiseratio 信号噪声比SMR signal to maskratio 信号掩蔽比NMR noise to maskratio 噪声掩蔽比 信息工程系 22 2020 3 19 8 2MPEG音频压缩技术 3 编码层MPEG音频压缩定义了3个层次 它们的基本模型是相同的 层1是最基础的 层2和层3都在层1的基础上有所提高 每个后继的层次都有更高的压缩比 但需要更复杂的编码解码器MPEG的音频数据分成帧 frame 层1每帧包含384个样本的数据 每帧由32个子带分别输出的12个样本组成 层2和层3每帧为1152个样本 信息工程系 23 2020 3 19 8 2MPEG音频压缩技术 层1 2和层3的子带样本 信息工程系 24 2020 3 19 8 2MPEG音频压缩技术 MPEG编码层简介层1 采用均匀子带划分 心理声学模型仅使用频域掩蔽特性层2 采用均匀子带划分 心理声学模型除使用频域掩蔽特性外还利用了时域掩蔽特性 并且在低 中和高频段对比特分配作了一些限制 对比特分配 比例因子和量化样本值的编码也更紧凑层3 采用非均匀子带划分 即临界频带划分 心理声学模型使用频域和时域掩蔽 同时还考虑了立体声数据冗余 并且使用了Huffman编码 信息工程系 25 2020 3 19 8 2MPEG音频压缩技术 MPEG 1数字音频的参数概述 1 MPEG 1音频取样频率fs 32kHz 44 1kHz 48kHz 2 MPEG 1音频码率32 192kHz单声道 64 384kHz立体声PCM如按高保真立体声 50Hz 20kHz 取fs 44 1KHz n 16bit 则不压缩时速率 44 1 16 705 6Kbit s 每声道 3 MPEG 1音频压缩算法 自适应频谱心理声学熵编码ASPEC AdaptiveSpectralPerceptualEntropyCoding 自适应变换声音编码ATAC AdaptiveTransformAudioCoding 掩蔽型自适应子带编码和复用MUSICAM Masking PatternAdaptedUniversalSubbandIntegratedCodingAndMultiplexing 子带 自差分脉冲编码SB ADPCMASPEC和MUSICAM主观评价几乎相同 在64kbit s时APESC音质略好 而MUSICAM较简单 解码延时较好 所以MUSICAM作为MPEGLayerI 结合ASPEC优点为LayerII LayerIII 信息工程系 27 2020 3 19 8 2MPEG音频压缩技术 MPEG 1音频信号数据压缩过程 a 时间 频率映射 滤波器组 用以将输入的信号转化为亚取样的频谱分量分为子带 b 频域滤波器组或并行变换的输出 根据心理声学模型求出时变的掩蔽门限估值 c 按量化噪声不超过掩蔽门限的原则将子带量化编码以使量化噪声不可听到 d 按帧打包成码流 包括比特分配信息 信息工程系 28 2020 3 19 8 2MPEG音频压缩技术 Layer 音频编码方框图 信息工程系 29 2020 3 19 8 2MPEG音频压缩技术 Layer 音频解码方框图 信息工程系 30 2020 3 19 8 2MPEG音频压缩技术 LayerIII音频编码方框图 信息工程系 31 2020 3 19 8 2MPEG音频压缩技术 LayerIII音频解码方框图 信息工程系 32 2020 3 19 8 2MPEG音频压缩技术 MPEG 1音频编码帧结构 信息工程系 33 2020 3 19 8 2MPEG音频压缩技术 MPEG 2音频压缩MPEG 2声音编码标准是MPEG为多声道声音开发的低码率编码方案 它是在MPEG 1声音标准基础上发展而来的 和MPEG 1相比 MPEG 2声音主要增加了三个方面的内容 1 支持5 1路环绕声 它能提供5个全带宽声道 左 右 中和两个环绕声道 外加一个低频效果增强声道 统称为5 1声道 2 支持多达8种语言或解说 3 增加了低取样和低码率 在保持MPEG 1声音的单声道和立体声的原有取样率的情况下 MPEG 2又增加了三种取样率 即把MPEG 1的取样率降低了一半 16kHz 22 05kHz 24kHz 以便提高码率低于64kbit s时的每个声道的声音质量 信息工程系 34 2020 3 19 8 2MPEG音频压缩技术 MPEG 2声音多声道扩展部分的数据结构MPEG 2多声道声音编码标准和现有的MPEG 1声音标准保持后向兼容 在对原有的MPEG 1两声道增加独立的环绕声道时 MPEG 2尽量保特和MPEG 1声音语法的兼容性 MPEG 2中的主声道 左 右 仍然保持后向兼容 而环饶声道采用新的编码方法和语法 信息工程系 35 2020 3 19 8 2MPEG音频压缩技术 MPEG 2的两种音频数据压缩格式MPEG 2Audio 或者称为MPEG 2多通道 Multichannel 音频 与MPEG 1Audio兼容 所以又称为MPEG 2BC BackwardCompatible MPEG 2AAC AdvancedAudioCoding 与MPEG 1声音格式不兼容 因此通常称为非后向兼容MPEG 2NBC Non Backward Compatible 标准 信息工程系 36 2020 3 19 8 2MPEG音频压缩技术 MPEG 2AudioMPEG 2Audio ISO IEC13818 3 和MPEG 1Audio ISO IEC1117 3 标准都使用相同种类的编译码器 Layer Layer 和Layer 的结构也相同MPEG 2音频标准与MPEG 1标准相比 MPEG 2做了如下扩充 增加了16kHz 22 05kHz和24kHz采样频率 扩展了编码器的输出速率范围 由32 384kbit s扩展到8 640kbit s 增加了声道数 支持5 1声道和7 1声道的环绕声 此外MPEG 2还支持LinearPCM 线性PCM 和DolbyAC 3 AudioCodeNumber3 编码 信息工程系 37 2020 3 19 8 2MPEG音频压缩技术 MPEG 1和MPEG 2的声音数据规格 信息工程系 38 2020 3 19 8 2MPEG音频压缩技术 MPEG 2Audio的 5 1环绕声 MPEG 2Audio的 5 1环绕声 也称为 3 2 1立体声加LFE 其中的 1 就是指LFE声道 它的含义是播音现场的前面可有3个喇叭声道 左 中 右 后面可有2个环绕声喇叭声道 LFE lowfrequencyeffects 是低频音效的加强声道 信息工程系 39 2020 3 19 8 2MPEG音频压缩技术 5 1声道最佳效果放置5个全频带的重放扬声器分为前置扬声器 包括L R C 和后置扬声器 也称环绕扬声器 包括Ls Rs 分别位于一个圆的边界上 其中L R扬声器与C扬声器分别呈30度夹角 Ls Rs扬声器与C扬声器分别呈110度夹角低频增强声道 称之为LFE 它的频率范围在200Hz以下 大约是全频带倍频程的10 左右 因此也称点一声道 它的放置没有特殊的要求 一般放置在前面 信息工程系 40 2020 3 19 8 2MPEG音频压缩技术 7 1声道环绕立体声 信息工程系 41 2020 3 19 8 2MPEG音频压缩技术 MPEG 1 MPEG 2音频参数的比较 信息工程系 42 2020 3 19 8 2MPEG音频压缩技术 MPEG 2中的AAC编码AAC AdvancedAudioCoding先进音频编码 不向下兼容MPEG 2AAC是声音感知编码标准 MPEG 2AAC主要使用听觉系统的掩蔽特性来减少声音的数据量 并且通过把量化噪声分散到各个子带中 用全局信号把噪声掩蔽掉 AAC支持的采样频率可从8kHz到96kHzAAC编码器的音源可以是单声道的 立体声的和多声道的声音 AAC标准可支持48个主声道 16个低频音效加强通道LFE lowfrequencyeffects 16个配音声道 overdubchannel 或者叫做多语言声道 multilingualchannel 和16个数据流 信息工程系 43 2020 3 19 8 2MPEG音频压缩技术 MPEG 2AAC压缩比为11 1 即每个声道的数据率为 44 1 16 11 64kbit s 而5个声道的总数据率为320kbit s的情况下 很难区分还原后的声音与原始声音之间的差别与MPEG的Lager 相比 MPEG 2AAC的压缩率可提高1倍 而且质量更高 与MPEG的Lager 相比 在质量相同的条件下数据率是它的70 信息工程系 44 2020 3 19 8 2MPEG音频压缩技术 MPEG 2AAC的配置开发MPEG 2AAC标准采用的方法与开发MPEGAudio标准采用的方法不同 后者采用的方法是对整个系统进行标准化 而前者采用的方法是模块化的方法 把整个AAC系统分解成一系列模块 用标准化的AAC工具 advancedaudiocodingtools 对模块进行定义AAC标准定义了三种配置 基本配置 低复杂性配置和可变采样率配置 信息工程系 45 2020 3 19 8 3美国HDTVAC 3音频压缩技术 1 杜比AC 3环绕声系统AC AudioCoding 3是一种播放高音质和效果的环绕声系统杜比AC 3系统利用心理声学原理对音频信号进行压缩编码其取样频率有32KHz 44 1KHz 48KHz对音频声道采用独立方式编码 将每个声道的频率范围扩展到20Hz 20kHz全频域杜比AC 3的基本声道有5个 即前方左 右 中声道 后方环绕左和环绕右声道 另外还有一个超重低音声道 共有6个声道 其中超重低音声道的最高频率为120Hz 不能算一个完整的声道 因此又称为0 1声道 这样加起来便称为5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论