版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第12章章 MPEG声音声音第第12章章 MPEG声音声音 第第12章章 MPEG声音声音2021-12-14212.1 听觉系统的感知特性听觉系统的感知特性 12.1.1. 对响度的感知对响度的感知 “听阈听阈”: 当声音弱到人的耳朵刚刚可以听见时的声音强度。当声音弱到人的耳朵刚刚可以听见时的声音强度。 1 kHz纯音的声强达到纯音的声强达到10-16w/cm2(定义成零定义成零dB声强级声强级)时,时,人耳刚能听到,此时的主观响度级定为零方人耳刚能听到,此时的主观响度级定为零方 。 “零方等响度级零方等响度级”曲线:曲线: 也称也称“绝对听阈绝对听阈”曲线,即在安静环境中,能被人耳听到的
2、曲线,即在安静环境中,能被人耳听到的纯音的最小值。纯音的最小值。 “痛阈痛阈”: 实验表明,如果频率为实验表明,如果频率为1 kHz的纯音的声强级达到的纯音的声强级达到120 dB左左右时,人的耳朵就感到疼痛,这个阈值称为右时,人的耳朵就感到疼痛,这个阈值称为“痛阈痛阈”。 人耳的听觉范围:人耳的听觉范围: 在在“听阈听阈频率频率”曲线和曲线和“痛阈痛阈频率频率”曲线之间的区域曲线之间的区域第第12章章 MPEG声音声音2021-12-143图图12-01 “听阈听阈频率频率”曲曲线线第第12章章 MPEG声音声音2021-12-144 12.1.2. 对音高的感知对音高的感知 主观感觉的音高
3、单位则是主观感觉的音高单位则是“美美(Mel)”,主观音高与客观主观音高与客观音高的关系是音高的关系是 : 其中其中f f 的单位为的单位为Hz,这也是两个既不相同又有联系的单位,这也是两个既不相同又有联系的单位 。)1 (log10002fMel图图12-02 “音高音高频率频率”曲线曲线人耳可以听到的最低频人耳可以听到的最低频率约率约20 Hz,最高频率,最高频率约约18000 Hz 第第12章章 MPEG声音声音2021-12-145 12.1.3. 掩蔽效应掩蔽效应 掩蔽效应:掩蔽效应: 一种频率的声音阻碍听觉系统感受另一种频率的声一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。
4、音的现象。 1. 频域掩蔽频域掩蔽 : 也称也称同时掩蔽同时掩蔽(simultaneous masking),是指一个,是指一个强纯音会掩蔽在其附近同时发声的弱纯音的特性;强纯音会掩蔽在其附近同时发声的弱纯音的特性; 弱纯音离强纯音越近就越容易被掩蔽弱纯音离强纯音越近就越容易被掩蔽 ;第第12章章 MPEG声音声音2021-12-146图图12-03 声强为声强为60 dB、频率为、频率为1000 Hz纯音的掩蔽效应纯音的掩蔽效应 第第12章章 MPEG声音声音2021-12-147图图12-04 不同纯音的掩蔽效应曲线不同纯音的掩蔽效应曲线 在250 Hz、1 kHz、4 kHz和8 kHz
5、纯音附近,对其他纯音的掩蔽效果最明显;低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。 第第12章章 MPEG声音声音2021-12-148 “临界频带临界频带(critical band)”: 在在20 Hz到到16 kHz范围内有范围内有24个临界频带,如表个临界频带,如表12-01所示。所示。临界频带的单位叫临界频带的单位叫Bark(巴克巴克),1 Bark = 一个临界频带的宽度一个临界频带的宽度 f f (频率频率) 500 Hz的情况下的情况下, 1Bark 9 + 4log2( f/1000) 第第12章章 MPEG声音声音2021-12-149临界临界频
6、率频率 (Hz)临界临界频率频率 (Hz)频带频带低端高端宽度频带频带低端高端宽度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155
7、003500111480172024024155002205065501217202000280表表12-01 临界频带临界频带 第第12章章 MPEG声音声音2021-12-1410 2. 时域掩蔽时域掩蔽 时域掩蔽:时域掩蔽: 在时间上相邻的声音之间也有掩蔽现象;在时间上相邻的声音之间也有掩蔽现象; 超前掩蔽超前掩蔽(pre-masking): 大约大约520 ms 滞后掩蔽滞后掩蔽(post-masking): 可以持续可以持续50200 ms 产生时域掩蔽的主要原因:产生时域掩蔽的主要原因: 人的大脑处理信息需要花费一定的时间。人的大脑处理信息需要花费一定的时间。第第12章章 MPEG
8、声音声音2021-12-1411图图12-05时域掩蔽时域掩蔽第第12章章 MPEG声音声音2021-12-141212.2 MPEG Audio与感知特性与感知特性 数据压缩的的主要依据:数据压缩的的主要依据: 利用人耳朵的听觉特性,使用利用人耳朵的听觉特性,使用“心理声学模型心理声学模型(psychoacoustic model)”来达到压缩声音数据的目来达到压缩声音数据的目的。的。 听觉阈值电平:听觉阈值电平: 低于这个电平的声音信号就听不到,因此就可以把这部分信号低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。去掉。 听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值听
9、觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。也不同。 大多数人的听觉系统对大多数人的听觉系统对2 kHz5 kHz之间的声音最敏感。之间的声音最敏感。 一个人是否能听到声音取决于声音的频率,以及声音的幅度是一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。否高于这种频率下的听觉阈值。 第第12章章 MPEG声音声音2021-12-1413 听觉掩饰特性:听觉掩饰特性: 听觉阈值电平是自适应的,即听觉阈值电平会随听听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化到的不同频率的声音而发生变化 。第第12章章 MPEG声音声音2
10、021-12-1414图图12-06 感知子带压缩算法框图感知子带压缩算法框图实验表明,采样频率为48 kHz、样本精度为16比特比特的声音数据压缩到256 kb/s时,即在6:1的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。 第第12章章 MPEG声音声音2021-12-1415图图12-07 Dolby AC-3压缩编码算法框图压缩编码算法框图*第第12章章 MPEG声音声音2021-12-141612.3 MPEG-1 Audio 12.3.1 声音编码声音编码 声音的数据量由两方面决定:声音的数据量由两方面决定: 采样频率和样本精度。采样频率和样本精度。 对单
11、声道信号而言,对单声道信号而言, 每秒钟的数据量每秒钟的数据量(位数位数)=采样频率采样频率 样本精度。样本精度。 采样频率一般不能低于采样频率一般不能低于44.1 kHz: 因为人耳可听到的频率范围大约是因为人耳可听到的频率范围大约是20 Hz20 kHz 子带编码子带编码(sub-band coding,SBC)方法:方法: 不局限于只对话音进行编码,也不局限于哪一种声源。不局限于只对话音进行编码,也不局限于哪一种声源。 首先把时域中的声音数据变换到频域,对频域内的子带分量分首先把时域中的声音数据变换到频域,对频域内的子带分量分别进行量化和编码;别进行量化和编码; 然后根据心理声学模型确定
12、样本的精度,从而达到压缩数据量然后根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。的目的。 第第12章章 MPEG声音声音2021-12-1417 12.3.2 声音的性能声音的性能 * MPEG-1声音标准的主要性能如下:声音标准的主要性能如下: (1) 为线性为线性PCM信号,采样率为信号,采样率为32 kHz, 44.1 kHz或或48 kHz,输出为,输出为32 kb/s384 kb/s。 第第12章章 MPEG声音声音2021-12-1418 (2) 提供三个独立的压缩层次:层提供三个独立的压缩层次:层1(Layer 1)、层、层2(Layer 2)和层和层3(Layer
13、3),用户对层次的选择可在,用户对层次的选择可在复杂性和声音质量之间进行权衡。复杂性和声音质量之间进行权衡。 层层1的编码器最为简单,编码器的输出数据率为的编码器最为简单,编码器的输出数据率为384 kb/s,主要用于小型数字盒式磁带,主要用于小型数字盒式磁带(digital compact cassette,DCC)。 层层2的编码器的复杂程度属中等,编码器的输出数据率的编码器的复杂程度属中等,编码器的输出数据率为为256 kb/s192 kb/s,其应用包括数字广播声音,其应用包括数字广播声音(digital broadcast audio,DBA)、数字音乐、数字音乐、CD-I(comp
14、act disc-interactive)和和VCD (video compact disc)等。等。 层层3的编码器最为复杂,编码器的输出数据率为的编码器最为复杂,编码器的输出数据率为64 kb/s,主要应用于主要应用于ISDN上的声音传输以及上的声音传输以及MP3。*第第12章章 MPEG声音声音2021-12-1419表表9-02 MPEG声音的压缩率声音的压缩率 层次层次算法算法压缩率压缩率立体声信号所对应立体声信号所对应的的位率位率( kb/s)( kb/s)1MUSICAM*4:13842MUSICAM*6:1 8:1256 1923ASPEC*10:1 12:1128 112表表
15、9-03 MPEG编码解码器的延迟时间编码解码器的延迟时间延迟时间理论最小值( ms)实际实现中的一般值( ms)层1(Layer 1)19 15立体声112 12812 10 :1第第12章章 MPEG声音声音2021-12-1421 12.3.3 子带编码子带编码 SBC的基本想法:的基本想法:p224图图12-09 MPEG声音编码器结构图声音编码器结构图 第第12章章 MPEG声音声音2021-12-1422 信掩比信掩比(signal-to-mask ratio,SMR) 指最大的信号功率与全局掩蔽阈值之比指最大的信号功率与全局掩蔽阈值之比 SNR (signal noise rat
16、io) 信号噪声比信号噪声比SMR (signal-to-mask ratio) 信号掩蔽比信号掩蔽比 NMR (noise-to-mask ratio) 噪声掩蔽比噪声掩蔽比图图12-10 掩蔽阈值和掩蔽阈值和SMR 第第12章章 MPEG声音声音2021-12-1423图图12-11 MPEG声音解码器结构图声音解码器结构图第第12章章 MPEG声音声音2021-12-1424 12.3.4 多相滤波器组多相滤波器组 图图12-12 滤波器组的带宽与临界频带带宽的比较滤波器组的带宽与临界频带带宽的比较 第第12章章 MPEG声音声音2021-12-1425 12.3.5 编码层编码层 图图
17、12-13 层层1、2和层和层3的子带样本的子带样本 第第12章章 MPEG声音声音2021-12-1426 1. 层层1 层层1的子带是频带相等的子带;的子带是频带相等的子带; 心理声学模型仅使用频域掩蔽特性心理声学模型仅使用频域掩蔽特性 ; 对一个子带中的一个样本组对一个子带中的一个样本组(由由12个样本组成个样本组成)进行编码进行编码 。图图12-14 ISO/MPEG audio层层1和层和层2编码器和解码器的结构编码器和解码器的结构 第第12章章 MPEG声音声音2021-12-1427用于同步和记录该帧信息的同步头,长度为32比特;用于检查是否有错误的循环冗余码CRC (cycli
18、c redundancy code),长度为16比特;用于描述比特分配的比特分配域,长度为4比特;比例因子域,长度为6比特;子带样本域;有可能添加的附加数据域,长度未规定。 图图12-15 层层1的帧结构的帧结构 第第12章章 MPEG声音声音2021-12-1428图图12-16 MPEG声音比特流同步头的格式声音比特流同步头的格式 第第12章章 MPEG声音声音2021-12-1429 2. 层层2 心理声学模型:心理声学模型: 使用频域掩蔽特性使用频域掩蔽特性; 利用时间掩蔽特性;利用时间掩蔽特性; 在低、中和高频段对比特分配作了一些限制;在低、中和高频段对比特分配作了一些限制; 对一个
19、子带中的三个样本组进行编码对一个子带中的三个样本组进行编码 。 描述比特分配的位数描述比特分配的位数(即比特数即比特数)随子带不同而变化:随子带不同而变化: 低频段的子带用低频段的子带用4比特;比特; 中频段的子带用中频段的子带用3比特;比特; 高频段的子带用高频段的子带用2比特比特 。第第12章章 MPEG声音声音2021-12-1430图图12-17 层层2比特流数据格式比特流数据格式第第12章章 MPEG声音声音2021-12-1431 3. 层层3 把声音频带分成非等带宽的子带把声音频带分成非等带宽的子带; 心理声学模型心理声学模型: 使用频域掩蔽特性使用频域掩蔽特性; 利用时间掩蔽特
20、性利用时间掩蔽特性; 考虑立体声数据的冗余,使用霍夫曼考虑立体声数据的冗余,使用霍夫曼(Huffman)编码器。编码器。 第第12章章 MPEG声音声音2021-12-1432图图12-18 ISO/MPEG audio层层3编码器和解码器的结构编码器和解码器的结构 第第12章章 MPEG声音声音2021-12-143312.4 MPEG-2 Audio 表表12-05 MPEG-1和和-2的声音数据规格的声音数据规格参数名称参数名称Linear PCM Linear PCM Dolby AC-3 Dolby AC-3 MPEG-2 AudioMPEG-2 AudioMPEG-1 AudioM
21、PEG-1 Audio采用频率采用频率48/96 kHz 48/96 kHz 32/44.1/48 32/44.1/48 kHzkHz16/22.05/24/ 16/22.05/24/ 32/44.1/48 32/44.1/48 kHzkHz32/44.1/48 32/44.1/48 kHzkHz样本精度样本精度( (每个样本每个样本的比特数的比特数) )16/20/24 16/20/24 压缩压缩(16 bits)(16 bits)压缩压缩(16 bits)(16 bits)1616最大数据传最大数据传输率输率 6.144 Mb/s 6.144 Mb/s 448 kb/s 448 kb/s
22、8 8640 kb/s640 kb/s3232448 kb/s448 kb/s最大声道数最大声道数8 8 5.1 5.1 5.1/7.1 5.1/7.1 2 2第第12章章 MPEG声音声音2021-12-1434图图12-19(a) 5.1声道立体环绕声声道立体环绕声 图图12-19(b) 7.1声道立体环绕声声道立体环绕声 其中的其中的“.1”就是指就是指LFE声道。声道。LFE (low frequency effects)是低频音效的加强声道是低频音效的加强声道 第第12章章 MPEG声音声音2021-12-1435图图12-20 MPEG-2 Audio的数据块的数据块 第第12章章
23、 MPEG声音声音2021-12-143612.5 MPEG-2 AAC 12.5.1 MPEG-2 AAC是什么是什么 压缩比为压缩比为11:1,即每个声道的数据率为,即每个声道的数据率为(44.116 )/11=64 kb/s,而,而5个声道的总数据个声道的总数据率为率为320 kb/s的情况下,很难区分还原后的声的情况下,很难区分还原后的声音与原始声音之间的差别。音与原始声音之间的差别。 与与MPEG的层的层2相比,相比,MPEG-2 AAC的压缩率的压缩率可提高可提高1倍,而且质量更高;倍,而且质量更高; 与与MPEG的层的层3相比,在质量相同的条件下数相比,在质量相同的条件下数据率是
24、它的据率是它的70。 第第12章章 MPEG声音声音2021-12-1437 12.5.2 MPEG-2 AAC的配置的配置 1. 基本配置基本配置(Main Profile): 2. 低复杂性配置低复杂性配置(Low Complexity Profile): 3. 可变采样率配置可变采样率配置(Scalable Sampling Rate Profile): 12.5.3 MPEG-2 AAC的基本模块的基本模块 1. 增益控制增益控制(Gain control) 2. 滤波器组滤波器组(Filter Bank) 正向正向MDCT变换可使用下式表示:变换可使用下式表示: 逆向逆向MDCT变换可使用下式表示:变换可使用下式表示:其中,其中,n样本号,样本号,N变换块长度,变换块长度,i=块号,块号,12,.,0),21)(2cos2010NkknnNxXNninik12,.,0),21)(2cos2ln
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理沟通中的反馈技巧
- 陕西省西安市滨河区2025-2026学年初三下学期5月底模拟考试数学试题试卷含解析
- 2026年大学大一(康复治疗学)运动康复技术阶段测试试题及答案
- 2026年大学大一(机械设计制造及其自动化)机械制造基础阶段测试试题及答案
- 护理技能竞赛教学课件参考
- 护理安全的可穿戴设备应用
- 六年级下册第一单元教学初探 品风俗之韵悟语文之妙
- 急救护理中的急救思维
- 护理时间管理:合理规划工作时间
- 吸氧护理服务规范考核试题及答案
- 2026届湖北省武汉普通高中高三3月调考化学+答案
- 小儿肺炎救治管理培训措施
- 2026年安庆医药高等专科学校单招职业适应性测试题库含答案详解(b卷)
- 湖北省云学名校联盟2025届高三年级2月联考物理(含答案)
- 2026年安徽工贸职业技术学院单招职业技能考试题库及答案详解(基础+提升)
- 2026云南德宏州瑞丽市人民法院招聘聘用制书记员2人考试参考试题及答案解析
- (一模)2026年深圳市高三年级第一次调研考试数学试卷(含官方答案及解析)
- 2026年春季小学湘美版(2024)二年级下册美术教学计划、教案及每课教学反思(附目录)
- 2026年亳州职业技术学院单招职业技能测试题库及答案详解(基础+提升)
- GB/Z 149-2026天然食品成分使用指南
- 2026年部编版新教材道德与法治二年级下册全册教案(含教学计划)
评论
0/150
提交评论