感知音频编码及AAC-MP3_第1页
感知音频编码及AAC-MP3_第2页
感知音频编码及AAC-MP3_第3页
感知音频编码及AAC-MP3_第4页
感知音频编码及AAC-MP3_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、感知音频编码及AAC、MP3目录感知音频编码12MP33AAC4.感知音频编码的发展3.感知音频编码的框架2.感知音频编码的原理1.感知音频编码的概念1.感知音频编码的概念l感知编码是利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性)、人耳对信号幅度、频率、时间的有限分辨能力,凡是人耳感觉不到的成分不编码,不传送,即凡是对人耳辨别声音信号的强度、音调、方位有贡献的部分(称为不相关部分或无关部分)都不编码和传送。对感觉到的部分进行编码时,允许有较大的量化失真、并使其处于听阈以下,人耳仍然感觉不到。简单的说感知编码是建立在人类听觉系统的心理声学原理为基础,只记录那些能被人的听觉所感知的声音信

2、号,从而达到减少数据量而又不降低音质的目的。l心理声学“人脑解释声音的方式”。2.感知音频编码的原理l绝对听觉门限l人耳实际上可看成一个多频段的听感分析器,在接收端的最后,它对瞬间的频谱功率进行了重新分配,这就为音频的数据压缩提供了依据。l人耳能听到的振动频率约在20Hz到20KHz之间,低于20Hz或高于20KHz的振动,不能引起人类听觉器官的感觉。心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。l听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。大多数人的听觉系统对2kHz5kHz之间的声音最敏感。一个

3、人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。这就是说在听觉阈值以外的电平可以去掉,相当于压缩了数据l听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。2.感知音频编码的原理l听觉掩蔽效应l心理声学模型中的另一个概念是听觉掩饰特性掩蔽效应,即一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。l掩蔽效应探讨的基础是感知编码中的一个重要的概念临界频段。l临界频段,即人耳对不同频率段声音信号的反应灵敏程度有所差别。人耳中包含了约3万个毛细胞,

4、它们能够检测到基膜的振动,通过生理脉冲将音频信息传到大脑,但这些细胞在不同频率的敏感程度不同,在低频区域对几赫兹的差异都能分辨出来,而在高频区域,必须要有几百赫兹的差别才能分辨。所以,一般毛细胞会对其周围的强刺激作出反应,这就是临界频段。l低频区域临界频段比在高频区域临界频段窄,在低频段临界频段很窄,频段宽度只有100Hz到200Hz,在高于5000Hz以后的临界频段的宽度有1000Hz至几万Hz的频段宽度。2.感知音频编码的原理l听觉掩蔽效应分类l掩蔽可分成频域掩蔽和时域掩蔽。l所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,即较强的声音信号可以掩蔽临近频段中同时发声的较弱的信号。这

5、种特性称为频域掩蔽,也称同时掩蔽(simultaneousmasking)。掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。l掩蔽特性与掩蔽音的强弱,掩蔽音的中心频率,掩蔽音与被掩蔽音的频率相对位置等有关。l除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。l时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking).l主要原因是人的大脑处理信息需要花费一定的时间。3.感知音频编码的框架4.感知音频编码的发展l感知编码技术产生于20世纪80年

6、代,在音频编码中有着广泛的应用。l最早是在1991年制定的MPEG-1音频编码中得到成功应用。l1992年,Philips公司生产的数字录音带DCC(DigitalCompactCassette)是最早采用感知编码技术的设备,但是由于销售不佳,在1996年停产,但随着心理声学模型和空间心理声学模型的发展,感知编码技术会得到进一步的发展。l同样之后的MPEG-2、杜比AC-3、AAC、DTS和AVS等音频编码标准都是感知编码技术的成功应用。目录感知音频编码12MP33AAC4.MP3优劣3.MP3相关指标2.MP3文件结构1.MP3简介MP3简介lMPEG-1音频压缩标准是第一个高保真音频数据压

7、缩标准。lMPEG-1音频压缩标准提供3个独立的压缩层次,使用户可在复杂性和压缩质量之间权衡选择。第3层最复杂,但音质最好,MP3便是指MPEG-1中的第3层音频压缩模式。lMP3是利用MPEGAudioLayer3的技术,将音乐以1:10甚至1:12的压缩率,压缩成容量较小的file,换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的M

8、P3音乐就播放出来了。MP3文件结构lMP3文件大体分为三部分:TAG_V2(ID3V2),Frame,TAG_V1(ID3V1)lID3V2l包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1的信息量lFramel一系列的帧,个数由文件大小和帧长决定l每个FRAME的长度可能不固定,也可能固定,由位率bitrate决定l每个FRAME又分为帧头和数据实体两部分l帧头记录了mp3的位率,采样率,版本等信息,每个帧之间相互独立lID3V1l包含了作者,作曲,专辑等信息,长度为128BYTE。MP3发展l在1992年成为了MPEG的第一个标准组MPEG-1的一部分,并且生成了1993年公布

9、的国际标准ISO/IEC11172-3。l1994年7月7日Fraunhofer-Gesellschaft发布了第一个称为l3enc的MP3编码器。lFraunhofer开发组在1995年7月14日选定扩展名.mp3(以前扩展名是.bit)。使用第一款实时软件MP3播放器Winplay3(1995年9月9日发布)许多人能够在自己的个人电脑上编码和回放MP3文件。由于当时的硬盘相对较小(如500MB),这项技术对于在计算机上存储娱乐音乐来说是至关重要的。l从1995年上半年开始直到整个九十年代后期,MP3开始在因特网上蓬勃发展。MP3的流行主要得益于如Nullsoft于1997年发布的Winam

10、p和Napster于1999年发布的Napster这样的公司和软件包的成功,并且它们相互促进发展。这些程序使得普通用户很容易地播放、制作、共享和收集MP3文件。MP3音频质量l因为MP3编码标准是一种有损编码,它提供了多种不同“位速”的选项也就是用来表示每秒音频所需的编码数据位数。典型的速度介于每秒128和320kb之间。使用较低位速编码的MP3文件通常回放质量较低。lMP3文件的质量也与编码器的质量以及播放环境等因素有关。使用优质编码器编码的普通信号,一些人认为128kbit/s的MP3以及44.1kHz的CD采样的音质近似于CD音质,同时得到了大约11:1的压缩率。在许多情况下认为MP3音

11、质太低是不可接受的,然而其他一些听众或者换个环境(如在嘈杂的车中或者聚会上)又认为音质是可接受的。MP3位速l位速对于MP3文件来说是可变的。总的原则是位速越高则声音文件中包含的原始声音信息越多,这样回放时声音质量也越高。在MP3编码的早期,整个文件使用一个固定的位速。lMPEG-1Layer3允许使用的位速是32、40、48、56、64、80、96、112、128、160、192、224、256和320kbit/s,允许的采样频率是32、44.1和48kHz。44.1kHz是最为经常使用的速度(与CD的采样速率相同),128kbit/s是事实上“好品质”的标准,尽管192kbit/s在对等文

12、件共享网络上越来越受到欢迎。l可变位速(VBR)也是可能的。MP3文件的中的音频切分成有自己不同位速的帧,这样在文件编码的时候就可以动态地改变位速。MP3编码MP3设计局限lMP3编码标准有一些不能仅仅通过使用更好的编码器绕过的内在限制。一些新的压缩格式AAC不再有这些限制。l按照技术术语,MP3有如下一些限制:l位速最大是320kbit/sl时间分辨率相对于变化迅速的信号来说太低l延迟时间长,最小理论延时59ms,实际上要比这大得多。l然而,即使有这些限制,一个好好的调整MP3编码器能够非常有竞争力地完成编码任务。MP3利弊l优点lMP3的优点有许多,主要有三点:l一是由于大大压缩了文件的体

13、积,所以相同的空间能存储更多的信息;l二是音质出色,文件小;l三是从网络下载几乎免费。l缺点lMP3音频编码技术是一种失真压缩,因为人耳只能听到一定频段内的声音,而其他更高或更低频率的声音对人耳是没有用处的,所以MP3技术就把这部分声音去掉了,从而使得文件体积大为缩小。虽然听上去MP3音乐仍旧具有接近CD的音质,但毕竟要比CD稍逊一些。而且,由于技术比较落后,同样码率下音质会比AAC、OGG差一些。目录感知音频编码12MP33AAC4.AAC优劣3.AAC相关指标2.AAC文件结构1.AAC简介AAC简介lAAC(AdvancedAudioCoding),中文名:高级音频编码,出现于1997年

14、,基于MPEG-2的音频编码技术。l由FraunhoferIIS、杜比实验室、AT&T、Sony等公司共同开发,目的是取代MP3格式。l2000年,MPEG-4标准出现后,AAC重新集成了其特性,加入了SBR技术和PS技术,为了区别于传统的MPEG-2,AAC又称为MPEG-4AAC。l根据MPEG规范的说法,MPEG-4中的AAC是MP3格式的下一代。lSBR:SpectralBandReplication频段复制lPS:parametricstereo参数立体声lSBR代表的是SpectralBandReplication(频段复制)。SBR的关键是在低码流下提供全带宽的编码而不会

15、产生产生多余的信号。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码。lPS技术就是从立体声音轨里提取出能够表征立体声信息的一系列参数,并把这些参数记录在压缩后的码流内,然后编码器使用一个单声道音轨来表征原立体声音轨,并对这个单声道音轨进行编码,在编码时使用AAC+SBR。AAC音频文件格式lAAC的扩展名也有好几种,比如:mp4、m4a、aac等等,因功能不同(ADTS、ADIF等文件头)以及容器不同,会有所差异。lAAC的音频文件格式有ADIFADTS:lADIF:AudioDataInterchangeFormat音频数据交换格式

16、。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。lADTS:AudioDataTransportStream音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。l简单说,ADTS可以在任意帧解码,也就是说它每一帧都有头信息。ADIF只有一个统一的头,所以必须得到所有的数据后解码。且这两种的header的格式也是不同的,目前一般编码后的和抽取出的都是ADTS格式的音频流。AAC音频文件格式l两者具体的组织结构如下所示:lA

17、AC的ADIF格式见下图:lllAAC的ADTS的一般格式见下图:lll图中表示出了ADTS一帧的简明结构,其两边的空白矩形表示一帧前后的数据。AAC与MP3l位速:AAC-最高超过400kbps/MP3-32320kbpsl采样率:AAC-最高96kHz/MP3-最高48kHzl声道数:AAC-(5.1)六声道/MP3-两声道l采样精度:AAC-最高32bit/MP3-最高16bitAAC特点l(1)AAC是一种高压缩比的音频压缩算法,但它的压缩比要远超过较老的音频压缩算法,l如AC-3、MP3等。并且其质量可以同未压缩的CD音质相媲美。l(2)同其他类似的音频编码算法一样,AAC也是采用了

18、变换编码算法,但AAC使用了分辨率l更高的滤波器组,因此它可以达到更高的压缩比。l(3)AAC使用了临时噪声重整、后向自适应线性预测、联合立体声技术和量化哈夫曼编码等最新技术,这些新技术的使用都使压缩比得到进一步的提高。l(4)AAC支持更多种采样率和比特率、支持1个到48个音轨、支持多达15个低频音轨、具有l多种语言的兼容能力、还有多达15个内嵌数据流。l(5)AAC支持更宽的声音频率范围,最高可达到96kHz,最低可达8KHz,远宽于MP3的16KHz-48kHz的范围。l(6)不同于MP3及WMA,AAC几乎不损失声音频率中的甚高、甚低频率成分,并且比WMA在频谱结构上更接近于原始音频,因而声音的保真度更好。专业评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论