研究音频的本质,详解各种音频格式的区别#材料详实

上传人：8*** IP属地：广东上传时间：2020-06-18 格式：DOC 页数：22 大小：717KB 积分：0 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、研究音频的本质，详解各个音频格式的区别总共分为6个部分，分别是wav格式的介绍，有损格式的介绍，无损压缩格式的介绍，各音频格式的频谱分析，以及基于分析在音频文件选择上做的推荐，后添加有损压缩格式的比较。1.wav音频格式的三大参数，及各参数对于音频文件的含义wav文件有4个参数，分别是采样频率，声道数，量化位数，以及码率共4个而这4个参数里最好理解的就是声道数，所以不对此参数进行介绍那么我将要介绍的参数就是采样频率F，量化位数B，和码率R采样频率在三个参数里面最重要的是采样频率，后面两个参数都是基于在传输存储过程中根据要求而得到的，唯独采样频率，它是把模拟世界的信号带到数字世界的桥梁。在讲采样

2、频率前，我们可以先回忆一下我们初中时学抛物线时的情景。在初中时，老师教我们画抛物线时，是用什么方法画的？如果大家回想起来的话，就应该记得，是5点法。是的，用5个点就可以近似的把抛物线给画出来。音频信号是啥呢？其实是余弦波，只是这个余弦波的频率和幅值都是随时间的变量而已。我们要对这个音频信号进行记录，不可能把每一时刻的值都记录，但是，我们可以参考画抛物线的方法，用尽量少的点去精确的描绘这个音频信号。而采样频率，它干的就是这个活，也就是一秒内我们要记录这个音频信号多少个点，就能近似精确的表达这个音频信号。在信号处理，有这么一个定理，叫奈奎斯特定理。这个定理怎么得来，你们不用知道，这个是信号处理专业

3、的人才需要知道。我们只需了解的是，这个定理它告诉我们，如果我们要精确的记录一个信号，我们的采样频率必须大于等于音频信号的最大频率的两倍，记住，是最大频率。也就是F=2*fmax。而在wav格式里，F=44.1kHz。我们知道，人耳的听音频率范围是20-20kHz，也就是说，如果我们要精确记录这个音频信号，采样频率最低起码是40kHz。这就是为啥是44.1kHz而不是其他的频率。量化位数虽然有了采样频率，我们可以精确记录音频信号，然而，这些记录过的音频信号是模拟量，对于计算机而言，是无法处理的。讲到这里，我们会出现一个新的概念，模拟量和数字量。模拟量和数字量是有区别的，我简单的介绍一下。例如

4、0-1这个范围。一个线段内我们可以任意的取一个点，这个点的值可以确定，这个点的取值范围可以确定，唯独这个点的可取值的个数无法确定，这就是模拟量。一个可能取值个数无法确定的量，计算机是无法处理的。而数字量则是其余一样，第三点不一样，可取值的个数是可以确定的，这样，计算机可以处理了。0-1这个范围，根据精度要求，我们可以确定需要取值的个数。而量化位数，这是干这活，确定音频信号的一个记录点，它的取值的可能个数。我们知道，wav的量化位数B是16，这个是一个2进制的位数。他告诉我们，一个记录点可以取值的个数是2的16次方，也就是65536。（0-1-平分65536次，我想，这个精度也是够了。）码率现

5、在，采样频率和量化精度都讲了，轮到码率。码率是怎么得来的？非常简单，就是采样频率X量化位数X声道数，也就是R=F*B*2。R=44.1kHz*16b*2=1411.2kbps=1411kbps。码率1411就是这么得来的，虽然码率是通过计算得到，但是，他却有一个确切的含义，就是一秒内它能存储的信息量，记住是信息量。讲到这里，大家可能会联想到，MP3的320kbps，aac的512kbps，无损压缩格式的700+kbps。然后有人疑惑，是不是，码率越大就越好？对于有损格式而言，那么，码率越大是越好然而，这里有一个前提，被转换的歌必须是从正版cd刻录下来的无损格式，并且转换是同一种有损格式，例如都

6、是MP3。不然，你用一个128kbs的MP3的歌转成320kbps码率的MP3，音质是不会有改善的。对于无损压缩格式而言，码率的大小比较将没有意义。码率的大小只是告诉你，他的压缩算法是否足够好而已。码率的意义也就这样，他不能告诉你，这些保存的信息是好是坏，他只能告诉你，他存了这么多信息而已。是的，他其实是一个仓库，他不管仓库里放的啥，他只管放满没。好了，到此，wav格式的三大参数都讲完了，也许会有很多人疑惑，为啥先讲wav这个这么古董的格式，而不是MP3啊aac啦这些有损格式，或者flac、ape这些无损压缩格式。理由很简单，因为wav是最接近模拟量的数字量，是最原始的数据，后面的格式都是基于

7、wav根据自己的特色进行处理而已。而且，上面讲到的三个参数，后面的格式依然用到。自然，先把wav这个老大先介绍咯。 2.有损格式的压缩原理在这部分里以及后面的无损格式压缩原理，不专门对某个格式讲行介绍，而是介绍，这些格式是基于什么理念得到。当我们了解wav格式三大参数的含义后，可能有人会疑惑，既然wav是最接近模拟量的数字格式，为啥还整来后面的有损格式和无损格式呢，直接wav多好啊。是的，直接wav很好，然而，他的码率太大了。1411kbps，啥概念，就是说一个10秒的音频，居然要用到3.36MB去存储！、在过去存储技术不发达的年代，这个量太大了，让人无法接收。因此，必须压缩，必须把没用或者不

8、重要的信息给去掉减少存储量。因此，有损格式诞生了。那么，有损格式又是基于什么原理得到的，接下来就是我将要讲的内容。对于一个音频信号而言，他是一个时间相关的信号，也就是说，前后两个记录点，他们有时间上的顺序。然而，对于计算机而言，处理与时间相关的信息，这个不是强项。因此，必须对这个两个记录点的信息进行变换，变换成对时间顺序无关，彼此是独立的一个信息。在这里，感谢早期那些数字信号处理的科学家，他们提供了这么个方法，就是快速傅里叶变换，简称FFT。我们不需知道FFT是怎么来的，我们只需知道，一个信号经过FFT变换后，这个信号变成与频率相关的信息，而频率相关的信息，是可以被计算机处理。我们可以回想一

9、下，音频信号是一个个余弦波，处理一个余弦波无非是处理频率、幅值，初相角。初相角我们不管，幅值和频率这个在经过FFT变换之后，就可以处理了。经过FFT变换之后，如果用图来表示，就是频谱图。频谱图：这个频谱图的横坐标就是频率，纵坐标是对应频率的增益，或者理解成强度也行。对于人耳而言，我们接受的音频信号大部分都集中在中低频部分，高频部分我们相对不是那么敏感。既然这样，我们就可以把不敏感的高频部分，直接去掉，这样，就减少了信息量，这是方法之一。还有另一个，对于音频信号而言，相邻的几个记录点，他们的取值范围是非常接近的。既然非常接近，我们可以用一个平均值，以及取这个平均值的点的个数来记录。举个例子，有5

10、个记录点，0.45 0.446 0.461 0.45 0.447，我们可以用0.45（5）来记录。这样，记录的信息量同样少了，其实还有其他压缩方法，但是，大概的意思是和上面两种方法差不多，就不介绍了。通过各种手法，我们把不需要的信息去掉，把不重要的信息用近似值代替，从而达到有损压缩。、同样用码率这个参数做对比。同样一个10秒音频，经过有损压缩后，其码率值为320kbp，则大小才787KB！为wav格式的五分之一！用尽量少的数据，存储尽量多有用的信息，有损格式做到了！这也是为啥有损格式流行起来的原因。 3.无损压缩格式的压缩原理随着存储技术的发展，我们可以存储的信息量变得越来越大，存储wav格

11、式变得“毫无压力”了。既然毫无压力，为啥要推出无损压缩格式？理由很简单，既然我40MB可以存储2首无损压缩格式，为啥我还存储1首wav格式，这不是跟自己过不去嘛。所以，无损压缩格式发展起来了。无损压缩格式和有损格式有个共同点，就是压缩。不同点是，无损。那么，要怎么才能做到无损压缩呢，我们可以参考有损压缩的第二个方法。举个例子，同样是5个记录点，0.4 0.4 0.5 0.5 0.3，如果要无损压缩，我们只需这样记录0.4（2），0.5（2），0.3（1）。这样，我们只需用三个记录点，就能记录原来需要5个记录点，同样压缩了。而且，做到无损压缩。这是其中一种思路，但是，他告诉我们，无损压缩对于信息

12、处理而言，是可以做到的。要完整记录一个音频，不需用到wav格式，无损压缩就行了。同样用码率这个参数做比较，一个10秒音频，经过无损压缩后，码率值为727kbps，大小为1.73MB。大概为wav的一半。大容量播放器支持无损压缩格式，小容量播放器则玩转有损格式，各有各的位置，技术发展确实是一件好事啊。经常见到有人问wav、flac和ape是不是有区别，那么我就在这里做个总结。经过上面的算法原理介绍，我们可以了解到，如果单纯从文件本身，wav和其他所有无损压缩格式在保存的信息上是无区别的。经常会看到有人问无损格式相关的两个问题：无损压缩格式之间有没有区别和无损压缩格式与wav有没有区别。第一个问题

13、，我现在就可以回答，有。但，区别不是在信息记录的完整程，而是其压缩算法以及算法所采用的格式的区别。这也是为啥，同一首歌，ape格式比flac小，因为算法不同。至于音质表现将会和第二个问题一起，在第五部分讲到4.音频文件频谱分析这一部分是对不同的音频格式以及同一音频格式不同的码率进行分析。专门为那些选择哪种音频格式而烦恼的人提供参考的。待分析的音频格式有MP3，aac三种格式，无损格式作为参考格式。由于用fb转换，MP3格式只有vbr模式和最高的cbr320。所以，可能与大家熟悉的码率有所不同。不过，我用括号标明了其对应的码率值，是个大概值，不一定准，不过可以参考。MP3的码率有VBR的V5（1

14、30kbps）V2（190kbps）V0（245kbps）和CBR的320kbps。为了对应MP3的VBR模式，aac同样采用VBR模式aac的码率有，q04（125kbps）q05（175kbps）q06（225kbps）q08（325kbps）q10（400bps）之所以这么选择，是因为大家习惯的码率值有128kbps 196kbps 256kbps 和320kbps。在选择MP3的转换模式时其参考码率尽量靠近习惯码率值。因为aac在编码上比MP3优秀得多，所以aac的转换模式是转换后的文件体积大小尽量接近MP3大小。至于来个q10模式，则是与无损压缩格式做对比的。先来张各音频格式与对应码

15、率的文件体积对比图事先说明，该音频文件截取的是eason的十年（40s-60s）这段范围，用的是网上下载的无损，截取软件用goldwave。先来个体积分析。显然，这里体积最小的是V5MP3（130kbps），对应是的q04aac（125kbps）。第二档次是V2MP3（192kbps）对应q05aac（175kbps）。第三档次是V0MP3（245kbps）对应q08aac（225kbps）。第四档次是cbrMP3（320kbps）与对应的q08aac（325kbps）。最后是q10aac（400kbps）与对应的flac。假设原盘是正版的，则其对应的音质档次是低级、初级、中级、高级、以及最高

16、。先上最高级别的声谱图无损声谱图q10aac声谱图先说明一下，横坐标是时间，纵坐标是频率，点的白色度程度是对应时间与频率的声音强度。所以叫声谱图。通过对比，我们发现，q10aac在声音的频率再现范围与无损无差别，干到22kHz无压力。但是声音的频率再现强度则有缺陷，在一些时间段的频率声音强度缺失下图q10aac缺陷红色圈住部分则是缺失的部分。可以看出，q10aac在细节部分依然无法完美记录（毕竟是有损），但是，从整体而言，其保留的信息已经非常接近无损。（个人认为，作为高保真的格式，高码率aac是合格的。）然后是高级档次的声谱对比图q08aac320MP3通过对比，我们可以发现，320MP3的声

17、谱就是一刀切，把高于20kHz的频率都去掉，而q08aac则是干到22khz无鸭梨，在细节上，两者都差不多，我就不上图了，所以，这回合aac赢了。中级档次声谱对比图q06aacv0mp3到了中级档次，MP3格式在频谱再现范围达到19kHz，而aac则是18kHz。在声音细节方面，两者基本差不多，这回合，是MP3格式胜了。初级档次声谱图q05aacv2mp3在初级档次，MP3格式的频率平均在16kHz，不少能上到18kHz，而aac格式，同样如此。但是，在细节呈现方面，aac超过16kHz的声音比MP3多得多。而低于16kHz部分，两者差不多。所以说，这回合aac赢了。低级档次q04aacv5m

18、p3在低级档次，MP3是一刀切的到16kHz，而aac则是平均16kHz下不少能干到17kHz。低于16kHz部分，aac记录的反而没有MP3完整。个人认为，这回合打和。通过这次对比，我们可以发现MP3与aac在有损压缩的理念区别，MP3是在他能记录的频率范围内，尽量保留。而aac则是牺牲低频部分细节去换取高频部分的保留，在低码率下，谁好谁不好看个人选择。到了高码率下，aac则明显优于MP3，无论在低频部分还是高频部分，aac都能尽量保留，而MP3则对高频部分依然无能为力。5.音频格式选择的个人推荐在第三部分，我曾经提了两个问题，无损压缩格式之间的音质区别以及wav与无损压缩格式的区别，在这里

19、我将解答在第四部分，我们通过声谱图对比了解到有损音频格式的优缺点，为下面的有损格式选择做下铺垫不过，在对第三部分的解答和做格式推荐前，我想先介绍一下音频在播放时的流程图wav格式：wav数据流DAC滤波电路放大电路输出有损格式：有损数据流解码DAC滤波电路放大电路输出无损压缩格式：无损压缩数据流解压缩DAC滤波电路放大电路输出说明：DAC的作用是把数字信号变成模拟信号，滤波电路是把无用的频率成分去掉，放大电路这是对模拟信号进行放大，以便于输出通过播放流程图，我们可以看到，wav格式的播放是最简单的，而有损格式和无损压缩格式都多了一个步骤。在信号处理里面，有这么一句话“误差无处不在”。这一句话的

20、含义是，每多一步的处理，误差产生的可能性会越大以及误差的积累可能会越多。对于有损格式而言，在格式上本来对于无损格式唯一的优点就是压缩率足够大，而这个压缩率是以牺牲音质为前提，音质不如无损，正常。那些提问“ape和flac是否有区别，wav是不是比无损压缩格式更好”的人，我现在一一做出解答在回答前，我们先对比无损压缩格式和wav的播放流程，可以看到，无损压缩格式比wav多了一个“解压缩”这个步骤。对于不同的无损压缩格式而言，解压缩的算法也是不同的。那些说wav比无损压缩格式好的人，他们的看法有合理之处。为啥我会这么说，不是说无损压缩嘛，既然无损，就应该无区别。是的，在文件的信息完整度上而言，没错

21、，wav和其他无损压缩格式都没有任何区别！有区别不是在文件本身，而是播放过程！因为无损压缩格式在播放的过程中走的步骤比wav格式多了一个！那就是解压缩！假设我们可以保证后面的DAC、滤波电路、放大电路两者是一样的，然而，多了解压缩的这个步骤，则可能对音质产生影响。为啥我要这么说，解压缩可能会对音质产生影响。产生影响的原理我不清楚，不过，可以参照之前说的，误差无处不在。意味着，解压缩这个步骤，其产生的误差有可能对整体的音质造成影响。至于这个影响是否能忽略，就看生产商的功力了。同样，那些无损压缩格式在最终的音质区别看的也不是格式本身，而是这个“解压缩”做的是否足够好，好到忽视误差的影响。有了上面播

22、放的流程的介绍，还有第四部分的声谱分析，我们就可以根据使用的环境，进行格式推荐。不在乎音频文件体积大小的，追求音质的，首选当然是无损格式。如果你的前端能支持无损压缩格式，而你的播放系统能听出wav和无损压缩格式的差距（就是说解压缩的误差你能听出来），上wav。不然，上无损压缩格式。在乎音频文件体积大小的，又追求音质的，上高码率aac。不过，这里有个前提，你的播放系统得能听出高码率aac与320MP3的区别，不然，还是乖乖的上MP3，别折腾。不在意音质的，上MP3就行了。这里都有一个大前提，这些音频文件都是由真无损转的，而不是假无损转的。不然，换个大仓库，里面存的东西依然垃圾。后记：总算把这篇音

23、频格式研究文搞定，不过，得感谢学院里的老师，听歌去了6.有损压缩格式的比较AAC、mp3、wma、ogg格式比较AAC实际上是高级音频编码的缩写，目前已经有不少的MP3、mp4支持这一种格式。AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式，它是MPEG-2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同，AAC通过结合其他的功能来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法（比如MP3等）。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，AAC可以在比MP3文

24、件缩小30%的前提下提供更好的音质。AAC（高级音频编码技术 Advanced Audio Coding)，出现于1997年，是基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比、苹果、AT&T、索尼等公司共同开发，以取代mp3格式。2000年，MPEG-4标准出台，AAC从新整合了其特性，故现又称MPEG-4 AAC，即m4a。作为一种高压缩比的音频压缩算法，AAC通常压缩比为18：1，也有资料说为20：1，远胜mp3，而音质由于采用多声道，和使用低复杂性的描述方式，使其比几乎所有的传统编码方式在同规格的情况下更胜一筹。不过直到2006年，使用这一格式储存音频的并不多，可

25、以播放该格式的mp3播放器更是少之又少，目前所知仅有苹果iPod，而手机支持AAC的相对要多一些，此外电脑上很多音频播放软件都支持AAC格式。aac与mp3对比：AAC是在MP3基础上开发出来的，所以两者的编码系统有一些相同之处。但是对比一下两者的编码流程图，你会发现AAC的编码工序更为复杂。（1）AAC和MP3的关键性不同：滤波器组（Filter bank）：时域噪音修整（Temporal Noise Shaping，TNS）：这项神奇的技术可以通过在频率域上的预测，来修整时域上的量化噪音的分布。在一些特殊的语音和剧烈变化信号的量化上，TNS技术对音质的提高贡献巨大！预测（Predicti

26、on）：对音频信号进行预测可以减少重复冗余信号的处理，提高效率。量化（Quantization）：AAC的量化过程是使用两个巢状循环进行反复运算。通过对量化分析的良好控制，比特率能够被更高效地利用。比特流格式（Bitstream format）：在AAC中，信息的传输都要经过熵编码，以保证冗余尽可能少。此外AAC拥有一个弹性的比特流结构，使得编码效率进一步提高。长时期预测（Long Term Prediction，LTP）：这是一个MPEG4 AAC中才有的工具，它用来减少连续两个编码音框之间的信号冗余，对于处理低码率的语音非常有效。知觉噪音代替（Perceptual Noise Substi

27、tution，PNS）：这也是MPEG4 AAC中才有的工具，当编码器发现类似噪音的信号时，并不对其进行量化，而是作个标记就忽略过去，当解码时再还原出来，这样就提高了效率。（2）AAC的特点：提升的压缩率：可以以更小的文件大小获得更高的音质；支持多声道：可提供最多48个全音域声道；更高的解析度：最高支持96KHz的采样频率；提升的解码效率：解码播放所占的资源更少；关于MP3： MP3本来就是丢高频,损细节的压缩方法.尤其是音场,由于是JOINT STEREO,明显被压窄了.后来的MP3 PRO就是专门解决高频的,不过没流行起来. MP3实在太流行,加上很多人的耳朵并不像我们这么挑剔,不像WM

28、A存在版权问题,于是MP3就活到了今天,任你什么MP4,OGG,VQF,WMA等等都拿它没办法. 关于wma：WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名，一些使用Windows Media Audio编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 WMA在技术上远比MP3先进,96KBPS就比128KBPS的M

29、P3强,支持数字签名防盗版,支持楼主说的TAG等,最新的WMA甚至还支持5.1。在64kbps的数据速率时，在13000-20000Hz频率段就能保留了大部分信息。但64kbps的WMA的低频表现实在有点令人失望，听上去比较硬，如同加入了哇声效果一般，感觉非常不好，当然比同比特64K的mp3要好感觉声音更集中。听觉上64WMA的表现基本接近128kbps mp3的音质水平，但没有达到。96K的wma略好于128K的mp3，WMA在高于128以上的各种比特率表现相差不大，高频和泛音都很丰富，一般人听不出WMA128Kbps以上的音质和音色的差异，总体感觉WMA的声音偏硬,适合流行摇滚,如果是古典或者纯人声的话,感觉有点生硬,在低于12

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

研究音频的本质,详解各种音频格式的区别#材料详实

文档简介

温馨提示

最新文档

评论

研究音频的本质,详解各种音频格式的区别#材料详实

文档简介

温馨提示

最新文档

评论

相关文档