音频基础知识.doc_第1页
音频基础知识.doc_第2页
音频基础知识.doc_第3页
音频基础知识.doc_第4页
音频基础知识.doc_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一. 音频基础知识 1. 音频编解码原理 数字音频的出现,是为了满足复制、存储、传输的需求,音频信号的数据量对于进行传输或存储形成巨大的压力,音频信号的压缩是在保证一定声音质量的条件下,尽可能以最小的数据率来表达和传送声音信息。信号压缩过程是对采样、量化后的原始数字音频信号流运用适,当的数字信号处理技术进行信号数据的处理,将音频信号中去除对人们感受信息影响可以忽略的成分,仅仅对有用的那部分音频信号,进行编排,从而降低了参与编码的数据量。数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余,包括时域冗余、频域冗余和听觉冗余。1.1时域冗余A幅度分布的非均匀性:信号的量化比特分布是针对信号的整个动态范围而设定的,对于小幅度信号而言,大量的比特数据位被闲置。B样值间的相关性:声音信号是一个连续表达过程,通过采样之后,相邻的信号具有极强的相似性,信号差值与信号本身相比,数据量要小的多。C信号周期的相关性:声音信息在整个可闻域的范围内,每个瞬间只有部分频率成分在起作用,即特征频率,这些特征频率会以一定的周期反复出现,周期之间具有相关关系。D长时自我相关性:声音信息序列的样值、周期相关性,在一个相对较长的时间间隔也会是相对稳定的,这种稳定关系具有很高的相关系数。E静音:声音信息中的停顿间歇,无论是采样还是量化都会形成冗余,找出停顿间歇并将其样值数据去除,可以减少数据量。1.2 频域冗余A长时功率谱密度的非均匀性:任何一种声音信息,在相当长的时间间隔内,功率分布在低频部分大于高频部分,功率谱具有明显的非平坦性,对于给定的频段而 言,存在相应的冗余。B语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值,而在另一些频率上出现谷值,这些共振峰频率具有较大的能量,由它们决定了不同的语音特征,整个语言的功率谱以基音频率为基础,形成了向高次谐波递减的结构。 1.3 听觉冗余根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型,将通过听觉领悟信息的复杂过程,包括接受信息,识别判断和理解信号内容等几个层次的心理活动,形成相应的连觉和意境,由此构成声音信息集合中的所以数据,并非对人耳辨别声音的强度、音调、方位都产生作用,形成听觉冗余,由听觉冗余引出了降低数据率 ,实现更高效率的数字音频传输的可能 。 2. 常见音频编解码标准 2.1 AAC(Advanced Audio Codin)AAC于1997年形成国际标准ISO 13818-7。先进音频编码AAC开发成功,成为继MPEG-2音频标准(ISO/IEC13818-3)之后的新一代音频压缩标准。在MPEG-2制订的早期,本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地,这个标准是不兼容MPEG-1的,因此被称为MPEG-2 AAC。换句话说,从表面上看,要制作和播放AAC,都需要使用与MP3完全不同的工具。类型:Audio制定者:MPEG所需频宽:96-128 kbps优点:支持多种音频声道组合,提供优质的音质。应用领域:voip特性:AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。 AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48 个主要音频通道,16 个低频增强通道,16 个集成数据流, 16 个配音,16 种编排。2.2 PCM编码(原始数字音频信号流)类型:Audio制定者:ITU-T所需频宽:1411.2 Kbps特性:音源信息完整,但冗余度过大。优点:音源信息保存完整,音质好。缺点:信息量大,体积大,冗余度过大。2.3 WMA(Windows Media Audio)类型:Audio制定者:微软公司所需频宽:320112kbps(压缩1012倍)优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。 2.4 PCMU(G.711U)类型:Audio制定者:ITU-T所需频宽:64Kbps(90.4)特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。优点:语音质量优。缺点:占用的带宽较高。 2.5 PCMA(G.711A)类型:Audio制定者:ITU-T所需频宽:64Kbps(90.4)特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。优点:语音质量优。缺点:占用的带宽较高。 2.6 MP3 MP3(CBR、VBR、ABR)MP3应该算目前使用用户最多的有损压缩数字音频格式了。它的全称MPEG(MPEGMovingPictureExpertsGroup)AudioLayer-3,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。早期的MP3编码采用的的是固定编码率的方式(CBR),我们常看到的128KBPS,就是代表它是以128KBPS固定数据速率编码你可以提高这个编码率,最高可以到320KBPS,音质会更好,自然,文件的体积会相应增大。因为MP3的编码方式是开放的,你可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理,所以,很快由Xing公司推出可变编码率的压缩方式(VBR)。它的原理就是利用将一首歌的复杂部分用高bitrate编码,简单部分用低bitrate编码,通过这种方式,进一步取得质量和体积的统一。当然,早期的Xing编码器的VBR算法很差,音质与CBR(固定码率)相去甚远。但是,这种算法指明了一种方向,其他开发者纷纷推出自己的VBR算法,使得效果一直在改进。目前公认比较好的首推LAME,它完美地实现了VBR算法,而且它是是完全免费的软件,并且由爱好者组成的开发团队一直在不断的发展完善。3. 音频采样 通过将声波波形转换成一连串的二进制数据来再现原始声音,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,这就是音频采集。 4. 常见音频参数 4.1 采样位数采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实。采集卡的位数客观地反映了数字声音信号对输入声音信号描述的准确程度。市面上常用的采集卡位数如下:8位代表2的8次方-25616位则代表2的16次方-64K4.2 位速说明位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用128KbpsMP3或64KbpsWMA进行描述的情形。Kbps表示每秒千字节数,因此数值越大表示数据越多:128KbpsMP3音频文件包含的数据量是64KbpsWMA文件的两倍,并占用两倍的空间。(不过在这种情况下,这两种文件听起来没什么两样。原因是什么呢?有些文件格式比其他文件能够更有效地利用数据,64KbpsWMA文件的音质与128KbpsMP3的音质相同。)需要了解的重要一点是,位速越高,信息量越大,对这些信息进行解码的处理量就越大,文件需要占用的空间也就越多。为项目选择适当的位速取决于播放目标:如果您想把制作的VCD放在DVD播放器上播放,那么视频必须是1150Kbps,音频必须是224Kbps。典型的206MHzPocketPC支持的MPEG视频可达到400Kbps超过这个限度播放时就会出现异常。位速还有三种不同形式的:VBR(VariableBitrate)动态比特率也就是没有固定的比特率,压缩软件在压缩时根据音频数据即时确定使用什么比特率,这是以质量为前提兼顾文件大小的方式,推荐编码模式;ABR(AverageBitrate)平均比特率是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内,以每50帧(30帧约1秒)为一段,低频和不敏感频率使用相对低的流量,高频和大动态表现时使用高流量,可以做为VBR和CBR的一种折衷选择。CBR(ConstantBitrate),常数比特率指文件从头到尾都是一种位速率。相对于VBR和ABR来讲,它压缩出来的文件体积很大,而且音质相对于VBR和ABR不会有明显的提高。4.3 音频采样级别(音频采样频率) 数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,22.05KHz只能达到FM广播的声音品质,44.1KHz则是理论上的CD音质界限,48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值。4.4 音频采样频率音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,22.05KHz只能达到FM广播的声音品质,44.1KHz则是理论上的CD音质界限,48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值;5kHz的采样率仅能达到人们讲话的声音质量;11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一;22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率;44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。5.影响音频质量的因素 比特率、数据压缩率、压缩技术。古希腊哲学大师亚里士多德说: 人有两种,一种即“吃饭是为了活着”,一种是“活着是为了吃饭”.一个人之所以伟大,首先是因为他有超于常人的心。“志当存高远”,“风物长宜放眼量”,这些古语皆鼓舞人们要树立雄无数个自己,万千种模样,万千愫情怀。有的和你心手相牵,有的和你对抗,有的给你雪中送炭,有的给你烦忧与其说人的一生是同命运抗争,与性格妥协,不如说是与自己抗争,与自己妥协。人最终要寻找的,就是最爱的那个自己。只是这个自己,有人终其一生也未找到;有人只揭开了冰山的一角,有人有幸会晤一次,却已用尽一生。人生最难抵达的其实就是自己。我不敢恭维我所有的自己都是美好的,因为总有个对抗的声音:“你还没有这样的底气。”很惭愧,坦白说,自己就是这个样子:卑微过,像一棵草,像一只蚁,甚至像一粒土块,但拒绝猥琐!懦弱过,像掉落下来的果实,被人掸掉的灰尘,但拒绝屈膝,宁可以卵击石,以渺小决战强大。自私过,比如遇到喜欢的人或物,也想不择手段,据为己有。贪婪过,比如面对名利、金钱、豪宅名车,风花雪月,也会心旌摇摇,浮想联翩。倔强过,比如面对误解、轻蔑,有泪也待到无人处再流,有委屈也不诉说,不申辩,直到做好,给自己证明,给自己看!温柔过,当爱如春风袭来,当情如花朵芳醇,黄昏月下,你侬我侬。强大过,内刚外柔,和风雨搏击,和坎坷宣战,不失初心,不忘梦想,虽败犹荣。这样的自己一个个站到镜中来,千面万孔。有的隐着,有的浮着,有的张扬,有的压抑,有的狂狷,有的沉寂,有的暴躁,有的温良庸俗的自己,逐流的自己,又兼点若仙的自己,美的自己,丑的自己,千篇一律的自己,独一无二的自己。我们总想寻一座庙宇,来安放尘世的疲惫,寻一种宗教,来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论