




免费预览已结束,剩余24页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章、音频处理技术 声音是多媒体信息的一个重要组成部分。也是表达思想和情感的一种必不可少的媒体,随着多媒体信息处理技术的发展,音频处理技术得到了广泛的应用。如:视频图像的配音、配乐;静态图像的解说、背景音乐;可视电话、电视会议中的话音;游戏中的音响效果:虚拟现实中的声音模拟;电子读物的有声输出等。声音的合理使用可以使多媒体系统变得更加丰富多彩。 一、声音信号的形式和特征任何声音都是物体振动产生的现象,物体受到敲打或激发就能产生振动,通过一定介质(如空气、水等)传播形成的连续波,在物理学中称为声波。这种波就像在平静的池塘中投入石子,涟漪从中心向四面扩散,当它到达人的耳膜是,耳膜就会感觉到这种压力的变化,或者感觉到振动,这就是声音。声波有各种不同的强度和频率,许多声波混合在一起可能构成交响乐,也可能是一片噪音。在物理上,声音可以用一条连续的曲线来表示,它是随时间连续变化的模拟量。 声波信号有两个重要的参数:频率和幅度。声波幅度大小体现声音的强弱,声音的频率体现音调的高低。 信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号它的强度用分贝(dB)表示。分贝的幅度就是音量。一个声源每秒钟可产生成百上千个波峰,把每秒钟波峰所发生的数目称之为信号的频率,用赫兹(HZ比)或千赫兹(kHZ)表示。例如一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000hz或5khz。人们在日常说话时的语音信号频率范围在300hz3000hz之间,人所能辨别的频率范围在20hz20khz之间,频率小于20hz的 信号成为次声波(subsonic),频率高于20khz的称为超声波。 音箱和耳机的频响范围所谓频响范围,指的是频率响应范围。在音箱、耳机等音频回放设备中一般会有标注20Hz-20KHz类似这样的一个数字范围的指标,此即是指该设备可以回放的有效频率范围。当然,与之相对应的是,人耳理论上可听到的声波范围也是20Hz-20KHz。作为频响范围,规范的标注方法必须在这个频率范围后有声强度大小的条件范围,例如60Hz-20KHz (3dB),否则该频率响应曲线是没有意义的。目前的情况是,大家很少会在音箱或者耳机产品后面看到这样与声音强度相关的标注。普通功放的频率响应为20Hz-20000Hz约( /-)l-3dB;优质功放的频率响应为20Hz-20kHz约 /-0.1dB。在许多人认识到20Hz-20KHz的频响范围是完全不可信之后,有些“聪明”的音箱厂商从另一个角度来解决这个问题,他们开始把这个频响范围刻意的调整一下。例如,把低频调整到30Hz或者40Hz,把高频调整到18KHz,想通过这样的数字游戏来赢得大家的信任。但是,对于一款普通的2.1产品来说,20Hz和40Hz对它们来说有什么不同,同样是无法实现的一个频率。耳机是一个比音箱更加夸张标注“频响范围”的产品。一款产品动不动就可以超过20Hz-20KHz。例如某品牌耳机频响范围标注的是5Hz-30KHz,这有些夸张了。如果两个耳机的频响上限分别是16kHz和20kHz,听感上是不一样的。过高的频率虽然听不到,但宽泛的频响参数中还包含有一些其它的含义,比如频响曲线的平直、瞬态响应能力等等。它也是耳机素质的一种参考。但是,由于标称的参数没有统一标准,所以厂家标称的这类参数对比较两个不同的耳机的品质并不具有实际意义 与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期是频率的倒数。如果每隔一定时间波形就重复相同的形状,这个时间就称为周期。二、模拟音频的数字化声音信号是振幅随时间连续变化的模拟信号。而计算机只能处理和存储二进制的数字信号,因此,计算机要获取与处理音频,必须先对模拟信号进行数字化处理,转换为计算机所能识别的二进制表示的数字信号,然后才能对其进行各类编辑处理。对模拟音频数字化的过程涉及音频的采样、量化和编码。其过程的实质是将连续的模拟音频信号转换为离散的一系列数字音频编码信号。1、采样采样就是每隔一段时间在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号,这个间隔时间称为采样周期其倒数为采样频率。采样频率是采样最主要的参数。采样频率是指计算机每秒钟采集多少个样本。采集频率越高,即采样的时间间隔越短则在单位时间内得到的声音样本数据就越多、对波形的描述也越精确。较高的采样频率固然可以得到比较精确的对象描述,但是同时也会带来大量的数据,因此在实际应用中,不能无限制的增加采样频率。为了用较少的数据来尽可能的描述对象的主要内容,我们常常规定一个与声音频率之间有一定关系的最低采样频率。根据内奎斯持理论只有采样频率高于声音信号最高频率的2倍时,才能得到基本反映原信号主要特征的数字音频信号。例如人耳可以听到最高声音频率为20kHz,因此在采集数字音乐信号时,如果将采样频率设置为44kHz,就能够得到高保真的音乐(考虑到滤波器的衰减,提高了10增益),因此标准激光CD唱片的采样频率被规定为441kHz。2、量化量化就是把采样得到的声音信号幅度转化为数字值,使声音信号在幅度上被离散化。量化的过程是先将采样后的信号按整个声波的最大(或有效最大)振幅划分成有限个区段的集合,把落入同一个区间的采样值归为一类,井赋予相同的近似取值(量化值),这样,原来无限的取值可能性被限制简化为有限的取值数列。在同样采样频率下,量化等级越多,数字音频相于原声音源的记录也就越准确,但数据量也就会更大。由于通用计算机一般采用二进制编码的方法来记录数据,为了方便使用和节省编码空间,我们一般使用量化位数(也称量化精度)这个量来描述量化等级的多少。例如,8位量化是指用28个量化等级,即有256个量化取值区间,而16位量化则表示216个量化等级,有65536个量化取值区间。声音数字化过程失真在采样过程中是不可避免的,如何减少失真呢?可以把波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。3、声道反映音频数字化质量的另一个因素是声道个数。记录声音时,如果每次生成一个声波的数据,称为单声道;每次生成两个声波数据,称为双声道(立体声);每次生成两个以上的声波数据,称为多声道(环绕立体声)。未经压缩的数字化声音的数据量是由采样频率、量化精度、声道数和声音持续时间所决定的,它们与声音的数据星是成比例关系的,其数据量计算方式为: 数据量(Byte)=采样频率(hz)(量化位数(bit)8)声道数声音持续时间(s),公式中(量化位数8)是为了把计量单位bit(位)转化为Byte(字节)。 例: 对于调频广播级立体声,采样频率为44.1khz,量化等级为16位(即2字节),声道形式为双声道,则转换后每秒数据量为: 44100(hz)(168)(B)2176400Bs,约等于172KBS4、编码与压缩所谓编码,就是按照定的格式把经过采样和量化得到的离散数据记录下来,并在有效的数据中加入一些用于识别、纠错和进行控制的数据。编码后的数据就可以以文件的方式存入计算机中,或进行处理和输出。将量化后的数字声音信息直接存人计算机将会占用大量的存储空间、在多媒体系统中般是对数字化声音信息进行压缩和编码后再存人计算机,以减少音频的数据量。便于存储和传输,这一过程称为压缩编码,为了区别,我们将未经过压缩处理的编码文件成为原始编码。三、音频文件的格式1、WAV文件WAV是微软公司开发的一种音频文件格式,是使用最广,兼容性最好的一种数字音频格式。WAV来源于对声音模拟波形的采样,它记录的是数字化的波形数据。该格式直接记录声音的波形,不作任何压缩。虽然文件巨大,但可以达到较高的音质要求,它是音乐编辑和创作的首选格式,适合保存音乐素材。由于Windows操作系统的影响力,WAV格式已经成为事实上的通用音频格式,目前所有的音频播放软件、编辑软件和多媒体软件都支持这一格式,并将其作为首选的音频文件格式。作为最原始、最基本的波形声音文件,WAV文件格式几乎可以转换为所有类型的数字音频文件格式。 WAV文件囊括各种精度的音频,支持多种音频位数、采样频率和声道。采用441kHz的采样频率、16位量化位数时,WAV音频质量与CD唱片的声音相差无几。每存放1秒声音WAV文件占用空间:1秒44100次采样秒16位/8位2(左右两个通道)1764KB(KB即千字节)。以此计算,存储每分钟WAV音频数据占用约10MB(即10 584MB)空间;存储1个小时WAV音频数据占用大约620MB(635040MB)空间,几乎占满整整一张CD盘。如此巨大的音频数据量,非常不易保存。WAV格式对存储空间需求过大,传播起来难度较大。优点:音质高兼容性好缺点:文件过大,不利于存储和传输2、MP3(MP3PRP)文件MP3是MPEG格式组中的专用于音频压缩的一种格式。它能在对音质影响较小的前提下,将音频文件压缩为原来大小的1/12到1/14。因此成为目前最为流行的一种的音频压缩格式。一分钟CD音质的音乐,未经压缩需要10M存储空间,而经过MP3压缩编码后只有lMB左右,同时其音质基本保持不失真。原来的一张标准CDROM,刻录成音乐CD只能存放几首乐曲;但是,使用MP3格式却能容纳几百个曲日。在有限的存储空间内,能够存储大量的音频数据,极大地方便了数字音频的存储、交流、传输。MP3格式开始于1980年中期,在德国Erlangen 的Fraunhofer 研究所开始的,研究致力于高质量、低数据率的声音编码。在Dieter Seitzer个德国大学教授的帮助下,1989年,Fraunhofer在德国被获准取得了MP3的专利权,几年后这项技术被提交到国际标准组织(ISO),整合进入了MPEG-1标准。最早的播放器是Frauenhofer 在1990年早期开发的, 但它只是一个非常不知名的小程序,没有引起大家的重视。而被大家公认的第一个Mp3播放器是在1997年, 由一个叫做Tomislav Uzelac 的开发者开发的。他开发了AMP MP3 播放引擎。当AMP引擎进入网络以后不久, 几个大学生Justin Frankel 和Dmitry Boldyrev拿到了Amp引擎,并且为它添加了一个Windows界面,最后他们把这个程序命名为Winamp. 在1998年,当Winamp作为免费的音乐播放器在网络上传播的时候,Mp3的狂潮开始了。许许多多的爱好者在网络上交换有版权的音乐mp3。 MP3编码器,制作器,播放器铺天盖地。我们周围更是出现了各种歌手的MP3全集,甚至有MP3搜索引擎帮助搜索各种MP3。Napster的出现更是让MP3的风暴到达的顶峰。当然音乐界对这些“侵权”行为岂能座视不理?于是运用法律进行了围剿,今年IT界最有名的事件之一恐怕就是Napster 侵权案的败诉了。或许有人还记得,早在1998年,美国东北波士顿大学的一年级新生、18岁的肖恩范宁为了能够解决他的室友的一个问题如何在网上找到音乐而编写的一个简单的程序,这个程序能够搜索音乐文件并提供检索,把所有的音乐文件地址存放在一个集中的服务器中,这样使用者就能够方便地过滤上百的地址而找到自己需要的MP3文件。到了1999年,令他们没有想到的是,这个叫做Napster的程序成为了人们争相转告的“杀手程序”它令无数散布在互联网上的音乐爱好者美梦成真,无数人在一夜之内开始使用Napster。Napster具有强大的搜索功能,可以将在线用户的MP3音乐信息进行自动搜寻并分类整理,以备其他用户查询,只要知道你喜欢歌曲的名称或演唱者的名称,就可以和全世界乐迷共享丰盛的音乐大餐。你可以选择自己要与其他人在网上共享的音乐文件的目录,并且可以与喜欢同样风格音乐的人聊天、在论坛讨论,互相交流。Napster网站在一年多的时间里吸引了3800万用户,成为有史以来成长最快的网站。相比之下,美国在线花了10年时间才发展到2500万个用户。在最高峰时Napster网络有8000万的注册用户。然而,Napster的发展很快引起了音乐制作商的不满。1999年12月,全球五大唱片公司BMG、环球、索尼、华纳和EMI以及美国唱片协会(RIAA)联合起诉NAPSTER,称其侵犯了唱片公司版权。指其涉及侵权歌曲数百万首,要求每支盗版歌曲赔偿10万美元。2000年2月,法院判定Napster败诉。Napster提出上诉,二审依然判其败诉。2002年6月,Napster宣告破产。MP3文件体积小、方使传播、声音质量高,能够在个人计算机、MP3半导体格放机和MP3激光播放机上进行播放。这些优点使其具有强大的竞争力,已经成为网络上音频交流、传输的主格式。但对于高品质音乐要求而言,MP3音质尚不能令人非常满意。 现在大家对音乐品质越来越挑剔了MP3要求的品质也是越来越高了, 一般MP3压制可分为几个阶段:第一个阶段是最早期的128K=CD音质由于MP3刚出现使人们在感叹能有那么大的压缩率的情况下居然会有如此的音质表现力。不过很快人们就发现128K的MP3在音质的高频部分和细小音节跟原版有非常大的差距。所以就有了第二个阶段。第二个阶段192K=CD然而,当大家对128K不满的时候192K就成了CD音质的统称,因为在一定程度上192K对128K来说音质的表现应该算有了一个质的飞跃,但是依然无法阻止MP3在高复杂音频下音频的流失,所以192KMP3的音质很快又被人们否定了。就有了MP3音质的大讨论和争议。很多人喜欢用320K因为那是MP3音质里的极限,如果用320K那么很多人往往无法接受一首歌有超过10M容量的MP3。压缩软体也是大家一直都很头痛的问题,传统压缩软体都是以暴力般的压制方法,使MP3会损失很多音频,所以MP3在大家的印象里已经成了音质差的代名词。当人们对MP3音质有不少失望时!LAME的出现让人们惊叹MP3的音质原来还是可以那么出色。制作高水准的MP3音乐,需要注意以下几个方面, 1),源文件的质量,也就是你要抓取的CD光盘的质量 2),光盘驱动器的质量要过关,最好是使用带有硬件级修正能力的光驱 3),采用高素质的抓音轨软件, 4),采用高素质的音频格式转换软件 黄金组合EacLame抓轨大师EAC 在上面这几方面中,抓音轨软件是关键,所谓的抓音轨也就是把CD光盘里的*.CDA格式的声音文件转换成*.WAV格式的声音文件,标准格式的*.WAV格式是双声道、44.1KB的采样频率,16Bit的量化位数,大家注意,这种格式也就是标准CD的格式数据,通俗的说:你有了高质量的*.WAV格式声音文件,就离高水准的MP3不远了。现在国内我们使用的转换软件素质都不是很好,大路货的超级解霸类等进行抓音轨和声音文件格式转换的时候,声音文件的高频损失很厉害,声音会变得尖锐难听,绝对不推荐使用! 可以说抓音轨直接影响着最后的声音文件质量。 现在抓音轨软件效果最好的当属EAC,音轨抓取软件现在有数百种,那么,为什么选择 EAC?答案很简单:因为 EAC 是最好的。跟其他大多数的音轨抓取软件相比,EAC 使用了一种安全(secure)读取方法:这意味着所有的音乐扇区要至少被读 2 遍(其他音轨抓取软件仅读一遍而已)。这将极大地提高错误检测水平。一旦发生读取错误,EAC 将重读音乐数据(最多 82 次)以求得到完美结果。如果 CD 磨损严重,数据在 82 次尝试后仍不能读取的话,EAC 将报告这一读取错误并给出精确的位置,让你试听。拜 EAC 的纠错能力所赐,在很多的情况下,即使 EAC 报告了读取错误你也听不出失真现象。所有这些,使 EAC 成为 Windows 平台上最佳的音轨抓取软件。由于工作原理复杂,EAC抓轨的速度比一般的抓轨工具要慢很多,如果CD有点磨损,EAC的速度将更加慢得惊人(不过它的纠错能力超强),好在这一切是以质量为前提的。如果不考虑抓轨时间,EAC绝对是所有抓音轨工具的首选!压缩圣手Lame 有了Eac抓取的高质量的WAV声音文件,就可以转换MP3了。LAME是目前最好的MP3编码引擎。MP3 编码器到底如何?这是另外一个问题,在世界最权威的音频论坛 hydrogenaudio 上对各种 MP3 编码器作过比较,得出的结论是 Lame3.92是最值得选择的。LAME(mitiok.ma.cx)编码出来的MP3音色纯厚、空间宽广、低音清晰、细节表现良好,它独创的心理音响模型技术保证了CD音频还原的真实性,配合VBR和ABR参数,音质几乎可以媲美CD音频,但文件体积却非常小(相当CD而言)。对于一个免费引擎,LAME的优势不言而喻。 LAME是一个DOS方式下运行的程序,运行的时候还得切换操作系统,十分麻烦,而且要想更改设置只能在DOS程序后添加不同的参数和开关。对于一般用户而言很不方便,我在这推荐一个外壳程序 RazorLAME,它是Win窗口程序,通过它可以使我们在视窗界面下轻松调整各种参数,使繁琐的压缩过程简单化。 在制作高音质的mp3之前必须明白一下概念: CBR(Constant Bitrate),固定比特率,指文件从头到尾都是一种位速率。MP3的採样率为固定值。一首MP3从头至尾为某固定值如192KBit/s 进行压缩如果这种压制模式在固定比特率下如(192K)复杂段落音频是无法满足,而低频下又是浪费容量。VBR(Variable Bitrate)动态比特率。也就是没有固定的比特率,就是在音频中找出与音频最适合的比特率进行压制,使其在控制容量大小的情况下把音质提到最佳。VBR采取了一种全新的,全程动态调节技术的压缩方法。当在低频或无频段时, VBR会自动采用的比特率如32KBit/s对音质进行压缩;当在高音段时会用较高的比特率如224KBit/s或256KBit/s对音质进行压缩;当在极高端时则采用最高320KBit/s进行压缩。VBR MP3在控制文件大小的情况下,最大限度的提高了MP3的音质, ABR(Average Bitrate)平均比特率,是VBR的一种插值参数。指定VBR控制在某个比特率然后利用VBR对音频的解析调解MP3大小。是人们想在控制MP3容量在一定的情况下,又想要追求音质的一种压制方法。就是在VBR中固定一个码率标准。比如把VBR平均控制在192Kbps的标准上让VBR根据音频调节VBR码率,可以做为VBR和CBR的一种折衷选择。 RazorLame的界面简单明了,方便使用,要设定的地方也并不多; 以下是我的一些参数设置经验: 在 Options - General 之中,指定 LAME.exe的位置,然后就可以在其他的页面调节各种压缩的参数。如果想试试一些实验性(尚未正式公布)的参数,或者懒得慢慢检查每一页的设定,可以直接在 Options - Advanced 中把写好的参数填入 Custom Options 中,并选取 Only use custom options 即可。Options - Advanced 里面,有一个 Delete source file after encoding 的选项,选取之后,编码完成的WAV文件会被自动删除,很是方便,。为利用lame压缩mp3所需的时间很长(半小时以上),还可以选择“shut down computer when done”让它压缩完以后自动关机,很人性话的设置。需要注意的一点是,在Options - audio processing中的OUTPUT SAMPLING FREQUENCY输出频率选项中一定要选定44.1KHZ,否则RazorLame就会以32Khz来输出从而使音质劣化 设置要点:(1)制作有CD音质音乐MP3,要在菜单“EditLAME Options”中作设置如下:在“General”页中将Bitrate设置为192K(每分钟音乐大概1.45兆字节),Mode设置为:Joint Stereo(立体声);在“Audio Processing”页中将Output sampling frequency设置为44.1KHz。(2)制作讲道等语音类MP3,要在菜单“EditLAME Options”中作设置如下:在“General”页中将Bitrate设置为32K(每分钟语音大概0.24兆字节),Mode设置为:Mono(单声道);在“Audio Processing”页中将Output sampling frequency设置为44.1KHz(务必!因为默认是22.1KHz,制作出来的文件与44.1KHz一样大,但刻录到光盘中不能在家用VCD机上播放,兼容性差)。优点:技术成熟,兼容性强资源丰富文件较小缺点:低码率文件音质不高练习:CD的抓轨和音频格式的转换1、使用EAC抓取CD光盘上的音轨2、使用Razorlame将WAV文件转换为mp3文件由于要在网络上收看声音和视频的需求不断增加,网络流媒体real和windows media格式慢慢兴起。随着这些媒体的编码器不断改进,他们的质量已经不断提升,已经能够做到文件尺寸又小,质量又好,大有赶超MP3之势。以前MP3所倍受推崇的高压缩比,低质量损失已经不再是一张王牌,昔日辉煌的地位正在不断受到威胁。面对这一情况,Thomson Multimedia ,一个制作mp3编码格式的公司推出了一个MP3格式的升级版本-Mp3 Pro。在保持相同的音质下同样可以把声音文件的文件量压缩到原有MP3格式的一半大小。而且可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。MP3pro可以实现完全的兼容性。经过mp3Pro压缩的文件,扩展名仍旧是.mp3。可以在老的mp3播放器上播放。老的mp3文件可以在新的mp3pro播放器上进行播放。实现了该公司所谓的“向前向后兼容”。mp3PRO在进行编码时,mp3PRO编码器将音频的录音分成两个部分:mp3部分和PRO部分。mp3部分分析低频段(Low Frequency Band)信息,并将其编码成通常的mp3文件数据流。这就使得编码器能够集中编码更少的有用信息,获得更佳品质的编码效果。同时,这也保证了mp3PRO文件同老的mp3播放器的兼容性。PRO部分分析的则是高频段(High Frequency Band)信息,并将其编码成mp3数据流的一部分,而这些通常在老的mp3解码器里是被忽略的。新的mp3PRO解码器会有效地利用这部分数据流,将两段(高频段和低频段)合并起来产生完全的音频带,达到增强音质的效果。3、WMA格式WMA的全称是Windows Media Audio,它是大名鼎鼎的微软公司推出的一种压缩音频格式,它与MP3格式齐名。在低码率状态下,WMA的音质要远远超过MP3,64Kbps的WMA文件音质基本和128Kbps的MP3相当。在保证声音品质的前提下,文件的压缩率一般可以达到1:18。不过在采用高码率压缩时,WMA格式并没有出色的表现,最高192Kbps码率的WMA音乐文件在对比320Kbps的MP3完全没有优势。为了减少失真,微软在WMA的基础上发展了WMA Lossless格式,每张CD光盘可以被压缩为200400M的音乐文件。WMA Lossless是一种无损格式,体积仅为CD光盘的一半,可惜这种优秀的格式在多数的MP3播放器上都不能直接播放。WMA格式还支持音频流技术,适合在网络上播放。由于WMA音频好、占用磁盘空间小,支持流技术,所以它的应用也比较广,但相对而言通用性略逊色于MP3,一些软件并不直接支持WMA格式,如Flash8等关于MP3和WMA孰优孰劣的争论也很多,它二者都是有损压缩编码格式,两种格式都有自己优秀的一面。理论上,WMA的优势在低Bitrate,当Bitrate小于128K时,WMA没有对手,Bitrate越小越有优势,支持流式播放,被广泛用于网络。如果你的硬盘空间紧张,但要求的音质却比较苛刻时,WMA无疑是最佳的选择。 根据Microsoft宣称,利用WMP7压缩的WMA格式在64Kbps的数据率时与128Kbps的MP3有着相同的音质,而利用WMP8压缩的 WMA格式只需48Kbps便可与128Kbps的MP3音质相当。事实上,WMA虽然技术先进但并没于如此功效,经比较发现: 1). 相同数据率下如128Kbps,WMA的音值的确稍胜一筹; 2). 在低数据率情况下,WMA的音质比MP3要高出很多。如64Kbps时,WMA基本与128Kbps相差无几,而MP3已有明显差别;在32Kbps时WMA依然可听,MP3已经绝对不可听了; 3). MP3的确是一种非常成功的算法,在128Kbps时音质足够,如果用大于128Kbps的变码率压缩则音质可以达到非常好的程度,但其数据率的下限是128Kbps,在低于这个数值时,效果大幅度下降; 总之,WMA主要改善了极低数据率下高频信号的回放,在大于128Kbps时与MP3相比并无优势,而且高频失真情况比较严重,但如果用于压缩英语听力等素材则是上上之选。 值的说明的是,128kbps的MP3要好于64kbps的WMA,更远远好于48Kbps的WMA。 主要是WMA的高音部分有金属声,失真较大。 没压缩的WMA格式是最好的,但网上下载的一般都是压缩了的,所以听起来没有MP3的效果好 128Kbps以下,几乎没有什么差别,很难听出明显差别来,WMA短小精干,占很大优势。但128K以上,越大,MP3的音质明显好于WMA。相对于其他格式来说,WMA格式还有一个非常巨大的优势,因为出自微软的公司,因此WMA格式的播放、制作都非常简洁,不需要复杂的第三方软件,仅Windows Media Player这一系统自带的播放器就可以完成全部操作。优点:文件较小低码率音质较好制作和播放方便缺点:高码率音质一般练习:1、使用Windows Media Player播放WMA音乐2、使用Windows Media Player抓取CD音轨,并转录成不同的格式4、RA格式RA格式是和RM视频格式相对应的音频格式,也是主要是为了适应网络影像实时传输和在线播放的需要而诞生的。它的特点和RM格式很相近:第一,文件的压缩效率比较高,所以体积相对较小,第二,能在非常低的网络带宽下提供足够的音质让用户在线聆听;第三,可以在不下载音频内容的条件下实现在线播放。RA格式的用途主要是在线聆听,多用于网络音频广播、网络语音教学、网上语音点播等。5、MIDI格式MIDI是Musical Instrument Digital Interface的缩写,意为乐器数字接口,它是世界上一些主要电子乐器制造商建立的通信标准,MIDI是乐器和计算机使用的标准语言,它记录的是一系列指令,把这些指令发送给声卡,由声卡按照指令将声音合成出来。MIDI是目前最成熟的音乐格式,其科学性、兼容性、复杂程度等都非常优秀, 已经成为一种产业标准。作为音乐工业的数据通信标准,MIDI能指挥各种音乐设备的运转,而且具有统一的标准格式,能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果,而且文件的容量非常小。不过, 由于MIDI文件是一种电子乐器通用的音乐数据文件,只能模拟乐器的发声,因此,只能用作纯音乐使用,不能表示带人声的歌曲、解说或效果声。Midi合成有两种方式,FM合成和波表合成。FM英文全名为Frequency Modulation(调频),这是早期声卡使用的技术,它利用乐器音色合成的方法产生声音,具体方法是对多种乐器发出的声音波形的频率、振幅进行采样,再经过波形产生器及累加器组合成所需的声音。这样的合成方式必须经过许多震荡器来实现,如果震荡器数目过少,发出来的声音就会非常单调,有明显得电子合成感。为了降低成本,很多早期低档FM音效卡只使用几个震荡器来进行FM合成,音质非常差。现在这种音频合成方式已趋于被淘汰。 波表的英文名称为“WAVE TABLE”,从字面翻译就是“波形表格”的意思。其实它是将各种真实乐器所能发出的所有声音(包括各个音域、声调)录制下来,存贮为一个波表文件。播放时,根据MIDI文件纪录的乐曲信息向波表发出指令,从“表格”中逐一找出对应的声音信息,经过合成、加工后回放出来。由于它采用的是真实乐器的采样,所以效果自然要好于FM。一般波表的乐器声音信息都以44.1KHz、16Bit的精度录制,以达到最真实回放效果。波表合成技术纵横谈一、关于MIDI的几个初步概念在切入正题以前让我们首先来简单地认识一下MIDI,了解几个初步的概念。这对于我们了解波表合成技术可以起到“引航”地作用。1.MIDI简介MIDI是Musical Instrument Digital Interface的简称,意为音乐设备数字接口。它是一种电子乐器之间以及电子乐器与电脑之间的统一交流协议。从80年代初问世至今,它经历了长时间的发展,现已成为电脑音乐的代名词。我们可以从广义上将为理解为电子合成器、电脑音乐的统称,包括协议、设备等等相关的含义。2.三个标准由于早期的MIDI设备在乐器的音色排列上没有统一的标准,造成不同型号的设备回放同一首乐曲时也会出现音色偏差。为了弥补这一不足,便出现了GS、GM和XG这类音色排列方式的标准。之所以将GS排在第一位是由于它最早出台,并且是由业界大名鼎鼎的ROLAND公司制定并推出的。ROLAND是日本非常出名的电子乐器厂商,其生产开发的电子键盘、MIDI音源以及软波表都享有盛誉。所以GS颇具权威性,它完整的定义了128种乐器的统一排列方式,并规定了MIDI设备的最大复音数不可少于24个等详尽的规范。GM标准则是在GS的基础上,加以适当简化而成的。由于它比较符合众多中小厂商的口味,一时间成为了业界广泛接受的标准。在电子乐器方面唯一可与ROLAND相匹敌的YAMAHA公司也不甘示弱,于94年推出自己的标准XG。与GM、GS相比XG提供了更为强劲的功能和一流的扩展能力,并且完全兼容以上两大标准。而且凭借YAMAHA公司在电脑声卡方面的优势,使得XG在PC上有着广阔的用户群。3.MIDI文件的本质眼下在一些游戏软件和娱乐软件中我们经常可以发现很多以MID、RMI为扩展名的音乐文件,这些就是在电脑上最为常用的MIDI格式。有的朋友可能会惊奇的发现,一首4分钟左右长度的MIDI,其容量只有百余K字节。而同样长度的波形音乐文件(*.WAV)则高达40MB左右,即使是经过高比例压缩处理的MP3也要有4MB大小,相比之下为什么MIDI会如此小巧玲珑呢?因为MIDI文件并非像WAV或MP3那样量化的纪录乐曲每一时刻的声音变化,它只是一种描述性的“音乐语言”,只要将所要演奏的乐曲信息表述下来就可以了。譬如“在某一时刻,使用什么乐器,以什么音符开始,以什么音调结束,加以什么伴奏”等等,这些信息所占用的几十K空间对于如今大容量的硬盘来说只是沧海一粟罢了。而且小巧的体积也成为MIDI越来越受到欢迎的因素之一。4.MIDI文件的回放合成手段既然MIDI文件只是一种对乐曲的描述,本身不包含任何可供回放的声音信息,那么一首首动听的电脑音乐又是如何被我们的声卡播放出来的哪?这就要通过形式多样的合成手段了。就电脑声卡而言,最为常见的手段是FM合成与波表合成。前者多用于以前的ISA声卡,FM是“频率调变”的英文缩写,它运用声音振荡的原理对MIDI进行合成处理。但由于技术本身的局限,加上这类声卡采用的大多数为廉价的YAMAHA OPL系列芯片,效果自然很差劲;而波表合成则要好得多。二、波表合成技术在声卡上的运用在了解了关于MIDI的几个基本常识后,让我请出本文的主角波表。前面说到过,波表合成所带来的效果要远远超过FM,而且在电脑上已被广泛运用,各类波表声卡、波表软件层出不穷。那么波表究竟是何妨神圣哪?1.什么是波表波表的英文名称为“WAVE TABLE”,从字面翻译就是“波形表格”的意思。其实它是将各种真实乐器所能发出的所有声音(包括各个音域、声调)录制下来,存贮为一个波表文件。播放时,根据MIDI文件纪录的乐曲信息向波表发出指令,从“表格”中逐一找出对应的声音信息,经过合成、加工后回放出来。由于它采用的是真实乐器的采样,所以效果自然要好于FM。一般波表的乐器声音信息都以44.1KHz、16Bit的精度录制,以达到最真实回放效果。2.关于波表的几个衡量指标对于一款波表声卡或波表软件而言,衡量其波表性能的指标主要有以下几个方面。a.波表库容量由于波表合成技术是将真实乐器的音色采样录制下来再进行合成处理的,所以波表越大音色采样就越真实,效果就越好。一般1MB的波表每种音色只能被分配到10K左右的空间,而2MB波表则可以获得比它大一倍的空间,效果自然也会更好。专业MIDI设备的波表库可高达32MB以上。而现在的PCI声卡起码可提供2MB的波表库,普遍为4MB,少数高达8MB。就听感而言4MB音色库所能达到的效果已经不错了。虽然与专业设备有差距,但对于普通用户而言已经足够。b.复音数在各类声卡的命名中,我们经常会发现诸如64、128之类的数字。有些用户乃至商家将它们误认为是64位、128位声卡。其实就现在的技术发展状况而言,声卡更本没有发展到,也没有必要发展到如此高的数据处理通道,64、128代表的只是此卡在MIDI合成时可以达到的最大复音数。所谓“复音”是指MIDI乐曲在一秒钟内发出的最大声音数目。波表支持的复音值如果太小,一些比较复杂的MIDI乐曲在合成时就会出现某些声部被丢失的情况,直接影响到播放效果。好在如今的波表声卡大多提供64以上的复音值,而多数MIDI的复音数都没有超过32,所以音色丢失的现象不会发生。另外需要注意的是“硬件支持复音”和“软件支持复音”之间的区别。所谓“硬件支持复音”是指其所有的复音数都由声卡芯片所生成,而“软件支持复音”则是在“硬件复音”的基础上以软件合成的方法,加大复音数,但这是需要CPU来带动的。眼下主流声卡所支持的最大硬件复音为64,而软件复音则可高达1024,令人炸舌吧!c.特殊效果大容量的波表和高复音数的支持给MIDI提供了良好的表现空间。但要想达到近乎真实乐器的演奏临场效果,还需要一些锦上添花的修饰,所以大部分波表提供了一些特殊效果的支持。其中主要包括:回馈、和声、变化三种。一般这些效果都能获得支持。3.ISA时代的波表声卡以前声卡一律是ISA接口一统天下,MIDI的合成也主要是以FM为主。但随着波表合成技术趋于成熟与流行,附带硬波表的声卡开始在市场上出现。出于波表文件存贮的需要,这类产品需要在板卡上集成音色库内存,而这类ROM在当时却价格不斐。为了降低成本,部分产品只在卡上集成了512K波表,显然效果不佳。而高档产品在集成了大容量音色库后,在带来令人称奇效果的同时,却也带来了近2000元的惊人售价。那时在人们心目中“波表”成为一个神奇而又叫人向往的字眼。以下为大家回顾一下ISA时代波表声卡的经典之作。a.CREATIVE SB AWE 32出现在国内市场的第一款波表声卡是CREATIVE公司出品SB AWE 32,它集成1MB的音色库。相比较古老的FM合成,AWE32带来的效果是惊人的,但由于波表容量的局限,它的打击乐器音色非常差劲。b.CREATIVE SB AWE 64 GOLD在AWE32的MIDI表现遭到颇多非议之后,CREATIVE在97年推出了重量级的SB AWE 64 GOLD。它使用EMU公司的8000芯片,板卡集成4MB音色库。并通过CREATIVE WAVE SYNTH/WG这个软件处理器实现了64复音的支持。 SB AWE 64 GOLD的各方面表现,就算以现在的评定标准来衡量,依然是极其出色的。尤其是它的4MB音色库,至今仍为广大用户津津乐道。当然它是有史以来售价最为昂贵的声卡之一。c.花王530PDW在中低价位的ISA声卡中,这款花王530PDW提供了不错的MIDI表现。它使用YAMAHA 719E-S主芯片,依靠QS1000和QS1000A实现32复音的硬件波表支持。虽然效果算不上一流,但出色的性价比使它非常成功。4.免费与发烧的产物软波表与波表子卡96年末97年初,软件波表合成器这一全新的产物问世了。软波表的最大妙处就在于它是“免费”的。下载一个波表软件,安装到机器里,您就可以享受波表合成的惊人效果了。其实软波表的实质是将音色库存贮在硬盘中,播放MIDI时将其调入系统内存,通过CPU的运算合成,借助声卡的WAV通道实现声音输出。所以使用软波表,CPU必须在MMX166以上。从实际播放效果来看,最新版本的几款软波表并不逊色于一些硬波表,但它们共同的弱点在于CPU占用率过高。合成MIDI的同时再去做别的工作,效率要低很多。而且它还有一个声音延迟的弊病。在使用一些MIDI作曲软件时,以软波表为音源,往往会出现按下键盘后等上0.5秒,声音才会被传出的现象,这将大大地影响作曲者的创作灵感。在当时波表声卡价位较高,而软波表又有许多局限的情况下,一些专业人士和发烧友开始将眼光放到波表升级子卡的身上。只要有一个WAVETABLE的升级扩展接口,您就可以在老的ISA声卡上加这么一块波表子卡,它给您带来的将是专业级的合成效果。但其价格同样也不便宜,一般在1000-2000元左右。比较著名的产品有YAMAHA DB50XG和ROLAND SCD-15。CREATIVE也有一款,但相对效果较差。波表子卡在港台比较流行,国内一直少有货源。而且随着98年PCI声卡的崛起,波表子卡已经没有更大的发展空间了。5.DLS技术的运用PCI声卡的问世和普及带来了波表合成的一次小小“革命”,其关键在于DLS技术的运用。DLS全称为“Down Loadable Sample”,意为:可供下载的采样音色库”。其原理与软波表颇有异曲同工之处,也是将音色库存贮在硬盘中,待播放时调入系统内存。但不同点在于运用DLS技术后,合成MIDI时并不利用CPU来运算,而依靠声卡自己的音频处理芯片进行合成。其中原因在于PCI声卡的数据宽带达到133Mb/秒,大大加宽了系统内存与声卡之间的传输通道。从而既免去了传统ISA波表声卡所要配备的音色库内存,又大大降低了播放MIDI时的CPU占用率。而且这种波表库可以随时更新,并利用DLS音色编辑软件进行修改,这都是传统波表所无法比拟的优势。2.主流PCI声卡MIDI合成效果评析谈完软波表后,回到我们的焦点PCI声卡,看看如今主流的声卡产品在波表合成方面与软波表相比,是优是劣。a.采用YMF-724芯片的声卡YMF-724芯片是由YAMAHA公司所开发的,所以它所提供的硬波表正是脱胎于SYXG系列软件,无论是从技术指标还是实际试听效果角度来看,两者都没有多少区别。唯一的差异在于硬波表可以获得192复音的支持(64硬件+128软件)。我们可以将YMF-724芯片的波表理解为“硬化”的SYXG-100。由于采用724芯片的声卡售价较低,一般在100-200元之间,所以对于MIDI比较感兴趣的普通用户完全可以选择它。比较好的品牌型号主要有中凌雷公3DS724A和花王SV550。b.采用ES137X芯片的产品这一系列芯片出自ENSONIQ公司,包括ES1370、ES1371和ES1373几种,主要被运用在CREATIVE的低价PCI声卡SB PCI 64和ENSONIQ AudioPCI上。在波表性能上这两款产品是相同的,都支持最大8MB的GM、GS音色库和64复音(32硬件+32软件)。由于ENSONIQ公司是一家长期从事MIDI键盘和MIDI设备的企业,所以它所制作的波表库较具专业水准。笔者加载了2MB、4MB、8MB三种音色库分别进行试听比较,发现2MB音色在打击乐器方面明显缺乏力度;而改用4MB音色后,则很好的克服了这一缺陷;8MB音色在一些细节方面的表现更为完美。通过以上比较也充分体现出大容量波表的优势所在。与YAMAHA波表的音色相比,ENSONIQ的波表在诸如鼓、贝斯之类的打击乐器和低音弹拨乐器方面有较大的优势,但对于乐曲的整体表现能力尚显不足。c.SB LIVE!系列SB LIVE!系列是最为炙手可热的声卡产品之一。环境音效支持、多声道环绕输出等高新技术的运用,使得它成为PCI声卡中的佼佼者。那么它的MIDI表现又如何哪?SB LIVE!系列采用EMU公司非常成熟的SOUNDFONT(声音样本)技术,对MIDI进行合成处理。其实SOUNDFONT与WAVETABLE有着相同的含义,但区别在于SOUNDFONT并不是固定不变的,用户可以对它进行定义。我们可以将诸如中国传统民族乐器、非洲部落乐器这类传统GM、GS音色库中无法找到的乐器采样加载到系统内存中,(最大支持32MB的音色库缓存)使得SB LIVE!拥有处理这些音色的能力。因此SOUNDFONT技术是波表合成的有效扩展,大大加强了SB LIVE!的MIDI处理能力。当然这些扩展音色库需要额外下载或购买。但遗憾的是,厂家为SB LIVE!系列提供的GM、GS音色库却没有什么特别之处,即使加载最大的8MB的波表,也表现平平。虽然单个乐器采样显得非常真实,但在合成播放时的感觉似乎显得有些零乱,某些乐曲还会出现轻微的音量混乱。总体感觉与ES137X芯片附带的波表差不多。这些表现与SB LIVE!的高贵身份有些不符合,令人比较失望。最近从网上下载了一位韩国朋友制作的32MB波表库,为SB LIVE!搭配上,但效果也不理想。希望CREATIVE能够想办法改进。3.综合评价通过简单的试听比较后,我发现在时下众多的软、硬波表中难以找到一款十全十美的音色库。以ROLAND VSC-88和YAMAHA SYXG-100为代表软波表,提供了一流的整体效果,在回放符合自己标准的MIDI文件时,对乐曲的渲染效果颇佳,表现出比较明显的合成特色。但是软波表普遍存在音色库过小的弊病,使得某些乐器采样失真。而主流PCI声卡提供的波表库虽然容量一般可达4MB乃至更高,音色纯正,但整体效果却要差于某些软波表。分析其中原因,主要是由于软波表并非一味通过加大波表的音色库来达到最终的合成效果,而是加入了各类有效的辅助运算,达到了整体的和谐。而硬波表在这方面则下的功夫不够
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农发行池州市青阳县2025秋招小语种岗笔试题及答案
- 农发行长春市朝阳区2025秋招笔试综合模拟题库及答案
- 广安邻水县中储粮2025秋招面试典型题目及答案
- 国家能源鄂尔多斯市东胜区2025秋招心理测评常考题型与答题技巧
- 国家能源揭阳市榕城区2025秋招笔试言语理解与表达题专练及答案
- 国家能源柳州市柳城县2025秋招半结构化面试模拟30问及答案
- 2025年甘肃省天水市秦安县中医医院招聘编外人员34人模拟试卷及答案详解(必刷)
- 关爱农民工子女服务活动总结
- 参加家长会心得体会
- 员工个人工作总结12篇
- 2025河北水发节水有限公司公开招聘工作人员16人笔试参考题库附答案解析
- 新版中华民族共同体概论课件第十二讲民族危亡与中华民族意识觉醒(1840-1919)-2025年版
- 2025-2026学年人教版(2024)九年级物理全册第十四章 内能的利用(单元同步检测练习)(含答案)
- 第1课时 10的加、减法(教学设计)-2024-2025学年一年级上册数学人教版
- 2025至2030中国聚烯烃行业项目调研及市场前景预测评估报告
- 2025四川达州宣汉县国有资产管理服务中心县属国有企业招聘劳动合同职工26人笔试历年参考题库附带答案详解
- 新教科版小学1-6年级科学需做实验目录
- 《电子商务法律法规》课程标准
- 医院关于印发《即时检验临床应用管理办法》的通知
- 三年级下册书法练习指导全册教案(湖南美术出版社)
- GB/T 17880.5-1999平头六角铆螺母
评论
0/150
提交评论