第五章多媒体音频及音频处理.doc

上传人：t*** IP属地：河南上传时间：2020-03-22 格式：DOC 页数：44 大小：3.49MB 积分：15 举报 版权申诉

已阅读5页，还剩39页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第五章多媒体音频及音频处理本章提要声音媒体的有关概念模拟声音信息的数字化处理 MIDI与音乐合成数字音频格式及格式转换音频卡（声卡）音频处理软件Cool Edit Pro 2.0 语音识别技术音频（声音）是表达思想和情感的一种必不可少的媒体，也是多媒体信息中一个重要组成部分。声音的种类有很多，从人的说话声、乐声到风声、雨声，当它能与文字、图像等结合，一起传递信息时，计算机世界才会变得如此丰富多彩。5.1 音频信息及数字音频的产生5.1.1 多媒体中的音频信息图5-1 声音传播示意图密疏密自然界中的声音是由于物体的振动产生的，通过空气传递振动，最后这种机械运动被传递到人的耳膜而被人感知。我们下面以音叉为例，具体说明一下声音的产生和传播过程。当一个音叉受到敲击振动时，叉枝会左右摆动。当叉枝向外摆动时，叉枝会挤压周围的空气使周围空气形成一个密部，相反，当叉枝向内摆动时，会引起周围的空气拉动而形成一个疏部。空气这样密部与疏部交替运动形成一种波（声波）会向周围发散传播出去，从而形成声音的传播。传播过程如图5-1所示。这种声音的传播运动最后传递给人的耳膜并通过听小骨传递给听觉神经产生了人的听觉。听觉是人类感知自然的一种重要手段，所以音频也就成为多媒体范畴中一个重要部分。从听觉角度讲，声音媒体具有三个要素：音调、音强和音色（1）音调：与声音的频率有关，频率越快，音调越高。所谓声音的频率是指每秒中声音信号变化的次数，用Hz表示。例如，20Hz表示声音信号在1秒钟内周期性地变化20次。并不是所有频率发出的声音信号都能够被人们感觉到，人的听觉范围大约为2020000Hz，这个频率范围内的信号被称为音频或声音，多媒体技术主要研究的是这部分音频信息的使用；频率范围小于20Hz的信号被称为亚音频，这个范围内的信号人们一般感受不到。比如，大气压的变化周期很长，以小时或天数计算，人们几乎感觉不到这种气压信号的变化，更听不到这种变化所带来的声音：频率范围高于20kHz的信号被称为超音频或超声波，超声波具有很强的方向性，并且可以形成波束，利用这种特性，人们制造了超声波探测仪、超声波焊接设备等；另外，人的发声器官可以发出803400Hz频率范围的声音，但人们平时说话的频率范围在3003000Hz之间。了解这些知识很重要，它可以指导我们更有效地处理音频信息。（2）音强：又称为响度，它取决于声音的振幅。振幅越大，声音就越响亮。（3）音色：在介绍音色之前，先给出几个有关的概念。纯音：一般的声音由几种振动频率的波组成，若该声音只有一种振动频率就叫做纯音；复音：由许多纯音组成，复音的频率用组成这个复音的基音频率表示，一般的乐音都是复音；基音：是复音中频率最低部分的声音；泛音：在一个复音中，除去基音外，所有其余的纯音都是泛音。音色则是由混入基音的泛音所决定的，每个基音又都有其固有的频率和不同音强的泛音，从而使得每个声音具有特殊的音色效果。比如，每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。声音的传播是以声波形式进行的。由于人类的耳朵能够判别出声波到达左、右耳的相对时差、声音强度，所以能够判别出声音的来源方向。同时又由于空间作用使声音来回反射，从而造成声音的特殊空间效果。这也正是人们在音乐厅与在广场上聆听音乐感觉效果不一样的原因之一。因此，现在的音响设备都在竭力模拟这种立体声和空间感效果。声音的质量与声音的频率范围有关，即频率范围越宽，声音的质量就越好。表5-1是几种常见的声音频宽。表5-1 几种常见的声音频宽声音类型频宽电话语音2003400Hz调幅广播507000Hz调频广播2015000Hz宽带音响2020000Hz衡量声音质量单凭声音频宽判断有时比较困难，主观打分则是一种比较快捷、简单的方法。它的具体操作过程与近几年在电视节目中流行歌手大奖赛评分方法类似。首先挑选一些有代表性的人物，聆听需要评测的各种声音，每个人根据感觉给出分数，最后的平均分就是相对应的声音效果的评价结果。实际上，不同的应用对象，声音质量的衡量标准也不尽相同。对于语音来说，通常用可懂度、清晰度和自然度来衡量；对于音乐来说，就要求具有一定的保真度、立体感和音响效果。声音是一种基于时间的媒体。没有时间就没有声音，因此，我们说声音具有过程性，需要有一个时间段才能表现，这也就是我们常用音乐作为伴音的原因，它可以很好地起到渲染气氛的作用。由于时间性，声音数据具有很强的前后相关性，数据量较大，且实时性要求较高。5.1.2 数字音频的产生采样量化模拟音频电信号二进制序列图5-2 模数转换过程图自然界的声音经过麦克风后，机械运动被转化为电信号，这时的电信号由许多正弦波组成，其中正弦波的频率取决于声音中含有的频率。对于计算机来说，处理和存储的只可以是二进制所表示的数，所以需要在计算机处理和存储声音之前把这些电信号转换为二进制数。这个转换过程在电子技术中称为模数转换（A/D）。模数转换的过程可以分成两个部分：第一部分是采样，第二部分称为量化，经过这个过程（如图5-2所示）处理后的音频电信号就变成了可以被计算机存储和处理的二进制序列,这个过程在计算机中是在声卡中完成的。话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个，在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。在某些特定的时刻对这种模拟信号进行测量叫做采样（Sampling），由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。而对于固定位数的二进制数只能表示有限的几个值，所以要把这些可能的幅值为无穷的采样数值取值的数目加以限定，这种由有限个数值组成的信号就称为离散幅度信号，这个过程就叫作量化，这样处理以后的势必会带来误差，这个误差就是量化误差。例如，假设输入电压的范围是0.0V1.5V，并假设量化后二进制数为四位，这样只有16个采样值可以选取，它的取值只限定在0、0.1、0.2，1.5共16个值。如果采样得到的幅度值是0.323V，它的取值就应算作0.3V，如果采样得到的幅度值是0.56V，它的取值就算作0.6，这种数值就称为离散数值，得到离散数值过程被称为量化。我们把时间和幅度都用离散的数字表示的信号就称为数字信号。模拟声音信号数字化的过程如图5-3所示。图5-3 模拟声音信号的数字化声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。采样的过程就是抽取某点的幅度值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样频率，即每秒钟需要采集多少个声音样本。所以在声音信号的数字化中采样频率是一个重要概念。目前通用的标准采样频率有：8kHz、11.025Hz、22.05kHz、15kHz、44.1kHz和48kHz，我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度，即采样精度，指每个声音样本需要用多少位二进制数来表示，它反映出度量声音波形幅度值的精确程度。一个二进制位有0和1两种可能，显然量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样频率和采样精度的值越大，记录的波形更接近原始信号。把上述模数转换过程得到离散的电平值用二进制数表示出来并通过一定算法压缩以后以不同形式存储在磁盘上，形成不同格式音频文件。声道数是指所使用的声音通道的个数，它表明声音记录只产生一个波形（即单音或单声道）还是两个波形（即立体声或双声道）。虽然，立体声听起来要比单音丰满优美，但需要两倍于单音的存储空间。数据量（bytes/s）8采样频率（Hz/s）量化位数（bit）声道数采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用，如表5-2所示。我们希望音质越高越好，磁盘存储空间越少越好，这本身就是一个矛盾。必须在音质和磁盘存储空间之间取得平衡。数据量与上述三要素之间的关系可用下述公式表示：表5-2 采样频率、采样精度、声道数声音质量采样频率（KHz）采样精度（bit）单声道/双声道数据量（Mb/min）电话音质8810.46AM音质11.025810.63FM音质22.051625.05CD音质44.116210.09DAT音质4816210.995.2 MIDI与音乐合成以前，如果提起音乐和计算机，你会认为这是两个完全不相干的领域，但是随着计算机技术的飞速发展及其应用领域的不断扩展，音乐与计算机奇妙地携手走到了一起。现在可以很方便地使电子乐器和多媒体计算机相互结合，从而给人们提供了一种快捷、独特的制作方式，它更加强调音色的非常规化、电子化、空间感和对比度、使电脑音乐日益形成一种崭新的音乐风格。5.2.1 什么是MIDI在前一节中讲述的波形声音文件，包含对声音信号进行采样、量化得到的各采样点的数值序列。这种形式的文件数据量大，要想从中分离出某个音符十分困难，并且由于这种记录音乐的方式不是人演奏各种乐器的自然过程，所以，要让作曲家们接受这种形式其难度可想而知。这时，人们开始设想一种新的声音数据的表现形式，其原则是能够让乐器与计算机直接连接，使作曲家作曲的过程与他们惯用的方法一致，这样就产生了MIDI音乐。乐器数字接口（Musical Instrument Digital Interface，MIDI）是指数字乐器与计算机连接的接口，即在数字乐器与计算机相连接时所使用的。以直接插入在计算机端口上的一个小部件，通过它可以使数字乐器与计算机相互“沟通”信息。 MIDI的特点是其文件内部记录的是演奏乐器的全部动作过程，比如，音色、音符、延时、音量、力度等信息，所以其数据量相当小。由此可见，MIDI不属于数字音响的范畴，如果我们把数字音响比作录了某个人小提琴独奏的磁带，那么MIDI就是该独奏的乐谱，尽管乐谱本身并不产生任何实际声音，但它却定义了演奏的速度、音符及该独奏声音的大小。如图5-4所示，就是一段MIDI音乐，它以乐谱的形式展示出来，而乐谱实际上就是描述演奏过程的命令序列。为了使数字乐器与计算机之间形成良好地默契，各个厂商都需要为每种音色、每个音符、节拍、力度等动作的各项属性数字化，即编号。比如，将音色Acoustic Piano编号为00，将音符C3编号为00，将8分音符编号为60。对于一个原声钢琴8分音符的C3音，在MIDI文件中对应“000060。细心的读者可能会问：如果各个厂商对各个动作及属性定义的编号不一样，利用一个厂商设备制作出来的音乐是否可以在另一个厂商的设备上演奏?图5-4 MIDI音乐我们的回答是：会出现很多问题。这是MIDI技术一个亟待解决的问题。于是，在80年代，为了使各个厂商生产的设备可以被不同的计算机接收与处理，由几家电子乐器厂商共同制定了一个MIDI接口标准，这就是我们常说的“GM（General MIDI）标准”。这个标准主要由两部分组成：一是规定了与设备相连的硬件标准，包括乐器间的物理连接方式，连接两个乐器所使用的MIDI缆线；二是规定了MIDI数据的格式，主要包括硬件上传输信息的编码方式。无论各厂商如何开发自己的产品，其基本设计必须参照这套MIDI标准。5.2.2 MIDI合成器合成器是利用数字信号处理器DSP或其他芯片来产生音乐或声音的电子装置。利用合成器产生MIDI乐音的主要方法是FM合成法和波表合成法。 1. FM合成法 FM合成法是20世纪80年代初由美国斯坦福大学的John Chowning发明的，称为“数字式频率调制合成法”，简称FM合成法。FM合成法生成乐音的基本原理是，用数字信号来表示不同乐音的波形，然后把它们组合起来，再通过数模转换器（DAC）生成乐音播放。在乐音合成器中，数字载波的波形有很多种，不同型号的FM合成器所选用的波形也不同。各种不同乐音的产生是通过组合各种波形参数并采用各种不同的算法实现的。FM合成器的算法包括确定用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合并产生所希望的乐音。例如改变数字载波频率可以改变乐音的音调，改变它的幅度可以改变它的音量。选择的算法不同，载波器和调制器的相互作用也不同，生成的音色也不同。 FM合成器的13个声音参数和算法共14个控制参数，以字节的形式存储在声音卡的ROM中。播放某种乐音时计算机就发送一个信号，这个信号被转换成ROM的地址，从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实，它的真实程度有多高，取决于可用的波形源的数目、算法和波形的类型。2波表合成法使用FM合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生。目前的声卡一般采用乐音样本合成法，即波表合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来，播放时根据命令生成各种音阶的音符，产生的声音质量比FM合成方法产生的声音质量要高很多。乐音样本的采集相对比较直观，例如，当音乐家在真实乐器上演奏音乐时选择44.1kHz的采样频率、16比特的量化位数的精度进行采样，便可得到相当于CD-DA的声音质量。与FM合成不同，波表合成是采用真实的声音样本进行回放。声音样本记录了各种真实乐器的采样波形，并保存在声卡上的ROM或RAM中。例如创新的Sound Blaster AWE32是第一块广为流行的波表声卡。该卡采用了EMU8000波表处理芯片，提供16bit MIDI通道和32bit的复音效果。波表合成的声音比FM合成的声音更为丰富和真实，但由于需要额外的存储器作为音色库，因此成本也较高，而且音色库越大，所需的存储器就越多，相应地成本也就越高。波表合成可以有软硬之分，软波表原理跟硬波表一样，都是采用了真实的声音样本进行回放。只是硬波表的音色库是存放在声卡的ROM或RAM中，而软波表的音色库则以文件的形式存放在硬盘里，需要时再通过CPU进行调用。由于软波表是通过CPU的实时运算来回放MIDI音效，因此软波表对系统要求较高。5.2.3 MIDI音乐创作软件MIDI的发展，近几年来市场上不断出现不同功能的电脑音乐创作软件，这些软件大体上可以分为以下三类：一类是专为作曲及编曲而设计的，比如Cakewalk、Cubase、Mastertracl Pro等；还有些是专为制作和打印五线谱而设计的，比如Encore，Finale等；另外一些些是专为音乐教育而设计的，比如Piano、Music lesson等，品种非常多。有了这些软件的帮助，人们在学习作曲、编曲、制作和编辑五线谱以及制作唱片等各方面都产生了前所未有的变化。如图5-5就是MIDI创作软件Cakewalk Pro Audio 9.0 的界面。图5-5 Cakewalk Pro Audio 9.0 软件界面5.3 数字音频格式数字音频的不同表示形式，导致了不同的文件格式，下面我们介绍几种常见的音频文件格式：（1）PCM（脉冲编码调制）编码格式如果把上述模数转换过程得到离散的电平值用二进制数表示出来并把二进制数直接记录下来，形成的多媒体声音文件我们把它称为PCM编码。也就是说：PCM是一种将模拟音频信号变换为数字信号的编码方式。主要经过3个过程：抽样、量化和编码。抽样过程将连续时间模拟信号变为离散时间、连续幅度的抽样信号，量化过程将抽样信号变为离散时间、离散幅度的数字信号，编码过程将量化后的信号编码成为一个二进制码组输出。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。（2）WAV格式WAV是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，由于Windows本身的影响力，这个格式已经成为了事实上的通用音频格式。WAV格式符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，采用44.1kHz的采样频率，16位量化位数，跟CD一样，对存储空间需求太大不便于交流和传播。在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。（3）MP3编码格式MP3是MPEG（MPEG：Moving Picture Experts Group) Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，mp3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术，也就是利用了人耳的特性，削减音乐中人耳听不到的成分，同时尝试尽可能地维持原来的声音质量。（4）mp3PRO 编码格式mp3PRO 编码是美国汤姆森多媒体公司（Thomson Multimedia SA）与佛朗赫弗协会（Fraunhofer Institute）发布了一种新的音乐格式版本，这种格式与之前的mp3相比最大的特点是能在低达64kbps的比特率下仍然能提供近似CD的音质（mp3是128K）。该技术称为SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。它在原来mp3技术的基础上专门针对原来mp3技术中损失了的音频细节进行独立编码处理并捆绑在原来的mp3数据上，在播放的时候通过再合成而达到良好的音质效果。（5）WMA格式WMA（Windows Media Audio）是Windows Media Audio编码后的文件格式。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。WMA支持防复制功能，她支持通过Windows Media Rights Manager加入保护，可以限制播放时间和播放次数甚至于播放的机器。WMA同样也可以支持网络流媒体播放。（6）ASF格式ASF（Audio Steaming Format）是一种支持在各类网络和协议上的数据传输的标准。它支持音频、视频及其他多媒体类型，而WMA只包含音频的ASF文件。ASF格式在录制时可以对音质进行调节，同一格式，音质好的可与CD媲美，压缩比较高的可用于网络广播。由于微软的大力推广，这种格式在高音质领域直逼MP3，并且压缩速度比MP3提高1倍；在网络广播方面可与Real公司相竞争。（7）RA、RM、RMX格式：RA（RealAudio）、RM（RealMedia，RealAudio G2）、RMX（RealAudio Secured）这几个文件类型就Real Media面向音频方面的。它是由Real Networks公司开发的，特点是可以在非常低的带宽下（低达28.8kbps）提供足够好的音质。大部分音乐网站都是采用了这三种格式，这三种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的特点就是这三种格式都可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。而且和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的播放方式。因此，这几种文件格式都属于网络流媒体格式。（8）MIDI格式这是记录MIDI音乐的文件格式。与波形文件相比较，它记录的不是实际声音信号采样、量化后的数值，而是演奏乐器的动作过程及属性，因此，数据量很小。这种声音文件可以利用Windows提供的“媒体播放器”进行播放。（9）OGG编码格式：Ogg Vorbis是一种音频压缩格式，类似于MP3等现有的通过有损压缩算法进行音频压缩的音乐格式。但是不同的是，Ogg Vorbis格式是完全免费、开放源码且没有专利限制的。Ogg Vorbis是高质量的音频编码方案，Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，它可以支持多声道，也就是说：可以对所有的声道进行编码，而不是MP3只能编码2个声道。和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。Ogg Vorbis是一个音频编码框架，可以不断导入新技术逐步完善，并且OGG也支持VBR。Ogg Vorbis几乎得到所有的音频编辑器的支持，播放可以使用Winamp播放。现在Ogg Vorbis已经是Winamp标准配置之一。（10）VOC格式：VOC格式是DOS系统下面的音频文件格式标准，它是随声霸卡一起产生的数字声音文件，与WAV文件的结构相似，可以通过一些工具软件方便地互相转换。它是创新公司发明的音频文件格式。由于Windows平台不提供对VOC格式的直接支持，所以VOC格式现在已经很少见到了。（11）MOD格式：Module（简称mod）是数码音乐文件，由一组samples（乐器的声音采样）、曲谱和时序信息组成，告诉一个mod播放器何时以何种音高去演奏在某条音轨的某个样本，附带演奏一些效果比如颤音等。mod起源于Amiga计算机，当时的文件扩展名是MOD，为了区分具体的类型和整个结构体系，通常使用mod来表示整个Module格式体系。（12）AIFF格式：AIFF格式是Macintosh平台上的标准音频格式，属于QuickTime技术的一部分。这一格式的特点就是格式本身与数据的意义无关，因此受到了Microsoft的青睐，并据此搞出来WAV格式。AIFF虽然是一种很优秀的文件格式，但由于它是Macintosh平台上的格式，因此在PC平台上并没有得到很大的流行。（13）VQF格式：VQF格式是由YAMAHA和NTT共同开发的一种音频压缩技术，它的压缩率能够达到1:18，因此相同情况下压缩后VQF的文件体积比MP3小30%50%，更便利于网上传播，同时音质极佳，接近CD音质(16位44.1kHz立体声)。要播放VQF软件，可以通过给Winamp增加支持插件来实现，也可以使用YAMAHA自己的SoundVQ Player播放器。编码软件可以使用YAMAHA SoundVQ Encoder或者NTT TwinVQ Encoder。后者的优化比较好，速度比前者快一些。由于VQF没有得到操作系统平台的直接支持和VQF未公开技术标准，而且VQF 是专门开发来用于低比特率情况的，对于录音室这种需要高保真的环境就无能为力了等原因，VQF已经在逐步淡出市场。5.4 音频格式转换音频文件的格式很多，在音频的处理过程中，往往要进行各种格式之间的相互转换。音频格式的转换可以通过以下三种途径：（1）可以借助权威公司开发的专用转换工具图5-6 Audiostudio软件主界面这些软件多数是专门开发来进行各种音频格式之间的转换的，有些软件转换工具只是集成在其里面的一个部分，不同的软件可能支持转换的音频格式不同。Audiostudio就集成有一个强大的音频转换工具，它几乎能实现大多数常见的音频格式的转换，而且操作方便，同时也支持批量转换，图5-6就是它的主界面。图5-7 Audiostudio音频转换向导单击Audiostudio主界面的Convertor或Transformer都可以进入它自带的音频格式转换向导工具，如图5-7所示。选择Add可以添加需要转换的音频文件，然后单击Next进入下一步，选择输出格式图5-8 Audiostudio音频转换向导和输出路径，如图5-8所示。设置完以后再单击Next，出现如图5-9所示的界面，选择采图5-9 Audiostudio音频转换向导样频率，声道数等参数，单击Next就开始转换。（2）通过一些常用软件实现转换这些常用软件指我们熟悉的如豪杰解霸、金山影霸等，它们都自带音频转换工具，能很方便的实现音频格式转换。如选择金山影霸【常用工具】下的【音频转换器】，如图5-10，图5-10 “金山影霸”音频转换器（3）通过音频编辑软件进行格式转换这些软件都支持读取多种音频格式，这种转换方法比较简单，只需要将要转换的文件打开，然后再另存为需要的目标格式即可。下面列出一些常用格式转换软件。WAV转换MIDI：可用Gama，WAVmid32，DigitalEar，AKoffMusicComposer，MIDI RecognitionSystem软件。MIDI转换WAV：可用n-TRAckStudio，WAVmaker，AmazingMIDI，Wingroove，Yamaha sxg等软件。 WAV转换MP3：可用L3enc，mpEGLayer-3AudioCodec，RightClick-MP3，MP3creator，MPlifier软件。MP3转换WAV：可用MP32WAVCD-Recorder，MP3decoder软件。Professional，MP3toWAV，RightClick-MP3，CD转换WAV：可用CDcopy，AudioGrabber，WinDAC32，DigitalAudioCopy，MusicMatch Jukebox软件。WAV转换RM：可用REALPRODUCERG2软件。RA转换WAV：可用RA2WAV，StreamboxRipper软件。WAV转换WMA：可用WAVtoWAMzip软件。MP3转换CD：可用MP3CDMaker，CDCOPY，SirenJukebox软件。AudioWriter，CD转换MP3：可用MusicMatchJukebox，cdtomp，Cdex，UltimateEncoder，AudioCatalyst软件。MP3转换ASF：可用MP3toASF软件。CD转换RA：可用MusicMatchJukebox软件。CD与WAV，AU，RAW，VQF，RA，mpg，mpa的转换：可用CDCOPY软件。VCD转换WAV：可用豪杰解霸中的音频解霸、金山影霸的视频转换器软件。如果文件格式不在列表中，可以查阅相关书籍，或是到相关BBS求助。5.5 音频卡音频卡（也称为声卡，声效卡）在多媒体计算机中，是不可缺少的重要部件，它直接决定了多媒体电脑对声音数据的处理能力。现在的音频卡已不仅仅作为发声之用，还兼备声音的采集、编辑、语音识别、网络电话等功能。5.5.1 音频卡的基本功能音频卡有各种各样的类型，但它在相应软件的支持下，一般应具备以下大部分或全部功能。1. 录制、编辑和回放数字声音文件音频卡上都预留了麦克风、录放机等外设的插孔，可以将来自这些设备的模拟声音信号经过采集、量化，然后再将得到的数值序列以文件的形式存储到磁盘上。2. 控制各声源的音量并混合在一起通常随声卡提供的软件有一个叫做Mixer的程序。它显示一个有多个滑键的控制面板，用来控制调节话筒、激光唱盘和其他音源的输入音量，以及调节MIDI、声音文件和主输出电路的回放音量。3. 对声波文件进行压缩和解压缩立体声的数字声音文件，每分钟可占10MB的磁盘空间。因此声音文件的压缩与解压缩是多媒体领域研究的一个重要课题。为加速压缩过程，声音的压缩算法可由硬件完成（固化在声卡上），也可以软件形式进行压缩。4. 语音合成技术在相应软件的支持下，可让大部分声音卡发声，如朗读英文文本。由于声音是合成的，所以听起来不太自然，但可以用来帮助用户检查文章中句法和语法错误。这是一般的拼写（spell）功能所无法做到的。通常用两种技术来生成语音：一种基于字典技术，它根据单词查到发音代码并送到合成器上去；另一种基于规则，它将文本转换成语音并输出。5. 乐器数字接口（MIDI）用于外部电子乐器与计算机之间的通信，实现对多台带MIDI接口的电子乐器的控制和操作。MIDI文件也能被编辑和播放，甚至可在计算机上作曲，通过喇叭播放或去控制电子乐器。5.5.2 音频卡的结构声卡的结构概括地讲可以分为：音效芯片/芯片组、数字信号编解码器（CODEC）芯片、功率放大芯片和波表音色库等几个部分。音效芯片/芯片组：声卡的核心。它的功能是对数字化的声音信号进行各种处理。音效芯片能够使用的数字音源有以下几种：普通音频信号（包括WAV文件、CD唱机、收音机等）或由CODEC芯片或S/P DIF接口传送过来的信号，由于未经压缩处理，因此数据量十分惊人；MIDI是一系列生成音乐的指令，由芯片接收后运用FM或波表合成等方式合成音乐，数据量小，易于存储、传输：其他的数据格式，如Dolby Digital（AC-3）和DTS（数字影院系统）数据流等，也得到部分芯片的支持。音效芯片的处理功能有：一是混音，即将多个不同的音频数据流合为一体，再通过CODEC变为音频播放出来；二是特殊音效的处理，如简单的高低音调调节功能或较复杂的3D声响扩展功能，至于3D声源定位和环境音效的处理更是运算密集型工作。所有这些数据处理工作都由芯片上的控制核心配合DSP（数字信号处理）来完成。近来的音效芯片还往往集成了S/P DIF数字信号的接口，可以传输较长距离的数字信号。音频CODEC芯片是声卡的另一个重要组成部分，它包含将模拟信号转换为数字信号的A/D转换和数字信号转换为模拟信号的D/A转换。声卡上的CD In、Line In、MIC In等线路电平输入和Line Out等线路电平输出都是通过CODEC实现的，所以声卡音质的质量很大程度取决于它的品质。功率放大芯片是廉价声卡常常省去的部分。声卡功放的一般功率都不太大（210W），由于电源功率不足和空间、散热等的限制，音质也不会太出色，但高档声卡的功放不低于普通有源音箱的功放。MIDI使用的波表音色库是可选部件，因为波表数据既可存在卡上，也可存在系统内存中。过去的声卡芯片也曾有过把音效芯片、CODEC芯片合二为一的产品，目前采用分开的结构。原因也很容易解释：其一，模拟电路易受干扰，而数字电路恰恰是主要的噪声源，自然应将数字处理芯片同数模接口分开，越远越好。其二，生产模拟电路和数字电路的工艺截然不同，要在一片硅片上同时集成这两种电路是困难而且矛盾的，所以当它们被分开后，不但可以各自提高性能，也使音效芯片可以极大地提高集成度。5.5.3 音频卡的外部接口音频卡通过一些外部接口实现声音信号的采集和播放。不同厂商、不同品牌的音频卡其功能不一样，提供的外部接口也有差异，但通常应该都有下面所列出的这些接口。线性输入插孔（LINE IN）：作用是将来自收音机、随身听、或电视机等任何外部音频设备的声音信号输入电脑。可用于录制电视节目伴音、将磁带转成MP3等。话筒输入插孔（MIC IN）：可接连适合电脑使用的话筒作为声音输入设备。用于录音、娱乐及语音识别等。如果要打网络电话、用电脑来唱卡拉OK，也少不了它。线性输出插孔（LINE OUT）：它负责将声卡处理好的声音信号输出到有源音箱、耳机或其他音频放大设备(如功放)，这是第一个输出孔，用于连接前端音箱。第二个线性输出插孔（SPEAKER）：用于连接后端音箱。四声道以上的声卡都会有两个线性输出插孔。用于连接耳机、无源喇叭或有源立体音箱。游戏MIDI插口（Game Port/MIDI）：用于连接游戏杆、手柄和方向盘等外接游戏控制器，也可连接外部MIDI乐器（如MIDI键盘、电子琴等），配以专用软件可将电脑作为桌面音乐制作系统使用。图5-11所示为一块音频卡（声卡）的外观，图5-12为音频卡的外部插口示意图。5.5.4 音频卡的技术指标MICLINE INLINE OUTSPEAKERGame Port/MIDI麦克风CD唱机、录音机音箱、耳机扬声器游戏杆、MIDI设备图5-12 音频卡外部接口图5-11 一块音频卡的外观音频卡的性能质量主要是通过它的一系列技术指标来评断的。下面列出几项比较重要技术性能指标。（1）采样频率和量化位数：它们是衡量音频卡录制和回放声音质量的主要参数。采样频率和量化位数越高，录制和回放声音质量与原始声音越接近。（2）合成芯片：有两种合成声音的方法：FM合成法和波表合成法。后者效果更好一些。（3）兼容性：特别是在DOS环境下玩游戏时，往往要求音频卡与Sound Blaster和AdLit兼容。（4）MIDI/GAME端口：利用这个端口可以与其他的MIDI设备连接，构成一个以计算机为中心的音乐作曲和演奏平台。在不使用外部MIDI设备时，可以连接一个游戏杆。（5）I/O端口：利用这个端口与麦克风、CD唱机、收录机、标准音响系统等外部设备相连。（6）CD-ROM接口：许多音频卡提供了CD-ROM接口，使得通过音频卡直接播放CD音乐。（7）音频压缩；音频卡应支持几种标准的音频压缩算法。（8）DSP芯片：在一些较高档的音频卡上都带有数字信号处理器（DSP）芯片，这是一种专门的数据处理器，可以通过软件编程来完成音频处理和压缩等任务，从而减轻CPU的压力。（9）软件支持：应具有DOS和Windows环境的驱动程序以及功能强大的音频信息处理实用工具。5.6 音频处理软件 Cool Edit Pro 2.0Cool Edit 是著名的数字音频软件制作公司Syntrillium开发的一款功能十分强大的数字音频处理软件，它分为Cool Edit Pro 和 Cool Edit 2000 两个版本，前者是全功能的专业版，后者是其简化版。本节以Cool Edit Pro 2.0 中文汉化版为例简要介绍它的功能。Cool Edit Pro 2.0集成了几个相当专业且高效的音频处理工具，功能十分强大。它可以同时处理多达128路音频信号，并且可以对每一路音频信号单独进行编辑处理，加入不同的音效、特效如压缩、扩展、回响、回声、失真、延迟、放大等。它不但能处理多种声音文件的格式，还能直接从CD或VCD中摘录声音，处理后的声音还可以以各种各样的格式输出。它的界面由标题栏、菜单栏、工具栏、文件区、操作区、状态栏组成。工具栏左边是波形单轨/多轨混音窗口的切换按钮，单击该切换按钮，可随时在波形单轨/多轨混音两个窗口间进行切换，菜单栏、工具栏和操作区的功能随着窗口的切换而改变。5.6.1 波形单轨编辑窗口1. 标题栏图5-13 波形单轨编辑窗口图5-13为波形单轨编辑窗口。标题显示正在编辑的文件名、最小化按钮、最大化/还原按钮、关闭按钮。2. 菜单栏菜单栏有文件、编辑、查看（视图）、效果、生成、分析、偏好（收藏夹），选项、窗口、帮助共十项。其主要功能如下：文件：和其他软件的文件菜单没有多大的区别，用来对文件进行操作，包含了常用的新建、打开、关闭、保存、另存为等命令。编辑：对文件进行各种编辑调整，包含了常用的拷贝、剪切、粘贴、删除等命令。查看（视图）：包含了一些常用视图的选择设置，可以打开各种窗口。效果：包含了在编辑音频时用的一些功能，如反向，动态，延时，混响，均衡，降噪，失真，变调等，是Cool Edit Pro 2.0的核心部分，对音频的编辑主要就是利用它进行操作，由于这里涉及许多专业术语，操作时尽量取默认值。生成：包括生成静音、噪声等。分析：通过对一段音乐的频谱或数字统计进行详细的分析，方便了解音乐的构成和本质。偏好（收藏夹）：通过编辑将音频处理的各种效果设定后保存下来以供随时调用。也可将其他工具挂到这里。选项：包含一些系统参数的设置，可以改变临时文件酌存放位置，录音时默认采样率，窗口风格等。窗口：在打开的多个文件窗口间进行切换。帮助：帮助信息。快捷菜单：在操作过程中，可随时使用右键调用不同的快捷菜单。在不同的操作区域单击右键会出项相应的不同的菜单。3. 工具栏工具栏有文件、编辑、查看（视图）、选项、分析、生成、振幅、延时效果、滤镜、降噪、特殊处理、时间调整变调共12项，可通过菜单【查看】|【工具栏】进行定义。4. 文件（波形）显示区文件（波形）显示区以波谱图方式显示声波文件，供播放、声道切换、选取、编辑等各种操作、单声道在波形显示窗口中只有一行，双声道则分上下两行（左声道在上，右声道在下）。图5-13所示的为单声道的情况。5. 操作区操作区中包括录放按钮、缩放按钮、时段显示、电平指示条等。录放按钮分上下两排，共10个，按照从上到下、从左到右的顺序分别为停止按钮、播放按钮、暂停按钮、向前播放按钮、循环按钮、快倒按钮、倒带按钮、进带按钮、快进按钮、录音按钮。水平缩放按钮分上下两排，共6个，按照从上到下、从左到右的顺序分别为居中放大（以整个乐曲为中心放大）、居中缩小（以整个乐曲为中心缩小）、完整缩放（调整缩放到完整显示整个波形）、缩放到选择区（调整缩放到完整显示选择区波形）、放大选择区左边（将选择区左边界放大）、放大选择区右边（将选择区右边界放大）。垂直按钮有两个，上面为垂直放大，下面为垂直缩小。6. 状态栏位于窗口最底下的状态栏用于显示当前操作的波形文件的大小、格式以及磁盘空间状态等信息。5.6.2 多轨混音编辑窗口1. 标题栏图5-14为多轨混音编辑窗口，与波形编辑窗口相同。图5-14 多轨混音编辑窗口2. 菜单栏菜单栏有文件、编辑、（查看）视图、插入、效果、选项、帮助共6项。其主要功能如下。文件：对多轨任务文件进行操作，包含了常用的新建、打开、关闭、保存、另存为等命令。编辑：对多轨任务文件进行各种编辑调整。查看（视图）：对多轨任务设置各种显示方式。插入：将磁盘上的波形文件插入到音轨中。效果：对音轨进行处理。选项：参数的设置。帮助：帮助信息。快捷菜单：在操作过程中，可随时使用右键调用不同的快捷菜单。在不同的操作区域单击右键会出项相应的不同的菜单。3. 工具栏工具栏主要有多轨文件工具条、多轨编辑工具条、多轨查看工具条、多轨选项工具条)、窗口套索。可通过菜单【查看】|【工具栏】进行定义。4. 多轨显示区对多路音轨进行编辑。5. 操作区操作区和单轨窗口相同。6. 资源管理器方便不同类型文件的显示和管理。5.6.3 单轨音频基本编辑方法1. 录音Cool Edit Pro可以录入多种音源，如：话筒、录音机、CD播放机等，将这些设备与声卡连接好，就可以准备录音了。录音的步骤如下：（1）将话筒插入电脑声卡的麦克风插孔，开启话筒电源。（2）启动Cool Edit Pro后，切换到波形单轨编辑窗口。（3）选择菜单【文件】|【新建】，出现“新建波形”对话框，选择适当的采样率，声道数，采样精度，如图5-15所示。（4）按下操作区的“”按钮，开始录音。如图5-16所示。图5-15 新建波形图5-16 录音按钮（5）单击操作区左上角的“”按钮就可以停止录音。（6）通过单击“”按钮进行试听。（7）通过菜单【文件】|【另存为】进行保存，保存时可以选择不同的文件类型，如图5-17所示。图5-17 录音文件保存2. 摘录Cool Edit Pro可以从CD或VCD中摘录声音，现以CD为例，步骤如下：图5-18 摘录（1）将CD放入光驱中，选择菜单【文件】|【从CD中提取音频】。（2）在【音轨】下拉文本框中选择要提取的音轨，单击【确定】，如图5-18所示。（3）通过菜单【文件】|【另存为】选择需要的类型进行保存。3. 其他操作图5-19 选择右声道中的波形其他的操作如剪切、复制、粘贴等功能和一般的应用软件很相似。在波形窗口左右声道的交界处拖动鼠标，选中要处理的波形区域，单击右键弹出快捷菜单就可以选择剪切或复制命令，在需要插入波形的地方同样单击右键弹出快捷菜单就可以选择粘贴命令。如果要选中右声道中的波形，则可以将光标移到波形窗口下方边界时，光标显示“R”的时候拖动鼠标，如图5-19所示。同样的，如果要选中左声道中的波形，则可以将光标移到波形窗口上方边界时，光标显示“L”的时候拖动鼠标。5.6.4 单轨音频效果处理1. 音量调整Cool Edit Pro可以在保证不出现声音失真的前提下，对声音进行调整。操作步骤如下：（1）打开要处理的音频文件。（2）选择菜单【效果】|【波形振幅】|【渐变】。图5-20 音量调整（3）在弹出的对话框【预置】里，选择要处理的分贝数，带“Cut”的表示降低声音分贝数，带“B

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第五章多媒体音频及音频处理.doc

文档简介

温馨提示

最新文档

评论

第五章 多媒体音频及音频处理.doc

文档简介

温馨提示

最新文档

评论

相关文档

第五章多媒体音频及音频处理.doc