音频技术基础_第1页
音频技术基础_第2页
音频技术基础_第3页
音频技术基础_第4页
音频技术基础_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章音频技术基础

人类从外界获得的信息大约有16%是从耳朵得到的。在多媒体技术中,音频信息占有很重要的地位,比如在视频会议系统中,音频信息的优先级最高。了解音频信息的相关知识对更进一步掌握多媒体技术是很重要的。一切能发出声音的物体称为声源。声音是由于声源的振动而产生的,由于声源的振动,借助于它们周围的介质,把这种振动以机械波的形式由近及远地传向远方,这就是声波。声波传入人耳,致使耳膜也产生振动,这种振动被传导到听觉神经,人们就产生了“声音”的感觉。我们日常听到的声音是一种模拟信号.声学基础知识●

声音定义声音是振动波,具有振幅、周期和频率.●

声音的质量简称音质。音质与频率范围成正比,频率范围越宽音质越好.声音具有连续性和过程性,数据前后相关,数据量大,具有实时性.●

声音的连续时基性●

声音三要素(1)音调—(高低)(2)音强—(强弱)(3)音色—(特质)声音的三要素音调:(高低)与声音的频率有关,频率快则声音高,频率慢则声音低。音强:(强弱)又称响度,取决于声音的振幅,也即振幅的大小和强弱。音色:(特质)由混入基音的谐音决定。每个基音都有其固定频率,和不同音强的谐音混合,使得每个声音具有特殊的音色效果。声音的频率范围模拟波信号有三个要素:基线、周期和振幅。振幅即波形的最高点(或最低点)与基线间的距离,它表示了声音音量的大小。周期是波形中两个相邻波峰之间的距离,它表示完成一次振动过程所需的时间,其大小体现了振动的速度。频率是周期的倒数,周期越短,频率越高。频率的单位为赫兹(Hz)。人的耳朵只能感觉到振动频率在20Hz到20000Hz之间的声波,超出此范围的振动波不能引起听觉器官的感觉。其中,人耳对400-4000HZ的声波最敏感。

次声波人耳可听域超声波<20Hz20~20,000Hz>20,000Hz女性语音150Hz~10,000Hz电话语音200Hz~3,400Hz调幅广播(AM)50Hz~7,000Hz调频广播(FM)20Hz~15,000Hz高级音响10Hz~40,000Hz男性语音100Hz~9,000Hz声源种类频带宽度频带宽度

声音质量等级与信号带宽的关系

电话AM广播FM广播CD-DA1020502003.4K7K15K22Kf(Hz)音频信号特性分析●时域特性起始——稳定——结束●频域特性声音信号由正弦分量组成——周期、非周期频谱分析——线状谱、连续谱声音信号的描述——声波频率、声压、声强人耳对声音的感觉通过声压或声压级描述——非线性听阈(1kHz):2×10-5Pa——

0dB

痛阈:20Pa——

120dB声音的强度在1kHz频率的正弦波中,能被人耳察觉的最弱声压大约是2Х10-5Pa,这个最弱音已经作为国际标准的参照声。描述声音强度的量值是采用分贝表示:分贝是指两个相同的物理量(例A1和A0)之比,取以10为底的对数并乘以10(或20)。N=10*lg(A1/A0)分贝符号为“dB”。N是被量度量的“级”,也被称为声压级。A1是被量度量。A0是基准量,如果2Х10-5Pa被看作0dB(声压级)那么在特别安静的环境中,单独检测:动物的呼吸声大约20dB人们正常的谈话声约60dB汽车的喇叭声约100dB飞机起飞的声音约120dB120dB以上的强度可使人产生痛苦的感觉。人耳听觉特性●人耳对声音强弱的感觉特性人耳对声音强弱的感觉不与声压成正比,而与声压级成正比。安静的环境和嘈杂的环境中人耳可以分辨的声音不同。掩蔽:一个频率声音的听阈由于另一个声音的存在而上升的现象。掩蔽效应:复合声音信号中,响度较低的声音频率分量被高者淹没。响度是听觉判断声音强弱的属性——主观,响度与声压级有一定关系:声压级每增加10dB,响度增加1倍。●响度和响度级●人耳听觉的掩蔽效应●声音质量评价◆我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。◆声音质量的度量有两种基本方法:客观质量度量、主观质量的度量。

声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:●评价值的测量——响度和响度级,噪音级,清晰度指数,噪音评价数。●声源的测量——频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。●音质的测量——混响时间,隔音量,吸音量。

●声音客观质量的度量方法声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。度量声音客观质量的一个主要指标是信噪比SNR(SignaltoNoiseRation)。其单位是分贝(dB)。●声音主观质量的度量

采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。

平均判分(MeanOpinionScore-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见下表。●声音主观质量的度量方法MOS质量级别失真级别5优(Excellent)不察觉4良(Good)刚察觉但不可厌3中(Fair)察觉及稍微可厌2差(Poor)可厌(但不令人反感)1劣(Unacceptable)极可厌(令人反感)数字化声音用声音录制软件记录的英文单词“Hello”的语音实际波形模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和D/A转换技术便应运而生。A:“Analog”(类比、模拟)D:“Digital”(数字、数码)A/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。

A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换

8位可编程A/D转换芯片●

声音采样——声音数字化(模/数转换)声音采样1101110011001101把声音(模拟量)按照固定时间间隔,转换成有限个数字表示的离散序列●

声音重放——声音模拟化(数/模转换)声音重放11011100把数字化声音转换成模拟量,经过音响单元重放出来●

设备和软件(1)声音适配器(声卡)8bit、16bit、…128bit¥80.00~3800.00(2)声卡驱动软件以及各种声音处理软件人耳听到的声音是一种具有振幅、周期(频率)的声波,计算机要处理这种声波,可以通过话筒把机械振动转变成相应的电信号,这也是一种连续的模拟信号。模拟信号的幅度,表示声音的强弱。计算机只能处理数字量,不能处理这种模拟量,只有把这种模拟量转换成数字量,计算机才有可能处理声音,这种转换就是模/数转换(A/D转换),它是由模/数转换电路实现的。声音经A/D转换后得到的数字声音信号交给计算机处理,处理后的数据需经过数/模(D/A)转换电路,还原成模拟信号,再进行放大输出到喇叭或耳机,变成人耳能够听到的声音。从模拟到数字声源声波传声器模拟电信号数字声音声音的数字化原理

模拟声音信号是个连续量,可能由许多具有不同振幅和频率的正弦波组成。计算机获取实际声音信号的过程就是声音的数字化的处理过程。右图表示了模拟声音数字化的三个步骤:采样、量化和编码。数字音频的处理●采样(Sampling)

、采样频率采样是将连续变化的模拟音频信号变成计算机能处理的离散化数字信号的第一步。每隔一定时间,对模拟音频信号的幅值进行采样测试,得到离散的幅值,并用该值表示两次采样之间的模拟幅值。单位时间采样的次数称为采样频率。采样频率越高,所得到的离散幅值的数据点就越逼近于连续音频信号,同时采样所得到的数据量也越大。多媒体电脑中支持的采样频率通常为44.1kHz、22.05kHz及11.025kHz,8kHz。t模拟输入t0t0采样时钟量化,编码0tX(0)X(1)…X(n)…声音的采样声音在数字化后的波形图标准采样频率采样频率采样次数/s声音质量8KHz8000电话音质11.025KHz11025AM音质22.05KHz22050FM音质44.1KHz44100CD音质48KHz48000DAT音质说明:DAT指数字录音带格式(Digitalaudiotype)采样定理:

奈奎斯特理论认为:数字采样频率的大小由声音信号本身的最高频率决定。指出:进行无损的数字化转换,采样频率至少是所采信号所含最高频率的2倍。fs>=2f声音类型带宽采样频率(kHz)电话语音200Hz-3.4kHz8调幅广播50Hz-7kHz11.025调频广播20Hz-15kHz22.050CD20Hz-20kHz44.1●量化(Quantization)

采样所得到的数据是一定的离散值,将这些离散值用若干二进制的位来表示,这一过程称为量化。用8位二进制表示十进制整数,只能表示出0~255之间的整数值。也就是256个量化级。量化级对应的二进制位数称为量化位数。虽然量化位数越多,对原始波形的模拟越细腻,声音的音质就越好,但数据量也越大。量化即是将采样所得到的信号振幅值用一组二进制脉冲序列来表示。离散化的数据经量化变成二进制表示一般会损失一些精度,这主要是因为计算机只能表示有限的数值。均匀量化如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化。非均匀量化--非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图所示。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。

在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为m

律压扩(companding)算法,另一种称为A律压扩算法。

m

律压扩

m

律(m-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中

A律压扩

A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中

量化噪声:量化误差,随阶距变大而增加。量化位数/采样精度(字长):

表示采样值的二进制位数(比特数),决定了采样值的精度。

例如:量化位数16bit,可以表示65536个不同量化值,精度(阶距)1/65536。量化位数8bit,可以表示256个不同量化值,精度(阶距)1/256。动态范围

(DynamicRange)20×lg(信号的最大强度/最小强度)(dB)信噪比(SignaltoNoiseRatio,SNR)-有用信号的能量和噪声能量的比。-常用单位:dB

衡量信号质量的标准:量化位数幅值动态范围(dB)效果825648数字电话1664K96CD-DA60FM广播40AM广播

量化位与动态范围根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以6分贝。

8位的数字系统其信噪比只有48分贝,

16位的数字系统的信噪比可达96分贝,信噪比低会出现背景噪声以及失真。 因此,量化位数越多,保真度越好。

量化位与信噪比在多媒体电脑中,要对音频进行处理,必须在PC机上添加一块声卡。声卡是多媒体升级套件中的核心部件之一,其外形与插在计算机主机箱内的其他硬件插板相仿,也是一块可以插在扩展槽内的电路板,但包含有完成音频处理功能的电子元件。声卡通过一秒内对声音进行上千次的采样、阅读,把模拟声波转换成数字信息、数字化的声音存储在波形文件中。当声音被记录时,声卡中的模/数转换器把模拟声波转换成数字数据;当声音重放时,声卡中的数/模转换器把波形文件里的数字数据变成模拟波形输出。声音的压缩声音文件数据量的计算影响数字化声音质量的因素主要有三个,即

采样频率,量化精度和声道个数。声道数:指一次采样所记录产生的声音波形个数。单声道只有一个数据流,立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征,因此,声音的播放在时间和空间性能方面都能显示更好的效果,但相应数据量将成倍增加。

数字声音相关的参数质量采样频率(kHz)量化精度单道声/立体声数据率(kb/s)频率范围(kHz)电话88单道声64200~3400AM11.0258单道声8850~7000FM22.05016立体声705.620~15000CD44.116立体声1411.220~20000DAT4816立体声153620~20000声音文件所需的存储空间可用下式来计算:采样率越大,数字信号越接近模拟信号,但所要求的存储空间也越大。

量化位数越多,所得的量化值越接近原始波形采样值,但所要求的信息存储量也越大。双声道立体声比单声道的声音逼真丰富,但需要成倍于单声道的信息容量。以16位、22.05kHz的频率录制1分钟的立体声,所需存储空间为5.047MB。如果录制1小时的立体声。其所要求的存储空间为60×5.047=302.81MB。计算:一张CD唱盘容量为640MB,问最多能存储多长时间的CD音质,采样字长为16bit的双声道立体声歌曲?每秒:(44.1K*16*2/8)=176400Byte(640*1024*1024)/176400=3804s=1h3min24s

声音压缩通常采用有损压缩的方式进行,主要用在重构的信号不必要与原始信号完全相同的场合。这种压缩采取在压缩的过程中丢掉某些不致对原始数据产生误解的信息,以大大提高压缩比。

从第一个音频编码方法产生到现在,出现了很多的压缩编码方法。可以将他们分为三类:波形编码、参数编码和混合编码。波形编码基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。优点:实现简单(计算量不大)、语音质量(保真度)好、适应性强,有成熟的技术实现方法;缺点:压缩程度不高、实现的码速率较高,码率低于32kbit/s时音质降低明显,16kbit/s时音质就非常差了。常见方法:脉冲编码调制(PCM)、增量调制(DM)、差值脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等。编码信号的速率计算:编码速率=采样频率×编码比特数播放某音频信号所需存储量=播放时间×速率÷8(字节)

参数编码(声源编码)通过构造发声模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并进行量化编码,以实现语音信息的数字化。优点:语音编码速率较低(2~9.6kbit/s),压缩比特率低;缺点:合成语音质量较差(保真度欠佳),实现的复杂度高。典型代表:线性预测编码器(LPC)语声信号产生模型周期性信号随机性信号基音周期Tp浊音清音线性时变滤波器合成语音信号输出C(n)u(n)v(n)G增益控制时变参数ai混和编码波形编码:保真度好,计算量小,但编码后速率高;参数编码:码速率较低,但保真度欠佳,计算复杂。波形编码与参数编码结合——混和编码:克服弱点,结合优点压缩比特率:4~16kbit/s编码器:多脉冲激励线性预测编码器(MPE-LPC)、规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性预测编码器(CELP)、矢量和激励线性预测编码器(VSELP)和多带激励线性预测编码器。与参数编码的差别:信号激励源的选取更加精细——通过调整激励信号使语音输入信号与重构的语音信号误差最小(合成分析法AbS-analysisbysynthesis)。三种压缩编码的性能比较24616832kbit/s

主观音质评价

混和法

参数法

波形法54321差分脉冲编码调制DPCM出发点:对相邻样值的差值进行量化编码实现:对样值与其对应的预测值的差值进行量化编码

预测表达式预测编码

关键:预测系数的获得——使预测估值的均方差为最小的预测系数自适应差值脉冲编码调制ADPCM

自适应量化:使量化间隔的变化与输入语声信号的方差相匹配

自适应预测预测系数随输入信号而变化2.线性预测编码LPC语声激励信号:浊音信号(准周期脉冲序列)+清音信号(白色随机噪声)虽然码速率低,但在噪声环境下语音质量不好,现已被淘汰。常用压缩编码方法基本思想预测表达式预测系数的求取图

DPCM系统原理框图DPCM

预测器

量化器编码器解码器

预测器信道接收端输出XN’+++XNe’NXNeNe’NXN’++输入^XN^发送端+-预测值抽样值eN=XN-XN^存在量化误差3.矢量量化编码:将输入信号样值按某种方式分组(矢量),并量化理论基础:香农率失真理论基本原理:用码书中与输入矢量最匹配的码字的索引(下标)代替输入矢量进行传输和存储,解码时只需简单的查表操作。关键技术:码书设计、码字搜索、码字(下标)索引分配。应用:中速率和低速率语音编码——G.723.1、G.728、G.729待续4.子带编码基本思想:将输入信号分解为若干子频带,然后对各子带分量根据其不同的统计特性采取不同的压缩策略,以降低码率。子带划分依据:话音信号自身特性优点:不仅可以很好地控制各个子带的量化电平数,还可以很好地控制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。相对独立的量化噪声被束缚在各自子带内,互不影响。各个子带的采样频率大大降低。矢量量化数据分组,每个组有K个数据,一组数据构成一个K维矢量;每个矢量有对应的下标;每个矢量视为一个码字;所有码字排列形成一个表即为码本或(码书);设计一个良好的码本C(具有N个K维矢量的集合)C={yi};

yi

为码字,下标i=1,2,3,,N。

矢量量化编码矢量量化编码原理框图矢量量化编码中,不传输对应的矢量;发送端和接收端都有相同的码本,只需传送每个矢量的下标i。下标数据比矢量本身数据小得多,实现了压缩。5.感知编码基本原理:以人类听觉系统的心理声学为基础,只记录能够被人耳感觉到的声音,从而达到压缩数据量的目的。理论基础:基于人耳的闻阈、临界频段和掩蔽效应。人耳对不同频段声音的反应灵敏度有差异,在编码时,对被掩蔽的弱音不进行编码,从而达数据压缩的目的。应用:在音频压缩编码中,感知编码比较成功,如MPEG-1、MPEG-2、AC-3音频信息压缩编码标准标准的描述对象:编码速率、编码的压缩算法、编码器结构、话音质量以及彼此的关系。目标:用尽可能低的数码率来获得尽可能好的合成语音质量。G.711、G.721、G.722●波形编码标准G.711

针对50Hz到3.2kHz的语音信号进行A律和律PCM编码,属于非均匀量化。式中:x为输入信号幅度,规格化成-1x

1;

律主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:A律主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:0|x|1/A1/A|x|1式中:x为输入信号幅度,规格化成-1x

1;

G.721

一个代码转换系统。它使用ADPCM转换技术,实现64kb/s(A律或μ律压扩技术)PCM速率和32kb/s速率的ADPCM之间的相互转换。ADPCM编码器G.722

一种高质量语音信号的压缩标准。取样频率为16kHz,每个样值量化到14b,采用子带编码和ADPCM进行压缩编码。7kHz音频信号64kb/s数据率的编译码方块图G.728

该标准利用低延时码本激励线性预测LD-CELP方法将一般语音信号压缩至16Kb/s。

CELP编码综合了波形编码和参数编码,还采用矢量量化的压缩算法。CELP实际上是一个闭环LPC系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。CELP具有较强的抗干扰能力,在4~16kbit/s传输速率下,即可获得较高质量的语音信号。G.728、G.729、G.723.1●混和编码标准G.729

低码率的语音压缩标准,采用共轭结构代数码本激励线性预测CS-ACELP,将语音信号压缩至8Kb/s。G.723.1

采用ACELP(代数码激励线性预测)算法,根据激励码本的不同可以将一般语音信号压缩至5.3Kb/s和6.3Kb/s。

在6.3Kb/s编码器内采用了多脉冲激励,可以得到较高的音质。MPEG-1、MPEG-2BC●MPEG音频编码标准●MPEG-2AAC编码标准●MPEG-4音频标准MPEG1音频压缩标准

包括3种压缩模式:层次1、2、3;向下兼容;压缩算法主要由子带划分和变换编码构成,主要步骤为:(1)音频信号通过滤波器组分成为32个子带;

(2)用FFT将子带变换到频率域;

(3)利用生理声学模型对能感知的噪声阈值进行估计;

(4)根据对噪声阈值的估计进行比特分配和量化。编码器解码器其音频编码分为3层:Layer-1、Layer-2和Layer-3。Layer-1的压缩比为1:4,编码速率为384kb/s;Layer-2的压缩比为1:6~1:8之间,编码速率为192~256kb/s;Layer-3的压缩比为1:10~1:12,压缩码率可以达到64kb/s。Layer-1的编码器最为简单,主要用于小型数字盒式磁带;Layer-2编码器的复杂程度是中等,主要用于数字广播音频、数字音乐、只读光盘交互系统和视盘;Layer-3的编码器最为复杂,主要用于ISDN上的声音传输。表MPEG1Audio音频文件压缩比率和播放媒体最低位率Layer大约压缩比率播放媒体最低位率11:4348Kbit/s21:6~1:8256Kbit/s~192Kbit/s31:10~1:12128Kbit/s~112Kbit/sMP3(Layer3)编码是MPEG1Audio音频压缩标准之一。 MPEG-2BC声音标准是在MPEG-1的基础上发展来的,是MPEG为多声道声音开发的低码率编码方案,并与MPEG-1的声音标准保持后向兼容。与MPEG-1相比主要增加了下面几个方面的内容:MPEG-2BC声音压缩标准支持5.1多路环绕立体声:5个全带宽声道,分为左、右、中、和两个环绕声道,另加一个低频效果增强声道扩展了编码器的输出范围,从32~384kb/s扩展到8~640kb/s。增加了更低的取样频率和低码率:在保持MPEG-1原有的取样频率的基础上,又增加了三种取样频率,新增的取样频率为16kHz、22.05kHz和24kHz,是将原有MPEG-1的取样频率降低了一半,以便提高码率低于64kb/s时的每个声道的声音质量。AC-3音频压缩标准DOLBY

5.1声道音频压缩标准:左(L)、中(C)、右(R)、左环绕(LS)、右环绕(RS)和低频增强。前5声道带宽20Hz~20kHz;0.1声道,提供100Hz以下的超低音声道,弥补低音的不足。AC-3将六个声道进行数字编码,并将它们压缩成一个通道,而比特率仅是320kb/s。美国HDTV的音频标准 MPEG-2AAC(AdvancedAudioCoding)是MPEG-2标准中一种非常灵活的编码标准,采用感知编码方法,主要是利用听觉系统的掩蔽特性来减少声音编码的数据量;并且通过子带编码将量化噪声分散到各个子带中,用全局的声音信号将噪声掩蔽掉。MPEG-2AAC编码标准AAC定义了3种配置:

基本配置在三种配置中提供最好的声音质量,除没有使用增益控制模块外,其余模块都使用。

低复杂性配置没有使用预测模块和预处理模块,使用的瞬时噪声定形滤波器模块的级数也有限,声音质量低于基本配置。

可变采用率配置使用增益控制作预处理,没有使用预测模块,对TNS(瞬时噪声定性)滤波器的级数和带宽也有限制,是最简单的一种配置。音频编码算法和标准算法名称

数据率标准应用波形编码PCM脉冲编码调制

公共网ISDN配音μ-law,A-lawμ-律,A-律

64kbpsG.711APCM自适应脉冲编码调制

DPCM差分脉冲编码调制

ADPCM自适应差分脉冲编码调制

32kbpsG.721SB-ADPCM子带-自适应差分脉冲编码调制

64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码

2.4kbps保密话声混合编码CELPC码激励LPC4.6kbps移动通信VSELP矢量和激励LPC8kbps语音邮件RPE-LTP规则码激励长时预测

13.2kbpsISDNLD-CELP低延时码激励LPC16kbpsG.728G.729MPEG多子带,感知编码

128kbPsCDDolbyAC-3感知编码

音响声音的合成数字化的声音首先要转换成模拟信号,才能播放。对于存储的采样音频,有两种处理方法:

FM频率调制合成波形表(Wavetable)合成

频率调制(FM)合成法数字式频率调制合成法,简称为FM合成法。FM电子合成器先由震荡器产生一个载波作为基音,然后再产生若干个调制波带着许多泛音加在载波之上,可以对这个组合加以任意调整,然后加上典型的声音包络线(ADSR),再通过数控滤波器和数控放大器送往数字/模拟转换器,从而形成最后的声音。由于一个物体不可能总是一成不变的振动,所以它的频率和振幅都会随着时间的改变而改变,并最终趋于静止。我们把一声音的发展过程分为四个阶段,分别是触发、衰减、保持和消失。这四个阶段我们统称为“包络”。包络的发生时间,也决定了一个乐音的时值。FM声音合成器的工作原理由以下五部分组成:数字载波器调制器声音包络发生器数字运算器数模转换器

波形表合成(Wavetablesynthesis)也叫乐音样本合成法,就是把各种真实乐器发出的声音以数字的形式记录下来,形成波形表,播放时调用相应乐器的波形记录,改变播放速度,从而改变音调周期,生成各种音阶的音符。

专业声卡采用此方式。波形表一般存储在声卡的ROM中。ROM存储器的容量越大,合成的效果越好,开销更大。产生丰富、逼真的音频和音乐

CoolEditPro2.0

一款非常出色的音频录制、编辑、处理、混缩软件CoolEditPro2.0的中文界面标题栏菜单栏工具栏状态栏多轨编辑模式CoolEditPro2.0的功能特点

CoolEditPro2.0软件提供32-bit高精度音频处理,支持视频、CD、MIDI等设备。能方便地抓取CD音轨,也能抽取并编辑视频文件中的音频。

播放控制缩放控制当前时间音节属性所选部分和视图中音频属性文件管理窗口调音窗口工具栏CoolEditPro2.0支持单轨或多轨编辑模式,编辑时可互相切换。同时具有强大的音频编辑功能,支持可选的插件、崩溃恢复、自动静音检测和删除、自动节拍查找、录制等。可以创建音调、歌曲、声音、弦乐、颤音、噪音。并在单轨和多轨编辑模式下,分别提供了不同的编辑功能。软件还提供了音频分析器和相位分析器。多媒体音频信号文件格式.wav●

WAVE(WaveformAudio)波形音频文件

多媒体系统、音乐光盘制作,记录物理波形,数据量大WAV文件来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样,可以得到一系列离散的采样点;以不同的精度(8位或16位)把这些采样点的值转换成二进制码,然后存磁盘,就产生了声音的WAV文件,即波形文件。

WAV文件是由采样数据组成的,所以它需要的存储容量很大。一般情况下,WAV文件是不可能压缩的。这是因为WAV文件所记录的音频数字信息中很少有像图像中存在的大量数据重复现象,一般数据压缩算法很难有所作为,即使经过压缩,压缩比也不高,压缩结果也仍然需要很大的存储空间。MIDI(MusicalInstrumentDigitalInterface)乐器数字化接口,是数字音乐的工业标准,是用于音乐合成器、乐器和计算机之间交换音乐信息的一种硬件和软件国际标准。MIDI文件并没有记录任何声音信息,而只是记载了用于描述乐曲演奏过程中的一系列指令,这些指令包含了音高、音长、通道号等主要信息,并以扩展名为.MID的文件格式存储起来。MIDI文件只是将乐器弹奏的每个音符记录为一连串数字,然后用声卡上的合成器根据这个数字所代表的含义进行合成,最后通过扬声器播放音乐。.mid●

MIDI(MusicalInstrument

Digital

Interface)乐器数字化接口。用于合成、游戏音乐,记录音符时值、频率、音色特征,数据量小。WAV文件的优点是可以从任何声源录制声音,且可以保证它仍在任意一台计算机上播放的效果大致相同,而MIDI文件则要受合成器中乐器组合的限制,其声音质量很大程度上取决于声卡重新合成乐器声音功能的强弱。相比之下,MIDI文件的录制较复杂,这需要掌握一些使用MIDI创作编辑作业的专业知识,并且还须有专门的工具。MIDI消息,是指乐谱的数字描述,包括电子乐器键盘的弹奏的键名、力度、时值长短等参数。任何电子乐器,只要有处理MIDI消息的微处理器和合适的硬件接口,就构成了一个MIDI设备。当一组MIDI消息通过音乐合成芯片处理时,合成器能解释这些符号并且产生音乐。计算机上处理MIDI音乐的基本过程计算机中的MIDI文件通常来自于音乐创作软件或合成音乐设备。许多播放器都能播放MIDI音乐,播放时(如图所示)需要从相应的MIDI文件或设备中读出MIDI指令,接着由MIDI文件系统解释指令,然后通过MIDI播放器输出和转换信号,再经过声音合成器生成对应的声音波形,最后经放大后由扬声器输出。图5-8计算机中MIDI音乐的处理

图计算机中MIDI音乐的处理过程MIDI术语MIDI文件通道Channels音序器Sequencer合成器Synthesizer乐器Instrument通道映象ChannelMapping复音Polyphony音色Timbre音轨Track合成音色映射程序PatchMapperMIDI的通道单个物理MIDI通道分为16个逻辑通道,每个逻辑通道可指定一种乐器。在MIDI消息中,用4个二进制位来表示这16个逻辑通道。MIDI键盘可设置在16个通道中任何一个,MIDI合成器可以被设置在指定的通道上接受。

MIDI的物理接口标准MIDIIn(输入口)接收从其他MIDI设备传来的消息。MIDIOut(输出口)发送某设备生成的原始MIDI消息。向其他设备发送MIDI消息。MIDIThru(转发口)传送从输入口接收的消息到其他MIDI

设备。在MIDI设备之间传送消息。各个MIDI设备通过专用的串行电缆(MIDI线)连接,并以31.25kbps(每字节10位-1位开始位,8位数据位和1位停止位)的速度传送着数字音乐信息。MIDIThruOutInMIDI1.0规范中,使用的MIDI接头是一个5针DIN接头。MIDI是乐器和计算机使用的标准语言,是一套指令(命令/消息)的约定,它指示合成器(MIDI设备)要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是动作指令。MIDI设备的连接

不妨把MIDI理解成一种局域网,网络的各个部分通过专用的串行电缆(MIDI线)连接,

并以31.25kbps的速度传送着数字音乐信息。

Cakewalk

ProAudio

V9.03

最著名和老牌的MIDI工具软件,功能强大,可编辑、创作、调试MIDI音乐。TT作曲大师TT作曲家1.2标准版是一个集简谱编曲、自动伴奏和打印功能为一体的作曲软件。

可以利用直观的简谱方式进行音乐编配,还可以选择内置的100种具有中国特色的伴奏风格,迅速制作出音乐成品。通过导入和导出MIDI文件的功能,您可以方便的与其它音乐软件相互配合,将乐曲进行精细的再加工。智能的歌词输入功能,让您轻松制作和打印中文歌曲。

MIDI文件实际上是一张表格,就好比是一张乐谱,它描述了各种音符以及这些音符的播放及延时,所以MIDI文件比WAV文件要小得多。例如,一段持续10余秒的立体声音乐,若用MIDI格式只需2KB的存储空间,而以WAV格式存放则需2MB左右。由于MIDI文件比WAV文件要小得多,所以预先装入MIDI文件比装入WAV文件容易,这为设计多媒体项目和指定何时播放音乐带来很大的灵活性。MIDI文件的主要缺点是处理语音能力差,缺乏重现自然语言的能力,不能独立合成,因此用户可以在需要语言的地方,将WAV文件与MIDI文件配合使用。

WAVE与MIDI文件的比较MIDIWAVE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论