




文档简介
音频采样 解释 数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围(相当于音调),可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。1.采样的位数 采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实。我们首先要知道:电脑中的声音文件是用数字0和1来表示的。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之,在播放时则是把数字信号还原成模拟声音信号输出。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方-256,16位则代表2的16次方-64K。比较一下,一段相同的音乐信息,16位声卡能把它分为64K个精度单位进行处理,而8位声卡只能处理256个精度单位,造成了较大的信号损失,最终的采样效果自然是无法相提并论的。 如今市面上所有的主流产品都是16位的采集卡,而并非有些无知商家所鼓吹的64位乃至128位,他们将采集卡的复音概念与采样位数概念混淆在了一起。如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位,但是它只是建立在Direct Sound加速基础上的一种多音频流技术,其本质还是一块16位的声卡。应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。2.音频采样级别(音频采样频率) 数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。 采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,22.05 KHz只能达到FM广播的声音品质,44.1KHz则是理论上的CD音质界限,48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值。 3. 位速说明 位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用 “128Kbps MP3” 或 “64Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千字节数”,因此数值越大表示数据越多:128Kbps MP3 音频文件包含的数据量是 64Kbps WMA 文件的两倍,并占用两倍的空间。(不过在这种情况下,这两种文件听起来没什么两样。原因是什么呢?有些文件格式比其他文件能够更有效地利用数据,64Kbps WMA 文件的音质与 128Kbps MP3 的音质相同。)需要了解的重要一点是,位速越高,信息量越大,对这些信息进行解码的处理量就越大,文件需要占用的空间也就越多。 为项目选择适当的位速取决于播放目标:如果您想把制作的 VCD 放在 DVD 播放器上播放,那么视频必须是 1150 Kbps,音频必须是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps超过这个限度播放时就会出现异常。 心理声学音频压缩 心理声学 一词似乎很令人费解,其实很简单,它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如,如果我扯着嗓子喊一声,同时轻轻地踏一下脚,您就会听到我的喊声,但可能听不到我踏脚的声音。通过去掉踏脚声,就会减少信息量,减小文件的大小,但听起来却没有区别。什么是语音、音频、和音效?请说出他们的共同点和不同之处2008-10-12 10:58 答 语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。 语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。音高指声波频率,即每秒钟振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为”时长“;音色指声音的特色和本质,也称作”音质“。 音频这个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音、 声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。 演讲和音乐,如果有计算机加上相应的音频卡 - 就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。 音效是指为增进一场面之真实感、气氛或戏剧讯息,而加于声带上的杂音或声音。简单地说,音效就是指由声音所制造的效果。所谓的声音则包括了乐音、及效果音。 他们的共同点都属于声音,不同之处 语音是语音是人类发音器官发出的具有区别意义功能的声音、人类能够听到的所有声音都称之为音频,它可能包括噪音、 声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理、音效是一种效果 是声音所制造的效果音效就是指由声音所制造的效果,是指为增进一场面之真实感、气氛或戏剧讯息,而加于声带上的杂音或声音。所谓的声音则包括了乐音和效果音。包括数字音效、环境音效、MP3音效(普通音效、专业音效)。数字音频采样和量化过程所用的主要硬件是什么?急悬赏分:0|解决时间:2008-11-6 19:52|提问者:l婂i錵n鎕g1、数字编码器2、数字解码器3、A/D(模/数)转换器4一、 音频编解码器 1.AD200单路音频解码器2.AD1200多路音频解码器3.AE200单路音频编码器4.AE400多路音频编码器5. AE1200多路音频编码器2.1数字音频基础声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号,如下图所示。声波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等。声音是一种连续的波对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号,而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽,它用来描述组成复合信号的频率范围。如高保真声音信号(high-fidelity audio)的频率范围为10 Hz20 000 Hz,它的带宽约为20 kHz,而视频信号的带宽是6 MHz。声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用Hz表示。例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压信号的变化,更听不到这种变化。对于频率为几Hz到20 Hz的空气压力信号,人们也听不到,如果它的强度足够大,也许可以感觉到。人们把频率小于20 Hz的信号称为亚音信号,或称为次音信号(subsonic);频率范围为20 Hz20 kHz的信号称为音频(Audio)信号;虽然人的发音器官发出的声音频率大约是803400 Hz,但人说话的信号频率通常为3003000 Hz,人们把在这种频率范围的信号称为话音(speech)信号;高于20 kHz的信号称为超音频信号,或称超声波(ultrasonic)信号。超音频信号具有很强的方向性,而且可以形成波束,在工业上得到广泛的应用,如超声波探测仪,超声波焊接设备等就是利用这种信号。在多媒体技术中,处理的信号主要是音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器声等。人们是否都能听到音频信号,这主要取决于各个人的年龄和耳朵的特性。一般来说,人的听觉器官能感知的声音频率大约在2020000 Hz之间,在这种频率范围里感知的声音幅度大约在0120 dB之间。除此之外,人的听觉器官对声音的感知还有其他一些重要特性,它们在声音数据压缩中已经得到广泛的应用。2.1.1 模拟音频和数字音频 回顾历史,大多数电信号的处理一直是用模拟元部件(如晶体管、变压器、电阻、电容等)对模拟信号进行处理。但是,开发一个具有相当精度、且几乎不受环境变化影响的模拟信号处理元部件是相当困难的,而且成本也很高。如果把模拟信号转变成数字信号,用数字来表示模拟量,对数字信号做计算,那末难点就发生了转移,把开发模拟运算部件的问题转变成开发数字运算部件的问题,这就出现了数字信号处理器(digital signal processor,DSP)。DSP与通用微处理器相比,除了它们的结构不同外,其基本差别是,DSP有能力响应和处理采样模拟信号得到的数据流,如做乘法和累加求和运算。在数字域而不在模拟域中做信号处理的主要优点是:首先,数字信号计算是一种精确的运算方法,它不受时间和环境变化的影响;其次,表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现;此外,可以对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。声音是机械振动。振动越强,声音越大,话筒把机械振动转换成电信号,模拟音频技术中以模拟电压的幅度表示声音强弱。模拟声音在时间上是连续的,而数字音频是一个数据序列,在时间上是断续的。数字音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。计算机内的基本数制是二进制,为此我们也要把声音数据写成计算机的数据格式,这称之为编码音频数字化计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。在这一处理技术中,涉及到音频的抽样、量化和编码。2.1.2 数字音频的采样和量化 采样:音频实际上是连续信号,或称连续时间函数x(t)。用计算机处理这些信号时,必须先对连续信号采样,即按一定的时间间隔(T)取值,得到x(nT)(n为整数)。T称采样周期,1/T称为采样频率。称x(nT)为离散信号。采样定理:设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足:当|f|fc时,fc是截止频率T 1/2fc或fc 1/2T则可以由离散信号x(nT)完全确定连续信号x(t)。当采样频率等于1/(2T)时,即fN=1/2T,称fN为耐魁斯特频率。常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。量化:为了把抽样序列x(nT)存入计算机,必须将样值量化成一个有限个幅度值的集合x(nT)。通常,用二进制数字表示量化后的样值是方便的。用B位二进制码字可以表示2B个不同的量化电平。存储数字音频信号的比特率为:I=Bfs(比特/秒)fs是抽样率(抽样/秒)B是每个样值的比特数(比特/采样)量化采样的过程如下:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,我们称之为均匀量化。设为量化阶距,量化器的最大范围是Xmax,则:=2Xmax / 2对于小于(i+1/2),而大于(i-1/2)的样值,均规定为相同的量化值i。抽样值x与未量化样值x(nT)的关系是:x=x(nT)+e(n)。其中,e(n)是量化误差,即量化噪声,-/2e(n)/2。量化噪声随距离变大而增加。2.1.3 数字音频的文件格式 如同存储文本文件一样,存储声音数据也需要有存储格式。在因特网上和各种机器上运行的声音文件格式很多,但目前比较流行的有以.wav (waveform),.au(audio),.aiff(Audio Interchangeable File Format)和.snd(sound)为扩展名的文件格式。.wav格式主要用在PC上,.au主要用在Unix工作站上,.aiff和snd主要用在苹果机和美国视算科技有限公司(Silicon Graphics,Inc.,SGI)的工作站上。用.wav为扩展名的文件格式称为波形文件格式(WAVE File Format),它在多媒体编程接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的,它是一种为交换多媒体资源而开发的资源交换文件格式(Resource Interchange File Format,RIFF)。波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。RIFF中的其他文件块是可选择的。它的简化结构如下图所示。2.1.4 音频信号的特点 在多媒体系统中,音频信号可分为两类:语音信号和非语音信号。非语音信号由可分为乐音和杂音,它的特点是不具有复杂的语意和语法信息,信息量低,识别简单。音频信号处理的特点如下:(1).音频信号是时间依赖的连续媒体。(2).即理想的合成声音应是立体声。(3).对语音信号的处理,要抽取语意等其它信息,如可能会涉及到语言学、社会学、声学等。从人与计算机交互的角度来看音频信号相应的处理如下:(1).人与计算机通信(计算机接收音频信号)。包括 音频获取;语音识别与理解。(2).计算机与人通信(计算机输出音频)。 音频合成; 声音定位:音频/视频同步。(3).人计算机人通信人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:语音采集、音频编码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。2.2音频卡的工作原理 第一块音频卡是在1987年由Adlib公司设计制造,当时主要用于电子游戏,作为一种技术标准,几乎被所有电子游戏软件采用。随后,新加坡Creative公司推出了音频卡系列产品,广泛被世界各地微机产品选用,并逐步形成这一领域的标准。2.2.1 音频卡的功能和分类 音频卡的主要功能是:音频的录制与播放、编辑与合成、MIDI接口、文语转换、CD-ROM接口及游戏接口等。1.录制与播放外部的声音信号,通过音频卡录入计算机,并以文件的形式保存。播放时,只需调出相应的声音文件。音频卡还可以与CD-ROM驱动器相连,实现CD唱片的播放。通常音频录放采用:数字化音频采样频率范围:844.1kHz量化位:8位/16位通道数:立体声/单声道编码与压缩:基本编码方法:PCM压缩编码方法:ADPCM(8:4,8:3,8:2,16:4)CCITT A律(13:8)CCITT 律(13:8)实时硬件压缩/软件压缩音频录放的自动动态滤波 录音声源:麦克风、立体声线路输入、CD。输出功率放大器,直接驱动扬声器,且输出音量可调。2.编辑与合成编辑与合成就象一部数字音频编辑器,可以对声音文件进行多种特效效果处理,如增加回音、淡入淡出等。3.MIDI和音乐合成MIDI是乐器数字接口标准,规定了电子乐器与计算机之间互通数据通信的协议。通过软件,计算机可以直接对外部电子乐器进行控制河操作。通常音频卡给出的音乐合成功能和性能依赖于合成芯片,有的音频卡带有波形表音乐合成。4.文件转换和语音识别有些音频卡捆绑了文语转换软件和语音识别软件。(1)文语转换软件文语转换就是把计算机内的文本文件转换成声音。(2)语音识别软件指特定人的命令识别系统,通过它可以利用语音来控制计算机或执行Windows下的命令。5.音频卡的其它接口CD-ROM接口游戏棒接口音频卡的分类主要根据数据采样量的位数来分,通常分为8位、16位、32位和64位等几类。位数越高,音质就越好。2.2.2 音频卡的工作原理 开发生产音频卡的公司很多,其中最有影响的公司是新加坡创新科技有限公司(Creative Labs.Inc.)开发的系列产品Soundlaster系列音频卡,它是集语音与音乐于一体的多煤体音频卡,它不但具有优良稳定的硬件特性,而且还有丰富的软件。1. Sound Blaster特性(1)强劲的音频处理引擎(2)环境音效增加现有音频的内容(3)Sound Blaster PCI标准(4)多音箱输出(5)256复音音乐合成器(6)环境音效功能扩展集/广泛的软件支持2.音频卡的工作原理音频卡主要由:声音的合成与处理、混合信号处理器及功率放大器、计算机总线接口和控制器三部分组成。(1)声音的合成与处理:是音频卡的核心,由数字声音处理器、FM音乐合成器及MIDI控制器组成。主要任务是完成声波信号的模/数、数/模转换,利用调频技术控制声音的音调、音色和幅度。(2)混合信号处理器及功率放大:内置数字/模拟混音器,可以选择输入一个或将几个不同的声源进行混合录音。(3)计算机总线接口和控制器:早期音频卡是ISA总线接口,现在音频卡是PCI总线接口。总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及DMA控制逻辑组成。音频卡的原理图3.音频卡的安装(1)改变缺省设置(2)硬件安装(3)软件安装典型音频卡的平面图音频卡的接口2.3音频编码基础和标准2.3.1 音频编码基础 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。1.时域信息的冗余度(1)幅度的非均匀分布统计表明,语音中小幅度样本比大幅度样本出现概率高;其次,通话中有间隙,更出现大量的低电平样本;此外,实际讲话中,信号功率电平趋向于现在编码范围的较低电平端。因此,语音信号取样值的幅度分布是不均匀的。(2)样本间的关系取样数据的最大相关性存在于邻近样本间,取样速度提高,样本间的相关性将更强,根据这种较强的一维相关性,利用N阶差分编码技术,可以进行有效的数据压缩。(3)周期之间的相关当声音只存在少数几个频率时,在周期与周期之间存在着一定的相关性。利用语音周期之间信息冗余度的编码器比仅利用邻近样本间的相关的编码器效果要好。(4)基音之间的相关人说话的声音通常分两类:浊音,由声带振动产生,每一次振动使一股空气从肺部流进声道,激励声道的各股空气之间的间隔称为音调间隔或基音周期。清音,分成摩檫音和破裂音两种,前者用空气通过声道的狭窄部分而产生的湍流作为音源,后者声道在瞬间闭合,然后在气压激迫下迅速地放开而产生破裂音源。(5)静止系数两人通话中,平均有一半时间听对方讲,在讲的过程中也会出现字、词、句之间的停顿,通过分析表明,语音间隙使得全双工话路的典型效率约为通话时间40%(或静止系数为0.6)。显然,通话间隔本身是一种冗余,若能检测出该静止段,便可“插空”传输更多的信息。(6)长时自相关函数在较长时间间隔进行统计,便得到长时自相关函数,长时统计表明,8kHz的取样语音的相邻样本平均相关系数高达0.9。2.频域信息的冗余度(1)非均匀的长时功率谱密度在相当长的时间间隔内进行统计平均,可得到长时功率谱密度函数,其功率谱呈现强烈的非平坦性。从统计观点看,这意味着没有充分利用给定的频段,或者说有着固有的冗余度。(2)语音特有的短时功率谱密度语音信号的短时功率谱,在某些频率上出现峰值,而在另一些频率上出现谷值。这些峰值频率通常称为共振峰频率,此频率不止一个,最主要的是第一和第二个,由它们决定了不同的语音特征。3.人的听觉感知机理(1) 人的听觉具有掩蔽效应(2) 人耳对不同频段的声音敏感度不同(3) 人耳对语音信号的相位变化不敏感4.音频编码的分类(1)基于音频数据的统计特性进行编码,其典型技术是波形编码。如:脉冲编码调制(PCM)、差值量化(DPCM)、自适应量化(APCM)、自适应预测编码(ADPCM)等。(2)基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频保持原音频的特性。如:码本激励线性预测编码(CELP)、多脉冲激励线性预测编码(MPLPC)等。(3)基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。如:MPEG、AC-3等。2.3.2 音频编码标准 当前编码技术发展的一个重要的方向就是综合现有的编码技术,制定全球的统一标准,使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上,对于语音信号压缩编码的审议在CCITT下设的第十五研究组进行,相应的建议为G系列,多由ITU发表。音频编码算法和标准 1. G.711本建议公布于1972年,它给出话音信号的编码的推荐特性。话音的取样率为8kHz,允许的偏差是50p/m。每个采样值采用8为二进制编码,推荐使用A律和律编码。选用不同译码规律的国家之间数据通路传送按A律译码信号,使用律的国家应进行转换,在物理介质上连续传输时,符号位在前,最低有效位在后。2. G.721这个建议用于64kb/s的A律和律PCM与32kb/s的ADOCM之间的转换。32kb/s的ADOCM编码和解码框图 3. G.722G.722建议的带宽音频压缩仍采用波形编码技术,因为要保证既能适用于话音,又能用于其他方式的音频,只能考虑波形编码。G.722编码采用了高低两个子带内的ADPCM方案,高低子带的划分以4KHz为界。然后再对每个子带内采用类似G.721建议的ADPCM编码,因此G.722建议的技术方案可以简写为SB-ADPCM(子带-自适应差分脉冲码调制)。4. G.728G.728建议的技术基础是美国AT&T公司贝尔实验室提出的LD-CELP(低延时-码激励线性预测)算法。该算法考虑了听觉特性,其特点是:1)以块为单位的后向自适应高阶预测;2)后向自适应型增益量化;3)以适应为单位的激励信号量化。CELP编码和解码框图 5. MEPG中的音频编码(1)编码器 编码器处理数字音频信号,并生成存储所需的数据流。编码器没有标准的算法,可以使用多种算法,只要编码器输出的数据能使符合本标准的解码器解出适用的音频流。有四种不同的编码模式:单声道模式、双声道模式、立体声模式和联合立体声模式。音频编码器基本结构框图 (2)编码层次 根据应用需求,可以使用不同层次的编码系统,编码器的复杂性和性能也随之提高。1)层包括将数字音频变成32个子带的基本映射模式,将数据格式化成块的固定分段,决定自适应位分配的心理学模型,利用块扩压和格式化的量化器,理论上编码/解码的最少延迟约为19ms。2)层提供了位分配,缩放因子和抽样因子的附加编码,使用不同的帧格式,理论上最小编码/解码延时约为35ms。3)层采用混合带通滤波器提高分辨率,它增加了差值量化、自适应分段和量化值的熵编码,理论最小编码/解码延时约为59ms。联合立体声编码作为一个附加特性,能够加入到任何一层中。(3)存储 已编码的视频数据、音频数据、同步数据、系统数据和辅助数据均可一并存入同一存储介质。(4)解码 解码器按编码器定义的语法接收压缩的音频数据流,按解码部分的方法解出数据元素,按滤波器的规定,用这些信息产生数字音频输出。音频解码器结构框图 6. AC-3编码和解码AC-3音频编码标准的起源是DOLBY AC-1。AC-1应用的编码技术是自适应增量调制(ADM),它把20kHz的宽带立体声音频信号编码成512kbps的数据流。AC-1曾在卫星电视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2,它采用类似MDCT的重叠窗口的快速傅立叶变换(FFT)编码技术,其数据率在256kbps以下。AC-2被应用在PC声卡和综合业务数字网等方面。(1)AC-3的编码AC-3编码器接收标准的PCM码流,通过滤波器组变换到频域,然后进行频谱包络分析,根据分析的结果确定相应频率抽样量化所用的存储空间,最后依据AC-3语法格式形成码流。AC-3编码器框图 (2)AC-3比特流及语法格式1)AC-3比特流由连续的同步帧组成,同步帧首先用来保持同步信息,接着是比特流信息头,之后是六个音频数据块,再后是附加数据和用于循环冗余校验的字。AC-3比特流同步帧结构图 2)同步信息 由同步字(syncword)、检验码(crcl)、采样频率(fscod)和帧长度代码(frmsizecod)四部分组成。3)比特流标识 包括了版本、编码模式、LFE信息、语音平衡、整体压缩等一系列与解码有关的信息。4)音频数据块 包含了音频数据以及与之相关的解码控制信息。5)附加数据 保留了用户自己定义的一些信息。6)错误校验 包含了一个错误校验字(crc2),它覆盖整个帧的数据。(3)AC-3解码AC-3的解码与编码是不对称的逆过程。它将分析流码的正确性,然后根据头部信息接出每一声道的指数,继而分析它,并得出相应尾数所占的比特数,解出尾数,与指数一起合成频域参数。在通过IMDCT和IFFT变化,形成标准的PCM码流。AC-3解码器框图 2.4音乐合成和MIDI规范2.4.1 音乐合成自1976年应用调频(FM)音乐合成技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术波形表(Wavetable)合成。 一个乐音,包括必备的三要素:音高、音色和响度。若把一个乐音放在运动的旋律中,它还应具备时值持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。音高:音高指声波的基频。基频越低,给人的感觉越低沉。对于平均律(一种普遍使用的音律)来说,各音的对应频率如图所示。知道了音高与频率的关系,我们就能够设法产生规定音高的单音了。音色:具有固定音高和相同谐波的乐音,有时给人的感觉仍有很大差异。比如人们能够分辨具有相同音高的钢琴和小提琴声音,这正是因为他们的音色不同。音色是由声音的频谱决定的:各阶谐波的比例不同,随时间衰减的程度不同,音色就不同。“小号”的声音之所以具有极强的穿透力和明亮感,只因“小号”声音中高次谐波非常丰富。各种乐器的音色是由其自身结构特点决定的。用计算机模拟具有强烈真实感的旋律,音色的变化是非常重要的。响度和时值:响度是对声音强度的衡量,它是听判乐音的基础。人耳对于声音细节的分辨与响度直接有关:只有在响度适中时,人耳辨音才最灵敏。如果音响度太低,便难以正确差别它的音高和音色;而音响度过高,会影响差别的准确性。时值具有明显的相对性,一个音只有在包含了比它更短的音的旋律中才会显得长。时值的变化导致旋律的进行,或平缓、均匀;或跳跃、颠簸,以表达不同的情感。FM音乐合成音乐合成器的先驱Robert Moog采用了模拟电子器件生成了复杂的乐音。20世纪80年代初,美国斯坦福大学(Stanford University)的一名叫John Chowning的研究生发明了一种产生乐音的新方法,这种方法称为数字式频率调制合成法(digital frequency modulation synthesis),简称为FM合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器(digital to analog convertor,DAC)来生成乐音。斯坦福大学得到了发明专利,并且把专利权授给Yamaha公司,该公司把这种技术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。FM合成器生成乐音的基本原理如下图2.41-1所示。它由5个基本模块组成:数字载波器、调制器、声音包络发生器、数字运算器和数模转换器。数字载波器用了3个参数:音调(pitch)、音量(volume)和各种波形(wave);调制器用了6个参数:频率(frequency)、调制深度(depth)、波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect);乐器声音除了有它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音的电平,这个过程也称为幅度调制(amplitude modulation),并且作为数字式音量控制旋钮,它的4个参数写成ADSR,这条包络线也称为音量升降维持静音包络线(Attack,decay,sustain,release,ADSR)。图2.41-1 FM声音合成器的工作原理 在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FM合成器所选用的波形也不同。下图是Yamaha OPL-III数字式FM合成器采用的波形。声音合成器的波形 各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就是FM合成器的算法。通过改变图2.41-1中所示的参数,可以生成不同的乐音,例如:(1)改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量。(2)改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。(3)快速改变调制波形的频率(即音调周期)可以改变颤音的特性。(4)改变反馈量,就会改变正常的音调,产生刺耳的声音。(5)选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同。在多媒体计算机中,图2.41-1中的13个声音参数和算法共14个控制参数以字节的形式存储在声音卡的ROM中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成ROM的地址,从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实,它的真实程度有多高,这就取决于可用的波形源的数目、算法和波形的类型。2.4.2 MIDI规范MIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。MIDI标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波形;容易编辑,因为编辑命令比编辑声音波形要容易得多;可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果。产生MIDI乐音的方法很多,现在用得较多的方法有两种:一种是(frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。在介绍MIDI之前先简单介绍FM合成法,然后介绍乐音样本合成法,再介绍MIDI系统。1. MIDI系统MIDI协议提供了一种标准的和有效的方法,用来把演奏信息转换成电子数据。MIDI信息是以“MIDI messages”传输的,它可以被认为是告诉音乐合成器(music synthesizer)如何演奏一小段音乐的一种指令,而合成器把接收到的MIDI数据转换成声音。国际MIDI协会(International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整的说明。MIDI数据流是单向异步的数据位流(bit stream),其速率为31.25 kbps,每个字节为10位(1位开始位,8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器,用IN(输入), OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器(MIDI controller)产生,如乐器键盘(musical instrument keyboard),或者由MIDI音序器(MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的MIDI数据流,MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。通常,MIDI数据流的接收设备是MIDI声音发生器(MIDI sound generator)或者MIDI声音模块(MIDI sound module),它们在MIDI IN端口接收MIDI信息(MIDI messages),然后播放声音。图2.42-1表示的是一个简单的MIDI系统,它由一个MIDI键盘控制器和一个MIDI声音模块组成。许多MIDI键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能(local control)对链接打开(ON)或者关闭(OFF)。图2.42-1简单的MIDI系统 单个物理MIDI通道(MIDI channel)分成16个逻辑通道,每个逻辑通道可指定一种乐器,如图2.42-2所示。在MIDI信息(MIDI messages)中,用4个二进制位来表示这16个逻辑通道。音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收。图2.42-2 MIDI的通道概念 在一个MIDI设备上的MIDI IN连接器接收到的信息可通过MIDI THRU连接器输出到另一个MIDI设备,并可以菊花链的方式连接多个MIDI设备,这样就组成了一个复杂的MIDI系统,如图2-12所示。在这个例子中,MIDI键盘控制器对MIDI音序器(MIDI sequencer)来说是一个输入设备,而音序器的MIDI OUT端口连接了几个声音模块。作曲家可使用这样的系统来创作几种不同乐音组成的曲子,每次在键盘上演奏单独的曲子。这些单独曲子由音序器记录下来,然后音序器通过几个声音模块一起播放。每一曲子在不同的MIDI通道上播放,而声音模块可分别设置成接收不同的曲子。例如,声音模块1可设置成播放钢琴声并在通道1接收信息,模块2设置成播放低音并在通道5接收信息,而模块2设置成播放鼓乐器并在通道10上接收消息等。在图2.42-3中使用了多个声音模块同时分别播放不同的声音信息。这些模块也可以做在一起构成一个叫做多音色(multitimbral)的声音模块,它同样可以起到同时接收和播放多种声音的作用。图2.42-3复杂MIDI系统 图2.42-4是用PC机构造的MIDI系统,该系统使用的声音模块就是这样一种单独的多音色声音模块。在这个系统中,PC机使用内置的MIDI接口卡,用来把MIDI数据发送到外部的多音色MIDI合成器模块。像多媒体演示程序、教育软件或者游戏等应用软件,它们把信息通过PC总线发送到MIDI接口卡。MIDI接口卡把信息转换成MIDI消息(MIDI messages),然后送到多音色声音模块同时播放出许多不同的乐音,例如钢琴声、低音和鼓声。使用安装在PC机上的高级的MIDI音序器软件,用户可把MIDI键盘控制器(MIDI keyboard controller)连接到MIDI接口卡的MIDI IN端口,也可以有相同的音乐创作功能。图2.42-4使用PC机构成的MIDI系统 使用PC机构造MIDI系统可以有不同的方案。例如,可把MIDI接口和MIDI声音模块组合在PC添加卡上。多媒体个人计算机MPC(Multimedia PC)规范就要求PC添加卡上必须有这样的声音模块,称为合成器(synthesizer)。通过已有的电子波形来产生声音的合成器称为FM合成器(FM synthesis),而通过存储的乐音样本来产生声音的合成器称为波表合成器(wave table synthesis)。MPC(Multimedia PC)规格需要声音卡的合成器是多音色(muti-timbral)和多音调(polyphonic)的合成器。多音色是指合成器能够同时播放几种不同乐器的声音,在英文文献里常看到用voices和patches来表示,音色就是把一个人说话(或一种乐器)的声音与另一个人说话(或另一种乐器)的声音区分开来的音品;多音调是指合成器一次能够播放的音符(note)数。MPC规格定义了两种音乐合成器:基本合成器(Base-level synthesizer)和扩展合成器(Extended synthesizer),基本合成器和扩展合成器之间的差别如下表所示。基本合成器和扩展合成器之间的差别 合成器名称(synthesizer)旋律乐器声(melodic instruments)打击乐器声(percussive instruments)音色数(timbres)音调数(polyphony)音色数(timbres)音调数(polyphony)基本合成器3种音色6个音符3种音色3个音符扩展合成器9种音色16个音符8种音色16个音符基本合成器必须具有同时播放3种旋律音色和3种打击音色(鼓乐)的能力,而且还必须具有同时播放6个旋律音符和3个打击音符的能力,因此,基本合成器具有9种音调;扩展合成器要能够同时播放9种旋律音色和8种打击音色。2. MIDI消息MIDI设备使用的一系列MIDI音符,可被认为是告诉音乐合成器如何播放一小段音乐的指令。因为MIDI数据是一套音乐符号的定义,而不是实际的音乐声音,因此MIDI文件的内容被称为MIDI消息(MIDI messages)。一个MIDI消息由1个8位的状态字节并通常跟着2个数据字节组成。在状态字节中,最高有效位设置成“1”,低4位用来表示这个MIDI消息是属于哪个通道,4位可表示16个可能的通道,其余3位的设置表示这个MIDI消息是什么类型的消息。MIDI消息可分成通道消息(Channel Messages)和系统消息(System Messages)两大类,如下图2.42-5所示。MIDI通道消息可分成通道声源消息(Voice Messages)携带的演奏数据,和通道方式消息(Mode Messages)表示合成器响应MIDI数据的方式;MIDI系统消息分成公共消息(Common Messages)标识在系统中的所有接收器、实时消息(Real Time Messages)用于MIDI部件之间的同步和独占消息(Exclusive Messages)厂商的标识代码。图2.42-5 MIDI信息 3. MIDI音序器和标准MIDI文件MIDI合成器实时接收和处理MIDI消息(MIDI messages)。当合成器接收到一个“note on (乐音开)”MIDI消息时就演奏相应的声音,当接收到一个“note off (乐音关)”MIDI消息时就停止演奏。如果MIDI数据源是乐器键盘,“note on”消息就实时产生,在像这样的实时应用中,就无需与MIDI消息一起发送一个定时信息。如果MIDI数据存储成数据文件,或者使用音序器编辑的数据文件,MIDI消息就需要某种形式的定时标记(time-stamping)。国际MIDI协会(International MIDI Association)出版了标准MIDI文件(Standard MIDI Files)规范,该标准说明了处理定时标记MIDI数据的一种标准化方法。这种方法适合各种应用软件共享MIDI数据文件,这些软件包括音序器、乐谱软件包和多媒体演示软件。标准MIDI文件(Standard MIDI File)规范定义了3种MIDI文件格式,MIDI音序器能够管理文件标准规定的多个MIDI数据流,即声轨(tracks)。MIDI文件格式0(Format 0)规定所有MIDI音序数据(MIDI sequence data)必须存储在单个声轨上,它仅用于简单的单声轨设备;MIDI文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教育产业行业在线教育与教学模式改革研究报告
- 2025年航空航天产业航空无人机技术应用与未来市场走势研究报告
- 2025年创新药物研发趋势与市场机会研究报告
- 2025年化工行业绿色化工技术研究报告
- 2025云南昭通彝良县公安局警务辅助人员招聘2人笔试备考试题及答案解析
- 2025东莞市公安局石排分局警务辅助人员招聘22人(第3批)笔试备考试题及答案解析
- 2025国家统计局张家港调查队招聘公益性岗位(编外)人员1人(江苏)笔试备考题库及答案解析
- 江西赣州银座村镇银行诚聘英才笔试模拟试题及答案解析
- 2025广西玉林市福绵区就业服务中心招聘见习生1人笔试模拟试题及答案解析
- 2025河南南阳唐河县国有企业招聘工作人员(第8号)笔试备考题库及答案解析
- 沿海养殖区生态环境修复-洞察分析
- 北师大版九年级上册数学第一次月考试卷附答案
- 中央空调系统维保服务报价清单
- 新人教版《海水的性质》课件
- 【新课标】高中生物新课程标准考试题三套
- 2025小学道德与法治开学第一课(思想政治理论教育课)
- 公关经理培训课程
- 异博定治疗方案
- 申请法院司法赔偿申请书
- 锻造操作机安全检查表模版
- 400字作文稿纸可修改模板
评论
0/150
提交评论