第2章 数字音频处理_第1页
第2章 数字音频处理_第2页
第2章 数字音频处理_第3页
第2章 数字音频处理_第4页
第2章 数字音频处理_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章数字音频处理,本章重点:模拟音频与数字音频的概念数字音频的获取音频信号压缩编码音乐合成和语音识别,2.1概述,声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,10%是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。,2.1概述,幅值,t,一个周期,+,空气压强,图2.1空气压强振荡的波形示意图,0,人耳能识别的声音频率范围大约在2020kHz,通常称为音频

2、(audio)信号。,音频信号所携带的信息大体上可分为语音、音乐和音效三类。语音,指具有语言内涵和人类约定俗成的特殊媒体。音乐,指规范的符号化了的声音。音效,指人类熟悉的其他声音。在多媒体系统中,处理的信号主要是音频信号。,2.1.1声音的基本特征,声音是振动波,具有振幅、周期和频率。,振幅(Amplitude)描述声波的高低幅度,即声音信号的强弱程度,声音的基本特征,次声主要来自大自然,如地震、火山、台风、海啸、大气湍流等自然现象;超声既可以来自大自然的风声、水浪,又可以来自一些动物的发声器官,还可以来自各种人造超声源;,次声波长最小也大于17米,可以走曲线,绕过高山;超声波长最大也不过17

3、毫米;波长很短,可以走直线;,穿透障碍,声音的基本特征,次声可以引起人体内脏器官的共振,造成眩晕,甚至内脏出血,使人丧命;超声可以为病人透视、按摩、治疗疾病,使人健康;还可以清洗、除尘,乳化、粉碎,割焊、钻孔、消毒、杀菌,促进化学反应,影响生物生存。,从听觉角度看,声音具有音调、音色和响度(音强)三个要素。,(1)音调:在物理学中,把声音的高低叫作音调。,注音调与声音的频率有关,声源振动的频率越高,声音的音调就越高;声源振动的频率越低,声音的音调就越低。通常把音调高的声音叫高音,音调低的声音叫低音。,音调高,音调低,播放,播放,播放,2.1.2音频参数与声音特性,(2)音色:表示人耳对声音音质

4、的感觉,又称音品,与频率有关。,注一定频率的纯音不存在音色问题,音色是复音主观属性的反映。声音的音色主要由其谐音的多寡、各谐音的特性所决定。各种乐器奏同样的曲子,即使响度和音调相同,听起来还是不一样,就是由于它们的音色不同。,2.1.2音频参数与声音特性,(3)响度(音强):即声音的响亮程度,也就是我们通常说的声音的强弱或大、小,重、轻。,注响度与振幅有关,取决于声波信号的强弱程度。由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数后再乘20所得值来描述响度,以分贝(dB)为单位,此时称为音量。,播放,2.1.2音频参数与声音特性,声音的三要素,声音波形的基频所产生的听

5、的最清楚的音称为基音,各次谐波的微小振动产生的声音称为泛音。,所谓纯音或单音,是指单一频率、或振幅和频率不变的声音信号,单音一般只能由专用电子设备产生;,在日常生活中,我们听到的自然界的声音一般都属于复音,其声音信号由不同的振幅与频率合成而得到。,音质与频率范围成正比,频率范围越宽音质越好,基频与音调:基音的频率即为基频,决定整个音的音高。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率所决定的。,与声音相关的基本概念,音乐中音阶的划分是在频率的对数坐标(20log)上取等分而得的。如表所示,20log261=48.3,20log293=49.3等。,与声音相关的基本概念,

6、谐波与音色:其频率为基波的倍数的辅波或分量。no称为基波o的n次谐波分量(n就是高次谐波的方次,no就是基波o的n次谐波),也称为泛音。声音的泛音适中,谐波较丰富,听起来音色就优美动听。幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:动态范围20log(信号的最大强度/信号的最小强度)(dB),与声音相关的基本概念,音宽与频带:频带宽度,也称为带宽,它是描述组成复合信号的频率范围。客观上,通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。动态范围

7、越大,信号强度的相对变化范围越大,音响效果越好。,与声音相关的基本概念,CD-DA数字音乐、FM广播、AM广播和电话的带宽,与声音相关的基本概念,声音的质量可以通过信噪比来度量。信噪比(SNR,SignaltoNoiseRatio)是有用信号与噪声之比的简称,定义为:信噪比越大,声音质量越好。,与声音相关的基本概念,音频的分类,按用途分类,语音是人类发音器官发出的具有区别意义功能的声音。,语音的物理基础主要有音高、音强、音长、音色,音乐是指有旋律的乐曲,一般采用MID文件。,音效是指有特殊效果的声音,例如,汽车声、鼓掌声、打碎碗、玻璃声音等。,音频的分类,数字化声波。即将麦克风插在计算机的声卡

8、上,利用录音软件,将语音、音乐等波形信息经模/数转换,得到数字化形式进行存储、编辑,需要时再经过数/模转换还原成原来的波形。,MIDI合成。利用连接电脑的MIDI(乐器数字化接口),弹奏出曲子,或合成音效录入计算机,再用声音软件编辑。,来源于声音素材库。将录音带或CD唱盘等声音素材库中的曲子,用放音设备通过转接线转录到计算机,再用声音软件加以编辑,存成多媒体著作软件可以读取的文件格式。,按来源分类,音频的分类,按格式分类,音频的分类,频带关系,女性语音,150Hz10,000Hz,电话语音,200Hz3,400Hz,调幅广播(AM),50Hz7,000Hz,调频广播(FM),20Hz15,00

9、0Hz,高级音响,10Hz40,000Hz,男性语音,100Hz9,000Hz,声源种类,频带宽度,数字音频的获取,音频信息处理结构框图,1、采样,图2.5模拟信号的采样,所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。,2.2声音的数字化,声音采样,声音采样,1101110011001101,把声音(模拟量)按照固定时间间隔,转换成有限个数字表示的离散序列,每隔一定时间间隔不停地间断性地在模拟音频的波形上采取一个幅度值,这一过程我们称之为采样;为了把采样得到的离散序列信号存入计算机,

10、必须将其转换为二进制数字表示,我们称这一过程为量化编码。,模拟,数字,采样时间间隔称为采样周期t,其倒数为采样频率fs=1/t。一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。根据奈奎斯特定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。,声音采样,采样频率是指计算机每秒钟对声波幅度值样本采样的次数,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准,计量单位为Hz(赫兹);采样通常采用三种频率:11.025KHz、22.05KHz、44.1KHz。,语音效果

11、,称为电话音质,音乐效果,称为广播音质,高保真效果,CD唱盘,模拟,数字,声音量化,采样得到的样本需要量化,所谓的量化位数也称“量化精度”,是描述每个采样点样本值的二进制位数。,量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以8bit或16bit的方式来划分纵轴为例,其纵轴将会被划分为28个和216个量化等级,用以记录其幅度大小。,模拟,数字,2、量化,均匀量化,非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。量化会引入失真,并且量化失真是

12、一种不可逆失真,这就是通常所说的量化噪声。,模拟信号经过采样和量化以后,形成一系列的离散信号。这种数字信号可以以一定的方式进行编码,形成计算机内部运行的数据。经过编码后的声音信号就是数字音频信号。,数字音频的技术指标,衡量数字音频的主要指标包括:采样频率量化位数通道(声道)个数数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算:数据传输率=采样频率量化位数声道数,例:假定语音信号的带宽是50Hz10kHz,而音乐信号的是15Hz20kHz。采用奈奎斯特频率,并用12bit表示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率以及存储一段10分钟

13、的立体声音乐所需要的存储器容量。解:语音信号:取样频率210kHz20kHz;比特率=20k12240kbit/s音乐信号:取样频率220kHz40kHz;比特率40kl6kbit/s21280kbits(立体声)所需存储空间1280k600896MB,音频的数字化,(1)声音适配器(声卡)8bit、16bit、128bit¥80.003800.00(2)声卡驱动软件以及各种声音处理软件,声音重放,数字,模拟,声音重放,11011100,把数字化声音转换成模拟量,经过音响单元重放出来,设备和软件,音频的数字化,数字,模拟,采样频率Hz,数据长度bit,数据量分钟,11,025,8,0.66MB

14、,22,050,8,1.32MB,44,100,8,2.64MB,11,025,16,1.32MB,22,050,16,2.64MB,44,100,16,5.29MB,音质评价,低,一般,良好,中,良好,优秀,音质与数据量,重放频率采样频率2,重放频率(模拟量)与采样频率(数字量)的关系:,例采样频率为44,100Hz的数字音频信号还原成声音后,为22,050Hz,附:音乐合成,使用电子元器件(或计算机)生成音乐的技术称为电子音乐合成,模拟式电子合成器是通过对震荡器的控制来实现音乐合成的,主要有减法合成和加法合成两种。,数字式合成器不是由电子元器件制成的信号发生器来产生声音中的各种频率成分,而

15、是直接通过数字的方法来造出波形,然后转换为声音信息。其实数字式合成器就是一台特殊的计算机,也是软硬件的综合体。,数字合成法主要有FM(FrequencyModulation)频率调制合成和乐音样本合成两种。,音乐合成,用数字信号来表示不同乐音的波形,然后把它们组合起来,再通过数模转换器(DAC)生成乐音播放。,FM频率调制合成,特点:结构简单,成本低,模仿能力很差,用FM合成法产生各种逼真的乐音很困难,有些乐音几乎不能产生,目前只有低档次的声卡采用FM合成法。中高档的声音卡一般采用乐音样本合成法,即波表(WaveTable)合成法。,音乐合成,波表合成采用一种称之为“波表查找”技术来产生MID

16、I音乐,其实它是将各种真实乐器(如大提琴、小提琴、钢琴、鼓等)所能发出的所有声音(包括各个音域、声调)录制下来,存贮为一个波表文件。,波表合成,播放时,根据MIDI文件记录的乐曲信息向波表发出指令,从波表库逐一找出对应的声音信息,经过合成、加工后回放出来。,MIDI,MIDI是MusicalInstrumentDigitalInterface的缩写,意为“乐器数字化接口”,是计算机和MIDI设备之间进行信息交换的一整套规则,包括各种电子乐器之间传送数据的通信协议,在演奏与MIDI相连接的乐器时,键盘的按键、用力大小、时间长短等信息被传送到MIDI设备中,形成与乐器键盘相对应的数字键盘信息。当需

17、要播放时,只需从相应的MIDI文件中读出MIDI消息,生成所需要的声音波形,经放大后由扬声器输出。,MIDI音乐的产生过程如图:,图2.12MIDI音乐的产生过程示意图,MIDI指令,MIDI乐器,MIDI接口,合成器,扬声器,音序器,MIDI文件,音频卡,PC机,音乐合成,MIDI,MIDI键盘是用于MIDI乐曲演奏的,MIDI键盘本身并不发出声音,当作曲人员触动键盘上的按键时,就发出按键信息(包括按键力度、时长等),这些按键信息组成了MIDI音乐消息,通过MIDI接口后,传给音序器,从而录制生成MIDI文件。,MIDI键盘,MIDI,根据标准,MIDI乐器之间的连接依靠三种连接器,分别称为

18、MIDIIn、MIDIOut、MIDIThru。,MIDI接口,利用这三个连接器,可与外部的乐器,如电子琴等乐器相连接,输入接口,负责接收其他MIDI设备发出的信息,输出端口,负责把乐器的MIDI信息传送出去。,扩展端口,通过该端口,把乐器从输入端口得到的信息直接传递到其他MIDI乐器的输入端上,起到乐器串联的作用。,MIDI,音序器由计算机程序或电子设备组成,主要用于MIDI作曲,可记录、编辑和播放MIDI的声音文件。音序器可捕捉MIDI消息,将其存入MIDI文件,MIDI文件扩展名为.MID。,音序器,MIDI,MIDI文件的播放是通过MIDI合成器完成的,合成器解释MIDI文件中的指令符

19、号,生成所需要的声音波形,经放大后由扬声器输出,声音的效果比较丰富。,合成器,数字化声音的压缩1.声音信号压缩编码的依据声音信号可以压缩编码的主要原因如下:(1)声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的。(2)音频信息的最终接收者是人,而人耳在听觉方面有一个重要的特点,即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该特性,可以抑制与信号同时存在的量化噪声。(3)对声音波形采样后,相邻样值之间存在着很强的相关性。,数字化声音的压缩2.无损压缩和有损压缩(1)无损压缩:压缩后的信息没有损失的压缩方法。该方法可以把数据压缩到原来的1/2或者

20、1/4,即压缩比为2:1或者4:1。其基本方法就是将相同的或者类似的数据进行归类,使用较少的数据量来描述原始数据,达到减少数据量的目的。(2)有损压缩:压缩后信息有损失的压缩。这种压缩方法在压缩的过程中丢掉一些对原始数据不会产生误解的信息,有针对地化简一些不重要的信息,从而达到数据压缩的目的,大大提高了压缩比。,数字化声音的压缩3.音频信号的三种编码方式(1)波形编码。波形编码的编码信息是声音的波形。这种方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值,使复原的声音质量较高。(2)参数编码。参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音频率(基频)或基音周期、共

21、振峰、语音谱、音强等,如能得到这些语音的基本参数,就可以不对语音的波形进行编码,而只要记录和传输这些参数就能实现声音数据的压缩。(3)混合编码。混合编码方法是一种在保留参数编码技术的基础上,引用波形编码准则去优化激励源信号的方案。,数字化声音的压缩3.音频信号的典型压缩编码标准(1)G.711标准。该标准由国际电信联盟(ITU)制定于1972年。(2)G.721标准。该标准由国际电信联盟(ITU)制定于1984年。(3)G.728标准。该标准是一个追求低比特率的标准,其数据率为16kbit/s,其质量与32kbit/s的G.721标准基本相当。(4)MPEG音频标准。这是ISO(国际标准化组织

22、)制定的一系列音频标准,MPEG是运动图像专家组的简称。MPEG音频标准根据不同声音压缩算法有三个层次:层一,即MPEG-1;层二,又称MP2;层三,又称MP3。,2.3常见声音文件的格式,2.3.1WAV格式WAV格式是微软公司开发的一种声音文件格式,也称作波形声音文件。目前所有的音频播放软件和编辑软件都支持这一格式。但WAV格式对存储空间需求太大,不便于交流和传播。2.3.2MP3音乐MP3的全称是MPEGAudioLayer3,所以人们把它简称为MP3,它是MPEG-1运动图像压缩标准的声音部分。编码器的输出数据率为32320kbps,压缩率则高达10:112:1。,2.3常见声音文件的

23、格式,2.3.3VQF格式VQF即TwinVQ,是由NipponTelegraphandTelephone同YAMAHA公司开发的一种音频压缩技术。它的音频压缩率比MP3高,可以达到1:18左右,而且音质和MP3不相上下。2.3.4RealAudio格式RealAudio(RA)、RAM和RM都是RealNetworks公司开发的典型音频流文件格式。它包含了RealNetworks公司所制定的音频、视频压缩规范,主要用于在低速率的因特网上实时传输音频信息。,2.3常见声音文件的格式,2.3.5WMA格式WMA的全称是WindowsMediaAudio,是微软公司力推的一种音频格式。WMA文件在

24、80Kps、44kHz的模式下压缩比可达1:18,基本上和VQF相同。2.3.6AAC格式AAC实际是AdvancedAudioCoding(高级音频编码)的缩写,是MPEG-2规范的音频部分。2.3.7MIDI音乐MIDI(MusicInstrumentDigitalInterface)音乐是电子合成音乐,是为了把电子乐器和计算机连接起来而制定的规范,是数字化音乐的一种国际标准。,音频处理软件,GoldwaveAudioEditorSoundForgeCoolEditCakewalk,Goldwave是一个集声音编辑,播放,录制,和转换的音频工具。GoldWave软件的主要功能有声音剪辑、录

25、制、编辑、特效处理和文件格式转换等。除了提供丰富的音频效果制作命令外,GoldWave还准备了CD抓音轨、批量格式转换及多种媒体格式支持等非常实用的功能。其显著特点是:直观、可定制的用户界面,使操作更简便。,AudioEditor是一个专业的音频编辑、处理软件。它包含强大的声音处理能力,具有各种回音、速度及音调调整功能,还拥有各种专业的声音编辑能力,例如消除杂音、查找/删除静音,以及各种淡入/淡出效果等。AudioEditor利用直接的单一界面在电脑桌面上进行操作,它的使用方法比较简单,只需用鼠标单击几下就可以编辑音乐文件。,SoundForge是SonicFoundry公司开发的一款功能极其

26、强大的专业化数字音频处理软件。它能够非常方便、直观地实现对音频文件(wav文件)以及视频文件(avi文件)中的声音部分进行各种处理,满足从最普通用户到最专业的录音师的所有用户的各种要求,所以一直是多媒体开发人员首选的音频处理软件之一。SoundForge包括全套的音频处理,工具和效果制作等功能。,Cooleditpro是美国SyntrilliumSoftwareCorporation公司开发的一款功能强大、效果出色的多轨录音和音频处理软件。它可以在普通声卡上同时处理多达64轨的音频信号,具有极其丰富的音频处理效果,并能进行实时预览和多轨音频的混缩合成,是个人音乐工作室的音频处理首选软件。,Ca

27、kewalk是一个用于制作音乐的软件。使用该软件,可以制作单声部或多声部音乐,可以在制作的音乐中使用多种音色。该软件可用于制作MIDI格式的音乐。用户可以方便的制作出规范的MIDI文件。,2.4.1GoldWave软件界面介绍,2.4.2录制声音,用麦克风录制声音的操作方法:将麦克风与计算机声卡的麦克风接口相连;运行GoldWave软件,选取“文件新建”菜单,可以新建一个新文件,这时会弹出“新建音频”对话框。设置参数。按下“控制器”窗口中的“录音”按钮,就开始录制声音了;要结束录制,只要按下“控制器”窗口中的“停止录音”按钮即可。录音结束后,按“控制器”窗口中的“播放”按钮,播放录音,如果效果

28、满意,则选择“文件保存/另存为”菜单,保存文件。,2.4.3编辑声音,用“打开音频”对话框,打开音频文件。多个音频子窗口中只有一个为当前窗口。白色进度线显示播放位置。设备控制窗口,“快进”,“快退”修改进度线位置。1.时间标尺和显示缩放改变显示比例的方法很简单,用“视图”菜单下的“放大”、“缩小”命令就可以完成;更方便的是用快捷键“Shift+”放大和用“Shift+”缩小。用“视图”菜单下的“垂直放大”、“垂直缩小”命令或使用“Ctrl+”、“Ctrl+”快捷键就可以改变纵向的显示比例。,2.4.3编辑声音,2.选择声音片段鼠标右键弹出的快捷菜单中选择“设置起始标记”将该位置设置为选定区域的

29、起始点;选择“设置完结标记”则可以将该位置设置为选定区域的终点。注意:编辑器中,编辑区域只能有一个,当定义新的编辑区域后,原有的编辑区域将自动消失。3.删除声音片段选择“编辑删除”菜单选项或“删除”按钮。,2.4.3编辑声音,4.静音处理选择“静音”按钮或者选择“编辑静音”菜单选项,该区域变成静音区段。注意:与删除声音片段不同的是,变成静音的编辑区域仍然存在,其时间长度不变。5.插入空白区域选择“编辑”菜单下的“插入静音”命令,在弹出的对话窗中输入插入的时间长度。注意:“插入静音”与“静音”是有区别的。,2.4.3编辑声音,6.剪切/复制片段选定一段音频,然后单击“剪切”按钮或者选择“编辑剪切

30、”菜单选项;或“编辑复制”菜单选项。注意:对原始音频来讲,“剪切”效果等同于“删除”,但不同于“静音”。7.移动声音片段先按照完成片段剪切的操作;然后单击文件波形图的某一位置(确认插入的位置);再单击“粘贴”按钮或者选择“编辑粘贴”菜单选项。,2.4.3编辑声音,8.声道的操作1)声道选择“编辑”菜单的“声道”命令,在子命令中直接选择将要进行处理的声道。2)声道的编辑需要指出的是:在对某个声道进行删除片段、剪切片段等改变时间长度的操作时,该声道与另一个声道在时间长度上产生差异,导致声音不同步,应尽量避免这种情况发生。,2.4.3编辑声音,9.特效编辑功能1)淡入淡出效果所谓“淡入”和“淡出”是指声音的渐强和渐弱。首先要选定实施“淡入”或“淡出”效果的编辑区域,一般情况下,实施淡入淡出效果的区域总是位于声音素材的开始和末尾两端。单击“淡入”按钮,或单击“淡出”按钮。2)频率均衡控制确定要调整频率的音频区域,然后单击“均衡器”按钮。在“均衡器”对话框中调整。,2.4.3编辑声音,9.特效编辑功能3)回声效果选择“效果”菜单下的“回声”命令,弹出“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论