windows声音应用程序开发指南 张新宇 第0章 电脑声音基.ppt_第1页
windows声音应用程序开发指南 张新宇 第0章 电脑声音基.ppt_第2页
windows声音应用程序开发指南 张新宇 第0章 电脑声音基.ppt_第3页
windows声音应用程序开发指南 张新宇 第0章 电脑声音基.ppt_第4页
windows声音应用程序开发指南 张新宇 第0章 电脑声音基.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Windows声音应用程序开发指南,张新宇 编著,西安电子科技大学出版社,http:,第0章 电脑声音基础,第1章 DirectX Audio之DirectSound,第2章 WAV文件格式,第3章 ASF文件格式,第4章 MP3文件格式,目 录,返 回,第0章 电脑声音基础,0.1 声音是一种波1,2,3 0.2 电脑如何发声4,5,6,7,8,9 0.3 音频基本知识1, 5,6,7,8,9,10,11,12,13,14,15,16,17 0.4 本 章 小 结,0.1 声音是一种波1,2,3,声音是什么? 在高中物理课里我们了解到,我们在日常生活中所听见的声音是一种振动的波,波是起伏的,

2、具有周期性和一定的振动幅度(振幅)。声音的传播主要是由空气振动完成的,空气振动造成大气压力的疏密变化,引起人体相应生理器官的振动和感觉,这样就可以听到声音了。,图0-1为声波波形图解。波的周期性表现为周期(T)和频率(f)。周期就是一个完整波形所持续的时间,频率则是在一定时间间隔内(通常为1s)相同波形重复的次数。频率决定着声音音调的高低,频率越高,声音听起来就越尖锐;频率越低,声音听起来就越低沉。比如说,男性的声音都比较低沉,就是因为男性的声带较宽,发出的声音主要集中在低频部分的缘故。图0-2和图0-3分别是1000Hz和100Hz的声音波形图,这两段声音的长度都是0.01s,但图0-2中波

3、形表示的声音音调听起来就比图0-3中的要高。,图0-1 声波波形图解,图0-21000Hz的声音波形图,图0-3 100Hz的声音波形图,在声音波形图中,在相同的时间间隔内,频率高的声音相同波形出现的次数就多;相对而言,频率低的声音相同波形出现的次数就少。 声音的振幅(A)决定了声音的音量,振幅越大,声音越响,反之就越弱。图0-4中的波形与图0-2中的波形类似,也是1000Hz 0.01s,但幅度与图0-2的不同。显然,图0-4中波形表示的声音音量比图0-2中的要小。,图0-4 1000Hz的声音波形图(振幅比图0-2的小),0.2 电脑如何发声4,5,6,7,8,9,众所周知,我们说话发声是

4、靠声带的振动,而电脑是通过声卡产生特定的电信号,从而控制喇叭发出声音的(电源风扇或硬盘、光驱的噪音不在其内)。 声卡是实现声波模拟/数字信号相互转换的硬件电路。声音是模拟信号,计算机处理的是数字信号,把模拟式的声音信号转换成计算机处理的数字信号的过程,通常称为“模/数转换”。声卡的功能就是把来自话筒、磁带、光盘的原始声音信号加以转换和处理,输出到耳机、扬声器、扩音机、录音机等声响设备。当然也可以通过声卡使乐器发出声音。,0.2.1 声卡的结构 声卡是计算机声音系统的核心和基础,也是计算机多媒体系统中极为重要的组成部分,它负责音频信号的前期处理。下面我们先通过声卡的外观,简单了解一下声卡。 图0

5、-5是Creative的一款声卡的实物图,下面对其各个接口和模块进行说明。,图0-5 声卡实物图,1电话自动应答设备接口(TAD,Telephone Answering Device):与Modem卡上的相应端口相连接,配合软件可使电脑具备电话自动应答功能。 2模拟CD音频输入接口(CD_IN):作用是将来自光驱的模拟音频信号接入声卡。模拟音频线在声卡端的接头一般有两种排列方式,应选用与该接口匹配的方式才能确保CD音频的正常接入。 3数字输出接口:用于输出数字音频信号。配合声卡上的AC-3解码功能,就可输出数字音效,令观赏DVD等影片的效果更加逼真。,4线性输入插孔(LINE IN):作用是将

6、来自收音机、随身听或电视机等任何外部音频设备的声音信号输入电脑。可用于录制电视节目伴音,将磁带转成MP3等。 5话筒输入插孔(MIC IN):可连接适合电脑使用的话筒,作为声音输入设备。可用于录音、娱乐及语音识别等。如果要打网络电话,用电脑来唱卡拉OK,也少不了它。 6线性输出插孔(LINE OUT):它负责将声卡处理好的声音信号输出到有源音箱、耳机或其它音频放大设备(如功放)。这是第一个输出孔,用于连接前端音箱。,7第二个线性输出插孔(LINE OUT):用于连接后端音箱。四声道以上的声卡都会有两个线性输出插孔。 8游戏/MIDI插口:用于连接游戏杆、手柄、方向盘等外接游戏控制器,也可连接外

7、部MIDI乐器(如MIDI键盘、电子琴等),配以专用软件可将电脑作为桌面音乐制作系统使用。,9数字CD音频输入接口(CD_SPDIF):作用是接收来自光驱的数字音频信号,最大限度地减少声音失真。光驱的Digital Out接口与声卡上的CD_SPDIF输入端连接,可以得到比模拟CD音频要更纯净的音质。 10辅助音频输入接口(AUX_IN):负责把来自电视卡、DVD解压卡、MPEG编/解码卡等设备的声音信号输入声卡。这样就可使各种设备输出的声音信号都通过声卡送至音箱,避免反复插拔信号线之苦。,11声音处理芯片:是整块声卡的核心部分,相当于声卡的大脑。包括WAVE波形的采样与合成,MIDI音乐的合

8、成以及混音器、效果器的功能都在此芯片内部实现。 12扩展功能插针:通过数据线接出,主要用于扩展卡上的输入输出接口,适合一些比较专业的设备。,0.2.2 声卡的发展历史 1ADLIB音乐卡 ADLIB声卡是由英国的ADLIB AUDIO公司研发的,最早的产品于1984年推出,它的诞生开创了电脑音频技术的先河。由于是早期产品,它在技术和性能上存在着许多不足之处,虽然我们称之为“声卡”,但其功能却仅局限于提供音乐,而没有音效。,2Creative时代的开始 Sound Blaster声卡是Creative在20世纪80年代后期推出的第一代声卡产品,它是创新公司董事长沈望傅先生发明的,在功能上已经比早

9、期的ADLIB卡强出许多。 Sound Blaster声卡在当时引起了一场轰动。有的人认为,这是一个很好的开端,因为PC终于可以“说话”了;但另有一些人却认为,这只是一场闹剧(因为当时的声卡根本不能够发出很真实的声音)。,Sound Blaster声卡最明显的特点在于兼顾了音乐与音效的双重处理能力,所以在声卡发展的历程中,Sound Blaster声卡具有划时代的意义。虽然它仅拥有8位、单声道的采样率(这些概念以及本节中的其它概念可以参照后续章节中的解释),在声音的回放效果上精度较低,但它却使人们第一次在PC上得到了音乐与音效的双重听觉享受。 Sound Blaster 16是“真正”意义上的

10、声卡,同样具有划时代的意义,它能较为完美地合成音频效果,至此人们终于能把烦人的PC喇叭给拆掉了。在此后相当长的时间内,Sound Blaster 16成为了多媒体音频部分的新一代标准。,3Creative的AWE 32 Creative Sound Blaster系列声卡发展到Sound Blaster 16这一款,已经是非常成熟的产品体系了。但是Sound Blaster 16与Sound Blaster、Sound Blaster PRO一样,在MIDI(电子合成器)方面采用的都是FM合成技术,对于乐曲的合成效果比较单调乏味。到了20世纪90年代中期,一种名为“波表合成”的技术开始趋于流行

11、,在试听效果上远远超越了FM合成。,4Creative的Sound Blaster 64 Gold Sound Blaster 64 Gold采用了EMU8000音频芯片,无论是其价格还是性能都让人大吃一惊:原来声卡的价格那么高,而它发出的声音竟如此动听!EMU8000芯片破天荒地支持64位复音数(32个是硬件执行,另外32个由Creative开发的软件生成),镀金的接线端子,120dB的动态范围,96dB的信噪比,相信音质比当时的一些国产CD机还要好,一切都是为了获得最高质量的音响效果而定做的。,5PCI声卡时代 从Creative 的Sound Blaster一直到Sound Blaste

12、r 64 GOLD,声卡始终是采用ISA接口形式的。不过随着技术的进一步发展,ISA接口过小的数据传输能力成为了声卡发展的瓶颈。把接口形式从ISA转移到PCI成为了声卡发展的大势所趋。PCI声卡从理论上具有加大传输通道(ISA为8Mb/s,PCI可达133Mb/s)和提升数据宽带的功能,从而可在声卡上实现三维音效和DLS(可下载音色)技术,使得声卡的性能得到多方面的提升,但总体成本却能大幅度下降,真可谓两全其美。,6声卡的未来 回顾历史,声卡取得的成绩是举世瞩目的;展望未来,其前景也是非常美好的,它可能在如下方面得到发展。 USB音频将可能成为“标准”的音频规范。USB音箱内置了至关重要的数模

13、转换器和有源功放,音频数据以数字方式进入USB音箱,因此完全杜绝了PC的内部干扰。, 高质量的3D音效。新一代具有革命性意义的音效芯片将会诞生,它允许人们自行产生更为复杂的3D音响效果。由于拥有比现在芯片高五到六倍的处理能力,因此,更真实、更复杂的3D音频定位算法将得以在该芯片上完美运行,到时候,人们就能获得以假乱真的360全三维空间音场了。 在声音回放方面,声卡的效果将更趋逼真。,0.2.3 声卡的工作原理 声卡的工作原理是:主机通过总线将数字化的声音信号以PCM的方式送到数模转换器(DAC),将数字信号变成模拟的音频信号。同时又可以通过模数转换器(ADC)将麦克风或CD的输入的模拟信号转换

14、成数字信号,送到计算机进行各种处理。 当然,实际的声卡远比以上的方式复杂,它为更有效地播放和采样声音信号,采用中断和DMA控制,配合驱动程序的控制,才能完成具有实际意义的声卡操作。声卡对声音的处理流程参考图0-6的说明。,当一个音源输入后, 会先经过滤波器做预先的取样、模数转换, 再由数字信号处理 (DSP)芯片,对此音源做各种处理, 其中可能包括由FM(Frequency Modulation)芯片产生合成音效, 或是到波表(Wave Table)取出音源, 还可以通过总线接口芯片(Bus Interface Chip)存取声音文件, 这些经过处理后的数字音源再通过数/模转换输出。 有些声卡

15、含有混音处理芯片(Mixer Chip),可以处理多种音源的输入并提供软件调整音量的功能。有些声卡会在输入/输出部分加入滤波器(Filter)的功能。,图0-6 声音处理基本流程,1模/数转换器(ADC) 输入的模拟声音经过ADC后会被转换成一系列的不连续信号, 这就是“采样”(Sampling)。通常信号波动的范围必须在 A/D 转换器的范围内, 而且取样的位元数不能太低, 这样才能保持较高的精度。 声音的模拟信号波谱图如图0-7所示,其数字化“采样”过程如图0-8所示。,2数模转换器(DAC) DAC是将不连续的数字信号, 转换成连续性的模拟声音。实际上, 声音从原先的模拟信号转换成数字信

16、号后,经过声卡的编辑处理, 再经由数/模转换,才可以从声卡输出。经过这一连串的转换处理过程, 所输出的声音与原始的声音已经有所差别,即一般所说的失真(Distortion)。,图0-7 声音的模拟信号波谱图,图0-8 声音的模拟信号数字化“采样”过程,3数字信号处理器(DSP) DSP(Digital Signal Processor)是一种数字信号处理的芯片, DSP的功能通常包括了取样,频率的控制,对声音的录制与播放控制,处理MIDI指令等等。有些声卡的DSP还有声音数据压缩的功能。另外,如果声卡有混音芯片(Mixer Chip), 就可以通过软件的控制对声音做各种操作,如音量的高低控制,

17、音场调整效果等。,DSP是声卡中最重要的芯片, 所有数位音源信号的处理, 都可以说是DSP的功能范围。至于声卡, 则是将所有功能都制作在同一片芯片里, 或是各种功能独自制作为单独的芯片, 究竟采取哪种方式,就完全看各声卡厂商的设计了。,0.3 音频基本知识1, 5,6,7,8,9,10,11,12,13,14,15,16,17,0.3.1 数字声音的技术指标 描述和影响数字声音质量的主要因素有三个:采样频率、数字化量的位数(简称量化位数)以及声道数。 采样频率决定的是声音的保真度。 量化位数表示的是声音的振幅,决定的是音乐的动态范围。所谓动态范围,是指波形的基线与波形上限间的单位。,1声音采样

18、频率 说到声音采样,就必须谈谈数字声音的记录和模拟声音的记录之间的差异。模拟声音的记录是以模拟量为形态的,比如普通卡式磁带上记录的就是模拟信息,它通过对磁带上磁信号强弱的记录来记录音乐,记录是连续的(见图0-9);而数字声音是由0和1信号(电脑内部只能处理这两种信号)的组合来表达的,记录之间有空隙(见图0-10)。,图0-9 模拟声音波形,图0-10 数字化声音波形,2声音量化位数 声音量化位数就是用来描述波形幅度的细腻程度。简单地说,位数越多,音质越细腻。8位声卡可以把波形划分为256(28)个级别,而16位声卡就可以划分为65 536(216)个级别。现在的声卡一般都采用16位的声卡。专业

19、级别采用24位(224)甚至32位(232)表示。,3声音声道数 声道,就是声卡处理声音通道的数目,开始是单声道,后来发展为立体声、5.1声道、四声道等标准。 单声道和立体声,大家都应该比较熟悉了。单声道缺乏对声音的位置定位,而立体声在录制过程中就使用了两个独立的声道,从而达到了很好的声音定位效果。在音乐欣赏中,通过立体声技术,听众可以清晰地分辨出各种乐器发声的方位,接近于临场感受。现在许多声卡都是立体声的。,随着DVD的流行,5.1声道已广泛运用于各类传统影院和家庭影院中,譬如杜比AC-3(Dolby Digital)、DTS等著名压缩格式,都是以5.1声音系统为技术蓝本的。其实5.1声音系

20、统有六个独立的声道,可以推动四个环绕音箱、一个前置音箱和一个低音炮。 四声道技术是声卡支持四个独立的声道,可以构成四点环绕系统,即前左、前右、后左、后右四个音箱,听众则被包围在这中间,可以有比较不错的身临其境的感受。,0.3.2 音频音质知识 首先要说明,以下有几个技术参数是有关声音输出设备的,介绍这些技术参数对于理解声音的输出部分或许有所裨益。 1音调 音调是指具有一特定且通常是稳定音高的信号,通俗地讲,就是声音听起来调子高低的程度。它主要取决于频率,还与声音强度有关。 2音色 音色是指对声音音质的感觉,也是一种声音区别于另一种声音的特征品质。不同的乐器在发同一音调时,它们的音色可以截然不同

21、。,3频率响应(Frequency Response) 音响系统能够重放的频率范围,以及在此范围内信号的变化量称为频率响应,也叫频率特性。 音响系统的频率特性常用分贝刻度的纵坐标表示功率和用对数刻度的横坐标表示频率的频率响应曲线来描述。当声功率比正常功率低3dB时,这个功率点称为频率响应的高频截止点和低频截止点。高频截止点与低频截止点之间的频率,即为该设备的频率响应或频率特性;在此范围内的曲线越平坦,频率响应越好。,4信噪比SNR(Signal to Noise Ratio) 信噪比是线路中某一参考点的信号功率与无信号时固有的噪音功率之比值,用dB表示。例如,某磁带录音座的信噪比为50dB,即

22、输出信号功率比噪音功率大50dB。信噪比数值越高,噪音越小。,5动态范围 动态范围,指声音中最强与最弱的比值,用dB表示。例如,一个乐队的动态范围为90dB,这意味着最弱部分的功率比最强部分的低90dB。动态范围是功率之比,与声音的绝对水平无关。人耳的动态范围为0130dB。自然界各种声音的动态范围的变化也是很大的。,6总谐波失真THD+N(Total Harmonic Distortion+Noise) 总谐波失真,指用信号源输入时,输出信号比输入信号多出的额外谐波成分。 谐波失真是由于系统不是完全线性造成的,它通常用百分数来表示。例如,一个放大器在输出10V的1kHz时又加上lV的2kHz

23、,这时就有10的二次谐波失真。所有附加谐波电平之和称为总谐波失真。一般来说,1 kHz频率处的总谐波失真最小,但总谐波失真与频率有关。,7立体声分离度 立体声分离度,指双声道之间互相不干扰信号的能力和程度,也即隔离程度,通常用一条通道内的信号电平与泄漏到另一通道中去的电平之差表示。如果立体声分离度差,则立体感将被削弱。,8阻尼系数 阻尼系数,指放大器的额定负载(扬声器)阻抗与功率放大器实际阻抗的比值。 阻尼系数是放大器在信号消失后控制扬声器锥体运动的能力。阻尼系数大表示功率放大器的输出电阻小。具有高阻尼系数的放大器,对于扬声器更像一个短路,在信号终止时能减小其振动。功率放大器的输出阻抗会直接影

24、响扬声器系统的低频Q值,从而影响系统的低频特性。,9等响度控制 等响度控制的作用是低音量时提升高频和低频声。由于人耳对高频声,特别是对低频声的听觉灵敏度差,因而要求在低音量时对高频和低频进行听觉补偿,即要求对低频有较大提升,对高频也有一定量的提升。,10输出功率 额定输出功率(RMS),指在1.0的失真率以下,连续输出信号的功率值。 音乐功率(MPO),指输出功率随信号变化时,瞬间所能输出的不失真功率。 峰值功率(PMPO),指瞬间最大输出功率,是在某一个时间点时,不论信号失真与否,它所发出声音的最大功率值。,11双工 声卡双工就是指在放音的同时,也能够采集录音,这也许在一般情况下注意不到,但

25、是当你使用网络电话,如Iphone等软件的时候就感觉到了。双工声卡就和普通电话一样,双方可以同时讲话和接听;而半双工则只能是一方讲话,一方接听(双方不能同时讲话)。不过好在现在声卡大都是全双工的了。,0.3.3 数字声音处理知识 1调频合成(FM Synthesis) 调频合成是早期声卡所使用的声音处理技术。它使用简单的硬件电路,利用几个乐器所产生的不同波形,定出取样频率、振幅,通过封装波形产生器和累加器,组合而成所需要的声音。,2波表合成(Wave Table Synthesis) 波表技术是将每种乐器的声音录制下来,存储成音色文件,然后将这些乐器的音色文件记录在声卡的内存中。当电脑需要声卡

26、播出某个乐器的声音时,声卡就从其内存中找出音色并播放出来,这是目前大部分声卡所使用的技术。,3两侧声音强度差别(IID,Interaural Intensity Difference) IID是一种处理声音的技术。由于声源与两耳之间的距离不等,因此声波到达两耳时衰减的程度也不一样,例如一个声音从左边传过来,则左边的耳朵收到的声波的强度比右边的大。,4两侧声音时间延迟差别(ITD,Interaural Time Difference) ITD也是一种声音的处理技术。产生ITD的原因其实很简单,当听者不是正对着声源时,声源与两耳之间的距离是不等的,而声速是恒定的,这样声波到达两耳的时间会有一个先后

27、的差别,ITD就可以用一个比较简单的公式来表示,即,ITD=,5多普勒效应(Doppler Effect) 多普勒效应是物理中的概念,是指当发声物体在运动时,声音的音调会随着物体移动速度而改变其高低(声音频率的变化),这个原理也被运用在声卡3D发声原理之中。 6头部关联传输功能(HRTF,Head Related Transfer Function) HRTF是一种声音定位的处理技术,其原理非常复杂。算法,其实际作用在于欺骗我们的耳朵。 HRTF除了使用IID、ITD两种技术之外,还利用制作假人头拾音的技术,以推算出立体声音环绕模型,于是可以取得比IID、ITD更好的3D声音效果。,7脉冲编码

28、调制(PCM,Pulse Code Modulation) 脉冲编码调制是把模拟信号变换为数字信号的一种调制方式,其最大的特点是把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输。 PCM编码通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。,8自适应差分脉冲编码调制(ADPCM) 自适应差分脉冲编码调制(ADPCM,Adaptive Differential Pulse Code Modulation)也是将模拟信号变换为数字信号的一种调制方式,它是对输入采样值进行自适应预测,然后对预测误差进行量化的编码方式。,9子带编码(SBC,Sub-Band

29、Coding) 子带编码方法可以这样描述:使用一组带通滤波器(BPF,Band-Pass Filter)把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。在信道上传送时,将每个子带的代码复合起来。在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号。编码/译码器可以采用ADPCM、APCM、PCM等。,0.3.4 3D音频API技术 1环境音效扩展技术(EAX,Environmental Audio Extension) EAX是Creative公司在推出Sound Blaster Live声卡时所推出的API插槽标准,主要是针对一些特定环境,如音乐厅、走廊、房间、洞窟等,做成声音效果器。,2A3D(Aureal 3D) A3D是由Aureal所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论