课件:多媒体课程讲学.ppt_第1页
课件:多媒体课程讲学.ppt_第2页
课件:多媒体课程讲学.ppt_第3页
课件:多媒体课程讲学.ppt_第4页
课件:多媒体课程讲学.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 数字声音基础,学习目标: 了解声音信号的特点,掌握声音质量的度量方法。 掌握声音信号的数字化方法。 了解声音编码GSM、MP3、LPC等基本原理与方法。 了解声音合成与MIDI系统。 掌握Cool Edit编辑制作方法。 掌握声音文件的存储与编辑。,知识结构图,声音是由物体振动引发的一种物理现象。例如,讲话时声带的振动、小提琴弦的振动、扬声器纸盆的振动都会造成空气的振动,这种振动会不断地向四周传播,当被人耳接收时,我们就听到了声音。,3.1 声音特性,声音是振动波,具有振幅、周期和频率。 声音是随时间连续变化的物理量。声音依靠介质的振动进行传播。声源就是振动源。 声波 机械振动或气流扰动引起周围弹性媒质发生波动而产生声波。 声源 产生声波的物体 (如人声带、乐器)。 声场 声波所及的空间范围。 声音表现形式有三类: 语音 指具有语言内涵和人类约定的特殊媒体; 音乐 是规范的符号化了的声音; 音响 指其他自然声音,如动物叫声、机器轰鸣声、风雨雷电声等。,语音:人的说话声不仅是一种波形, 而且还通过语气、语速、语调携带着比文本更加丰富的信息。这些信息往往可以通过特殊的软件进行抽取。 波形声音:实际上已经包含了所有声音形式,这是因为计算机可以将任何声音信号通过采样、量化数字化,在必要的时候,还可以准确地将其恢复。 音乐:音乐是一种符号化了的声音,这种符号就是乐谱,乐谱则是转变为符号媒体形式的声音。,声音媒体分类,声音物理特性: 频率、周期、声压、声强、动态范围、频谱 声音心理特性: 音调、响度、音色、掩蔽效应、方位感、空间感、阈、分贝、 信噪比 声音的音质: 频带宽度、信噪比、数据量,1.,声音的特点,复合信号与分量信号,复合信号:声音信号由许多不同频率的信号组成,这类信号称为复合信号,复合信号的频率范围称为声音信号的带宽。 分量信号:单一频率的信号称为分量信号。,声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的,称为模拟音频信号。 在任一时刻t ,声波可以分解成一系列正弦波的线性叠加。,An 是振幅,表示声音的强弱 是声波的基频,表示声音音调的高低 n 是n次谐波的初相位 n是的n次谐波分量,或称为泛音,声波的表示,周期/频率/带宽 两个相邻波之间的时间长度为周期T ,单位为秒; 每秒钟声源振动的次数称为频率f,单位Hz; f = 1 / T 描述组成复合信号的频率范围,称为带宽。,音频信号的特征,声音频带示意图,人对声音的感觉是有限的,即只在一个频带范围内有效。 高于20kHz频率的声音人耳听不到。 有的音响产品工作频率上限为50kHz,调音台的最高工作频率设计到100kHz。,声波的频率范围,在自然界中 人耳接收的音域: 2020,000Hz 次声波(大象): 20Hz 超声波(海豚): 20,000Hz,日常生活中的不同声源频率范围 男 声: 100 9,000Hz 女 声: 150 10,000Hz 电话声: 200 3,400Hz 收音机AM调幅广播声: 50 7,000Hz 收音机FM调频广播声: 20 15,000Hz 专业级音响放大器声: 10 40,000Hz,声压和声强,声压 P 声波在空气传播造成空气中的气压发生变化而产生的压强,被称为声压,记作P。单位是帕斯卡(Pa)或微巴(bar)。 声强 I 描述声音传播所需能量的强度(声波是由能量来维持传播的。如扬声器纸盆的振动是由电能转换而来)。单位时间内通过垂直于声波传播方向的单位面积内的声波能量为声场中某点的声强,记作I,单位为瓦米2(Wm2)。 声强与声压最大值的平方成正比。,在声学中,量级定义为一个量与同类基准量之比的以10为底对数。单位是dB。 声压级Lp 为: Lp = 20lg P/P0 声压基准量为P0 = 2 10-4bar,声压级为0120dB 声强级LI 为: LI = 10lg I/I0 声强的基准量为I0 = 10-12W/m2,声压级&声强级,阈,阈 值是指临界值。 可听阈 引起人耳刚能听到声音时的声压,与年龄有关。中音频时约为0.0002微巴。 痛阈 使人耳膜感到疼痛的声压,超过200微巴的声压,能使人耳膜产生疼痛。,自然现象:扬声器的功率增加一倍发出的声音,人听到的声音强度并不是增加一倍。 在声学中用分贝来表示声压或声强的变化程度。 人的听觉神经的刺激程度不与刺激量大小成正比,而是按刺激量以10为底的对数增长 。,指声音最大声压级和最小声压级之间的差值。 每种声源的动态范围依据各自的特性有所不同。 如女声的动态范围为2550dB 男声为3050dB 交响乐队的动态范围大于100dB,声音的心理学特性,从声学心理角度分析,声音有三要素:音调、响度和音色 它们与声波的频率、声压和频谱结构对应。,低,高,弱,强,(1) 音调 (高低),(3) 音色 (特质),(2) 音强 (强弱),音调代表声音高低,与频率有关。频率越高,音调越高,反之亦然。 人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调与基频的对数(20lg)成线性关系,单位为美(mel)。基频越低,给人的感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度。 如果对声音的频率进行调整,其音调也会随之而变;若改变了声源的音调,声音会发生质的转变。, 音调,响度 也称音强,是人耳对声音强弱的感觉程度。常说的“音量”也是指响度。 响度与声波的振幅成正比,振幅越大,响度越大。 唱盘、CD激光盘等播放出来的声音响度是一定的,但通过控制、调整播放设备的音量,可以改变聆听时的响度。, 响度,音色,音色是声音的特色,又称音品。通常说法是:声音的音调和响度以外的音质差异叫做音色。 影响音色主要因素是复音。“复音”是指不同频率和不同振幅的混合声音,自然声中大部分是复音。 在复音中,最低频率的声音是“基音”(声音的基调),其他频率的声音称为“谐音”(也叫泛音)。基音和谐音是构成声音音色的重要因素。 人是根据音色来辨别声源种类的。,音色(续),高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还与诸多其他因素有关,如听音条件等。 音色是一个主观量,常用柔和、刺耳、饱满词描述。, 声音的质量,简称音质,与频率范围成正比,频率范围越宽音质越好。,声音具有连续性和过程性,数据前后相关,并具有实时性。, 声音的连续时基性,掩蔽效应,称听不到的声音为被掩蔽声,而起掩蔽作用的声音为掩蔽声。 掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度曲线的最小可听阈抬高。 掩蔽效应的一般规律是强音压低音、低频率声音压高频率。 利用掩蔽效应可以用有用信号去掩蔽无用的声信号,只需要把无用声音的声压级降低到掩蔽阈以下即可。 在数字音频处理中,还可以利用掩蔽效应去掉人耳听不到的那部分信号进行声音数据的压缩。,方位感,人凭借双耳在一定声学环境内能对声源定位,这种能力来自于声源发出声波到达双耳的强度差、时间差等因素。 声源到达听者耳朵的声音有两个,一个声音直接到达,而另一个由于人头部遮蔽,需绕过头部才能到达。称前者为直达声,而后者为绕射声。 若有两个声源,增大其中一个声源的强度,由于该声音源发出的直达声或绕射声的声压大于另一个声源,双耳将会产生声压级差。使听者感受的声源(声像)位置向强度较大的声源方向移,使人感受到声音的立体感。,哈斯效应(Haas),人耳听觉有延迟效应。 哈斯通过实验证明: 两个相同的声波若时差大于50ms到达人耳,人就能分辨出前导声与滞后声的方位(即可以听到清晰的回声); 若时差在35ms50ms之间,人耳可以感受滞后声源的存在,但其所辩别的方位仍是前导声源的方位。 若时差在5ms 35ms以内,人耳就无法区分两个声源,给人以方位听感的只是前导声,似乎不存在滞后声援。,空间感,一个声源发出的声音同时向各个方向散开,其发散的角度取决于声源所具有的指向性。 由于直接和经反射到达听者的两个声音途径存在差别(取决于环境)而带来时间差。当时间差超过一定数量时,听者会听到先后到达的两个声音,从而产生回音。经多次反射,造成余声。即使声源已停止发声,但听者仍能听到声音存在。 回声与余音的感觉可使听者感受出房间体积大小、房间高低及内表面结构上的差异,这便是空间感。,动态范围 频带宽度 信噪比 数据量,动态范围越大,说明音频信号强度的相对变化范围越大,音响效果越好。 动态范围一般用dB为单位来计量。 FM(调频)广播的动态范围约 60dB AM(调幅)广播的动态范围约 40dB CD-DA的动态范围约 100dB 数字电话约 50dB,动态范围,音频信号的音质标准,音频信号所包含的谐波分量越丰富,音色越好。在广播通信和数字音响系统中,以声音信号所包含的谐波分量的频率范围来衡量声音的质量,即带宽。,不同质量的声音的频带对比示意图,(1) 频带宽度,信噪比SNR(Signal Noise Ratio)是有用信号与噪声之比。 信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。信噪比不仅是声音设备的性能指标,在声音的录制和播放时,也要注意环境噪声。录制时应尽可能减小环境噪音。输出时应使音量适当大,以减少环境噪音对听音的影响。 一般话筒和音箱的信噪比在75dB以上。声卡的信噪比在8595dB。,信噪比,数据量,音质与数据采样频率和数据位数有关: 采样频率越低,位数越少,音质越差; 采样频率越高,位数越多,音质越好。,声 源 种 类,频 带 宽 度,声音的频率分布,3.1.2 声音质量的度量,声音信号的带宽来衡量,频率范围越宽音质越好。等级由高到低依次为CD、FM、AM和数字电话。,评价方法一:带宽度量法,信噪比(Signal to Noise Ratio,SNR):指声源产生最大不失真声音信号强度与同时发出噪声强度之间的比率,以S/N表示,单位为分贝(dB)。信噪比越高,音频质量越好。,评价方法二:客观质量度量法,Vsignal: 信号电压,Vnoise: 噪声电压,S/N: 信噪比(单位为dB),2019/8/6,31,可编辑,评价方法三:主观质量度量法,主观平均判分法:召集若干实验者对声音质量进行评分,求出平均值作为对声音质量的评价。所得分数称为主观平均分(Mean Opinion Score, MOS)。,采样,101100 110011,量化,编码,声音数字化过程,声音信号数字化,A/D转换和D/A转换技术便应运而生。A表示“Analog”(类比、模拟),D代表“Digital ”(数字),A/D转换就是把模拟电信号转换成由“0”和“1”组成数字信号的过程。,声音的A/D与D/A转换,8位可编程 A/D转换芯片,采样原理,输入模拟声音信号,按照固定的时间间隔截取该信号的振幅值,每个波形周期内截取两次,取得正、负向的振幅值,这个过程就是“采样”。 振幅值即称“采样值”,用二进制数表示,形成数字音频信号。, 采样频率,在一定时间间隔内采集的样本数。采样频率,音质,数据量。,f 采样 = 2 f 还原,例1. 设一个连续信号的波形可以表示为 :,设采样频率为21Hz,-10,10内的量化间隔取为1,试计算出该信号0到1秒内的量化数据。 在0-1秒内,取21个采样点。在0、1/20、2/20、19/20、1秒时刻采样,将采样得到的数值取整,即得到量化数据。, 举例,序号 采样点 采样数据 量化值 序号 采样点 采样数据 量化值,0 0.00 9.41421 9 11 0.55 -9.37474 -9 1 0.05 -7.66754 -8 12 0.60 4.73547 5 2 0.10 1.30867 1 13 0.65 -2.56445 -3 3 0.15 1.07930 1 14 0.70 0.40759 0 4 0.20 -3.46729 -3 15 0.75 6.34915 6 5 0.25 8.93433 9 16 0.80 -9.36672 -9 9 0.45 -1.63831 -2 20 1.00 4.40090 4 10 0.50 7.89216 8, 表 连续波形的数字化,均匀量化和非均匀量化,均匀量化 采用相等的量化间隔(“等分尺”)对采样得到的信号作量化,也称为线性量化。,非线性量化 大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。 可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。,非均匀量化采用两种算法(定义采样输入信号幅度和量化输出数据之间的对应关系): 律(-Law)压扩 A律(A-Law)压扩,非均匀量化算法,律(-Law)压扩主要用在北美和日本等地区的数字电话通信中,按下面的公式确定量化输入和输出的关系。 式中:x为输入信号幅度,规格化成 -1x1,sgn(x)为x的极性,为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100 500。,A律(A-Law)压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系 。,A律(A-Law),举例:对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本需8位二进制存储,输出的数据率为64 kb/s。 这个数据就是CCITT推荐的G.711标准:话音频率脉冲编码调制。,对模拟音频信号进行采样量化编码后,得到数字音频。数字音频的质量取决于 采样频率 量化位数 声道数,采样频率是指一秒钟时间内采样的次数。 在计算机多媒体音频处理中,采样频率通常采用三种:11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。,采样频率,采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(lossless digitization)。 采样定律用公式表示为 fs 2f 或者 Ts T/2 其中f为被采样信号的最高频率。,采样频率,你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为A、频率为f的正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为fmax,采样频率最低要选择2fmax 。例如,电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。,量化位数也称“量化精度”,是描述每个采样点样值的二进制位数。 例如,8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示,而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位。,量化位数,样本大小是用每个声音样本的位数bit/s(即bps)表示的,它反映度量声音波形幅度的精度。例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在065535的范围里,它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。,量化精度,量化精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-noise ratio,SNR),并用下式计算: SNR 3 log2 (Vsignal)2 / (Vnoise)26 log2 (Vsignal / Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db) 例1:假设Vnoise1,采样精度为1位表示Vsignal21,它的信噪比SNR6分贝。 假设Vnoise1,采样精度为16位表示Vsignal216,它的信噪比SNR96分贝。,声音通道的个数称为声道数,是指一次采样所记录产生的声音波形个数。 记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。随着声道数的增加,所占用的存储容量也成倍增加。,声道数,未经压缩的数字音频数据率(bit/s) 采样频率(Hz)量化位数 (bit)声道数 音频数据存储量(Byte) 数据率(bit/s)持续时间(s) / 8 例:采样率11.025KHz、量化位8位,采集1分钟, 则:音频数据率11.025(KHz)8(bit) 88.2 (Kbit/s) 音频数据量11.025(KHz)8(bit) 60(s)/8 0.66 (MByte),存储量=采样频率量化位数/8声道数时间,音频数据率,存储容量的计算,存储容量=(量化位数采样频率声道数持续时间)/8 (Byte) CD光盘采用了双声道16位采样,采样频率为44.1KHz,可达专业级水平。 若某首流行歌曲的长度为3.5分钟,则该歌曲占用的存储容量为: 1644.110002(3.560)8=37044000(B) 37044000/1024/1024=35.33MB,根据声音的频带,把声音的质量分为5个等级,编码算法与音频数据压缩比,未压缩的音频数据量非常大,因此在编码的时候常采用压缩的方式。 实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。 压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比:,技术指标,例1.高保真立体声数字音频的量化位数为16,试计算其数据传输率。 解:高保真立体声数字音频采样频率为44.1kHz,双声道,其数据传输率为 : 数据传输率 = 44.1(kHz)16(bit)2(声道)=1411.2(kbps) 如果采用PCM编码,数字音频文件所占用的空间可用如下的公式计算: 音频数据量(Byte)= 数据传输率持续时间8(bit/Byte) 其中数据量以字节(Byte)为单位;数据传输率以每秒比特(bps)为单位;持续时间以秒(s)为单位。,举例1,例2. 计算1分钟未经压缩高保真立体声数字声音文件大小。 解:高保真立体声数字音频采样频率为44.1kHz,16位量化,双声道,其数据传输率为: 数据传输率 = 44.1(kHz)16(bit)2(声道)=1411.2(kbps) 1分钟这样的声音文件的大小为 : 音频数据量 = 1411.2(kb/s)60(s)/8(bit/Byte)=10584kB 未经压缩的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论