




已阅读5页,还剩69页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章数字声音,主要内容,声音的基本特性数字音频电子合成音乐,27.04.2020,3,2.1声音的基本特性,1.什么是声音?机械振动或气流扰动引起周围弹性媒质发生波动,产生了声波,声波传到人耳,经过人类听觉系统的感知就是声音。产生声波的物体为声源,声波所及的空间范围称为声场。,27.04.2020,4,图声波是一种连续的波,27.04.2020,5,2.声音信号的组成在任一时刻,声波可以分解成一系列正弦波的线形叠加:f(t)=Ansin(nt+n)称为基频或基音,它决定了声音音调的高低;n称为的n次谐波分量或称为泛音,与声音的音色有关。An是振幅,表示声音的强弱。n是n次谐波的初相位。,27.04.2020,6,3.声音的基本物理参数,(1)频率信号的频率是指信号每秒变化的次数。例如大气压的变化周期很长,以小时或天数计算,一般人不易感到这种气压信号灯变化,更听不到这样的变化。对于频率为几Hz到20Hz的空气压力信号,人们也听不到。周期和频率反映了声音的音调。,27.04.2020,7,(2)信号带宽声音信号由许多频率不同的信号组成,称为复合信号,而单一频率的信号称为分量信号。信号带宽是声音信号的一个重要参数,用来描述组成复合信号的频率范围。高保真声音(high-fidelityaudio)的频率范围是10Hz20KHz,其带宽为:200001020KHz视频信号的带宽是6MHz。,27.04.2020,8,按频率划分的声音,次音信号/亚音信号(subsonic):频率小于20Hz。音频信号(Audio):大约1520000Hz(正常人耳能够听见的)频率范围。话音信号(speech):人说话的信号频率为300Hz3000Hz。超音频/超声波信号(ultrasonic):指的是高于20KHz的信号。,27.04.2020,9,(3)频谱简谐振动:物体在一定位置附近做来回往返运动。简谐振动会产生一个特定音调的纯音。复音:产生于物体的复杂振动,可分解为许多不同振幅和不同频率的简谐振动,简谐振动的振幅按频率排列的图形称为频谱。如图为钢琴(基频为253Hz)的复音频谱。,dB,频率,27.04.2020,10,单音与复音,单音:振幅和频率不变的声音信号。只能由专用电子设备产生。复音:自然界的声音一般都属于复音,其声音信号由不同的振幅与频率合成而得到。复音中的最低频率称为复音的基频(基音),是决定声调的基本要素,它通常是常数。,27.04.2020,11,单音与复音,复音中还存在一些其它频率,是复音中的次要成分,通常称为谐音。基频和谐音合成复音,决定了特定的声音音质和音色。,27.04.2020,12,2.2数字音频(Audio),在多媒体技术中,处理的主要是音频信号。音频信号分为两类:语音信号非语音信号非语音信号分为:乐音杂音,27.04.2020,13,音频信号处理的特点,音频信号是时间依赖的连续媒体。因此音频信号处理的时序性要求很高。如果在时间上有25ms的延迟,人就会感到断续;由于人接收声音有两个通道,因此计算机模拟自然声音也需要两个声道;由于语音信号不仅仅是声音的载体,同时还携带了情感意向,对语音信号的处理就不仅仅是信号处理的问题,还要抽取语意等其他信息。,27.04.2020,14,音频信号处理,从人和计算机交互来看,音频信号的处理如下:(1)人与计算机通信(计算机接收音频信号)音频获取:语音识别与理解;(2)计算机与人通信(计算机输出音频信号)音频合成:包括音乐合成和语音合成;声音定位:包括立体声模拟、音频视频同步等;,27.04.2020,15,(3)人-计算机-人通信人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:语音采集、音频编码/解码、音频传输等。,27.04.2020,16,声音信号的数字化,什么是模拟信号?把在时间上和幅度上都是连续的信号称为模拟信号。在时间上“连续”是指一个指定时间范围里声音信号的幅值有无穷多个。在幅度上“连续”是指幅度的数值有无穷多个。话音信号是典型的连续信号。,27.04.2020,17,图模拟音频信号,27.04.2020,18,什么是数字信号,把时间和幅度都用离散的数字表示的信号称为数字信号。在特定的某些时刻对这种模拟信号进行测量叫做采样(Sampling)。由这些特定时刻采样得到的信号称为离散时间信号。,27.04.2020,19,图音频信号的采样,27.04.2020,20,什么是数字信号,采样得到的幅值是无穷个实数值之中的一个,因此幅度还是连续的。如果把信号的幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。,27.04.2020,21,图采样信号的量化,27.04.2020,22,声音信号数字化,数字化实际就是采样和量化。在某些特定的时刻对这种模拟信号进行测量称为采样(sampling).连续时间的离散化通过采样来实现。连续幅度的离散化通过量化(quantization)来实现。,27.04.2020,23,图声音的数字化过程,27.04.2020,24,均匀采样与线性量化,每隔相等的一小段时间采样一次,称为均匀采样。量化就是把信号的强度划分成一小段一小段。如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。,27.04.2020,25,采样的数学描述,音频实际上是连续信号,或称连续时间函数X(t)。用计算机处理这些信号时,必须先对连续信号采样,即按照一定的时间间隔(T)取值,得到X(nT)(n为整数)。T称为采样周期,1/T称为采样频率,称X(nT)为离散信号。,27.04.2020,26,图信号采样,t,t采样点之间的距离,x(t),27.04.2020,27,图信号混淆,27.04.2020,28,一个重要问题,离散信号X(nT)是从连续信号X(t)上取出的一部分值,那么用X(nT)能唯一地确定或恢复出X(t)吗?,27.04.2020,29,采样频率的确定,Nyquisttheory(奈奎斯特理论)指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(losslessdigitization)。fs2f或TsT/2其中f为被采样信号的最高频率。,27.04.2020,30,音频信息的标准采样频率,男女语音的最高频率都不超过10KHz。正常人耳所能听见的声音的频率上限为20KHz。多媒体计算机系统中的音频信息的标准采样频率为44.1kHz、22.05kHz、11.025kHz三种。,27.04.2020,31,量化,为了把抽样序列X(nT)存入计算机,必须将样本值量化为一个有限个幅度值的集合X(nT)。通常使用二进制数字表示量化后的样本值。用B位二进制码字可以表示2B个不同的量化电平。存储数字音频信号的比特率为:I=Bfs(比特/秒)式中,fs是抽样率(抽样/秒),B是每个样值的比特数(比特/采样)。,27.04.2020,32,量化的过程,先将整个幅度划分为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。设为量化阶距,量化器的最大范围是Xmax,则=2Xmax/2B,27.04.2020,33,对于小于(i+1/2),而大于(i-1/2)的样值,均规定为相同的量化值i。,27.04.2020,34,抽样值X(nT)与未量化样值X(nT)的关系是:X(nT)=X(nT)+e(n)e(n)是量化误差(量化噪声),并且有-/2e(n)/2量化噪声随距离变大而增加。在信号最大幅度确定的情况下,可以用增加码位B的方法来减少阶距,以便减少量化噪声。显然这样导致比特率I的增大。,27.04.2020,35,量化精度,样本大小是用每个声音样本的位数(bit/s或b/s)表示,它反映了度量声音波形幅度的精度。例如,每个声音样本用16bit表示,测得的声音样本值是在065536的范围里,它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量。,27.04.2020,36,三个影响声音质量的要素,采样速率:是指在记录过程中,每秒对声音测量的次数。采样速率以Hz为单位。量化精度:每个采样使用多少个比特来记录。量化精度分别为2-8、2-16。声音信息通道个数:指声音记录为一组波形(单声道)、两组波形(双声道)甚至多组波形(多声道)。,27.04.2020,37,计算声音文件大小的公式,存储量(字节)=采样频率(kHz)录音时间(秒)量化位数声道数/8,27.04.2020,38,那么一盘45分钟的音乐需要多少存储空间呢?按照数字式激光唱盘的标准(即CD-DA),采样频率为44.1kHz,量化级为16位,立体声。44.110004560216/8=4762808B/(10241024)=454MB,27.04.2020,39,表一分钟数字化声音所需的存储空间,27.04.2020,40,数字音频信号的编码,使用麦克风或录音机来产生,再由声卡上的WAVE合成器的(模/数转换器)对模拟音频采样后,量化编码为一定字长的二进制序列,并在计算机内传输和存储。在数字音频回放时,再由数字到模拟的转化器(数/模转换器)解码可将二进制编码恢复成原始的声音信号,通过音响设备输出。,27.04.2020,41,图音频信号处理过程,模拟音频信号输入,采样/量化编码,传输/存储,解码,播放,27.04.2020,42,2.3声音文件的存储格式,在多媒体技术中,存储声音信息的文件格式主要有:WAV文件、VOC文件和MIDI文件等。,27.04.2020,43,WAV文件,Windows所使用的标准数字音频称为波形文件,记录了对实际声音进行采样的数据。它在多媒体编程接口和数据规范1.0文档中有详细的描述。它是一种为交换多媒体资源而开发的资源交换文件格式(resourceinterchangefileformat,RIFF)。,27.04.2020,44,波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是formatchunk(格式块)和sounddatachunk(声音数据块)。格式块中包含有描述波形的重要参数,例如采样频率和样本精度等;声音数据块则包含有实际的波形声音数据。RIFF中其他文件块的可选的。它的简化结构如图。,GroupID=RIFFriffType=WAVE,FormatatchunkCkID=fmt,sounddatachunkCkID=data,27.04.2020,45,WAV文件由采样数据组成,所以它需要的存储空间很大。WAV文件所需的存储空间的大小可由下面的公式简单地推算:WAV文件的字节数/秒=采样频率量化位数声道数/8,27.04.2020,46,VOC文件,Creative公司的波形音频文件格式,也是声霸卡使用的音频文件格式。每个VOC文件由文件块头(headerBlock)和音频数据块(DataBlock)组成。文件头包含一个标识、版本号和一个指向数据块起始的指针。数据块分成各种类型的子块,如声音数据、静音、标记、ASCII码文件、重复的结束、重复以及终止标志、扩展块等。,27.04.2020,47,现说明VOC格式音频文件的文件头如下:00H13H字节:文件类型说明。前19个字节包含下面的正文:CreativeVoiceFile。最后是EOF字节。14H15H字节:其值为001AH。16H17H字节:文件的版本号。小数点后面的部分在前。如版本号为1.10,则这两个字节的值是0A01。18H19H字节:是一个识别码。由这个代码可以检测其文件是否是真正的VOC文件。利用声霸卡提供的软件可以实现VOC和WAV文件的转换。,27.04.2020,48,2.4声音质量的度量,声音质量的度量主要有三种方法:带宽客观质量度量:主要用信噪比(SNR)。主观质量度量:决定于人的感觉。,27.04.2020,49,带宽衡量声音质量,电话质量2003400Hz调幅广播(AM)507000Hz调频(FM)2015000Hz光盘(CD)2022000Hz数字录音带(DAT)2022000Hz,27.04.2020,50,图不同音质的频带宽度,10,20,50,200,3.4k,7k,15k,22k,电话,AM广播,FM广播,CD-DA,27.04.2020,51,信噪比(SNR),在采集的信号中,有用信号与噪声信号的强度之比就是信噪比。它的单位是分贝,分贝值越高的系统,说明噪声的干扰越小。信噪比的计算公式是:SNR=10log(Vsignal)2/(Vnoise)2=20log(Vsignal/Vnoise)其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db)。,27.04.2020,52,主观质量度量,有的学者认为,在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当,更有意义。方法是:召集若干实验者,由他们对声音的好坏进行评分,求出平均值作为对声音质量的评价,这种方法称为主观平均判分法(meanopinionscore,MOS),所得的分数称为MOS。,27.04.2020,53,表MOS评分标准及相应描述该级声音质量的形容词,27.04.2020,54,2.5电子乐器数字接口(MIDI)系统,数字音频实际上是一种数字式录音/重放的过程,具有很大的数据量。在多媒体系统中,有两种处理声音的方法:数字音频电子合成音乐电子合成音乐要根据一定的协议标准,使用音乐符号来记录和解释乐谱,并组合为相应的音乐信号,即MIDI。,27.04.2020,55,27.04.2020,56,图MIDI音乐的产生过程,MIDI乐器,音序器,MIDI文件,扬声器,MIDI接口,合成器,声卡,计算机,MIDI指令,模拟音频信号,27.04.2020,57,MIDI(迷笛)的诞生霍利的研究课题,1989年,麻省理工学院的麦克霍利(MikeHawley)的研究课题是:如何在光盘上存储超过一个小时的声音?,27.04.2020,58,工业方法,一是把激光从红光改为蓝光,使存储密度达到原来的4倍。另一种是采用更新的编码技术,能比原来至少压缩4倍(而声音的损失并不增加)。将这两项技术同时使用,将在一面CD上一下子就能存储16小时的声音。,27.04.2020,59,霍利的发现和方法,霍利在波桑多菲(Bosendorfer)大钢琴上所做的研究发现:即使人的手指在钢琴上弹得飞快的时候,在波桑多菲钢琴上发出的声音,1分钟也超不过30000个比特。而CD上的声音速率是每秒120万比特。如果你存储的是手指的运动而不是声音数据,那么你就能多存储5000倍的声音。,27.04.2020,60,MIDI文件,MIDI是MusicalInstrumentDigitalInterface(乐器数字接口)的缩写。它是由世界上主要的电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序、电子合成器和其他电子设备之间交换信息与控制信号的方法。,27.04.2020,61,MIDI文件,MIDI文件包含有MIDI乐器和MIDI声卡用来重构声音的指令。MIDI序列包括的指令有:音符的定调、开始音符、演奏音符的乐器、音符的音量和音符的时间等等。如图。,27.04.2020,62,MIDI的优点,生成的文件比较小;容易编辑。因为编辑命令比编辑声音波形要容易得多;可以做背景音乐,因为MIDI音乐可以和其他的媒体,如数字电视、图像、动画、话音一起播放,这样可以增强演示效果。,27.04.2020,63,产生MIDI的方法,现在用得较多的方法有两种:一种是调频(FM)音乐合成技术;另一种是乐音样本合成法,又称为波表合成法。,27.04.2020,64,声音的三要素,从声学心理角度说,声音的三要素是音调/音高、音色/音品和响度,它们与声波的频率、声压和频谱结构对应。(1)音高:人对声音频率的感觉表现为音调的高低。音调与基频的对数成线形关系,单位为美。基频越低,给人的感觉越低沉,对于平均律(一种普遍使用的音律)来说,各音的对应频率如下表所示。,27.04.2020,65,表音阶与频率的对应关系,27.04.2020,66,(2)音色:声音的音调和响度以外的音质差异称为音色。是由声音的频谱决定的,各阶谐波的比例不同,随时间衰减的程度不同,音色就不同。(3)响度:响度是人耳对声音强弱的感觉程度。人耳对于声音的细节的分辨与响度直接有关。(4)时值:时值具有明显的相对性。一个音只有在包含了比它更短的音的旋律中才会显得长。,27.04.2020,67,FM合成声音,音乐合成器的先驱RobertMoog采用了模拟电子器件生成了复杂的音乐。20世纪80年代初,美国斯坦福大学的一名叫Johnchowning的研究生发明了一种产生乐音的新方法,这种方法被称为“数字式频率调制合成法”,简称为FM合成器。,27.04.2020,68,FM是使高频振荡波的频率调制解调信号规律变化的一种调制方式。采用不同的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海口美兰区安全培训课件
- 广科音乐社团介绍
- 广府人文特色介绍
- 保洁技能培训课件
- 海事局基本安全培训课件
- 林州课件制作培训机构
- 菜单与食谱翻译应用创新创业项目商业计划书
- 智能婴儿监护设备创新创业项目商业计划书
- 移动端AI语音识别转文字创新创业项目商业计划书
- 认识塑料的课件
- 江西省专业技术职务任职评审表
- 物联网概述课件
- 中国旅游地理(第四版)中职PPT完整全套教学课件
- 园林机械完整版
- 几何模型“将军饮马”模型(将军饮马、将军遛马、将军造桥)(轴对称模型) 中考数学总复习必会几何模型剖析(全国通用)
- JJG 146-2011量块
- 小学数学思想方法(课件)
- 气管插管导管脱出的应急预案
- 《宠物美容与护理》全套教学课件
- 山东大学工程流体力学(杜广生)课件第5章 粘性流体的一维流动
- 底拖法在管道施工中的应用
评论
0/150
提交评论