




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多媒体技术基础与实验教程第三章音频处理技术第三章目录3. 1数字音频基本原理3.1.1人类听觉特性3.1.2数字音频3.1.3声音3.1.4语音3.2常用音频编码算法和标准321音频信号编码基础3.2.2常用音频编码标准323国际音频标准化组织简介 3.3音频文件格式3.3.1波形格式3.3.2 MIDI格式3.3.3 MP3压缩格式3.4音频处理工具Audition3.3.4流式音痂格式 3.4.1功能概述 3.4.2编辑环境 3.4.3基本操作3.1数字音频基本原理3.1.1人类听觉特性听阈与听域声压是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的 微小增加。声压级为某一
2、点的声压与参考声压的比值取常用对数后再乘以20的值,单位是分 贝,即dB,是反映声音大小、强弱的最基本参量。听阈(Auditory Threshold)就是指人能听到的最低声压级(Sound Power Level, SPL)。纯音的阱阈与频率有关:1kHz纯音的听阈约为4dB, 10kHz时听阈约为15dB, 到40kHz时达到50dB左右。听域(Audible Area)是指人能感知的声音的范围,正常人耳能够感知的频率范围 大致是20Hz20kHz;正常人能感知声音的声压级范围是0128dB,这里基准声压 级(0 dB SPL)的定义是 10-16W/cm2o声强是指单位时间(1秒钟)内声
3、音通过垂直于声音传播方向单位面积(cm2)的 声能量。听域频率曲线声强声强簸W/cm104106痛阈响度级10421O40101410-810 16 在“听阈-频率”曲线和“痛阈-频率”曲线之间的区域就是人耳的听觉范围。音调音调(Pitch)是指人耳对不同频率声音的一种主观感受。人们定义一个高于听阈40dB频率为1kHz的纯音的音调为lOOOMel,这里Mel是音调的度量单位。响度和响度级响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、 频率和波形都有关系,其度量单位为Sone,定义一个高于听阈40dB频率为 1kHz的纯音的响度为ISone。响度级(Loudness
4、 Level)是指某响度与基准响度相比的等级,其度量单位为 Phon,定义1kHz纯音的声强级为IPhone响度和响度级L之间满足以下转换关系:|N = 0063xl0厶= 3333xlgN + 40dB响 度绝对听觉门限绝对听觉门限(Absolute Threshold of Hearing, ATH)指一个人在没有噪声 的环境下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量 幅度。通常绝对听觉门限用声压级表示(dB),静音为OdB,痛阈为140dBo横坐标是频率,表示人所能听到的声音的频率范纵坐标是声压级,表示所有低于门限的声音信号人类一般听不到10绝对听觉门限曲线25个临界频
5、带临界频带临界频带(Critical Band)是指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在 这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界 频带的单位叫Bark (巴克)o频率频率500Hz的情况下,500Hz的情况下,lBarkf/100lB9 + 41og(/1000)临界频率(Hz)临界频率(Hz)频带频带低端高端宽度低端高端宽度00100100132000232032011002001001423202700380220030010015270031504503300400100163150370
6、05504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280同时掩蔽同时掩蔽(Simultaneous Masking)又称频域掩蔽,分 为噪声掩蔽音调(NMT)、音调掩蔽噪声(TMN)和噪声掩蔽 噪声(NMN) o掩
7、蔽效应是指当两个响度不等的声音作用于人耳时,响 度较高的频率成分的存在会影响到对响度较低的频率成分的 感知。当两个或更多的音频信号到达人内耳时,掩蔽声与被掩 蔽声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界 频带内,一个大的信号可以掩蔽掉若干小的信号,无论这个 信号是音调还是噪音。6040200246810121416孵(kHz)声强为60dB、频率为1000Hz纯音的掩蔽效应频率(kHz)声强为60dB频率不同的纯音的掩蔽效应异时掩蔽异时掩蔽(Nonsimultaneous Masking)又称时域掩蔽,是指掩蔽效应发生 在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可
8、以掩蔽到之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽。而对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几 毫秒,而对之后音频信号的掩蔽可以持续到最长200ms的时间。时域掩蔽感知爛感知爛(Perceptual Entropy)是指利用心理声学的掩蔽现象和 信号能量化原理来测量音频信号中感知相关的信息。一般以位(bit) 作为单位,实际上表示了音频信号压缩的理论极限。感知爛的计算原理是:1)对原始信号加2048点汉明窗,然后进行2048点的快速傅立叶变换, 将时域音频信号转换成频域信号。2)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类 判决,最后将绝对听阈考
9、虑进来。1- 2数字音频算信的频声 计字列如晶 在数系鲁 想的一数所 要散用。了 ,离再大含号是后围包 信都理范上1111断 O维和散,音音 一间离好声声 的时过度形为 化成经真波称 变变号保。泛 连将频点音时 鄒契利有度就指其音频 幅,是,语音和理频号、字间处音信音数 时行字的声此 是进数示形因号它以表波,信对所秀式 频中,字分形 音机号数可音换即。fl号要,频Ol 普,行 理黑 处质 来散, 札离率 计一弄用霉声音的采样与量化0101 01000011 00100001000010011010101111001101采样采样(Sampling)是把模拟信号在时间域上以固定的时间间隔对波形的
10、值进行抽取,再用若干位二进制数表示。两个取样点之间的间隔称为采样周期,它的倒数称为采样频率。根据釆样定理,当采样频率大于信号最高频率的两倍时,在采样过 程中就不会丢失信息,并且可以用采样后的信号重构原始信号,就能 不失真地还原出原始的声音信号。若超过此取样频率,就会包含冗余 的信息;若低于此频率,则将产生不同程度的失真。对于音频,最常用的采样频率有三种:44.1KHZ、22. 05 KHz、 11.025 KHz,其中44. lKHz采样频率是最常用的频率。声道数是声音通道的个数,指一次采样的声音波形个数。单声道一 次采样一个声音波形,双声道一次采样两个声音波形,又称为“立体 声”。量化量化(
11、Quantity)的目的是将采样后的信号波形的幅度值(样本) 进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所 得到的量化值越接近原始波形的釆样值。 一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且 把落入同一个区间的样本点都用同一个幅度值来表示,这个幅度值称为量化值。量化方式有三种:零记忆量化、分组量化和序列量化。/零记忆量化是每次量化一个模拟采样值,并对所有采样点都使用相 同的量化器特性;/分组量化是从可能输出组的离散集合中选出一组输出值,代表一组 输入的模拟采样值;/序列量化是在分组或非分组的基础上,用一些邻近采样点的信息对 采样序列进行量化。3. 1. 3声音声学
12、是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹 性体里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉 器官所感觉到的声波叫声音,其频率一般在20Hz20KHz之间。声音的传播是将本地振动向一个接一个的区域传播的过程,因此声音是 纵向传播的。声音振动所产生压力的改变可以是周期性的,也可以是非 周期性的。一系列周期性的振动是一个周期,每秒经过一个固定点的振 动周期的次数就是声波的频率,用Hz表示,人类听力的大致范围是 20Hz20KHz,因此音频设备的响应设计也是在这个频率范围内。声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低 主要取决于这三要素。音强是指声音
13、的强度,也称为声音的响度。音强与声波的振幅成正比, 振幅越大,强应越大。声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音 质的因素还有:1)与采样频率有关。2)与音频处理设备有关。3)与信号噪声比有关。3.1. 4语音语音是一种特殊的媒体,但也是一种波形,在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史。其研究范围主要涉及:语音编码、语音合成、语音识别的基本算法和应语音合成用。压缩、存储说话的语言知觉语义意向及语音情感概念读取、解压语音识另u语音编/解码计算机处理语音过程3. 2常用音频编码算法和标准在音频编码技术三十余年的发展过程中,国际电报电 话
14、咨询委员会(CCITT)和国际标准化组织(ISO)先后 提出了一系列有关音频编码的建议:方法算法名称波形编码PCM均匀量化(J (A)M (A)APCM自适应量化DPCM差值量化ADPCM自适应差值量化SB子带一自适应ADPCM羞值量化数据率 标准 应用64kbps G. 71132kbps64kbps5. 3kbps6 3kbps公共网ISDNG721 配音G 722G. 723质量4. 04.5参数LPC线性预测编码编码混合编码CELPC码激励LPCVSELP矢量和激励LPCRPE-LTP2. 4kbps8kbps密声LD-CELPMPEGAC-3长时预测规则码激励低延时码激励LPC多自带
15、感知编码感知编码13.2kbps16kbps128kbps动信音信 保话移通语通DNSID响2. 53.53.74.05.05.03. 2- 1音频信号编码基础数据压缩条件信号之所以能被压缩和编码,其原因主要是:A数据冗余度:音频信号通常存在很多用处不大的空间,空间越多,数据的冗余度也越大。通过数据的压缩,将这些不用的空间去掉。A人类不敏感因素:一般而言,人类对某些频率的音频信号不敏感,有无这些频率的音频,在听觉上影响不大,在数据压缩时,就可去掉这些不敏感的 成分,以便减少数据量。A信息传输与存储:信息承载在数据上进行传输和存储,在传输和存储前后 需要对数据进行压缩处理,其原理如下图所示。数据
16、冗余冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度叫做 冗余度。信息量、数据量和冗余量之间的关系如下:I Ddu其中,表示信息量表示数据量du表示冗余量,冗余量应在数据存储和传输之前去掉。冗余大致可分为:空间冗余、时间冗余、统计冗余、结构冗余、信息爛冗余、 知识冗余等数据压缩算法分类数据压缩算法可根据解码后的数据与压缩前 的原始数据是否完全一致分为“无损压缩编码” 和“有损压缩编码”两大类。霍犬曼编i码H.2613. 2- 2常用音频编码标准 G.711 64kb/s脉冲编码调制(PCM) G.721、G.723自适应差分脉码调制(ADPCM) G.722 7kHz声音编码器G.7
17、28 16kb/s低延迟码激励线性预测编码(LD-CELP)MPEG1的音频编码AC音频编码 G.711 64kb/s脉冲编码调制(PCM)1972年,CCITT对一个64kb/s压扩型PCM编码器做了标准化,称为 G.711。事实上,已经有两个标准。在北美和日本,使用p律PCM。世界其他国 家使用A律PCM。两种编码器的信号都用8位表示。有效信噪比大约为35dB,能够把它们 看成浮点表示值。A律PCM对小信号有较大的分辨力,其动态范围等效于12位线性PCM。M律PCM等效于13位线性PCM,但是,对于小信号有更多的粒状噪声。 两种编码器在总体性能上是等效的。很重要的一点是:当这两种编码 器级
18、联时,可以考虑为省去了最低有效位,而降低为56kb/s的比特率。 G.721、G. 723自适应差分脉码调制(ADPCM) 1984年,CCITT首先对32kbit/s自适应差分脉码调制(ADPCM)做了标准化,称为G.721。它为两个目的服务:第一,用于数字倍增器(DCME) ,能够使系统容量有2: 1的增加; 第二,在有些线路上,经常会遇到一端为p律而另一端为A律的情况, G. 721是为接收p律或A律的任一种作为输入而建立的。 G. 723是在1988年标准化的。它试图为DCME提供应用,而且,是在 ADPCM的基础上,对两种附加速率24kb/s和40kb/s进一步标准化。 G. 721
19、是32kb/s ADPCM,已经被选中作为欧洲数字无绳电话(DECT) 和无绳电话II (CT2)的标准。 G. 722 7kHz声音编码器G722建议的音频压缩仍采用波形编码技术,为7kHz宽带编码器,主要用于电话会议和可视电话会议。人们试图找到比电话(200 3200Hz)更大的带宽,以减少使用者的疲劳。较大的带宽增加了语音 的可懂度,因为在使用电话带宽的情况下,有些语音不易区分。这种编码器是基于两个子带的编码组合。一个24抽头镜面正交滤波器,用于有效地分开信号,上频带使用16kb/s ADPCM,类似如G727编码器。下频带使用48kb/s ADPCM编码,具有4和5个量化器嵌入到6位量
20、化器。 G. 728 16kb/s低延迟码激励线性预测编码(LD-CELP) G. 728的工作进程是从1988年由CCITT开始的。它试图建立通用的 16kb/s长话质量的语音编码标准。长话质量意味着它能匹配或超过 G. 721 32kb/s ADPCM的性能;通用则表示任何地方都能够使用,所以 引入了低延迟的要求。后来,CCITT限制它不能用在主干线的连接上 能够用在点到点的终端设备和电路倍增设备中。G. 728的第一项应用是 低比特率的视频电话,由于它能使用帧擦除,故也能够用在有衰减的 无线电通道上。 G. 728开始是按照浮点CELP编码算法规定的,故要求严格的按照建 议中规定的算法实
21、现。为了验证是否已经正确实现,建立了一组试验 矢量。后来,按照严格定点规定的算法也在1994年完成了。 MPEG1的音频编码国际标准化组织/国际电工委员会所属的WG11T作组制定推荐了 MPEG 标准。已公布和正在讨论的标准有MPEG1、MPEG2、MPEG4、MPEG7。这里仅 介绍MPEG1标准的一部分,对应于ISO/IEC 11172-3 (MPEG-音频)。这部 分规定了高质量音频编码方法、存储表示和解码方法。编码器的输入和解 码器的输出与现存的PCM标准兼容。ISO/IEC 11172视频、音频的总比特率 为1.5Mb/s。音频使用的采样率为32kHz、44.1kHz和48kHz。编
22、码输出的比特率有许多种,由相关的参数决定:器层AC音频编码AC-1应用的编码技术是自适应增量调制,它把20kHz的宽带立体声音 频信号编码成512kb/s的数据流。AC-1曾在卫星电视和调频广播上得到广 泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2,它釆用类似MDCT的 重叠窗口的快速傅立叶变换编码技术,其比特率在256kb/s以下。AC-2被 应用在PC声卡和综合业务数字网等方面。AC-3音频编码标准的起源是DOLBY AC-1。3. 2. 3国际音频标准化组织简介国际电信联盟(ITU)北美的标准化组织欧洲电信标准研究所日本的RCR中国的电信标准化组织3. 3音频文件格式3
23、. 3.1波形格式WAV是Microsoft Windows本身提供的音频格式,用wav作为扩展名, 其文件格式称为波形文件格式(WAVE File Format) o在Windows环境下,大部分多媒体文件都遵循RIFF结构来存放信息, RIFF可以看做是一种树状结构,其基本构成单位为Chunk,就像树形结构 中的节点,每个Chunk由辨别码、数据长度及数据组成。grouID 二RIFF riffType= xVE5RIFF的简化结构图3. 3. 2 MIDI格式MIDI是Musical Instrument Digital Interface的首写字母组合 词,可译成“电子乐器数字接口”。
24、用于在音乐合成器(MusicSynthesizers)、乐器(Musical Instruments)和计算机之间交换音乐信息、播放和录制音乐的一种标准协议。MIDI标准确定了将计算机与电声乐器、录音设备连接起来所需的电缆线、硬件及通信协议。 MIDI标准的优点:生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波 形。容易编辑,因为编辑命令比编辑声音波形要容易得多。可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、 图形、动画、话音等一起播放,这样可以加强演示效果。产生MIDI乐音的方法很多,现在用得较多的方法有两种。 种是(Synthesis Frequency Mod
25、ulation, FM)合成法。FM 发声器的原理是先对音色本质进行研究计算之后再通过人工方式“模拟”(或合成)其频率,使用调变波去调变载波,最终获得不同 的音色表现。数字载波音音波II调制 波形模拟声音频率 深度 类型 反馈 颤音 音效组合数字载波和调制器 波形参数进行数字运算D/A信号输出Attack:声音提升速度 Decay:声音下降速度 Sustain:乐音维持强度Release:声音回零速度声音包络发生器Fb I声音合成器的基本原理另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。声音音调音量乐音样本(ROM)数字信号处理器(DSP)数字计算:改变播放速率,加音效,使
26、用包络数据等颤音合凑回声回荡移动立体声源右通道D/A立体声模拟IKE信号输出左声道DAttack:声音提升速度SDecay:声音下降速度AR Sustain:乐音维持强度声音包络发生器Release:声音回零速度乐音样本合成器的工作原理于控制的微处理器。 MIDI在各种设备之间传送消息。当在一个MIDI设备上演奏时,其内 部的微处理器将乐曲的详细信息包括演奏的音符,节奏的变化等发送 出去,另外的MIDI设备接收这些消息并做出相应的反应。在每个midi 乐器中使用三个连接器,一个向外发送数据,一个接收数据,另一个 将收到的数据传送给其他MIDI设备。 Lay er 2 Lay er 3,分别对应
27、MP1、MP2、MP3这三种声音文 件。 MP3对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3釆取了 “感知音频编码技术”,即编码时先对音频文件进行频谱分析, 然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打 散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回 放时能够达到比较接近原始音频数据的声音效果。 MP3作为目前最普及的音频压缩格式,其文件大体分为三部分:TAG.V2 (ID3V2)、FRAME、TAG_V2 (ID3V1),其含义分别是: ID3V2:包含作者、作曲、专辑等信息。长度不固定,扩展TID3V1的信息量。 FRAME: 一系列的帧,个数由文件大小和帧长决定。每个帧的长度可能固定,也可能不固定,由比特率决定。每个帧又分 为帧头和数据实体两部分,帧头记录了MP3的数码率、采样率、版本等信息,各帧间相互独立。FRAMEHEADERCRC (free)MAIN_DATAMP3的FRAME格式 ID3V1:包含作者、作曲、专辑等信息,长度为128B。3. 3. 4流式音频格式现在使用最普遍的流格式类型是Real Networks公司发明的 支持网络流媒体技术的实时音频格式,RA、RMA这两个文件 类型就是Real Media的音濒格我。根据不同的容量,App 1 e公司的多媒体技术软件Qui ckTime 在下载和流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环保产业发展的趋势与实践探索
- 重难点解析冀教版8年级下册期末测试卷含完整答案详解(有一套)
- 自考专业(护理)经典例题【典优】附答案详解
- 重难点解析公务员考试《常识》综合测评练习题
- 遥感监测侵蚀速率-洞察及研究
- 中级银行从业资格之中级银行业法律法规与综合能力综合提升测试卷附参考答案详解【巩固】
- 重庆市巴南区教育事业单位面向2025届毕业生招聘60人笔试模拟试题及参考答案详解一套
- 环保公司同业拆借管理细则
- 综合解析华东师大版7年级下册期末测试卷含答案详解【轻巧夺冠】
- 自考专业(金融)通关题库及完整答案详解一套
- 2025年地理信息系统考试题及答案
- 江苏员额检察官考试完整版试题及答案
- 2025年中级注册安全工程师《其他安全》十年真题考点
- 翻越您的浪浪山新学期开学第一课+课件
- (2025)行政执法人员考试题库(附答案)
- 1-安全生产治本攻坚三年行动工作方案及台账模板(2024-2026年)
- CQI审核管理办法
- 反恐怖宣传课件
- 教培机构开学季活动策划方案
- 园区项目用电管理办法
- 老年护理谵妄课件
评论
0/150
提交评论