文档简介
1,第4章多媒体音频处理技术,4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用,2,3,4.1.1声音处理技术历史回顾记录:19世纪,爱迪生,留声机。电声技术:研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。依靠电来记录并播放声音,通过电压产生模拟声波变化的电流信号是模拟信号。随着计算机技术和存储设备的发展,数字化音频处理技术也得到了发展。,4,图4-2用磁带记录声音的录音机,5,4.1.2声音信号的形式任何声音都是物体振动产生的现象,其在介质中的传播称为声波。声源所引起的空气压力变化,被耳朵的耳膜所检测,然后产生电信号刺激大脑的听觉神经,从而使人们能感觉到声音的存在。,6,4.1.2声音信号的形式语音信号:语言的物质载体,具有复杂的语法和语义,难于识别。非语音信号:音乐,自然界的声音,信息量低,识别简单。,7,图4-4在自然界,声波与水波一样都是一种振动波,8,图4-5用声音录制软件记录的英文单词”Hello”语音的实际波形,9,4.1.3模拟音频信号的物理特征频率:体现音调的高低,单位Hz幅度:体现声音的强弱,单位dB语音信号频率范围:300Hz3000Hz可听频率带宽(音频):20Hz20kHz,10,11,图4-6声波的频率、周期与振幅,12,教学进程,13,声音质量分级与带宽,图4-8四级声音质量的频率范围,14,声音的质量与声音的频率范围有关。一般说来,频率范围越宽声音的质量就越高。对语音而言,常用可懂度、清晰度、自然度来衡量;而对音乐来说,保真度、空间感、音响效果都是重要的指标,15,第4章多媒体音频处理技术,4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用,16,17,借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换,18,19,4.2.1采样为实现A/D转换,需要把模拟音频信号波形进行分割(每隔一定的时间间隔测一次模拟音频的值(如电压)),以转变成数字信号,这种方法称为采样(Sampling)。每秒钟采样的次数称为采样率。数字音频是离散的,而模拟音频是连续的,数字音频质量的好坏与采样率密切相关。数字音频信息可以被计算机存储、处理和播放。Nyquist采样定理:只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。,20,图4-9声音的采样和量化示意图,21,4.2.2量化用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小称为量化。采样后的信号按照整个声波的幅度(幅度轴)划分称有限个区段的集合,把落入某个区段内的样值归为一类,并赋予形同的量化值。采用二进制,以16位或256位等的方式来进行。,22,均匀量化,非均匀量化,23,数字音频等级,24,25,教学进程,数据量=采样频率(量化位数/8)声道数声音持续时间,例1,对于调频广播级立体声,采样频率为44.1kHz,量化等级为16位(即2字节)声道形式为双声道,则转换后每秒以千字节为单位的数据量为:44100(Hz)(16/8)(B)2=176400B/s172kB/s,例2,用44.1kHz的采样频率对声波进行采样,每个采样点的量化位数选用16位,则录制3分钟的立体声节目,其波形文件所需的存储容量为:44100(Hz)(16/8)(B)2360=31752000B/s31007.8kB/s30.28MB/s,26,例3,一般播音员的播音频率是kHz,采用8bit的采用精度进行采样的时候,计算该播音员播音分钟的数据量为:kHzbit,例4,以cd激光盘音质(44.1kHz的采样频率,16位立体声形式)记录一首分钟的乐曲所需的存储容量为:44100(Hz)(16/8)(B)260=51600kb,27,4.2.3声音采样与量化过程示例,28,图4-10采样频率为1000Hz,10个量化等级的波形,29,图4-11经过D/A转换器得到的信号波形(直线段的波形)有较大的失真,30,图4-12采样率为2000Hz,量化等级为20的采样量化过程,31,图4-13采样率为4000Hz,量化等级为40的采样量化过程,32,4.2.4压缩编码依据:声音信息中存在着多种冗余听觉器官的不敏感性采样的标本中存在着相关性压缩算法通常应能满足下列需求:压缩倍数高,压缩后的数据率低;解码后的信号失真小,质量高;算法简单,执行速度快,延迟时间短;编码器、解码器的成本低。,33,压缩方法(compressionmethod)有损压缩无损压缩编码选择(codeselection)机常用的声卡上有自适应差分脉冲码调制方案,律a律等,format(structure),34,音频信息的压缩技术,有,损,压,缩,混合编,码,码本激励线性预测,CELP,35,图4-14音频信号处理过程,36,第4章多媒体音频处理技术,4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用,37,4.3.1声卡的工作原理,图4-16声卡工作原理框图,采用大规模集成电路设计,将音频技术范围的各类电路以专用芯片的形式集成在声卡上,并可直接插入计算机的扩展槽中使用。,38,1主芯片-数字信号处理器声音信息处理、特殊音效过滤与处理、语音识别、实施压缩等等任务。2混音芯片-CODEC负责调节各声音来源的音量、混音与调整录放音的音量大小,图4-18SoundBlasterPCI64声卡的混音器设置界面,39,3.合成器负责MIDI乐曲的合成可以及时创造各种音乐MIDI合成器有两种:频率调制合成器(FM合成器)、波形表(Wavetable合成器)。4.总线接口和控制器总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和DMA控制逻辑组成。5.外部输入输出口声卡外部输入输出口均为3.5mm规格插口(MIDI/Joystick除外),40,41,4.3.2声卡的性能指标1音频技术指标2MIDI音频3声道数(DolbyAC-3等),图4-195.1声道系统的布局图,42,4.多音频流输出5.I/O设备接口6.声卡软件7.总线结构,图4-20支持5.1声道系统的声卡接口,43,44,45,46,杜比与DTS,1.DolbyDigitalMono:杜比数字单声道音效只有单声道的效果,并不足以构成立体声,2.DolbyDigitalStereo:杜比数字双声道音效将双声道的立体讯号储存为AC-3格式,3.DoblyDigitalSurround:杜比数字环绕音效4.DolbyDigital4.0:杜比数字环绕音效4.05.DolbyDigital5.0:杜比数字环绕音效5.06.DolbyDigital5.1:杜比数字环绕音效5.1以DolbyDigital来表示DolbyDigital5.1,也就是5.1声道的DolbyDigital或AC-3.7.Dolbydigital7.111.1等等,47,杜比与DTS,PCM高音质数字音效:DVD利用PCM格式储存未经压缩的双声道讯号,由于DVD具有庞大的空间与速度优势,可以大胆使用更高的取样率与解析度,因此可以提供远高于传统CD的表现DTS数字环绕音效:属于5.1声道的环绕效果,DTS采用与AC-3不同的压缩技术将环绕音效储存至DVD.播放时必须采用具有dts译码能力的系统.DTS跟DolbyDigital5.1最大的差别在于两者使用不同的”算法”,48,4.3.3声卡的主要功能,录制与播放声音通过接在声卡上的话筒录制声音,并以文件形式保存在计算机中,随时可打开声音文件进行播放。声音文件的格式可因使用不同的软件而不同。音乐合成利用声卡上的合成器将存储在计算机内存中的MIDI文件合成为音乐乐曲。通过混合器混合和处理多个不同音频源的声音,控制和调节音量大小,最后送至音箱或耳机播放。,49,压缩和解压缩音频文件目前,大多数声卡上都固化了不同标准的音频压缩和解压缩软件,常用的压缩编码方法有ADPCM(自适应差分脉冲编码调制)和ACM(微软音频压缩管理器)等,压缩比大约为2:15:l。与MIDI设备和CD驱动器的连接通过声卡上的MIDI接口,计算机可以同外界的MIDI设备相连接,如连接电子琴、电吉他等,使MPC具有创作电脑乐曲和播放MIDI文件的功能。游戏杆也可通过MIDI接口与计算机相连接,使游戏玩起来得心应手。,50,第4章多媒体音频处理技术,4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用,51,4.4.1数字音频的文件格式,图4-21常用音频格式,52,1.WAV文件.wav2.MP3.mp33.MP4.mp44.RealAudio文件.ra/.rm/.ram5.APE文件.ape,图4-22MP3是Internet上流行的音乐格式,53,6.MIDI文件.midi7.CD文件.cda8.AAC文件.m4a.mp4等9.PCM文件.pcm10.WMA文件.wma11.VOC文件.voc12.AIFF文件.aif/.aiff13.HDTA文件.hdta,54,HDTA,可变结构高解析度音频(Hi-DefinitionTransformableAudio)是一种结合了互动性和高解析度音频的新一代音频格式。HDTA按照不同的标准,主要分为以下几种:TA(只支持16Bit/44.1KHz传统音频)HDTA立体声(只支持高解析度的双声道)HDTA环绕声(支持6,8,16个声道的环绕声)新一代的HDTA格式音乐,是彻头彻尾的数字格式。它不以任何光盘为载体,而是作为一种计算机数据格式存在,55,4.4.2音频制作与处理软件1CoolEdit,图4-25CoolEditPro的界面,56,2SoundForge,图4-26SoundForge音频处理软件,57,第4章多媒体音频处理技术,4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用,58,4.5.1什么是MIDIMIDI是数字音乐接口(MusicalInstrumentDigitalInterface)的缩写。或者说,MIDI是用来將电子乐器相互连接,或将MIDI设备与电脑连接成系统的一种通讯协议。通过它,各种MIDI设备都可以准确传送MIDI信息。不属于数字音响技术的范畴Midi数据不是数字的音频波形,而是音乐代码或电子乐谱,4.5乐器数字接口-MIDI,59,4.5.2MIDI系统的组成,60,1.合成器,图4-28具有USB接口的MIDI键盘,使用振荡器来产生声乐的一种电子乐器,通过振荡器的电流震荡产生各种波形并进行处理,合成出新的音乐。,合成器中的音序器和音色分别由软件和独立音源来代替,因此产生控制键盘。,61,2音源,图4-29硬件音源产品(RolandJV1080),音源音色的数量、品种和质量都将对最终音乐作品的效果产生重要的影响。,音源内部是不同音色的样本波形,由音序器来决定何时调用。,分为软硬件两种,专业硬件音源、多媒体声卡上包含GM音色库、以插件形式的软音源。,62,3音序器(Sequencer)记录、编辑和播放midi文件的设备,硬件音序器又称为编曲机,软件音序器是音乐创作、编辑软件,比如Cakewalk等。4采样器对声音进行采样、然后编辑成多种的音色。5其它设备如录音设备、监听设备、音箱功放等,YamahaQY100音序器,63,4.5.3MIDI的工作过程midi消息实际上是对一段音乐的描述,或理解为对乐谱的数字描述,包括音符、节拍、乐器种类等信息。消息分为状态信息和数据信息。状态信息描述音符被演奏或是声音被加强等数据信息描述那个音符被演奏了,或被加强的声音的强度如何这类可以用量来表示的信息。,64,图4-31MIDI的工作过程,65,66,4.5.4FM与波表合成方式1.FM合成法FM称为“数字式频率调制合成法”,简称FM合成法。FM合成法生成音乐的基本原理是,用数字信号来表示不同音乐的波形,然后把它们组合起来,再通过数模转换器()生成音乐播放。2.波表合成法为了能真实地再现音乐,目前的声卡一般采用音乐样本合成法,即波表合成法。把真实乐器发出的声音以数字的形式记录下来,存放在“波表文件”中,播放时根据命令生成各种音阶的音符,产生的声音质量比较高。,67,FM合成法:比如MIDI音乐(用符号描述的乐器演奏的音乐声音)、合成语音(用声母、韵母或清音、基音频率等参数描述的语音)等。符号化的声音表示方法所产生的声音虽然没有自然声那么真实、逼真,但数据量要比波形声音小得多(23个数量级),而且能产生自然界中不存在的声音,其编辑处理也比波形声音更加方便一些。,68,4.5.5GM-标准MIDI乐器排序表4.5.6MIDI音乐创作软件与音序软件,图4-33CakeWalkProAudio音序软件主界面,69,图4-34在CakewalkProAudio能容易地对MID乐谱进行编辑和创作,70,第4章多媒体音频处理技术,4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用,71,语音识别语音合成,72,语音识别:指机器收到语音信号后,如何模仿人的听觉器官辨别所听到的语音内容或讲话人的特征,进而模仿人脑理解出该语音的含义或判别出讲话人的过程。分类:按讲话者分类:(1)特定人的语音识别系统:其特点是依赖于说话者只有在用特定单词组形成的词汇表系统训练后,它才能识别。(2)非特定人识别系统:此类系统可识别任何用户的语音。,73,按识别词的性质分类:(1)孤立词(语音)识别系统:一次只提供一个单一词的识别。(2)连接词语音识别:连接词的语音由所说的短语组成,而短语又是由词序列组成。连接词语音识别可用于命令和控制应用。(3)连续语音识别:这种方法比孤立单词或连接词语音识别都复杂许多。,74,75,连续语音识别系统分成三部分:数字化、幅度归一化、时间归一化和参数表示。分割并把语音段标记成在基于知识或基于规则系统上的符号串。识别词序列并进行语音段匹配。,76,语音识别系统的组成,采样、量化,语音端点检测,计算语音谱,估价音调轮廓图,分解、鉴定语音特征,单词识别,识别后的语音,语音输入,参考村料库,语义分析,理解后的语音,语义库,77,语音识别难度大,语音变化大,不同人不一样,同一人也会有变化。语音有模糊性,不同词语听起耒很相似。同一字和词的发音受上下文影响而有不同(语音的同化、异化、换位、弱化、脱落等音变现象)。环境噪声的干扰,例如墙壁与物体对声波的反射会与主声波重迭。连续语音流不易把单字(词)区分出来(端
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 太原市卫生健康委直属事业单位招聘真题2024
- 2025年营口市鲅鱼圈区事业单位考试真题
- 2025-2030中国汽车芯片功能安全认证流程与时间周期
- 2025年必修版临床概论试题及答案解析
- 2025年必考版临床麻醉的试题含答案
- 2025年水泥试题及答案
- 2025年高中技术学业水平考试模拟题库资料及答案
- 2025广西崇左市消防救援支队机关政府专职人员招聘11人笔试考试参考试题及答案解析
- 2025-2030中国液体化工物流行业客户需求与消费行为研究报告
- 2025年一平台形考(第四次形考任务)试题及答案
- 危重患者营养评估与干预
- 磁共振安全注意事项课件
- 浙江省杭州市2026届高三上学期教学质量检测数学试卷(杭州一模)(含答案)
- 2025年互联网营销师(视频创推员)三级理论考试题库及答案
- 100道精心筛选国企财务笔试题目(含面试题)
- 校长教育教学管理知识测试题(附答案)
- 2025年金沙县国有资本投资运营集团有限公司招聘考试笔试试题含答案
- 《卓越绩效评价准则》
- 电网数字孪生和人工智能技术的融合发展思路方案
- 基于RFID技术的固定资产管理系统:设计、实现与效益分析
- 家居全屋定制知识培训总结
评论
0/150
提交评论