




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章多媒体音频技术,3.1声音,声波是一种物理现象,是由物体在空气或其他介质中振动,通过振动使空气分子交替的压紧和放松而产生疏密波。当声波进入人耳、鼓膜振动导致内耳的微细感骨的振动,将神经冲动传向大脑,听者感觉到的这些冲动就是声音。,3.2声音的属性,人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征。其中响度、音高(音调)、音色可以在主观上用来描述具有振幅、频率和频谱三个物理量的任何复杂的声音,故又称为声音“三要素”。,3.2声音的属性,频率(f):每秒中声波周期性振动的次数,单位HZ,决定了声音的音调。人耳能听见的频率段为2020000HZ,振幅:声波的强度,决定了声音的响度。人耳能听见的是0140dB频谱:不同频率,不同政府的声波合起来产生的复合音,决定了声音的音质(音色)。不同乐器、不同人有不同的音色。,3.3.1声音信号的类型模拟信号(自然界、物理):为连续的波形数字信号(计算机)波形不连续,而是每隔一段时间采样,工作方式与人耳相似,只是将耳膜振动产生的振动信息用电压信息代替。振幅(dB)电压值(V),3.3音频信息处理,3.3.2声音数字化过程采样:计算机每单位时间在模拟音频的连续波上获得它的幅度值。量化:用电压值描述这些幅度值。编码:将电压值转化为计算机可识别的二进制数值。,模拟信号,数字信号,A/DADC,D/ADAC,3.3音频信息处理,数字音频,数字音频:在计算机内,所有的信息均以数字表示。各种命令是不同的数字,各种幅度的物理量也是不同的数字。音频信号也用一系列数字表示,称之为数字音频。数字音频的特点是保真度好,动态范围大。数字音频的文件格式.WAVMicrosoft公司的波形音频文件格式。.MIDMIDI文件格式。.VOCCreative公司的波形音频文件格式。.SNDNeXT计算机的波形音频文件格式。.AIFApple计算机的波形音频文件格式。.RMIMicrosoft公司的MIDI文件格式。它可以包括图片、标记和文本。,采样:模拟声音在时间上是连续的,而数字音频是一个数字序列,在时间上只能是断续的。因此当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值,称之为采样,采样的时间间隔称为采样周期。常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。,量化:在数字音频技术中,把采样得到的表示声音强弱的模拟电压用数字表示。模拟电压的幅值仍然是连续的,而用数字表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示,即把某一幅度范围内的电压用一个数字表示,这称之为量化。,音频编码的分类(1)基于音频数据的统计特性进行编码,其典型技术是波形编码。(2)基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频保持原音频的特性。(3)基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和DoldyAC-3最有影响。,示意,3.3音频信息处理,3.3.3声音数字化过程,3.3.4声音数字化三要素,数据量采样频率量化位数声道数/8(字节/秒),3.3.5声音数字化计算公式,3.4数字音频压缩,3.4.1压缩的两种形式:信息的压缩-信息是可以压缩的。声音、图像和视频的数字化信息量一般都比较大,所以都要采用压缩技术。MP3是音乐信息压缩标准;JPG是静态图像信息的压缩标准;MPEG和RM是视频信息的压缩标准,这些标准都有很高的压缩比。压缩分无损压缩和有损压缩。无损压缩:解压后能够完全还原为原来的数据;有损压缩:解压后还原的数据没有原来的精确,质量有所损失,但在可接受的范围内,主要用于音频和视频数据的压缩。图形和图像的冗余表现在三个方面:空间冗余、时序冗余和光谱冗余。多媒体信息可以大幅度地被压缩。VCD就是一种采用MPEG-1标准来压缩的图像信息,其理论压缩比是200:1,一般实际实现的是50:1。声音文件的压缩:有损:.mp3、.ogg、.wma等无损:.ape、.flac、.wv等,音频三要素,一个乐音,包括必备的三要素:音高、音色和响度。若把一个乐音放在运动的旋律中,它还应具备时值持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。音高:音高指声波的基频。基频越低,给人的感觉越低沉。音阶与频率的对应关系音色:声音的音质。由声音的频谱决定的:各阶谐波的比例不同,随时间衰减的程度不同,音色就不同。响度:响度是对声音强度的衡量,它是听判乐音的基础。,3.4.2数字音频压缩常见概念:比特率(Bitrate):在用特定音频压缩编码方式压缩信息时,单位时间内所需的二进制数值,以bps为单位,常见的比特率有:4kbps:可识别的话语所需要的最小比特率8kbps:电话话音音质32kbps:MW广播音质96kbps:FM广播音质128kbps:CD音质,3.4.2数字音频压缩常见概念,CBR(ConstantBitrate)用固定大小的比特率来压缩音频的方式,而不论该段音频中有些是静音,有些音量过大。一般用于流媒体方式播放的,互联网上的音频文件压缩多用这种方式。VBR(VariableBitrate)可变比特率,根据需要来调节比特率。在整个文件中码率将不会固定不变(就像在CBR中固定不变一样),音频中较复杂的部分将会使用更高的码率以获得更佳的听觉感受,而其它部分则获得较少的码率。,3.5.1WAV文件又称波形文件,WAV是Microsoft/IBM共同开发的PC波形文件。WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值转换成二进制数,然后存入磁盘,就产生了波形文件。Wav文件直接反映了一个声音在每个时刻的大小值。WAV文件使用三个参数来表示声音:采样位数,采样频率和声道数。WAV文件支持MSADPCM、CCITTALAW等多种压缩算法,支持多种音频位数、采样频率和声道。标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数特点:声音层次丰富,还原音质好,因未经压缩,文件数据量很大,不便于交流和传播。,3.5数字音频的文件格式,3.5.2MPEG音频文件这里的音频文件格式指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1”/“*.mp2”/“*.mp3”这3种声音文件。MPEG音频文件的压缩是一种有损压缩。MPEG3音频编码具有10:1-12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用.mp3格式来储存,一般只有.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。,3.5.3MP3(MPEGAudiolayer3)是一种按MPEG标准的音频压缩技术制作的音频文件。其压缩率为12:1。特点:利用了知觉编码技术,即人耳的特性,削减了音乐中人耳听不到的成分,同时尽可能的维持原来的声音质量,使得这种格式的音乐在高压缩比下,还有优美的音质。,3.5.4WMA文件WMA(WindowsMediaAudio)是WindowsMedia格式中的一个子集(音频格式)。特点:压缩率比较高,可达到18:1,比MP3的压缩率都更大。WMA的内容提供商可以加入防复制保护,可限制播放时间和播放次数甚至播放的机器等。WMA支持音频流(stream)技术,适合在网络上在线播放。,3.5.5MIDI文件MusicalInstrumentDigitalInterface(乐器数字接口)的缩写。它是由世界上主要电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序、电子合成器和其它电子设备之间交换信息与控制信号的方法。MIDI文件中包含音符定时和多达16个通道的乐器定义,每个音符包括键通道号持续时间音量和力度等信息。所以MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令,因此其数据量小。特点:数据量很小,缺乏重现自然音或语音的能力。主要用于原始乐器作品、留下歌曲的业余表演、游戏音轨及电子贺卡等。,3.5.6RealAudio文件现在Real主要有RA(RealAudio)、RM(RealMedia)、RAS(RealAudioSecured)等几种文件格式。RealAudio采用“音频流”技术,可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。特点:可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio主要适用于网络上的在线播放。,3.5.7APE文件APE是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩技术,也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后,你还可以再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失,所以被誉为“无损音频压缩格式”。先安装Winamp,再安装APE编码器MonkeysAudioV3.98和CDex1.50,这样,安装APE编码器的时候会自动安装上Winamp的APE播放插件,才能用Winamp播放APE。,3.5.8OGG文件OGG是一种先进的有损的音频压缩技术,正式名称是OGGVorbis,是一种免费的开源音频格式。OGG编码格式远比90年代开发成功的MP3先进,它可以在相对较低的数据速率下实现比MP3更好的音质。此外,OGGVorbis支持VBR(可变比特率)和ABR(平均比特率)两种编码方式,OGG还具有比特率缩放功能,可以不用重新编码便可调节文件的比特率。OGG格式可以对所有声道进行编码,支持多声道模式,而不像MP3只能编码双声道。多声道音乐会带来更多临场感,欣赏电影和交响乐时更有优势,而且未来人们对音质要求不断提高,OGG的优势将更加明显。,3.5.9其他格式,CMF,CreativeMusicalFormat:Creative公司的专用音乐格式,和MIDI差不多,只是音色、效果上有些特色,专用于FM声卡,但其兼容性也很差。CDAudio:音乐CD,扩展名CDA,唱片采用的格式,又叫“红皮书”格式,记录的是波形流,绝对的纯正。但缺点是无法编辑,文件长度太大,一张CD大约74分钟。AIF文件:Apple计算机的音频文件格式。Windows的Convert工具同样可以把AIF格式的文件换成Microsoft的WAV格式的文件。VOC文件:Creative公司波形音频文件格式,也是声霸卡(soundblaster)使用的音频文件格式。每个VOC文件由文件头块(headerblock)和音频数据块(datablock)组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。如声音数据静音标识ASCII码文件重复的结果重复以及终止标志,扩展块等。,3.6声音素材的获取,自行录制网站下载CD、DVD等文件获取Audition软件EAC抓轨:ExactAudioCopy超级解霸、豪杰解霸等,3.7语音识别技术,语音识别替代键盘、鼠标成为计算机主要的输入手段始于20世纪50年代,当时的AT&TBell实验室实现了第一个可识别10英文数字的话音识别系统Audry。IBM公司的ViaVoice语音识别系统,现在已经达到了9.0版本,识别率可达到95以上。,3.7语音识别技术,倾听:实现大词汇量、非特定人连续语音的识别,能完全听懂并理解人的自然语言。诉说:TTS(TextToSpee
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025黑龙江鸡西市融媒体中心招聘公益性岗位就业人员2人考前自测高频考点模拟试题及答案详解(典优)
- 2025【经管励志】城市私营企业职工劳动合同
- 2025河南省职工医院普外科招聘2人模拟试卷参考答案详解
- 2025广西百色靖西市消防救援大队政府专职消防员招聘20人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025年临沂临沭县教育系统部分事业单位公开招聘教师(3名)模拟试卷及答案详解1套
- 2025广东珠海中交集团纪委第一办案中心招聘模拟试卷及答案详解(网校专用)
- 2025河南驻马店上蔡县第二高级中学教师招聘25人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025年甘肃省金昌市事业单位招聘笔试考前自测高频考点模拟试题及答案详解(名校卷)
- 2025年宁夏吴忠同心县公开招聘社区工作者133人考前自测高频考点模拟试题及1套完整答案详解
- 2025河南省职工医院普外科招聘2人考前自测高频考点模拟试题附答案详解(典型题)
- 广西壮族自治区贵港市平南县2024-2025学年九年级上学期11月期中物理试题(含答案)
- 肺结节诊治中国专家共识(2024年版)解读
- 第三单元《小数除法》(单元测试)-2024-2025学年五年级上册数学人教版
- 高中化学鲁科版必修第一册第一章认识化学科学第二节研究物质性质的方法和程序课时练习
- 露天煤矿有毒有害气体防治研究
- 汽车app行业分析
- 医保飞行检查培训课件
- 2023年云南省昆明市盘龙区中考语文二模试卷(含答案)
- 火龙罐联合耳穴压豆治疗失眠个案护理
- 天津2021年高一外研版英语单词必修一默写版
- 2023麻醉科导管相关性血流感染预防专家共识
评论
0/150
提交评论