《多媒体音频处理》PPT课件.ppt_第1页
《多媒体音频处理》PPT课件.ppt_第2页
《多媒体音频处理》PPT课件.ppt_第3页
《多媒体音频处理》PPT课件.ppt_第4页
《多媒体音频处理》PPT课件.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.1 数字音频的基本概念 3.2 音频接口卡 3.3 数字音频的压缩编码 3.4 音频编码标准 3.5 数字音频处理软件简介 3.6 数字音频的获取与文件格式转换 3.7 语音识别技术,第三章 多媒体音频技术,学习目标,1.了解声音信号的特点、存储格式及质量的度量方法 2.了解音频卡的功能、构成、原理及其应用 3.理解音频信号处理的方法 4.了解音频信号压缩方法及音频编码标准 5.掌握应用常用的音频处理软件对声音信号进行处理的过程 6.了解语音识别技术及其应用,3.1 数字音频的基本概念,声音,声音是因物体的振动而产生的一种物理现象。振动使物体周围的空气绕动而形成声波,声波以空气为媒介传入人的耳朵,于是人们就听到了声音。,数字音频的基本概念,音频 音频(Audio)是用声音的频率界定的,指频率在20Hz20kHz范围内的声波。音频所覆盖的声音频率是人的耳朵所能听到的声音。,3.1.2 模拟音频和模拟音频记录技术,就记录技术而言,为了模拟声音的波形形状从而将声波振动转变成唱片的波状沟纹或磁带的磁向排列的技术都可以称为模拟音频记录技术。,模拟音频即前面提到的模拟声音,是指随时间连续变动的音频声音波的模拟记录形式,通常采用电磁信号对声音波形进行模拟记录。,数字音频,数字音频并非一种新的声音,它不过是模拟音频声音进入计算机后的一种记录和存储形式。计算机在处理声音时,除了输出仍用波形形式外,记录、存储和传送都不能使用波形形式,即声音在进入计算机时,必须进行数字化,使时间上连续变化的波形声音变成一串0、1构成的数据序列。,模拟音频与数字音频特点比较,模拟音频是连续的波动信号,数字音频是离散的数字信号。 模拟音频不便进行编辑修改,数字音频编辑、特效处理容易。 模拟音频用磁带或唱片做记录媒体,容易磨损、发霉和变形,不利长久保存;数字音频主要用光盘存储,不易磨损,适宜长久保存。 模拟音频进入计算机必须数字化为数字音频,而数字音频最终要转换为模拟音频才能输出。,3.1.3 音频信号的数字化,音频信号的数字化就是对时间上连续波动的声音信号进行采样和量化,对量化的结果选用某种音频编码算法进行编码,所得结果就是音频信号的数字形式,即数字音频。,3.1.4 语音合成,1.发音器官参数语音合成,2.声道模型参数语音合成,3.波形编辑语音合成,3.1.5 音乐合成,音乐合成是声音合成的另一分支,与语音合成的对象不同,音乐合成的对象是乐音,而不是人类的语音,音乐合成的原理和方法,音乐合成方法 一是调频合成法,又称FM合成法; 一是波形表(Wavetable)合成法 ,又称波表合成法。,FM合成法,FM合成法正是从乐音的频谱特性分布中得到启示,通过使用调频(FM)技术,利用不同调制波频率和调制指数,对载波进行调制,得到了具有不同频谱分布的波形。,波表合成技术,波表合成技术是先把音乐演奏家在各种不同乐器上演奏的不同音符、以适当的采样率、量化位数录制下来,形成乐音的波形数据。然后将各种波形数据存储在ROM中。发音时,通过查找到所选预期的波形数据,然后经过调制、滤波、再合成等处理形成立体声后发声。,MIDI,MIDI(Musical Instrument Digital Interface)是乐器数字接口英文首写字母的缩写,实际上,它是一套有关数字合成音乐的国际标准。,3.1.6 声音文件格式,4.midi格式,3.mp3格式,2.voc格式,1.wav格式,3.2.1 声卡的功能,文语转换和语音识别,MIDI音乐录制和合成,编辑与合成声音文件,录制与播放声音文件,3.2.2声卡的结构,声卡的技术指标,音频压缩,DSP数字信号处理器,MIDI合成方式,采样频率和量化位数,声卡与外部设备的连接,3.3数字音频的压缩编码,将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,以减少音频的数据量,并以这种形式在计算机内传输和存储 。,声音的压缩编码,混合型编码,参数编码,波形编码,PCM编码,编码原理: PCM 编码调制是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称,即它把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。,PCM编码框图,均匀量化,如果采用相等的量化间隔对采样得到的信号进行量化称为均匀量化。,非均匀量化,非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,3.4.2 MP3压缩技术,MP3的全名是MPEG Audio Layer-3,简单地说就是一种声音文件的压缩格式 MP3的好处在于大幅降低数字声音文件的容量,而不会破坏原来的音质。,3.4 MP4压缩技术,MP4并不是MPEG-4或者MPEG-1 Layer 4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。,3.5 数字音频处理软件,Adobe Audition 2.0 Gold Wave CakeWalk(音乐大师),3.5.1 Adobe Audition 2.0,Audition的前身是Cool Edit Pro,一个非常出色的数字音乐编辑器和MP3制作软件。不少人把Cool Edit形容为音频“绘画”程序。你可以用声音来“绘”制:音调、歌曲的一部分、声音、弦乐、颤音、噪音或是调整静音。而且它还提供有多种特效为你的作品增色:放大、降低噪音、压缩、扩展、回声、失真、延迟等。,Adobe Audition 2.0窗口,3.5.2 Gold Wave,GoldWave是一种相当棒的数码录音及编辑软件,除了附有许多的效果处理功能外,它还能将编辑好的文件存为WAV、AU、SND、RAW和AFC等格式,而且它可以不经由声卡直接抽取SCSI形式的CD ROM中的音乐来录制编辑 。,GoldWave 窗 口,3.5.3 CakeWalk(音乐大师),音序器软件作为MIDI软件的核心和基础,在电脑音乐中起着了举足轻重的作用。它控制着MIDI信息的输入输出,指挥着与它连接的各种外设的正常工作.,CakeWalk 窗 口,语音识别技术,语音识别技术在信息社会有着广阔的应用前景,除了上述的重要应用领域外,它还可以应用于残疾人帮助,电话信息查询,文本校对,火车站、飞机场、医院等公共场所的语音帮助和识别系统。,3.7.1 语音识别系统,语音识别以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,其目的就是要让机器具有人的听觉功能,在人机语音通讯中“听懂”人类口述的语言。根据不同的需求,语音识别的识别内容可分为狭义的语音识别(Speech Recognition)和说话人语音识别(Speaker Recognition)。,语音识别系统基本原理框图,处理的方法,识别判决,参数模板存储,特征参数提取,连续语音流的预处理,3.7.2 语音识别系统的应用,语音识别技术在信息处理领域的应用 教育与商务应用 消费电子产品应用,语音识别系统需要解决的问题,进行动力学建模,寻找更好的语音模型,增加系统的适应性,增加系统的稳定性,本章小结,本章主要介绍了与音频信号有关的基本概念、硬件设备及其应用软件,包括音频信号的分类及其特点、音频信号数字化过程、音频卡简介、音频信号的压缩与编码标准、数字音频的获取、语音识别技术等内容。 音频是指频率在2020kHz范围内的可听声音,多媒体中的声音主要包括数字音频和MIDI音乐两种类型。声音信号的基本处理包括采样、量化、编码压缩、编辑、存储、传输、解码、播放等环节。,音频接口卡是实现音频信号数字化和音频输出(语音合成)的硬件设备,实现音频信号的A/D、D/A转换。同时也能和MIDI设备通信,实现MID

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论