声音及其分类.ppt_第1页
声音及其分类.ppt_第2页
声音及其分类.ppt_第3页
声音及其分类.ppt_第4页
声音及其分类.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2 1声音及其分类2 1 1声音的概念声音是通过空气传播的一种连续的波 由空气振动引起耳膜的振动 由人耳所感知 第2章声音媒体 声音被分为无规则的噪音和有规则的音频信号 有规则音频信号是一种连续变化 周期性的模拟信号 可用一条连续的曲线来表示 称为声波 波形文件 包括了所有的声音文件 语音 是波形文件 是一种特殊媒体 音乐 规范的符号化了的声音 这种符号就是乐谱 2 1 2声音的分类 2 1 3声音的三要素 模拟声波信号曲线为一系列正弦波的线性叠加 声波信号是由基音和泛音组成 频率最低的音波称为基频或基音 除此之外的音波都称为泛音 其频率是基频的整数倍 音调 声音的高低叫做音调 pitch 音调与声音的频率有关 音色 与波形相关 取决于声波的频谱 即由混入基音的泛音所决定的 音强 即声音的响亮程度 与声音信号的幅度成正比 用声音信号幅度取对数后再乘20所得值来描述声强 以分贝 dB 为单位 此时称为音量 2 2音频信号 2 2 1音频音频是指人类听觉所感知范围内的频率 也称声频 次声波 subsonic 频率低于20Hz的信号 超声波 ultrasonic 频率高于20KHz的信号 音频 Audio 频率范围是20Hz 20KHz的声音信号 是人耳能听到的声音信号 次声波和超声波之间的音频为可听声波 即属于多媒体音频信息范畴 2 2 2声音质量的度量 客观质量度量 即音频信号的技术指标 如 频带宽度 动态范围和信噪比 主观质量度量 在语音评价过程中 主观的质量评价较客观的质量评价更为恰当 1 客观评价指标 1 频带宽度 声音信号是由许多频率不同的分量信号组成的复合信号 复合信号的频率范围称为频带宽度 频带越宽 包含的音频信号越丰富 通常将音质定义为4个等级标准 1 频带宽度 1 客观评价指标 2 动态范围 声音的动态范围 音频信号的最大强度与最小强度之比 动态范围越大 说明音频信号的相对变化范围大 则音响效果越好 1 客观评价指标 3 信噪比 信噪比是有用信号与噪声之比的简称 噪音可分为环境噪音和设备噪音 通常信噪比分为系统输入信号的信噪比SNR in 和系统输出信号的信噪比SNR out 信噪比越大 声音质量越好 信噪比的表达式如下 2 主观度量法 2 3声音信号数字化2 3 1声音信号数字化过程 数字化过程 模拟数字转换 A D 转换过程 采样 sampling 时间上进行离散化处理 即每隔相等的一段时间在声音信号波形曲线上采集一个信号样本 量化 quantization 对采样后的声音信号幅值进行离散化处理 如果幅度的划分是等间隔的 就称为线性量化 否则就称为非线性量化 编码 将采样和量化后的数字化声音信息以二进制形式并按照一定的数据格式进行表示 2 3 2数字化声音的技术指标1 采样频率 采样频率是指单位时间内的采样次数 奈奎斯特 HarryNyquist 采样理论 只要采样频率f 1 T 高于输入信号最高频率的两倍 则经过采样后的采样信号能够包含原模拟信号的全部信息 且经过反变换和低通滤波后可不失真地恢复原模拟信号 电话话音的信号频率约为3 4kHz 采样频率就选为8kHz CD激光唱盘采样频率为44 1KHz 可记录的最高音频为22 05KHz 采样的三个标准频率分别为 44 1KHz 22 05KHz和11 025KHz 2 3 2数字化声音的技术指标2 量化精度 量化精度是指对模拟音频信号的幅度进行数字化二进制表示的位数 它决定了模拟信号数字化以后的动态范围 一般的量化精度为8位或16位 量化位数越高 信号的动态范围越大 量化精度越高 但所需要的存贮空间也越大 2 3 2数字化声音的技术指标3 声道数 声道数指的是一次同时产生的声波组数 1 单声道缺乏位置感 2 立体声 声音在录制过程中被分配到两个独立的声道 但所占空间比单声道多一倍 这种技术在音乐欣赏中尤为有用 依然是许多产品遵循的技术标准 2 3 2数字化声音的技术指标3 声道数 3 四声道环绕规定了4个发音点 前左 前右 后左 后右 同时建议增加一个低音音箱 以加强对低频信号的回放处理 4 1声道音箱系统广泛流行的原因 4 5 1声道运用于各类传统影院和家庭影院中 一些知名的声音录制压缩格式 都以5 1声音系统为技术蓝本的 增加了一个中置单元 负责传送低于80Hz的声音信号 在欣赏影片时有利于加强人声 把对话集中在整个声场的中部 增加整体效果 5 7 1声道它在5 1的基础上增加了中左和中右两个发音点 当然由于成本比较高 趋于流行还有待时日 2 3 2数字化声音的技术指标4 编码算法 作用 采用一定的格式记录数字数据 采用一定的算法压缩数字数据减少存贮空间和提高传输效率 压缩算法包括有损压缩和无损压缩 有损压缩指解压后数据不能完全复原 要丢失一部分信息 压缩编码的基本指标之一就是压缩比 音频数据压缩比 压缩后的音频数据 压缩前的音频数据 它通常小于1 压缩比越大 信息丢失越多 信号还原后失真越大 2 3 2数字化声音的技术指标5 数据率及数据文件格式 数据率为每秒位数 它与信息在计算机中的实时传输有直接关系 而其总数据量又与计算机的存储空间有直接关系 用数字音频产生的数据一般以WAVE的文件格式存贮 以 WAV 作为文件扩展名 是Windows下通用的数字音频标准 用Windows的媒体播放器可以播放 MP3的应用虽然很看好 但目前还需专门的播放软件 如RealPlayer等 2 3 3数字化声音的质量和存储量 数据量 Byte 采样频率 量化精度 声道数 声音持续时间 8 CD格式1秒 采样频率 量化位数 声道数 声音持续时间 8 44 1k 16 2 1 8 0 176MB s 一个小时CD格式的音乐需要635MB的存贮空间 其实CD最长的重放时间为74分钟 5 1声道每秒钟的数据量为 采样频率 量化位数 声道数 声音持续时间 8 44 1k 16 5 1 1 8 0 45MB s 一个小时的多声道格式的音乐需要1 62GB的存储空间 远远大于CD的容量 常用的采样指标及等效音质 数字音频等级 常用的采样指标及等效音质 数字音频等级 2 4MIDI接口和音乐合成 MIDI MusicalInstrumentDigitalInterface 是电子乐器数字接口的缩写 是数字音乐 电子合成乐器国际标准 MIDI是一个协议 它不是把音乐的波形进行数字化采样和编码 而是将数字式电子乐器的弹奏过程记录下来 只包含用于产生特定声音的指令 电脑把这些指令交由音频卡去合成相应的声音 根据记录的乐谱指令 通过音乐合成器生成音乐声波 经放大后由扬声器播出 2 4MIDI接口和音乐合成 最初 同一MIDI文件在不同的设备会出现完全不同的放声效果 GM GENERALMIDI 通用MIDI 标准得到了Windows操作系统的支持 它规定了前128中常用乐器的音色编排方式 例如1号是钢琴 66号是萨克斯管等等 它实际上是对MIDI规范的补充 ROLAND公司 GS GeneralSynthesizer 通用合成器 标准兼容GM的基础上 提供比GM标准数量更多的打击乐器组合更多的特殊音响 Yamaha公司 基于GM标准的XG ExtendedGeneralMIDI 扩展的通用MIDI 标准 2 4MIDI接口和音乐合成 MIDI文件的大小要比WAV文件小的多 即一分钟的WAV文件约要占用10MB的硬盘空间 而一分钟的MIDI却只有区区的3 4KB CMF文件是随音频卡一起使用的音乐文件 于MIDI文件非常相似 只是文件头略有差别 WINDOWS使用的RIFF文件的一种子格式 称为RMID 扩展名为RMI 2 4 1MIDI术语 1 MIDI文件MIDI文件是存放MIDI信息的标准文件格式 MIDI文件中包含音符 定时和多达16个通道的演奏定义 每个通道的演奏音符信息包括 键 通道 号 音长 音量和力度 击键时 键达到最低位置的速度 2 音乐合成器 MusicalSynthesizer 首先利用数字信号处理器或其它芯片来产生音乐或声音 然后通过声音产生器和扬声器发出声音 合成器发声的质量和声部取决于合成器能够同时播放的独立波形的个数即泛音的合成 3 复音 Polyphony 复音指合成器同时支持的最多音符数 2 4 1MIDI术语 4 多音色 Timbre 同时演奏几种不同乐器时发出的声音 它着重于同时演奏的乐器数 5 MIDI标准MIDI电子乐器 能产生特定声音的合成器 其数据传送符合MIDI通信约定 MIDI消息 message 或指令 乐谱的一种记录格式 相当于乐谱语言 MIDI接口 interface MIDI硬件通信协议 MIDI通道 channel 共16个通道 每种通道对应一种逻辑的合成器 MIDI文件 由控制数据和乐谱信息数据构成 音序器 Sequencer 用来记录 编辑和播放MIDI文件的软件 2 4 2用PC机构成的MIDI系统 使用PC机构造MIDI系统 可把MIDI接口和MIDI声音模块组合在PC添加卡上 多媒体个人计算机MPC规范就要求PC添加卡上必须有这样的声音模块 称为合成器 synthesizer 电脑播放MIDI文件 必须使用合成器 MIDI合成器的产生方式 1 FM合成器 FMsynthesis 通过已有的电子波形来产生声音的合成器 产生各种逼真的乐音是相当困难的 有些乐音几乎不能产生 2 波表合成器 wavetablesynthesis 乐器的声音样本存储在音频卡波形表中 播放时从波形表中取出来 可以产生更逼真的声音 2 4 3MIDI文件的特点 MIDI数据量比声音文件小的多 采用MIDI格式记录比采用WAVE格式记录的数据量小两个数量级以上 MIDI配音方便 例如当多媒体系统中播放波形声音文件时 如图片的一段解说词 此时若还需配上某种音乐作为解说的效果时 不可能同时调用两个波形声音文件 而播放MIDI文件记录下来的音乐就很方便了 2 4 3MIDI文件的特点 编辑灵活 在音序器的帮助下 用户可以随意修改曲子的速度 音调 音色等属性 也可以改换乐器的种类 从而产生合适的音乐 表现能力弱 不能与真正的乐器完全相似 不能模拟出自然界中其它非乐曲类声音 音质有待提高 2 5音频文件格式2 5 1声音文件格式 1 波形文件 扩展名为WAV Windows本身存放数字声音的标准格式 通用性的数字声音文件格式 未经压缩处理的音频数据 直接记录声音的波形 但文件体积都很大 1分钟的CD音质需要10M字节 不适于在网络上传播 WAV格式使用媒体播放机可以直接播放 2 5 1声音文件格式 2 MPEG 3 扩展名为MP3 最流行的声音文件格式 压缩率大 高达10 1 12 1 一分钟CD音质的音乐 未经压缩需要10MB存储空间 而经过MP3压缩编码后只有1MB左右 音质基本保持不失真 在网络可视电话通信方面应用广泛 但和CD唱片相比 音质不能令人非常满意 3 CDAudio音乐CD 扩展名CDA 是唱片采用的格式 又叫 红皮书 格式 记录的是波形流 绝对的纯正 HIFI 无法编辑 文件长度太大 4 CreativeMusicalFormat扩展名CMF 是Creative公司的专用音乐格式 和MIDI差不多 只是音色 效果上有些特色 专用于FM音频卡 但其兼容性也很差 2 5 1声音文件格式 5 VOC文件 Creative公司波形音频文件格式 也是声霸卡 soundblaster 使用的音频文件格式 6 RealAudio 扩展名RA RAM 这两种格式是Real公司开发的主要适用于网络上实时数字音频流技术的文件格式 由于它的面向目标是实时的网上传播 所以在高保真方面是远远不如MP3 但在只需要低保真的网络传播方面却无人能及 要播放RA RAM 需要使用RealPlayer 2 5 1声音文件格式 2 5 2MIDI文件格式 1 MIDI 扩展名MID 产业标准 其科学性 兼容性 复杂程度 短小 一个六分多钟 有16个乐器的文件也只是80多KB 缺点是播放效果因软 硬件而异 使用媒体播放机 好的播放效果 电脑必须支持波表功能 2 RMI文件Microsoft公司的MIDI文件格式 包括图片标记和文本 2 6音频卡及其应用2 6 1音频卡功能 1 音频信号的录制与播放完成音频信号的A D和D A变换 将音频信号通过音频卡录入计算机 并以文件的形式进行保存 在需要播放时 只需调出相应的声音文件进行播放 就像普通录放机一样 从而使计算机既有图像显示 又有声音输出 音频卡还可以与CD ROM驱动器相连 实现对CD唱片 VCD MP3音乐的播放 2 6音频卡及其应用2 6 1音频卡功能 音频信号编辑与合成 数字音频编辑器 它可以对声音文件进行多种特殊效果处理 对音乐爱好者都是非常有用的 MIDI接口和音乐合成 乐器数字接口的标准 它规定了电子乐器与计算机之间相互数据通信的协议 通过软件 计算机可以直接对外部电子乐器进行控制和操作 2 6 2音频卡工作原理 2 6 3音频卡安装和使用 2 6 4音频软件的使用 Windows本身自带的录音机 使用它可录音 只能录制1分钟的声音文件 音频卡自带的工具 如果你的计算机安装有声音卡 一般来说都附带有音频软件 网络上下载的工具 如CoolEdit工具 就可以在网上下载免费试用版 类似的工具还有goldwave公司的声音工具 Cakewalk Cubase等 2 7语音输入输出技术 2 7 1语音识别语音识别以语音为研究对象 是语音信号处理的一个重要研究方向 是模式识别的一个分支 其目的就是要让机器具有人的听觉功能 在人机语音通讯中 听懂 人类口述的语言 语音识别的识别内容可分为 狭义的语音识别 SpeechRecognition 排除不同人的发音差异 如发声频率 说话习惯 口音等 力求提取代表语意的共性特征 理解 发音人所说的话 说话人语音识别 SpeakerRecognition 又称为话者识别 是寻求不同说话人的个性特征 以辨认出说话人的身份 语音识别的两大阶段 训练阶段 在机器中建立被识别语音的标准样板或模型库 或者对已存在机器中的样板或模型做特定发音人的适应性修改 识别阶段 将被识别的特征参量提取出来进行模式匹配 相似度最大者即为被识别语音 语音识别的两大阶段 2 7 2语音合成 1 语音合成的基本概念语音合成包含两种可能实现的途径 一种是所谓的录音 重放模式 使机器再生一个预先存入的语音信号 就像普通的录音机一样 不同之处是采用了数字存储技术 另一种可能是采用数字信号处理的方法 将人类发声过程看作是一个模拟声门状态的源 去激励一个表征声道谐振特性的时变数字滤波器 这个源可能是周期脉冲序列 它代表浊音情况下的声带振动 或者是随机噪声序列 代表不出声的清音 语音数据的存储 语音数据的存储形式可分为两大类 波形存储和参数存储 取决于合成算法 为减少数据量 一般要对语音数据进行压缩 波形存储方式 存储数字化的语音波形数据 常用的编码方式有P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论