




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章多媒体技术基础 一 多媒体技术概论二 音频技术三 视频技术四 数字图像技术五 数据压缩技术六 光存储技术及其标准化 一 多媒体技术概论 1 多媒体计算机技术计算机的发明不仅使信息处理变得更精确 灵活 更重要的是拓展了人类处理复杂信息的能力和手段 多媒体技术的出现使信息的载体更加丰富 它标志着第四次信息革命的开始 它也将给人类带来极其深刻的影响 多媒体计算机技术是指用计算机综合处理和控制多媒体信息 文字 声音 图形 图象 动画和活动影像等 使多种信息建立逻辑连接 集成为一个系统并具有交互性 2 智能计算机的研制工作推动了计算机多媒体技术的诞生和发展 研究人员开始认识到人 机界面问题的重要性 良好的人机界面能充分发挥人类理解能力 想象能力以及计算机巨大存储和分析计算能力的优势 多媒体计算机技术可以认为是这种努力的继续和发展 它最终将实现人与计算机的自然交流 3 多媒体技术的主要内容 1 多媒体数据压缩技术 2 多媒体存储技术 3 多媒体专用芯片技术 4 多媒体输入 输出技术 5 多媒体系统软件技术多媒体操作系统 多媒体编辑系统 多媒体数据库管理技术 多媒体信息的混合与重叠技术等 二 音频技术 音频技术主要包括音频数字化 语音处理 合成及识别等技术 音频是多媒体应用的重要组成部分 现实世界的声音来源是相当复杂的 声音不仅与时间和空间有关 还与强度 方向等很多因素有关 在计算机中创建音频时 所能模拟的声音还必须要符合人类的听觉特征和听力范围 声音的数字化原理 声音的模 数转换 ADC 首先需对声波采样 用数字方式记录声音 图中横轴表示时间 纵轴表示振幅 按时间对声波分割从而提取波形的样本 实现这个过程的装置就被称为模 数转换器 声音的数 模转换 DAC 即由数字声音变成模拟的波形 音频系统是将声波波形转换成的连续的二进制数据来还原声音的 实现这个过程的装置被称为数 模转换器 1 模拟音频的数字化过程 数字化的声音易于用计算机软件处理 现在几乎所有的专业化声音录制 编辑器都是数字方式 对模拟音频数字化过程涉及到音频的采样 量化和编码 采样和量化的过程可由A D转换器实现 A D转换器以固定的频率去采样 即每个周期测量和量化信号一次 经采样和量化后声音信号经编码后就成为数字音频信号 可以将其以文件形式保存在计算机的存储介质中 这样的文件一般称为数字声波文件 信息论的奠基者香农 Shannon 指出 在一定条件下 用离散的序列可以完全代表一个连续函数 这是采样定理的基本内容 为实现A D转换 需要把模拟音频信号波形进行分割 这种方法称为采样 Sampling 采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值 把时间上的连续信号变成时间上的离散信号 该时间间隔称为采样周期 其倒数为采样频率 采样频率是指计算机每秒钟采集多少个声音样本 1 采样 采样频率与声音频率之间有一定的关系 只有采样频率高于声音信号最高频率的两倍时 才能把数字信号表示的声音还原成为原来的声音 采样只解决了音频波形信号在时间坐标 即横轴 上把一个波形切成若干个等分的数字化问题 但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小 该值的大小影响音量的高低 我们把对声波波形幅度的数字化表示称之为 量化 量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合 把落入某个区段内的样值归为一类 并赋于相同的量化值 如何分割采样信号的幅度呢 我们还是采取二进制的方式 以 位 bit 或16位 bit 的方式来划分纵轴 也就是说在一个以8位为记录模式的音效中 其纵轴将会被划分为个量化等级 用以记录其幅度大小 2 量化 以下图所示的原始模拟波形为例进行采样和量化 假设采样频率为1000次 秒 即每1 1000秒A D转换器采样一次 其幅度被划分成0到9共10个量化等级 并将其采样的幅度值取最接近0 9之间的一个数来表示 如下图所示 图中每个正方形表示一次采样 D A转换器从上图得到的数值中重构原来信号时 得到下图中蓝色 直线段 线段所示的波形 从图中可以看出 蓝色线与原波形 红色线 相比 其波形的细节部分丢失了很多 这意味着重构后的信号波形有较大的失真 失真在采样过程中是不可避免的 如何减少失真呢 可以直观地看出 我们可以把上图中的波形划分成更为细小的区间 即采用更高的采样频率 同时 增加量化精度 以得到更高的量化等级 即可减少失真的程度 在下图 左 中 采样率和量化等级均提高了一倍 分别为2000次 秒和20个量化等级 在下图 右 中 采样率和量化等级再提高了一倍 分别达到4000次 秒和40个量化等级 从图中可以看出 当用D A转换器重构原来信号时 图中的轮廓线 信号的失真明显减少 信号质量得到了提高 模拟信号量经过采样和量化以后 形成一系列的离散信号 脉冲数字信号 这种脉冲数字信号可以一定的方式进行编码 形成计算机内部运行的数据 所谓编码 就是按照一定的格式把经过采样和量化得到的离散数据记录下来 并在有用的数据中加入一些用于纠错 同步和控制的数据 在数据回放时 可以根据所记录的纠错数据判别读出的声音数据是否有错 如在一定范围内有错 可加以纠正 编码的形式比较多 常用的编码方式是PCM 脉冲调制 脉冲编码调制 PCM 是把模拟信号变换为数字信号的一种调制方式 即把连续输入的模拟信号变换为在时域和振幅上都离散的量 然后将其转化为代码形式传输或存储 3 编码 数字声音质量的主要因素 影响数字化声音质量的因素主要有三个 即采样频率 采样精度和通道个数 1 声音的采样精度 采样精度 即采样位数或采样分辨率 指表示声波采样点幅度值的二进制数的位数 换句话说 采样位数可表示采样点的等级数 若用8bit二进制描述采样点的幅值 则可以将幅值等量分割为256个区 若用16bit二进制分割 则分为65536个区 采样位数越多 可分出的幅度级别越多 则分辨率越高 失真度越小 录制和回放的声音就越真实 但是位数越多 声音质量越高 所占的空间就越大 常用的采样精度分别是8位 16位和32位 国际标准的语音采用8位二进制位编码 根据抽样理论可知 一个数字信源的信噪比大约等于采样精度乘以6分贝 8位的数字系统其信噪比只有48分贝 16位的数字系统的信噪比可达96分贝 信噪比低会出现背景噪声以及失真 因此采样位数越多 保真度越好 2 声音的采样速率 采样速率 即采样频率 指每秒钟采样的次数 单位为Hz 赫兹 奈奎斯特采样定理指出 采样频率高于信号最高频率的两倍 就可以从采样中完全恢复原始信号的波形 对于以11kHz的频率的采样系统 只能恢复的最高音频是5 5kHz 如果要把20Hz 20KHz范围的模拟音频信号变换为二进制数字信号 那么脉冲采样频率至少应为40KHz 其周期为Tp 1 fp 1 40KHz 25 s 流行的采样频率主要为22 05KHz 44 1KHz 48KHz采样速率越高 采样周期越短 单位时间内得到的数据越多 对声音的表示越精确 音质越真实 所以采样频率决定音质清晰 悦耳 噪音的程度 但高采样率的数据占有很大空间 3 声音的通道个数 声音的采样数据还与声道数有关 单声道只有一个数据流 立体声的数据流至少在两个以上 由于立体声声音具有多声道 多方向的特征 因此 声音的播放在时间和空间性能方面都能显示更好的效果 但相应数据量将成倍增加 采样数据量 要从模拟声音中获得高质量的数字音频 必须提高采样的分辨率和频率 以采集更多的信号样本 采样数据的存储容量计算公式如下 存储容量 字节 采样频率 采样精度 8 声道数 时间 表6 2列出了1分钟的双声道声音 采用不同采样频率和精度所需的存储容量 例如 采用44 1kHz采样频率和16位采样精度时 数字化后需要的存贮容量为 44 1 16 8 2 60 10 584B 表6 2几种数字化声音的信息 为了减少数据量 采样且量化后的数据常要进行压缩 数字音频的编码必须具有压缩声音信息的能力 压缩方法自适应脉冲编码调制 ADPCM 法 ADPCM压缩编码方案的特点是 信噪比高 数据压缩倍率可达2 5倍 而不会明显失真 2 音频文件的格式 1 波形格式 WAV文件又称波形文件 来源于对声音模拟波形的采样 并以不同的量化位数把这些采样点的值轮换成二进制数 然后存入磁盘 这就产生了波形文件 WAV文件用于保存Windows平台的音频信息资源 被Windows平台及其应用程序所广泛支持 Wave格式支持多种压缩算法 支持多种音频位数 采样频率和声道 是PC机上最为流行的声音文件格式 但其文件尺寸较大 多用于存储简短的声音片断 2 VOC文件VOC文件是Creative公司所使用的标准音频文件格式 多用于保存CreativeSoundBlaster 创新声霸 系列声卡所采集的声音数据 被Windows平台和DOS平台所支持 MIDI文件所包含的信息完全符合GS的标准 所以 不仅在电脑上可以处理和重现MIDI音乐 也可以在不同的乐器间传输并且互相控制 MIDI文件储存着MIDI资料和命令 包括音色 音符 时间码 速度 调号 拍号 键号等乐谱指令 能保存多达16个通道的音乐信息 按照指令中时间码的顺序 音序器能够精确地按时间合成音乐 再现文件内部的乐谱指令所包含的音乐旋律 3 MIDI格式 MIDI事件所谓MIDI事件 就是指当用户按下鼠标按钮 键盘或一个琴键的动作 而这个动作将激活它所对应消息数据的传递 这些消息包括声音 通道和模式消息数据 标准的MIDI格式的文件扩展名是mid 包括格式0和格式1 mid格式可以用任何MIDI软件进行创建 编辑和处理 但不能保存如强弱 其它符号 歌词等信息 为了控制软件和硬件设备 可以在文件中加入许多其他的信息 并随其它信息一起保存下来 这种文件格式就是非标准的MIDI文件 由软件开发商自己制定的 在这些非标准的MIDI文件里可以记录一些 mid 文件无法记录的内容 例如 可以记录强弱 其它符号 歌词的tri格式 可以记录歌词 表情等内容的 wrk Cakewalk软件 格式 Band In a box的 sgu 格式 自定格式的文件可以把效果器代码和参数 音场 指器材所再生的乐队所排列的形状 和位向 播放方向 混响度等等信息通过系统码的方式保存在文件中 但当将自定格式的文件转存为标准MIDI格式 将会忽略这些信息 有许多播放器 如图5 11所示的WinGroove RolandVirtualSoundCanvas和YAMAHAS YXGPlayer等软音源播放器 它们都支持标准的MIDI文件 并且在其中安装了软波表 从而可获得较好的效果 4 压缩格式 压缩音频文件是将音频文件按一定的方式压缩而成的文件 它可降低原有文件的存储空间 更加便于存储和传递 mp3 MP3即MPEG1Layer3 MovingPictureExpertsGroup AudioLayerIII 是Fraunhofer IIS研究所的研究成果 由于使用了MPEG1AudioLayer3技术 可将音频文件以1 10至1 12的压缩率进行压缩 这种技术主要是利用了知觉音频编码技术 削减了音乐中人耳所听不到的成分 尽可能保持原有的音质 MP3文件的特点是文件存储空间和音质损坏都较小 每分钟MP3格式的音乐文件大约占有1MB左右 便于存储和网上传播 标准的MP3压缩比是10 1 也可以不同的比率进行压缩 压缩得越多 声音质量下降也将越多 表5 3MPEG1Audio音频文件压缩比率和播放媒体最低位率 MP3 Layer3 编码是MPEG1Audio音频压缩标准之一 mp3PRO 随着网络上收听声音和收看视频的需求不断增加 网络流媒体Real和WindowsMedia格式传播的媒体质量不断提高 特别是Microsoft推出的WMA格式可使相同内容的MP3文件缩小至原来的一半大小 极大地冲击着MP3格式在流行应用中的地位 图5 12Thomsonmp3PRO播放器 mp3PRO的特点是降低了压缩比 并可以在64KB s速率下最大限度地保持压缩前的音质 音乐文件大小只有原MP3文件的1 2 同时 MP3Pro实现了高低版本的完全兼容 所以它的文件类型也是mp3 高版本的MP3Pro播放器也可以播放低版本的MP3文件 低版本的播放器也可以播放高版本的MP3Pro文件 但只能播放出mp3的音质 RealMedia格式 RealMedia是网络流媒体文件格式 其中包含RA RMA这两个音频文件类型是由RealNetworks公司推出的 特点是可以在低达28 8kbps的带宽下提供足够好的音质 较成功的RealMedia播放器是RealOnePlayer 其界面如图所示 可以获得许多服务 包括录制音频 播放CD或音频文件 管理文件 刻录CD 并具有在网上搜索和播放流媒体 收听电台 收看节目频道等功能 在网络传输过程中 流媒体是被分割处理的 首先要将原来的音频分割成多个带有顺序标记的小数据包 经过网络的实时传递后 在接收处将重新按顺序组织这些数据包以提供播放 WindowsMedia Microsoft推出的WindowsMedia 也是一种网络流媒体技术 WindowsMedia包含了WindowsMediaAudio Video编码和解码器 可选集成数字权限管理系统和文件容器 其特点是高质量 高安全性 最全面的数字媒体格式 可用于PC 机顶盒和便携式设备上的流式处理和下载并播放等应用程序 WindowsMedia使用高级的系统格式文件容器 支持高达1700万TB的文件大小 在一个文件中可存储音频 多比特率视频 元数据 如文件的标题和作者 以及索引和脚本命令 为了确保内容与兼容的播放机相关联 提供了多种不同的文件扩展名 如表5 4所示 WMA用于包括利用WindowsMediaAudio编解码器压缩的音频的文件 WMV用于同时包括利用WindowsMediaAudio和WindowsMediaVideo编解码器压缩的音频和视频的文件 利用其他编解码器压缩的内容应该存储在文件中 应使用ASF扩展名 表5 4WindowsMedia支持的文件扩展名 常见音频格式的小结 WAVwavMicrosoft可通过增加驱动程序而支持各种各样的编码技术 不适于传播和用作聆听 支持的编码技术大部分只能在Windows平台下使用 音频原始素材保存 mp3 MPEG音频 mp3 包括mp2mp1mpa等 Fraunhofer IIS在低至128kbps的比特率下提供接近CD音质的音频质量 广泛的支持 出现得比较早 因此音质不是很好 一般聆听和高保真聆听 mp3PROmp3Fraunhofer IISCodingTechnologiesThomsonMultimedia在低至64kbps的比特率下提供接近CD音质的音频质量 专利费用较高 支持的软件和硬件不多 一般聆听和高保真聆听 RealMediara rmaRealNetworks在极低的比特率环境下提供可听的音频质量 不适于除网络传播之外的用途 音质不是很好 网络音频流传输 WindowsMediawma asfMicrosoft功能齐全 使用方便 同时支持无失真 有失真 语音压缩方式 失真压缩方式下音质不高 必须在Windows平台下才能使用 音频档案级别保存 一般聆听 网络音频流传输 MIDIMIDMIDIRMIXMIMIDIAssociation音频数据为乐器的演奏控制 通常不带有音频采样 没有波表硬件或软件配合时播放效果不佳 与电子乐器的数据交互 乐曲创作等 OggVorbisOGGXiphFoundation在低至64kbps的比特率下提供接近CD音质的音频质量 开放源代码 不需要支付使用许可费用 跨平台 发展较慢 推广力度不足 一般聆听和高保真聆听 VQFvqftvqNTTHumanInterfaceLaboratories在低至96kbps的比特率下提供接近CD音质的音频质量 相关软件太少 一般聆听 AiffaiffApple可通过增加驱动程序而支持各种各样的编码技术一般限于苹果电脑平台使用 苹果电脑平台下音频原始素材保存 AuauSunUnix和Java平台下的标准文件格式 支持的压缩技术太少且音频数据格式受文件格式本身局限 Unix和Java平台下音频原始素材保存 音频文件的获取可通过3种途径 通过音频软件可以录音获取声音或语音 通过网络或外接设备获取 例如网上下载 电视接入 CD设备或CD光盘抓
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 固有建筑改造方案设计要求(3篇)
- 高大建筑调色方案设计(3篇)
- 网格布课件教学课件
- 网格员食品培训课件
- 2025年康复治疗学疾病康复方案分析答案及解析
- 2025年肿瘤科治疗方案选择综合评估卷答案及解析
- 2025年学历类自考专业(护理)外科护理学(一)-急救护理学参考题库含答案解析(5套)
- 科技券申请攻略:2025年资金申请策略与市场推广策略报告
- 2025年学历类自考专业(建筑工程)建筑结构试验-建筑施工(一)参考题库含答案解析(5套)
- 2025年学历类自考专业(建筑工程)建筑施工(一)-土力学及地基基础参考题库含答案解析(5套)
- 中国兽药典三部 2020年版
- GB/T 4669-2008纺织品机织物单位长度质量和单位面积质量的测定
- 药物竹罐临床应用课件
- 2022年咸阳经开城市发展集团有限公司招聘笔试试题及答案解析
- 不等式的基本性质说课课件
- 计量检定员考试题库计量基础知识
- T∕CTSS 24-2021 烘青栗香绿茶加工技术规程
- 江苏省住宅工程质量分户验收规则完整版课件
- 学校校舍安全排查台账
- DB32T 4252-2021 民用建筑燃气安全规范
- ISO45001职业健康安全管理体系手册和程序文件
评论
0/150
提交评论