多媒体技术与应用.ppt_第1页
多媒体技术与应用.ppt_第2页
多媒体技术与应用.ppt_第3页
多媒体技术与应用.ppt_第4页
多媒体技术与应用.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章 多媒体数据压缩技术,3.1 数据压缩技术概述,3.1 多媒体数据压缩技术概述,3.1.1 多媒体信息数字化,3.1.2 为什么进行数据压缩,3.1.3 数据压缩分类,3.1.4 数据压缩技术的性能指标,3.1 多媒体数据压缩技术概述,3.1.1 多媒体信息数字化,3.1.2 为什么进行数据压缩,3.1.3 数据压缩分类,3.1.4 数据压缩技术的性能指标,媒体信息的表示:,3.1.1 多媒体信息数字化,用声音录制软件记录的英文单词“Hello”的示波器显示波形,声音=f (频率、幅度、时间),媒体信息的表示:,3.1.1 多媒体信息数字化,图像=f (位置、颜色),模拟信号数字化:,3.1.1 多媒体信息数字化,时间轴上离散化,幅度轴上离散化,编码,3.1.1 多媒体信息数字化,采样是在时间轴上对模拟信号进行离散化。采样所得的一系列离散的抽样数值,把时间上连续的模拟信号变成离散的有限个样值的信号。,采样,3.1.1 多媒体信息数字化,奈奎斯特定理 对于一个包含最高频率f0的模拟信号,选择的采样频率f 满足 f= 2f0时,经过取样后的离散信号能够包含原模拟信号的全部信息,并且,经过反变换和低通滤波,可以不失真地恢复出原始信号。,采样定理,采样定理应用,3.1.1 多媒体信息数字化,例:CD音响的采样频率选用44.1kHz。,含义: CD音响的最高频率为: 44.1kHz 2 = 22.05kHz,人耳听觉频率范围:20Hz 20kHz,3.1.1 多媒体信息数字化,量化是在幅度轴上把连续值的模拟信号变成为离散值的数字信号 。,量化,量化步骤:,3.1.1 多媒体信息数字化,设信号电压的整个动态变化范围为A,共分为M个量化等级;每个量化等级为 A,则有: A =A/M,量化等级通常用二进制的位数n表示, 它与十进制数M之间的关系为 :M = 2n 或 n =log2M ,通常称为量化位数。,量化等级的计算示例:,3.1.1 多媒体信息数字化,如图案例中,信号最高幅值为A=10。,若采用 8 位 (bit) 量化,相应的十进制量化等级M为: M=256(即2的8次方) A= A/M=10/256=0.04,若采用4位 (bit) 量化,相应的十进制量化等级M为:M=16 (即2的4次方) A= A/M=10/16=0.63,3.1.1 多媒体信息数字化,量化的作用是在图像质量或声音质量达到一定保真度的前提下,舍弃那些对视觉或听觉影响不大的信息。 量化的过程是模拟信号到数字信号的映射。模拟量是连续量,而数字量是离散量,因此量化操作实质上是用有限的离散量代替无限的连续模拟量的多对一的映射操作。,量化,3.1.1 多媒体信息数字化,编码是对代表特定量化等级的比较器的输出状态组合,变换成一个n位表示的二进制数码,即每一组二进制码代表一个取样值的量化等级。,编码,练习题,例:CD音响的采样频率选用44.1kHz,16位二进制数量化等级,2声道立体声,计算数字化后所占的存储容量。如果一首歌曲长度为4分钟,一张CD容量为600MB,那么一张CD能够存放几首这样的歌曲。,解:每秒钟的量化量: 44.1KHz1628176.4KB 4分钟的容量: 176.4KB60442336KB=42.336MB 一张CD存放的歌曲: 600MB 42.336MB 14,3.1 多媒体数据压缩技术概述,3.1.1 多媒体信息数字化,3.1.2 为什么进行数据压缩,3.1.3 数据压缩分类,3.1.4 数据压缩技术的性能指标,3.1 多媒体数据压缩技术概述,3.1.1 多媒体信息数字化,3.1.2 为什么进行数据压缩,3.1.3 数据压缩分类,3.1.4 数据压缩技术的性能指标,战国时,魏将庞涓率军围攻赵国都城邯郸。赵求救于齐,齐王命田忌、孙膑率军往救。魏军主力在赵国,内部空虚,孙膑就带兵攻打魏国都城大梁,因而,魏军不得不从邯郸撤军,回救本国,路经桂陵要隘,又遭齐兵截击,几乎全军覆没。这个典故是指采用包抄敌人的后方来迫使它撤兵的战术。,围魏救赵,使用发布者和接收者皆认可的规则描述信息,目的,最少的符号描述尽可能多的信息,3.1.2 为什么进行数据压缩,3.1.2 为什么进行数据压缩,数据压缩就是以最少量的数码符号表示信源所发出的信号,减少容纳给定信息或数据采样集合的信号空间。通俗来说,数据压缩就是用最少的符号表达最丰富的信息内容。实际上,这种数据压缩思想在我们日常生活中非常常见。,什么是数据压缩?,3.1.2 为什么进行数据压缩,在多媒体计算系统中,传输和处理的数字化声音、图片、影像视频等信息,数据量非常巨大。,数据压缩必要性,数据压缩的必要性,体现在如下几个方面: 1. 量化后的多媒体信息数据量巨大 2. 有效利用存储器存储容量 3. 提高通信线路的传输效率,3.1.2 为什么进行数据压缩,数据压缩的可能性,主要表现在以下二个方面: 数据冗余度:音频信号和视频信号等原始数据通常存在很多用处不大的空间,空间越多,数据的“冗余度”也越大。通过数据的压缩,将把这些不用的空间去掉。 人类不敏感因素:一般而言,人类对某些频率的音频信号不敏感,有无这些频率的音频,在听觉上影响不大,因此就可去掉这些不敏感的成分,以使数据量减少。根据人眼对彩色细节分辨能力低的特点,通过减少某些人眼不敏感色彩也可以实现图像存储数据量的减少。,3.1.2 为什么进行数据压缩,数据压缩的可能性,信息量与数据量的关系: 信息论中,编码数据量与所表示的信息量以及冗余信息之间的关系为: 数据量信息量冗余量,3.1.2 为什么进行数据压缩,数据压缩的可能性,熵,如果有一个系统S内存在多个事件S = E1,.,En, 每个事件的机率分布 P = p1, ., pn, 则每个事件本身的信息量为:,Ie = log2pi (对数以2为底,单位是位元(bit)),整个系统的平均信息量(熵)为:,例1:英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为:,例2:汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为:,3.1.2 为什么进行数据压缩,数据压缩的可能性,数据冗余的类别,空间冗余 时间冗余 信息熵冗余 视觉冗余 听觉冗余 结构冗余 知识冗余,空间冗余,在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。,时间冗余,这是序列图像(电视图像、动画)和言语数据中所经常包含的冗余。图像序列中的两幅相邻的图像,后一幅图像与前一幅图像之间有较大的相关性,这反映为时间冗余。同理,在言语中,由于人在说话时发音的音频是一连续的渐变过程,而不是一个完全在时间上独立的过程,因而存在时间冗余。,例如大家常见的室内情景电视剧,故事主要发生在特定的房间,故事的发展过程中,背景(房间和家具)一直是相同的,只有故事中的人物的动作和位置在不断发生变化。,熵冗余,同样长度的编码可以表示不同的信息。 例如对信源进行编码时,分配给第i个码元类的比特数b(yi)=-logpi,才能使编码后单位数据量等于其信源熵,即达到其压缩极限。但实际中各码元类的先验概率很难预知,比特分配不能达到最佳。实际单位数据量要大于信息量,即存在信息冗余熵。,视觉冗余 人类的视觉系统由于受生理特性的限制,对于图像的注意是非均匀的,人对细微的颜色差异感觉不明显。 例如,人类视觉的一般分辨能力为26灰度等级,而一般的图像的量化采用的是28灰度等级,即存在视觉冗余。 人眼对亮度变化敏感,而对色度的变化相对不敏感 在高亮度区,人眼对亮度变化敏感度下降 对物体边缘敏感,内部区域相对不敏感 对整体结构敏感,而对内部细节相对不敏感,听觉冗余 人耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。,人耳听觉频率范围:20Hz 20kHz,结构冗余 在某些场景中,存在着明显的图像分布模式,这种分布模式称作结构。图像中重复出现或相近的纹理结构, 例如:方格状的地板,蜂窝,砖墙等。,知识冗余 有些图像的理解与某些知识有相当大的相关性, 这类规律性的结构可以由先验知识和背景知识得到。,例如,下图中是一些明星的漫画形象。这些画像尽管明星们的五官都被夸大和扭曲了,但是熟悉他们的人仍然能够识别出来。这说明人类根据先验知识,只使用少量的图像特征就能对其内容进行识别。,3.1 多媒体数据压缩技术概述,3.1.1 多媒体信息数字化,3.1.2 为什么进行数据压缩,3.1.3 数据压缩分类,3.1.4 数据压缩技术的性能指标,3.1 多媒体数据压缩技术概述,3.1.1 多媒体信息数字化,3.1.2 为什么进行数据压缩,3.1.3 数据压缩分类,3.1.4 数据压缩技术的性能指标,3.1.3 数据压缩分类,多媒体数据压缩通常是指对模拟信号(声音、图像和视频)数字化后获得的数据的压缩,而对于与文字和字符类媒体数据的压缩称为文本数据压缩。普通文本数据的压缩,必须是无损失的。 多媒体模拟信号在数字化的过程中引入了误差,在压缩阶段应该也允许有误差,只要误差的级别不超过数字化的阶段就可以。 因此,多媒体数据的压缩必须在追求压缩比率提高的同时充分考虑到视觉和听觉的感受,而普通数据的压缩则无此顾虑。,按照压缩效果分类: 有损压缩和无损压缩,3.1.3 数据压缩分类,按照压缩原理分类: 统计编码、预测编码、变换编码、 混合编码以及其他编码等五种。,指原数据经过压缩后,还能完全恢复到压缩前的原样,信息不受损失。无损压缩要求解压以后的数据和原始数据完全一致,是一种可逆压缩。通常无损压缩的压缩比小于有损数据压缩的压缩比。目前,无损压缩算法一般可以把普通文件的数据压缩到原来的1/21/4。,无损数据压缩(Lossless Compression),无损压缩算法: (1) 进程长度编码 (2) 霍夫曼编码 (3) 算术编码 (4) 词典编码,3.1.3 数据压缩分类,指原数据经过压缩后,不能完全恢复到压缩前的原样,信息受到损失。解压以后的数据和原始数据不完全一致,所以有损压缩是不可逆压缩方式,但是有损压缩方法能够获得较大的压缩比。,有损数据压缩(Loss Compression),有损压缩算法: (1) 离散余弦变换 (2) 分形压缩 (3) 小波压缩 (4) 向量量化 (5)线性预测编码,3.1.3 数据压缩分类,3.1.3 数据压缩分类,压缩举例 该图片采用不同压缩方法得到的文件大小分别为 :,bmp格式:545KB jpg格式:38KB gif格式:57KB,结论:尽管gif图像的颜色层次损失最大,但是生成的文件大小并非最小;而jpg图像文件的最小,但颜色层次损失并非最大,如果不仔细比较很难发现图像的细节损失.这说明jpg图像的压缩算法比gif的好。,3.1.3 数据压缩分类,按照压缩原理分类:,3.1.3 数据压缩分类,按照压缩原理分类:,统计编码:根据信息出现概率的分布特性而进行的编码。 预测编码:根据离散信号之间存在一定相关性的特点,利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差(预测误差)进行编码。 变换编码:是将图像的光强矩阵变换到系数空间上,然后对系数进行编码。 混合编码:混合编码是利用了各种单一压缩算法的长处,以求在压缩比、压缩效率及保真度之间取得最佳折衷。 其他编码:使用其他不同数学变换的编码方法,3.1 多媒体数据压缩技术概述,3.1.1 多媒体信息数字化,3.1.2 为什么进行数据压缩,3.1.3 数据压缩分类,3.1.4 数据压缩技术的性能指标,3.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论