多媒体数据压缩编码技术.ppt_第1页
多媒体数据压缩编码技术.ppt_第2页
多媒体数据压缩编码技术.ppt_第3页
多媒体数据压缩编码技术.ppt_第4页
多媒体数据压缩编码技术.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第4章 多媒体数据压缩编码技术,4.1压缩概论,信息时代的重要特征是信息的数字化,数字化了的信息带来了“信息爆炸”。 数字计算机面临的是数值、文字、语言、音乐、图形、动画、电视视频图像等多种媒体承载的由模拟量转化成数字量信息的吞吐、存储和传输的问题。数字化了的视频和音频信号的数量之大非常惊人。 多媒体数据存在大量的冗余,通过去除那些冗余数据可以使原始数据极大地减少,因此,多媒体数据压缩编码技术就是研究如何利用多媒体数据的冗余性来减少数据量的方法。,1. 压缩的需要,一页印在B5纸上的文件,若以中等分辨率(300dpi)扫描采样,其数据量约6.61MB/页,一片650MB的CD-ROM可存放98

2、页。 双通道立体声激光唱盘(CD-DA),采样频率为44.1kHz,采样精度16位/样本,一个650MB的CD-ROM可存储约一个小时的音乐。 数字音频磁带(DAT),采样频率48kHz,采样精度16位/样本,一个650M的CD-ROM,可存约2小时的节目。,1.压缩的需要,源输入格式(source input formation,SIF),NTSC制、色彩、4:4:4采样: -每帧数据量3522403=253KB -每秒数据量(位率)25330=7.603MB/s -一片CD-ROM节目时间(6507.706)/60=1.42分/片 国际无线电咨询委员会(international cons

3、ultative committee for radio, ICCR)格式,PAL制、4:4:4采样: -每帧数据量7205763=1.24MB -每秒数据量1.2425=31.3MB/s -一片CD-ROM节目时间65031.1=20.9秒/片,1.压缩的需要,这样大的数据量,无疑给存储器的存储容量、通信干线的信道传输率以及计算机的速度都增加了极大的压力。 解决这一问题,单纯用扩大存储器容量、增加通信干线的传输率的办法是不现实的。数据压缩技术是个行之有效的方法。 通过数据压缩手段把信息数据量压下来,以压缩形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时使计算机实时处理音频、

4、视频信息,以保证播放出高质量的视频、音频节目成为可能。,2.压缩的可能,空间冗余 -同一景物表面上各采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种空间连贯性,从而产生了空间冗余。 -可以通过改变物体表面颜色的像素存储方式来利用空间连贯性,达到减少数据量的目的。,2.压缩的可能,时间冗余 -这是序列图像(电视图像、运动图像)中经常包含的冗余。 -序列图像一般为位于一时间轴区间内的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于

5、相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。,2.压缩的可能,结构冗余 -在有些图像的纹理区,图像的像素值存在着明显的分布模式,例如,方格状的地板图案等。我们称此为结构冗余。 -已知分布模式,可以通过某一过程生成图像。,2.压缩的可能,知识冗余 -有些图像的理解与某些知识有相当大的相关性。例如,人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。 -根据已有的知识,对某些图像中所包含的物体,我们可以构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。,2.

6、压缩的可能,视觉冗余 -事实表明,人类的视觉系统对图像场的敏感性是非均匀和非线性的。然而,在记录原始的图像数据时,通常假定视觉系统是线性和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码(即把视觉敏感和不敏感的部分区分开来编码)更多的数据,这就是视觉冗余。,-通过大量实验,发现以下视觉的非均匀特征。 视觉系统对图像的亮度和色彩度的敏感性相差很大; 随着亮度的增加,视觉系统对量化误差的敏感度降低; 人眼的视觉系统在图像的边缘和非边缘区域分开来处理; 人类的视觉系统总是把视网膜上的图像分解成若干个空间有向的频率通道后再进一步处理。,2.压缩的可能,图像区域的相同性冗余 -它是指在图像

7、中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。,-在以上的情况下,记录了一个区域中各像素的颜色值,则与其相同或相近的其他区域就不在记录其中各像素的值。 -向量量化方法就是针对这种冗余性的图像压缩编码方法。,2.压缩的可能,纹理的统计冗余 -有些图像纹理尽管不严格服从某一分布规律,但是它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量,所以我们称之为纹理的统计冗余。,3.冗余的基本概念,冗余信息所具有的各种性质中多余的无用空间 冗余度多余的无用空间的程度 信息量与冗余的关系,数据冗余的例子,你的妻子,Helen,将于明天晚上

8、6点零5分在上海的虹桥机场接你。 (23*2+10=56个半角字符) 你的妻子将于明天晚上 6点零5分在虹桥机场接你。 (20*2+3=43个半角字符) Helen将于明晚6点在虹桥接你。 (10*2+7=27个半角字符) 结论:只要接收端不会产生误解,就可以减少承载信息的数据量。,数据冗余的例子,描述语言1)“这是一幅 2*2的图像,图像的第一个像素是红的,第二个像素是红的,第三个像素是红的,第四个像素是红的”。,2)“这是一幅2*2的图 像,整幅图都是红色的”。,由此我们知道,整理图 像的描述方法可以达到 压缩的目的。,4.数据压缩方法的分类,有损压缩和无损压缩。 对称压缩和不对称压缩。

9、根据编码原理进行分类,大致有预测编码、变换编码、统计编码、分析-合成编码和其它一些编码方法。,有损压缩与无损压缩,无损压缩算法是为保留原始多媒体对象(包括图像、语音和视频)而设计的。在无损压缩中,数据在压缩或解压缩过程中不会改变或损失,解压缩产生的数据是对原始对象的完整复制。但是当图像的冗余度很少(即同类像素重复性很小)时,用无损压缩技术不能得到可接受的结果。 有损压缩会造成一些信息的损失,关键问题是看这种损失对图像质量带来的影响。只要这种损失被限制在允许的范围内,有损压缩就是可接受的。有损压缩技术主要的应用领域是在影像节目、可视电话会议和多媒体网络这样由音频、图像和视频组成的多媒体应用中,并

10、且得到了广泛的应用。,对称压缩和不对称压缩,对称压缩中,压缩的算法和解压缩的算法是一样的,是一种可逆操作。对称压缩的优点在于双方都以同一种速度进行操作,例如在视频会议这种实时传递的系统便采用对称压缩技术。发送方将实况视频信号用某种算法加以压缩,然后通过通信介质进行传输。接收端收到信号后,再使用同样的算法按逆运算进行解压缩,使图像解码后重现出来。 不对称压缩是指压缩和解压缩的运算速率是互不相同的。例如VCD的制作与播放便是典型的不对称压缩的例子。在制作VCD时,将一部电影压缩到VCD盘片上可能需要花费十几个小时或更多的时间,而在播放VCD时,为保证视频的流畅,其解压缩的速度却很快。,5. 数据压

11、缩技术的性能指标,压缩比压缩过程中输入数据量和输出数据量之比。例如,一幅1024768的黑白图像,每个像素8b,经数据压缩后平均每个像素0.5b,则压缩倍数为16:1。值得注意的是,这种度量方法必须指明输入/输出的显示形式。例如,压缩系统的输入是512480,每个像素24b,即输入的数据量是737280B,若输出15000B的位流,则压缩比大约为49:1。如果输出图像只有256240个像素,其分辨率只有输入的1/4,则在同分辨率的情况下,压缩比应为12:1。也可以计算出压缩比特流中每个像素所需的比特数,同压缩之前的每个像素的比特数进行比较,进而求出压缩比。,5. 数据压缩技术的性能指标,图像质

12、量虽然有损压缩可获得较大的压缩比,但压缩比过高,还原后的图像质量就可能降低。图像质量的评估法常采用客观评估和主观评估两种方法。 主观评估基于人的视觉感知,因为观察者作为最终视觉信宿,他们能对恢复图像的质量作出直观的判断。一种方法是进行主观测试,让观察者通过观测一系列恢复图像,并与原图像进行比较,再根据损伤的可见程度进行评级,以判断哪种压缩方法的失真少。(表4-2) 客观评估是通过一种具体的算法来统计多媒体数据压缩结果的损失。例如采用纯误差测度,即原始图像与恢复图像之间的简单数学统计差别。尽管这种方法将误差量化表达,但并不能反映观察者对误差的视觉感知。,5. 数据压缩技术的性能指标,压缩与解压缩

13、的速度 压缩和解压缩的速度是压缩系统的两项单独的性能度量。在有些应用中,压缩和解压缩都需要实时进行,如电视会议的图像传输。在有些应用中,压缩可以用非实时压缩,而只要解压缩是实时的,如多媒体CD-ROM的节目制作。从目前开发的压缩技术来看,一般压缩的计算量比解压缩要大。 压缩的速度不仅与采用的压缩方法有关,而且与快速算法的计算量有关,如果在算法上有较大的突破,无疑将对多媒体的开发与应用产生很大的影响。,6. 编解码过程,4.2 预测编码,预测编码是根据某一模型利用以往的样本值对于新样本值进行预测,然后将样本的实际值与预测值相减得到一个误差值,对这一误差值进行编码。如果模型足够好且样本序列在时间上

14、相关性较强,那么误差信号的幅度将远远小于原始信号,从而可以用较少的电平类对其差值量化得到较大的数据压缩结果。,预测编码的基本原理,预测编码方法原理,是从相邻像素之间有强的相关性特点考虑的。比如当前像素的灰度或颜色信号,数值上与其相邻像素总是比较接近,除非处于边界状态。那么,当前像素的灰度或颜色信号的数值,可用前面一出现的像素的值,进行预测(估计),得到一个预测值(估计值)将实际值与预测值求差,对这个差值信号进行编码、传送,这种编码方法称为预测编码方法。 两种典型的预测编码是DPCM和ADPCM,它们适合于声音、图像数据的压缩。因为这些数据均由采样得到,相邻样值之间的差不会很大,可用较少的位来表

15、示差值。,4.2.1 DPCM编码,-一幅二维静止图像,设空间坐标 像素点的实际灰度为 , 是根据以前已出现的像素点的灰度对该点的预测灰度,也称预测值或估计值。计算预测值的像素,可以是同一扫描行的前几个像素,或者是前几行上的像素,甚至是前几帧的相邻像素。实际值和预测值之间的差值,以下式表示: 将此差值定义为预测误差。由于图像像素之间有极强的相关性,所以这个预测误差是很小的。编码时,不是对像素点的实际灰度 进行编码,而是对预测误差信号 进行量化、编码、发送,解压时也使用同样的预测器,且将这个预测值和已存储的已量化差值相加,产生近似的原始信号,基本恢复原始数据。,4.2.1 DPCM的工作原理图,

16、最佳线性预测,如图为像素 的预测域图,途中标出 像素的3个相邻像素, 由先前(同行一点,上一行两点)三点预测,定义为 构成三阶预测器。,其中,a1,a2,a3称预测系数,都是待定参数。如果预测器中预测系数是固定不变的常数,称之为线性预测。,最佳线性预测,预测误差 线性预测器中,a1,a2,a3是待定参数,当a1,a2,a3满足使预测误差最小,且保持固定不变时,便构成最佳线性预测器。,量化器特点,针对预测误差的特点和人眼视觉特性,在图像预测编码中往往采用非均匀量化器,即在预测误差绝对值小的部分量化的较精细,而在绝对值大的部分量化的较精糙。 与均匀量化相比,在输入信号动态范围和量化级数相同的条件下

17、,非均匀量化给出的图像主观评价质量较高;或者在具有相同的输入信号动态范围,相同的图像主观评价质量下,非均匀量化输出的比特数较低,DPCM特点,设计简单,较容易用硬件实现,故广泛用于图像压缩编码系统。 DPCM编码中的预测系统和量化器参数一旦设计好后,整幅图都用这套参数,不再改变,当遇到图像的某些区域输出差别很大时,会出现图像噪声(就是图像的偏差)。,4.2.2 ADPCM编码,在DPCM系统中,是预测系数和量化器参数一次设计好后不再改变,对于图像非平坦区和边缘处会导致令人讨厌的噪声,因此引入自适应差值脉冲编码调制(Adaptive DPCM, ADPCM)系统。 自适应技术的概念是预测器的预测

18、系数和量化器的量化参数,能够根据图像的局部区域分布特点而自动调整。 ADPCM系统包括:自适应预测,即预测系数的自适应调整;自适应量化,即量化器参数的自适应调整两部分。,1 自适应预测,一个三阶预测器的预测值计算公式为 现在增加一个可变参数“m”,得 式中m是一个自适应参数,m的取值依据量化误差的大小自适应调整。,1 自适应预测,设量化器最大输出为 ,最小输出为 ,某一个预测误差的量化输出为 当 m不变 m自动变大 m自动减小 M自动增大,使 随之增大,预测误差减小,使斜率过载尽快收敛;m自动减小,使 随之减小,预测误差加大,使量化器输出不致正负跳变,减轻颗粒噪声。,2 自适应量化,自适应量化

19、的概念是,根据图像局部区域的特点,自适应地修改和调整量化器的参数。 其基本思想是:利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。,ADPCM简化的编码框图,利用ADPCM“差值”来调整量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值。,4.3变换编码,图像的空间相关性表明相邻各点的取值往往相近或者相同,从频域的观点来看,意味着图像信号的能量(信号的能量指信号传递能力的大小,频率越高(短波)衰减越历害,传递距离越小)主要集

20、中在低频附近。 在变换编码中,原始数据从初始时间或空间域进行数学变换,使信号中的低频部分在频域中比较集中,再进行采样编码压缩数据;信号中的高频部分比较分散,可以粗处理,甚至不处理。该变换过程是可逆的,使用反变换可以恢复原始数据,但是在编码过程中有量化失真,所以变换编码属于有损压缩(编码)。,4.3.2 离散余弦变换,DCT变换公式为: 正变换: 逆变换: 其中:,4.4 统计编码,其基本原理是根据信源的频率进行编码。对于出现频率大的符号用较少的位数来表示,而对于出现频率小的符号用较多位数来表示。这种方法的压缩率取决符号的分布频率,分布越集中压缩效果越好。 统计编码包括香农-范诺(Shannon

21、-Fano)编码、Huffman编码、算术编码、行程编码、LZW编码等,属于无失真编码。,4.4.2 香农-范诺编码,P102,4.4.2 香农-范诺编码,习题:,4.3.3 霍夫曼(Huffman)编码,最佳编码定理 定理:在变字长码中,对于出现概率大的信息符号编以短字长的码,对于出现概率小的信息符号编以长字长的码,如果码字长度严格按照符号概率的大小的相反顺序排列,则平均码字长度一定小于按任何其他符号顺序排列方式得到的码字长度。,4.3.3 霍夫曼(Huffman)编码,P103,4.3.3 霍夫曼(Huffman)编码,Huffman编码举例,信源X的符号及其概率:,编码过程:,x1 0.

22、20 x2 0.19 x3 0.18 x4 0.17 x5 0.15 x6 0.10 x7 0.005 x8 0.005,编码结果:,01,00,111,110,101,1001,10001,10000,编码结果:,平均码长:,4.3.3 霍夫曼(Huffman)编码,4.3.3 霍夫曼(Huffman)编码,上述过程的等价编码树:,注意:,它们都属于不对称、无损、变码长的熵编码。它们的码长虽然都是可变的,但是都不需要另外附加同步代码,因为所有符号的代码都具有唯一性。如果事先编制一本解释各种代码意义的码簿,就可以根据码簿对代码进行译码。 与香农-范诺编码相比,哈夫曼编码方法的效率一般会高一些。

23、 两者存在的问题: 没有错误保护机制 属于要变长码,很难在压缩文件中直接对指定音频或图像位置的内容进行译码。,香农-范诺编码与霍夫曼编码,4.4.4 算术编码,主要优点是克服了Huffman编码必须为整数位,这与实数的概率值相差大的缺点。 基本原理是不直接用二进制代码来表示符号,而改用0,1)中的一宽度等于其出现概率的实数区间来表示一个符号,符号表中的所有符号刚好布满整个0,1)区间。把输入符号串映射成0,1)区间中的一个实数。,4.4.4 算术编码,P105,4.4.4 算术编码,练习,信源符号,概率和初始编码间隔 :,如果二进制消息序列的输入为:CADACDB,利用算术编码对CADACDB进行编码。,4.4.5 行程编码,由字符(或信号采样值)构成的数据流中相同的字符(或字符串)会连续重复出现,连续出现的次数称为游程长度RL(Run Length)。 行程编码(Run Length Coding, RLC)将重复的数据值序列用重复次数和单个数据值来代替。行程编码又称 “游程编码”。,4.4.5 行程编码,对相邻

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论