多媒体数据压缩(改).ppt_第1页
多媒体数据压缩(改).ppt_第2页
多媒体数据压缩(改).ppt_第3页
多媒体数据压缩(改).ppt_第4页
多媒体数据压缩(改).ppt_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第6章 多媒体数据压缩,2,本章主要内容,6.1 数据压缩技术概述 6.2 数据压缩技术原理 6.3 JPEG静止图像压缩标准 6.4 运动图像压缩标准MPEG,3,6.1 数据压缩技术概述,6.1.1 数据压缩的概念,采样数据不仅仅是所代表的原始信息本身,还包含着其它一些没必要保留的(确定的、可推知的)信息,即存在着数据冗余。 M=D-d 其中M表示实际媒体信息,D表示数字化后的采样数据,d表示数据冗余量。,数据压缩就是从采样数据中去除冗余,即保留原始信息中变化的、特征性信息,去除重复的、确定的或可推知的信息,在实现更接近实际媒体信息描述的前提下,尽可能的减少描述用的信息量。,4,6.1.2

2、 多媒体数据的冗余,随着计算机技术的高度发展以及通信、计算机和大众传媒三大技术的相互融合,计算机已经不再局限于数值计算、文字处理的范畴,而成为处理图形、图像、视频、音频等多种信息的工具。但数字化后的声音、图像、视频和音频等多媒体数据是非常庞大的。,例如: 一页在A4(216mm300mm)纸上的照片,以300dpi(12像素/mm)采样,每个像素用24位真彩色信号表示,其数据量约为27MB/页,650MB的CD-ROM只可放24页; 双声道立体声光盘,采样率是44.1kHz,采样精度16位,一秒钟数据量是44.1162/8=172KB/s,一张CD只能存放约1小时的声音。,5,6.1.2 多媒

3、体数据的冗余,对于如此巨大的多媒体数据,如果不经过压缩,不仅超出了计算机的存储和处理能力,而且在现在的通信信道的传输速率下,是无法完成大量多媒体信息的传输的,多媒体数据的高速传输和储藏所需要的巨大容量已经成为多媒体数据通信技术的最大障碍。因此,为了存储、处理和传输这些数据,必须进行压缩。,6,6.1.2 多媒体数据的冗余,一般而言,多媒体数据中存在的数据冗余情况主要有以下几种(P107):,信息熵冗余 空间冗余 时间冗余 结构冗余 知识冗余 视觉冗余 听觉冗余 纹理的统计冗余,信息熵冗余,信息熵定义为一组数据所表示的信息量,即 式中,E为信息熵,N为数据的种类(或称码元)个数,Pi为第i个码元

4、出现的概率。 一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即 式中,D为数据量,为第i个码元的二进制位数。 一般取 (如ASCII编码把所有码元都编码为7比特),这样得到的D必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。,信息熵冗余,图 26个英文字母相对频率,空间冗余 -同一景物表面上各采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种空间连贯性,从而产生了空间冗余。 -可以通过改变物体表面颜色的像素存储方式来利用空间连贯性,达到减少数据量的目的。,时间冗余,-这

5、是序列图像(电视图像、运动图像)表示中经常包含的冗余。 -序列图像一般为位于一时间轴区间内的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。,结构冗余 -在有些图像的纹理区,图像的像素值存在着明显的分布模式,例如,方格状的地板图案等。我们称此为结构冗余。 -已知分布模式,可以通过某一过程生成图像。,知识冗余 -有些图像的理解与某些知识有相当大的相关性。例如,人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,我们称此

6、类冗余为知识冗余。 -根据已有的知识,对某些图像中所包含的物体,我们可以构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。,视觉冗余 -事实表明,人类的视觉系统对图像场的敏感性是非均匀和非线性的。然而,在记录原始的图像数据时,通常假定视觉系统是线性和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码(即把视觉敏感和不敏感的部分区分开来编码)更多的数据,这就是视觉冗余。,-通过大量实验,发现以下视觉的非均匀特征。 视觉系统对图像的亮度和色彩度的敏感性相差很大; 随着亮度的增加,视觉系统对量化误差

7、的敏感度降低; 人眼的视觉系统在图像的边缘和非边缘区域分开来处理; 人类的视觉系统总是把视网膜上的图像分解成若干个空间有向的频率通道后再进一步处理。,图像区域的相同性冗余 -它是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。,-在以上的情况下,记录了一个区域中各像素的颜色值,则与其相同或相近的其他区域就不在记录其中各像素的值。 -向量量化方法就是针对这种冗余性的图像压缩编码方法。,纹理的统计冗余 -有些图像纹理尽管不严格服从某一分布规律,但是它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量,所以我们称之为纹理的统

8、计冗余。,思考:,图像序列中的两幅相邻图像,后一幅图像与前一幅图像之间有较大的相关,这是( )。 (A) 空间冗余 (B)时间冗余 (C) 信息熵冗余 (D) 视觉冗余,16,下列哪一种说法是正确的: 信息量等于数据量与冗余量之和 信息量等于信息熵与数据量之差 信息量等于数据量与冗余量之差 信息量等于信息熵与冗余量之和,17,18,6.1.3 数据压缩技术的发展过程,20世纪40年代,人们开始系统地研究数据压缩技术;主要表现在数据压缩算法方面: 首先是Claude Shannon与R.M.Fano的Shannon-Fano编码方法; 1952年,D.A.Huffman提出了Huffman编码方

9、法; 1968年,P.Elias 发展了Shannon-Fano编码,构造出更为完美的Shannon-Fano-Elias 编码。 1976年,J.Rissanen 提出了一种可以成功地逼近信息熵极限的编码方法算术编码。 1982年,Rissanen 和G.G.Langdon 一起改进了算术编码。 1977年,Jacob Ziv和Abraham Lempel提出了LZ77编码算法,78年又作了改进,被称为LZ78编码算法。 1984年,Terry Welch提出了LZ78算法的变种算法LZW。 LZ77、LZ78、LZW三种压缩技术就是目前无损压缩领域中最为流行的、被称为“字典式编码”的压缩技

10、术。,19,6.1.3 数据压缩技术的发展过程(续),数据压缩标准逐渐形成,有损压缩算法快速出现。 1986年开始制定静态图像压缩标准, 1994 年后成为国际标准,称为JPEG标准。 ITU制定的电视会议系列标准(H.261、H.262、H.263 、H.264等)以及由ISO制定的视频系列标准(MPEG-1、MPEG-2、MPEG-4)中,均采用了有损压缩原理作为其核心压缩算法。其中的MPEG-4标准(相当于ITU的H.263和H.263+标准)是为了适应网络视频的需求特点而制定的,具有更高的压缩比、支持并发数据流编码、基于内容的交互操作、增强的时间域随机存取、容错、基于内容的尺度可变性等

11、新特性。,20,6.1.4 数据压缩的分类,1、按照压缩内容,分为音频数据压缩、静态图像数据压缩、视频数据压缩和其他数据文件压缩等四种类型。,2、按照压缩方式,分为对称压缩和非对称压缩两种类型。,3、按照压缩效果,分为有损压缩与无损压缩两种类型。普通数据文件,一般采用无损压缩,对于冗余度较小的图像,需要采用有损压缩。,21,4、按照算法思想,分为信息熵编码、预测编码、变换编码、混合编码以及其他编码等五种,每种类型包含了一些具体算法,如下图。,22,6.1.5 数据压缩的主要指标,衡量不同压缩方法优劣的技术指标是相同的,主要包括以下几个方面。,1)压缩比:指压缩前后的数据量之比,它反映了施加某压

12、缩算法之后,数据量减少的比例; 2)恢复效果:指经解压缩算法对压缩数据进行处理后所得到的数据与其表示的原信息的相似程度; 3)算法简单、速度快:主要指实现算法的复杂度。,23,6.2 数据压缩技术原理,6.2.1 信息熵与编码,1、信息熵的概念 信息论中,编码数据量与所表示的信息量以及冗余信息之间的关系为:数据量信息量冗余量 信息是对所表现的事件中不确定性的描述,信息量多少与不确定性的程度有关。通常,可以用概率来描述不确定性的大小。 某信息描述的事件状态的出现概率越小,其不确定性越大,其表达的信息量就越多,冗余量就越少。,信息熵,信息熵用来度量信息量的大小。对于单个事件(如字符)来说,其信息熵

13、定义为: H(i)= - log2(Pi)(bit) (1) 公式(1)表示发生概率为Pi的事件i所具有的信息熵为H(i),单位为bit(比特)。,24,25,对于一个消息队列(如字符串)的信息熵定义为: H(X) = -Pilog2(Pi)= PiH(i) (2) 其中,Pi表示某一事件i发生的概率。 例如:有一字符串“babbdcaacb”包含a、b、c、d四种字符,其长度为10,字符a、b、c、d分别出现了3、4、2、1次,则a、b、c、d在信息中出现的概率分别为0.3、0.4、0.2、0.1,它们的熵分别为: H(a)=-log2(0.3)1.737(bit) H(b)=-log2(0

14、.4)1.322(bit) H(c)=-log2(0.2)2.322(bit) H(d)=-log2(0.1)3.322(bit),26,每种字符的信息熵就是该字符编码所用的理想位数(二进制)。整条信息的熵就是表达整个字符串需要的位数(这里用字符出现的次数代替概率):,H(X)=-Pilog2(Pi) =H(a)3+H(b)4+H(c)2+H(d)1 =18.465(bit),若用ASCII编码,需要多少bit?,27,2、编码,编码实质上是对要处理的源数据或源文件按一定的规则进行变换(映射),力图用尽可能少的符号代码来表示较多、较长的源符号信息。编码方法中的码字(代码)有固定长度和可变长度两

15、种。,3、压缩模型,模型是规则和数据的集合,即:压缩算法=模型+编码,28,4、压缩、还原,压缩是指设法去掉部分或全部冗余,从而减少文件或数据所占的存储空间; 还原(解压缩)则是指利用相反的算法使文件或数据恢复原状。,29,30,6.2.2 无损压缩编码,1、Shannon-Fano编码,简称为S-F编码,是一种变长编码,其基本思想是按信源符号出现的概率大小进行排序,出现概率大的分配短码,反之则分配长码。具体编码过程如下:,(1)信源符号按概率递减顺序排列。 (2)把符号序列分成上下两部分,使上下两部分的概率和相等或接近相等。 (3)对上部分子序列编码为“0”,相当于左子树,对下部分子序列编码

16、为“1”,相当于右子树。 (4)重复上述步骤,直到每个子序列只包含一个符号为止。,31,举例:有信源字符序列S为: aaabbceeehddabafffbdddgghhabccedabdgghha 其长度为40个字符,由a、b、c、d、e、f、g、h共8种字符构成。假设在编码之前,每种字符出现的概率已由某种模型统计出来,用-来表示,具体值分别为: a-8,b-6,c-3,d-7,e-4,f-3,g-4,h-5,32,a - 8 d - 7 b - 6 h - 5 e - 4 g - 4 c - 3 f - 3,a - 8 d - 7 b - 6 h - 5 e - 4 g - 4 c - 3

17、f - 3,(a)第一步,(b)第二步,解:首先将信源符号按概率递减顺序排列,形成图(a)所示结果,然后,再把符号序列分成上下两部分,使上下两部分的概率和相等或接近相等,形成图(b)所示结果。其中上部分符号序列概率和为21,编码为0;下部分为19,编码为1。,33,最后再重复第二步,不断对子符号序列进行划分,最后得到一棵二叉树,如图(c)所示。,34,最终得到的符号编码分别为: a-00, b-011, c-1110,d-010, e-101,f-1111,g-110, h-100。 信源字符序列S的编码总位数L等于每种字符编码位数与字符出现次数乘积的和,即: L=28364337344334

18、35 118(位) 如果直接用ASCII码,则要用408320位。因此,S-F编码实现了数据压缩。,35,2、Huffman编码,其编码思想与Shannon-Fano编码方法基本一致,但构造二叉树的方法则相反,不是自上而下,而是自下而上、从树叶到树根生成二叉树。具体编码过程如下:,(l)将信源符号按概率递减顺序排列; (2)把两个最小的概率加起来,作为新符号的概率; (3)重复步骤(1)和(2),直到概率达到“1”为止; (4)在每次合并消息时,将被合并的消息赋于“1”和“0”或“0”和“l”; (5)寻找从每一信源符号到概率为“1”处的路径,记录下路径上的“l”和“0”; (6)对每一符号写

19、出从码树的根到终结点的“l”、“0”序列。,36,例如,对于信源 其编码过程如下:,最后得到的编码为: x1 01,x2 10,x3 - 11, x4 000,x5 -0010,x6 -0011。其中x1、x2、x3的码长为2,x4的码长为3,x5、x6的码长为4,平均码长为2.45。,0.05,0.15,0.45,0.55,信源符号及其概率如下: 求其Huffman编码,信息熵及平均码长。,37,Huffman编码体现了统计编码的思想。Huffman编码的基本原理是按信源符号出现的概率大小进行排序,出现概率大的分配短码,出现概率小的则分配长码。,38,39,3、算术编码,算术编码也是一种信息

20、熵编码方法,它用0到1之间的一个实数对输入的信息进行编码。用到两个基本的参数,一是信源符号的概率,二是信源符号对应的编码区间。一般的信源符号集x可表示为:,对于一个给定的信源符号输入序列S=x1x2x3xm,其中xi属于信源符号集X中的任意符号,可按以下过程进行编码:,40,1)定义初始区间0,1),表示一个0到1之间的半开区间,并规定初始概率p0=0; 2)根据信源中各符号的概率值,把0,1)区间划分成N个子区间Q1,Q2,Qn,其中: Qi=Li,Ri),Li= ,Ri=Li+Pi ,i=1,2,,N (3) 3)设置输入序号i的初值,i=1表示开始输入第一个信源符号。,41,4)当输入符

21、号为xi(xi 对应信源符号集X中的第k个符号),可按以下公式定义新的子区间Ii,并计算区间长度di。 Ii=li,ri) () li=li-1+di-1 () ri=li-1+di-1 () di=ri-li () 5)i=i+1,如果还有信源符号未输入完毕,则转第4)步继续输入下一个信源符号。如果全部输入完毕,则当前区间Ii=li,ri)中的任意数就是所需的编码。,42,例:有四个符号a1、a2、a3、a4的信源,其对应概率分别为0.5、0.25、0.125、0.125。如果输入序列为S=a2a1a3a2a4。根据以上编码过程,得如下结果:,43,从以上的编码过程可以看出以下几个问题:,1

22、)算术编码器对整个消息只产生一个码字,这个码字是在间隔0, 1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。 )运算中出现溢出是一个明显的问题,但多数机器都有16位、32位或者64位的精度,因此该问题可使用比例缩放方法解决。 3)算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。,44,4、行程编码,行程编码(RLE)通过统计信源符号中的重复个数,并以格式来编码。适用于压缩包含大量重复信息的信源。其基本思想是:按行存储一个颜色值和相同色值的像素个数。如下图。,45,说明:,RLE压缩编码尤其适用于计算机生成的图像,对减少图像文件的存储空间

23、非常有效。然而,RLE对颜色丰富的自然图像就显得力不从心,如果使用RLE编码方法,不仅不能压缩图像数据,反而可能使原来的图像数据变得更大。,46,5、词典编码,词典编码主要是利用编码数据本身存在字符串重复特性来实现数据压缩的。算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。词典编码又可分为两类: 第一类词典编码的思想是:查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,并将指向重复字符串的指针作为输出编码。,指针P指向了重复字符串“abc”,所以,当再次出现相同字符串时,则输出指针P。,47,第二类词典编码的思想是:从输入的数据中创建

24、一个由短语组成的“编码词典”,编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中短语的“索引号”,而不是短语本身,如下图。,48,6.2.3 有损压缩编码介绍,有损数据压缩编码方法通常用于对静态图像、音频以及视频等多媒体信息的编码压缩,这些多媒体信息大多数是通过对模拟信息的数字化(采样与量化)而得到的。,1、预测编码,1)预测编码的基本概念,预测编码是数据压缩的重要技术原理之一,它是根据离散信号之间的空间或时间相关性,利用前面的一个或多个信号对下一信号进行预测,然后对实际值和预测值的差进行编码。常用的预测编码方法有DPCM(差分脉冲编码调制)和ADPCM(自适应差分脉冲编

25、码调制)等。,49,2)DPCM差分脉冲编码,DPCM :Differential Pulse Code Modulation,差分脉冲编码调制,用采样量化后的样本值与预测值之间的差值来编码。原理如下图所示。,s(k)是PCM样本值,se(k-1)是s(k)的预测值,d(k)是差分信号,即d(k)= s(k)- se(k-1)。I(k)是差分信号d(k)的量化值,st(k)是重构信号,是由逆量化器产生的量化差分信号与对过去样本信号的估算值se(k-1)求和得到,以作为预测器确定下一个信号估算值的输入信号。原理P205,50,3)ADPCM自适应差分脉冲编码,ADPCM是自适应量化和自适应预测方

26、法的总称,是对DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。 自适应量化就是使量化间隔大小的变化自动地去适应输入信号大小的变化。根据信号分布不均匀的特点,使系统具有随输入信号的变化而改变量化区间的大小,以保持输入量化器的信号基本均匀的能力。,51,下图给出了反馈自适应的基本原理 。,52,2、变换编码,先对信号进行域变换,以寻求更大的信号独立性,减少相关性。然后再对变换后的信号进行采样和量化编码。数据编码过程分为三步,即变换、变换域采样和量化编码。如下图所示。,常用的变换有KLT、DCT、WHT以及WLT 。,53,1)KLT,KLT(Kar

27、hunen-Loeve Transform)通常称为K-L变换,亦称主要成分变换,是一个离散变换。用一组不相关的系数来表示连续信号,实现正交变换。是失真最小的一种变换,故称作最佳变换。,2)DCT,DCT(Discrete Cosine Transform)是离散余弦变换的简称。对于图像编码来说,DCT先将整体图像分成若干个N x N的像素块,然后每个N x N像素块逐一进行DCT变换。,54,DCT变换公式如下:,其中: N为所划分图像方阵的行列数,一般N=8; x、y:原图像方阵内某个数据的坐标位置,取值为0N-1; f(x,y)代表原图像数据方阵内的某个数值; u、v:DCT后矩阵内某个

28、数值的坐标位置,取值为0N-1; C(u,v) 代表DCT变换后矩阵内的某个数值; 当u=0且v=0时,E(u) = E(v) = 1/1.414; 当u0或V0时,E(u) = E(v) = l 。 DCT逆变换公式:,55,3)WHT,WHT(Walsh-Hadamard Transform)又称哈达玛特变换,这是一种有效地去除噪波的方法。 基本思想为:对于图像压缩,首先将输入值按4 x 2分成小块,分别进行实时快速哈达玛特变换。图像经变换后,转换成相应成分的系数,这些系数分别代表直流分量、水平方向细节和色度分量、垂直方向细节、斜方向细节及色度分量等,而噪波变换后均匀散在各系数中。这样就能

29、更有效地区分出信号和噪波,从而达到更有效地进行自适应降噪的目的。,56,4)WLT,WLT(WaveLet Transform)又称小波变换,是近年来新兴的一种变换方法,解决了较好地解决突变信号与非平稳信号的问题。是空间(时间)和频率的局部变换。 小波变换的基本思想是将信号展开成一族基函数的加权和,即用一族函数来表示或逼近信号(或函数),这一族函数是通过基本函数的平移和伸缩构成的。,57,3、混合编码,混合编码不是一类原理性编码方案,是两种或两种以上相关编码方法优点与特长的混合应用。 比如在MPEG和JPEG标准中,都混合应用了不同的编码方法,从而实现较为理想的编码压缩效果。,58,4、其它编

30、码 主要包括分形编码、矢量量化编码、子带编码等独具特色编码方法。 1)分形编码,分形的概念:分形指某种形状(或结构)的一个局部或片断,它可以有许多种大小、尺寸的相似形。 分形编码是一种以分形几何学为理论基础的编码方法,它利用分形几何中自相似的原理来实现数据压缩的。首先对把一幅数字图像,通过一些图像处理技术,然后在分形集中寻找各子图像之间的相似性,其压缩比超出经典编码方法近3个数量级。,59,2)矢量量化编码,矢量量化编码利用相邻图像数据间的高度相关性,将输入图像数据序列分组,每一组由n个数据构成一个N维矢量,一起进行编码,即一次量化多个点。,3)子带编码,子带编码技术是一种高质量、高压缩比的图

31、像编码方法。其基本思想是,依据语音和图像信号可以划分为不同的频域段,而人眼对不同频域段的敏感程度不同的特性,将要压缩的信息分离成高低不同的两个频带(子带),再根据频带的特性分别进行量化和编码,完成对信息的编码压缩。,练习,数据压缩可分为两种类型:一种叫做( ),另一种叫做( )。,60,61,在数据压缩方法中,有损压缩具有 ( )的特点: A. 压缩比大,不可逆 B.压缩比小,不可逆 C.压缩比大,可逆 D.压缩比小,可逆,衡量数据压缩技术性能好坏的重要指标是()。 (1)压缩比 (2)标准化 (3)恢复效果 (4)算法复杂度 A(1)(3)B(1)(2)(3) C(1)(3)(4)D全部,6

32、2,63,6.3 JPEG静止图像压缩标准 6.3.1 JPEG概述,JPEG是一个适用于彩色和单色、多级灰度、连续色调的静止数字图像的压缩标准,它定义了两种基本的压缩算法: 一种是基于DPCM(差分脉冲编码调制) 及Huffman编码(或算术编码) 的无失真压缩算法。压缩此较小; 另一种是基于DCT(离散余弦变换)的有失真压缩算法,压缩比可以很大,这种压缩算法又可分为基本和增强两种系统。,64,6.3.2 无失真压缩,为了实现无失真压缩,JPEG选择了一个简单的空间线性预测算法DPCM,具体编码处理过程如图7-16所示。,65,6.3.3 有失真压缩,JPEG的有失真压缩算法是基于DCT变换

33、和Huffman编码的,具体压缩过程如图所示。,也就是说,有失真压缩经 颜色模式转换及采样, DCT变换, 量化, 编码等4步实现。,66,1、颜色模式转换及采样,JPEG采用的是YCbCr色彩系统。先把RGB颜色模式图像数据转换为YCbCr颜色模式的数据。Y代表亮度,Cb和Cr则代表色度、饱和度。通过下列计算公式可完成数据转换。,Y = 0.2990R+0.5870G+0.1140B Cb = -0.1687R-0.3313G+0.5000B+128 Cr = 0.5000R-0.4187G-0.0813B+128,67,2、DCT变换,利用DCT变换可将一组光强数据转换成频率数据,以便得知

34、强度变化的情形。根据DCT变换的要求,先将原始图像数据分成若干个N x N数据单元矩阵,例如,8 x 8矩阵。此时,具体的DCT变换公式可具体化为:,相应地,解码时所用的逆变换公式为 :,注:各参数的意义参见前面的DCT变换。,68,3、量化,量化是多对一映射, 其作用是在保持一定质量前提下,丢弃图像中对视觉效果影响不大的信息。量化是造成DCT编码信息损失的根源。 JPEG标准中采用线性均匀量化器,量化过程为对64个DCT系数C(,)除以量化步长并四舍五入取整。量化步长由量化表决定,量化表元素因DCT系数位置和彩色分量的不同而取不同值。具体量化公式可表示为: Cq(,)= IntegerC(,

35、)/ Q(,) 其中, Q(,)表示量化表中的某一元素; Cq(,)表示量化后的DCT系数。,69,JPEG标准给出了推荐的量化表(如下所示) ,与DCT变换系数一一对应,用作编码器的一个输入。量化表中元素为1到255之间的任意整数,其值规定了其所对应DCT系数的量化步长。,70,4、编码,包括DC系数编码、AC系数编码和熵编码三部分。,1)DC系数编码,经过DCT变换后,低频分量集中在左上角,其中C(0,0)(即频率矩阵的第一行第一列元素)代表了DC系数,即8 x 8子块的平均值。 由于图像中相邻块之间有很强的相关性,JPEG标准对DC系数采用DPCM编码方法,即对相邻的8 x 8像素块之间

36、的DC系数的差值进行编码。 也就是:DC码=DCi-DCi-1 ,i代表图像块的编号。,71,2)AC系数编码,DCT系数矩阵中有63个元素是交流(AC)系数,为了保证低频分量先出现,高频分量后出现,对这63个元素采用如右图的“Z”字形(Zig-Zag)顺序排列,并采用行程编码进行压缩。,图7-22,72,63个AC系数行程编码的码字用两个字节表示,其中第一个字节的高四位记录两个非0值之间连续0的个数(最多可记录16个),第二个字节记录下一个非0系数的实际值。如图7-23所示。最后的编码结果称之为AC码。,图7-23,73,3)熵编码,为了进一步压缩数据,需要对DC码和AC码再做基于统计特性的

37、熵编码。熵编码方法有:Huffman编码和自适应二进制算术编码。,74,6.4 MPEG运动图像压缩标准,6.4.1 MPEG概述,MPEG是ISO指定的专门用于运动图像压缩的一个系列标准,其中包括MPEG-1、MPEG-2、MPEG-4、MPEG-7以及MPEG-21等具体标准。其中MPEG-1是视音频压缩的基础标准,包括MPEG-1视频、MPEG-1音频和MPEG-1系统三大部分。,75,6.4.2 MPEG-1视频,1、MPEG-1的编码技术, 对亮度与色差信号进行采样,减少数据量; 采用运动补偿技术,减少帧间冗余度; 采用二维DCT变换,去除空间相关性; 对DCT分量进行量化,舍去不重

38、要的信息,将量化后DCT分量按照频率重新排序; 将DCT分量进行变字长编码; 对每数据块的直流分量(DC)进行预测差分编码。,76,具体编码过程如图7-24所示。输入的视频序列先进行预处理(插入、滤波),然后用运动估计来帮助建立当前图像和已传送图像的预测器。,图7-24,77,解码器完成对变长编码的解码功能,通过逆量化和逆DCT变换,实现对编码数据的重构,再与图像预测器结合形成当前图像(也为以后接收到的图像作预测),经过后处理(插入和滤波)得到结果图像,实现视频输出。图下图给出了MPEG-1解码过程示意。,图7-25,78,2、MPEG-1的帧类型,MPEG-1将帧率为30fps或25fps的

39、帧序列图像以三种类型的图像格式表示,如图7-26所示。,其中: I表示帧内图,其信息由自身画面决定; P为预测图,它是由帧内图I或预测图P由前向预测方法产生,对其预测误差有条件地传送;,B为插补图,它可根据前面和后面的双向预测产生,增加B图的数目会减少参考图I与参考图P之间的相关。对提高压缩比有益而对图像质量有损失。,图7-26,79,I帧图像采用帧内编码方式(JPEG),主要用于接收机的初始化和信道的获取以及节目的切换和插入,周期性出现在图像序列中的,出现频率可由编码器选择。 P帧和B帧图像采用帧间编码方式,P帧图像中可以包含帧内编码的部分,也可以是帧内编码。B帧图像采用双向时间预测,大大提

40、高压缩倍数。 从压缩的程度来看,I帧的压缩率最小;P帧得到了较大的压缩;而B帧的压缩率是最大的,这也是使得B帧不能作为预测基准的原因。,80,3、运动补偿,运动补偿是一种帧间编码的方法,其原理是利用帧间的空间相关性,减小空间冗余度。实现帧间编码的方法是运动估计和运动补偿。图7-27图示了这一过程。,81,实际上,在做运动估计和运动补偿时,是以16 x 16的块(也称为宏块)逐个进行的,如图7-28所示,这是将当前帧划分为16 x 16的块,各块在X和Y方向上的宽度分别记为wx和wy 。对每一块在过去帧中大小为(N+2wy)x (N+2wx)的范围内进行搜索,以求得最优匹配,从而得到运动矢量的估

41、值(dx,dy)。如图7-29所示。,82,6.4.3 MPEG-1音频,编、解码思想,下面给出的是MPEG-1音频编码系统的结构示意图,其中图(a)为编码器示意,图(b)为解码器示意。,83,心理声学模型,MPEG-1音频编码过程中用到了“心理声学模型”,这是为了使编码符合人的听觉系统特点。人的听觉系统对不同频率音频信号的敏感度、不同频率处的噪声容忍度有着很大的差异。通常把“一个音频信号可使人的听觉系统感觉不到另一个音频信号的存在”的现象称为音频信号的掩蔽特性。 心理声学模型是为计算掩蔽特性而设计的,MPEG-1标准中,推荐了模型和模型两个心理声学模型。心理声学模型通对频率的分析,得到声音信

42、号和噪声的成分,并且求得掩蔽阈值,最后得到子带的信号掩蔽比;声音心理学模型从能量入手,运用卷积等工具,也可得到信号的掩蔽比。,84,三层编码结构,MPEG-1音频编码标准构造了一个通用的编码系统,分为三层:1层(Layer 1)、2层(Layer 2)和3层(Layer 3),层次越高,其性能和复杂度也越高。 )层1是 MUSICAM(Masking pattern adapted Universal Subband Integrated Coding And Multiplexing,自适应掩蔽模式的通用子带综合编码和复用)编码方案的简化版本,编码器最简单,压缩比较小,编码器的输出数据率为384 Kbps。是适合于家庭数字磁带录音、本地硬盘、磁光盘等不要求很低码率的应用。,85,)层2编码器的复杂程度属中等,使用了更精确的量化,编码器的输出数据率为256 Kbps 192 Kbps,主要用于数字声音广播、电视、录音、多媒体、通信等民用或音频专业领域。 )层3(通常称为MP3)是ASPEC(Adaptive Spe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论