全套课件·多媒体技术与信息处理_第1页
全套课件·多媒体技术与信息处理_第2页
全套课件·多媒体技术与信息处理_第3页
全套课件·多媒体技术与信息处理_第4页
全套课件·多媒体技术与信息处理_第5页
已阅读5页,还剩150页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章数据压缩编码技术本章导读 数据压缩编码技术是多媒体技术的核心技术,在多媒体技术中占主导地位。通过数据压缩编码,去除了多媒体信息中的数据冗余,大大减少了数据量,为多媒体数据的存储、传输、处理奠定了基础。本章主要介绍数据压缩编码技术中的基本概念、典型的数据压缩算法以及多媒体数据压缩的几个标准。 本章主要内容7.1 数据压缩技术概述7.2 数据压缩技术原理7.3 JPEG静止图像压缩标准简介7.4 运动图像压缩标准MPEG7.5 H.26视听通信编/解码标准系列7.1 数据压缩技术概述7.1.1 数据压缩的概念 采样数据不仅仅是所代表的原始信息本身,还包含着其它一些没必要保留的(确定的、可推知

2、的)信息,即存在着数据冗余。 数据压缩就是从采样数据中去除冗余,即保留原始信息中变化的、特征性信息,去除重复的、确定的或可推知的信息,在实现更接近实际媒体信息描述的前提下,尽可能的减少描述用的信息量。 7.1.2 多媒体数据的冗余 一般而言,多媒体数据中存在的数据冗余情况主要有以下几种:编码冗余(信息熵冗余) 编码所用数据位数大于其信息熵。2. 空间冗余 是图像数据通常存在的一种数据冗余。在同一幅图像中,规则物体和规则背景的表面特性具有相关性,也就是说,同一景物表面上各采样点的颜色之间往往存在着空间连贯性,如下图中的天空和湖水。 3. 时间冗余 在图像序列中,时间冗余就是相邻帧图像之间有较大相

3、关性,一帧图像中的某物体或场景可以由其他帧图像中的物体或场景重构出来。 (a) 前一帧图像(b) 后一帧图像4. 结构冗余 图像一般都有非常强的纹理结构。如草席、砖墙、地板、天花板等图像,它们一般都是比较有规律的纹理结构,如下图所示。这类图像在结构上存在冗余。 5. 知识冗余 图像的理解与某些基础知识有相当大的相关性。例如:人脸的图像有固定的结构,比如说嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于脸的中线上等等。这类规律性的结构可由先验知识和背景知识得到,称此类冗余为知识冗余。 6. 视觉冗余 人类的视觉系统对于图像场的敏感性是非均匀的和非线性的,人眼并不能觉察图像场的所有变化,而是依据视觉特性

4、有取舍的进行观察。对亮度变化敏感,对色度的变化不敏感;对物体边缘敏感,而对内部区域不敏感;对整体结构敏感,而对内部细节相对不敏感;这些敏感因素的灰度等级仅为26级,而一般数字图像的量化采用的是28灰度等级以上,很明显存在着视觉冗余。 7. 听觉冗余 人耳对不同频率的声音的敏感性是不同的,听觉系统并不能察觉所有频率的变化,对某些频率也不必特别关注,因此存在听觉冗余。 8. 纹理统计冗余 有些图像纹理尽管不严格服从某一分布规律,但是它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量,所以我们称之为纹理的统计冗余。 7.1.3 数据压缩技术的发展过程 20世纪40年代,人们开始系统地

5、研究数据压缩技术;主要表现在数据压缩算法方面: 首先是Claude Shannon与R.M.Fano的Shannon-Fano编码方法; 1952年,D.A.Huffman提出了Huffman编码方法; 1968年,P.Elias 发展了Shannon-Fano编码,构造出更为完美的Shannon-Fano-Elias 编码。 1976年,J.Rissanen 提出了一种可以成功地逼近信息熵极限的编码方法算术编码。 1982年,Rissanen 和G.G.Langdon 一起改进了算术编码。 1977年,Jacob Ziv和Abraham Lempel提出了LZ77编码算法,78年又作了改进,

6、被称为LZ78编码算法。 1984年,Terry Welch提出了LZ78算法的变种算法LZW。 LZ77、LZ78、LZW三种压缩技术就是目前无损压缩领域中最为流行的、被称为“字典式编码”的压缩技术。 7.1.3 数据压缩技术的发展过程(续) 数据压缩标准逐渐形成,有损压缩算法快速出现。 1986年开始制定静态图像压缩标准, 1994 年后成为国际标准,称为JPEG标准。 ITU制定的电视会议系列标准(H.261、H.262、H.263 、H.264等)以及由ISO制定的视频系列标准(MPEG-1、MPEG-2、MPEG-4)中,均采用了有损压缩原理作为其核心压缩算法。其中的MPEG-4标准

7、(相当于ITU的H.263和H.263+标准)是为了适应网络视频的需求特点而制定的,具有更高的压缩比、支持并发数据流编码、基于内容的交互操作、增强的时间域随机存取、容错、基于内容的尺度可变性等新特性。 7.1.4 数据压缩的分类1、按照压缩内容 分为音频数据压缩、静态图像数据压缩、视频数据压缩和其他数据文件压缩等四种类型。 2、按照压缩方式分为对称压缩和非对称压缩两种类型。 3、按照压缩效果 分为有损压缩与无损压缩两种类型。普通数据文件,一般采用无损压缩,对于冗余度较小的图像,需要采用有损压缩。 4、按照算法思想 分为信息熵编码、预测编码、变换编码、混合编码以及其他编码等五种,每种类型包含了一

8、些具体算法,如下图。 7.1.5 数据压缩的主要指标 衡量不同压缩方法优劣的技术指标是相同的,主要包括以下几个方面。 1)压缩比:指压缩前后的数据量之比,它反映了施加某压缩算法之后,数据量减少的比例; 2)恢复效果:指经解压缩算法对压缩数据进行处理后所得到的数据与其表示的原信息的相似程度; 3)算法简单、速度快:主要指实现算法的复杂度。 7.2 数据压缩技术原理7.2.1 信息熵与编码1、信息熵的概念 信息论中,编码数据量与所表示的信息量以及冗余信息之间的关系为:数据量信息量冗余量 信息熵用来度量信息量的大小。对于单个事件(如字符)来说,其信息熵定义为:H(i)= - log2(Pi)(bit

9、) (1)公式(1)表示发生概率为Pi的事件i所具有的信息熵为H(i),单位为bit(比特)。 对于一个消息队列(如字符串)的信息熵定义为: H(X) = -Pilog2(Pi)= PiH(i) (2) 其中,Pi表示某一事件i发生的概率。 例如:有一字符串“babbdcaacb”包含a、b、c、d四种字符,其长度为10,字符a、b、c、d分别出现了3、4、2、1次,则a、b、c、d在信息中出现的概率分别为0.3、0.4、0.2、0.1,它们的熵分别为: H(a)=-log2(0.3)1.737(bit) H(b)=-log2(0.4)1.322(bit) H(c)=-log2(0.2)2.3

10、22(bit) H(d)=-log2(0.1)3.322(bit) 每种字符的信息熵就是该字符编码所用的理想位数(二进制)。整条信息的熵就是表达整个字符串需要的位数(这里用字符出现的次数代替概率):H(X)=-Pilog2(Pi) =H(a)3+H(b)4+H(c)2+H(d)1 =18.465(bit)2、编码 编码实质上是对要处理的源数据或源文件按一定的规则进行变换(映射),力图用尽可能少的符号代码来表示较多、较长的源符号信息。编码方法中的码字(代码)有固定长度和可变长度两种。 3、压缩模型 模型是规则和数据的集合,即:压缩算法=模型+编码 4、压缩、还原 压缩是指设法去掉部分或全部冗余,

11、从而减少文件或数据所占的存储空间; 还原(解压缩)则是指利用相反的算法使文件或数据恢复原状。7.2.2 无损压缩编码1、Shannon-Fano编码简称为S-F编码,是一种变长编码,其基本思想是按信源符号出现的概率大小进行排序,出现概率大的分配短码,反之则分配长码。具体编码过程如下: (1)信源符号按概率递减顺序排列。(2)把符号序列分成上下两部分,使上下两部分的概率和相等或接近相等。(3)对上部分子序列编码为“0”,相当于左子树,对下部分子序列编码为“1”,相当于右子树。(4)重复上述步骤,直到每个子序列只包含一个符号为止。 举例:有信源字符序列S为: aaabbceeehddabafffb

12、dddgghhabccedabdgghha 其长度为40个字符,由a、b、c、d、e、f、g、h共8种字符构成。假设在编码之前,每种字符出现的概率已由某种模型统计出来,用-来表示,具体值分别为: a-8,b-6,c-3,d-7,e-4,f-3,g-4,h-5a - 8d - 7b - 6h - 5e - 4g - 4c - 3f - 3a - 8d - 7b - 6h - 5e - 4g - 4c - 3f - 3(a)第一步(b)第二步解:首先将信源符号按概率递减顺序排列,形成图(a)所示结果,然后,再把符号序列分成上下两部分,使上下两部分的概率和相等或接近相等,形成图(b)所示结果。其中上

13、部分符号序列概率和为21,编码为0;下部分为19,编码为1。 最后再重复第二步,不断对子符号序列进行划分,最后得到一棵二叉树,如图(c)所示。 从根到叶形成编码,最终得到的符号编码分别为: a-00, b-011, c-1110,d-010, e-101,f-1111,g-110, h-100。 信源字符序列S的编码总位数L等于每种字符编码位数与字符出现次数乘积的和,即: L=2836433734433435 118(位) 如果直接用ASCII码,则要用408320位。因此,S-F编码实现了数据压缩。 2、Huffman编码 其编码思想与Shannon-Fano编码方法基本一致,但构造二叉树的

14、方法则相反,不是自上而下,而是自下而上、从树叶到树根生成二叉树。具体编码过程如下: (l)将信源符号按概率递减顺序排列;(2)把两个最小的概率加起来,作为新符号的概率;(3)重复步骤(1)和(2),直到概率达到“1”为止;(4)在每次合并消息时,将被合并的消息赋于“1”和“0”或“0”和“l”;(5)寻找从每一信源符号到概率为“1”处的路径,记录下路径上的“l”和“0”;(6)对每一符号写出从码树的根到终结点的“l”、“0”序列。例如,对于信源 其编码过程如下: x1 x2 x3 x4 x5 x6X= 0.25 0.25 0.20 0.15 0.10 0.05最后得到的编码为:x1 01,x2

15、 10,x3 - 11,x4 000,x5 -0010,x6 -0011。其中x1、x2、x3的码长为2,x4的码长为3,x5、x6的码长为4,平均码长为2.45。0.050.150.450.553、算术编码 算术编码也是一种信息熵编码方法,它用0到1之间的一个实数对输入的信息进行编码。用到两个基本的参数,一是信源符号的概率,二是信源符号对应和编码区间。一般的信源符号集x可表示为: 对于一个给定的信源符号输入序列S=x1x2x3xm,其中xi属于信源符号集X中的任意符号,可按以下过程进行编码:1)定义初始区间0,1),表示一个0到1之间的半开区间,并规定初始概率p0=0;2)根据信源中各符号的

16、概率值,把0,1)区间划分成N个子区间Q1,Q2,Qn,其中:Qi=Li,Ri),Li= ,Ri=Li+Pi ,i=1,2,,N (3)3)设置输入序号i的初值,i=1表示开始输入第一个信源符号。4)当输入符号为xi(xi 对应信源符号集X中的第k个符号),可按以下公式定义新的子区间Ii,并计算区间长度di。 Ii=li,ri) () li=li-1+di-1 () ri=li-1+di-1 () di=ri-li ()5)i=i+1,如果还有信源符号未输入完毕,则转第4)步继续输入下一个信源符号。如果全部输入完毕,则当前区间Ii=li,ri)中的任意数就是所需的编码。例:有四个符号a1、a2

17、、a3、a4的信源,其对应概率分别为0.5、0.25、0.125、0.125。如果输入序列为S=a2a1a3a2a4。根据以上编码过程,得如下结果:从以上的编码过程可以看出以下几个问题: 1)算术编码器对整个消息只产生一个码字,这个码字是在间隔0, 1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。 )运算中出现溢出是一个明显的问题,但多数机器都有16位、32位或者64位的精度,因此该问题可使用比例缩放方法解决。 3)算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。4、行程编码行程编码(RLE)通过统计信源符号中的重复个数,并以格式来编码

18、。适用于压缩包含大量重复信息的信源。其基本思想是:按行存储一个颜色值和相同色值的像素个数。如下图。 (a) 图像示例(168像素)0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1 1 1 0 0 00 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1 1 1 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0

19、0 0 0 0 0 0 0(b) 示例图像的像素值(168像素)图7-9 连续相同色块图像与像素值示例 16 0 02 0 11 01 03 0 02 0 01 01 13 0 02 0 01 01 13 0 02 0 01 01 13 0 02 0 11 01 03 0 16 0 16 0(c) RLE编码说明: RLE压缩编码尤其适用于计算机生成的图像,对减少图像文件的存储空间非常有效。然而,RLE对颜色丰富的自然图像就显得力不从心,如果使用RLE编码方法,不仅不能压缩图像数据,反而可能使原来的图像数据变得更大。5、词典编码 词典编码主要是利用编码数据本身存在字符串重复特性来实现数据压缩的

20、。算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。词典编码又可分为两类:第一类词典编码的思想是:查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,并将指向重复字符串的指针作为输出编码。指针P指向了重复字符串“abc”,所以,当再次出现相同字符串时,则输出指针P。第二类词典编码的思想是:从输入的数据中创建一个由短语组成的“编码词典”,编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中短语的“索引号”,而不是短语本身,如下图。7.2.3 有损压缩编码介绍 有损数据压缩编码方法通常用于对静态图像、音频以及视频等多媒体信

21、息的编码压缩,这些多媒体信息大多数是通过对模拟信息的数字化(采样与量化)而得到的。1、预测编码1)预测编码的基本概念 预测编码是数据压缩的重要技术原理之一,它是根据离散信号之间的空间或时间相关性,利用前面的一个或多个信号对下一信号进行预测,然后对实际值和预测值的差进行编码。常用的预测编码方法有DPCM(差分脉冲编码调制)和ADPCM(自适应差分脉冲编码调制)等。 2)DPCM差分脉冲编码DPCM :Differential Pulse Code Modulation,差分脉冲编码调制,用采样量化后的样本值与预测值之间的差值来编码。原理如下图所示。s(k)是PCM样本值,se(k-1)是s(k)

22、的预测值,d(k)是差分信号,即d(k)= s(k)- se(k-1)。I(k)是差分信号d(k)的量化值,st(k)是重构信号,是由逆量化器产生的量化差分信号与对过去样本信号的估算值se(k-1)求和得到,以作为预测器确定下一个信号估算值的输入信号。3)ADPCM自适应差分脉冲编码 ADPCM是自适应量化和自适应预测方法的总称,是对DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。 自适应量化就是使量化间隔大小的变化自动地去适应输入信号大小的变化。根据信号分布不均匀的特点,使系统具有随输入信号的变化而改变量化区间的大小,以保持输入量化器的信号基

23、本均匀的能力。图7-13给出了反馈自适应的基本原理 。2、变换编码基本思想:先对信号进行域变换,然后再对变换后的信号进行量化、编码。域变换的目的:寻求更大的信号独立性,减少相关性;由于相关性减少了,所以可用较少的位数进行编码,从而达到信息压缩的目的。 2、变换编码编码过程:划分NN子块、变换、量化和编码 。解码过程:解码、反量化、域的逆变换、合并子块还原出所需信息。例:划分图像块的过程 图7-16 将图像划分成图像块原图像划分成多个图像块88像素的图像块一个图像块的像素划分图像块常用的变换有KLT、DCT、WHT以及WLT 。DCTDCT(Discrete Cosine Transform)是

24、离散余弦变换的简称。它是通过从图像像素(空域)到频率系数(频域)的信号变换,使空间上具有强相关性的信号在频域上的特定区域集中,产生有某种规律性分布的系数矩阵,再进行数据压缩;DCT是一种可逆变换,这使得利用DCT进行数据压缩和恢复成为可能。从空域到频域的变换称为正向离散余弦变换(FDCT),从频域到空域的变换称为逆向离散余弦变换(IDCT)。 FDCT正向离散余弦变换FDCT先将整体图像分成多个图像块,然后对NN的像素矩阵逐一进行DCT变换,形成频域系数矩阵;在空域,每个图像块是一个NN的像素矩阵,用B表示,空域中的像素颜色(灰度)用B(x , y)表示,其中,x为空域横坐标,y为空域纵坐标,

25、取值范围均为0到N-1。变换后的频域系数矩阵(用C表示)包含N2个系素,分为N行N列,每个系数用C(u , v)表示,其中,u和v均为频域坐标,取值范围均为0到N-1。 FDCT变换公式如下:其中: N为所划分图像方阵的行列数,一般N=8; x、y:图像空域坐标,取值为0N-1; B(x,y):空域图像数据(像素灰度值); u、v:DCT后频率系数矩阵的坐标位置,取值为0N-1; C(u,v):DCT变换后频率系数矩阵内的系数值; 当u=0且v=0时,E(u) = E(v) = 1/ ; 当u0或V0时,E(u) = E(v) = l B(x,y)的取值范围是-128+127。具体转换时,需要

26、先将无符号的0255的灰度值平移到-128+127取值范围。 IDCT变换公式如下:参数意义同FDCT。例: 对一幅320240像素的8位灰度图作FDCT时,FDCT先将整幅图像划分成4030个88像素矩阵B,其中的每个元素B(x,y)代表对应像素的灰度,取值在0255之间。先做灰度值坐标的平移,即B(x,y)= B(x,y)-128,再进行FDCT变换,形成频率系数矩阵C。 划分成多个图像块一个图像块的像素矩阵像素(灰度)矩阵B78 75 79 82 82 86 94 9476 78 76 82 83 86 85 9472 75 67 78 80 78 74 8274 76 75 75 86

27、 80 81 7973 70 75 67 78 78 79 8569 63 68 69 75 78 82 8076 76 71 71 67 79 80 8372 77 78 69 75 75 78 78频率系数矩阵C619 -29 8 2 1 -3 0 1 22 -6 -4 0 7 0 -2 -3 11 0 5 -4 -3 4 0 -3 2 -10 5 0 0 7 3 2 6 2 -1 -1 -3 0 0 8 1 2 1 2 0 2 -2 -2 -8 -2 -4 1 2 1 -1 1 -3 1 5 -2 1 -1 1 -3如果是RGB模式的彩色图像,一个像素包含R、G、B三个颜色分量,一个彩色

28、图像块对应三个像素矩阵,分别为Br(红色像素)、Bg(绿色像素)、Bb(蓝色像素)矩阵,变换后形成三个频率系数矩阵Cr、Cg、Cb。FDCT得到的频率系数矩阵C中的每个元素称为变换系数,它们均有明确的物理意义。C(0,0)是该矩阵中最特殊的一个元素,它与矩阵B的平均值有关,称为DC系数或直流分量;频率系数矩阵C619 -29 8 2 1 -3 0 1 22 -6 -4 0 7 0 -2 -3 11 0 5 -4 -3 4 0 -3 2 -10 5 0 0 7 3 2 6 2 -1 -1 -3 0 0 8 1 2 1 2 0 2 -2 -2 -8 -2 -4 1 2 1 -1 1 -3 1 5

29、-2 1 -1 1 -3其余元素称为AC系数或交流分量,代表随u和v变化而变化的水平和垂直频率分量的大小。 频率系数矩阵C的分布规律是,离DC系数越近的AC系数(低频系数)值越大,离DC系数越远的AC系数(高频系数)值越来越小, 频率系数矩阵C619 -29 8 2 1 -3 0 1 22 -6 -4 0 7 0 -2 -3 11 0 5 -4 -3 4 0 -3 2 -10 5 0 0 7 3 2 6 2 -1 -1 -3 0 0 8 1 2 1 2 0 2 -2 -2 -8 -2 -4 1 2 1 -1 1 -3 1 5 -2 1 -1 1 -3 这就意味着,一方面FDCT使图像的表示集结

30、到频率系数矩阵左上角的系数中,它们携带了更多关于图像的有用信息,另一方面,频率系数矩阵的右下角的系数几乎不包含图像的有用信息。 从频率系数矩阵C和原图像特征可以看出,频率系数矩阵C中的系数反映空域图像的颜色变化情况。若C中AC系数均为0,则空域图像为一幅无颜色变化的单色图像;频率系数矩阵C619 -29 8 2 1 -3 0 1 22 -6 -4 0 7 0 -2 -3 11 0 5 -4 -3 4 0 -3 2 -10 5 0 0 7 3 2 6 2 -1 -1 -3 0 0 8 1 2 1 2 0 2 -2 -2 -8 -2 -4 1 2 1 -1 1 -3 1 5 -2 1 -1 1 -

31、3若C中AC系数绝大多数为0,少数非0,说明空域图像的颜色有较小变化(较少颜色),图像比较粗糙;若C中AC系数绝大多数非0,少数为0,说明空域图像的颜色变化很大(颜色丰富),图像很细腻。 DCT小结从频域看,通常用到的大量图片都由低频系数构成,高频系数较少,系数值较小,常为0,加上人眼对高频分量的失真不太敏感,所以可用更粗的量化级对高频系数进行量化,实现图像数据压缩。解码时,通过IDCT恢复图像数据。 3、混合编码 混合编码不是一类原理性编码方案,是两种或两种以上相关编码方法优点与特长的混合应用。 比如在MPEG和JPEG标准中,都混合应用了不同的编码方法,从而实现较为理想的编码压缩效果。4、

32、其它编码 主要包括分形编码、矢量量化编码、子带编码等独具特色编码方法。 1)分形编码 分形的概念:分形指某种形状(或结构)的一个局部或片断,它可以有许多种大小、尺寸的相似形。 分形编码是一种以分形几何学为理论基础的编码方法,它利用分形几何中自相似的原理来实现数据压缩的。首先对把一幅数字图像,通过一些图像处理技术,然后在分形集中寻找各子图像之间的相似性,其压缩比超出经典编码方法近3个数量级。2)矢量量化编码 矢量量化编码利用相邻图像数据间的高度相关性,将输入图像数据序列分组,每一组由n个数据构成一个N维矢量,一起进行编码,即一次量化多个点。 3)子带编码 子带编码技术是一种高质量、高压缩比的图像

33、编码方法。其基本思想是,依据语音和图像信号可以划分为不同的频域段,而人眼对不同频域段的敏感程度不同的特性,将要压缩的信息分离成高低不同的两个频带(子带),再根据频带的特性分别进行量化和编码,完成对信息的编码压缩。7.3 JPEG静止图像压缩标准7.3.1 JPEG概述 JPEG是一个适用于彩色、单色、多级灰度、连续色调的静止数字图像的压缩标准,它定义了两种基本的压缩算法: 基于DPCM(差分脉冲编码调制) 及Huffman编码(或算术编码) 的无损压缩算法。压缩此较小,较少使用; 基于DCT(离散余弦变换)的有损压缩算法,压缩比可以很大,广泛使用,不特别说明时,JPEG就指有损压缩算法。7.3

34、.1 JPEG概述 1、JPEG的数据压缩思想 JPEG基于人的视觉特性实现数据压缩;人眼对亮度信号较敏感而对色度信号不太敏感。利用这个特性可以把图像中表达颜色的信号去掉一些而使人察觉不到。因此,JPEG不直接对RGB模式的图像进行压缩,而是将图像先转换成YCbCr(YUV或YIQ)模式,以便于对亮度信号Y和色差信号CbCr进行分别采样和转换; 7.3.1 JPEG概述 1、JPEG的数据压缩思想 人眼主要关注构成图像主体的低频数据,而对表现图像细节的高频数据的关注度和敏感性较低。利用这个特性可以把图像中的高频信号去掉而使人不易察觉。因此,JPEG对采样后的Y、Cb、Cr矩阵分别实施FDCT,

35、得到对应的频率系数矩阵,并根据频率系数的分布规律,选择适当的量化等级实现对高、低频数据的不同压缩处理。7.3.1 JPEG概述 2、JPEG的数据压缩过程 基于DCT的JPEG有损压缩算法的实现过程分为:颜色模式转换及采样DCT变换量化编码四个环节,这个过程统称为JPEG编码过程。7.3.1 JPEG概述 2、JPEG的数据压缩过程 原图像(多块)图7-18 JPEG有损压缩过程图示FDCT量化编码压缩后的图像数据系数矩阵量化表编码表RGBYCbCr3、JPEG的数据恢复过程JPEG的数据恢复过程是对应的数据压缩过程的逆过程:解码、逆量化、IDCT、YCbCr转换成RGB图像。这个过程统称为J

36、PEG解码过程。 7.3.2 颜色模式转换RGB模式是按颜色表示图像,无法针对“亮度和色度信号”进行不同处理。YCbCr模式是按亮度(Y)和色度(CbCr)表示图像的。针对“亮度和色度信号”进行不同处理。RGBYCbCr转换 Y = 0.2990R+0.5870G+0.1140BCb = 0.564(B-Y)Cr = 0.713(RY)YCbCrRGB转换R=Y+1.402CrG= Y-0.344 Cb -0.714 CrB= Y+1.772 Cb7.3.2 颜色模式转换数据采样时就可以有意丢掉部分Cb和Cr数据,以减少样本数据量;JPEG采用4:1:1和4:2:2(Y:Cb:Cr)两种采样方

37、式;与RGB采样相比,可减少三分之一以上的数据量。 7.3.2 颜色模式转换 利用YCbCr颜色模式,JPEG对一个彩色图像块的采样数据分别存储在亮度Y、色差CR和CB三个矩阵中。根据采样方式的不同,矩阵CB和矩阵CR中的多列元素为0。 7.3.3 DCT变换1、灰度坐标平移 从0255移到-128+127 Y(x,y)=Y(x,y)-128 CB(x,y)=CB(x,y)-128 CR(x,y)=CR(x,y)-1287.3.3 DCT变换2、FDCT JPEG将平移后亮度矩阵Y、红色差矩阵CR和蓝色差矩阵CB视为一个基本单元分别进行转换,得到对应的频率系数矩阵。 相应地,解码时采用IDCT

38、,变换公式如下:7.3.4 量化与量化表JPEG标准采用线性均匀量化器;量化过程是对64个系数除以量化步长L;量化步长L由量化表决定;量化计算公式为:W(u,v)=C(u,v)/L(u,v);方括号表示“四舍五入取整”。 量化是在保持一定质量的前提下,丢弃图像中对视觉效果影响不大的信息。量化是多对一映射,会降低精度,因而也是造成JPEG算法信息损失的根源。 7.3.4 量化与量化表要去掉高频信号,只要保证量化步长L(u,v)足够大,就能使相除取整后的量化值W(u,v)为0;要确保频率系数矩阵中的直流分量和低频信号,只要量化步长L(u,v)较小,就能使相除取整后的低频量化值W(u,v)落在许可的

39、范围内。 亮度和色差信号分别量化,亮度信号进行细量化,色差信号进行粗量化,可产生更高的压缩比。 量化表的确定: 7.3.4 量化与量化表图7-20 JPEG推荐的量化表亮度量化表色度量化表量化表中的元素取值是从广泛的实验中得出的。 量化举例: W(u,v)=C(u,v)/L(u,v)亮度矩阵C619 -29 8 2 1 -3 0 1 22 -6 -4 0 7 0 -2 -3 11 0 5 -4 -3 4 0 -3 2 -10 5 0 0 7 3 2 6 2 -1 -1 -3 0 0 8 1 2 1 2 0 2 -2 -2 -8 -2 -4 1 2 1 -1 1 -3 1 5 -2 1 -1 1

40、 -316 11 10 16 24 40 51 6112 12 14 19 26 58 60 5513 13 16 24 40 57 69 5614 17 22 29 51 87 80 6217 22 37 56 68 109 103 7724 35 55 64 81 104 113 9249 64 78 87 103 121 120 10172 92 95 98 112 100 103 99亮度量化结果W39 -3 1 0 0 0 0 02 -1 0 0 0 0 0 01 0 0 0 0 0 0 00 -1 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00

41、 0 0 0 0 0 0 00 0 0 0 0 0 0 0亮度量化表L量化表可根据图像的类型特点进行优化。 7.3.5 编码与编码表 JPEG算法的编码内容包括DC系数编码、AC系数编码和熵编码三部分。熵编码中要用到不同的编码表。1DC系数编码编码范围:一幅图像所有图像块的DC系数;编码方法:DPCM,即对相邻块DC系数的差值进行编码(DCi=DCi-DCi-1);由于图像中相邻块之间有很强的相关性,所以DC系数的差很小,可用较少的位数编码;结果称为DC码。2、AC系数编码“Z”型排序,可使低频分量先出现,高频分量后出现;沿“Z”字型路径,采用行程编码,可有效压缩连续的0;编码格式为: (前导

42、0的个数,系数值,最后一个非0系数标志)AC系数编码的结果称为AC码。 解码时要根据此标志补足0的个数。 AC系数编码举例:亮度量化结果W39 -3 1 0 0 0 0 02 -1 0 0 0 0 0 01 0 0 0 0 0 0 00 -1 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 0“Z”字型排序39 -3 1 0 0 0 0 02 -1 0 0 0 0 0 01 0 0 0 0 0 0 00 -1 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0

43、0 0 0 0 00 0 0 0 0 0 0 0AC系数排列结果:-3,2,1,-1,1,0,0,0,0,0,-1,0,0,采用行程编码的编码结果:(0,-3,0),(0,2,0),(0,1,0),(0,-1,0),(0,1,0),(5,-1,1) 52 个0系数被压缩 3、熵编码编码对象:所有系数矩阵的DC码和AC码;编码方法:基于统计特性的熵编码(Huffman)不同编码对象生成不同的编码表,大概率信号用短码,小概率信号用长码。每个矩阵数据的DC码与AC码使用不同的编码表;亮度与色度矩阵也使用不同的编码表。7.3.6 JPEG2000介绍JPEG 2000是JPEG标准的改进版;采用“小波

44、变换”替代DCT,使所压缩的图像比JPEG图像更细腻、更逼真;有效地提高了压缩率,约比JPEG高30%50%;支持有损和无损压缩,可用于遥感图像、医学图像等高精度专业图像压缩;支持多次扫描(先轮廓后细节)的渐进传输/显示方式,改善了图像的网络传输和显示特性。 7.3.7 JPEG的应用 JPEG标准以其图像质量好、压缩比高、支持多种显示和传输方式等优点,在静止图像和运动图像的帧内压缩方面得到了广泛应用,绝大多数的图像处理软件都支持JPEG标准,在具体的图像处理过程中,使用者应根据JPEG算法的数据压缩原理和图像压缩效果的控制方法,合理选择控制参数,以达到图像质量、文件大小(压缩比)、传输速率、

45、传输方式、显示方式等多方面的综合效果要求。 Adobe Photoshop中保存JPEG文件时的参数选择: 选择图像的压缩比与图像品质选择图像传输和显示的格式,“基线”格式是JPEG的标准传输和显示格式,图像逐行传输、逐行显示;“基线已优化”格式使用优化的Huffman编码,逐行传输和逐行显示更流畅;“连续”格式提供多次扫描(先轮廓后细节)的渐进传输/显示方式,扫描次数可自定。 可下载专门的JPEG压缩工具进行图像压缩和效果测试。7.4 运动图像压缩标准MPEG7.4.1 MPEG概述 MPEG是ISO指定的专门用于运动图像压缩的一个系列标准,其中包括MPEG-1、MPEG-2、MPEG-4、

46、MPEG-7以及MPEG-21等具体标准。其中MPEG-1是基础标准,包括MPEG-1视频、MPEG-1音频和MPEG-1系统三大部分。应用:VCD视盘。 本节重点介绍MPEG-1视频(视频源、帧类型、编码结构、运动估计与运动补偿、编码与解码)。7.4.2 MPEG-1视频源 MPEG-1视频压缩标准规定的视频源格式为SIF(Source Input Format,源输入格式),具体参数如下:标准名称格式名称帧率像素样本(行列)YCrCbISO/MPEG-1SIF2528835214417614417630240360120180120180 视频编码前必须将视频图像转换成逐行扫描图像,并采用

47、YCbCr模式进行采样,采样格式:4:1:1。 特点:1)运动感由变化的帧序列产生; 2)连续多帧的背景(场景)相似。像素 视频(Video)是随时间变化连续播放多幅静止图像而产生的带有动感的图像序列。7.4.3 MPEG-1视频帧类型 基于以上特点,MPEG将视频分成若干个GOP (Group of Picture,图像组),每个GOP中图像帧分为I帧、B帧、P帧三种类型。I帧(I-Frame):基本信息帧(关键帧),是构成GOP的第一帧,它提供一个场景的所有信息,是其他两种帧信息的参考源;采用JPEG压缩(属帧内编码),压缩比为1:7。P帧(Predicted Frame):前向预测帧,是

48、参考前一幅I帧或P帧图像得到的预测图像;储存与之前一个已解压画面的差值,属单向帧间编码。压缩比为1:20 。前一帧F1后一帧F2压缩后的P帧P=F2-F1FF1F2当前帧前帧后帧参考参考B帧(Bi-predicted Frame):双向预测帧,除了参考之前解压过了的画面外,亦会参考后面一帧中的画面信息,属双向帧间编码。压缩比为1:50200 。形成B帧什么是“参考”? 寻找相邻帧中同一图像块的移动轨迹运动矢量。B帧不保存图像块,而是保存图像块相对于相邻帧中块的运动矢量。三类帧可在视频流中组合使用,如下图。T(前)II帧压缩比最小,P帧压缩比居中,B帧压缩比最大;增加B帧会减少I帧和P帧的相关性

49、,有利于体高压缩比,但会降低图像质量。7.4.4 MPEG-1视频编码结构 MPEG-1 把视频源分成图像组(GOP,Group of Picture)、图像(Picture)、切片(Slice)、宏块(MB,MacroBlock)、像素块(B,Block)共五个编码对象。图像组由I帧开头的一串图像帧组成,是视频随机存取的基本单位,其内部结构(P帧和B帧的组合顺序)和长度(帧数)均可变。 4:1:1 编码时,MPEG-1在以上五个编码对象上添加相应的标志和相关信息,形成MPEG-1的视频编码结构。 7.4.5 运动估计与运动补偿 运动估计是一种帧间编码方法,它通过“估计”前后两帧的空间相关性,

50、来求得前后两帧的“运动差帧间差”,由于对“帧间差”做编码所需比特要比帧内编码所需的比特少很多,帧间差集中在零附近,可以用短的码字传送。 具体计算以宏块或块为单位。7.4.5 运动估计与运动补偿当tt 时,前向运动估计。在参考帧t中搜索到当前帧t中的块的最佳匹配时,可以得到相应的运动场d(x:t,t+t),即可得到当前帧的运动矢量。 7.4.5 运动估计与运动补偿根据运动矢量,编码器将参考帧(或过去帧)位移,求得对当前帧的估计(预测帧),再将预测帧与当前帧做减法运算(运动匹配),求出预测帧与当前帧的预测误差,并对此差值进行量化编码,与运动矢量一起发送给接收端。 7.4.5 运动估计与运动补偿在接

51、收端,解码器收到运动矢量和已编码的预测误差后,先解码,再按照运动矢量指明的位置,从已经解码的邻近参考帧图像中找到相应的块或宏块,和预测误差相加后就得到所需的块或宏块在当前帧中的位置。解码器通过预测误差和运动矢量求得“所需的块或宏块在当前帧中的位置”的过程称为运动补偿。 运动矢量帧间差过去帧当前帧的估计当前帧+位移补偿7.4.6 MPEG视频的编码与解码由MPEG-1视频编码器完成;提供对播放装置的正放、图像冻结、快进、快退和慢放功能以及随机访问能力;压缩后的码率为1.5Mbps。 具体编码过程如下图。1、编码图像插值、图像校正、图像增强等预处理,以改善图像质量。 注:图像预测器,包含一个帧图像

52、存储器,可存储相邻帧或过去帧,预测器按照运动矢量对过去帧(或相邻帧)做位移来求得“当前帧的估计”预测帧对于I帧,采用帧内编码,通过DCT变换、量化、熵编码完成编码过程 P帧和B帧,帧间编码,1)当前帧和参考帧做运动估计,求运动矢量;2)通过图像预测器,对参考帧中的宏块作矢量运动,求得当前帧中宏块的位置估计(当前帧的估计),再将当前帧与当前帧的估计做减法,求得预测误差,然后对预测误差进行DCT变换、量化和熵编码。 经过逆量化、IDCT,再与当前帧的估计相加,形成参考帧,以便下一帧编码时使用。在接收端,由MPEG-1视频解码器完成;对收到的可变字长熵编码进行解码,通过逆量化和逆DCT变换,实现对编

53、码数据的重构,然后再与图像预测器相结合形成当前图像(也为以后接收到的图像做预测),经过后处理(插入和滤波)得到结果图像,实现视频输出。2、解码7.5 视听通信编码标准H.26简介 H.26是ITU-T(国际电联)制定的用于通信的音/视频编码系列标准,主要包括H.261、H.262、H.263、H.263+/+、H.26L、H.264等。H.262 是一个数字视频编码标准,在技术内容上和ISO/IEC的MPEG-2视频标准一致。 本节介绍H.261的基本内容。 7.5.1 H.261标准 H.261视频编码标准又称P64标准,它支持音频和实时动态图像的压缩编码和解码,应用目标是可视电话与电视会议

54、。其中P是一个可变参数,取值范围是130,所以该标准的最低传输速度是64Kbps,最高传输速度是1920Kbps。P参数的设置使得H.261能够适应不同带宽的传输信道,具有更好的低速网络适应能力。 7.5.1 H.261标准H.261的视频源格式 国际间的可视电话和视频会议涉及国家和地区之间的电视制式问题,为了解决各国电视制式不一致的问题,H.261采用了CIF(Common Intermediate Format,公共中间格式)和QCIF来定义视频画面,不论何种电视制式,发送方先把自己国家的电视制式转换成CIF/QCIF格式,经H.261编码后传输,接收方收到后再由CIF/QCIF格式转换成

55、本国或本地区的电视制式。表7-2给出了CIF/QCIF与其他视频格式的具体参数。 表7-2 CIF/QCIF及其他视频格式参数表采用标准格式名称帧率像素样本(行列)YCrCbISO/MPEG-1SIF2528835214417614417630240360120180120180CCITT/H.261CIF29.97288352144176144176QCIF14417672887288CCIR601PAL25576720288360288360NTSC304807202403602403602画面分割与数据结构 采用CIF/QCIF 格式;画面被分割若干个88的像素块;像素块又分为Y亮度块、

56、Cb块和Cr块三种;4个亮度块和1个Cr块及1个Cb块组成一个宏块MB;33个MB 组成一个块组GOB;一帧CIF图像由12个GOB组成,一帧QCIF 图像由3个GOB组成。画面数据结构由帧、GOB、MB、B组成四层结构。3H.261的编解码系统 (1)编码对图像的I、P、B帧进行压缩编码。将帧图像数据编排成四层结构,并通过熵编码输出。用于视频数据的误码检测和纠正 。传输缓冲器和码率控制器用于保证输出码流尽可能稳定。3H.261的编解码系统 (2)解码 H.261视频解码器由视频源解码器、视频复合解码器、接收缓冲器和传输解码器等四大部分组成,其结构如图7-33(b)所示。各部分功能与编码器相反

57、。 7.5.2 H.263简介H.263是ITU-T为低码率通信而设计的视频编码标准,与H.261的编码算法原理相同,但做了改善和扩充,提高了编码能力和纠错能力。H.263支持5种分辨率的视频源格式(QCIF、CIF、SQCIF、4CIF和16CIF)。H.263标准在低码率下能够提供比H.261更好的图像效果。 7.5.3 H.264简介H.264主要是为了解决不同比特率、不同分辨率、不同质量和业务需求情况下的视频压缩问题,它支持多种采样模式,高品质视频采用4:4:4全采样模式,一般质量视频采用其他采样模式;支持帧间压缩和帧内压缩,使用基于块的运动矢量,帧间编码充分利用不同图像帧之间的时域统

58、计依赖性进行压缩;帧内编码采用不同的空间预测模式,对一幅图像中的空间统计依赖性加以利用。 7.5.3 H.264简介H.264加强了对IP网络、移动网络的误码和丢包处理,具有更好的网络适应性;与H.263或MPEG-4相比,在相同质量下,H.264的数码率可减少一半左右,也就是说,在相同数码率下,H.264的信噪比明显提高。由于其出色的性能,H.264标准在国际上受到了广泛地重视和欢迎,被人们称为新一代视频编码标准。 7.5.3 H.264简介H.264可广泛应用于:数字存储媒体(ISM交互式光盘存储)电视广播(CATV有线电视、DBS直接广播的卫星视频业务、DSL数字用户线上的视频业务、DT

59、TB数字地面电视广播)网络传输(MMM电子邮件、MSPN 分组交换网络上的多媒体业务)实时通信(视频会议、可视电话、远程监控)等。本章小结 本章较为系统地介绍了多媒体数据压缩的必要性、可能性以及多媒体数据压缩编码算法的分类等基本概念,并重点介绍了多种无损压缩算法的基本思想和编码过程,较为全面地介绍了有损压缩算法的基本思想,从而系统地形成了多媒体数据压缩的技术原理。最后,简单介绍了JPEG、MPEG和H.26x系列视频信息压缩标准。通过学习本章,应掌握以下基本内容: 1)多媒体数据的最大特点就是数据量巨大,必须进行有效的数据压缩后,才能在多媒体系统中有效地处理、存储和传输。 2)多媒体数据中存在

60、着多种冗余信息(信息熵冗余、时间冗余、空间冗余、知识冗余、结构冗余、听觉冗余、视觉冗余等),因此对多媒体数据进行有效的编码压缩是可能的。 3)多媒体数据压缩技术以去掉冗余信息为基本途径,具体方法有多种,按压缩效果可分为有损压缩和无损压缩两种。无损压缩不会丢失有用信息,可完全恢复,因而压缩比较低;而有损压缩则会丢失部分有用信息,还原时无法得到与原信息完全相同的信息,但损失的信息控制在人能接受的范围内,因而压缩比较高。 4)无损压缩通过不同的方法去除冗余信息,常用的编码压缩方法有Huffman编码、算术编码、行程编码和词典编码等。 5)有损压缩主要从多媒体信息的采样、量化入手,通过分析和去除各种可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论