版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
6.1概述6.1.1图像压缩基本概念1)数据冗余在一个数据集合中重复的数据称为数据冗余。它是指数据之间的重复,也可以说是同一数据存储在不同数据文件中的现象。数据冗余的种类主要有:空间冗余、时间冗余、结构冗余和视觉冗余这4种。(1)空间冗余。空间冗余是图像数据中经常存在的一种冗余,是静态图像中存在的最主要的一种数据冗余。同一景物表面上采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用这种连贯性。例如,图像中有一片连续的区域,其像素为相同的颜色,空间冗余产生。下一页返回6.1概述(2)时间冗余。时间冗余是序列图像(电视图像、动画)和语音数据中所经常包含的冗余。图像序列中两幅相邻的图像,后一幅图像与前一幅图像之间有较大的相关性,这反映为时间冗余。例如,房间里的两个人在聊天,在这个聊天的过程中,背景(房间和家具)一直是相同的,同时也没有移动,而且是同样的两个人在聊天,只有动作和位置的变化。(3)结构冗余。结构冗余是在某些场景中,存在着明显的图像分布模式,这种分布模式称作结构。图像中重复出现或相近的纹理结构,可以通过特定的过程来生成。例如:方格状的地板,蜂窝,砖墙,草席等在结构上存在冗余。已知分布模式,可以通过某一过程生成图像。下一页返回上一页6.1概述(4)视觉冗余。人类视觉系统对于图像场的任何变化,并不是都能感知的。例如,对于图像的编码和解码处理时,由于压缩或量比截断引入了噪声而使图像发生了一些变化,如果这些变化不能为视觉所感知,则仍认为图像足够好。事实上人类视觉系统一般的分辨能力约为26灰度等级,而一般图像量化采用28灰度等级,这类冗余称为视觉冗余。通常情况下,人类视觉系统对亮度变化敏感,而对色度的变化相对不敏感;在高亮度区,人眼对亮度变化敏感度下降,对物体边缘敏感,而对内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感。2)图像编解码模型对图像数据的压缩可借助对图像的编解码来实现,这个过程可用图6.1表示,它实际上包含两个步骤。首先通过对原始图像的编码以达到减少数据量的目的,所获得的编码结果可用于存储和传输;然后为了实际应用的需要对编码结果进行解码,得到解码图像以供使用。下一页返回上一页6.1概述图6.2给出一幅图像编解码示意图,原始图像经编码后成为一串特定的码流,这串码流经解码又成为一幅图像。表示编码结果所需的数据量一般比表示原始图像所需的数据量少。解码图像编码方法根据应用需要可以与原始图像相同,也可以与原始图像不同。压缩数据量的重要方法是消除冗余数据。所谓冗余数据是指那些代表了无用的信息,或者是重复地表示了其他数据已表示信息的数据。注意在不同应用中,哪些信息是无用的(有时也包括不重要的信息)或是已由其他数据表示了的均应不同,所以需采取相应的方法进行压缩。下一页返回上一页6.1概述6.1.2图像压缩的必要性图像数字化之后,其数据量是非常庞大的。例如,一幅分辨率为640×480像素的彩色图像(24
bit/像素),其数据量约为921.6
KB。如果以每秒30帧的速度播放,则每秒的数据量为:640×480×24×30
bit
=
221.12
Mbit,需要221
Mbit/s的通信回路;如果存放在650
MB的光盘中,在不考虑音频信号的情况下,每张光盘也只能播放24
s。这无疑对图像存储、传输、处理带来很大困难,而且庞大的数据对计算机的处理速度、存储容量都提出更高的要求,因此,必须把图像数据进行压缩。下一页返回上一页6.1概述6.1.3图像压缩的可能性图像压缩的理论基础是信息论。从信息论的角度来看,压缩就是去掉信息中的冗余,即保留不确定的信息,去掉确定的信息;也就是用一种更接近信息本质的描述来代替原有冗余的描述。一幅图像存在着大量的数据冗余和主观视觉冗余,因此图像数据压缩是可能的。具体讲,图像之所以能够进行压缩可能有以下几个方面的原因。(1)原始图像数据是紧密相关的,存在很大的数据冗余。如图像内相邻像素之间的空间冗余度、系列图像前后帧之间的时间冗余度、多光谱遥感图像各频谱间的频率域冗余度等,它们造成了大量的比特数浪费,消除这些冗余就可以节约码字,大大减少数据量,达到数据压缩的目的。下一页返回上一页6.1概述(2)信源符号出现的概率不同,若用相同码长表示出现概率不同的符号,就会造成符号冗余度。如果采用可变长编码技术,对出现概率高的符号用短码字,对出现概率低的符号用长码字表示,就可以消除符号冗余度,从而节约码字。(3)人眼具有视觉冗余,允许图像编码有一定的失真。人类视觉系统(HVS)是有缺陷的,人眼对于某些失真不敏感且难以察觉。在许多场合中,并不要求经压缩及复原以后的图像和原始图像完全相同,可以允许有少量的失真,只要这些失真并不被人眼所察觉即可。这就为压缩比的提高提供了十分有利的条件,这种有失真的编码称为限失真编码。在多数应用中,人眼往往是图像信息的最终接受者,图像编码方法如果能充分利用人眼的视觉特性,就可以在保证复原图像主观质量较好的前提下取得较高的压缩比。下一页返回上一页6.1概述(4)可以利用先验知识来实现图像编码,降低知识冗余度。例如,在可视电话中,编码对象可为人的头和肩等,这时可利用对编码对象的先验知识为编码对象建立模型,通过提取模型参数,对参数进行编码而不对图像直接进行编码,可以达到非常高的压缩比。下一页返回上一页6.1概述6.1.4图像压缩方法分类编码压缩方法有许多种,从不同的角度出发有不同的分类方法,从信息论角度出发可分为两大类。(1)冗余度压缩方法,也称无损压缩、信息保持编码或嫡编码。具体说就是解码图像和压缩编码前的图像严格相同,没有失真,从数学上讲是一种可逆运算。(2)信息量压缩方法,也称有损压缩、失真度编码。也就是说解码图像和原始图像是有差别的,允许有一定的失真。应用于多媒体中的图像压缩编码方法,从压缩编码算法原理上可以分为以下3类。(1)无损压缩编码种类。包括哈夫曼(Huffman)编码,算术编码,行程(RLE)编码,Lempelzev编码。下一页返回上一页6.1概述(2)有损压缩编码种类。包括预测编码,DPCM,运动补偿。频率域方法:正交变换编码(如DCT),子带编码;空间域方法:统计分块编码;模型方法:分形编码,模型基编码。(3)混合编码。包括JBIG、H261、JPEG、MPEG等技术标准。下一页返回上一页6.1概述6.1.5图像压缩评价指标图像编码的结果由于减少了数据量,所以比较适合存储和传输,但在实际应用时常需要将编码结果解码,即恢复图像形式才能使用。根据解码图像对原始被压缩图像的保真程度,图像压缩的方法可分成两大类:信息保存型和信息损失型。信息保存型在压缩和解压缩过程中没有信息损失,最后得到的解码图像可以与原始图像相同。信息损失型常能取得较高的压缩率,但图像经过压缩后并不能通过解压缩完全恢复原状,这是由于在图像压缩过程中放弃了一些图像细节或其他不太重要的内容,导致了实实在在的信息损失。在这种情况下常常需要有信息损失的测度以描述解码图像相对于原始图像的偏离程度(或者说需要有测量图像质量的方法),这些测度一般称为保真度(逼真度)准则。常用的准则主要有两大类:客观保真度准则;主观保真度准则。下一页返回上一页6.1概述
下一页返回上一页6.1概述
下一页返回上一页6.1概述
下一页返回上一页6.1概述
下一页返回上一页6.1概述
下一页返回上一页6.1概述2)主观保真度准则尽管客观保真度准则提供了一种简单和方便的评估信息损失的方法,但很多解压图像最终是供人看的。因此图像质量的好坏,既与图像本身的客观质量有关,也与人的视觉特性有关。在这种情况下,用主观的方法来测量图像的质量则更为合适,所以又规定了主观保真度准则。主观保真度准则就是把图像显示给观察者,让观察者做出评价。一种常用的主观评价方法是对一组(常超过20个)精心挑选的观察者展示一幅典型的图像并将他们对该图的评价综合平均起来以得到一个统计的质量评价结果。例6.2评价电视图像质量。评价可对照某种绝对的尺度进行。表6.1给出一种对电视图像质量进行绝对评价的尺度,这里根据图像的绝对质量进行判断打分。返回上一页6.2统计编码6.2.1哈夫曼(Huffman)编码哈夫曼(Huffman)编码是消除编码冗余最常用的技术之—,是Huffman于1952年建立的一种非等长最佳编码方法。当对信源符号逐个编码时,哈夫曼编码能给出最短的码字。根据无失真编码定理,哈夫曼编码方式对固定的n值(n为每个块中符号的个数)是最优的。哈夫曼编码的基本思想是依据变长编码理论,按照输入信息字符出现概率的大小不同,给输出码字分配以不同的字长。概率大的字符分配短码,概率小的字符分配长码,来构造最短的平均码长的编码。由此构造出来的码一定是最优的。哈夫曼编码过程有2个步骤,第1步是缩减信源符号数量,第2步是对每个信源符号赋值。下一页返回6.2统计编码
下一页返回上一页6.2统计编码
下一页返回上一页6.2统计编码
下一页返回上一页6.2统计编码参见图6.3,第1步是缩减信源符号的数量。先将信源符号按它们的概率从大到小排列,然后将概率最小的2个符号结合得到1个组合符号,将这个组合符号与其他没有组合的符号一起仍按概率从大到小排列(见图中消减步骤第l列)。如果剩下的符号多于2个,则继续以上过程直到信源中只有2个符号为止。在本例中消减步骤进行到第2列就只剩2个符号,所以该步骤结束。消减步骤次数为符号个数减至2。第2步是对每个信源符号赋值。先从上述消减到最小的信源开始,逐步赋值回到初始信源,这个过程可参见图6.4。在开始时,消减到最小的信源只有2个符号,将码0和1分别赋给它们。这里赋0或1可以随意,不影响编码效率(得到的两种结果将0和1对换就完全一样)。由于对应概率为0.62的符号是由左边2个符号结合而成,所以先将0赋予这2个符号,然后再如上随意地将0和1接在后面以区分这2个符号。继续这个过程直到初始信源。最终得到的码字见图6.4中“码字”一列所示。下一页返回上一页6.2统计编码这组码宇的平均长度可算得为
(比特/符号)因为信源的熵是1.864比特/符号,所以得到的哈夫曼码的效率为1.864/1.946=0.958。哈夫曼码有3个特点:它是一种块(组)码,因为各个信源符号都被映射成一组固定次序的码符号;它是一种即时码,即满足即时性的码。所谓即时性是指对任意—个有限长的码符号串,可以对每个码字分别解码,即读完一个码字就将其对应的信源符号确定下来,不需要考虑其后的码字;它是一种可唯一解开的码,或者说具有解码的唯一性。解码的唯一性也称单一性,指对任意一个有限长的码符号串,只有一种分解成其各个码符号的方法。换句话说,用其他方法分解都会产生不对应原来符号集的码字。根据这些特点,任何哈夫曼码串可用简单的查表方式通过从左到右检查各个符号进行解码。下一页返回上一页6.2统计编码顺便指出,解码的唯一性和即时性有一定的关系。即时码一定是唯一可解码,但唯一可解码不一定是即时码。反过来,不是唯一可解码肯定也不是即时码,但不是即时码并不能确定是否为唯一可解码。哈夫曼编码是依据符号出现的概率对符号进行编码,需要对原始数据扫描两遍。第一遍扫描要精确统计原始图像中每个灰度值出现的概率,第二遍是建立哈夫曼二叉树并进行编码,故数据压缩和还原速度较慢,但此法有效简单,且编码效率高,所以在一些图像压缩标准中被普遍采用。下一页返回上一页6.2统计编码6.2.2游程编码(RLE编码)游程编码(Run-Length-Encoding,RLE)又称为行程编码或RLE编码。它属于统计编码类,利用空间冗余度压缩图像,原理比较简单,就是将一行中灰度值相同的相邻像素用一个计数值和该灰度值来代替,被广泛应用于数据压缩和图像格式的压缩之中。设图像中的某一行或某一块像素经采样或经某种方法变换后的系数为(x1,x2,…,xM)。图像的某一行或某一块可由下面偶对
,
来表示。
(6.13)其中,gi为每个串内的代表值,li为串的长度。串长li就是游程长度(Run-Length,RL),即由字符或灰度值构成的数据流中各个字符重复出现而形成的字符串的长度。如果给出了形成串的字符、串的长度及串的位置,就能很容易地恢复出原来的数据流。下一页返回上一页6.2统计编码游程编码分为定长游程编码和变长游程编码两类。定长游程编码是指编码的游程所使用位数是固定的,即RL位数是固定的。如果灰度连续相同的个数超过了固定位数所能表示的最大值,则进入下一轮游程编码。变长游程编码是指对不同范围的游程用不同位数的编码,即表示RL位数是不固定的。游程编码的算法思想是在给定数据中寻找连续重复的数据,然后用两个字符取代这些连续重复数据,第1个字符表示重复字符个数,第2个字符表示重复的字符。下一页返回上一页6.2统计编码例如,如下一串数据 aaabbcccccdddeeffgggg
若每个字符用一个字节表示,共用了21
Bit。用游程编码可表示为 3a2b5c3d2e2f4g用了14
Bit,数据占有的空间减少了。这种编码方法在处理含有大量重复数据时,可以获得很好的压缩效果。但是如果连续重复的数据很少,则压缩效果不好,甚至会出现数据“膨胀”,即压缩后的字节数大于压缩前的字节数。所以游程编码的压缩效率与压缩对象的数据分布有关。目前,游程编码主要用于2色、4色、8色、16色图像的压缩,在BMP、PCX和TIFF图像格式中得到应用。在不同的图像格式中,具体实现游程编码的处理上略有不同,但总的算法思想是相同的。下一页返回上一页6.2统计编码游程编码一般不直接应用于多灰度图像,但比较适合二值图像的编码。例如,黑白传真图像的编码等。为了达到较好的压缩效果,有时游程编码和其他一些编码方法混合使用。
RLE比较适合二值图像数据序列,其原因是在二值序列中,只有0和1两种符号。这些符号的连续出现,就形成了0游程L(0)和1游程L(1)。0游程和1游程总是交替出现的。倘若规定二值序列是0开始,第1个游程是0游程,第2个必为1游程,第3个游程又是0游程……各游程长度[L(0),L(1)]是随机的,其取值为
。定义了游程和游程长度之后,就可以把任何二元序列变换成游程长度的序列,简称游程序列。这一变换是可逆的,一一对应的。下一页返回上一页6.2统计编码例如,一个二元序列为111100000111111100000111111111000111,如图6.5所示,可变换成游程序列4575933。实际上,游程编码是分两步进行的,首先是对每一行交替出现的白长和黑长进行统计,如图6.5所示,可写成:4,5,7,5,9,3,3(其含义是4个白(1),5个黑(0),7个白(1),5个黑(0),9个白(1),3个黑(0),3个白(1));然后再对游长进行变长编码,即根据其不同的出现概率分配不同长度的码字。若已知二元序列是从0起始,那么很容易恢复成原二元序列。由此可知,游程序列是多元序列,各长度可用Huffman编码,或其他方法处理以达到数据压缩的目的。下一页返回上一页6.2统计编码从二元序列转换为游程(多元)序列的具体方法还是比较简单的。其中一个方法是对二元序列的0和1分别计算,就可得0游程L(0)
和1游程L(1)。若对游程长度进行Huffman编码,必须先测定L(0)
和L(1)
的分布概率,或从二元序列的概率特性去计算各游程长度的概率。所以,RLE应归为统计编码类。例6.3对4×4RAW图像序列的如下搜索表 555|34|-6-6-6|7|8888888进行压缩试验。其运行结果如图6.6所示。图6.7为压缩大小为64
KB二值图像test.raw,并解压得到的结果。下一页返回上一页6.2统计编码6.2.3算术编码20世纪60年代,由Elias推出了算术编码(Arith-meticCoding,AC)概念。此法在某些方面优于Huffman编码,如码字紧凑,并对输入数据没有分组编码要求,即有记忆编码器。它适用于自适应模式。算术编码是1种从整个符号序列出发,采用递推形式连续编码的方法。建立在符号和码字对应基础上的块码(与哈夫曼码不同),在算术编码中,源符号和码字间的一一对应关系并不存在。1个算术码字要赋给整个信源符号序列,而码字本身确定了0和1之间的1个实数区间。随着符号序列中的符号数量增加,用来代表每个符号的区间减小,而用来表达区间所需的信息单位(如比特)的数量变大。与哈夫曼方法不同,这里不需要将每个信源符号转换为整数个码字(即1次编1个符号),当需要编码的符号序列的长度不断增加时,运用算术编码得到的码将会逐渐接近由无失真编码定理确定的极限。下一页返回上一页6.2统计编码下面介绍算术编码的方法,具体步骤见图6.8。这里设要编码的符号序列为:c1c2c3c4=b1b2b3b4
。在编码开始时设符号序列占据整个半开区间[0,1),这个区间先根据各个信源符号的概率分成4段(0~0.1,0.1~0.48,0.48~0.7,0.7~1)。编码序列的第一个符号
对应半开区间[0,1),编码时将这个区间扩展为整个高度,并仍根据各个信源符号的概率分成4段(0~0.01,0.01~0.048,0.048~0.07,0.07~0.1),见图6.8。这样编码序列的第2个符号
对应半开区间[0.01,0.048)。继续上述过程直到最后1个信源符号。这最后1个信源符号也用来作为符号序列结束的标志。编完最后1个符号
后得到1个区间[0.034,0.036
6],这时用任何1个该区间内的实数,如二进制的0.000010012(等于10进制的0.03515625)就可表示整个符号序列。下一页返回上一页6.2统计编码例6.4二元序列的二进制算术编码。设有1个零记忆信源,它的信源符号集为
,符号产生概率分别为:
,
。对序列11111100,它的二进制算术编码码字为0.11010102。因为这里需编码的序列长为8位,所以一共要把半开区间[0,1)分成256个小区间,以对应任1个可能的序列。由于任1个码字必在某个特定的区间,所以解码具有唯一性。
在算术编码过程中,只需用到加法和移位运算,这就是其名称的由来。算术码也是1种即时码,对它的解码也具有唯一性。下一页返回上一页6.2统计编码例6.5哈夫曼编码和算术编码的比较示例。设1个4符号信源
中各个信源{a1,a2,a3,a4}符号的概率为:P(a1)=0.2,
,P(a2)=0.2,P(a3)=0.4,P(a4)=0.2现要对来自这个信源的由5个符号组成的符号序列:
进行编码。先考虑哈夫曼编码,其信源消减见图6.9,而赋值见图6.10。这样得到的哈夫曼码为1110000101。现在考虑算术编码,其编码过程见图6.11。从第1个符号开始依次编,编完最后l个符号后得到的区间为[0.067
52,0.068
8]。这里用任何1个该区间内的实数,如0.068就可用来表示整个符号序列。返回上一页6.3预测编码6.3.1预测编码基本原理预测编码(PredictiveCoding)是基于图像数据的空间冗余特性,它的基本原理是:首先根据算法模型,用原有的样本值对新样本进行预测,得到新样本的预测值;接着,取新样本的实际数值和预测值进行比较,二者相减得到差值,最后对差值进行量化和编码,这就是预测编码形成的基本过程。通常误差值比样本值小得多,因而可达到数据压缩的效果。预测编码的关键在于预测算法的选取,这与图像信号的概率分布有很大关系。实际中常根据大量的统计结果来设计最佳的预测器,有时还使用自适应预测器以刻画图像信号的局部特性,从而提高编码效率。预测编码方法在图像数据压缩和语音信号数据压缩中都得到了广泛应用。常用的预测编码有差分脉冲预测编码调制,即DPCM(DifferentialPulseCodeModulation)和增量调制(DM或DM)。下一页返回6.3预测编码6.3.2DPCM预测编码DPCM是差分脉冲编码调制算法,主要用于图像压缩。1)DPCM的工作原理DPCM的基本工作原理为:比较相邻的两个像素,如果两个像素之间存在差异,将差异之处的差值传送出去,若比较的像素之间没有差异,则不传送差值。DPCM编码系统的原理框图如图6.12所示,其中编码器和解码器分别完成对预测误差量化值的熵编码和解码。下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码还要用x0的以前几行中的抽样值来预测x0,如图6.13所示。
下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码6.3.3自适应预测编码ADPCM为了进一步改善量化性能或压缩数据率,可以采用自适应量化或自适应预测,即自适应脉冲编码调制(ADPCM)。它的核心想法是:利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图6.14所示。下一页返回上一页6.3预测编码ADPCM需要经过以下两个步骤。
1)自适应量化在一定量化级数下减少量化误差或在同样的误差条件下压缩数据,根据信号分布不均匀的特点,系统具有随输入信号的变化区间足以保持输入量化器的信号基本均匀的能力,这种能力叫自适应量化。自适应量化必须有对输入信号的幅值进行估值的能力,有了估值才能确定相应的改变量。若估值在信号的输入端进行,称前馈自适应;若在量化输出端进行,称反馈自适应。信号的估值必须简单,占用时间短,才能达到实时处理的目的。下一页返回上一页6.3预测编码2)自适应预测预测参数的最佳化需要依赖信源的特征,要得到最佳预测参数显然是一件繁琐的工作。而采用固定的预测参数往往又得不到较好的性能。为了能使性能较佳,又不至于有太大的工作量,可以采用自适应预测。为了减少计算工作量,预测参数仍采用固定的,但此时有多组预测参数可供选择,这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数需根据特征来自适应地确定。为了自适应地选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使该实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应地变化,以达到准最佳预测。下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码图6.15DM编码的编码过程2)译码的基本思想与编码相对应,译码也有两种情况,一种是收到“1”码上升一个量化阶(跳变),收到“0”码下降一个量化阶(跳变),这样就可以把二进制代码经过译码变成
这样的阶梯波。另一种是收到“1”码后产生一个正斜变电压,在Dt时间内上升一个量化阶,收到一个“0”码产生一个负的斜变电压,在Dt时间内均匀下降一个量化阶。这样,二进制码经过译码后变为如x0(t)这样的锯齿波。考虑电路上实现的简易程度,一般都采用后一种方法。这种方法可用一个简单RC积分电路把二进制码变为x0(t)波形,如图6.16所示。图中假设二进制双极性代码为1010111时x0(t)与p(x)的波形。下一页返回上一页6.3预测编码3)DM编码系统框图根据DM编、译码的基本原理,可组成简单DM系统方框图如图6.17所示。发送端编码器由相减器、判决器、积分器及脉冲发生器(极性变换电路)组成的一个闭环反馈电路。判决器是用来比较x0(t)与x(t)大小,在定时抽样时刻如果x(t)-x0(t)>0输出“1”;x(t)-x0(t)<0输出“0”;x0(t)由本地译码器产生。实际中实用编码方框图比图6.17中所描述的要复杂得多。系统中收端译码器的核心电路是积分器,当然还包含一些辅助性的电路,如脉冲发生器和低通滤波器等。无论是编码器中的积分器,还是译码器中的积分器,都可以利用RC电路实现,得到近似锯齿波的斜变电压。下一页返回上一页6.3预测编码
下一页返回上一页6.3预测编码6.3.4.2德尔塔调制(DM)编码的基本问题1)量化误差在分析DM系统量化噪声时,通常假设信道加性噪声很小,不造成误码。在这种情况下,DM系统中量化噪声有两种形式:一种是一般量化噪声;另一种则被称为过载量化噪声。如图6.17所示的量化过程,本地译码器输出与输入的模拟信号作差,就可以得到量化误差e
(t),具体计算方法为:e
(t)=x
(t)-x0(t),e
(t)—t的波形是一个随机过程。如果e
(t)的绝对值小于量化阶s,即|e(t)|=|x(t)-x0(t)|<s,e(t)在-s
~s
随机变化,这种噪声被称为一般量化噪声。下一页返回上一页6.3预测编码过载量化噪声(有时简称过载噪声)发生在模拟信号斜率陡变时,由于量化阶s
是固定的,而且每秒内台阶数也是确定的,因此,阶梯电压波形就有可能跟不上信号的变化,形成了包含很大失真的阶梯电压波形,这样的失真称为过载现象,也称过载噪声,具体情况如图6.18(b)所示;如果无过载噪声发生,则模拟信号与阶梯波形之间的误差就是一般的量化噪声,如图6.18(a)所示。图中的e(t)=x(t)-x0(t),可以统称其为量化噪声。
2)过载特性当出现过载时,量化噪声将急剧增加,因此,在实际应用中要尽量防止出现过载现象。为此,需要对DM系统中的量化过程和系统的有关参数进行分析。下一页返回上一页6.3预测编码设抽样时间间隔为Dt,则上升或下降一个量化阶s,可以达到的最大斜率K(这里仅考虑上升的情况),可以表示为
(6.23)这也就是译码器的最大跟踪斜率。显然,当译码器的最大跟踪斜率大于或等于模拟信号x(t)的最大变化斜率时,即
(6.24)下一页返回上一页6.3预测编码译码器输出
能够跟上输入信号
的变化,不会发生过载现象,因而不会形成很大的失真。但是,当信号实际斜率超过这个最大跟踪斜率时,则将造成过载噪声。因此,为了不发生过载现象,则必须使s
和fS的乘积达到一定的数值,以使信号实际斜率不会超过这个数值。因此,可以适当地增大s
或fS来达到这个目的。对于一般量化噪声,由图6.18(a)不难看出,如果s
增大则这个量化噪声就会变大,s
小则噪声小。采用大的s
虽然能减小过载噪声,但却增大了一般量化噪声。因此,s
值应适当选取,不能太大。不过,对于DM系统而言,可以选择较高的抽样频率,因为这样,既能减小过载噪声,又能进一步降低一般量化噪声,从而使DM系统的量化噪声减小到给定的容许数值。通常DM系统中的抽样频率要比DPCM系统的抽样频率高得多(通常要高两倍以上)。返回上一页6.4变换编码预测编码的压缩能力是有限的。以DPCM为例,一般只能压缩到每样值2~4比特。20世纪70年代后,科学家们开始探索比预测编码效率更高的编码方法。人们首先讨论了K-L变换(Karhunen-LoeveTransform)、傅里叶变换等正交变换,得到了比预测编码效率高得多的结果,但苦于算法的计算复杂性太高,进行科学研究可以,实际使用起来很困难。直到20世纪70年代后期,研究者发现离散余弦变换DCT与K-L变换在某一特定相关函数条件下具有相似的基向量,而用DCT的变换矩阵来做正交变换就可以节省大量的求解特征向量的计算,因而大大简化了算法的计算复杂性。DCT的使用使变换编码压缩进入了实用阶段。小波变换是继DCT之后科学家们找到的又一个可以实用的正交变换,它与DCT各有千秋,因而分别被不同的研究群体所推崇。下一页返回6.4变换编码6.4.1变换编码的基本原理变换编码是指先对信号进行某种函数变换,从一种图像(空间)变换到另一种(空间),然后再对信号进行编码。如将时域信号变换到频域,因为图像大部分信号都是低频信号,在频域中信号的能量较集中,再进行采样、编码,那么肯定能够达到压缩数据的目的。变换编码通常采用DCT变换,因为它的性能接近K-L变换,同时具有快速算法,非常适合图像变换编码。变换编码比预测编码要复杂,但是各种误差(量化、信道误差)不会向后面扩展,对视觉影响不大。下一页返回上一页6.4变换编码变换编码系统中压缩数据有图像分块、变换、变换域采样和量化4个步骤。变换本身并不进行数据压缩,它只把信号映射到另一个域,使信号在变换域里容易进行压缩,变换后的样值更独立和有序。这样,量化操作通过比特分配可以有效地压缩数据。在变换编码系统中,用于量化一组变换样值的比特总数是固定的,它总是小于对所有变换样值用固定长度均匀量化进行编码所需的总数,所以量化使数据得到压缩,是变换编码中不可缺少的一步。在对量化后的变换样值进行比特分配时,要考虑使整个量化失真最小。变换编码是一种间接编码方法。它是将原始信号经过数学上的正交变换后,得到一系列的变换系数,再对这些系数进行量化、编码、传输。图6.19是变换编码系统方框图。下一页返回上一页6.4变换编码6.4.2变换编码特性评价常用的变换编码特性准则有以下3种。1)残余相关准则变换域内变换系数具有的相关性称为残余相关性,它代表经过正交变换后图像相关性被削弱的程度。显然,如果变换方法及有关参数选择恰当,则变换系数矩阵所对应的相关系数会很小,原图像的相关性得到了充分的消除,冗余度得到了很好的压缩。2)均方误差准则均方误差准则是一种将解码后的重建图像与未经压缩的原始图像之间的均方误差作为衡量各种正交变换效果的准则。正交变换编码是一种有失真的编码技术,因此需要规定一个可以为大家所能接受的误差限制。以均方误差作为准则,在允许的失真度下,实现有效的编码压缩。下一页返回上一页6.4变换编码3)主观评价准则图像最后的接收者是人的眼睛。人的眼睛对图像失真的感觉与均方误差准则并不完全一致。人眼对正交变换编码的复原图像的失真比较敏感,特别是对于把图像分割成若干子块后进行变换而产生的所谓块状效应十分敏感。主观评价就是以人眼能感觉出来的图像质量的好坏和可接受性作为标准进行评价。上述几种评价准则中,只有残余相关准则与正交变换本身的特性有关,而其余的两种准则,除了与正交变换本身的特性有关之外,还与变换系数样本的选择及量化特性有关,因此应将均方误差准则和主观评价准则看成是整个正交变换编码系统特性的评价准则。下一页返回上一页6.4变换编码6.4.3变换编码方案选择1)变换方法选择许多图像变换都可用于图像压缩,不同变换的信息集中能力不同。对一个给定的编码应用,如何选择变换取决于可容许的重建误差和计算要求。在理论上,K-L变换是最优的正交变换,它能完全消除子像块内像素间的线性相关性;但K-L基向量是不固定的,且与编码对象的统计特性有关,这种不确定性使得K-L使用起来非常不方便,所以一般只作为理论上的比较标准。实际图像压缩常采用离散余弦变换(DCT),它的性能接近
K-L
变换,但比
K-L变换具有快速算法。而离散傅里叶变换(DFT)和沃尔什变换(WHT)要差一些。下面简要介绍一下离散余弦变换(DCT)压缩。下一页返回上一页6.4变换编码离散余弦变换(DCT)在图像压缩中具有广泛的应用,它是JPEG、MPEG等数据压缩标准的重要数学基础。和相同图像质量的其他常用文件格式(如GIF(可交换的图像文件格式),TIFF(标签图像文件格式),PCX(图形文件格式))相比,JPEG是目前静态图像中压缩比最高的。JPEG比其他几种压缩比要高得多,而图像质量都差不多(JPEG处理的图像只有真彩图和灰度图)。正是由于其高压缩比,使得JPEG被广泛地应用于多媒体和网络程序中。JPEG有几种模式,其中最常用的是基于DCT变换的顺序型模式,又称为基本系统(Baseline)。用DCT压缩图像的过程如下。(1)首先将输入图像分解为8×8或16×16的块,然后对每个子块进行二维DCT变换。(2)将变换后得到的量化的DCT系数进行编码和传送,形成压缩后的图像格式。下一页返回上一页6.4变换编码用DCT解压的过程如下。(1)对每个8×8或16×16块进行二维DCT反变换。(2)将反变换的矩阵的块合成一个单一的图像。余弦变换具有把高度相关数据能量集中的趋势,DCT变换后矩阵的能量集中在矩阵的左上角,右下角大多数的DCT系数值非常接近于0。对于通常的图像来说,舍弃这些接近于0的DCT的系数值,并不会对重构图像的画面质量带来显著的下降。所以,利用DCT变换进行图像压缩可以节省大量的存储空间。压缩应该在最合理地近似原图像的情况下使用最少的系数。使用系数的多少也决定了压缩比的大小。在压缩过程的第2步中,可以合理地舍弃一些系数,从而实现压缩的目的。在压缩过程的第2步,还可以采用RLE和Huffman编码来进一步压缩。下一页返回上一页6.4变换编码例6.5图像DCT压缩示例。图6.20是DCT变换图像压缩示例,图6.20(a)为原图,图6.20(b)为压缩图。2)子块图像尺寸选择在正交变换中,需要将一帧图像划分为若干正方形的图像子块来进行。子块图像的尺寸大小也是影响变换编码误差和计算复杂度的一个重要因素。子块越小,计算量越小,实现时硬件装置的规模也越小,但均方误差较大,在同样的允许失真度下,压缩比小。但子块太大,压缩量增大,使得计算复杂度也显著加大。因此,一般将图像分成尺寸满足两个条件的子图像:相邻子图像之间的相关(冗余)减少到某个可接受的水平;子图像的长和宽都是2的整数次幂。下一页返回上一页6.4变换编码3)变换系数编码选择(量化)在多数变换编码系统中,对变换系数的编码,应结合人类视觉心理因素,可采用最大方差准则,按照分区编码和最大幅度准则,称为阈值编码。保留变换系数中幅值较大的元素,而将大多数幅值较小或某些特定区域的变换系数全部当做零处理,这样可以减少图像数据。再辅以非线性量化,可进一步压缩图像数据。(1)分区编码。分区编码的基础是信息论中的不确定性原理。根据这个原理具有最大方差的变换系数带有最多的图像信息,它们应当保留在编码过程中。因此,分区编码就是选出能量集中的区域,对这个区域中的系数进行编码传送,而其他区域的系数可舍弃不用。在译码时可对舍弃的系数进行补零处理。由于大多数图像的频谱具有低通特性,所以通常是保留低频系数,而舍弃高频系数。如图6.21给出了采用不同方案时的恢复图像。下一页返回上一页6.4变换编码(2)阈值编码。分区编码一般对所有子图像采用1个固定的模板。阈值编码是自适应的为各个子图像设置不同的模板。它不是选定固定的区域,而是先设定一个门限值。如果系数超出门限值,就保留下来并且进行编码传输;如果小于门限值就舍弃不用。有3种对变换子图像取阈值的方法:①对所有子图像用1个全局阈值。②对各个子图像分别用不同的阈值。③根据子图像中各系数的位置选取阈值。下一页返回上一页6.4变换编码6.4.4小波变换压缩信号分为平稳信号和非平稳信号。研究平稳信号的理想工具是傅里叶变换,而非平稳信号则可以用小波变换来处理。虽然DCT算法是经典谱分析常采用的工具,它考察整个时域过程的频域特征或整个频域过程的时域特征,但是对于非平稳过程,这种算法则显得力不从心。DCT只是对孤立的图像块做变换处理,所得的变换系数反映块内信息,不能反映块间的相关信息,而量化噪声又增加了块间的低频相关信息的随机性,这种相邻块之间的低频能量跳变即反映为图像灰度的“块效应”。小波理论是在调和分析的数学理论基础上发展起来的一个新的应用数学分支,它和Fourier分析具有密切的联系。下一页返回上一页6.4变换编码小波变换使得信号的低频长时特性和高频短时特性同时得到处理,有效地克服了傅氏变换在处理非平稳复杂图像信号时所存在的局限性,因而在各种多媒体业务应用领域受到了广泛的重视,特别是在静态图像编码方面。如果我们以小波变换为分界,那么可以将整个小波压缩过程分为3个部分。(1)小波变换预处理过程。(2)小波变换。(3)小波变换后系数处理过程,此处我们简称为小波后处理。算法实现框图如图6.22所示。下一页返回上一页6.4变换编码目前的研究主要集中在小波后处理上。图像的二维小波变换,可分别对行和列进行一维变换来完成。标准图像和对其进行3层小波变换,分解图像是由不同空间频率成分对应的子带图像构成的。数据压缩时可以依据各子带的重要性分别进行适当的量化处理。小波变换将图像信号从空间域变换到频域。图像经过小波变换,能量在各个频域空间进行重新分配。各个子带中的小波系数幅值的绝对值大小反映了图像信号在相应频域空间所具有的频谱能量的大小。例6.6
图6.23是小波变换压缩示例。返回上一页6.5
JPEG图像文件与压缩6.5.1JPEG图像文件格式JPG或JPEG与相同图像质量的其他常用文件格式如GIF、TIFF、PCX相比,JPEG是目前静态图像压缩算法中压缩比最高的。正是由于JPEG的高压缩比,使得它广泛地应用于多媒体和网络程序中。因为网络的带宽非常宝贵,选用一种高压缩比的文件格式是十分必要的。JPEG有几种模式,其中最常用的是基于DCT变换的顺序型模式,又称为基线系统(Baseline)。下一页返回6.5
JPEG图像文件与压缩6.5.2JPEG的压缩原理8×8的图像经过DCT变换后,其低频分量都集中在左上角,高频分量分布在右下角(DCT变换实际上是空间域的低通滤波器)。由于该低频分量包含了图像的主要信息(如亮度),而高频与之相比,就不那么重要了,所以可以忽略高频分量,从而达到压缩的目的。如何将高频分量去掉,这就要用到量化,它是产生信息损失的根源。这里的量化操作,就是将某一个值除以量化表中对应的值。由于量化表左上角的值较小,右下角的值较大,这样就起到了保持低频分量,抑制高频分量的目的。JPEG使用的颜色是YUV格式。前面提到过,Y分量代表了亮度信息,UV分量代表了色差信息。相比而言,Y分量更重要一些。可以对Y采用细量化,对UV采用粗量化,可进一步提高压缩比。所以上面所说的量化表通常有两张:一张是针对Y的;另一张是针对UV的。下一页返回上一页6.5
JPEG图像文件与压缩JPEG压缩的编码器流程,如图6.24所示。解码器基本上为上述过程的逆过程,如图6.25所示。6.5.3DCT变换编码DCT变换编码的核心思想是,利用DCT变换对数据信息强度的集中特性,可以将数据中视觉上容易察觉的部分与不容易察觉的部分进行分离,由此可以达到进行有损压缩的目的。下一页返回上一页6.5
JPEG图像文件与压缩1)8×8子块DCT变换为了便于论述,在这里再次给出DCT变换的公式如下。
(6.25)其逆变换公式为
(6.26)
其中
(6.27)下一页返回上一页6.5
JPEG图像文件与压缩为了提高压缩效率,考虑到局部子块中图像的相关性强的事实,通常采用的方法是,将图像分成8×8的子块,对每个子块独立地进行DCT变换。设8×8的子块按照上式进行DCT变换之后,得到的系数矩阵子块为
其中,F11为直流分量DC,而其他的元素为非直流分量AC。下一页返回上一页6.5
JPEG图像文件与压缩2)系数矩阵量化经过DCT变换后的系数矩阵的数字为小数,为了进行后面的编码,还需要对
F
进行量化处理,使系数量化为整数后再进行后续的编码。量化间隔的大小决定了量化的精度。在JPEG中提供了两组量化系数矩阵。当然,读者也可根据实际的需要进行相应的设计。JPEG推荐的亮度量化表Q和色度量化表U分别见表6.2和表6.3。下一页返回上一页6.5
JPEG图像文件与压缩将经过DCT变换之后的系数阵中的所有元素,除以量化矩阵中相应位置上的量化值后取整。计算可按下式进行
(6.28)此处,
表示不超过x的最大整数。图6.26为Lena图像的两个8×8块DCT变换数据经过量化后的数据。量化后,然后对其结果进行后续的编码。下一页返回上一页6.5
JPEG图像文件与压缩3)Z字形扫描经过DCT变换后,低频分量集中在左上角,其中,F(0,0)(即第一行第一列元素)代表了直流(DC)系数,即8×8子块的平均值,要对它单独编码。由于两个相邻的8×8子块的DC系数相差很小,所以对它们采用差分编码(DPCM)可以提高压缩比,也就是说,对相邻的子块DC系数的差值进行编码。8×8的其他63个元素是交流(AC)系数,采用行程编码。这里出现一个问题:这63个系数应该按照怎么样的顺序排列?为了保证低频分量先出现,高频分量后出现,以增加行程中连续“0”的个数,这63个元素采用了Z字形(Zig—Zag)的排列方法。经过扫描后的DCT系数矩阵是一维的数列。数列是按空间频率定性增加的顺序排列的。Z字形扫描路线图和顺序矩阵如图6.27所示。下一页返回上一页6.5
JPEG图像文件与压缩例6.78×8图像矩阵如下。
下一页返回上一页6.5
JPEG图像文件与压缩DCT变换系数矩阵为
下一页返回上一页6.5
JPEG图像文件与压缩用式(6.28)计算得到量化矩阵如下。然后可以进行后续的编码,比如,Huffman编码、行程编码等进行压缩。下一页返回上一页6.5
JPEG图像文件与压缩上面得到了DC码字和AC行程码字。为了进一步提高压缩比,需要对其再进行熵编码,这里选用Huffman编码,分成两步。4)熵编码的中间格式表示对于AC系数,有两个符号。符号1为行程和尺寸,即上面的(RunLength,Size)。
(0,0)和(15,0)是两个比较特殊的情况。(0,0)表示块结束标志(EOF),(15,0)表示ZRL。当行程长度超过15时,用增加ZRL的个数来解决,所以最多有3个ZRL(3×16+15=63)。符号2为幅度值。对于DC系数,也有两个符号。符号1为尺寸(Size);符号2为幅度值(Amplitude)。下一页返回上一页6.5
JPEG图像文件与压缩对于AC系数,符号1和符号2分别进行编码。零行程长度超过15时,有一个符号(15,
0),块结束时只有一个符号(0,0)。对符号1进行Hufffman编码(亮度,色差的Huffman码表不同)。对符号2进行变长整数VLI编码。例如:当Size=6时,Amplitude的范围是-63~-32,以及32~63,绝对值相同,符号相反的码字之间为反码关系。所以,AC系数为32的码字为100000,33的码字为100001,-32的码字为011111,-33的码字为011110。符号2的码字紧接于符号1的码字之后。图6.28是压缩Lena256.bmp图像试验结果。原图像Lena256.bmp大小为66
KB,经压缩后文件test.bmp大小为18
KB。返回上一页6.6数字图像压缩标准介绍6.6.1JPEG2000静态图像压缩标准JPEG标准在短短的几年内就获得了极大的成功。目前,网站上大部分图像都采用JPEG压缩标准。然而,随着多媒体应用领域的进一步扩展,传统JPEG压缩技术在高压缩率和更多的新功能方面,已无法满足人们对多媒体图像资料的要求。因此,国际标准化组织(ISO)制定了新一代静止图像压缩标准ISO15444,即JPEG2000。下一页返回6.6数字图像压缩标准介绍1)JPEG2000标准制定的目的JPEG2000标准的目标是进一步改进目前压缩算法的性能,以适应低带宽、高噪声的环境,以及医疗图像、电子图书馆、传真、Internet网上服务和安全等方面的应用。JPEG2000还将彩色静态画面采用的JPEG编码方式与二值图像采用的JBIG编码方式统一起来,成为对应各种图像的通用编码方式。由于JPEG2000的特性及功能显著,且支持旧版本的标准,因此在需要有较高的图像质量、较低的比特率或者一些特殊的要求(渐进传输和感兴趣区域编码等)时,JPEG2000将是最好的选择。JPEG2000的制定采用了应用导向的方式,即先提出应用再制定规格。JPEG2000的应用领域可大致分成两个方面:一方面,面向传统的JPEG市场,如打印、扫描、数字摄像、遥感等;另一方面,面向一些新兴的应用领域,如网络传输、彩色传真、电子商务等。下一页返回上一页6.6数字图像压缩标准介绍2)JPEG2000标准提供的主要特征JPEG2000标准提供了一套新的特征。这些特征对于一些新产品(如数码相机)和应用(如互联网)是非常重要的。它把JPEG的顺序模式、渐进模式、无损模式和分层模式4种模式集成在一个标准之中。JPEG2000与传统JPEG最大的不同在于,它放弃了JPEG所采用的以离散余弦变换为主的区块编码方式,而采用以小波变换为主的多解析编码方式。编码端以最大的压缩质量和最大的图像分辨率压缩图像,在解码端可以从码流中以任意的图像质量和分辨率解压图像,最大可达到编码时的图像质量和分辨率。下一页返回上一页6.6数字图像压缩标准介绍JPEG2000的特点包括以下几个方面。(1)能够实现无损压缩。JPEG2000将对图像进行无损编码的经典方法——预测编码法,写入了JPEG2000标准中,能实现无损压缩。在实际应用中,有一些重要的图像,如卫星遥感图像、医学图像、文物照片等,通常需要进行无损压缩,大多采用JPEG2000压缩。
(2)容错性好、稳定性高。为了在一些误码率较高的领域应用(例如,在无线等传输误码很高的通信信道中传输图像时),JPEG2000对压缩系统设置容错性(RobustnesstoBitError)。因此,使用JPEG2000的系统稳定性好、运行平稳、抗干扰性好、易于操作。
(3)开放的框架结构。为了在不同的图像类型和应用领域优化编码系统,JPEG中提供一个开放的框架结构,在这种开放的结构中编码器只实现核心的工具算法和码流的解析,如果需要解码器可以要求数据源发送未知的工具算法。
下一页返回上一页6.6数字图像压缩标准介绍(4)渐进传输。JPEG2000能实现渐进传输(ProgressiveTransmission),这是JPEG2000的一个极其重要的特征。它先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,以满足用户的需要,这在网络传输中有着重大的意义。(5)码流的随机访问和处理。(6)允许用户在图像中随机地定义感兴趣区域ROI(RegionofInterest)。并对指定感兴趣区域,设置特定的压缩质量或者在恢复时指定特定的解压缩要求,使得这一区域的图像质量高于其他图像区域。码流的随机处理还支持用户进行旋转、移动、滤波和特征提取等操作。下一页返回上一页6.6数字图像压缩标准介绍(7)基于内容的描述。图像文档、图像索引和搜索在图像处理中是一个重要的领域,MPEG-7就是支持用户对其感兴趣的各种“资料”进行快速、有效地检索的一个国际标准。基于内容的描述在JPEG2000中是压缩系统的特性之一。3)JPEG2000的应用JPEG2000压缩标准主要应用在两个方面:一为传统JPEG的市场,像打印机、扫描仪、数码相机等;另一个为新兴应用领域,如网络传输、无线通讯、医疗图像等。目前对JPEG2000热情最大的是数字照相机厂商。下一页返回上一页6.6数字图像压缩标准介绍6.6.2运动图像MPEG压缩标准6.6.2.1MPEG组织介绍MPEG(MovingPicturesExpertsGroup)是ISO/IEC/JTC/SC2/WG11的一个小组,是专门从事多媒体语音、视频压缩技术标准制定的国际组织,它的工作兼顾了JPEG标准和CCITT专家组的H.261标准。成员包括近30个国家、200多个公司和组织的400多位专家。该组织自1988年以来,已经制定了一系列国际标准,其中MPEG-1、MPEG-2已为人们所熟知,这两个标准为VCD、DVD及数字电视等产业的发展奠定了基础,MPEG-4为网络通信环境下视频压缩标准之一。目前正在制定MPEG-7和MPEG-21将为多媒体数据压缩和基于内容检索的数据库应用提供一个更为通用的平台,必将对下一代视、音频系统和网络应用产生深远的影响。
下一页返回上一页6.6数字图像压缩标准介绍6.6.2.2MPEG标准的三个范畴MPEG标准有三个组成部分:MPEG视频;MPEG音频;视频与音频的同步。MPEG视频是MPEG标准的核心。为满足高压缩比和随机访问两方面的要求,MPEG采用预测和插补两种帧间编码技术。MPEG视频压缩算法中包含两种基本技术;一种是基于l6×16子块的运动补偿技术,用来减少帧序列的时域冗余;一种是基于DCT的压缩,用于减少帧序列的空域冗余,在帧内压缩及帧间预测中均使用了DCT变换。1)运动补偿预测帧序列的相邻画面之间的运动部分具有连续性,即当前画面上的图像可以看成是前面某时刻画面上图像的位移,位移的幅度值和方向在画面各处可以不同。利用运动位移信息与前面某时刻的图像对当前画面图像进行预测的方法,称为前向预测。反之,根据某时刻的图像与位移信息预测该时刻之前的图像,称为后向预测。下一页返回上一页6.6数字图像压缩标准介绍MPEG的运动补偿预测方法将画面分成若干16×16的子图像块(称为补偿单元或宏块),并根据一定的条件分别进行帧内预测、前向预测、后向预测及平均预测。2)运动补偿插值
以插补方法补偿运动信息是提高视频压缩比的最有效措施之一。在时域中插补运动补偿是一种多分辨率压缩技术。例如,以1/15
s或1/10
s时间间隔选取参考子图,对时域较低分辨率子图进行编码,通过低分辨子图及反映运动趋势的附加校正信息(运动矢量)进行插值,可得到满分辨率(帧率1/30
s)的视频信号。插值运动补偿也称为双向预测,因为它既利用了前面帧的信息又利用了后面帧的信息。
下一页返回上一页6.6数字图像压缩标准介绍6.6.2.3MPEG标准内容1)MPEG-1标准(1)技术特点。MPEG-1
制定于
1992
年,可适用于不同带宽的设备,如CD-ROM、Video-CD、CD-I。它的目的是把221
Mbit/s的NTSC图像压缩到1.2
Mbit/s,压缩率为200:1。这是图像压缩的工业认可标准。它可针对SIF标准分辨率(对于NTSC制为352×240;对于PAL制为352×288)的图像进行压缩,传输速率为1.5
Mbit/s,每秒播放30帧,具有CD音质,其图像质量基本与VHS(广播级录像带)相当。MPEG的编码速率最高可达4~5
Mbit/s,但随着速率的提高,其解码后的图像质量有所降低。(2)应用范围。MPEG-1
主要应用在VCD、非对称数字用户线路(ADSL)数字电话网络上的视频传输和视频点播(VOD)和应用专线通信的视频会议系统三个方面。下一页返回上一页6.6数字图像压缩标准介绍2)MPEG-2标准(1)技术特点。MPEG-2制定于1994年,设计目标是高级工业标准的图像质量以及更高的传输率。MPEG-2所能提供的传输率在3
MB-10
MB/s间,在NTSC制式下的分辨率可达720×486,MPEG-2能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道和多达7个伴音声道。MPEG-2的另一特点是,可提供一个较广范围的可变压缩比,以适应不同的画面质量、存储容量以及带宽的要求。(2)应用范围。MPEG-2标准主要应用在DVD、广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频中。下一页返回上一页6.6数字图像压缩标准介绍3)MPEG-3标准MPEG-3
是其系列标准中唯一停留在设计和研究阶段而没有进行应用的标准。由于MPEG-2的出色性能表现,已能适用于HDTV(高清晰度电视),使得原打算为HDTV设计的MPEG-3,还没发布就被抛弃了。4)MPEG-4标准MPEG
专家组继成功定义了MPEG-1和MPEG-2之后,于1994年开始制定全新的MPEG-4标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,用于实现音视频(Audio-visual)数据的有效编码及更为灵活的存取。下一页返回上一页6.6数字图像压缩标准介绍MPEG-4
试图达到两个目标:一是低比特率下的多媒体通信;二是多媒体通信的综合。(1)技术特点。MPEG-4
于
1998
年
11
月公布,它不仅是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在4
800~64
000
bit/s,分辨率为176×144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。MPEG-4视频格式大大优于MPEG-1与MPEG-2:视频质量与分辨率高,而数据率相对较低。主要的原因在MPEG-4采用了ACE(高级译码效率)技术,它是一套首次使用于MPEG-4的编码运算规则。与ACE有关的目标定向可以启用很低的数据率。这可以将整部视频电影以完全PAL或者NTSC的分辨率与立体声(16位,48kHz)存储在单个CD-ROM上。下一页返回上一页6.6数字图像压缩标准介绍(2)应用范围。现在最热门的应用是利用MPEG-4的高压缩率和高的图像还原质量来把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体积却可缩小几倍,可以很方便地用CD-ROM来保存DVD上面的节目。另外,MPEG-4在家庭摄影录像、网络实时影像播放(流媒体)、VOD等方面得到极大的发展。5)MPEG-7标准
(1)技术特点。准确说来,MPEG-7并不是一种压缩编码方法,而是一个多媒体内容描述接口。是针对媒体内容检索而提出的多媒体内容描述接口(MultimediaContentDescriptionInterface),它的目标是建立一套视听特征的量化标准描述器、结构以及它们相互之间的关系,这被称为描述方案(DS,DescriptionSchemes)。下一页返回上一页6.6数字图像压缩标准介绍同时MPEG-7也建立了一套标准化的语言——描述定义语言(DDL,DescriptionDefinitionLanguage),用以说明描述方案,保证其具有被广泛采用的扩展性和较长的生命周期。人们可以检索和索引与MPEG-7数据相联系的视听材料,这些材料可以是静止图片、图形、3D模型、声音、对话、视频以及这些元素所组成的多媒体描述信息。(2)应用范围。MPEG-7的应用范围很广泛,既可应用于存储(在线或离线),也可用于流式应用(如广播、将模型加入Internet等)。它涉及的应用领域包括以下几个主要方面。①数字图书馆(图像目录、音乐字典等)。②多媒体目录服务(如黄页)。下一页返回上一页6.6数字图像压缩标准介绍③广播媒体选择(无线电信道、TV信道等)。④多媒体编辑(个人电子新闻业务和媒体写作等)。⑤远程教育、远程医疗以及远程购物。⑥新闻浏览。⑦娱乐业、导游信息。⑧地理信息系统。6)MPEG-21标准MPEG-21将由MPEG-7发展而来,刚刚才开始启动。MPEG-21主要规定数字节目的网上实时交换协议。目前包括:用户需求、与内容的交互、内容表示、内容的识别和描述、IPMP相关技术、终端和网络技术等有6方面的工作正在开展,这些方面的技术报告目前还在细化之中。
下一页返回上一页6.6数字图像压缩标准介绍6.6.3多媒体会议H.261压缩标准1)H.261介绍1984年国际电报电话咨询委员会的第15研究组成立了一个专家组,专门研究电视电话的编码问题,所用的电话网络为综合业务数据网络(ISDN)。当时的目标是推荐一个图像编码标准,其传输速率为m×384
Kb/s(千位/秒),m=1,2,3,4,5。这里384
Kb/s在ISDN中称为Ho通道。另有基本通道
B的速率为64
Kb/s,6×B=384
Kb/s。5×Ho=30×B=1
920
Kb/s为窄带ISDN的最高速率。后来考虑到384
Kb/s速率作为起始点偏高,广泛性受限制,另外跨度也太大,灵活性受影响,所以改为p×64
Kb/s,p=1,2,3,30。最后又把p扩展到32,因为32×64
Kb/s=2
084
Kb/s,其中2
084=211,基本上等于2
Mb/s,实际上已超过了窄带ISDN的最高速率1
920
Kb/s,也就是通道容量。下一页返回上一页6.6数字图像压缩标准介绍2)H.261技术特点1990年12月完成和批准了CCITT推荐书
H.261,即“采用p×64
Kb/s的声像业务的图像编解码”,H.261简称p×64。由于H.261标准是用于可视电话和电视会议,所以推荐的图像编码算法必须是实时处理的,并且要求最小的延迟时间,因为图像必须和语音密切配合,否则必须延迟语音时间。当p取l或2时,速率只能达到128
Kb/s,由于速率较低只能传清晰度不太高的图像,所以适合于面对面的电视电话。当p>6时,速率>384
Kb/s,则速率较高,可以传输清晰度尚好的图像,所以适用于基于窄带的电视会议。3)H.261的图像格式采用CIF和QCIF格式作为可视电话和会议电视的图像输入格式。也就是说所有的编辑器必须支持对QCIF进行操作,而CIF为可选项。下一页返回上一页6.6数字图像压缩标准介绍6.6.4多媒体会议H.263压缩标准1)H.263
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业内部治理结构规范制度
- 全国中考物理电磁学基础考点与模拟试题真题
- 数控机床功能部件产业园项目可行性研究报告模板-立项拿地
- 护理跌倒安全标准化
- 护理N1级护理职业素养
- 数据库数据的导入和导出教学设计中职专业课-网站数据库应用技术-SQL Server-计算机类-电子与信息大类
- 输液反应、过敏性休克及管道滑脱应急预案考核试题
- 人教版 (新课标)选修37 静电现象的应用教案设计
- 量具选择试题及答案
- 第5课 点撇教学设计小学书法湘美版三年级下册-湘美版
- T-GXAS 551-2023 工业技术改造固定资产投资项目节能验收规范
- 2024年四川省南充市从“五方面人员”中选拔乡镇领导班子成员201人历年高频500题难、易错点模拟试题附带答案详解
- DL-T5181-2017水电水利工程锚喷支护施工规范
- 某1.8万方反硝化深床滤池设计计算书
- 2024届浙江省名校协作体高三下学期开学联考物理试题及答案
- 2024年广东佛山市南海区大沥镇镇属企业招聘笔试参考题库含答案解析
- 100部经典好看韩国电影大全
- 新版医院住院病案首页
- 2023年华侨、港澳、台联考高考物理试卷(含解析)
- 2023年广东中山市文化广电旅游局所属事业单位(孙中山故居纪念馆)招考聘用笔试题库含答案解析
- 2023化工总控工(高级)技能理论考试核心题库500题(含各题型)
评论
0/150
提交评论