多媒体技术-视频压缩_第1页
多媒体技术-视频压缩_第2页
多媒体技术-视频压缩_第3页
多媒体技术-视频压缩_第4页
多媒体技术-视频压缩_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多媒体计算机技术鲁宏伟luhw@第三章数字图像处理技术信号处理的基本术语图像数据压缩基础

图像数据压缩算法

常用图形、图像文件的格式静态图像压缩标准动态图像压缩标准H.261和H.263标准思考题信号处理的基本术语采样与量化DFT和IDFT小波变换采样和量化

信号的数字化处理包括两个步骤,一个是信号在时间上的离散化,即采样;另一个是幅度上的离散化,即量化。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔△t在模拟信号x(t)上逐点采取其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的t=采样点之间的距离采样和量化量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的幅度值是连续的物理量。具体幅度值用舍入法归到靠近的量化电平上。

对模拟信号采样首先要确定采样间隔。如何合理选择△t涉及到许多需要考虑的技术因素。

过采样信号低采样产生的偏差信号DFT和IDFT傅立叶分析是将原始信号分解成不同频率成分的正弦波,将时域信号转变为频域信号的一种数学方法,在信号的分析和处理中有着十分重要的作用对数字信号,需要采用相关的离散化方法,这就是由傅立叶分析得到的离散傅立叶变换DFT,其逆变换表示为IDFT。

DFT和IDFT设是连续函数h(t)的N个采样值,则这N个点的宽度为N的DFT定义为IDFT定义为称为N点DFT的变换核函数称为N点IDFT的变换核函数小波变换

一个小波是一个在有限周期内的波形,它的平均值为零。比较正弦波形和小波,正弦信号正是Fourier分析的基础,它没有限定的周期,它可以从负无穷扩展到正无穷,正弦信号是平滑并且是可预知的,小波信号是不规则的并且不对称。

图3.3正弦信号和小波信号正弦波小波小波变换傅立叶分析是将信号分解为各种频率的正弦信号,类似地,小波分析是将信号分解为滑动的、与母系小波成比例的各种子波。

信号傅立叶变换不同频率的连续正弦子波信号小波变换不同尺度与位置的连续小波小波变换小波变换可以使得信号的低频长时特性和高频短时特性同时得到处理,具有良好的局部化性质,能有效地克服傅氏变换在处理非平稳复杂信号时存在的局限性,具有极强的自适应性。由于小波变换能够有效地解决方块效应和基本上解决蚊式噪声,所以小波变换已经成为当今图像压缩编码的主要研究方向。

图像数据压缩基础色彩的基本概念视觉系统对颜色的感知彩色空间及其变换RGB颜色模式

Lab颜色模式

HSB颜色模式CMYK颜色模式颜色模型的色域彩色空间的线性变换标准图像的种类图像数据压缩的可能性统计冗余信息熵冗余结构冗余知识冗余视觉冗余

色彩的基本概念

从人的视觉系统看,色彩可用色调、饱和度和亮度来描述。人眼看到的任一彩色光都是这三个特性的综合效果,这三个特性可以说是色彩的三要素,其中色调与光波的波长有直接关系,亮度和饱和度与光波的幅度有关。图像深度与色彩类型

图像深度与显示深度图像深度与色彩类型图像深度是指位图中记录每个像素点所占的位数,它决定了彩色图像中可出现的最多颜色数,或者灰度图像中的最大灰度等级数。

每个像素点的图像深度的分配还与图像所用的色彩空间有关。以最常用的RGB色彩空间为例,图像深度与色彩的映射关系主要有真彩色、伪彩色和调配色。真彩色真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。例如图像深度为24,用R:G:B=8:8:8来表示色彩,则R、G、B各占用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16M种色彩。这样得到的色彩可以反映原图的真实色彩,故称真彩色伪彩色伪彩色(pseudo-color)图像的每个像素值实际上是一个索引值或代码,该代码值作为色彩查找表CLUT(ColorLook-UpTable)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。用这种方式产生的色彩本身是真的,不过它不一定反映原图的色彩。在VGA显示系统中,调色板就相当于色彩查找表。从16色标准VGA调色板的定义可以看出这种伪彩色的工作方式伪彩色一般用于65K色以下的显示方式中。标准的调色板是在256K色谱中按色调均匀地选取16种或256种色彩。一般应用中,有的图像往往偏向于某一种或几种色调,此时如果采用标准调色板,则色彩失真较多。因此,同一幅图像,采用不同的调色板显示可能会出现不同的色彩效果。16色标准VGA调色板采用不同的调色板显示同一幅图像的效果实例调配色调配色(direct-color)的获取是通过每个像素点的R、G、B分量分别作为单独的索引值进行变换,经相应的色彩变换表找出各自的基色强度,用变换后的R、G、B强度值产生的色彩。调配色与伪彩色相比,相同之处是都采用查找表,不同之处是前者对R、G、B分量分别进行查找变换,后者是把整个像素当作查找的索引进行查找变换。因此,调配色的效果一般比伪彩色好。调配色与真彩色比,相同之处是都采用R、G、B分量来决定基色强度,不同之处是前者的基色强度是由R、G、B经变换后得到的,而后者是直接用R、G、B决定。在VGA显示系统中,用调配色可以得到相当逼真的彩色图像,虽然其色彩数受调色板的限制而只有256色图像深度与显示深度显示深度表示显示缓存中记录屏幕上一个点的位数(bit),也即显示器可以显示的色彩数。因此,显示一幅图像时,屏幕上呈现的色彩效果与图像文件所提供的色彩信息有关,也即与图像深度有关;同时也与显示器当前可容纳的色彩容量有关,也即与显示深度有关。显示深度大于图像深度显示深度等于图像深度显示深度小于图像深度显示深度大于图像深度在这种情况下屏幕上的色彩能较真实地反映图像文件的色彩效果。如当显示深度为24位,图像深度为8位时,屏幕上可以显示按该图像的调色板选取的256种颜色;图像深度为4位时可显示16色。这种情况下,显示的色彩完全取决于图像的色彩定义显示深度等于图像深度在这种情况下,如果用真彩色显示模式来显示真彩色图像,或者显示调色板与图像调色板一致时,屏幕上的色彩能较真实地反映图像文件的色彩效果。反之,如果显示调色板与图像调色板不一致,则显示色彩会出现失真

显示深度小于图像深度此时显示的色彩会出现失真。例如,若显示深度为8位,需要显示一幅真彩色的图像时显然达不到应有的色彩效果。在这种情况下不同的图像软件有不同的处理方法

色调与色相绘画中要求有固定的色彩感觉,有统一的色调,否则难以表现画面的情调和主题。例如我们说一幅画具红色调,是指它在色彩上总体偏红。计算机在图像处理上采用数字化,可以非常精确地表现色彩的变化,色调是相对连续变化的。用一个园环来表现色谱的变化,就构成了一个色彩连续变化的色环。

色彩连续变化的色环太阳光带中的六标准色与六个中间色,即红橙,黄橙,黄绿,蓝绿(青),蓝紫,红紫(品红),合称十二色相或色调。把不同的色调按红橙黄绿蓝紫的顺序衔接起来,就形成了一个色调连续变化过渡的圆环,称作为色环。亮度与明度同一物体因受光不同会产生明度上的变化不同颜色的光,强度相同时照射同一物体也会产生不同的亮度感觉。

明度也可以说是指各种纯正的色彩相互比较所产生的明暗差别。在纯正光谱中,黄色的明度最高,显得最亮;其次是橙、绿;再其次是红、蓝;紫色明度最低,显得最暗。同一物体因受光不同会产生明度上的变化照射的光越强,反射光也越强,看起来越亮。显然,如果彩色光的强度降到使人看不到了,在亮度标尺上它应与黑色对应。同样,如果其强度变得很大,那么亮度等级应与白色对应。亮度是非彩色属性,彩色图像中的亮度对应于黑白图像中的灰度饱和度与纯度淡色的饱和度比浓色要低一些。饱和度还和亮度有关,同一色调越亮或越暗越不纯。饱和度越高,色彩越艳丽、越鲜明突出,越能发挥其色彩的固有特性。但饱和度高的色彩容易让人感到单调刺眼。饱和度低,色感比较柔和协调,可混色太杂则容易让人感觉浑浊,色调显得灰暗。

饱和度与纯度对于同一色调的彩色光,饱和度越深,颜色越鲜明或说越纯,相反则越淡饱和度和亮度在饱和的彩色光中增加白光的成分,相当于增加了光能,因而变得更亮了,但是它的饱和度却降低了。若增加黑色光的成分,相当于降低了光能,因而变得更暗,其饱和度也降低了视觉系统对颜色的感知视觉系统对颜色和亮度的响应特性视觉系统对颜色的感知产生波长不同的光所需要的三基色值人眼对图像的亮度信息敏感、对颜色分辨率弱由于人眼对色彩细节的分辨能力远比对亮度细节的分辨能力低,若把人眼刚能分辨的黑白相间的条纹换成不同颜色的彩色条纹,那么眼睛就不再能分辨出条纹来。如图所示,等宽的蓝红相间的彩条,蓝绿相间的彩条和黑白相间的条纹比较。使眼睛逐渐远离屏幕,当你分辨不出彩条时,黑白条还能分辨出来RGB颜色模式

自然界中所有的颜色都可以用红、绿、蓝(RGB)这三种波长颜色的不同的强度组合而得,这就是人们常说的三基色原理。因为RGB颜色合成产生白色,它们也叫作加色把三种基色交互重叠,就产生了次混合色:青(cyan)、洋红(magenta)、黄(yellow)在数字视频中,对RGB三基色各进行8位编码就构成了大约16.7万种颜色,这就是我们常说的真彩色。

电视机和计算机的监视器都是基于RGB颜色模式来创建其颜色的。

RGB色彩空间RGB相加混色模型RGB相加色示例RGB强度颜色色彩效果000

黑(Black)001

蓝(Blue)010

绿(Green)011

青(Cyan)100

红(Red)101

品红(Magenta)110

黄(Yellow)111

白(White)Lab颜色模式该颜色模式由一个发光率(luminance)和两个颜色(a,b)轴组成。它由颜色轴所构成的平面上的环形线来表示颜色的变化,其中径向表示色饱和度的变化,自内向外,饱和度逐渐增高;圆周方向表示色调的变化,每个圆周形成—个色环;而不同的发光率表示不同的亮度并对应不同环形颜色变化线。A.光度=100(白)B.绿到红分量C.蓝到黄分量D.光度=0(黑)到红分量Lab颜色模式

Lab颜色是由RGB三基色转换而来的

它是一种具有“独立于设备”的颜色模式,既不论使用任何一种监视器或者打印机,Lab的颜色不变。

HSB颜色模式

从心理学的角度来看,颜色有三个要素:色相、饱和度和亮度。HSB颜色模式便是基于人对颜色的心里感受的颜色模式。

HSB色彩空间可以用一个圆锥空间模型来描述。圆锥空间模型(A)HSI圆锥空间模型(B)线条示意图:圆锥上亮度、色度和饱和度的关系。(C)纵轴表示亮度(D)圆锥纵切面:描述了同一色调的不同亮度和饱和度关系。(E)圆锥横切面:色调H为绕着圆锥截面度量的色环,圆周上的颜色为完全饱和的纯色,色饱和度为穿过中心的半径横轴。彩色空间的线性变换标准

为了使用人的视角特性以降低数据量,通常把RGB空间表示的彩色图像变换到其他彩色空间。彩色空间变换有三种:YIQ,YUV和YCrCbYIQ适用于NTSC彩色电视制式YUV适用于PAL和SECAM彩色电视制式而YCrCb适用于计算机用的显示器彩色空间的线性变换标准YUV与YIQ模型

在彩色电视制式中,使用YUV和YIQ模型来表示彩色图像。在PAL彩色电视制式中使用YUV模型,Y表示亮度,UV用来表示色差,U、V是构成彩色的两个分量;在NTSC彩色电视制式中使用YIQ模型,其中的Y表示亮度,I、Q是两个彩色分量。YUV/YIQ特点

亮度信号(Y)和色度信号(U、V)是相互独立的可以利用人眼的特性来降低数字彩色图像所需要的存储容量。人眼对彩色细节的分辨能力远比对亮度细节的分辨能力低。例如,要存储RGB8:8:8的彩色图像,即R、G和B分量都用8位二进制数表示,图像的大小为640×480像素,那末所需要的存储容量为921600字节。如果用YUV来表示同一幅彩色图像,Y分量仍然为640×480,并且Y分量仍然用8位表示,而对每四个相邻像素(2×2)的U、V值分别用相同的一个值表示,那末存储同样的一幅图像所需的存储空间就减少到460800字节。这实际上也是图像压缩技术的一种方法。与YUV颜色模式类似的一种称为YCrCb模式,主要适用于计算机用的显示器。彩色空间的线性变换标准YUV与RGB彩色空间变换Y=0.299R+0.587G+0.114BU=-0.147R-0.289G+0.436BV=0.615R-0.515G-0.100B写成矩阵的形式:彩色空间RGB-YUVYIQ与RGB彩色空间变换Y=0.299R+0.587G+0.114BI=0.596R-0.275G-0.321BQ=0.212R-0.523G+0.311B写成矩阵的形式:彩色空间RGB-YIQ彩色空间RGB-YCrCbYCrCb与RGB彩色空间变换

数字域中的彩色空间变换与模拟域的彩色空间变换不同。它们的分量使用Y、Cr和Cb来表示,与RGB空间的转换关系如下:Y=0.299R+0.578G+0.114BCr=(0.500R-0.4187G-0.0813B)+128Cb=(-0.1687R-0.3313G+0.500B)+128写成矩阵的形式:CMYK颜色模式

这是彩色印刷使用的—种颜色模式。它由青(cyan)、洋红(magenta)、黄(yellow)和黑(black)四种颜色组成。

这种模式的创建基础和RGB不同,它不是靠增加光线,而是靠减去光线。这是因为与监视器或者电视机不同,打印纸不能创建光源,即它不会发射光线,而只能吸收和反射光线,即它只能够吸收特定波长而反射其它波长。

通过对上述四种颜色的组合,可以产生可见光谱中的绝大部分颜色。

CMYK颜色模式CMYK相减混色模型

CMYK模型以打印在纸张上油墨的光线吸收特性为基础,白光照射到半透明油墨上时,部分光谱被吸收,部分被反射回眼睛。理论上,青色(C)、洋红(M)和黄色(Y)色素能合成吸收所有颜色并产生黑色。由于这个原因,这些颜色叫作减色。

因为所有打印油墨都会包含一些杂质,这三种油墨实际上产生一种土灰色,必须与黑色(K)油墨混合才能产生真正的黑色。将这些油墨混合产生颜色叫作四色印刷。颜色模型的色域

色域是一个色系能够显示或打印的颜色范围。人眼看到的色谱比任何颜色模型中的色域都宽。在颜色模型中,Lab具有最宽的色域,它包括RGB和CMYK色域中的所有颜色。通常RGB色域包含能在计算机显示器或电视屏幕(发出红、绿和蓝光)上所有能显示的颜色。因而一些诸如纯青或纯黄等颜色不能在显示器上精确显示。

CMYK色域较窄,仅包含使用印刷色油墨能够打印的颜色。当不能被打印的颜色在屏幕上显示时,它们称为溢色──即超出CMYK色域之外。图像的种类标准单色图标准灰度图图像的种类256色标准图像24位标准图像图像的种类256色标准图像转换成的灰度图24位标准图像转换成的灰度图统计冗余图像数据存在大量的统计特征的重复,这种重复包括静态单帧图像数据在空间上的冗余和音频、视频数据在时间上的冗余。

在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。

信息熵冗余

信息熵定义为一组数据所表示的信息量,即

式中,E为信息熵,N为数据的种类(或称码元)个数,为第i个码元出现的概率。一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即

式中,D为数据量,为第i个码元的二进制位数。一般取(如ASCII编码把所有码元都编码为7比特),这样得到的D必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。

信息熵冗余图26个英文字母相对频率结构冗余

有些图像从大面积上或整体上看存在着重复出现的相同或详尽的纹理结构,例如布纹图像和草席图像,被称为结构冗余。

知识冗余

有许多图像的理解与图像所表现内容的基础知识(鲜艳或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。

视觉冗余

人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨力为64灰度级,而一般图像量化采用的是256灰度级,这类冗余称为视觉冗余。

图像数据压缩算法评价压缩算法的指标

压缩算法分类行程长度编码

哈夫曼编码算术编码

词典编码预测编码

变换编码

模型法编码

混合编码

评价压缩算法的指标

压缩比指压缩编码后的数据量与原始数据大小的比值;

算法的复杂性和运算速度;

失真度。

压缩比并不是一个绝对的指标将16M色的真彩图像(图A)转变为256色(图B),数据量减少了约3倍,压缩比为1:3.当然这时产生了色彩失真,但如果选择原图的色彩范围定义调色板,色彩失真较小,人眼一般都还能接受.如果把图像深度从8位再压缩到4位,即从256色再压到16色(图C),虽然数据量只减少了2倍,压缩比为1:2,但这时的人眼所看到的色彩失真比第一次大得多,效果很差图像效果

图像类型图A真彩色图像图B256色图像图C16色图像压缩比8/24=1/34/24=1/6压缩算法分类根据对编码数据进行解码后与编码前的数据是否一致可以把数据编码方法分为两类:

无损编码。解码后的数据与编码前的数据完全一致,没有任何失真。

有损编码。解码后的数据与原始数据有一定程度的偏差或失真,但一般不影响听觉或视觉效果。

行程长度编码

把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。

比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码就是2a3b8c6d。

很多位图文件格式都用行程长度编码,例如TIFF,PCX。行程长度编码例有一线状图像,其灰度随长度坐标的关系如图3.1所示。描述这个一维图像可以用顺序的七个3bit的二进制数表示:011,011,011,011,101,101,101,共21比特。

如果用行程编码方法对其编码,其编码就变成了100,011;011,101,共用了12比特,比前一种编码节约了9个比特。

香农-范诺算法编码器信源(消息集)编码输出集X={x1,…,xn}Z={z1,…,zn}符号集Am={a1,…,am}熵(Entropy)的概念熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,数学上就是概率越小。某个事件的信息量用表示,其中Pi为第i个事件的概率,0<Pi1。哈夫曼编码编码步骤如下:统计信源符号出现的概率;将信源符号按概率递减顺序排列;

把两个最小的概率值加起来,作为一个新组合符号的概率;重复步骤(2)、(3),直到概率和达到1为止;在每次合并信源时,将合并的信源分别标记“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”);寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0”;对每一符号写出“1”和“0”序列;

哈夫曼编码的例子考虑信源进行哈夫曼编码的过程如下:

哈夫曼编码的不足

它必须精确地统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大打折扣,甚至根本达不到压缩的效果。因此哈夫曼编码通常要经过两遍操作,第一遍进行统计,第二遍产生编码,所以编码的过程是比较慢的。另外由于各种长度的编码的译码过程也比较复杂,因此解压缩的过程也比较慢。它对于位的增删比较敏感。

算术编码算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色。在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔。信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间。编码过程中的间隔决定了符号压缩后的输出。算法举例假设信源符号为{00,01,10,11},这些符号的概率分别为{0.1,0.4,0.2,0.3},根据这些概率可把间隔[0,1)分成4个子间隔:[0,0.1),[0.1,0.5),[0.5,0.7),[0.7,1),二进制消息序列的输入为:10001100101101算术编码算术编码需要注意的几个问题1.由于实际计算机精度不可能无限长,运算中溢出是明显的问题,但多数机器都有16位、32位或者64位的精度,因此可使用比例缩放法解决。2.算术编码器对消息只产生一个码字,这个码字是在[0,1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。3.算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改,在编码期间估算信源符号概率的过程叫做建模。需要开发动态算术编码的原因是因为事先知道精确的信源概率是很难的,而且是不切实际的。当压缩消息时,我们不能期待一个算术编码器获得最大的效率,所能做的最有效方法是在编码过程中估算概率。因此动态建模成为确定编码器压缩效率的关键。词典编码词典编码的思想第一类词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。词典编码LZ77算法算法中用到的几个术语:1.输入数据流(inputstream):要被压缩的字符序列。2.字符(character):输入数据流中的基本单元。3.编码位置(codingposition):输入数据流中当前要编码的字符位置,指前向缓冲存储器中的开始字符。4.前向缓冲存储器(Lookaheadbuffer):存放从编码位置到输入数据流结束的字符序列的存储器。5.窗口(window):指包含W个字符的窗口,字符是从编码位置开始向后数也就是最后处理的字符数。6.指针(pointer):指向窗口中的匹配串且含长度的指针。词典编码LZ77编码算法的核心是查找从前向缓冲存储器开始的最长的匹配串。编码算法的具体执行步骤如下:1.把编码位置设置到输入数据流的开始位置。2.查找窗口中最长的匹配串。3.以“(Pointer,Length)Characters”的格式输出,其中Pointer是指向窗口中匹配串的指针,Length表示匹配字符的长度,Characters是前向缓冲存储器中的不匹配的第1个字符。4.如果前向缓冲存储器不是空的,则把编码位置和窗口向前移(Length+1)个字符,然后返回到步骤2。词典编码-LZ77算法词典编码-LZSS算法LZ77通过输出真实字符解决了在窗口中出现没有匹配串的问题,但这个解决方案包含有冗余信息。冗余信息表现在两个方面,一是空指针,二是编码器可能输出额外的字符,这种字符是指可能包含在下一个匹配串中的字符。

LZSS算法以比较有效的方法解决这个问题,它的思想是如果匹配串的长度比指针本身的长度长就输出指针,否则就输出真实字符。词典编码-LZSS算法编码算法的具体执行步骤如下:1.把编码位置置于输入数据流的开始位置。2.在前向缓冲存储器中查找与窗口中最长的匹配串①Pointer:=匹配串指针。②Length:=匹配串长度。3.判断匹配串长度是否大于等于最小匹配串长度(LengthMIN_LENGTH),

如果“是”:输出指针,然后把编码位置向前移动Length个字符。如果“否”:输出前向缓冲存储器中的第1个字符,然后把编码位置向前移动一个字符。4.如果前向缓冲存储器不是空的,就返回到步骤2。词典编码-LZSS算法词典编码-LZSS算法在相同的计算机环境下,LZSS算法比LZ77可获得比较高的压缩比,而译码同样简单。这也就是为什么这种算法成为开发新算法的基础,许多后来开发的文档压缩程序都使用了LZSS的思想。例如,PKZip,ARJ,LHArc和ZOO等等,其差别仅仅是指针的长短和窗口的大小等有所不同。LZSS同样可以和熵编码联合使用,例如ARJ就与霍夫曼编码联用,而PKZip则与Shannon-Fano联用,它的后续版本也采用霍夫曼编码。第二类词典编码第二类算法的想法是企图从输入的数据中创建一个“短语词典(dictionaryofthephrases)”,这种短语可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身。LZ78算法LZ78的编码思想是不断地从字符流中提取新的缀-符串(String),通俗地理解为新“词条”,然后用“代号”也就是码字(Codeword)表示这个“词条”。这样一来,对字符流的编码就变成了用码字(Codeword)去替换字符流(Charstream),生成码字流(Codestream),从而达到压缩数据的目的。LZ78编码器的输出是码字-字符(W,C)对,每次输出一对到码字流中,与码字W相对应的缀-符串(String)用字符C进行扩展生成新的缀-符串(String),然后添加到词典中。LZ78算法与LZ77相比,LZ78的最大优点是在每个编码步骤中减少了缀-符串(String)比较的数目,而压缩率与LZ77类似。预测编码一般在图像中局部区域的象素是高度相关的,因此可以用先前象素的有关灰度知识来对当前象素的灰度进行预计,这就是预测。预测编码可分为线性预测编码和非线性预测编码。前者常被称为差分脉冲编码调制,即DPCM(DifferentialPulseCodeModulation)。DPCM的原理框图

DPCM编码示例DPCM系统如图所示,预测器的预测值为前一个样值(图中D表示单位延迟)。假设输入信号已经量化,差值不再进行量化。若DPCM系统的输入为{0,1,2,1,1,2,3,3,4,4,…},则编码过程如下:变换编码

变换编码就是将时域信号(如图像光强矩阵)变换到频域信号(系数空间)上进行处理的方法。在空间上具有强相关的信号,反映在频域上是某些特定的区域内能量常常被集中在一起,或者是系数矩阵的分布具有某些规律。我们可以利用这些规律在频域上减少量化比特数,达到压缩的目的。典型的变换编码和解码过程

图中的变换一般采用正交变换,这是由于正交变换的变换矩阵是可逆的且逆矩阵与转置矩阵相等,这就使解码运算是有解的且运算方便,因此运算矩阵总是选用正交变换来做。模型法编码

模型编码则是利用计算机视觉和计算机图形学的知识对图像信号的分析与合成。模型编码的关键是对特定的图像建立模型,并根据这个模型确定图像中景物的特征参数,如运动参数、形状参数等。解码时则根据参数和已知模型用图像合成技术重建图像。模型编码引入的误差主要是人眼视觉不太敏感的几何失真,因此重建图像非常自然和逼真。混合编码

以两种或两种以上的方法对图像进行编码称为混合编码,本章后面介绍的JPEG和MPEG都属于混合编码。常用图形、图像文件的格式矢量图和位映像图图像文件的一般结构BMP文件格式GIF文件格式TIF文件格式PNG文件格式

图像文件的一般结构矢量图和位映像图矢量图是用数学方法描述的一系列点、线、弧和其它几何形状,因此存放这种图使用的格式称为矢量图格式,存储的数据主要是绘制图形的数学描述;

位映像图(bitmappedgraphics)也称光栅图(rastergraphics),这种图就像电视图像一样,由像点组成的,因此存放这种图使用的格式称为位映像图格式,经常简称为位图格式,存储的数据是描述像素的数值。

矢量图矢量图是用一系列计算机指令来表示一幅图,如画点、画线、画曲线、画圆、画矩形等。这种方法实际上是数学方法来描述一幅图,然后变成许多的数学表达式,再编程,用计算机语言来表达。在计算显示图时,也往往能看到画图的过程。绘制和显示这种图的软件通常称为绘图程序(drawprograms)。

位图位图法与矢量图法很不相同。它是把一幅彩色图分成许多的像素,每个像素用若干个二进制位来指定该像素的颜色、亮度和属性。因此一幅图由许多描述每个像素的数据组成,这些数据通常称为图像数据,而这些数据作为一个文件来存储,这种文件又称为图像文件。如要画点位图,或者编辑点位图,则用类似于绘制矢量图的软件工具,这种软件称为画图程序(paintprograms)。

位图和矢量图的区别

BMP文件格式

图文件(Bitmap-File,BMP)格式是Windows采用的图像文件存储格式,在Windows环境下运行的所有图像处理软件都支持这种格式。

BMP图像文件由以下三部分组成:位图文件头(BITMAPHEADER)数据结构、位图信息(BITMAPINFO)数据结构和位图阵列。位图文件头

位图文件头数据结构包含BMP图像文件的类型、显示内容等信息。它的数据结构如下:typedefstruct{intbfType;/*always"BM"*/longbfSize;/*filesize*/intbfReserved1;intbfReserved2;longbfOffBits;/*imagedataoffset*/}BITMAPFILEHEADER;典型的BMP图像文件

在Windows环境中,它的名字是SEAWATER.BMP。GIF文件格式GIF(GraphicsInterchangeFormat)是CompuServe公司开发的图像文件存储格式,称为图形交换格式。

1987年开发的GIF文件格式版本号是GIF87a,1989年进行了扩充,扩充后的版本号定义为GIF89a。

一个GIF文件由表示图形/图像的数据块、数据子块以及显示图形/图像的控制信息块组成。GIF文件格式采用了LZW(Lempel-ZivWalch)压缩算法来存储图像数据。GIF文件格式可在一个文件中存放多幅彩色图形/图像。

GIF文件的典型结构

TIF文件格式TIF是TIFF(TaggedImageFormatFile)文件的扩展名,该格式由美国AldusDeveloper’sDesk和MicrosoftWindowsMarketingGroup制订。TIFF支持任意大小的图像,从单色的二值图像到24位的真彩色图像;支持灰度图像,也支持EGA/VGA上最常见的调色板式图像。TIF格式的优点主要是适合于广泛的应用程序,它与计算机体系结构、操作系统和图形处理的硬件无关。TIFF文件组成文件头(8字节)参数指针表参数数据表PNG文件格式

PNG是20世纪90年代中期开始开发的图像文件存储格式,其目的是企图替代GIF和TIFF文件格式,同时增加一些GIF文件格式所不具备的特性。PNG使用从LZ77派生的无损数据压缩算法。PNG的优点

兼有GIF和JPEG的色彩模式PNG能把图像文件压缩到极限以利于网络传输,但又能保留所有与图像品质有关的信息的解决方案更优化的传输显示透明图像在制作网页图像的时候很有用PNG可以让你在Macintosh上制作的图像与在Windows上所显示的图像完全相同PNG图像的缺点

PNG不支持动画的应用因为PNG采用的是无损压缩方式,尽管相同图像质量的PNG图像文件比JPEG图像文件小,但是JPEG可以适当地牺牲画面品质而取得比PNG更小的文件尺寸PNG不支持CMYK的模式静态图像压缩标准JPEG

JPEG2000

JPEGJPEG是国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)关于静止图像编码的联合专家组(JointPhotographicExpertsGroup)名称的缩写。该标准可用于自然景象或任何连续色调图像的数字数据的压缩编码和解码。对于数字化精度为每种彩色分量每个样点4至16比特的数字图像有良好的压缩效果,但不适用于二值图像。JPEG标准综合了多年来图像压缩编码的研究成果,是一种集大成的算法。该标准规定了两种工作方式,即顺序方式和渐进方式;还规定了三种级别的编码算法,即基本系统(Baselinesystem)、扩展系统(Extendedsystem)和无失真系统(Losslesscoding)。JPEG能达到的压缩效果

采用JPEG算法所能达到的压缩效果,与被压缩图像的特性有关。对于在开发和测试本算法标准时所用的那些内容是彩色自然景物和人像的测试图片,压缩到0.15比特/像素时,图像可识别;0.25比特/像素时,解码后的图像可评价为“有用(usefulimage)”;约0.75比特/像素时,被认为是“极佳(verygood)”;大约1.5比特/像素时基本上与原图像无法区别。用无失真算法对这些测试图片进行压缩编码,大致可以得到2:1的压缩比。JPEG算法的不同压缩比及其压缩效果实例顺序方式图像被分割为成行成列的四方小块,编码时由左而右,由上而下地逐行逐列对每个小块进行运算,直到所有小块都被编码为止。每个小块的编码都是一次完成。解码时按编码顺序逐块解码,也是一次完成。渐进方式整个图像首先以一种低于最终质量要求的质量标准(如分辨率或数据精度)进行编码,完成后再以较上次高一级的质量要求再进行一次编码,但仅传送为改善质量所需增加的那部分信息。这种过程可以重复若干次直至达到所需的最终质量要求。每个子过程中的编码则还是顺序方式的。实现方式

谱选择法逐次逼近阶梯方式基本系统以离散余弦变换为核心,采用顺序工作方式,适用于一般精度(每种分量每个样点8比特)的图像,有良好的压缩效果,压缩比可调。标准规定,每个JPEG静止图像压缩编解码器都必须具有实现基本系统的功能。基本系统算法

通过离散余弦变换减少图像数据的相关性;利用人眼视觉特性对系数进行自适应量化;对每个子块量化后的系数矩阵进行Z形扫描,将系数矩阵变换成符号序列;用哈夫曼变长码对符号进行熵编码。基本系统流程

Z形扫描扩展系统将基本系统在若干方面增强并减少一些限制条件后就称为扩展系统。扩展系统可对精度范围4~12bit的图像进行处理,可采用渐进方式,可选用哈夫曼码或算术码对离散余弦变换产生的统计事件进行压缩编码。无失真系统无失真系统采用二维DPCM技术,实现无失真压缩,当然压缩比不可能很高。无失真编码器源图像数据压缩的图像数据预测器熵编码器表说明DPCM预测编码框图JPEG2000JPEG2000的核心JPEG2000的优势JPEG2000的应用

JPEG2000的核心放弃了JPEG所采用的以离散余弦变换算法(DCT)为主的区块编码方式,而改用以离散小波变换算法(DWT)为主的多解析编码方式。JPEG2000还将彩色静态画面采用的JPEG编码方式、2值图像采用的JBIG(JointBinaryImageGroup)编码方式及低压缩率采用JPEGLS统一起来,成为对应各种图像的通用编码方式。DCT和DWT变换图(a)采用DCT变换得到的图像图(b)采用DWT变换得到的图像JPEG2000的优势高压缩率无损压缩渐进传输感兴趣区域压缩JPEG2000的应用目前,支持JPEG2000的软件已经出现,如LuraWaveSmartCompressFreewareforWindows为ACDSee3.0提供JPEG2000LWF格式的外挂插件,这样只要安置了这个插件就可以观看和制作采用JPEG2000编码的LWF格式文件。在不久的将来,JPEG2000无论是在传统的JPEG市场(如数码相机、扫描仪等)还是在新兴应用领域(如网路传输、无线通讯、医疗影像等)都将大有用武之地。动态图像压缩标准动态图像的分类动态图像的特点运动图象压缩技术的发展MPEG标准概述MPEG-1标准MPEG-2标准动态图像的分类动态图像一般可分为:视频和动画。视频:每一帧图像是实时获取的自然景物的真实图像。和音频一样,在多媒体计算机中使用的是数字视频。数字视频的应用于VCD/DVD、数字电视、远程教学及视频会议等。动画:每一帧图像是由计算机或人工制作的具有真实感的图像。若画面仅为二维透视效果时,则为二维动画;若画面具有空间效果时,则为三维动画;若加上真实的光照效果和质感,则为三维真实感动画。动态图像的特点连续性在时间轴上以帧为运动单位,属于离散型媒体类。动态图像比静态图像表示的范围广、表现力强。时延性动态图像数据量大,必须被压缩后才能在计算机中应用。计算机的容量和速度直接影响图像质量。相关性帧之间的关联是动态图像连续动作形成的基础,也是进行压缩和其他处理的条件。但对错误的敏感性较低。

运动图象压缩技术的发展第一代:被称为“运动JPEG技术”。它是利用连续保存独立的JPEG图象来实现的运动图象技术,JPEG的压缩率为2.5位/像素到0.6位/像素之间。目前大量应用于广播级的摄像机中。第二代:MPEG技术。有MPEG-1、MPEG-2和新的MPEG-4及MPEG-7等。压缩率为0.8位/像素到0.4位/像素之间,典型的VCD应用是0.6位/像素,所以其位率为:0.6位/像素*(352*240像素)*30帧/s=1520640位/s=1.5Mb/s。第三代:目前国内有人开发出了新的图像压缩技术,其压缩率为0.15位/像素到0.01位/像素之间,已经突破MPEG的极限。MPEG标准概述MPEG是运动图像专家组(MotionPictureExpertsGroup)的缩写,是国际标准化组织中IEC/JTC1/SC2/WG11的一个小组。MPEG下分三个小组:视频组(MPEG-Video)的任务是研究压缩传输速度上限为1.5Mbps的视频信号;音频组(MPEG-Audio)的任务是研究压缩每信道64、128和192Kbps的数字音频信号;系统组(MPEG-System)则解决多道压缩视频、音频位流的同步及合成问题。

MPEG委员会的工作始于1988年,1990年制订出标准草案。两年中MPEG工作参加单位由15家发展到150家。MPEG工作一开始就兼顾JPEG标准,CCITT的H.261标准,支持这两个标准的优秀成果。

MPEG-1标准

MPEG-1标准叫作“运动图像和伴随声音的编码—用于速率约在1.5Mb/s以下的数字存储媒体”,主要用于多媒体存储与再现,如VCD等。

MPEG-1采用CIF视频格式(分辨率为352×288),帧速率为25帧/秒或30帧/秒,码率为1.5Mb/s(其中视频约1.2Mb/s,音频约0.3Mb/s)。

MPEG-1将视频图像序列划分为I帧、P帧和B帧

标准草案于1991年11月完成,1992年11月正式通过。

MPEG-1由五个部分组成:MPEG-1Systems,规定电视图像数据、声音数据及其它相关数据的同步

MPEG-1Video,规定视频数据的编码和解码,

MPEG-1Audio,规定音频数据的编码和解码

MPEG-1Conformancetesting,详细说明如何测试比特数据流(bitstreams)和解码器是否满足MPEG-1前3个部分(Part1,2和3)中所规定的要求

MPEG-1Softwaresimulation

MPEG视频压缩算法

MPEG数据流采用分层结构(如下图所示)

图MPEG数据流的分层结构为满足高压缩比和随机访问两方面要求,MPEG采取了预测和插值两种帧间编码技术。

MPEG视频压缩算法的两个基础是:

基于16×16块的运动补偿的缩减时间冗余

基于变换域(DCT)的缩减空间冗余技术

缩减时间冗余度

MPEG考虑了三种画面:内帧(I)、预测帧(P)和内插帧(B)。这样做的原因一是考虑随机访问视频存储的重要性,二是运动补偿插值可显著降低位速率。MPEG视频帧编码及关系运动补偿预测是应用最广泛的降低时间冗余度的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论