第五章多媒体_第1页
第五章多媒体_第2页
第五章多媒体_第3页
第五章多媒体_第4页
第五章多媒体_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 多媒体数据压缩1.对媒体信息压缩的目的:减少存储容量、降低数据传输速率2.为什么要数据压缩? 计算没有压缩前音频、静态图像和高清晰数字电视视频数据量。 (1)音频数据量:对于音频信息来说,如果按CD音质(CD-DA)对原始音频进行不经压缩的数字化,采样频率为44.1kHz、量化精度为16bit、双声道立体声,则每分钟的数据量为:44.110的三次方1626082的20次方=10.1MB 这样,一张CD-ROM光盘按650MB的容量来计算,只能存放1个小时的CD音乐。 (2)静态图像数据量 目前数码相机主流的分辨率500万像素 (25761932dpi),如果按24位色深来表达,则存储这

2、张图片所需的磁盘空间为: 248220=14.3MB 则一张128MB的存储卡,只能存储8张照片。 (3)高清晰数字电视视频数据量 以计划中的高清晰数字电视视频数据为例,其最高分辨率19201152(25帧/s)(采用MPEG-2的MPHL编码方案),如果按24位色深来表达则其每秒钟视频数据量高达: 1920115224822025=158.2MB 这样,一张CD-ROM光盘按650MB的容量来计算,只能存放4s的高清晰电视节目。3. 通过数据压缩手段,以压缩形式存储和传输信息:(1)节约了存储空间(2)提高了通信干线的传输效率,使计算机实时处理音频、视频信息,保证了播放出高质量的视频、音频节

3、目成为可能。4. 图像数据压缩的可能性:存在:信息冗余 和 数据冗余图像为什么能都被压缩:信息本省通常存在很大的冗余量,信息冗余和数据冗余。5.无损压缩和有损压缩:6.多媒体数据压缩性能的评价标准:(1)压缩比 压缩比是指文件原始大小和经压缩后文件大小之间的比例。作为压缩率的衡量指标,压缩的倍数越高越好。(2)压缩质量 虽然有损压缩可获得较大的压缩比,但压缩比过高,还原后的图像质量就可能降低。人们在追求高压缩比的同时,又希望确保压缩的质量。(3)压缩与解压缩的速度 压缩和解压缩的速度是压缩系统的两项单独的性能度量。对称压缩和非对称压缩。在对称压缩中,压缩的算法与解压缩的算法是一样的。它是一种可

4、逆操作。不对称压缩是压缩与解压缩的运算速率互不相同.7. 多媒体数据压缩方法根据不同的依据可产生不同的分类: 根据信息有无损失可分为:无损压缩、有损压缩。 根据其作用域在空间于或频率域上分为:空间方法、变换方法和混合方法。 根据是否自适应分为:自适应性编码和非自适应性编码。8. 多媒体数据的压缩编码技术有: 熵编码 行程编码 词典编码 预测编码 变换编码9.常用压缩编码第一部分:无损压缩编码熵编码 (1)概念:熵编码是一种基于统计的、可变码长的压缩编码方法,是根据消息出现概率的分布特性而进行的,将出现概率最多的信息赋予最短的编码,将出现概率最少的信息赋予较长的编码,以缩短平均编码长度,熵编码是

5、无损压缩编码。(概率越小信息量越大,码长就越长) (2)信息-在消息中有你事先不知道的内容,这些不确定的内容称为信息。 信息论的重要性在于把信息量化了,度量信息多少的程度就是信息量。 数据压缩技术的理论基础就是信息论。 (3)根据香农理论:信息量的度量I = log2(1/P(x)= -log2 P(x) (比特)-注意是以二为底. P是指事件出现 的概率. 消息描述的事件出现的概率越小,消息中包含的信息量就越大。且:概率P(x)0时(不可能事件),信息量I ;概率P(x)1时(必然事件),信息量I0。 .平均信息量或者总信息量的期望值或者熵:如果将信息源所有可能事件的信息量进行平均,即可得到

6、表达式: .把H叫做熵,它代表一个信息集的平均信息量,因此熵是一个在平均意义上表示信息集的总体特征的一个物理量,当所有事件的概率相等时,H最大.(4)例题:计算字符串“aabbaccbaa”的熵编码的位数a,b,c在信息集中出现的概率分别为1/2, 3/10, 1/5它们的信息量分别为 Ia = -log2(0.5)= 1 bit Ib = -log2(0.3)= 1.737 bit Ic = -log2(0.2)= 2.322 bit 信息熵:H=-Pi log2Pi =Pi* Ia +Pb* Ib + Pc* Ic =1.4855bit(5)某一信息集包含n个事件,每个事件的编码长度为Ci

7、,概率Pi,平均码长L。 L= (Ci*Pi) 当LH时,有冗余 当L=H或L稍大于H,是最佳编码 熵是平均码长的下限.哈弗曼编码(1)主要针对根据信息码字出现的概率的分布特征进行压缩编码,寻找概率与码字长度间的最优匹配,属于无损压缩。被广泛应用于现代数字图像处理技术,如JPEG、MPEG等压缩标准中。是一种典型的熵编码.(2)采用变长码,出现频率越高的符号,对应的编码长度越短。反之,越长.(3)编码步骤如下: 1)将信源符号按概率递减顺序排列;2)把两个最小的概率加起来,作为新符号的概率;3)重复步骤(1)、(2),直到概率和达到1为止;4)在每次合并消息时,将被合并的消息赋以1和0;5)寻

8、找从每个信源符号到概率为1处的路径,记录下路径上的1和0;6)对每一符号写出1和0序列。即为Huffman编码。 (4)例题: 有一幅40个像素组成的灰度图像,灰度共有5级,分别用符号ABCDE表示,其中出现灰度A的像素数有15个,出现灰度B的像素数有7个,灰度C的像素数有7个,灰度D的像素数有6个,灰度E的像素数有5个。 在不进行压缩的时候,如果用3位来表示灰度值,则每个像素用3位表示(定长码),这幅图像的编码总共需要120位。 进行哈夫曼编码的过程如下: 平均码长=所有信源符号出现的概率其编码长度,并求和。平均码长=0.25*2+0.25*2+0.2*2+0.15*3+0.1*4+0.05

9、*4=2.45bit 假定有一副包含七种颜色的图像,分别用a1,a2,a3,a4,a5,a6,a7来表示这七种颜色,称为信源。这七种颜色在图像中出现的概率用P表示。设信源x=a1,a2,a3,a4,a5,a6,a7,对应的概率为p=0.25,0.2,0.18,0.13,0.1,0.09,0.05。(4)霍夫曼编码的特点:需要计算概率分布,编出码表(信心符号对应编码)霍夫曼编码是最佳的,但构造出来的码不是唯一的,可其平均码长是相同的。对不同信源其编码效率也不尽相同。信源概率相等时,编码效率最低。算术编码算术编码也是一种基于统计的压缩编码方法。它将信源符号作为一个整体进行编码(而不是将单个信源符号

10、映射成一个码字)。每个信源符号用0到1之间的一个区间来表示,其长度等于该消息的概率。算术编码以符号的概率和它的编码间隔为参数。.消息序列中符号越多,得到的区间就越小,就需要更多的位数来表示这个区间。例题:信源符号abcd概率0.10.40.20.3初始编码间隔0,0.1)0.1,0.5)0.5,0.7)0.7,1)当输入的信息符号序列为cadacdb时,写出其算术编码及解码过程。编码:首先输入的符号是C,找到它的编码范围是0.5,0.7)。由于消息中第2个符号a的编码范围是0,0.1),因此它的间隔就取0.5,0.7)第一个十分之一作为新的间隔0.5,0.52。依次类推。消息的编码输出可以是最

11、后一个间隔中的任意数。算术编码举例设s = ( a1, a2, a3, a4 ) p = (0.1 0.4 0.2 0.3) message = a3a1a4a1a3a4a2 行程编码(RLE编码) .现实中有许多这样的图像,在一幅图像中具有许多颜色相同的图块。在这些图块中具有相同的颜色,或在一行上有许多连续的像素都具有相同的颜色值。.把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。常用RLE(Run-Length Encoding)表示。.该压缩编码技术相当直观和经济,运算也简单,因此解压缩速度很快。RLE压缩编码尤其适用于计算机生成的图形图像,如Windows

12、的画图程序所绘制的图像,由少数几种颜色构成.属于无损压缩。行程编码示例:如一个由16*10像素组成的小图像,每个小格表示一个像素。如果不加编码而直接存储,每行需要16个字节,10行共需要160个字节。编码前的前三行的像素值可表示为:0000000000 11100经过RLE编码后的编码序列为:16 016 02 0 12 1 2 0对于具有相同颜色值的连续像素,RLE编码只需存储一个像素的值以及具有相同颜色的连续像素的个数即可。为了叙述方便,假定一幅灰度图像,第n行的像素值为: 用RLE编码方法得到的代码为:。代码中用红色表示的数字是行程长度,黑体字后面的数字代表像素的颜色值。例如,红字50代

13、表有连续50个像素具有相同的颜色值,它的颜色值是8。对比RLE编码前后的代码数可以发现,在编码前要用73个代码表示这一行的数据,而编码后只要用11个代码表示代表原来的73个代码,压缩前后的数据量之比约为7:1,即压缩比为7:1这说明RLE确实是一种压缩技术,而且这种编码技术相当直观,也非常经济。RLE所能获得的压缩比有多大,这主要是取决于图像本身的特点。如果图像中具有相同颜色的图像块越大,图像块数目越少,获得的压缩比就越高。反之,压缩比就越小。 字典编码有许多场合,开始时不知道要编码数据的统计特性,也不一定允许你事先知道它们的统计特性。因此,人们提出了许许多多的数据压缩方法,企图用来对这些数据

14、进行压缩编码,在实际编码过程中以尽可能获得最大的压缩比。这些技术统称为通用编码技术。词典编码技术就是属于这一类,这种技术属于无损压缩技术。 GIF图像就是采用了这种编码算法。 字典编码的根据是数据本身包含有重复代码这个特性。例如文本文件和位图就具有这种特性。字典编码可归纳为两类: 第一类是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分。它的输出仅仅是指向早期出现过的字符串的“指针”。第二类算法的想法是企图从输入的数据中创建一个短语字典。它可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的短语时,编码器就输出这个短语的索引号,而不是短语本

15、身。 第二部分:有损压缩编码预测编码:利用前面的一个信号或多个信号对下一个信号进行预测,然后对实际值和预测值的差进行编码,以达到数据压缩的目的.就图像压缩而言,预测编码可分为帧内预测和帧间预测两种类型,主要考虑两个方面的信息冗余:一是消除存在于图像内部的数据冗余,即空间冗余;二是消除存在于图像之间的信息冗余,即时间冗余.(1)预测编码之差分脉冲编码(DPCM) .脉冲编码调制(PCM): 直接对采样值进行量化编码。.差分脉冲编码调制方法(DPCM)所编码的不是采样样本值,而是样本值与其预测值的差分,即量化的是已知的样本值与预测值之间的差值。.从过去的几个采样值的线性组合来预测和推断现在的采样值

16、,进而用实际采样值与预测采样值之差(预测误差)及线性预测系数来进行编码。从而就减少了表示每个样本信号的位数。.与PCM 不同的是,DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。(2)预测编码之自适应差分脉冲编码调制ADPCM1)自适应量化:使量化间隔大小的变化自动地去适应输入信号大小的变化。2)自适应预测:利用为量化的输入信号样本来计算预测器系数的估值,或者利用量化样本和预测误差来计算预测系数的估值。预测编码可以获得比较高的编码质量,并且实现起来比较简单,因此被广泛地应用于图像压缩编码系

17、统。但是它的压缩比不高,而且精确的预测有赖于图像特性的大量的先验知识,并且必须进行大量的非线性运算,因此一般不单独使用,而是与其他方法结合起来使用。例如,在JPEG中使用了预测编码技术对DCT直流系数进行编码。变换编码之前一直认为冗余度是数据所固有的。但实际上数据冗余往往跟不同的表示方法有很大的关系。(1)为什么要变换为达到目的,可以通过不同的路径殊途同归例如:数学计算机中,经常利用某些数学函数略加转换可以找出一条计算的捷径。乘法:X0运算时,数据很大,可以变成对数进行加法(2)基本概念先对信号进行某种函数变换,从一种域(空间)变换到另一种域(空间),再对变换后的信号进行编码处理。以声音图像为

18、例,由于声音图像大部分信号都是低频信号,在频域中信号较集中,因此将时域信号变换到频域,再对其进行采样、编码。将初始数据从时间域或者空间域变换到一个更为紧凑的表示空间,新的空间是更适合于压缩的抽象域,通常为频域。(3)变换去除相关性示例.设有两个相邻的数据样本x1和x2,每个样本 采用3比特编码,则各有8个幅度等级,两个样本的联合事件共有64种可能用右图二维平面坐标表示.考虑到相邻样值的相关性,x1和x2同时出现相近幅度的可能性最大因此,合成可能性往往落在阴影区内变换的目的是为了去除信源的相关性(4)变换编码的原理 (5)离散余弦变换(DCT).计算速度较快,很适于做图像压缩。.根据对人的视觉特

19、性的研究,人的眼睛对高频部分是不敏感的。所以可以舍弃图像中的高频部分而基本上不影响图像质量达到数据压缩的目的,有效的减少了图片占用的存储空间。.DCT变换后的左上角是图像的低频部分,越靠近右下角,频率越高,所携带的信息量越少。DCT要求先将一幅图像分割成一个个小图像块。通常为一个88的像素矩阵。JPEG将源图像划分为若干个子块,每个子块包含88个像素每个图像块做离散余弦变换。P(i,j) T(i,j)。 T中每个元素称为变换系数。T(0,0)表示低频成分(图像背景),是直流系数,称为DC系数,与图像矩阵b的平均值有关;其他为交流系数,称为AC系数。 通过DCT处理,已将图像的表示集结到频率系数

20、矩阵的左上角系数,此系数携带了更多图像有用信息,右下部分系数几乎不包含有用信息。有利于判定“扔掉”哪些信息,有利于压缩。而变换前要实现这种判断是很困难的。10.静态图像压缩标准JPEGJPEG(Joint Photographic Experts Group)是联合图像专家小组的英文缩写,这个专家组开发的算法称为JPEG算法,并且成为国际上的彩色、灰度、静止图像的第一个国际标准,因此又称为JPEG标准。(1)JPEG算法概要1)采用以离散余弦变换为基础的有损压缩算法;25:12)采用以预测技术为基础的无损压缩算法。2:13)JPEG2000中,采用小波变换,进一步跨越。75:1(2)JPEG算

21、法的主要步骤1)颜色模型转换及采样2)DCT变换3)量化4)编码1)颜色模式转换及采样JPEG 的图片使用的是 YCbCr 颜色模型, 而不是计算机上最常用的 RGB.从RGB转换成YCbCr: Y0.299R+0.587G+0.114B Cr(0.500R-0.4187G-0.0813B)+128 Cb(-0.1687R-0.3313G+0.500B)+128常用的采样格式有4:1:1和4:2:2 2)离散余弦变换(DCT)DCT要求输入数据是一个88的矩阵,且每个矩阵元素具有8bit精度。具体过程如前文所述3)量化DCT变换的作用是使空间域的能量重新分布,降低图像的相关性。本身并不能达到数

22、据压缩的作用。为了达到压缩数据的目的,DCT系数需做量化。量化是对经过DCT变换后的频率系数进行量化。量化的目的是减小非0系数的幅度以及增加0值系数的数目,在一定的主观保真的前提下,丢掉那些对视觉效果影响不大的信息。量化是图像质量下降的最主要原因。将某一个值除以量化表中对应的值。量化表左上角的值较小,右下角的值较大,这样就起到了保持低频分量,抑制高频分量的目的。对于有损压缩算法,JPEG算法使用如图4所示的均匀量化器进行量化,量化步长是量化表的元素,它由系数所在的位置和每种颜色分量的色调值来确定。因为人眼对亮度信号比对色差信号更敏感,因此使用了两种量化表:如表1所示的色度量化值(针对Cr,Cb

23、)和表2所示的亮度量化值(针对Y)。此外,由于人眼对低频分量的图像比对高频分量的图像更敏感,因此图中左上角的量化步长要比右下角的量化步长小。表1 色度量化值 表2 亮度量化值量化的计算公式: 量化值(i,j)T(i,j)量化矩阵(i,j)在解码过程中,逆量化公式为: T(i,j)量化值(i,j)量化矩阵(i,j)效果图经量化后,源图像(左)与IDCT运算后得到的图像 (右)会产生一定的失真,失真程度视量化等级而定。3)编码阶段:由3步组成。直流DC系数编码:量化后,坐标u=v=0时的取值。它是整个块能量的主要部分,它有两个特点:该值比较大相邻的两个图像块之间的DC值变化不大DCi-1DCi根据

24、这个特点,JPEG算法使用了差分脉冲调制编码(DPCM)技术,对相邻图像块之间量化DC系数的差值进行编码 。DCi=DCi -DCi-1AC交流系数的编码Z字形编排。对于量化后的二维数组,我们还要对其进行线性化,然后再进行压缩加以传输。为保证低频分量先出现,高频分量后出现,以增加行程中连续“0”的个数,63个AC系数采用z字形排列。扫描后用行程编码。 量化DCT系数的编排 DCT系数序号 熵编码 为了进一步达到压缩数据的目的,需对量化后的DC系数,和 行程编码后的AC系数进行基于统计特性的熵编码。JPEG建议两种熵编码方法:哈夫曼(Huffman)编码和自适应二进制算术编码.11. JPEG2

25、000简介JPEG 2000 与传统 JPEG 最大的不同,在于它放弃了JPEG 所采用的以离散余弦变换为主的区块编码方式。 以区块编码方式的主要缺点是将自然图像中的相关性人为地割裂开来,所以会导致图像还原时出现块与块之间的“边界效应”。而改采以小波转换(Wavelet transform)为主的解析编码方式,小波转换将一幅图像作为一个整体进行变换和编码,很好地保存了图像信息中的相关性,达到了更好的压缩编码效果。(1)JPEG2000的特点 同时支持有损和无损压缩 渐进传输(progressive transmission ) 可对感兴趣区域指定压缩参数(ROI) 高压缩率12.运动图像压缩标准MPEG MPEG的目标是针对活动图像的数据压缩。 MPEG标准主要有 MPEG-1 MPEG-2 MPEG-4 MPEG-7 MPEG-21(1)MPEG-l标准体系共分为5个部分 第一部分 系统(Systems)第二部分 视频(Audio) 第三部分 音频(Video) 第四部分 一致性测试(Conformance testing) 第五部分 软件仿真(Software Simulation)(2)MPEG-1视频编码 在空间方向上,图像数据压缩采用JPEG压缩算法来去掉冗余信息。 在时间方向上,图像数据压缩采用运动补偿算法(运动补偿技术)来去掉冗余信息。MPE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论