信息压缩与编码概述_第1页
信息压缩与编码概述_第2页
信息压缩与编码概述_第3页
信息压缩与编码概述_第4页
信息压缩与编码概述_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体压缩与编码概述一、多媒体数据压缩技术随着多媒体、视频图象、文档映象等技术的出现,数据压缩成了网络管理员的一个重要课题。数据压缩基本上是挤压数据使得它占用更少的磁盘存储空间和更短的传输时间。压缩的依据是数字数据中包含大量的重复,它将这些重复信息用占用空间较少的符号或代码来代替。多媒体数据之所以能够压缩,是因为视频、图像、声音这些媒体具有很大的压缩力。以目前常用的位图格式的图像存储方式为例,在这种形式的图像数据中,像素与像素之间无论在行方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大;在允许一定限度失真的前提下,能对图像数据进行很大程度的压缩。在多媒体计算系统中,信息从单一媒体

2、转到多种媒体;若要表示,传输和处理大量数字化了的声音/图片/影像视频信息等,数据量是非常大的。例如,一幅具有中等分辨率(640*480像素)真彩色图像(24位/像素),它的数据量约为每帧7.37Mb。若要达到每秒25帧的全动态显示要求,每秒所需的数据量为184Mb,而且要求系统的数据传输速率必须达到184Mb/s,这在目前是无法达到的。对于声音也是如此。若用16位/样值的PCM编码,采样速率选为44.1kHz,则双声道立体声声音每秒将有176KB的数据量。由此可见音频、视频的数据量之大。如果不进行处理,计算机系统几乎无法对它进行存取和交换。因此,在多媒体计算机系统中,为了达到令人满意的图像、视

3、频画面质量和听觉效果,必须解决视频、图像、音频信号数据的大容量存储和实时传输问题。解决的方法,除了提高计算机本身的性能及通信信道的带宽外,更重要的是对多媒体进行有效的压缩。二、数据压缩技术的分类数据压缩的分类方法繁多。有人统计,仔细分来可达30至40种,到目前为止尚未统一。多数学者认同的比较一致的分类方法,是将数据压缩分为在某种程度上可逆的与实际上不可逆的两类,这样更能说明他们的区别。(1) 可逆压缩可逆压缩也叫做无失真编码或无造神编码,而不同专业文献作者还采用了另一些术语。香农在创立信息论时,提出把数据看做是信息和冗余的组合。冗余度压缩的工作机理,是去除(至少是减少)那些可能是后来插入数据中

4、的冗余度,因而始终是一个可逆的过程。(2) 不可逆压缩不可逆压缩就是有失真的编码,信息论中叫熵压缩。熵压缩的一个简单的例子,是在检测采样值设置某个门限;只有当采样值超过指定的门限时,才传输数据。如果这种事件不常出现,就会实现信号空间的较大压缩,但是记得原始采样值就不可能精确恢复。即丢失了信息。根据编码原理进行分类,大致有编码、变换编码、统计编码、分析合成编码、混合编码和其他一些编码方法。其中统计编码是无失真的编码,其他编码方法基本上都是有失真的编码。预测编码是针对空间冗余的压缩方法,其基本思想是利用已被编码的点的数据值,预测邻近的一个像素点的数据值。预测根据某个模型进行。如果模型选取得足够好的

5、话,则只需存储和传输起始像素和模型参数就可代表全部数据了。按照模型的不同,预测编码又可分为线性预测、帧内预测和帧间预测。变换编码也是针对空间冗余和时间冗余的压缩方法。其基本思想是将图像的光强矩阵(时域信号)变换到系统空间(频域)上,然后对系统进行编码压缩。在空间上具有强相关性的信号,反映在频域上是某些特定区域内的能量常常被集中在一起,或者是系数矩阵的发布具有某些规律。可以利用这些规律,分配频域上的量化比特数,从而达到压缩的目的。由于时域映射到频域总是通过某种变换进行的,因此称变换编码。因为正交变换的变换矩阵是可逆的,且逆矩阵与转换置矩阵相等,解码运算方便且保证有解,所以变换编码总是采用正交变换

6、。统计编码属于无失真编码。它是根据信息出现概率的分布而进行的压缩编码。编码时某种比特或字节模式的出现概率大,用较短的码字表示;出现概率小,用较长的码字表示。这样,可以保证总的平均码长最短。最常用的统计编码方法是哈夫曼编码方法。分析-合成编码实质上都是通过对原始数据的分析,将其分解成一系列更适合于表示“基元”或从中提取若干具有更为本质意义的参数,编码仅对这些基本单元或特征参数进行。译码时则借助于一定的规则或模型,按一定的算法将这些基元或参数,“综合”成原数据的一个逼近。这种编码方法可能得到极高的数据压缩比。混合编码综合两种以上的编码方法,这些编码方法必须针对不同的冗余进行压缩,使总的压缩性能得到

7、加强。三、多媒体数据压缩技术标准1、JPEGJPEG(Joint Photographic Experts Group)是在国际标准化组织(ISO)领导之下制定静态图像压缩标准的委员会,第一套国际静态图像压缩标准ISO 10918-1(JPEG)就是该委员会制定的。由于JPEG优良的品质,使他在短短几年内获得了成功,被广泛应用于互联网和数码相机领域,网站上80%的图像都采用了JPEG压缩标准。JPEG本身只有描述如何将一个影像转换为字节的数据串流(streaming),但并没有说明这些字节如何在任何特定的储存媒体上被封存起来。.jpeg/.jpg是最常用的图像文件格式,由一个软件开发联合会组织

8、制定,是一种有损压缩格式,能够将图像压缩在很小的储存空间,图像中重复或不重要的资料会被丢失,因此容易造成图像数据的损伤。尤其是使用过高的压缩比例,将使最终解压缩后恢复的图像质量明显降低,如果追求高品质图像,不宜采用过高压缩比例。但是JPEG压缩技术十分先进,它用有损压缩方式去除冗余的图像数据,在获得极高的压缩率的同时能展现十分丰富生动的图像,换句话说,就是可以用最少的磁盘空间得到较好的图像品质。而且 JPEG是一种很灵活的格式,具有调节图像质量的功能,允许用不同的压缩比例对文件进行压缩,支持多种压缩级别,压缩比率通常在10:1到40:1之间,压缩比越大,品质就越低;相反地,品质就越高。比如可以

9、把137Mb的BMP位图文件压缩至203KB。当然也可以在图像质量和文件尺寸之间找到平衡点。JPEG格式压缩的主要是高频信息,对色彩的信息保留较好,适合应用于互联网,可减少图像的传输时间,可以支持24bit真彩色,也普遍应用于需要连续色调的图像。压缩步骤:1.颜色转换JPEG支持图像采用任何一个色彩空间,支持14个颜色分量。灰度图像颜色分量数为1。RGB、YUV、YCbCr等拥有3种颜色分量。4种颜色分量的例子是青、洋红、黄和黑(Cyan,Magenta,Yellow,and Black,CMYK)。为了减少色度通道包含的大量的冗余信息,本例中采用YCbCr色彩空间。首先需要进行从RGB到YC

10、bCr的色彩空间变换:Y = 0.299000R + 0.587000G + 0.114000BCb = -0.168736R - 0.331264G + 0.500002BCr = 0.500000R - 0.418688G - 0.081312B其中,Y表示亮度分量,Cb和Cr表示蓝红色度分量。2.DC电平偏移最初,在图像中的像素存储在无符号的整数中。对于数学计算,在图像中任何变换或数学计算开始之前,根本上是将这些采样转换成两个补码表示。DC电平偏移的目的是保证输入图像的采样有近似地集中在零附近的动态范围。DC电平偏移执行的图像采样只通过无符号数表示。方法:假设图片分量的采样精度为n,那么

11、分量中的每个像素值应减去2的(n-1)次幂。对于图像而言他的采样由无符号的整数表示,例如CT(X光断层成像)图像,动态范围已经集中于零附近,所以不需要DC电平偏移。3.子采样色彩空间转换之后,图像的大多数空间信息包含在亮度分量Y中。色度分量Cb和Cr包含大量冗余的颜色信息,所以我们运用子采样较少色度数据量以在丢失少量信息的情况下压缩图像。基线JPEG常用的子采样格式为4:2:0,同时支持4:2:2和4:4:4颜色格式。3.DCT变换DCT(DiscreteCosineTransform)是将图像信号在频率域上进行变换,分离出高频和低频信息的处理过程。然后再对图像的高频部分(即图像细节)进行压缩

12、,以达到压缩图像数据的目的。首先将图像划分为多个8*8的矩阵。然后对每一个矩阵作DCT变换。变换后得到一个频率系数矩阵,其中的频率系数都是浮点数。标准色度量化表4.量化由于在后面编码过程中使用的码本都是整数,因此需要对变换后的频率系数进行量化,将之转换为整数。由于进行数据量化后,矩阵中的数据都是近似值,和原始图像数据之间有了差异,这一差异是造成图像压缩后失真的主要原因。5.编码从前面过程我们可以看到,颜色转换完成到编码之前,图像并没有得到进一步的压缩,DCT变换和量化可以说是为编码阶段做准备。编码采用两种机制:一是0值的行程长度编码;二是熵编码(EntropyCoding)。2、MPEGMPE

13、G标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年,专门负责为CD建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO/IEC11172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压

14、缩编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。MPEG-2标准于1994年公布,包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准,MPEG-2按压缩比大小的不同分成五个档次(profile),每

15、一个档次又按图像清晰度的不同分成四种图像格式,或称为级别(level)。五个档次四种级别共有20种组合,但实际应用中有些组合不太可能出现,较常用的是11种组合。这11种组合分别应用在不同的场合MPEG-4在1995年7月开始研究,1998年11月被ISO/IEC批准为正式标准,正式标准编号是ISO/IEC14496,它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在48006400bits/s之间,分辨率为176*144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图

16、像质量。利用MPEG-4的高压缩率和高的图像还原质量可以把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体积却可缩小几倍,可以很方便地用CD-ROM来保存DVD上面的节目。另外,MPEG-4在家庭摄影录像、网络实时影像播放也大有用武之地。MPEG-7(它的由来是1+2+4=7,因为没有MPEG-3、MPEG-5、MPEG-6)于1996年10月开始研究。确切来讲,MPEG7并不是一种压缩编码方法,其正规的名字叫做多媒体内容描述接口,其目的是生成一种用来描述多媒体内容的标准,这个标准将对信息含义的解释提供一定的自由度,可以被传送给设备和电脑程序,

17、或者被设备或电脑程序查取。MPEG-7并不针对某个具体的应用,而是针对被MPEG-7标准化了的图象元素,这些元素将支持尽可能多的各种应用。建立MPEG-7标准的出发点是依靠众多的参数对图象与声音实现分类,并对它们的数据库实现查询,就象我们今天查询文本数据库那样。可应用于数字图书馆,例如图象编目、音乐词典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。MPEG在1999年10月的MPEG会议上提出了“多媒体框架”的概念,同年的12月的MPEG会议确定了MPEG-21的正式名称是“多媒体框架”或“数字视听框架”,它以将标准集成

18、起来支持协调的技术以管理多媒体商务为目标,目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。在这里以为MPEG2作为原理介绍。根据数字通信信息量可以逐段传输的机理,将已编码数据流在时间上以一定重复周期结构分割成不能再细分的最小信息单元,这个最小信息单元就定义为数据包,几个小数据包(Data Packet)又可以打包成大数据包(Data Pack)。用数据包传输的优点是:网络中信息可占用不同的连接线路和简单暂存;通过数据包交织将多个数据流组合(复用)成一个新的数据流;便于解码器按照相应顺序对数据包进行灵活地整理。从而,数据包为数据流同步和

19、复用奠定了基础。因此,MPEG-2系统规范不仅采用了PS、TS和PES三种数据包,而且也涉及PS和TS两种可以互相转换的数据流。显然,以数据包形式存储和传送数据流是MPEG-2系统的要点。为此,MPEG-2系统规范定义了三种数据包及两种数据流:(1) 打包基本流(PES)     将MPEG-2压缩编码的视频基本流(ES-Elementary Stream)数据分组为包长度可变的数据包,称为打包基本流(PES- Packetized Elementary Stream)。广而言之,PES为打包了

20、的专用视频、音频、数据、同步、识别信息数据通道。所谓ES,是指只包含1个信源编码器的数据流。即ES是编码的视频数据流,或编码的音频数据流,或其它编码数据流的统称。每个ES都由若干个存取单元(AU-Access Unit)组成,每个视频AU或音频AU都是由头部和编码数据两部分组成的。将帧顺序为I1P4B2B3P7B5B6 的编码ES,通过打包,就将ES变成仅含有1种性质ES的PES包,如仅含视频ES的PES包,仅含音频ES的PES包,仅含其它ES的PES包。如图所示ES特有信息是由PES包头识别标志、PES包头长信息、信息区和用于调整信息区可变包长的填充字节4部分组成的PES

21、包控制信息。其中,PES包头识别标志由12个部分组成:PES加扰控制信息、PES优先级别指示、数据适配定位指示符、有否版权指示、原版或拷贝指示、有否显示时间标记(PTS-Presentation Time Stamp)/解码时间标记(DTS-Decode Time Stamp)标志、PES包头有否基本流时钟基准(ESCR-Elementary Stream Clock Reference)信息标志、PES包头有否基本流速率信息标志、有否数字存储媒体(DSM)特技方式信息标志、有否附加的拷贝信息标志、PES包头有否循环冗余校验

22、(CRC-Cyclic Redundancy Check)信息标志、有否PES扩展标志。有扩展标志,表明还存在其它信息。如,在有传输误码时,通过数据包计数器,使接收端能以准确的数据恢复数据流,或借助计数器状态,识别出传输时是否有数据包丢失。(2)节目流(PS)     将具有共同时间基准的一个或多个PES组合(复合)而成的单一的数据流称为节目流(Program Stream)。PS包的结构如图3所示。     由图3可见,PS包由包头、系统头、PES包3部分构成。包

23、头由PS包起始码、系统时钟基准(SCR-System Clock Reference)的基本部分、     SCR的扩展部分和PS复用速率4部分组成。     PS包起始码用于识别数据包所属数据流的性质及序号。     SCR的基本部分是1个33 bit的数,由MPEG-1与MPEG-2兼容共用。SCR扩展部分是1个9 bit的数,由MPEG-2单独使用。 (3) 传输流(TS) 将具有共同时间基准或具有独

24、立时间基准的一个或多个PES组合而成的单一的数据流称为传输流(Transport Stream)。TS实际是面向数字化分配媒介(有线、卫星、地面网)的传输层接口。对具有共同时间基准的两个以上的PES先进行节目复用, 然后再对相互可有独立时间基准的各个PS进行传输复用,即将每个PES再细分为更小的TS包,TS包结构如图所示。TS包自适应区由自适应区长、各种标志指示符、与插入标志有关的信息和填充数据4部分组成。 其中标志部分由间断指示符、随机存取指示符、ES优化指示符、PCR标志、接点标志、传输专用数据标志、原始PCR标志、自适应区扩展标志8个部分组成。    重要的是标志部分的PCR字段,可给编解码器的27MHz时钟提供同步资料,进行同步。其过程是,通过PLL,&

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论