版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图像与视频压缩技术讲义
汪国有
图像识别与人工智能研究所
目录
第一章图像与视频压缩技术概述.....................................................5
1.1图像与视频压缩技术概述..................................................5
1.1.1图像与视频定义.....................................................5
1.2.2图像与视频压缩的必要性和可能性.................................5
1.2图像与视频压缩技术的发展过程及应用...................................6
1.2.1图像与视频压缩技术的发展过程....................................6
1.2.1.1初期的发展阶段..................................................6
1.2.1.2技术标准化阶段.................................................6
1.2.1.3最新动向........................................................6
1.2.2图像与视频压缩的技术标准.........................................7
1.2.2.1ISO制定的国际标准..............................................7
1.2.2.2ITU指定的国际标准..............................................9
1.2.2.3图像与视频压缩标准的新技术....................................11
1.3参考文献.................................................................14
第二章图像与视频信息的获取与表示................................................15
2.1图像与视频表示.............................................................15
2.1.1图像数据表示.........................................................15
2.1.2视频采样格式........................................................15
2.1.2视频信号制式.........................................................16
2.2视频传输格式(数字视频信号标准)............................................17
2.2.1CCIR-601视频信号标准............................................17
2.2.2CCIR-656视频信号标准...........................................20
2.2.3ITU-656与ITU-60标准关系.......................................22
2.3MPEG-4标准视频格式...................................................27
2.3.1MPEG-4视频采样结构................................................27
2.3.2MPEG-4视频传输结构................................................28
第三章图像与视频数据压缩编码技术................................................30
3.1图像与视频压缩概述.....................................................30
3.1.1图像与视频压缩基础...............................................30
3.1.2数字压缩技术三个重要指标........................................30
3.2图像与视频压缩基本技术................................................31
3.2.1统计编码...........................................................31
3.2.1.1信息量和信息端.................................................31
3.2.1.2Huffman编码...................................................31
3.2.1.3算术编码.......................................................32
3.2.1.4行程编码(RLC)...................................................................................................35
3.2.2预测编码...........................................................36
3.2.2.1预测编码基本原理...............................................36
3.2.2.2DPCM编码原理.................................................36
3.223最佳线性预测................................................36
3.2.2A自适应预测编码.................................................36
3.2.2.5自适应帧间预测.................................................36
3.2.3变换编码.................................................36
3.2.3.1变换编码的基本原理............................................36
3.2.3.2最佳正交变换--KLT变换........................................37
3.2.3.3次最佳正交变换--DCT变换.....................................38
3.2.3.4DWT变换......................................................41
3.2.4量化编码.................................................43
3.2.5扫描变换.................................................44
3.2.5模型编码.................................................44
第四章图像与视频数据压缩编码标准...............................................45
4.1JPEG静态图像压缩编码标准.....................................45
4.1.1JPEG文件段格式和段标记.............................................45
4.1.2JPEG压缩原理............................................50
4.1.2.1离散余弦变换快速算法..........................................51
4.1.2.2DCT系数的ZigZag重排列.......................................51
4.1.2.3JPEG的变换系数量化...........................................51
4.1.2.4变换系数编码方法..............................................52
4.1.2.5变换系数霍夫曼编码方法........................................53
4.2小波图像压缩算法..............................................57
4.2.1EZW图像压缩算法........................................57
4.2.1.1离散小波变换(DWT)与图像压缩...............................57
4.2.1.2嵌入式编码(EmbeddedCoding)..................................................................59
4.2.1.3小波系数零树编码..............................................60
4.2.1.4逐次逼近量化..................................................61
4.2.1.5EZW算法编码例子..............................................64
4.2.2SPIHT图像压缩算法.......................................66
4.2.2.1SPIHT算法中一些符合定义......................................67
4.2.2.2渐进式图像传输................................................67
4.2.2.3显著系数传输...................................................68
4.2.2A集合分裂分类算法.............................................69
4.2.2.5SPIHT编码算法................................................70
4.2.2.6SPIHT算法编码的例子..........................................72
4.2.2.7SPIHT算法改进措施............................................74
4.3动态图像压缩编码标准..........................................75
4.3.1MPEG-1标准.............................................75
4.3.2MPEG-2标准.............................................75
4.3.3MPEG-4标准/H.264........................................................................................75
4.3.3.1视频数据语法...................................................75
4.3.3.2视频数据流的句法..............................................102
4.3.3.3视频解码过程..................................................102
4.3.4AVS视频标准............................................105
第五章压缩编码硬件及软件系统结构...............................................106
5.1计算与处理硬件系统.......................................................106
5.2图像与视频捕获硬件.......................................................106
5.3图像与视频输出硬件.......................................................106
5.4计算机操作系统软件.......................................................106
5.5图像与视频压缩软件.......................................................106
第一章图像与视频压缩技术概述
1.1图像与视频压缩技术概述1.1.1图像与视频定义
图像是客观世界能量或状态以可视化形式在二维平面上的投影。
视频是沿时间轴连续采样得到的图像的有序序列。
1.2.2图像与视频压缩的必要性和可能性
必要性:数据量大引起了存储容量和传输带宽存在瓶颈->需要压缩
数字电视信号:
(1)SIF格式NTSC制彩色4:4:4采样视频信号
每帧数据量:352X240X3=253KB
每秒数据量:253X30=7.603MB/S
一张CD-ROM存节目时间:650/7.603/60=1.42分
(2)CCR格式PAL制彩色4:4:4采样视频信号
每帧数据量:720X576X3=1.24MB
每秒数据量:1.24X25=31.3MB/s
一张CD-ROM存节目时间:650/31.3/60=20.9秒
陆地卫星Landsat-3
一幅图数据量:2340行X3240列X7位X4波段=212MB
每天图数据量:212MBX30幅/天=6.36Gb
可能性:信源数据存在极强的相关性
多媒体信息存在自然冗余,例如,帧与帧之间的象素具有极大的相关性->能够压缩
(1)编码的烯冗余
适用范围是信源码字概率分布具有很强的不均匀性
典型的方法:Huffman编码、算术编码、行程编码
(2)空域灰度冗余
适用范围是空域相邻像素灰度分布具有很强的相关性
典型的方法:预测编码、变换编码(3)时域灰度冗余
适用范围是时域相邻像素灰度分布具有很强的相关性
典型的方法:运动补偿编码(4)视觉敏感冗余
适用范围是像素灰度的变化不被视觉所察觉
典型的方法:系数量化
3)图像与视频压缩技术的分类与评价(1)方法分类
无损压缩:能无失真恢复原始数据
有损压缩:能视觉近无失真恢复原始图像
(2)评价指标衡量数据压缩技术优劣的指标:
压缩比Cr:原始数据比特数/压缩后数据比特数
恢复效果:PSNR、主观质量
处理速度:每秒能完成编解码处理的帧数
是否可实现:
在限定的体积、功耗、成本和工艺条件下,是否可行
1.2图像与视频压缩技术的发展过程及应用
1.2.1图像与视频压缩技术的发展过程
1.2.1.1初期的发展阶段
信息端保持编码:无失真,但压缩比低(几倍)
视觉保持的编码:有失真,但压缩比高(几~几十倍)
1.2.1.2技术标准化阶段
数字视频和图像压缩编码技术的研究,已历经半个世纪,在理论和工程上都取得了很多成
果。进入20世纪90年代,在ISO和ITU等国际组织的协调下,对视频和图像编码的成果进行
了收集、整理、综合和加工,制定了几个通用的压缩编码标准,包括适用于二值图像的JBIG、
用于连续灰度和彩色静止图像的JPEG、用于64K视频传输的H.261、面向1.5M数字视频和音
频传输及存储的MPEG-1、面向高品质数字视频和音频传输及存储的MPEG-2以及适于低码率
视频编码的H.263。这些标准的算法主要由四类技术混合构成,即运动补偿、正交变换、量化
和嫡编码,代表了20世纪90年代中前期视频和图像编码的研究水平。
ISO和ITU组织对视频和图像编码技术研究的成果进行了收集、整理、综合和加工,形成
了面向存储和传输的两大国际标准系列:
ISO:JBIG(10:1)、JPEG
MPEG-1,MPEG-2
1.5Mbps2-15Mbps
ITU:H.261、H.263
64Kbps低码率这些标准的算法主要由四类技术混合构成,即运动补偿、正交变换、
量化和嫡编码,代表了20世纪90年代中前期视频和图像编码的研究水平。
1.2.1.3最新动向
20世纪90年代中后期,Internet迅猛发展,无线通信也迅速在全球普及,因此人们开始
有了在网络上传输视频和图像的愿望,于是视频和图像编码的目标也就从传统的面向存储变为
现在的面向传输。在网络上传输视频和图像等多媒体信息除了要解决误码问题之外,最大的挑
战在于用户可以获得的带宽在不停地变化。这主要是因为网络的异构性,即各子网的网络资源,
包括处理能力、带宽、存储和拥塞控制策略等分布得很不平均,用户通过不同的通信子网传输
数据会体验到非常不同的实际传输吞吐量、数据丢失率、传输延迟;另外由于现在的网络没有
提供资源预留一类的协议保障,当网络拥塞发生时,多媒体数据流的有效传输带宽会突然降低,
影响用户接收多媒体信息的质量和速度,甚至造成无法观看。
为了适应网络带宽的变化,可扩展性编码的思想被提了出来。可扩展性编码就是将多媒体
数据压缩编码成多个流,其中一个可以独立解码,它称为基本层码流;其它的码流称为增强层,
它们不可以单独解码,而只能与基本层和它以前的增强层联合在一起解码,用来提高观看效果。
可扩展性编码主要分为时域可扩展性编码、空域可扩展性编码和质量可扩展性编码。在这些策
略中,编好的码流可以按层为单位截断,具有一定的网络带宽适应能力。
新一代的视听对象编码的国际标准MPEG-4中的精细可扩展性(FineGranularScalable,
FGS)视频编码更提供了完全可扩展的增强层码流,它可以在任何地点截断,具有极强的网络带
宽适应能力。后来又提出了渐进的精细可扩展性(ProgressiveFineGranularScalable,PFGS)
的编码方案,它保留了FGS的所有优良性能,并且把编码效率提高了将近IdB。
最新的静止图像编码国际标准JPEG2000,它利用小波变换、位平面编码和基于上下文的算
术编码等一系列新技术,将图像编码的效率提高了一大步(同等质量下,JPEG2000的码流尺寸
只有JPEG的一半),并且提供可扩展性的码流。
在当前的网络时代,视频和图像编码的目标从产生适合存储的固定尺寸的码流发展到产生
适合一定的传输码率范围的可扩展性码流,因此,今后的多媒体数据编码必然要支持可扩展性。
当然,可扩展性编码现在还是一个很不成熟的领域,与不具有可扩展性的单层编码相比,它的
编码效率还是比较低的(例如FGS的编码效率比MPEG-4非可扩展性编码低2〜3dB)。如何将可
扩展性编码的效率尽可能地逼近非可扩展性编码,是一个值得继续研究的问题。总的来说,20
世纪90年代中后期,Internet迅猛发展,无线通信也迅速在全球普及。
(1)标准的发展
JPEG2000(R0I)、MJPEG
MPEG-4(对象编码)低带宽,主要应用于视频会议
H.264+MPEG-4AVC=>JVT,AVS
(2)应用的发展
视频和图像编码的目标从传统的面向存储变为现在的面向传输,面临的问题是误码问题和
带宽变化问题。
可扩展性编码的方法就是将视频和图像数据压缩编码成多个流,其中一个可以独立解码,
它称为基本层码流;其它的码流称为增强层,它们不可以单独解码,而只能与基本层和它以前
的增强层联合在一起解码,用来提高观看效果。
可扩展性编码主要分为时域可扩展性编码、空域可扩展性编码和质量可扩展性编码。在这些策
略中,编好的码流可以按层为单位截断,具有一定的网络带宽适应能力。
1.2.2图像与视频压缩的技术标准
1.2.2.1ISO制定的国际标准
.JPEG标准
JPEG(JointPhotographicExpertGroup)小组1991年3月提出了ISOCD10918号建议草案:
“多灰度静止图象的数据压缩编码”,用于连续色调灰度级或彩色图象的压缩标准,采用离散余
弦变换、量化、行程与哈夫曼编码等技术,支持几种操作模式,包括无损(压缩比2:1)与各种
类型的有损模式(压缩比可达30:1且没有明显的品质退化).
MotionJPEG—>MotionVideo
.JBIG标准
JBIG(JointBi-levelImageGroup)是一种无损的二值图象压缩标准。JBIG可以支持很高的
图象分辨率,常用的文件格式为1728X2376或2304X2896,压缩比可达10:1。
虽然JBIG是二值图象的编码标准,但是它也可以对含灰度值的图象或彩色图象进行无失真
压缩,在这种情况下,JBIG是对图象的每个比特面作压缩变换。
.MPEG系列标准
ISO于1992年制定了运动图象数据压缩编码的标准ISOCD11172,简称MPEG(Motion
PictureExperlGroup)标准,它是视频图象压缩的一个重要标准。MEPG编码技术的发展十分迅
速,从MPEG-1、MPEG-2到MPEG-4,不仅图象质量得到了很大的提高,而且在编码的可伸缩
性方面,也有了很大的灵活性。
MPEG-1
是以1.5Mbps的速率传输电视质量的视频信号,其亮度信号的分辨率为352X240,色度信
号的分辨率为180X120,每秒25或30帧。MPEG-1标准有三个部分组成:MPEG视频(速率
小于1.5Mbps)、MPEG音频(速率为64.2Kbps和19.2Kbps)和MPEG系统(视频和音频的同
步)。因此,MPEG-1涉及的问题是视频/音频压缩和多种压缩数据流的复合和同步问题。
采用两个基本技术:
1)一是基于16X16子块的运动补偿,可以减少帧序列的时域冗余度;
2)二是基于DCT的压缩技术,可以减少空域冗余度。
设计MPEG算法本身面临着一个矛盾:为了满足随机访问的需要,最好对其使用帧内编码,
但是,仅靠帧内编码是无法达到在保证画面质量的前提下而满足高压缩比的需要的。因此,
MPEG采取了预测和插值两种帧编码技术。MPEG中的DCT技术不仅用于帧内压缩,而且对于
帧间预测误差也作了DCT变换,大大减少了空间域的冗余,达到了进一步压缩的目的。
I帧(I-Frame)(IntracodedFrame):基准帧(referenceframe)。
P帧(P-Frame)(PredictedFrame):只能根据I帧重建,同时作为重建B帧的基准帧之一。
B帧(B-Frame)(BidirectionalFrame):根据I帧与P帧重建。
MPEG-1是为中等分辨率视频图象制定的一个标准,特别适合于VCD的性能要求。
MPEG-2
1993年ISO/IEC/JTC/SC29/WG11推出的ISO/IEC13818标准,是一种高带宽的视频数据流
标准。MPEG-2既可以工作在隔行扫描模式下,也可以工作在逐行扫描模式下,最多支持5个
音频声道,可以实现立体声环绕。MPEG-2提供了较为广泛的应用,典型的应用有HDTV。
MPEG-2标准主要包括四个部分:
1)MPEG-2视频:主要定义了视频数据的编码表示和图象再现的解码方法及过程;
2)MPEG-2音频:主要定义了音频数据的编码表示和音频编码信息的解码方法及过程;
3)MPEG-2系统:该部分定义了包含视频/音频的复合结构,以及实时播放视频/音频所需
的时间同步信息;
4)MPEG-2的一致性测试规范。
MPEG-3:
表2.6MPEG-2的级别
是为1920x1080x
级别最大的分辨率每秒的点数传输率30Hz的HDTV制定的。
Low352x240x303.05M4Mb/s后来,人们又发现
Main720x480x3010.40M15Mb/sMPEG-2标准也能够很好
地支持这种应用,所以
High14401440x1152x3043.00M60Mb/s
后来成为
High1920x1080x3062.70M80Mb/sMPEG-3
MPEG-2标准的一部分,
称为MPEG-2High-1440。
MPEG-4
是一种低带宽的视频标准,主要用于视频会议,其视频速率只有64Kbps,分辨率为176x144
xlOHzo极低比特率(VeryLowBitRateTransfer)
双向子再则
向解融
1.2.2.2ITU指定的国际标准
T.120
有关电视会议的国际标准T.120,但不太成功,没有被广泛使用。
标准功能及定义
T.121应用程序开发指南,一般应用程序范本
T.122流向控制及编址,数据及应用程序共用的多点通讯协定
T.1230SI传送界面,一般电话系统及区域性网络的互联和协定
T.124会议建立,一般会议控制设定和管理,包括加入或删除参与者
T.125协定服务的形式,多点通信服务协定规范
T.126批注及应用程序支持,多点固定图象检测及固定图象批注协定
T.127将文档传给一方或多方,多点二进制文档传送
T.128实时音频/图象管理,多点系统的控制
H.320
H.320(其原名为NarrowBandISDNvisualtelephonesystemsandterminalequipment),但是
H.320标准还是只适合在ISDN、EkT1等高速率的数字网上运行,而并不适合于象在电话线
这种窄带网上使用。因此,ITU从1993年开始着手制定一套新的标准H.324。
标准功能定义
H.261图象数据编码标准,PX64Kbps数字化图象的编码器
G.711音频编码压缩标准,使用PCM语音频率,需要专用的64Kbps
G.722音频编码压缩标准,在64Kbps以内的7KHz音频编码
G.728音频编码压缩标准,以64Kbps的速度使用CELP的语音编码
H.221帧结构定义,定义传送音频和图象的频道的结构
H.230系统控制规程的监控与显示标准,音频及图象的同步化控制
H.242多点桥接的控制标准,可视电话连接及切断标准操作程序
H.233数据加密
H.231多点电视会议控制标准,多点控制单元连接规范
H.243多点电视会议控制标准,多点控制单元协议标准
H.261图象编码器已成为互动式图象压缩的实际标准。它描述帧内和帧间的压缩算法,使
用PX64数字通道(64Kbps到2.048Mbps,即P=l-30)。图象将会及时压缩及解压,这样就将发
出方和接收方之间的等待时间减至最低。H.261唯一的缺点是图象的质量低,后面介绍的H.263
标准将取代H.261规范。
H.324标准
H.324是通过一般电话线传送音频及视频信息,并对音频及视频信息进行编码及解码的国
际标准。一般电话系统获得广泛采用的原因是使用方便,而且有数量庞大的用户。H.324标准
可以将电视会议带给数以百万计的、没有加入ISDN的用户。
H.324是为与V.34调制解调器一起使用而设计的。这种调制解调器的总频宽为28.8Kbps,
系统设计者可能会选择质量较低的音频,使图象信号能够有较大的频宽。这项标准亦包括动态
频宽分配模式,这样音频频宽就能够在没有音频需要传送时给其他数据使用。
H.324的视频编码器规范比起H.320规范有很大的改进。H.263在图象质量方面可能会较
H.261高百分之二十至百分之百。
标准功能及定义
H.263图象数据压缩标准,以低于64Kbps的速度给数字化图象使用的编码器
G.723音频数据压缩标准,以5.3Kbps或6.3Kbps的速度进行语音编码
H.245同步及系统控制
H.223多用户的多方协定
虽然H.324示准是针对电话线路这种低速率的通信网络制定的,但是由于它采用了很多最
新的技术,所以,它肯定也将会取代旧的H.320标准而应用到高速数据网中去,其速率最高可
允许2.048Mbps,它的整体框图如图2.13所示。
视频输入输出•电视编码解码器多路复用
H.264H.223
11----X---1
音频输入输出一•音频编码解码器.接收传输
延时
G.723___1____
用户应用数据.数据协议调器
_T.120MODEM公共
V34/V.8网络
MODEM
系统控制-控制协议SRP/LAPM控制
1H.245处理V.25
图2.13H.324多媒体系统框图
从总体上来看,H.324和H.320的一个重大区别就在于它增加了一个数据通信接口。这是
因为H.320主要用在会议电视,H.324则是主要用在多媒体通信,在多媒体通信中,不但要传
送电视信号和语音信号,而且还要传送各种计算机数据,尤其是电子通信公告栏的各种数据。
具体地说,数据通信接口主要支持多媒体通信的应用,例如电子公告栏,静止图象传输,文件
交换,数据库的存取,音频图形会议,设备(如摄像机)的远程控制,网络协议等。所以,它们
的最大区别在于H.324不但有视频和音频编码解码器,而且它还有文件会议系统。H.324与H.320
之间的另一个区别在于,H.324把数据Modem及其控制也包括了进去。这是因为本来电话网只
是一个模拟信号通信网,只有通过数据调制解调器才能把数据信号经过模拟网络来传输。正因
为如此,它的多路复用部分H.223,要比过去的H.221复杂(H.221主要是视频和音频信号的多
路复用)。其中视频编码解码器H.263实际上是电视信号的压缩和解压缩技术。如果说H.261吸
取了MPEG-1的一些优点,则可以认为H.263吸取了MPEG-2的一些优点。
音频编码解码器G723主要是用来作为语音信号的压缩和解压缩,本来采用G723编号,
但因为后来发现G.723己经作为ADPCM的标准,所以最近可能会改为G.723.1,
标准的数据通信应用包括应用于实时语音图形会议的T.120、用于简单的点对点静止传输的
T.84、用于简单的点对点文件传输的T.434、用于远程设备控制的H.224/H.281,以及包括PPP
和IP在内的ISO/IECTR9577网络协议,用户数据缓存的V.14或LAPM/V42也包括在内。最
近ITU又对最新标准V.34做了修订,使得它的最高传输速率从28.8Kbps又提高到了31.2Kbps
和33.6Kbps。正因为有了这个改进,使得电视电话的传输变得更加方便和现实。
H264标准
1.2.2.3图像与视频压缩标准的新技术
1)分层可扩展性编码(LayeredScalableCoding)
关于分层可扩展性编码的研究可以追溯到10年前,目前,它已经被许多现行的国际压
缩标准接纳,例如H.263+和MPEG-4。分层可扩展编码主要有三种:时域可扩展性、空域
可扩展性和质量可扩展性。其中质量可扩展性也称为PSNR可扩展性,原因是视频质量通
常用峰值信噪比(PSNR)来衡量。
(1)时域可扩展性(TemporalScalability)
时域可扩展性编码通常是通过在码流中添加B帧来实现的。B帧是使用与它在时间上
最近邻的前后两个I帧或P帧来预测的,而自己并不作为任何其它帧的参考图像,因此在
传输中丢弃B帧并不影响其它帧的质量,而仅仅降低帧率。图1是MPEG-4的时域可扩展
性编码的示意图。
图1MPEG-4中的时域可扩展性编码
(2)空域可扩展性(SpatialScalability)
空域可扩展性编码是通过为视频中的每一帧都创建多分辨率的表示来实现的。当进行
空域可扩展性编码时,原始视频首先通过下采样得到低分辨率的视频,编码得到基本层码
流;然后编码原始视频和基本层视频的差生成增强层码流。不过空域可扩展性编码在视频
传输中应用较少,因为任何一个用户都不能接收在前一个GOP中观看高分辨率视频,而到
下一个GOP只能获得低分辨率视频。因此即使增强层在传输中被丢弃,客户端的解码器也
要对低分辨率的图像进行插值,这实际上是一种质量可扩展性的特殊情形。图2为空域可
扩展性编码的示意图。
图2空域可扩展性编码
(3)质量可扩展性(PSNRScalability)
质量可扩展性编码的思想和空域可扩展性编码很类似,只不过这里不需对原始视频进
行下采样,而是进行一次很粗的量化形成基本层码流。然后对原始视频和基本层视频的差
再进行一次量化,生成增强层码流;如果有多个增强层码流则重复上面的过程。图3是质
量可扩展性编码的示意图。
图3质量可扩展性编码
2)适合网络传输的编码方案
从以上可以看出,传统的视频编码方法不适合网络传输,其根本原因是它们的目标是将视
频压缩成为适合一个或几个固定码率的码流,也就是说传统的视频编码是面向存储的。而由于
网络的异构性和缺乏QoS保证,带宽在一个很大的范围内变化,因此面向网络传输的视频编码
的目标是将视频压缩成为适合一个码率的范围。
MPEG组织看到了网络传输对视频编码的新要求,于是开始征集精细的可扩展性视频编码方
案。它的基本思想是将视频编码成一个可以单独解码的基本层码流和一个可以在任何地点截断
的增强层码流,其中基本层码流适应最低的网络带宽,而增强层码流用来覆盖网络带宽变化的
动态范围。世界各地的学者提出了许多解决方案,主要分为三类,分别使用DCT变换技术、小
波变换技术和MatchingPursuit技术。最终从编码效率和复杂性两方面的考虑,精细可扩展性
编码(FGSC)及渐进的精细可扩展性编码(PFGSC)被MPEG组织采纳。
(1)精细的可扩展性编码
MPEG-4的FGS主要有以下一些特性:第一,基本层使用基于分块运动补偿和DCT变换的编
码方式达到网络传输的最低要求;第二,增强层使用位平面编码技术对DCT残差进行编码来覆
盖网络带宽的变化范围;第三,每一帧的增强层码流可以在任何地点截断:第四,解码器重建
的视频质量和收到并解码的比特数成正比。
FGS的基本层编码和普通的MPEG-4非可扩展性编码相同,都是由运动估计、运动补偿、DCT
变换、标量量化和变长编码(VariableLengthCoding)组成。而在增强层编码时,从原始的
DCT系数中减去基本层逆量化后重建的DCT系数值获得DCT残差,然后对每一个8X8的块按从
上到下从左到右的顺序使用位平面进行编码。
使用位平面编码的好处就是使得每一个系数的重要部分(较高的位)优先编码,这样在码
流截断时就保证了解码器仍可以获得有关视频的重要信息,从而提供了精细可扩展的特性。
一般的FGS只考虑了要编码系数的值,实际上FGS的应用是非常灵活的。例如我们可以对
图像中比较感兴趣的前景部分优先编码,具体作法就是将图像中的某些块上移若干个位平面,
就实现了对图像中感兴趣部分的优先传输。我们还可以对不同频率的DCT系数加以不同的权重,
也就是对不同的DCT系数上移不同的位平面,从而满足人眼对不同频率成分的敏感程度。
FGS还可以和时域可扩展性编码相结合(FGST),即对B帧中的DCT系数都使用位平面技
术编码,这样FGST不仅保持了FGS的精细可扩展的特性,而且支持帧率的变化。
FGS虽然具有优良的可扩展特性,但它也有致命的弱点,即效率太低。在同等码率下,FGS
的质量要比MPEG-4中的非可扩展性编码低2〜3dB(3个dB意味着码率翻一番),这是人们难
以接受的。因此要想提高FGS的编码率,必须改善它用作运动预测和补偿的参考图像的质量。
(2)渐进的精细可扩展性编码
可以看出,质量可扩展性编码(我们对它的增强层使用位平面编码)和FGS编码分别走了
两个级端,质量可扩展性编码保证了编码效率,因为它用同层的解码图像作参考,获得了较为
准确的运动预测和补偿,但它对错误极为敏感,一旦某个增强层出现了错误,它后面的增强层
都将无法解码,直到遇到下一个1帧为止;而FGS保证了对错误的恢复能力,它可以从前--帧
增强层的任何错误恢复出来,但是由于参考图像质量低,因而效率不高。为了在编码效率和错
误恢复能力之间取得一个权衡,后来有人提出了一种被称为渐进的精细可扩展性(Progressive
FineGranularScalable,PFGS)的视频编码方案,在保持了FGS所具有的网络带宽自适应和错
误恢复能力的同时,提高了编码效率将近IdBo
但是,PFG$的编码效率和非可扩展性编码相比,还有1〜2dB的差距。如何进一步提高它
的性能,还是一个值得研究的问题。
3)取得的最新研窕成果
目前,正在研究视频和图像的可扩展性编码,其主要成果有:
(D.根据PFGS增强层各帧之间码率的不平衡性,研究了PFGS增强层的码率分配问题。首先提
出了一个PFGS增强层多帧联合的率失真(Rate-Distortion,R-D)函数,然后我们根据这个率
失真函数提出了一个局部最优的PFGS增强层码率分配算法。
实验结果显示,和FGS中使用的码率平均分配算法相比,该算法不仅使视频解码质量更加
平滑,而且将视频质量提高了0.3〜0.5dB。另外,算法的复杂性很低,使得它非常适合于视频
服务器使用。
(2).为了进一步压缩FGS和FPGS的基本层码流,将位平面编码技术和空域可扩展性视频编码
相结合,提出了一种称为精细的空域可扩展性(Fine-GranularitySpatiallyScalable,FGSS)
的视频编码算法。这个方案具有质量精细变化的特性,即低分辨率和高分辨率的增强层码流都
可以在任何地点截断,具有极强的网络带宽适应能力。
此外,该算法还具有错误恢复功能,同时保持了空域可扩展性编码的多分辨率特性,它可
以满足拥有不同网络带宽和不同分辨率接收设备的许多用户的需求。实验表明,在大多数码率
条件下,FGSS的性能优于传统的空域可扩展性编码。
(3).提出了一种基于块的细粒度可扩展(B-FGS)编码方法,这种编码方法比MPEG-4FGS具
有更多的灵活性,它能够支持区域级的动态码率分配,它是MPEG-4FGS的一种改进。在基于块
的FGS编码系统中,在视频流化传输服务器端,通过给属于感兴趣区域的空块分配更多的码率
就可以实现选择性区域增强,而增强区域的选择是由传输策略决定的,由于B-FGS编码将区域
增强从编码中分离出来,所以可以很好地支持区域级动态码率分配。
同时,还较好地解决了B-FGS中均匀码率分配所造成的编码效率下降问题,实现了B-FGS
编码中的快速最优码率分配,使其可以用于实时流媒体服务器中。
上述编码方法可以和MPEG-7内容描述相结合,在低传输带宽时,实现重要区域的选择性增
强,从而提高接收端视觉质量。
1.3参考文献
[1]钟玉琢、王琪、贺玉文编著,《基于对象的多媒体数据压缩编码国际标准》,科学出版社
[2][美]JerryD.Gibson著,李煜晖等译,《多媒体数字压缩原理与标准》,电子工业出版社
[3]吴玲杨,老松杨,魏迎梅编著,《多媒体技术》,电子工业出版社
第二章图像与视频信息的获取与表示
2.1图像与视频表示
2.1.1图像数据表示
1)位图
又称点阵图,利用每个位置象素的颜色表示图像的方法
2)矢量图
矢量图(图形)是指利用参数表示的直线、圆、圆弧、任意曲线和图表等画面
3)矢量图与位图的比较
(1)概念上:
矢量图(图形)一般指计算机绘制的画面,如直线、圆、圆弧、任意曲线和图表等
图像是指由输入设备捕捉的实际场景画面或以数字化形式存储的任意画面。
(2)存储容量大小
图像是由一些排成行列的像素组成的,在计算机中的存储格式有BMP、TIF、GIFD等。一般
数据量比较大。除了可以表达真实的相片,也可以表现复杂绘画的某些细节,具有灵活和富于
创造力等特点。在打印输出和放大时,容易发生失真。
图形也称矢量图文件中只记录生成图的算法和图上的某些特征点,容易进行移动、缩放、
旋转和扭曲等变换,主要用于表示线框型的图画、工程制图、美术字等。常用的矢量图文件有
3DS(用于3D造型)、DXF(用于CAD)、WMF(用于桌面出版)等。图形只保存算法和特征点,
相对于位图的大数据量来说,它占用的存储空间也比较小。但是显示速度没有图像快,打印输
出和放大时,质量较高不会发生很大失真。
2.1.2视频采样格式
数字视频信号由许多帧图像按照时间顺序组合成的图像序列组成,其中,每一帧图像又由
许多像素点按规定的行列大小排列组成,每一帧图像中每一个像素点由一个亮度Y分量和两个
色度分量Cb与Cr表示。如下图所示,YUV(YCrCb)的4:2:2、4:1:1、4:2:0是指亮度信号Y和
红/蓝色差信号的抽样格式。注意,4:2:0并非蓝色差信号采样为0,而是和4:1:1相比,在水平
方向上提高1倍色差采样频率,在垂直方向上以Cr/Cb间隔的方式减小一半色差采样。
YUV4:2:2采样格式YUV4:1:1采样格式
YUV4:2:0采样格式
2.1.2视频信号制式
1)视频信号制式:
PAL制信号:625行/帧,25帧/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会展中心工程维护保养规程
- 2026年信访信息员专项试题及答案
- 干燥脱水设备清洗消毒和维修保养制度
- 特种设备日常维护保养检查记录表(行车)
- 2026年发票管理与开具规范考核试题及答案
- 2026年葫芦岛市南票区网格员招聘笔试备考题库及答案解析
- 广东省江门市2026年高三年级高考适应性考试(江门高三二模)历史试卷(含答案)
- 2026年四川省雅安市网格员招聘考试备考题库及答案解析
- 2026年荆州市沙市区网格员招聘笔试参考题库及答案解析
- 单证员年终总结
- 2025年6月浙江省高考历史试卷(含答案详解)
- 《生活垃圾填埋场环境风险评估技术指南》
- 阳离子染料 染腈纶时纤维饱和值、染料饱和值及饱和因数的测定-编制说明
- 房车电路施工方案
- 【不要回应“恶意”】人际交往主题班会-课件
- GB/T 4337-2025金属材料疲劳试验旋转弯曲方法
- 标准三率培训课件
- DB11-T 695-2025 建筑工程资料管理规程
- 外籍大学生兼职协议合同
- BP辩论用语及表达技巧总结
- 职高网络面试常见问题及答案解析
评论
0/150
提交评论