《数字电视》PPT课件_第1页
《数字电视》PPT课件_第2页
《数字电视》PPT课件_第3页
《数字电视》PPT课件_第4页
《数字电视》PPT课件_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,数字电视原理,主讲人:赵艳杰,西安电子科技大学出版社,内蒙古大学电子信息工程学院,5.1视频压缩编码标准的发展历程5.2H.261标准5.3JPEG标准5.4MPEG-1标准5.5MPEG-2标准5.6H.263标准5.7MPEG-4标准5.8H.264标准,第5章视频压缩编码标准,5.1视频压缩编码标准的发展历程图像压缩编码标准可分为两大系列:MPEG-X和H.26X。MPEG-X是由国际标准化组织(ISO)和国际电工委员会(IEC)提出的标准。H.26X是由国际电信联盟(ITU)标准委员会提出的,它们在数据格式和输出码率之间有如表5.1.2所示的对应关系。表5.1.1按时间顺序给出了各种视频压缩编码标准。,1.ISO/IEC颁布的标准国际标准化组织(ISO)是目前世界上最大、最具权威性的国际标准化专门机构。国际电工委员会(IEC)是世界上最早的国际性电工标准化机构。MPEG-1是由ISO和IEC共同委员会中的MPEG组织于1992年制定的。它最初用于数字信息存储体上活动图像及其伴音的编码,其数码率为1.5Mb/s,图像采用CIF格式(352288像素或352240像素),每秒30帧,两路立体声伴音的质量接近CD音质,该标准广泛应用于VCD。MPEG-2是由ISO的活动图像专家组和ITU的第15研究组于1994年共同制定的,在ITU的标准中,被称为H.262。MPEG-2作为计算机可处理的数据格式,主要应用于数字存储媒体、视频广播和通信领域,它的数码率为240Mb/s。,随着用户对音频和视频等宽带业务的需求和宽带网络的迅速发展,MPEG-2的视频流逐渐被用户接受,VOD(VideoOnDemand,视频点播)视频流典型速率将达到36Mb/s。HDTV的出现,是视频业务发展的另一个高级阶段。MPEG组织于1999年1月正式公布了MPEG-4(1)版本,1999年12月又公布了MPEG-4(2)版本。MPEG组织的初衷是制定一个针对视频会议、视频电话的超低比特率(64kb/s以下)编码的标准,并打算采用第二代压缩编码算法,以支持甚低数码率的应用。H.264/AVC标准是当前国际上最新的图像编码标准。它被ITU命名为H.264,ISO/IEC则把此标准叫做国际标准(MPEG-4(10)高级图像编码(AVC)。制定此标准的主要目的就在于增强图像的压缩效率和改善图像数据在网络中的传输。H.264标准在当前图像标准中压缩效率是最高的,它比H.263标准提高将近一倍。,2.ITU颁布的标准国际电信联盟(ITU)是联合国的一个专门机构,是国际电信界最权威的标准修订组织。H.261是国际电报电话咨询委员会(CCITT)制定的第一个视频编码标准,它的数码率是P64kb/s,主要应用于ISDN、ATM等宽带信道上实时的传输声音和图像信息,不适合在PSTN和移动通信网等带宽有限的网络上应用。H.262也相当于MPEG-2,它是由ITU与ISO/IEC联合开发的,目前这个标准已经成功地应用在DVD、数字广播、数字电视等诸多领域。为了满足低速率视频通信的应用需要,ITU又推出了适于在速率低于64kb/s的信道上传输的H.263视频编码标准。,H.263算法所用的基本结构来自H.261,并在H.261的基础上做了许多重要改进。1998年,ITU推出的H.263+是H.263的第二版,进一步提高了压缩编码性能。2000年制定H.263+(H.263第三版。3.超高清晰度成像(HRI)建议HRI典型空间分辨率的级别的建议如表5.1.3所示。,图5.1.1视频压缩编码标准的发展历程,4.我国制定的AVS标准我国是ISO/IEC组织的正式成员国,国家信标委下属的多媒体分委员会与ISO/IECJTC1/SC29直接对口。从2000年5月开始,我国科研单位开始跟踪并参与JVT标准的制定工作,目前已有多项技术提案递交到JVT标准,有些技术已经被JVT标准所接收。基于我国专家多年参与MPEG国际标准制定的经验,2002年6月成立的“数字音/视频编、解码技术标准工作组”联合国内从事数字音/视频编、解码技术研发的科研机构和企业,提出了我国自主的数字音/视频编、解码技术标准AVS(AudioVideocodingStandard)。,5.2H.261标准1984年国际电报电话咨询委员会的第15研究组建立了一个专家组专门研究电视电话的编码问题,所用的电话网络为综合业务数据网络ISDN,当时的目标是推荐一个图像编码标准,其传输速率为:m384kb/s,m=1,2,3,4,5。这里384kb/s在ISDN中称为H0通道。另有基本通道B的速率为64kb/s,6B384kb/s。5H0=30B=1920kb/s为窄带ISBN的最高速率。因为以384kb/s速率作为起始点偏高,广泛性受限制,另外跨度也太大,灵活性受影响,所以改为P64kb/s,P=1,2,30。最后又把P扩展到32,因为3264kb/s=2084kb/s,其中2084=211,基本上等于2Mb/s,,实际上已超过了窄带ISDN的最高速率1920kb/s,最高速率也称通道容量。经过5年以上的精心研究和努力,终于在1990年12月完成和批准了CCITT推荐书H.261,即“采用P64kb/s的声像业务的图像编解码”,H.261简称P64。由于H.261标准是用于电视电话和电视会议,因此推荐的图像编码算法必须是实时处理的,并且要求最小的延迟时间(因为图像必须和语音密切配合,否则必须延迟语音时间)。当P取1或2时,速率只能达到128kb/s,由于速率较低,只能传清晰度不太高的图像,因此适合于面对面的电视电话。H.261标准主要应用在综合业务数字网ISDN上传输电视电话会议等低码率的多媒体领域。1990年12月国际电报电话咨询委员会(CCITT)通过了H.261建议书,即“采用p64kbit/s的声像业务的图像编解码”,其中p=1,2,,32。,一.图像格式图像纵横比和每帧图像的纵、横像素数是图像的基本格式,并且由此可以推算像素的纵横比。为了使现行各种电视制式,即PAL、NTSC、SECAM制的图像比较容易地转换为电视电话的图像格式,从而便于相互交换,并且速率又较低,H.261采用通用中间格式CIF。CIF规定图像亮度分量Y的横向像素为352个,纵向像素为288个。图像色度分量Cb、Cr的纵、横像素数均为亮度分量的一半。另外,图像尺寸的纵横比为34,与常规模拟电视屏幕尺寸比例一致。由此可以推算像素的纵横比为:像素纵横比=纵:横=,像素纵横比为1112,接近于方形。亮度分量Y的像素数为色度分量Cb或Cr像素数的4倍,而Y分量像素的面积等于色度分量Cb或Cr像素的面积,可见,色度分量的清晰度比亮度分量的清晰度低,这对整个图像清晰度基本无影响,因为人眼对色度的分辨率本来就低,所以可以利用这种心理视觉冗余度来减少色度像素数。亮度分量的纵向像素为288个,实际上相当于288行扫描线,这是考虑到当前两种电视制式为625行25帧和525行30帧,都是隔行扫描和每帧为2场,所以两种制式的场扫描行数为6252和5252,而288扫描行就是由这两种场扫描行数转换来的,即取这两种场扫描行数的平均值:,这样比较容易实现CIF与这两种电视制式之间的相互转换。,从显示区中同步地取出352个像素即可。,对于525行30帧制式,行周期为63.555s,其中显示区时间约为53s,从显示区中同步地取出352个像素即可。当电视电话在ISDN网中传输时,若P取1或2,则最高速率为128kb/s,CIF规定的像素仍然太多,因此取CIF规定的纵、横像素数的一半,称为QCIF(其中Q为Quarter,即1/4)。QCIF格式亮度信号的横向像素数为176,纵向像素数为144。色度信号Cb、Cr的横向像素数为88,纵向像素数为72。Y:176*144Cb、Cr:88*72QCIF规格为最低要求,所有电视电话都应该达到此规格,而CIF规格则为任选。由于现行电话网可以传输的速率在20kb/s以下,远比64kb/s低,因此要采取降低帧频等措施。,另按CCIR-601规定量化后色度信号峰峰值为224等级电平,最低电平为16,最高电平为240,亮度信号Y量化后的电平有220级电平,亮度信号最高电平为235,最低电平(黑电平)为16,其亮度信号和色差信号的码电平分配见第1章。,在ISDN中传输电视电话和电视会议时帧频应取30Hz。综上所述,H.261标准的图像格式如表5.2.1所示。,二.信源编码器方框图图5.2.1所示为H.261标准信源编码器方框图。图中图像输入实际上是以宏块MB为单位输入的,MB中包含亮度信号Y的4个88像素方块,色度信号Cb、Cr的各一个88像素方块,共6个88像素方块。下面分段讨论信源编码器方框图。图5.2.1与第4章的图4.1.3实质上完全一样,只不过这里更细化了。电视电话的帧频为30帧/秒。相邻帧由于其内容渐变而有很强的相关性,所以允许每两帧传送图像之间可以有3帧不传。每次场景更换后,第1帧一定要传,所以要对第1帧进行帧内编码,所传的这帧称为帧内帧,用I(即Intraframe的缩写)表示。,图5.2.2中的第5帧为预测帧,用P表示,它是由第1帧和第5帧本身经过预测编码而得的。P帧本身也可以作为下一个P帧预测编码的基础。图5.2.2中的B帧称为双向内插帧,它是由邻近的I、P帧或P、P帧计算所得的。由此可知,I帧和P帧是产生全部B帧的基础。通常每12帧或15帧图像中传1帧I帧,每3帧或4帧图像中传1帧P帧。换场景后第1帧为I帧。,图5.2.2帧内、帧间编码模式计算,图5.2.1H.261标准信源编码器方框,三.H.261标准信源解码器方框图,图5.2.6H.261标准信源解码器方框图,帧内、帧间模式在帧内模式时,编码器送来的宏块MB量化DCT系数被送入去量化器Q1,同时该块MB的量化步长q也被送入去量化器Q1,于是按照基本公式F(u,v)=2qQ(u,v)可得DCT系数F(u,v),经反DCT变换T1后所得的像素值f(x,y)(带撇号表示与原值略有差别)被送入加法器。四.图像复用和解复用1.图像数据的层次为了有秩序地传输每帧图像数据,可把一帧图像数据分成4个层次,即数据块层、宏块层、块组层和帧层。(1)数据块层用B表示。一个数据块包含88个像素,亮度和色度信号均以此数据块作为基本编码单元。,(2)宏块层用MB表示。一个宏块包含4个亮度数据块和2个色度数据块(Cb、Cr各1个),因此MB内共有6个数据块,其先后顺序如图5.2.5所示。在宏块中Y、Cb、Cr描述同一像区。(3)块组层用GOB表示。一个块组包含33个宏块,纵向有3行,每行有11个,其先后次序如图5.2.7所示。,图5.2.5亮度、色度数据,(4)按照CIF格式,每帧图像包含的各层次情况如下:1帧CIF图像=12GOB=1233MB=3966B2376B=1584B(Y)+396B(Cb)+396B(Cr)=152064像素一帧图像中12块组GOB的排列顺序如图5.2.8所示。若为QCIF格式,则像素只有CIF格式像素的1/4,所以每帧QCIF图像只有3块组,其安排顺序如图5.2.8所示。图像数据按上述层次安排和传输,有利于图像数据交换和设备兼容。,图5.2.7块组GOB中宏块MB安排顺序,图5.2.8块组GOB安排顺序,2.图像复用图像复用把上述层次的数据按一定方式连接起来,构成一帧数据流。一帧数据的安排方式如图5.2.9所示,图中共有4行,以下分行叙述。,(1)第一行表示包含一帧数据。以帧头数据开始,其后有12块组数据。帧头包含的内容有帧开始码、帧计数码、帧类型信息码(如帧格式CIF或QCIF等)、备用插入信息码。(2)第二行为块组GOB数据,以块组头开始,其后有33宏块数据。块组(GOB)头包含块组开始码、块组编号码、块组量化步长(用于整块组,直到有宏块变更量化步长)、备用插入信息码。(3)第三行为宏块数据,以宏块头开始,其后有6块数据块。宏块(MB)头包含宏块地址码MBA(H.261提供MBA编码表)、类型信息(包括帧内、帧间、运动补偿、滤波器是否使用,H.261提供宏块信息编码表)、宏块量化步长(一直用到再次变更)、运动矢量数据MVD(H.261提供MVD编码表)、编码块图样CBP(用于说明各块数据中的数据数)。,(4)第四行表明数据块B中的数据安排,即变换系数TCOEFF的安排,每块有88个数据,呈方块形,左上角为直流系数,其它均为交流系数,左下角为最高频率交流系数,对应图像信号的最高频率。将这串数据分组,凡是零和零后面的一个数据组成一组。前面的一串零称为游程,用RUN表示,后面的数据称为量值,用LEVEL表示。对常见的组,H.261提供了TCOEFF编码表。对少见的游程,量值用(RUN,LEVEL)表示,H.261也提供了TCOEFF编码表。帧间编码的第一个系数是直流差,按上述交流系数方式编码。,5.3JPEG标准JPEG(JointPhotographicExpertsGroup)是联合照片(静止)图像专家组的英文缩写。JPEG用于连续变化的静止图像,所谓连续变化,是指灰度等级和颜色两方面的连续变化。JPEG包含两种基本压缩方法,各有不同的操作模式。JPEG标准包括两种基本压缩方法:(1)有损压缩方法:它是以DCT变换为基础的压缩方法,其压缩比较高,是JPEG标准的基础。(2)无损压缩方法,又称预测压缩方法,是以二维DPCM为基础的压缩方式,解码后能完全精确地恢复原图像采样值,其压缩比低于有损压缩方法。,JPEG编码压缩算法与H.261的帧内模式相同。JPEG系统可选用逐渐浮现重建方式,即重建图像可以整幅由粗到细显示。JPEG标准数据压缩是在本帧内进行的,与前、后帧无关。它也可以用于活动图像中,只不过压缩方法只限于帧内进行,不作运动补偿和帧间差运算。这种用于活动图像的压缩技术称做M-JPEG,可用于电视台节目编辑中。一.基于DCT的编码器和解码器图5.3.1为基于DCT的编、解码器方框简图。图中输入端为源图像数据,分成88像素块(Blocks)数据后才能输入正向DCT(即FDCT)。量化器所需的专用数据表由下方输入。熵编码器所需的专用数据表也由下方输入。输出的压缩图像数据可以寄存,也可以直接送到解码器中。,图5.3.1(a)基于DCT的编码器方框简图,输入解码器的数据中,除了压缩图像数据外,还包含重建图像所必需的专用数据表等数据。经过熵解码器、去量化器和反向DCT(即IDCT)后,得到重建的图像数据。,图5.3.1(b)基于DCT的解码器方框简图,二.离散余弦变换和DCT系数量化JPEG标准是将二维空间的图像数据用离散余弦变换(DCT)公式变换到二维频域成为二维频率系数。变换后的系数经量化矩阵量化,量化过程请参考4.3.6节直流(DC)系数量化过程。对DCT变换后的直流系数(DC)的处理可参考图4.3.6所示的处理方式。三.熵编码器熵编码也称无损编码或无误差编码,即对DC和AC系数进行编码和解码后,DC和AC系数恢复原值。熵编码分为两个步骤:其一为中间熵编码;其二是可变长度熵编码。,四.数据交换格式静像数据经编码后,得到压缩数据流,即方框8输出的可变长度熵编码数据流。为了便于交换和储存,需要有统一的交换格式,同时也便于解码器解码。图5.3.2所示为数据交换格式,图中包含一帧图像的压缩数据。以下按图5.3.2中的4行分行叙述。(1)第一行为压缩图像数据。图中SOI表示图像开始。中间方框表示一帧图像数据。最后的EOI表示图像结束。SOI和EOI均称为标记符号,各占2字节(Byte)。(2)第二行说明帧内包含的数据内容。首先是表杂项,其中表即为数据表,如量化表、霍夫曼DC和AC表等,杂项即为其它必要的信息。第二行的帧头表示帧头信息,包含所选方法(如基线DCT方法等)、抽样精度、量化位数、源图像行数、每行抽样数、,各分量图像尺寸比例、各分量图像排队次序和分别选用何种量化表等。扫描1表示扫描数据1,由图中第三行阐述。在此帧内最少包含2数组内容,即帧头和扫描1。(3)第三行的扫描头(ScanHeader)包含扫描起始信息、分量图像号码、该分量图像的参数、熵编码表选择等内容。ECS0(EntropyCodedSegment)表示第0段熵编码,由第四行说明。RST0(RestartMarker)为重新开始的标记,可以在熵编码段之间插入,但最多插入8个,按07标号。(4)第四行用于说明初始和结束的熵编码段。各编码段内包含若干个最小编码单元MCU,各MCU内有一组按次序排列的分量图像数据,即压缩后的数据,或称熵编码数据。关于数据交换格式的详细资料,请参阅JPEG标准文件。,图5.3.2数据交换格式,5.4MPEG-1标准MPEG是活动图像专家组(MovingPictureExpertGroup)的英文缩写,它是国际标准化组织(ISO)和国际电工委员会(IEC)联合技术委员会。MPEG的任务是开发运动图像及其声音的数字编码标准,成立于1988年。最初的任务有三个:实现1.5Mb/s、10Mb/s、40Mb/s的压缩编码标准,即MPEG-1、MPEG-2、MPEG-3。但因为MPEG-2的功能已使MPEG-3为多余,所以MPEG-3于1993年7月撤消。MPEG-4项目是1991年5月建议,并于1993年7月确认,其目标是甚低数码率的音频/视频压缩编码(数码率低于28.8kb/s,但实际范围比这要宽得多)。下面介绍MPEG-1标准。,随着数字音频和数字视频技术的广泛应用,ISO的活动图像专家组(MPEG)在1991年11月提出了ISO/IEC11172标准的建议草案,通称MPEG-1标准。该标准于1992年11月被通过,1993年8月公布。MPEG-1标准适用于数码率在1.5Mb/s左右的应用环境,也就是为CD-ROM、光盘的视频存储和放像所制定的。一.MPEG-1标准的内容ISO/IEC11172包括三大部分:(1)ISO/IEC11172-1:第一部分,系统。(2)ISO/IEC11172-2:第二部分,视频。(3)ISO/IEC11172-3:第三部分,音频。MPEG-1标准可以处理各种类型的活动图像,其基本算法对于压缩水平方向352个像素、竖直方向288个像素的空间分辨力,每秒24/25/30幅画面的运动图像有很好的效果。如果待处理信号是隔行扫描的图像,则编码前必须将其转换成逐行扫描的格式。,MPEG-1标准提供了一些录像机的功能,如正放、图像冻结、快进、快倒和慢放,此外,还提供了随机存储的功能,当然,解码器这些功能的实现在一定程度上同图像数据的存储介质性质有关。总的编、解码过程如图5.4.1所示。,图5.4.1编码和解码过程,MPEG-1标准采用了一系列技术以获得高压缩比:第一,对色差信号进行亚采样,减少数据量;第二,采用运动补偿技术减少帧间冗余度;第三,作二维DCT变换去除空间相关性;第四,对DCT系数进行量化,舍去不重要的信息,将量化后的DCT系数按照频率重新排序;第五,将DCT系数进行变字长熵保持编码;第六,对每数据块的直流分量(DC)进行预测差分编码。,在MPEG-1标准中,考虑到压缩比和随机存取这对矛盾,一共定义了四种图像类型:(1)I帧图像,或称Intra帧图像,采用帧内编码,不参照其它图像;(2)P帧图像,或称Predicted帧图像,它们参照前一幅I帧或P帧图像作运动补偿编码;(3)B帧图像,或称双向预测帧图像,它们参照前一幅和后一幅I帧或P帧图像作双向运动补偿编码;(4)D类图像,或称直流(DC)图像,这类图像中只含直流分量,是为快放功能而设计的。,5.5MPEG-2标准MPEG-2广泛应用于数字电视(包括HDTV)及数字声音广播、数字图像与声音信号的传输等领域,因而MPEG-2是十分重要的,也是非常成功的世界统一标准。MPEG-2标准共有3部分:第1部分是系统(Systems)部分(ISO/IECIS13818-1);第2部分是图像(Video)部分(ISO/IECIS13818-2);第3部分是声音(Audio)部分(ISO/IECIS13818-3)。一.系统部分系统部分涉及如何将一个或多个图像、声音及其它数据的基本码流组合成单一或多个码流,使之便于存储和传输。它包括以下5种基本功能:,(1)多个压缩码流解码时的同步;(2)多个压缩码流解码时的交织;(3)开始解码的缓冲预置;(4)缓冲器的连续控制;(5)时间识别。系统编码规定为两种方式:节目码流(ProgramStream,PS)传送码流(TransportStream,TS)。图像和声音两种码流都是打包多工方式。各为一个图像、声音数据的基本码流的基本多工方法如图5.5.1所示。压缩后的基本码流与系统的信息一起组合、打包,产生打包基本码流(PacketisedElementaryStreams,PES),然后这些PES又组合形成节目码流或传送码流。,图5.5.1MPEG-2基本多工方法框图,节目码流类似于MPEG-1的系统多路复用方式。它由有共同时间基准的一个或多个PES组合而成。也可由多个有共同时间基准的声音和图像基本码流编码成多节目码流。如同单一节目码流一样,所有的基本码流都能在同步情况下解码。节目码流用于相对无误的环境中,适合支持节目信息的软件处理的应用,以及适用于CD-ROM上的多媒体应用。节目码流包是可变长的,相对较长。图5.5.2所示为一个典型节目码流解码器。在此解码器中,已多工编码的一路和多路声音或图像码流被假定存储在数字存储媒体上。在全系统中还有时间信息流用于各个环节。,图5.5.2典型节目码流解码器,图5.5.3是节目码流的组成。各部分的功能详见ISO/IEC13818-1。,图5.5.3MPEG-2节目码流的组成,传送码流是由带一个或多个独立时基的一个或多个节目组合而成的一个码流。传送码流设计用于有误码的环境,例如在有损耗或噪声的媒体中储存或传输。传送码流的包长是固定的,为188字节。对传送码流可以进行以下操作:(1)恢复传送码流中一个节目的编码数据,并解码。(2)把含有多个节目的传送码流转换成一个含有单一节目的传送码流。(3)把多个节目的传送码流先分工,然后转换成节目码流。(4)由一个或多个传送码流取出一个或多个节目的传送包,并在输出端产生不同的传送码流。(5)把一个节目码流转换成传送码流,使其能通过有损耗的环境,然后将其恢复成原来的节目码流。传送码流的组成如图5.5.4所示。各部分的详细的构成和功能在ISO/IEC13818-1中都有规定。,图5.5.4MPEG-2传送码流的组成,二.图像部分为了使MPEG-2标准适用于不同的系统,并使不同应用的码流能很快互换,开发了通用的码率压缩编码方法和以“档次”(Profile)和“等级”(Level)为基础的规范化的全系统。“档次”是整个比特流构成的定义了的子集,而每个“档次”的“等级”是对比特流参数的一组定义了的限制。本规范有5个档次和4个等级。4个等级是:低级(Low)、主级(Main)、高级窄屏幕(High-1440)和高级宽屏幕(High)。但是,并不是所有Profile/Level的组合都存在。表5.5.1给出了容许的11个组合。,MainProfile没有分级性,但质量最高。SimpleProfile如同Main,但是为节省RAM而没有内插图像帧。SNRScalableProfile对于Main有所改进,即要信号噪声比方面有分级性。SpatiallyScalableProfile在空间清晰度方面有分级性。HighProfile支持亮、色信号422格式和所有分级性。在4个Level方面,它们的图像对应关系是:LowLevel类似于ITU-TRes.H.261的CIF或MPEG-1的SIF。MainLevel相应于普通电视。High-1440Level略相应于每行1440个抽样的HDTV。HighLevel略相应于每行1920个抽样的HDTV。,为了达到高倍数的压缩,在MPEG-2中采用多种码率压缩技术,主要有以下3种:(1)利用运动补偿预测编码方法去掉电视图像信号的时间冗余信息。实际上,由于已编码图像序列随机进入的需求与高效码率压缩有矛盾,因此MPEG-2采用3种类型的图像。帧内编码图像(IntraCodedPictures),简称I帧。I帧是不采用基准图像的编码所产生的图像。这种图像帧为随机进入压缩编码图像数据序列提供了进入点。但是这种编码只有中等的压缩率。预测编码图像(PredictiveCodedPictures),简称P帧。P帧是采用从最近的上一个I帧或P帧来进行补偿预测所产生的图像,其编码效率较高,这种技术叫前向预测(ForwardPrediction)。这些P帧本身又作为基准来产生下面的P帧或B帧。它的缺点是扩散编码误差。,双向预测编码图像(Bidirectionally-predictiveCodedPictures),简称B帧。它是同时利用前面的和后面的I帧或P帧作为基准,进行运动补偿预测编码而得到的。这种技术叫做双向预测。它能提供最大的压缩率,而且不传播编码误差。缺点是解码器中要有附加的存储器,而且等待时间较长。B帧从来不被用做预测的基准。上述3种图像在一个序列中的编排是很灵活的,与实际应用有关,取决于编码器。由于在解码器中B帧只能在它的基准图像(I帧或P帧)被解码之后,它本身才能被解码,因此发送的图像序列要被编码器重新排列,使之符合解码器所要求的解码序列。,(2)利用离散余弦变换(DCT),去掉经过运动补偿预测的图像差信号中的空间冗余信息。(3)利用可变长度编码技术,对运动矢量和DCT变换系数进行编码,以达到充分利用通道带宽的目的。本规范容许把隔行扫描的一帧看做一帧图像,也可以把两场当做两幅图像进行编码。前者多用于图像含有丰富细节和有限运动的情况,后者用于有快速运动的场合。表5.5.2表5.5.4分别列出了MPEG-2标准中容许的帧速率、亮色格式和图像编码类型以及上限比特率。,三.声音部分声音部分参见ISO/IECIS13818-3。虽然MPEG是由国际标准化组织和国际电工委员会联合组成的专家组,但是它所制定的声音、图像数字编码和多工组合的标准,特别是MPEG-2,得到了包括国际电信联盟的电信标准化部门ITU-T和无线电通信部门ITU-R在内的其它有关国际组织和国家的广泛认可,在广播、电视和多媒体的未来数字化的发展中得到了应用,并成为其发展的基础。四.图像格式MPEG-2的图像格式(VideoFormat)分为4级:即:低级图像格式、主级图像格式、高级窄屏幕图像格式和高级宽屏幕图像格式。,各级图像格式中,按每帧行数、帧频和像素速率的不同再分为3个档次:即:简单档次、主档次和下一代档次。1.低级图像格式低级图像格式与MPEG-1标准的图像格式基本一致,现将这种图像格式的参数列于表5.5.5中。2.主级图像格式主级图像格式是MPEG-2中的主要图像格式,广泛应用于工业领域,例如有线电视、直播卫星、光数字存储媒体(OpticalDigitalStorageMedia)和数字录像机等,其主要参数列于表5.5.6中。,3.高级窄屏幕图像格式高级窄屏幕图像格式实际上是欧洲等国家可能采用的一种窄屏幕HDTV的标准,它是向宽屏幕HDTV过渡的一种形式。考虑到有些采用525行/60场制式的国家可能使用这种图像格式,故在此把有关参量列于表5.5.7中,以供参考。实际上只需把主级图像格式中的一些参数加倍后就成为表5.5.7中的一些参数。4.高级宽屏幕图像格式高级宽屏幕图像格式与高级窄屏幕图像格式比较,只是展宽了屏幕而已,其参数见表5.5.8。表5.5.8中1050行/60场/21/169制式有的国家可能会使用,故列出其参数,供比较和参考。,由于H.261、MPEG-1、MPEG-2标准的压缩编码电路框图基本类同(如图所示),并且,按时间顺序,后面标准的图像质量优于前面的,后面标准的图像格式可以与前面的相兼容。在上述所有标准中采用的压缩措施及压缩效果如表5.5.9和表5.5.10所示。,图MPEG-2压缩编码原理框图,5.6H.263建议H.261、MPEG-1、MPEG-2标准的信号在较高速率的数字网上传输。研制一种极低码率的视频编码技术,能在公共模拟电话网上传输,是人们所关心的课题。因为公共模拟电话网价廉,它的普及程度远远超过ISDN、FDDI数字网。所谓极低码率视频编码技术,是对编码后的数据速率低于64kb/s的各种编码方法的总称。H.263建议就是极低编码标准之一。一.ITU极低码率视频编码标准ITU-T已推出了极低速率多媒体可视电话终端系列建议H.324草案,可在两个多媒体电话终端之间通过V.34调制解调器和GSTN(GeneralSwitchedTelephoneNetwork)电话网实时传送声音、图像和数据。H.263建议是H.324系列建议音、视频编码部分。,二.H.263极低码率视频编码标准H.263是ITU关于比特率低于64kb/s的窄带通道视频编码建议。由于H.263是在ITU-T的H.261建议(应用于P64kb/s视听业务的视频编、解码)的基础上发展而来的,因此两者有许多共同之处。例如,H.263信源编码基本框图与H.261的非常相似,其信源编码算法的核心仍然是H.261建议中采用的DPCM/DCT混合编码器。但是为了适应极低码率传输的要求,H.263建议在以下几个方面作了改进。1.图像格式H.261中定义了CIF和QCIF两种图像扫描格式,而在H.263中有三种标准图像格式:CIF(352288)、QCIF(176144)和Sub-QCIF(12896)。,出于对图像质量、成本和与H.320/H.261兼容性等方面的考虑,H.263要求所有解码器能以Sub-QCIF和QCIF格式工作,所有编码器能以Sub-QCIF和QCIF中的某一种格式工作。CIF对于编码和解码器均为可选方式。2.块组(GOB)结构H.263与H.261中对宏块(MB)的定义是相同的。H.261中一个GOB可以表示CIF图像的1/12或QCIF图像的1/3,其中包含33个宏块。而H.263的QCIF图像有99个宏块,每11个宏块为一个GOB,可以表示QCIF图像的1/9。3.字头在极低码率传输的情况下,用于字头的比特数是越少越好。因此,H.263在GOB字头定义中,对应于图像的一个宏块组,GOB字头为空,仅仅传送宏块MB数据。对于其它GOB,由编码器决定其字头是否为空。,同时,对块编码模式、宏块类型和运动矢量数据采用不同的可变长编码(VIC)表以减少字头的比特数。在H.261中,量化步长采用5bit固定字长的码字,而H.263中引入了DQUANT,仅用2bit对差分量化步化编码传输。4.运动矢量数据在H.261中,对运动矢量采用一维前值预测与VLC相结合的方式进行编码;H.263中则采用更复杂的二维预测与VLC相结合的方式对预测误差进行编码。因为运动矢量的取值范围是受限的,所以每个VLC码字可表示一对差值。在这对差值中,只有其中的一个产生的宏块矢量落在允许范围内。5.DCT系数变长编码对量化后的系数进行游程编码时,连续的0(游程RUN)和后面的值(LEVER)的最经常出现的组合是用变长码编码的,在H.261中由二维VLC(RUN,LEVER)加上块结束标志来实现。,在H.263中,量化系数采用三维VLC(LAST,RUN,LEVER)表示。其中LAST为一个比特,用来指示是否为最后一个非零系数。6.运动估计精度在H.261中,位移的估计精度为整数像素间隔。在H.263中,则采用半像素精度运动估计。7.误码处理H.263建议不提供误码检测/纠正处理。由于H.263将应用于具有较大噪声干扰的窄带信道,这种信道上经常出现突发性噪声,使H.261中采用的主要适用于随机噪声的BCH(511,493)前向纠错编码方法对H.263不再适应。对误码的处理可以由外部方式(如H.223建议)实现。,8.四个可选模式H.263提供的四个可选工作模式是提高图像编码、解码性能的关键技术所在,其中包括非限制运动矢量模式,高级预测模式,P、B帧模式和基于句法的算术编码模式。在基于句法的算术编码模式下,采用算术编码代替可变长编码。SNR和重建图像一样,但传送比特数将明显减少,这是因为可变长编、解码要求每一个符号编码成固定比特数,如果将符合的这种固定长比特数限制去掉,则码率将降低。,5.7MPEG-4标准1999年12月ISO/IEC制定了MPEG-4标准。MPEG-4标准支持7个新的功能,可粗略地划分为3类:基于内容的交互性、高压缩率和灵活多样的存取模式。1.基于内容的交互性(1)基于内容的操作与比特流编辑。MPEG-4支持无需编码就可进行基于内容的操作与比特流编辑。(2)自然与合成数据混合编码。MPEG-4提供将自然视频图像同合成数据(如文本、图形等)有效结合的方式,同时支持交互性操作。(3)增强的时间域随机存取。MPEG-4将提供有效的随机存取方式,即在有限的时间间隔内,可按帧或任意形状的对象,对一音、视频序列进行随机存取。,2.高压缩率(1)提高编码效率。与现有的或正在制定的标准相比,在可比拟速率上,MPEG-4标准将提供更好的主观视觉质量的图像。MPEG-4的压缩倍数高达100倍。这一功能可望在迅速发展的移动通信网中获得应用,但值得注意的是:提高编码效率不是MPEG-4的唯一的主要目标。(2)对多个并发数据流进行编码。MPEG-4将提供对一景物的有效多视角编码,加上多伴音声道编码及有效的视听同步。在立体视频应用方面,MPEG-4将利用对同一景物的多视点观察所造成的信息冗余。MPEG-4的这一功能在足够的观察视点条件下,将有效地描述三维自然景物。,3.灵活多样的存取(1)错误易发环境中的抗错性“灵活多样”是指允许采用各种有线、无线网和各种存储媒体,MPEG-4将提高抗错误能力,尤其是在易发生严重错误的环境下的低比特应用中(移动通信链路)。MPEG-4是第一个在其音、视频表示规范中考虑信道特性的标准,其目的不是取代已有通信网提供的错误控制技术,而是提供一种对抗残留错误的坚韧性。(2)基于内容的尺度可变性内容尺度可变性意味着给图像中的各个对象分配优先级。其中,比较重要的对象用较高的空间和时间分辨率表示。基于内容的尺度可变性是MPEG-4的核心,因为一旦图像中所含对象的目录及相应的优先级确定后,其它的基于内容的功能就比较容易实现了。,MPEG-4标准的主要特点:MPEG-4标准的主要特征是采用了基于对象编码等的第二代编码技术。是基于内容的数据压缩方式,以前的压缩算法只是去掉帧内和帧间的冗余不同,MPEG-4要求对图像和视频内容作更多的分析。MPEG-4可以对不同来源的视、音频对象进行合成。基于对象的分级功能是MPEG-4提供的又一个新功能,同时兼容于MEPG-2标准中的图像分级功能。MPEG-4的编码具有鲁棒性和纠错功能,从而保证在易出错的通信环境下实现安全的低码率编码和传输。这包含三个方面:再同步、数据恢复和错误隐藏,MPEG-4的主要应用:MPEG-4标准的目标是多媒体的多领域应用。它为不同应用定义了编解码器和码流的不同类(Profile)和级(Level),从而支持各种码率(5kbit/s到4Mbit/s)、格式(逐行和隔行)和分辨率(QCIF到HDTV)。MPEG-4的应用大致包括:实时通信(视频会议、可视电话等)、移动多媒体(PDA等)交互媒体存储(DVD等)、交互视频游戏、节目制作及广播业务等。MPEG-4项目是1991年5月建议,并于1993年7月确认,其目标是甚低数码率的音频/视频压缩编码(数码率低于28.8kb/s,但实际范围比这要宽得多)。,一.MPEG-4可视信息编码MPEG-4不同于过去的MPEG-2或H.26X系列标准,其压缩方法不再局限于某种算法,可以根据不同的应用进行系统裁剪和选择。为此,MPEG-4提供了一个包含各种工具和算法的工具箱,给出了各种任意形状可视对象的高效表达式。MPEG-4可用于各种图片和视频的高效压缩;图片和视频的基于内容的编码;纹理、图片和视频的基于内容的可伸缩性;空域、时域和质量的可伸缩性;误码环境下的坚韧性和恢复能力。而对合成节目源中可视信息的编码,包括人脸及相应动画流的参数描述、带有纹理映射的静态和动态网格编码以及依赖于观看应用的纹理编码。,MPEG-4可视信息的码率范围可从564kb/s(CIF以下的分辨率和15Hz以下的帧频)直至64kb/s4Mb/s(ITU-R601的各种图像分辨率),并支持MPEG-1和MPEG-2已经提供的大多数功能。MPEG-4支持的码率和相应的功能如图5.7.1所示。,图5.7.1MPEG-4支持的码率和相应的功能图,图5.7.1中最下方的是甚低比特率视频核VLBVcore(VeryLowBitRateVideocore)。该核提供了564kb/s的甚低比特率业务的算法和工具,它支持甚低分辨率(从每行每列的几个像素到CIF级分辨率,即每帧288行,每行352个像素)和甚低帧速率(015Hz)的图像序列。图5.7.1左上方的是MPEG-4的高比特率核HBRVcore(HigherBitRateVideocore)。它提供了64kb/s4Mb/s的高比特率图像传输的工具和算法。这些工具和算法与VLBVcore所提供的是相同的。HBRVcore的主要应用对象是多媒体广播、数字电视图像级别的交互信号传递。,MPEG-4与MPEG-1/2的不同之处在于,MPEG-1/2中输入、进行编码的图像区域是标准矩形区域,而MPEG-4可以是任意形状区域。如果MPEG-4中输入的图像序列没有分解成一系列不同形状的VOP,而是传统的矩形区域,MPEG-4就不必对VOP的形状信息进行编码,那么该编码过程就和MPEG-1/2一样了。图5.7.2就说明了这一点。由此,MPEG-4的“基于内容”的编码方法可以看做是MPEG-1/2编码方法的扩展。,图5.7.2MPEG-4甚低码率编码与通用编码,为了高效地降低图像信号的时间冗余度,MPEG-4使用了基于块的运动估值和补偿技术。它主要采用三种图像类型:(1)I-VOP(IntraVOP),它是不采用基准图像的编码而产生的图像。(2)P-VOP(PredictedVOP),它采用上一个I-VOP或上一个P-VOP来进行运动补偿预测。,(3)B-VOP(Bidirectionally-PredictedVOP),它同时采用前面和后面的I-VOP或P-VOP作基准,进行运动补偿预测编码。三种图像帧结构关系如图5.7.3所示。,图5.7.3帧结构关系示意图,二.MPEG-4基于VOP的视频编码基于矩形帧编码的传统视频编码标准(如H.261/H.263、MPEG-1/MPEG-2)在实际应用中也获得了巨大成功。然而MPEG-4并不满足于此,它的目标在于采用现代图像编码方法,利用人眼的视觉特性,抓住图像信息传输的本质,从轮廓、纹理的思路出发,支持基于视觉内容的交互功能。而实现基于内容交互功能的关键在于基于视频对象的编码。图5.7.4所示为MPEG-4基于内容图像编码方法的简化原理图。从矩形帧到VOP,MPEG-4顺应了现代图像压缩编码的发展潮流,即从基于像素的传统编码向基于对象和内容的现代编码的转变。MPEG-4视频编码技术翻开了图像编码史上崭新的一页。,图5.7.4MPEG-4基于内容图像编码方法的简化原理图,面向对象的编码方式有以下几个优点:(1)不同的对象可以采用不同的编码方案,因而具有最大的灵活性和可持续发展性。(2)相同的对象不需要重复编码,只需要给出不同的位置信息。(3)有些不变的对象,可以不用编码传送或只需要传送简单的位移信息。(4)重要的对象采用高质量画面,不重要的对象采用高效压缩方法,背景甚至可以在接收端虚拟。(5)在传送过程中,某些对象信息的丢失,不影响场景中的其它对象。(6)作者可以很方便地在场景中随意放置对象,改变它的形状或音响效果。,(7)具有很强的互操作性。(8)观众可以选择不同的语言。三.MPEG-4视频信号编码基本框图MPEG-4基本编码结构包括形状编码(对任意形状的VSP编码)、运动补偿和纹理编码。其中运用的主要技术是运动估值补偿、DCT变换(采用标准的88DCT或自适应DCT)和混合DPCM(差分脉冲编码)等,如图5.7.8所示,该图与图4.1.3基本相同。,图5.7.8MPEG-4编码器基本框图,5.8H.264标准一.H.264标准中的主要技术H.264标准的主导思想是与现有的视频编、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论