




已阅读5页,还剩109页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学博士学位论文基于H.264框架的运动估计和变换研究姓名:向东申请学位级别:博士专业:计算机系统结构指导教师:周敬利;郭红星20060731 华 中 科 技 大 学 博 士 学 位 论 文摘 要*随着存储技术、通信技术和处理器技术的迅速发展,人们对高质量视频服务的需求日益增加。H.264是新一代的国际视频编码标准,与以前的视频编码标准相比,它极大地提高了视频编码的率失真性能,但同时也增加了编码的计算复杂度。如何降低 H.264编码的计算复杂度以及进一步优化它的率失真性能,是目前的两个研究热点。结合国家高技术研究发展计划(863)高效帧间预测与新型变长编码及小波编码框架工作,对 H.264编码框架中的快速运动估计、模式选择、搜索范围调整、整数变换以及量化等关键性技术进行了研究。根据改进的逐次消除算法中得到的直流变换系数以及变换系数的分布模型,提出了一种全零块的判断准则。它不仅能够加快运动估计的速度,而且还能跳过变换、量化、反量化和反变换等环节,从而提高编码器的整体处理速度。为了进一步加快运动估计的处理速度,提出了一种基于分组的快速分数精度运动估计算法。实验结果表明:在保持相近率失真性能的同时,这两种算法分别能够最大降低 31%和 17%的编码计算复杂度。为了得到可变块尺寸算法中宏块的最佳块模式,编码器一般对所有块模式进行全搜索。这样虽然可以得到最优的率失真性能,但是其计算复杂度非常大。此外,在运动估计过程中最大搜索范围一般是固定的,这会浪费大量的计算用于搜索那些不必要的匹配点。基于宏块编码模式和最佳搜索范围的时空相关性,提出了一种快速模式选择算法和一种自适应的搜索窗口调整算法,它们能够降低模式选择的计算复杂度和减少必须搜索的匹配点数。实验结果表明:在保持相近率失真性能的同时,快速模式选择算法能够最大降低 83%的编码计算复杂度,自适应的搜索窗口调整算法能够最大节省96%的搜索点数。离散余弦变换被广泛用于基于块的图像和视频编码标准中。由于其变换矩阵中的元素为无理数,可能导致在编码器和解码器中解码的数据不一致。针对这个问题,提出了一种新的整数变换矩阵,它能够避免解码数据的不一致性的问题,而且比H.264标准中采用的整数变换更接近 DCT变换,因此有更好的去相关和能量压缩性*本研究工作受国家高技术研究发展计划 (863)高效帧间预测与新型变长编码及小波编码框架 (项目编号:2002AA11901010),湖北省自然科学基金视频编码中编码矩阵的自适应选取与块效应消除研究(编号:2005ABA255)的资助I 华 中 科 技 大 学 博 士 学 位 论 文能。此外,对它的量化和反量化过程以及量化过程中量化偏移比参数的选取也进行了分析。总之,对H.264编码框架中的快速运动估计、模式选择、搜索范围调整、整数变换和量化等技术进行了深入的研究。实验结果表明,速度优化算法在保持相近率失真性能的同时,能够有效降低编码的计算复杂度;新的整数变换及其量化方法能够提高编码的率失真性能。关键词:视频编码; H.264;运动估计;模式选择;搜索范围;整数变换;量化II 华 中 科 技 大 学 博 士 学 位 论 文Abstract*With the development of technologies in storage, communication and processor, thedemands for high quality video service increase. H.264 is the newest international videocoding standard, which achieves higher rate distortion performance than previous videocoding standards, but the complexity increases a lot. So how to reduce the encodercomplexity and further improve its rate distortion performance are two research focuses.Supported by the Project of National High Technique Research and Development (863),some researches are done on fast motion estimation, mode selection, search rangeadjustment, integer transform and quantization.Based on the DC transform coefficients gotten in the modified successive eliminationalgorithm and the theoretical model for transform coefficients, an adaptive threshold ischosen to detect if all the transform coefficients will be quantized into zeros. It not onlycan speed the motion estimation, but also reduce the complexity of transform, inversetransform, quantization and inverse quantization. In order to increase the speed of motionestimation further, a fast fractional motion estimation based on the group error ispresented too. Simulation results show that these algorithms can respectively reduce theencoding computation complexity up to 31% and 17% with very small rate distortionperformance loss.In order to get the best macroblock mode in the variable block size algorithm, theencoder generally searches all modes, so the computation burden is very high. In addition,the maximal searching range in motion estimation is fixed. This would wastecomputation in searching many unnecessary candidate points. Bases on thespatial-temporal correlation of coding modes and best searching range, a fast modeselecting algorithm and an adaptive searching range algorithm are presented in this paper.So the computation of mode selection and searching points are saved. Simulation results*This work is supported by the Project of National High Technique Research and Development (863): A HighPerfomance Framework of Inter Frame Prediction, New VLC, and Wavelet Coding (No. 2002AA11901010), and inpart by the Hubei Provincial Nature and Science Foundation under award 2005ABA255:The Research of AdaptiveTransform Matrix Selection and Deblocking in Video CodingIII 华 中 科 技 大 学 博 士 学 位 论 文show that these algorithms can respectively save the encoding computation and searchpoints up to 83% and 96% with small rate distortion performance loss.The discrete cosine transform (DCT) was widely used in previous image and videocoding standards. A disadvantage of DCT is that the elements in the transform matrix areirrational numbers, so the decoded data in the encoder maybe mismatch with that in thedecoder. In order to solve this problem a new integer transform is presented in this paper.Its transform matrix is more approximate to DCT matrix than that in H.264, and canachieve better decorrelation and compaction performance. In addition, the quantization,inverse quantization and the quantization parameter are also analyzed.In conclusion, the fast motion estimation, mode selection, search range adjustment,integer transform and quantization are investigated in this paper. Experimental resultsreveal that the algorithms optimized for speed can reduce the computation complexityefficiently and keep approximate rate distortion performance, while the new transformand quantization method can improve rate distortion performance.Keywords: Video Coding; H.264; Motion Estimation; Mode Selection; Search Range;Integer Transform; QuantizationIV 独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:2006年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在_年解密后适用本授权书。本论文属于不保密。(请在以上方框内打“”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日 华 中 科 技 大 学 博 士 学 位 论 文1绪论随着存储技术、通信技术和处理器等技术的迅速发展,人们对多媒体业务的需求不断增长,多媒体不再局限于文本、语音和图片,数字视频将为用户提供功能更强大和更完善的服务。数字视频技术被广泛地应用于视频会议、可视电话、电子商务和广播电视等多个领域,出现了如 MPEG-11、MPEG-22、H.2613、H.2634、MPEG-45和 H.2646等国际标准,这些标准基本上采用基于块的运动补偿预测/变换的混合编码框架。本章对视频编码的基本技术及其发展进行了简单的回顾,介绍了目前最先进的视频编码标准 H.264中所采用的技术,从编码效率和计算复杂度等方面对这些技术的性能进行了评价。其中,运动估计一直以来都是视频编码的主要瓶颈,因此对运动估计的原理和快速运动估计算法进行了介绍。此外,对 DCT变换也作了简要的介绍。1.1视频编码的基本问题、基本技术及其发展1.1.1视频编码的基本问题现代的视频编码技术使有效和可靠的存储和传输大量数字视频信息成为可能7。数字视频编码的基本问题可以看作在给定的码率下,对原始数据进行编码以获得尽可能小的重建失真;或者是在给定的重建失真下,得到尽可能低的码率,其本质也就是如何在码率和失真两者之间进行折衷。编码器在这两者之间进行折衷能力的好坏称为编码效率或者是率失真( RD,Rate Distortion)性能。因此一个视频编码系统可以通过以下两个指标进行评价 8:1)信道的吞吐量:它取决于信道容量、压缩码流中的传输协议和错误隐藏所需的数据量。2)解码视频信号的失真:它取决于编码器本身解码视频信号的失真以及信道传输过程中引入的误差。然而,在实际的视频传输系统中,还必须考虑以下两个指标:3)延迟(启动延迟和端到端延迟):延迟这个指标受到许多因素的影响,其1 华 中 科 技 大 学 博 士 学 位 论 文中包括处理延迟、缓冲延迟、视频和信道编码器的结构延迟以及数据的传输延迟等。4)计算复杂度(计算量、所需内存容量以及内存访问频率):包括视频编码器、协议栈和网络的计算复杂度。因此实际的信源编码设计问题可以归结为:在给定的最大允许延迟和最大允许计算复杂度的条件下,对于不同的网络环境以及不同的应用范围,在比特率和失真之间获得最优的折衷。1.1.2视频编码的基本技术视频编码的输入信源通常采用 Y、Cb、Cr 三种色彩空间表示。分量 Y 表示亮度信号,分量 Cb、Cr 表示两种色度信号。人眼视觉系统的频率响应随着空间频率的增加而降低,在色度通道上表现尤为明显 9,因此利用人眼视觉系统对色度信号的这种不敏感特性,可以有效降低原始信源的数据量。如在最常用的 4:2:0 采样格式中,色度信号 Cb、Cr 在水平和垂直方向上都作 2:1 的下采样,和采样格式 4:4:4相比,相应的数据量节省了 50%。通常,Y、Cb、Cr的每个分量需要 8比特的数据进行表示,也就是说每个分量的数值范围在 0到 255之间。数字视频编码的基本技术主要可以归为以下几类:1) 预测:以一组已解码的在空间或时间上相邻的数据为基础,对当前编码的数据进行预测,然后对数据的实际值与预测值之间的差,也称为残差进行编码。通常情况下,残差更容易编码。2) 变换:已经证明变换特别适合于图像和视频编码 10。变换可以看作是把一个图像块表示为一组基本图像(称为变换基函数)的线性组合。一个好的变换应该具有以下特性11:(1)去除输入数据之间的相关性;(2)把输入数据的能量尽量压缩到少数的几个系数。最著名的两个变换是卡胡南 -洛耶夫变换( KLT,KarhunenLover Transform)和离散余弦变换(DCT,Discrete Cosine Transform)。KLT变换是理论上性能最优的变换,当相邻像素的相关系数趋近于 1时,DCT变换的性能接近KLT变换12。3) 量化:通过降低输入数据的表示精度来减少数据表示所需要的数据量。通常量化精度通过量化步长控制。量化不像预测或者是变换,它是不可逆的,也就是说量化包含多对一的映射关系,从而不可避免的导致失真。4) 熵编码:根据输入符号取不同值的相对概率,对其进行编码的方法。变长2 华 中 科 技 大 学 博 士 学 位 论 文编码(VLC)是最常用的熵编码方法,它包括一个树结构的码表,码表中较短的码字用来表示很可能发生的符号值,而较长的码字用来表示不太可能发生的符号值。另外一种常用的熵编码是算术编码。一般来讲,算术编码在编码效率上是优于变长编码的,但其复杂度更大,抗误码性能更差。1.1.3视频编码技术的发展视频编码最简单的方法是对每帧单独进行压缩,而不考虑帧与帧之间的关系。JPEG13就是采用这种技术的最流行标准。 JPEG 的基本编码方案如下:把输入图像分成 88 大小的块,对每个块进行 DCT 变换,再对变换后的系数进行量化,量化后的系数进行变长编码后进行存储或者是传输。这种编码方案被称为帧内编码(IntraCoding),因为它没有参考视频序列中的其它帧。然而,利用视频序列中帧与帧之间的大量时间冗余,可以进一步提高视频压缩的性能。通常,大量的静止场景经常在前后帧中重复出现而没有太大的变化,因此传输视频场景中变化的部分而不是对整个场景进行传输,就能够更有效的对视频进行压缩。这种方法被称为帧间编码( Inter Coding)。利用时间冗余来提高编码效率是帧间编码与帧内编码的最根本区别。条件更新14(Condition Replenishment)是一种通过对视频场景中的变化部分进行编码以提高编码效率的简单编码方法,它被最早的国际视频编码标准 H.12015所采用。条件更新的编码方法如下:用特定的语法表示图像中的重复区域,而对变化区域用新数据代替。因此条件更新可以用两种模式对图像中的区域进行编码,即重复(SKIP)和帧内编码。然而,条件更新的不足之处在于:重复区域之间总是有一些差别,而条件更新不能对这些差别进行编码。通常,前面图像的内容与当前图像对应区域的内容比较接近,因此可以用它们对当前图像进行估计,并对估计后的残差进行变换编码,以进一步提高编码的压缩性能。这种技术被称为混合编码16,因为它采用了预测和变换来消除数据在时间和空间的冗余。在现代的混合编码技术中,图像中的区域可以采用前面已解码的帧进行预测,再采用空间频率变换对预测残差或帧内编码区域进行变换。混合编码框架首先在ITU-T建议的H.261标准中获得采用,并在随后的MPEG-1、MPEG-2、H.263、MPEG-4和H.264等标准中得到采用。在视频编码中,利用视频序列中图像之间时间相关性的技术被称为运动补偿预3 华 中 科 技 大 学 博 士 学 位 论 文测(MCP,Motion Compensation Prediction)。运动补偿预测的基本原理在于:视频场景的变化大多是由于场景中的物体在图像平面中的运动而引起的,即使很小的位移也会导致前后图像对应区域较大的差别,特别是在运动物体的边缘。然而,使用前面图像中一定位移的区域来预测当前区域,通常就能大大降低预测残差。这种使用偏移的运动矢量进行预测的方法称为运动补偿( MC,Motion Compensation),编码器搜索最佳运动矢量的过程叫做运动估计( ME,Motion Estimation),对运动补偿预测的差进行编码被称为运动补偿预测残差编码。表 1.1 国际视频编码标准的基本特征运动补偿标准名称变换运动补偿块尺寸1616其它运动预测技术精度H.261(1990)88DCT88DCT88DCT88DCT88DCT1MPEG-1(1993)16161/21/21/21/4双向运动补偿预测双向运动补偿预测,隔行扫描双向运动补偿预测MPEG-2(1994)1616,1681616,881616,88H.263(1995)MPEG-4(1999)双向运动补偿预测,隔行扫瞄,全局运动补偿,SPRITE编码双向运动补偿预测,隔行扫瞄,H.264(2003)1616,88,168,816,84,44,44亮度 1/4 环路滤波,多参考图像的运动补色度 1/8 偿预测,多假设和加权运动补偿预测44根据摩尔定律,芯片上集成的晶体管数量每两年将翻一番,硬件技术的发展使采用更复杂的技术来提高运动补偿预测精度成为可能。通过对表 1.1中各种视频编码标准的简单对比,可以发现采用更先进的运动补偿预测技术是导致视频编码标准编码效率不断提高的主要因素,但同时也是编码器的计算复杂度不断增加的主要因素。在目前最先进的视频编码标准 H.264中,主要通过以下技术提高运动补偿预测的精度:1) 分数像素精度的运动补偿预测 17,18,19:它是指运动矢量采用比整数精度更高的分数表示,这就需要在运动估计中进行插值运算。它的好处在于能够更精确地4 华 中 科 技 大 学 博 士 学 位 论 文表示运动,其次,插值得到半像素和 1/4 像素采样点,能够提供不同程度的低通滤波效果。2) 图像边界外的运动估计 20:通过对参考图像进行外插,它能够解决图像边界像素点的运动估计问题。最常用的外插方法是对边界像素点进行简单的复制。3) 双向运动补偿预测 21:也就是对两个运动补偿信号进行平均,通常,这两个预测信号是由当前图像的前一幅图像和后一幅图像形成。它特别适合对背景暴露或作一致性平滑运动的区域进行编码。4) 可变块尺寸的运动补偿预测 22:它能够选择运动补偿预测中运动矢量对应块的尺寸,从而能够有效地对运动场表示的精度和表示这些运动矢量所需的数据量进行折衷23。5)多帧参考图像的运动补偿预测 24:也就是用已解码的一个或多个图像对当前图像进行预测。它能够利用视频序列中在背景、场景切换中存在的长期统计相关性。6) 多假设和加权运动补偿预测 25:也就是对运动补偿预测信号进行线性叠加。它可以通过不同的方法实现,如 H.263 标准中的重叠块运动补偿 26,27和传统意义上的双向运动补偿预测。H.264 标准中采用了统一的、更广泛意义上的双向运动补偿预测、多帧参考图像的运动补偿预测和线性加权运动补偿预测的结合 28。帧内码流输入图象块变换量化熵编码帧间逆量化运动补偿运动估计逆变换运动矢量帧缓冲图 1.1 经典视频编码架构图自然视频序列中包含很多不同统计特性的内容,即使在同一幅图像的不同区域5 华 中 科 技 大 学 博 士 学 位 论 文也具有不同的统计特性。因此,提高编码效率的可靠策略是增加编码模式,以适应图像中不同区域的不同特性。图 1.1给出了一个经典的视频混合编码架构图,混合编码的算法一般可以表示如下:1) 由视频源输入图像,每幅图像被分大小相同的块;2) 若此图像需要帧内编码,则利用已解码相邻块数据对当前块对进行帧内预测;3) 否则,在存于帧缓存中的重建图像中对当前块进行运动估计,得到当前块的运动矢量;4) 对帧内预测或帧间预测的残差进行 DCT变换;5) 对变换系数进行量化,量化后的系数进行熵编码,得到压缩后的数据。这些数据和运动矢量可以存储在物理介质,也可以经网络传输;6) 对量化后的数据进行反量化和逆 DCT 变换,得到重建的预测残差信号,并且与帧缓存中的预测信号相加,得到重建块数据。将此块数据存入帧缓存中。1.2视频编码标准1.2.1数字音视频编解码技术标准为了完全摆脱知识产权问题的困扰,我国正在制定自己的数字音视频编解码技术标准-AVS标准,它在性能上与最新的国际标准相同或更高,兼容国际标准基本功能所包含的技术专利,而不受控于境外企业与组织。AVS的核心采用了基于块的混合编码框架,它采用了 88的整数变换,1/4像素精度和可变块尺寸的运动补偿预测、去块效应环路滤波和特殊的帧间运动补偿预测等技术。AVS的目标是:与MPEG-2等现有压缩标准相比 ,在相同的视觉质量下,码率至少可以降低50%。应用范围为几十kbps的低带宽通信到数十Mbps的高清晰度电视广播,可以支持低延迟模式的视频会议应用,也支持高压缩效率的视频存储应用等。1.2.2 H.264视频编码框架H.264标准是由 ITU-T的视频编码专家组(VCEG)和 ISO/IEC的活动图像专家6 华 中 科 技 大 学 博 士 学 位 论 文组(MPEG)共同成立的联合视频小组(JVT)于 2003 年 3 月公布的。H.264 也称为 MPEG-4的第 10部分,即高级视频编码(AVC)。H.264继承了 H.263,MPEG-1,MPEG-2和 MPEG-4等标准的优点,在沿用混合编码框架的基础上,采用了很多新的技术。与以往标准相比,在相同的视觉质量条件下, H.264 标准的编码效率提高了 50%左右29,图 1.2给出了它的编码架构图。它所采用的主要技术如下:图 1.2 H.264视频编码架构图1) 分层设计H.264标准采用了“网络友好”的结构和语法,以适应IP网络和移动网络等易出错网络环境下的应用。它的编码结构在算法上分为如图 1.3所示的两层30:视频编码层(VCL,Video Coding Layer)负责高效率的视频压缩;网络抽象层(NAL,NetworkAbstract Layer)负责对VCL的视频数据进行封装以进行网络传输传送。 NAL主要由NAL单元,参数集和访问单元构成。它的设计主要是对 VCL层进行简单和有效的定制,以适应不同的网络传输系统。7 华 中 科 技 大 学 博 士 学 位 论 文图 1.3 H.264视频编码器结构图2) 帧内预测H.264标准支持两种块大小的帧内预测模式:INTRA-44 和 INTRA-1616。在以前的视频编码标准中,帧内预测都是在变换域中进行的,但在 H.264标准中,在变换前增加了空间域预测,利用相邻已解码块对当前块进行预测。当使用INTRA-44 方式时,每个 44大小的亮度分量有 9种预测模式,如图 1.4所示;当使用 INTRA-1616 方式时,每个 1616 大小的亮度分量有 4 种预测模式:垂直预测、水平预测、直流预测和平面预测模式。INTRA-1616 方式非常适合平滑的图像区域,INTRA-44 非常适合纹理复杂的图像区域。81634750图 1.4 INTRA-44 帧内预测模式示意图3) 帧间预测H.264 标准中 1616 大小的亮度宏块可以分成如图 1.5 所示的 1616、168、8 华 中 科 技 大 学 博 士 学 位 论 文816、88大小的宏块分区,当采用 88宏块分区时,每一个 88大小的块又可以分成 88、84、48、44 大小的宏块子分区。对每个块作帧间预测时,它的运动补偿预测信号由对应的运动矢量和参考帧序号共同确定。因此,每个宏块最多有 16个运动矢量。16x16016x808x168x8宏块分区(16x16)021301118x808x404x84x40213宏块子分0区(8x8)1图 1.5 用于运动补偿的宏块划分示意图。在H.264标准中,亮度分量的运动矢量使用 1/4像素精度,色度分量的运动矢量使用1/8像素精度。1/2像素点通过一个6抽头有限冲激响应FIR滤波器内插得到,1/4像素点通过对整数像素点或1/2像素点简单平均得到31。它还支持多参考帧的运动补偿预测,即通过在当前帧之前解码的多个参考帧中进行运动搜索,寻找当前运动补偿块的的最佳匹配。DABCE1616(a) 正方形块的预测(b) 长方形块的预测图 1.6 运动矢量预测方式H.264标准中运动矢量的编码采取与 H.263类似的方法,即对它和中值预测运动矢量的差进行编码。中值预测运动矢量与运动补偿块的形状有关,如果区块是正方形的(如1616),则利用A、B、C这3个相邻块的的运动矢量取中值来预测,如图 1.69 华 中 科 技 大 学 博 士 学 位 论 文(a)所示;若区块是长方形的( 816、168、48及84),H.264标准采用的是方向性预测,如图 1.6(b)所示。以168宏块模式为例,上方区块用其正上方 B的运动矢量来预测,下方区块用其左侧 A的运动矢量。如果A、B或C的运动矢量不可用(如A在图像外或者A在另外一个条带中),这时中值预测方法也需要做相应的改动。在 P帧中还支持一种称为 SKIP的宏块编码模式。它无需传输量化的残差数据、运动矢量和参考帧序号。它用 1616 块的预测运动矢量所指向的帧缓存中序号为 0的图像区域作为重建图像。SKIP编码模式适合没有变化或缓慢运动的区域,并且只需很少的比特来表示。对于 B帧而言,运动补偿块可以分别使用 List 0(在当前帧之前的已解码帧),List 1(在当前帧之后的已解码帧)和双向预测 3种预测方式。对于 88宏块模式也可以采用与 P帧中的 SKIP 模式类似的直接预测(Direct Prediction)模式编码,此时无需传输运动矢量和量化残差数据。在以前的标准中,双向预测通常对两个预测信号取平均,P帧也不支持加权预测。在 H.264 标准中,P帧和 B帧均支持加权预测,且加权算子和偏移量可以由时间相关性确定或者由编码器确定 32。4) 变换、缩放和量化与以前的视频编码标准类似,H.264对预测残差也采用空间变换编码。在 H.264标准中,运动补偿块的最小尺寸是 44,因此采用了近似 DCT的 44整数变换代替原有的 88的 DCT变换。44整数变换矩阵是可分离的,其核矩阵是 33:1111 21 1 2H =(1.1)1 1111 2 2 1变换编码过程与以前的标准类似,但是反变换是非常简单的整数运算,因此避免了编码端和解码端解码数据的不一致问题,也使解码的复杂度降到最低。H.264标准对变换系数使用标量量化。量化参数(QP,Quantization Parameter)分为 52 级(051),量化步长按 QP 呈对数增长,而不是以前标准中的线性增长,这样能够降低解码的计算复杂度以及更好的进行码率控制。QP每增加 6,则量化步长就增加一倍,因此 QP 每增加 1,量化步长大约增加 12%。量化后的变换系数先按 Z字型(Zigzag)扫描,然后使用熵编码来处理。H.264标准中采用的正变化和反变换都只需要使用 16位的整数加法、减法和移位操作来实现,同理,系数存储和内存访问也只需要 16位的操作。这样既降低了计10 华 中 科 技 大 学 博 士 学 位 论 文算复杂度,也有利于硬件的实现。5) 熵编码机制在 H.264标准中提供了两种可选方式的熵编码模式:基于上下文的自适应变长编码(CAVLC,Contex-based Adaptive Variable Length Coding)和基于上下文的自适应二进制算术编码(CABAC,Context-based Adaptive Binary Arithmetic Coding)。CABAC的计算复杂度虽然高于 CAVLC,但是它有更好的编码效率。CAVLC 和 CABAC 中的大多数语法元素采用一种唯一的可无限扩展的Exp-Golomb 码。无需对不同的语法元素采用不同的码表,只需根据其统计特性映射到码表中唯一的码字。Exp-Golomb 码的构造简单并且有规则性。在 CAVLC中,对量化的变换系数进行编码的 VLC表是根据前一个变换系数值动态选择的。因为 VLC表的选择是基于内容的,它能够更好地匹配元素的出现概率,因此 CAVLC的编码效率是优于只使用一张 VLC表的编码方案,如以前标准所采用的“runlevel”编码或“runlevellast”编码。CABAC34能够进一步提高熵编码的性能,它的流程如图 1.7。一方面,算术编码允许所有符号以非整数二进制位来表示,这使得某些符号几乎能按它们的熵极限进行编码,特别是那些概率高度偏斜的的符号。如果采用 VLC,则每个符号都至少需 1比特表示,而算术编码则不需要完整的 1个比特。另一方面,自适应的编码方式能够更好地适应符号概率不断变化的情形,熵编码器能够根据已编码符号的统计信息调整概率预测。此外,算术编码和概率预测的计算也非常简单,只需查表和移位操作,无需乘法运算。自适应二进制算术编码器上下文模型二进制化概率估计编码引擎概率估计更新图 1.7 CABAC编码示意图6) 环滤波技术基于块的视频编码系统在重建图像时不可避免地在某些块边界会出现一些较为明显的“块效应”,特别是在低码率的情况下。出现“块效应”的原因在于块边界像11 华 中 科 技 大 学 博 士 学 位 论 文素的运动补偿精度一般都低于块内像素,而且块变换也导致了块边界的不连续性。为了解决这个问题,H.264 标准采用了自适应的环路去块效应滤波器。环路滤波器先根据相邻宏块内容确定滤波器强度,再根据所处理的当前边缘的临近像素值来选取不同的滤波器35。7) 档次和级别档次通常定义了用于产生兼容码流的语法,而级别则限制了关键性参数的值(如最大码率、缓冲器容量、图像分辨率等)。兼容某一档次的解码器必须支持所在级别的所有特性。编码器则无此限制,但必须产生能被兼容的解码器解码的码流。H.246/AVC标准定义了 3个级别:基本级别(Baseline Profile)、主级别(Main Profile)和扩展级别(Extended Profile)。FOREMAN,CIF,30Hz383736353433H.264/AVCMPEG-4(SP)32H.263(CHC)H.263 Baseline313002004006008001000比特率( kb/s)图 1.8 视频编码标准的率失真曲线比较H.264标准在传统框架上加入的这些技术单独使用时作用虽然有限,但是综合使用的时候,编码性能的提高积少成多,可以获得比已有标准更好的编码效率。图 1.8给出了在视频会话应用的的条件下, H.264、MPEG-4简单级别(Simple Profile)、H.263基本级别和H.263会话的高压缩级别(Conversational High Compression Profile)等标准之间的率失真曲线的对比 36。显然,相对于以前的标准, H.264标准在编码效率上获得了极大地提高,但这些提高是是以增加计算复杂度为代价的,因此有必12 华 中 科 技 大 学 博 士 学 位 论 文要对它的计算复杂度进行分析。对 H.264 标准的计算复杂度进行分析并不是一项简单的工作,因为对于不同的实现平台(如 PC,DSP,FPGA 等),其计算复杂度有可能相差很大,并且,不同编码工具之间的互相依赖性也使评估变得更加困难。Ostermann29采用数据传输特性,作为通用的、与平台无关的准则对 H.264 标准的复杂度进行了评价。H.264 标准中的几个主要编码工具的计算复杂度分析如下:1) 可变块尺寸:可变块尺寸使访问频率线性增长,每增加一种块模式,计算复杂度增加大于 2.5%。通常,在相同图像质量条件下,比特率降低在 4%到 20%之间。随着使用的模式数的增加,计算复杂度也相应增加,而性能增益趋向饱和。2)率失真优化:率失真优化使数据传输增加了大约 120%,最大峰值信噪比(PSNR)增益和比特率节省分别为 0.35dB和 9%。在运动估计和模式选择过程中,使用率失真优化所增加的计算复杂度和编码效率的提高依赖于其它编码工具的使用。如只采用一个参考帧和 1616的块尺寸时,计算复杂度的增加小于 40%。3)CABAC:与只使用一个可逆的 VLC表对所有语法元素进行编码的方法相比,CABAC访问频率的提高在 25到 30%之间,而使用 CABAC能使比特率降低最大达到 16%。4) 运动矢量精度:编码器可以选择只搜索 1/2像素点而不是 1/4像素点。这将使访问频率和处理时间降低约 10%。然而,除了在极低码率条件下,使用 1/4 像素点运动估计能使编码效率提高达到 30%。5) 搜索范围:同时增加搜索范围和参考帧数,将会大大增加访问频率,最大能够增加约 60倍,而对编码效率的提高较小。6) 多参考帧:采用多参考帧将使访问频率呈线性增长:每增加一个参考帧,计算复杂度增加约 25%。在中低比特率的情况下,性能的增益小于 2%;而在高码率的情况下,比特率节省最大能达到 14%。7) 环路滤波器:在测试中,环路滤波器对编码器复杂度增加几乎无影响。然而,环路滤波器大大增加了图像的主观质量而且提高了预测精度。13 华 中 科 技 大 学 博 士 学 位 论 文1.3运动估计和 DCT变换技术1.3.1运动估计的基本原理基于分块的运动估计算法,具有规则性和简单性,而且易于硬件实现,因此被大多数视频编码器所采用。它的基本原理如图 1.9所示。在运动估计过程中,当前帧通常被划分为 NN大小的图像块,假设块中所有像素都作相同的平移运动。运动估计是在重建参考帧的给定搜索范围内,寻找当前图像块的最佳匹配块,最佳匹配块和当前编码块的相对位移称为运动矢量。图 1.9 运动估计示意图在参考帧的给定搜索范围内寻找当前编码块的最佳匹配块的过程中,需要选择恰当的匹配准则。选择不同的匹配准则其计算量是不同的,得到的最佳匹配块也可能不同。块匹配准则可以使用绝对值误差和(SAD,Sum of Absolute Difference)和平方误差和( SSD,Sum of Squared Difference)。此外,还可以使用互相关 CCF(Cross-Correlation Function)37、绝对平均误差 MAE(Mean Absolute Error)38、均方误差 MSE(Mean Square Error)39,最多像素匹配40,中值匹配41和最大最小14 华 中 科 技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届西南大学附中高三上化学期中质量检测试题含解析
- 江苏省苏州市吴江高级中学2026届化学高一第一学期期末教学质量检测模拟试题含解析
- 商标专用权质押合同
- 写字楼出租合同
- 联合刊物合同
- 2025版起重机零配件买卖合同范本
- 2025办公大楼物业客户满意度提升与反馈机制合同
- 2025版事业单位经济合同招投标管理规范
- 2025版宿舍管理员宿舍服务满意度提升合同
- 2025年度风力发电场场地平整与设备安装合同
- 2025云南文山州融资担保有限责任公司人员招聘6人笔试参考题库附答案解析
- 2025-2026学年济南版(2024)初中生物八年级上册教学计划及进度表
- 2025山西运城市临猗县招聘社区工作者32人(一)考试备考试题及答案解析
- 2025年鞍山市铁西区教育局面向师范类院校应届毕业生校园招聘45人笔试参考题库附答案解析
- 空调与制冷操作考试试题(含答案)
- (2025年)河南省信阳市辅警协警笔试笔试真题(含答案)
- 网络直播带货讲解
- 2025江西九江都昌县公安局招聘警务辅助人员14人笔试备考题库及答案解析
- 肿瘤药物配制注意事项
- GB/T 22126-2025物流中心作业通用规范
- 工管人才面试宝典:高级管理面试题目及答案解析
评论
0/150
提交评论