(计算机应用技术专业论文)h264avc中多参考帧下的失真度估算算法.pdf_第1页
(计算机应用技术专业论文)h264avc中多参考帧下的失真度估算算法.pdf_第2页
(计算机应用技术专业论文)h264avc中多参考帧下的失真度估算算法.pdf_第3页
(计算机应用技术专业论文)h264avc中多参考帧下的失真度估算算法.pdf_第4页
(计算机应用技术专业论文)h264avc中多参考帧下的失真度估算算法.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)h264avc中多参考帧下的失真度估算算法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

亘查窑堡盍堂亟亟窒生雯焦迨窒篮! 夏 摘要 视频通信中的基于拉格朗日乘子法的率失真模型的两个基本组成部分是 失真度和比特率。比特率经过实际的编码就可以得到,而真实失真度只有在 解码器完成解码之后才能真正计算得出。因此如何准确估算出差错环境下从 编码器到解码器端的失真度,并由此来决定编码模式就成为率失真优化的关 键问题。h 2 6 4 a v c 测试参考模型中假定传输信道不会出错,忽略了传输过 程和解码器端可能引起的失真,将编码量化失真作为总失真。然而现实中基 于包交换的网络其丢包率可能高达2 0 ,使用预测编码产生的视频流对包交 换网络中的传输错误异常敏感。因此,如何在基于包交换的网络环境中准确 估算失真度,最大可能地减少传输差错带来的对编码器的影响,实现差错环 境下抑制传输差错的编码效果就成为视频编码领域中的一个重要问题。 本论文比较了现有的三种失真度估算方法,通过实验证明了基于像素级 的递归估算方法是最为接近实际情况的方法。在此算法基础上,分析了有损 信道中的视频传输的差错扩散情况,从可能引起失真的编码器、传输信道和 解码器三个方面分别考虑,得出了h 2 6 舭w c 中一种多参考帧下的通用失真 度估算算法。算法将总失真度分为编码量化失真、传输扩散失真和解码掩盖 失真三部分,其中,编码量化失真经实际编码后可以计算得到,掩盖失真也 可以通过编码器端的模拟解码后计算得到,关键的传输扩散失真经过推导变 换后可以通过递归进行计算。估算模型以一个运动向量的踊数来表示相关系 数,在一定程度上降低了算法的计算复杂性。基于测试模型参考软件j m 7 6 的实验结果表明,估算算法可以很好的估算出失真度,从而可以将该算法应 用予各种时域掩盖算法中,在基于包交换的网络环境中尽可能地仿真真实失 真度,达到率失真优化条件下的最佳的编码效果。 关键词:视频编码;h 2 6 4 a v c 失真度估算;多参考帧 一酉童窒堂盎堂亟丛窒生堂焦迨塞篁! ! 亟 a b s t r a c t t h et w ob a s i c c o m p o n e n t o fr a t e - d i s t o r t i o nm o d e lb a s e do n l a g r a n g e m u l t i p l i e ri nv i d e oc o d i n ga r ed i s t o r t i o na n dr a t e t h er a t eo f af r a m ei st h eb i t s u s e dt oe n c o d ei t ,b u tt h ed i s t o r t i o nc a nb ee v a l u a t e do n l ya f t e rt h ed e c o d i n g p r o c e s s t h e r e f o r e ,h o wt oe s t i m a t ep r e c i s e l yt h ed i s t o r t i o nb e t w e e nt h ec o d e ci n e r r o rp r o n ee n v i r o n m e n t si no r d e rt oc h o o s et h ec o d i n gm o d ei st h ek e y p r o b l e m o fr a t e ,d i s t o r t i o n t h er e f e r e n c es o f t w a r em o d e lo fh 2 6 4 a v ca s s u m e st h e r ei s n oe r r o rw h e n t r a n s m i t t i n gt h ev i d e os i g n a l sa n d t h u si g n o r et o t a l l yt h ed i s t o r t i o n m i g h tb ec a u s e db y t r a n s m i s s i o na n d d e c o d i n gp r o c e s s ,a n du s et h ed i s t o r t i o no n e n c o d e rs i d ea st h et o t a ld i s t o r t i o n b u tt h er e a lt r a n s m i s s i o nc h a n n e li sn e v e r l o s s l e s sa n dp r o b a b l yh a sal o s sr a t eo fa sh i g ha s2 0 ,a l s ot h ec o d e sp r o d u c e d b yp r e d i c t i o ne n c o d i n gi sv e r ys e n s i t i v et ol o s s yc h a n n e l h e n c eh o w t oe s t i m a t e t h ed i s t o r t i o nu n d e rp a c k e t - s w i t c hn e t w o r k s ,s oa st or e d u c et h et r a n s m i s s i o n e r r o r sa sl e s sa sp o s s i b l e i sa b i gp r o b l e m t ob es o l v e di nv i d e o c o d i u g t h r e e a l g o r i t h m se s t i m a t i n g t h ed i s t o r t i o na r e c o m p a r e d i nt h i s t h e s i s , e x p e r i m e n t a lr e s u l ts h o w st h a tt h er e c u r s i v eo p t i m a lp e r - p i x e le s t i m a t e ( r o p e ) a l g o r i t h mi s t h eb e s t b a s e do nt h er o p e a l g o r i t h m ,t h i st h e s i sg i v e sa d e t a i l a n a l y s i so fe r r o rp r o p a g a t i o nu n d e rl o s s yc h a n n e la n dt a k e sc o n s i d e r a t i o no na l l t h r e ev i d e oc o m m u n i c a t i o np r o c e s s :e n c o d i n g ,t r a n s m i s s i o na n dd e c o d i n g ,a n d d e d u c e sag e n e r a ld i s t o r t i o n e s t i m a t i n ga l g o r i t h mf o rh 2 6 4 a v cu s i n gm u l t i p l e r e f e r e n c ef r a m e s t h e p r o p o s e da l g o r i t h ms e p a r a t e s t h et o t a le n d t o e n d d i s t o r t i o ni n t ot h r e e p a r t s :q u a n t i z a t i o n d i s t o r t i o n b ye n c o d e r , p r o p a g a t i o n d i s t o r t i o nc a u s e db yt r a n s m i s s i o nc h a n n e la n dc o n c e a l m e n td i s t o r t i o nb yd e c o d e r , w h e r et h e q u a n t i z a t i o n d i s t o r t i o nc a nb e c o m p u t e d a f t e r e n c o d i n g ,t h e c o n c e a l m e n td i s t o r t i o nc a nb ec o m p u t e db ys i m u l a t e dd e c o d i n gi ne n c o d e rs i d e , a n dt h ep r o p a g a t i o nd i s t o r t i o nc a nb ec o m p u t e dr e c u r s i v e l ya f t e rd e d u c t i o na n d t r a n s f o r m t h ec o r r e l a t i v ec o e f f i c i e n ti sw e i g h t e da g a i n s tam o t i o nv e c t o rt e r mi n t h ee s t i m a t i o nm o d e l ,w h i c hr e d u c e st h e c o m p u t a t i o n a lc o m p l e x i t y o ft h e a l g o r i t h mi n ac e r t a i nd e g r e e e x p e r i m e n t a lr e s u l tb a s e do nr e f e r e n c es o f t w a r e 亘童窒逗盔堂亟塑塞生堂笪迨窒篁! ! ! 亟 m o d e lj m 7 6s h o w st h a tt h ep r o p o s e da l g o r i t h mc a ne s t i m a t ep r e c i s e l yt h er e a l d i s t o r t i o n ,w h i c hm e a n si tm a yb eu s e du n d e rp a c k e t s w i t c hn e t w o r k st oo b t a i n t h eb e s te n c o d i n gr e s u l ti nr a t ed i s t o r t i o ns e n s e k e y w o r d s :v i d e o c o d i n g ;h 2 6 4 a v c ;d i s t o r t i o ne s t i m a t i o n ;m u l t i p l er e f e r e n c e f r a l l i e s 耍蛊童逼盔堂亟堑塞塞茎焦鲨塞篁! 亟 1 1 引言 第1 章绪论 数字视频是由数字图像的时间序列构成的,每一幅这样的图像称之为一 帧( f r a m e ) 。通常视频序列以y u v 格式表示,每个像素的每个分量用一个字 节来表示,即每个像素共需用2 4 比特来表示。c i f ( c o m m o ni n t e r m e d i a t e f o r m a t ) 格式的视频序列,每一帧有2 8 8 行,每行有3 5 2 个像素点,如果不 经过压缩,c i f 视频序列中一帧的数据量为: 3 5 2 2 8 8 x2 4c2 4 3 3 0 2 4 b i t 一2 3 2 m b ( 1 1 ) 当以3 0 f p s 的帧速率传送c i f 视频序列时,实时俦输时,每秒钟所要传 送的比特数为: 2 3 2 3 0 6 9 6 m b( 1 2 ) 即近7 0 m b 。现有的窄带通信网如p s t n 网或移动通信网等,虽然可以提供有 改进的语音和数据服务,但显然是不能支持诸如无压缩的c i f 视频序列传输 等较大容量的多媒体业务,在支持宽带多媒体业务方面存在很大的局限性。 在现有的带宽条件下进行多媒休通信业务,压缩多媒体信息的数据量势在必 行。 虽然图像和视频信息的表示需要大量的比特数,但这些数据往往是高度 相关的,这些相关性会引起信息的冗余,因此可以通过去除冗余信息来实现 图像视频数据的压缩。静止图像压缩的一个主要目标是在保持可以被接受的 重建图像质量的同时,尽量去除图像中的空间冗余信息。对于视频信息,可 以在去除空间冗余信息的同时,通过去除时间冗余以达到较高的压缩比【1 7 , 1 8 1 。 除空间冗余和时间冗余外,在一般的图像和视频数据中,还存在着其它 一些冗余信息。这些冗余信息主要包括l ”】: 结构冗余,有些图像的部分区域内存在非常强的纹理结构,或是图像的 各个部分之间存在某种关系,例如自相似性等。 知识冗余,有些图像中包含的信息与某些先验的基础知识有关,例如在 西南交通大学硕士研究生学位论文第2 页 人的头肩图像中,头、眼、鼻和嘴的位置等信息。 视觉冗余,人类的视觉系统对于图像的注意是非均匀和非线性的,并不 能感知图像中的任何变化。例如由图像系数的量化误差引起的图像变化在一 定范围内是不能为人眼所察觉的。 信息熵冗余,也称编码冗余。在数字化一幅图像时,对每个像素是用相 同的比特数表示,这样必然存在冗余。信息熵冗余、空间冗余和时间冗余统 称为统计冗余,它们都决定于图像数据的统计特性。 上述各种形式的冗余,是压缩图像与视频数据的出发点。图像与视频编 码方法就是要尽可能地消除这些冗余信息,以降低表示图像与视频所需的数 据量。 低码率下的视频编码与传输登然要求对视频信号进行高效压缩。目前的 视频编码标准普遍采用运动补偿预浏( m o t i o nc o m p e n s a t i o np r e d i c a t i o n ) 、 d c t 变换( d i s c r e t ec o s i n et r a n s f o r m ) 和可变长编码( v a r i a b l e1 e n g t h c o d i n g ,v l c ) 的混合编码技术1 1 7 , 2 0 - 2 3 来获得高压缩率,因此压缩后的视频码 流对传输错误( t r a n s m i s s i o ne r r o r ) 非常敏感。一旦传输发生错误,不仅会 影响该错误数据的恢复,而且还会影响与之相关的其他数据的恢复。形成差 错扩散( e r r o rp r o p a g a t i o n ) f 2 4 笛l 。 由于编码器不容易考虑视频信息在网络传输过程中和接收端可能存在的 信息丢失,因此,如果能够在编码时准确估计出各方面可能出现的失真,就 可以在率失真( r d ,r a t ed i s t o r t i o n ) 优化的条件下选取最优的编码模式, 提高视频编码算法的抗误码能力,保证视频传输的鲁棒性( r o b u s t n e s s ) 。 1 2 国内外研究现状 视频编码中的限定码率下的编码模式的选择问题,可以通过率失真优化 ( r d o ,r a t ed i s t o r t i o no p t i m i z a t i o n ) 技术进行解决。与编码模式相关的 编码参数的选择过程,可以通过基于率失真理论的拉格朗日( l a g r a n g e ) 乘 子法进行优化。视频编码中的率失真优化技术可以描述为在限定比特率下, 通过选择编码模式和编码参数。以得到最小的编码失真。 目前已有的部分文献对差错环境下的失真情况进行了分析和研究,文献 【5 】、【7 】提出了基于块加权的失真度估算方法,用前一帧与当前帧对应块运动 西南交通大学硕士研究生学位论文第3 页 一一 一一一一 。 一_ _ _ _ _ - 。- _ _ - _ _ - _ _ h 重叠面积为基础估算当前块的掩盖失真;文献【6 】通过使用基于整像素递归的 估计方法针对具体的掩盖方法研究了端到端失真度估算方法:文献f 3 1 提出 了一种适用于各种时域差错掩盖方法的通用传输失真度估算模型,通过在像 素级的递归计算,可以较精确地估计出视频图像的端到端的失真度。 然而,所有以上这些失真度估算算法都是在基于h 2 6 3 标准以及单参考 帧情况下所进行的研究。如何在h 2 6 4 中使用多参考帧的情况下准确估算差 错环境下的失真度是本论文的重点所在。 1 3 论文的主要工作 本论文首先研究比较了现有的三类失真度估算算法,通过实验得出了 r o p e 算法为最优的算法。然后分析了视频通信过程中差错扩散的情况,根据 r o p e 算法的思想,在视频编码标准h 2 6 4 中基于多参考帧的条件下,通过分 析视频通信的各个过程,对可能产生失真的几部分,包括编码器量化失真、 网络传输失真和解码器掩盖失真,分别进行估算,得到了t t 2 6 4 标准中多参 考帧下基于包交换网络的一种端到端的通用失真度估算算法。 另外,对模型算法中的宏块相关系数采用了简化计算,在定程序上降 低了算法的计算复杂性。 1 4 论文的组织结构 第一章是绪论,介绍了国内外在视频压缩编码标准中失真度估算方法的 基本研究现状,概括了本论文的主要研究工作和论文的组织结构。 第二章是h 2 6 4 视频编码标准的概述,简要介绍了h 2 6 4 视频编码标准 中视频编码层的主要技术。 第三章详细描述了视频编码中的率失真优化技术,分析了有损信道下的 差错扩散情况,研究了现有的三类主要失真度估算算法,在h 2 6 4 测试模型 j m 7 6 上分别实现了这三类算法,并给出实验结果。 第四章详细讨论了视频通信在发送、传输和接收过程中可能出现的失真 情况,给出了在视频编码标准h 2 6 4 中基于多参考帧的条件下的通用失真度 估算算法。实验结果表明,估算算法能够比较准确的估算出实际的失真情况。 最后是本文的结论部分,讨论进一步的研究方向和关键技术难点。 亘匿童逼盔堂亟丛窒圭堂焦迨窒篁垒夏 第2 章h 2 6 4 a v c 视频编码标准 i t u t 于1 9 9 6 年制定的h 2 6 3 标准为低码率下的视频通信提供了高效的 压缩算法,而h 2 6 3 + 和h 2 6 3 + + 作为对h 2 6 3 的改进和发展,在编码效率、 差错恢复和编码灵活性等方面又有了很大提高。为了制定一种质量更好的、 压缩效率更高的视频编码标准以支持视频会议等低比特率应用,1 t u t 下属 的视频编码专家组( v i d e oc o d i n ge x p e r t sg r o u p ,v c e g ) 于1 9 9 8 年开始研 究新的视频压缩编码标准h 2 6 l 视频压缩标准【4 。与此同时,i s o i e c 也在继续进行m p e g 4 上的高级视频编码( a d v a n c e dv i d e oc o d i n g ,a v c ) 的研究。 2 0 0 1 年9 月,m p e g 对h 2 6 l 草案进行了评估并认识到h 2 6 l 潜在的优 越性,于是和v c e g 一起组成联合视频小组( j o i n tv i d e ot e a m ,j v t ) ,进一 步完善h 2 6 l 标准,芡同制订新一代视频编码国际标准,即h 2 6 4 a v c 标准, 并于2 0 0 3 年公布了标准的最终草案1 4 1 1 。 新的h 2 6 4 a v c 视频编码标准在编码质量和压缩效率上比原有的视频编 码标准都有了明显的提高1 4 2 】。在相同的视觉感观质量上,h 2 6 4 a v c 的编码 效率比h 2 6 3 、m p e g 2 和m p e g 一4 提高了约5 0 左右,并且有更好的网络 友好性【“郴】。虽然删t 在发展和制定h 2 6 l 时主要的目标是针对甚低比特 率的应用,但随着m p e g 的加入以及更多先进设计思想和编码技术的采纳, h 2 6 4 ,a v c 成为面向从高质量应用到低比特率传输,从有线网络传输到无线 环境通信的视频编码国际标准,以其卓越的性能在高清晰度电视、卫星电视、 媒体存储、无线多媒体应用等领域显示出了巨大的应用潜力。 2 1h 。2 6 4 a v c 体系结构 如前所述,之前的视频编码标准如h 2 6 3 、m p e g 2 和m p e g 4 等均是以 提高压缩比为主要目标,规范标准时并未考虑到传输信道特性。近年来,随 着基于i p 网络和无线网络的多媒体应用需求不断出现和扩大,h 2 6 3 和 m p e g 4 等标准越来越无法有效的保障视频信息在网络上的传输质量,渐渐 暴露出了其网络适应性差的先天不足。 西南交通大学硕士研究生学位论文第5 页 h 2 6 4 在设计之初,就充分考虑到了这个问题,在体系结构上分为两层: 视频编码层( v i d e nc o d i n g l a y e r ,v c l ) 和网络适配层( n e t w o r k a d a p t a t i o n l a y e r ,n a l ) 。前者规定了视频内容的有效表示即视频编码的算法,负责视 频内容的高效表示,后者规定网络传输规范,负责以网络所要求的恰当的方 式对v c l 层编码得到的视频数据进行打包和传送。这样,v c l 和n a l 分别 完成高效率编码和网络适应的任务。h 2 6 4 编码器的分层体系结构如图2 - 1 所示。 图2 - 11 4 2 6 4 a v c 的体系结构示意图 视频编码层v c l 主要负责对数字视频帧进行高效编码,提供具有高质量、 高压缩比、健壮性、可分级等特性的视频编码码流。这一部分也是整个 h 2 6 “a v c 视频编码标准的核心部分。 网络适配层n a l 主要负责将视频编码层v c l 产生的视频编码码流正确 的映射到不同的传输网络中去。当v c l 产生的编码比特流在某种特定的网络 中传输时,n a l 针对这种网络及其传输协议的特性,对v c l 产生的码流进 行适合该网络及其传输协议的封装。这样,h 2 6 4 a v c 在面向不同的传输网 络时,就可以灵活地提供不同的封装方式,增强了网络的适应性。v c l 和 n a l 的分离不仅增强了h 2 6 4 a v c 对现存的各种不同网络的友好性,而且 能够适应未来的网络的发展和变化1 4 9 - 5 1 。 一个具有般意义的数字化编码过程分为三个步骤:对原始的模拟信号 进行采样得到数字信号,对经采样得到的数字信号进行量化,对量化后的信 号进行编码。视频编码的核心思想是利用预测编码减少图像序列在时域和空 西南交通大学硕士研究生学位论文第6 页 域上的冗余数据,利用变换编码和量化尽可能去除频域的冗余数据。视频编 码标准中的编码对象,即输入的原始信号,是经数字化设备得到的数字信号, 因此不需要通常情况下的采样的工作。h 2 6 4 a v c 视频编码标准中的视频编 码层v c l 的主要任务就是对视频序列进行预测、变换、量化和编码。下面的 几个小节分别就这几个过程作简要叙述。关于n a l 的更为详细的内容,请 参阅文献 4 5 ,4 9 5 1 1 。 2 2 预测编码 2 2 1 帧内预测编码 视频序列中除了在时域和频域存在冗余信息,在单个视频帧中还存在空 域冗余,特别是变化平缓的背景区域。之前的视频编码标准如h 2 6 3 和 m p e g 4 等中,没有使用或者只使用非常简单的帧内预测编码,直接对原始 像素值进行变换、量化和编码,因此帧内编码所需比特数还是比较大的。为 了尽量去除空域冗余信息,迸一步降低帧内编码帧的数据量,h 2 6 4 a v c 引入帧内预测编码对预测的差值进行编码。 帧内预测编码模式的子块或宏块,其预测块为之前已编码块或重建块。 h 2 6 4 a v c 中,提供了三种帧内预测编码。对于亮度分量,待预测的块可以 以4 x 4 的予块或1 6 x 1 6 的宏块两种形式出现。4 x 4 的亮度块共有9 种可选预 测模式,1 6 x 1 6 的亮度块共有4 种可选预测模式。对予色度分量,待预测的 块也有4 种可选预测模式。 4 x 4 亮度块帧内预测 图2 2 为q c i f ( q u a r t e rc o m m o ni n t e r m e d i a t ef o r m a t ) 序列f o r e m a n 的 一帧中1 6 x 1 6 亮度宏块及一个待预测的4 x 4 亮度块。待预测的4 x 4 亮度块的 左边和上面的像素已经编码或重建,因此编码器或解码器可利用这些像素来 预测该块。该亮度块是以图2 3 中的标示的a m 各像素来预测的,其中,小 写的a p 表示待预测的4 x 4 亮度块中的1 6 个像素点,大写的a m 表示用 于预测该4 x 4 亮度块的邻近块的已编码像素。 一 亘直童逢盍兰亟丛窭生主焦迨室篁! 亟 图2 - 2 原始宏块羊【i 待预测的4 x 4 亮度块 mab cdefg h ibd j f g h k j kl l p 图2 3 颁测像素标定 农2 一l 艟示了4 x 4 亮度块的各种帧内预测模。吲2 4 勾4 x 4 亮度块帧 内预测模示意图,其中的箭头表吓每种颅测模,啪0 预测力向。刈炎 3 8 ,被坝测像素由预测像素a 、一m 加仪,f 均而得到。以 = ;:f 式4 为例,4 x 4 亮度块巾像素c 的预测值为:c = ( b + 2 c + d ) 4 。对每个块,编码器鄙选 抒种预测模式,使得待编石f 块j 坝测块p 之间的差值最小。 亘直至适盔茎亟塑窒生堂焦途窒篁! 夏 表2 - 14 x 4 亮度块帧内预测模式 预测模式编号预测模式名称 0、色r t j c a l ( 垂直预测) 1 h o r i z o n t a l ( 水平预测) 2d c ( d c 预测) 3 d i a g o n a ld o w n l e f t ( 下一左对角线预测) 4 d i a g o n a ld o w n r i g h t ( 下- 右对角线预测) 5 v e r t i c a l - r i g h t ( 垂直右斜线预测) 6h o r i z o n t a l - d o w n ( 水平一下斜线预测) 7 、h - t i c a b a f t ( 垂直一左斜线预测) 8 h o r i z o n t a l - u p ( 水平一上斜线预测) 1 6 x 1 6 亮度块帧内预测 图2 44 x 4 亮度预测模式 前面描述了4 x 4 块的各种预测方法,也可以直接对整个宏块的1 6 x 1 6 亮 度分量进行预测。图2 5 显示了1 6 x 1 6 亮度块的4 种帧内预测模式: 模式0 ( 垂直预测) :由上面的像素( h ) 对亮度块进行预测: 模式1 ( 水平预测) :由左边的像素( v ) 对亮度块进行预测: 模式2 ( d c 预测) :由上面和左边像素的均值对亮度块进行预测: 模式3 ( 平面预测) :将一线性平面函数应用于上面和左边的像素。这种 方法比较适合于亮度变化平缓的场景。 亘童窒渔盔堂亟圭亟窒生堂焦迨塞篁! 亟 8 x 8 色度块帧内预测 1 i 吣m m m , 圈2 - 51 6 x 1 6 亮度块的帧内预测模式 色度宏块包含u 、v 两个色度分量,在进行8 x 8 色度宏块帧内预测时, 对两者采用相同的预测模式。与亮度块相同,宏块的每一个8 x 8 的色度块都 由其上部与或左边的已编码或重建色度像素预测而来。色度块的4 种预测模 式分别是:模式0 ( d c 预测) ,模式1 ( 水平预测) ,模式2 ( 垂直预测) 和 模式3 ( 平面预测) 。需要注意的是,与1 6 x 1 6 亮度块的帧内预测模式相比, d c 预测有些细微差别,具体预测方法请参阅文献 4 1 1 。 2 2 2 帧间预测编码 p 一片内宏块的帧问预测编码 h 2 6 4 a v c 编解码器,与自h 2 6 1 以来所有的主流编码器一样,采用基 于块的运动补偿技术。帧间预测编码使用运动补偿预测技术,从前面的一个 或若干个已编码帧为参考帧中搜索最佳的匹配块。与以往不同的是, h 2 6 4 a v c 支持更多的块大小( 最小可达4 x 4 ) 和更精确的小数像素的运动 向量( 亮度分量可达1 4 像素精度) 。 树形运动补偿 h 2 6 4 a v c 可支持最大到1 6 x 1 6 ,最小到4 x 4 的亮度运动补偿块大小。每 西南交通大学硕士研究生学位论文第1 0 页 个宏块的亮度分量可以按图2 - 6 ( a ) 所示的4 种方式进行划分,即划分为 1 6 x 1 6 ,1 6 x 8 ,8 x 1 6 或8 x 8 的子块。每一被划分出来的子块都是该宏块的一 分区( p a r t i t i o n ) 。如果把宏块划分为8 x 8 的宏块分区,则每个8 x 8 的宏块分区 可以进一步以图2 - 6 ( b ) 所示的4 种方式划分为更小的块,即8 x 8 ,8 x 4 ,4 x 8 或4 x 4 的块,称为宏块子分区。在每一宏块内这些分区和子分区可以按不同 组合形式出现。这种把宏块划分为不同大小的运动补偿子块的方法被称为树 形运动补偿。 每一分区或子分区都有它自己的运动向量。显然,在运动向量被编码和 传输的同时,压缩的比特流内应包含这些运动向量所属的分区的信息。大的 分区( 即1 6 x 1 6 ,1 6 x 8 和8 x 1 6 的宏块分区) 意味着只需要比较少的比特数就可 以编码其运动向量和分区的类型,但是经过运动补偿的差值可能包含较多的 高能量信息,需要较多的比特数来表示。相反小的分区( 即8 x 8 ,8 x 4 ,4 x 8 和4 x 4 的宏块子分区) 可能只包含低能量差值,但却需要比较多的比特数来编 码运动向量和分区的类型。因此,选择不同大小的分区对压缩效率会产生显 著影响。一般说来,大的分区比较适合于帧内的均匀区域,而小的分区则适 用于细节多的区域。 对每一种分区,色度块和亮度块的具有完全相同的划分方式,唯一的区 别在于分区的大小不同,即色度分区在水平和竖直方向上的分辨率都只有亮 度分区的一半,这是因为整个宏块的色度分量的分辨率为其亮度分量的半。 如一个8 x 1 6 的亮度分区对应一个4 x 8 的色度分区,一个8 x 4 的亮度分区对应一 个4 x 2 的色度分区等等。同时,色度分区没有独立的运动向量,它使用的是它 对应的亮度分量的运动向量,当然,应该在水平和竖直方向分别取半。 编码器对每帧内的每一部分选择一个“最佳”的分区大小,即使用此“最 佳”分区大小可以得到需要比特数最小的编码差值和运动向量的组合。图2 7 显示了一个差值帧内每一区域的宏块分区选择。在各帧间变化比较平缓的区 域( 差值显示为灰色部分) 选用的是1 6 x 1 6 的分区,在运动明显的区域( 差值 显示为黑色或白色的部分) 选用的是小的分区。 堕夏至塑盔堂亟丛窒生堂焦逾窒筻! ! 亟 8 0 1 a ) 宏块划分:1 6 x 1 6 ,1 6 x 8 ,8 x 1 6 ,8 x 8 0 1 b ) 子块划分:8 x 8 ,8 x 4 ,4 x 8 ,4 x 4 图2 - 6 宏块及其子块的划分 幽2 7 个羊值帧的分区示意图 o1 23 o1 23 亘塑窑逼盔堂亟塑窒生堂焦迨窒苤! ! 亟 多参考帧 与过去的视频编码标准不同,h 2 6 4 a v c 支持多参考帧编码。在多参考帧 模式下,对一个宏块或子块进行运动补偿时,编码器会从过去的若干个已编 码帧中选定一帧作为参考帧,寻找当前编码宏块或子块的最佳匹配块,以获 得更好的预测效果。在很多自然场景,如快速的周期运动、快速的场景切换、 物体存在遮蔽现象等情况下,多参考帧的引入能够提高编码效率。 例如,对于鸟类飞翔的视频序列,由于鸟类翅膀的扇动具有周期性,因 而采用多参考帧的运动估计方式就有机会选择时间间隔为一个或接近一个周 期的帧作为参考帧,采用这个参考帧来进行运动估计的效果显然会比选取时 间上相邻但翅膀位置差别较大的帧作为参考帧的预测效果要好得多。 图2 8 为多参考帧运动补偿示意图。当前帧第h 帧中的3 个块分别由之前的 第n 一1 帧、第h 一3 帧和第n 一4 帧预测得到。 图2 - 8 多参考帧运动补偿不惹图 显然,多参考帧的引入给运动估计带来了更大的灵活性,提高了运动补 偿的精确度,从而有助于降低码率。但是这也带来了负面影响,首先,运动 补偿时需要遍历所有参考帧,加大了运算量和运算时间,其次,需要更多的 存储空间来存储多个参考帧。文献1 4 6 给出了采用多参考帧对编码性能的 改善,文献【4 7 】给出了多参考帧对编码速度的影响。 耍直奎逗盔芏亟塑窒生堂焦造窒笺! ! 亟 小数像素精度运动向量 帧间编码宏块的每一分区由参考帧中相同大小的区域预测。这两个区域 的偏移量,即编码分区的运动向量,对亮度分量来说最小可以达到1 4 像素 精度。图2 - 9 为一示例图。图2 - 9 ( a ) 为当前帧中一个待预测的4 x 4 子分区。 如果水平和竖直方向上的运动向量值是整数,则参考帧中真实存在相应的预 测像素( 灰色像素) ,如图2 9 ( b ) 所示。如果运动向量的一个或两个分量 为小数值,则预测像素( 灰色) 由参考帧( 白色像素) 中相邻整数位置处像 素插值而来,如图2 - 9 ( c ) 所示。 oo oooo o o o o o o o o oooooo a ) 当前帧中的4 x 4 子块 ooo00o ooo0 0 0 oooo0o oop0 0 0 o 巧o0 o o oooooo b ) 参考块:向量( 1 , - 1 ) oooooo 0ooo ooo0 o o 0o0o oooooo oooo oooo o 0 o 口鸟g 芬g oooo0o c ) 参考块:向量( 0 7 5 r 0 5 ) 图2 - 9接数和小数像素预测示意图 与整数像素运动补偿相比,小数像素运动补偿可以显著提高压缩效率, 当然代价是运算复杂度的提高。1 4 像素精度表现好于1 2 像素精度。 参考帧中在小数像素位置处并不存在任何的亮度或色度像索,因此要实 现小数像素的运动补偿,需要用参考帧中的整数像素位置处的像素值插值出 小数像素位置处的值。对于亮度分量,1 2 像素位置处的像素值由6 - t a p 的有 限冲击响应滤波器对相邻位置处的整数像素进行插值得到,即每一个1 2 像 素位置处的像素值是6 个相邻位置处的整数像素的加权和。一旦插值出所有 1 t 2 像素位景处的像素,每一个1 4 像素位置处的像素值就可以由相邻的整数 位置处的像素和经插值得到的1 2 像素位置处的像素通过双线性插值得到。 耍蜜至湮盔堂亟堡童生堂童迨窒篁! 垒夏 运动向量的预测 运动向量的编码需要一可观数目的比特数,特别是当选择了小分区时更 是如此。相邻分区的运动向量通常相关性极大,因此每一分区的运动向量可 由前一相邻编码分区的运动向量预测而来。当前分区的预测向量值m v p 为前 面已编码的分区的运动向量,而真正编码和传输的是当前分区的实际运动向 量和其预测向量的差值m 。m v p 的计算方法不一,由运动补偿分区的类型 和相邻运动向量是否可用这两个因素决定。基本的预测方法是取当前分区正 上方的分区、其右上方的分区和其左边的分区的运动向量三者的中值。 在解码器端,由与编码器相同的方法得到每个分区的预测的运动向量 m v p ,再加上解码后的运动向量差值m 即可得到分区的实际运动向量。 2 3 变换 与之前的视频编码标准相似,h 2 6 4 1 a v c 也对预测差值进行变换编码。 之前的视频编码标准中普通采用8 8 的d c t 变换,而d c t 变换是基于浮点 运算的,因此在d c t 变换和d c t 反变换之间存在误差。此外,8 x 8 的块变 换,降低了相邻块之间的相关性,容易产生块效应。因此,h 2 6 4 a v c 中使 用了4 x 4 的整数变换。因为反变换是整型操作,避兔了浮点操作带来的四舍 五入误差,所以整型变换可以避免反变换不匹配的情况。此外,采用小尺寸 的块进行变换有助于降低块效应,而且整数变换在大多数硬件平台上仅使用 加法操作和移位操作运算就能完成,因此能减少运算量和运算复杂度。 由于d c t 变换在性能上最接近统计最优的k - l 变换,因此4 x 4 整数变 实质上是用整数逼近d c t 变换。逼近的结果是获得h 2 6 4 a v c 中的4 x 4 整 数变换: y ;h x h t 固e 。 11 21 11 1 _ 2 11 1 2 11 2 - 1x 睢 11 1 - 2 12 11 ( 2 1 ) 其中,a :1 2 ,b = 玩,t , ”表示刺矩阵中每一个元素与矩阵e 对 应位置的元素相乘。“ e ”部分可以移入量化阶段的常系数矩阵,通过查表 舭雌舭即 2 2 矿啊嘶 舭即舭即 矿呦矿嘲 亘直童逼盍芏亟塑窒垒堂焦迨窒 苤! ! 亟 完成。 h 2 6 4 a v c 针对不同的宏块类型定义了3 种不同的整数变换操作。 1 ) 对4 4 残差数据进行的整数变换 记残差信号为矩阵尸,变换系数为c ,则c = h p h r ,其中h 为变换矩 阵: 一 11 21 11 12 11 12 一l1 21 ( 2 2 ) 2 ) 对1 6 1 6 帧内预测宏块数据进行的整数变换 宏块数据按第一种变换方式进行变换,将得到1 6 个4 4 亮度子块的d c 系数构成一个4 x 4 的系数矩阵,记为爿,将a 进一步变换,变换系数记为c , 则c = n n n r 。其中变换矩阵: 肌睢 11 1 1 11 11 ( 2 3 ) 3 ) 对8 8 色度块的残差数据进行的整数变换 残差数据按第一种变换方式进行变换,将得到4 个4 4 色度子块的d c 系数构成一个2 2 的系数矩阵,记为b ,将b 进一步变换,变换系数记为c , 则: c 咋剥 协一, 2 4 量化 h 2 6 4 a v c 对变换系数的量化操作采用分级量化,而没有采用以前标准 中的固定量化步长的策略。用于索引量化步长g 卸的量化参数q p 共有5 2 个可选值,每个宏块可以单独选择量化参数。表2 2 显示了量化参数q p 和 耍蜜童道盍堂亟塑窭生堂垡迨窒筻! ! 基 量化步长q s t e p 之间的关系。 表2 - 2 量化参数q 尸和量化步长q s t e p 关系表 q p 012345678 91 0 g 托p 6 2 56 8 7 58 1 2 58 7 511 1 2 51 2 51 3 7 51 6 2 51 7 52 q p 1 11 21 31 41 51 61 71 81 92 0 2 1 q 卿 2 2 52 52 7 53 2 53 544 555 56 57 q p 2 22 32 42 52 62 72 82 93 03 1 3 2 q 卿 891 01 11 31 41 61 82 02 22 6 q p 3 33 43 53 63 73 83 94 04 14 24 3 函甲 2 83 23 64 04 45 25 66 47 28 08 8 q p 4 44 54 64 74 84 95 05 1 g 卸 1 0 41 1 21 2 81 4 41 6 01 7 62 0 82 2 4 2 5 编码 视频编码中,通常对一个块量化后的变换系数先进行z 型扫描,然后熵 编码进行传输。色度分量的2 x 2 块的d c 系数以光栅扫描顺序扫描。 熵编码是整个视频编码中的一个重要环节。其实质是将最常出现的消息 用短码表示,不常出现的消息用长码表示,以使平均码长尽可能的短。关于 熵编码和使用熵编码进行数据压缩的理论基础,可参考文献 1 8 ,3 9 1 。 h 2 6 舭w c 支持两种类型的熵编码方法,一种叫可变长编码( v a r i a b l e l e n g t hc o d i n g ,v l c ) ,另一种叫上下文自适应二进制算术编码 ( c o n t e x t a d a p t i v eb i n a r y a r i t h m e t i cc o d i n g ,c a b a c ) 。可变长编码中,一 种叫做上下文自适应可变长编码( c o n t e x t a d a p t i v e v a r i a b l el e n g t h c o d i n g , c a v l c ) 用于对量化后的变换系数进行编码。在这种方式下,根据己传输语 法元素,不同的语法元素切换到不同的v c l 表进行编码。因为所有的v c l 表是为了匹配相应条件下的统计特性而精心设计的,所以与只使用单一v c l 耍壶童逼叁堂亟受窒生堂焦迨塞篁! ! 亟 表相比,这种熵编码性能大大提高了。另一种可变长编码是基于指数型 g o l o m b 码的致变长编码( u n i v e r s a lv a r i a b l el e n g t hc o d i n g ,u v l c ) ,用 于对除了量化后的变换系数之外的所有语法元素进行编码。 如果用到上下文自适应二进制算术编码( c o n t e x t a d a p t i v eb i n a r y a r i t h m e t i cc o d i n g ,c a b a c ) ,熵编码的效率能够得到进一步提高。一方面, 使用数学编码使得为字母表中每个字符分配非整型数目的比特数,这对概率 远大于0 5 的字符非常有利。另一方面,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论