(模式识别与智能系统专业论文)h264视频编码标准的关键技术研究.pdf_第1页
(模式识别与智能系统专业论文)h264视频编码标准的关键技术研究.pdf_第2页
(模式识别与智能系统专业论文)h264视频编码标准的关键技术研究.pdf_第3页
(模式识别与智能系统专业论文)h264视频编码标准的关键技术研究.pdf_第4页
(模式识别与智能系统专业论文)h264视频编码标准的关键技术研究.pdf_第5页
已阅读5页,还剩93页未读 继续免费阅读

(模式识别与智能系统专业论文)h264视频编码标准的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 h 2 6 4 a v c 是由国际电信联盟( 删) 和国际标准化组织( i s o ) 共同制定的 新一代视频编码标准。该标准采用了一系列先进编码技术,在编码效率、网络适 应性等诸多方面都超越以往的视频编码标准,代表了未来多媒体数据压缩编码的 发展趋势。及时跟踪和掌握h 2 6 4 a v c 的核心技术,并结合实际应用在某些关键 方向上有所创新和发展,是一项很有价值的工作。 本文深入剖析了h 2 6 4 a v c 的编码策略和技术特性,并重点研究其中的3 项 关键技术:整数变换,帧内预测和运动估计。首先对h 2 6 4 a v c 所使用的整数变 换算法和相关的量化过程进行了系统的推导和论证,并与传统的变换算法对比分 析了其优点。随后系统研究了编码算法中的帧内预测技术,针对h 2 6 4 a v c 的频 域帧内预测算法,首次揭示了关于预测选项的两条一般性规律,并提出了“相关性 因子”的概念用以判断相邻块预测选项;在此基础上提出了一种自适应空域帧内预 测算法( 简称a s i p ) ,能够有效降低帧内预测的计算复杂度。最后对视频编码中的 运动估计算法进行研究,回顾了经典的运动估计算法,在此基础上提出了一种六 边形运动矢量场自适应搜索算法,简称h m v f a s t 。实验结果表明,和目前的运 动估计算法相比,h m v f a s t 在速度和精度方面都具有良好的性能。 关键词:视频编码h 2 6 4 a v c 帧内预测整数变换运动估计 a b a s t r a c t t h e e m e r g i n g h 。2 6 4 a v cv i d e oc o d i n gs t a n d a r dw a sd e v e l o p e dc o l t a b o r a t i v e l yb y t h ef l v ta n di s o i e c b ya d o p t i n gan u m b e ro fn e wc o d i n gt e c h n i q u e s ,玎2 6 4 a v c h a sa c h i e v e da s i g n i f i c a n ti m p r o v e m e n t i n c o m p r e s s i o n p e r f o r m a n c e a n da “n e t w o r k - f r i e n d l y ”v i d e or e p r e s e n t a t i o nr e l a t i v et oe x i s t i n g s t a n d a r d s i nt h i s d i s s e r t a t i o n ,t h e a u t h o r m a i n l y r e s e a r c ho ut h en e wt e c h n i q u e si n h 。2 6 4 a v c , e m p h a t i c a l l yo n3c o r et e c h n i q u e s :i n t e g e rt r a n s f o r m ,i n t r ap r e d i c t i o na n d m o t i o ne s t i m a t i o n 。 f i r s tt h ea u t h o rd e s c r i b e st h es y s t e m a t i ca p p r o a c ht od e s i g nt h ei n t e g e rt r a n s f o r m a n dq u a n t i z a t i o ni nh 2 6 4 a v c u n l i k et h e p o p u l a r 8 x 8d c tu s e di n p r e v i o u s s t a n d a r d s ,t h e4 x 4i n t e g e rt r a n s f o r mc a nb ec o m p u t e dw i t h o u tm u l t i p l i c a t i o n s ,j u s t a d d i t i o n sa n ds h i f t si n1 6 一b i ta r i t h m e t i c ,t h u sm i n i m i z i n g c o m p u t a t i o n a lc o m p l e x i t ya n d a v o i d i n g i n v e r s et r a n s f o r mm i s m a t c h 。 i n t r ap r e d i c t i o nc a n i m p r o v e t h ec o d i n ge f f i c i e n c yo fip i c t u r ee f f e c t i v e l y i no r d e r t o i m p r o v et h es p e e do fi n t r ap r e d i c t i o n i nh 2 6 4 a v c , w e d e v e l o p an e wi n t r a p r e d i c t i o na l g o r i t h m c a l l e da d a p t i v es p a t i a l d o m a i ni n t r ap r e d i c t i o n a l g o r i t h m ( a s i p ) e x p e r i m e n t a lr e s u l t ss h o w t h a tt h ep r o p o s e da l g o r i t h mh a sab e t t e rs p e e dp e r f o r m a n c e c o m p a r i n g w i t ht h eo r i g i n a la l g o r i t h m 。 f i n a l l y , t h e a u t h o rd i s c u s s e sa n o t h e rk e yt e c h n i q u ei nv i d e oc o d i n gs t a n d a r d : m o t i o ne s t i m a t i o n b a s e do ns o r t i et y p i c a lb l o c km o t i o ne s t i m a t i o na l g o r i t h m s ,an o v e l a l g o r i t h mc a l l e dh e x a g o nb a s e dm o t i o ne s t i m a t i o na l g o r i t h mu s i n gf e a t u r ea d a p t i v e s e a r c ht e c h n i q u e ( h m v f a s t ) w a s p r o p o s e d i ti sc o m p o s e d o ft h e p r e d i c t i o no f i n i t i a l s e a r c hp o i n t ,a d a p t i v es e a r c hm o d e sb e t w e e nh e x a g o ns e a r c ha n ds m a l ld i a m o n d s e a r c hf o rv i d e os e q u e n c ew i t hd i f f e r e n tm o t i o n ,a n da l le f f e c t i v eh a l f - s t o pc r i t e r i a e x p e r i m e n t ss h o wt h a th m v f a s t c o u l do b t a i ng o o dp s n rp e r f o r m a n c ea sw e l la s l o w c o m p u t a t i o n c o s t k e y w o r d :v i d e oc o d i n g , h 2 6 4 a v c , i n t r ap r e d i c t i o n , i n t e g e rt r a n s f o r m , f m o t i o ne s t i m a t i o n 笙二翌堑堡一一l 一 第一章绪论 1 1 问题的提出 2 l 世纪的人类社会是信息化社会,随着多媒体与网络技术的飞速发展,以前 制约图像通信发展的各种因素正在逐步消失,视频、图像、计算机视觉、多媒体 数据库和计算机网络技术日益融合,已经渗入到国民经济和社会生活的各个方面。 然而,数字化的视频信息在满足人们需求的同时,对数据传输带宽、数据存储 容量提出了更高的要求。例如,幅中等分辨率( n t s c 制式,2 4 b i t s p i x e l ) 的彩 色数字视频,其传送速率约为2 2 1 1 m b p s :而高清晰度电视h d t v 的传输速率则 在1 2 g b p s 以上。庞大的视频数据给信息的存储和传输都造成了较大的困难,成为 阻碍人类有效的获取和使用信息的瓶颈问题之一。 早在上个世纪四十年代末期,人们就已开始着手图象压缩编码技术的研究,以 期达到有效的数据压缩,至今已经走过了近半个世纪的发展历程。从五、六十年 代基本方法的探讨,到七十年代早期可视电话的研究,使得这一领域有了长足的 进展,许多基本的思想和方法都相继被提出。到八十年代前后,顺应信息化潮流, 面向各种应用的开发研究大力开展起来。进入九十年代以后,国际上致力于标准 化的工作,先后制定了一系列视频图象编码标准,如用于视频存储和传输的 m p e g - 1 【i j 、m p e g - 2 1 2 j 、m p e g - 4 1 3 】标准,用于视频会议和可视电话的h 2 6 1 1 4 1 、 h 。2 6 3 忙j 、h 2 6 4 1 a v c 6 1 等。这些视频压缩编码标准的制定。同时也极大地促进了视 频压缩编码技术和多媒体通信技术的发展, 1 2 1 视频编码技术 1 2 视频编码发展概况 视频图象数据具有多种冗余特性,如空间冗余、时间冗余、心理视觉冗余和熵 编码冗余等。视频压缩编码就是针对视频数据的一种或几种冗余特性采用相应的 方法加以消除,只保留相互独立的信息分量,从而达到令人满意的数据压缩的目 的。 视频压缩发展到现在已有几十年的历史。1 9 4 8 年,o l i v e r 提出了第一个编码理 论脉冲编码调制( p u l s ec o d m gm o d u l a t i o n ,简称p c m ) ;同年,s h a n n o n 的经 典论文“通信的数学原理”首次提出了信息率失真函数的概念;1 9 5 9 年, s h a n n o n 进一步确立了码率失真理论;而b e r g e r 在1 9 7 1 年所著的信息率失真理 h 2 6 4 视频编码标准的关键技术研究 论一书则对率失真理论理论做了系统地论述和扩展;以上各项工作奠定了信息 编码的理论基础。s h a n n o n 的信息论具有高度概括性和综合性,在实践中得到了广 泛的应用。可以说,整个压缩编码的历史就是以s h a n n o n 信息论为出发点,不断 克服其缺陷的过程。 “第代”视频压缩编码技术正是以s h a n n o n 信息论为基础,主要有预测编码、 变换编码和统计编码这三太经典编码方法。它们都是非常优秀的纹理编码方案, 能够在中等压缩率的情况下,提供非常好的图像质量。“第一代”编码技术在2 0 世 纪8 0 年代已趋于成熟,这类技术去除客观和视觉冗余信息的能力已接近极限,许 多优秀成果己被吸收近年来所制定的图像,视频压缩标准中。“第一代”编码技术只 是以信息论和数字信号处理技术为理论基础,其压缩比普遍不高,大约在1 0 :l 左 右。当需要进行低码率的图像数据压缩时,往往无法提供令人满意的质量。究其 原因是由于这些技术都没有利用图像的结构特点,因而也就只能以象素或块作为 编码的对象:另一方面,这些技术在设计编码器时也没有考虑人类视觉系统的特 性。 “第二代”图像压缩编码技术这一术语是在2 0 世纪8 0 年代中期正式出现的。它 突破了原有信息论的框架,充分利用了计算机图形学、计算机视觉、人工智能与 模式识别等相关学科的研究成果,如人的视觉生理、心理和图像信源的各种特征, 实现从“波形”编码到“模型”编码的转变,为视频图像压缩编码开拓出了广阔的前 景。“第二代”编码方法主要有:基于分形的编码、基于模型的编码、基于区域分 割的编码和基于神经网络的编码等,其压缩比多在3 0 :1 至7 0 :1 之间,有的甚至高 达1 0 0 :1 。但是由于“第二代”编码方法大大增加了实现的复杂度,从当前发展情况 来看,“第二代”编码方法仍处于深入研究的阶段。例如,分形法由于图像分割、迭 代函数系统代码的获得是非常困难的,因而实现起来时间长,算法非常复杂。模 型法则仅限于人头肩像等基本的视频图像上,进一步的发展有赖于新的数学方法 和其它相关学科的发展。神经网络的工作机理至今仍不清楚,硬件研制不成功, 所以在视频压缩编码中的应用研究进展缓慢,目前多与其他方法结合使用。但由 于其巨大的潜力,人们都在致力于这些新方法的研究。 近年来,出现了一类充分利用人类视觉特性的“多分辨率编码”方法,如子带编 码、塔形编码和基于小波变换的编码。这类方法使用不同类型的一维或二维线性 数字滤波器,对视频图像进行整体的分解,然后根据人类视觉特性对不同频段的 数据进行粗细不同的量化处理,以达到更好的压缩效果。这类方法原理上仍属于 线性处理,属于“波形”编码,可归入经典编码方法,但它们又充分利用了人类视觉 系统的特性,因此可以被看作是“第一代”编码技术向“第二代”编码技术过渡的桥 粱。 第一章绪论 3 _ _ - _ - _ r k - - ,、一一一 1 2 2 视频编码的国际标准 标准化是产业化活动的前提,一项技术在能够广泛应用于工业生活之前必须存 在全球统一的工业标准。近年来,一系列国际视频编码标准的制定,极大地促进 了视频压缩编码技术和多媒体通信技术的发展。视频压缩编码标准的制定工作主 要是由国际标准化组织( i n t e r n a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n ,i s o ) 和国际电 信联盟( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ,i t u ) 完成的。由i t u 组织制定的 标准主要是针对实时视频通讯的应用,如视频会议和可视电话等,它们以h 2 6 x 命名;而由i s o 和i e c ( i n t e r n a t i o n a le l e c t r o t e c h n i c a lc o m m i s s i o n ,国际电工委员 会) 的共同委员会中的m p e g 组织( m o v i n g p i c t u r ee x p e r tg r o u p ) 制定的标准主 要针对视频数据的存储( 如v c d 和d v d ) ,广播电视和视频流的网络传输等应用, 它们以m e p g - x 命名。各种视频压缩编码标准都是根据人们在不同领域中对声像 数据的要求所制定的,并且随着人们的需求不断地发展。图1 1 按制定时间的顺序 表述了视频编码标准的发展历程。 9 8 41 9 8 61 9 8 8 】9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 2 2 0 0 4 图1 1 视频编码国际标准的发展 在r r u 和i s o i e c 所制定的这些标准中,并没有对视频编码的具体算法做硬性 规定,而仅仅是定义了相应的解码方法和比特流语法,使得对于符合某标准的 压缩码流,所有的解码器都能够得到相同的输出结果,这也为标准的具体应用带 来了最大限度的自由度。下面我们就对几种典型的国际视频编码标准做简要介绍。 一、m p e g 系列标准 1 m p e g 1 m p e g - 怫悯i 于1 9 9 3 年,是针对数据传输率1 5 m b p s 下的数字存储介质图像及 其伴音编码的国际标准,共分为图像编码、声音编码和系统( 同步和复用) 3 6 部 分。该标准主要用于在各种数字存储介质( c d r o m 、d a t 、w i n c h e s t e r 盘等) 上 存储同步和彩色运动视频信号,在1 2 m b p s 速率下的视频质量可与v h s ( 家用视频 系统) 所记录的模拟视频质量相媲美。m p e g 1 对色差分量采用4 :1 :1 的二次采样率, 可优化为中等分辨率,并在优化的模式下采用所谓的标准交挟格式( s i f ) ,其视频 压缩率约为2 6 :1 。m p e g - l 标准采用了运动估计,运动补偿、变换编码等技术,并规 h 2 6 4 视频编码标准的关键技术研究 定了编码位流的表示语法和具体解码方法。 f f :m p e g 1 标准是针对数字存储的应 用而制定的,因此它的编解码器是不对称的,其编码端的复杂度通常要远远高于 解码端。 2 m p e g 一2 ( h ,2 6 2 ) m p e g 2 标准是由i s o 的m p e g 专家组和i t u t 的第1 5 研究组与1 9 9 4 年共同制定 的,全称为“运动图像及其伴音的编码”,在i t u t 的协议中也被称为h 2 6 2 建议 ( r e c o m m e n d a t i o nh 2 6 2 ) 。m p e g 2 的传输速率为3 m b p s - 1 0 m b p s ,主要针对数 字电视和高清晰度电视( h d t v ) 所需要的视频及伴音信号,此外还兼顾了与a t m 信 元的适配问题。 m p e g 一2 在m p e g 一1 的基础上做了相应的扩展,从多方面提高了编码参数的灵 活性以及编码性能。它综合采用了运动补偿的帧间预测、空间域离散余弦变换、 自适应量化和可变长编码的混合编码。m p e g 2 视频编码标准是一个分等级的系 列,按编码图像的分辨率分成4 个等级( l e v e l s ) ;按所使用的编码工具的集合分成五 个类另1 ( p r o f i l e s ) 。“等级”与“类别”的若干组合构成m p e g 2 视频编码标准在某种特 定应用下的子集,对某输入格式的图像,采用特定集合的压缩编码工具,产生 规定速率范围内的编码码流。目前m p e g 2 标准已经在d v d 存储和数字电视广播方 面得到了广泛应用。 3 m p e g 4 在m p e g - 1 和m p e g 2 之后,i s o 的m p e g 工作组于1 9 9 9 年4 月出台了m p e g - 4 标准( i s 0 1 4 4 9 6 ) ,并在1 9 9 9 年1 2 月提出了第二版的i s o 最终草案( i s 0 1 4 4 9 6 2 f c d ) 。m p e g - 4 提出了音视频对象( a u d i o v i d e o o b j e c t ,a v o ) 的概念,并在此 基础上实现了许多新的功能,为各种多媒体应用特别是基于i n t e r n e t 和移动网络的 应用提供了理想的工具,如基于内容的编码、错误掩盖和基于内容的可伸缩性等。 与m p e g 前两个图像压缩标准相比,m p e g 一4 为多媒体数据压缩提供了一个更为广 阔的平台,更注重于定义一种格式和框架,而不是具体的算法,其出发点就是希 望建立起一个更自由的通信与研发环境,可以在系统中加入许多新的算法,为使 用计算机软件实现编码和解码提供更大的方便。它可以将各种各样的多媒体技术 充分应用于编码中,除包括压缩本身的一些工具、算法外,还包括图像分析和合 成、计算机视觉、计算机图形学、虚拟现实和语音合成技术。 4 m p e g 7 $ i m p e g 2 1 m p e g 7 标准1 7 称为“多媒体内容描述接口”( m u l t i m e d i a c o n t e n t d e s c r i p t i o n i n t e r f a c e ) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们 之间的关系,以便更快更有效的检索信息。该标准的第4 版已于2 0 0 0 年l o 月发布, 它通过标准化一种用来定义描述方案的语言,即描述定义语言( d d l ) ,使带有与之 相关的m p e g 7 数据的a v 素材,就可以被加上索引,并可进行检索。这些媒体材 第一章绪论 料可包括静态图像、图形、3 d 模型、声音、话音、电视以及在多媒体演示中它们 之间的组合关系。 在m p e g 7 的基础上,i s 0 又于 1 9 9 6 年开始着手m p e g - 2 1 标准嘲的制定工作。 m p e g 2 1 是一个支持通过异构网络和设备使用户透明而广泛地使用多媒体资源的 标准,其目标是建立一个交互的多媒体框架,该框架能够使遍布全球的各种网络 和设备上的数字资源被透明和广泛的使用。 总体来说,m p e g 一4 和m p e g 2 1 其应用范围业已超出了传统的传输和存储范 畴,而是转向多媒体检索、交互式多媒体操作和内容管理等领域,已经不是一种 单纯意义上的视频编码算法。 二、 l 2 6 x 系列标准 1 h 2 6 1 h 2 6 1 建议是最早出现的视频编码国际标准,由i t u t 第1 5 研究组为在窄带 综合业务数字网( n i s d n ) 上开展双向声像业务( 可视电话、电视会议) 而制定 的。该建议于1 9 9 0 年通过,其全称为“p x 6 4 k b i f f s 视昕业务的视频编解码器”,其 中p = 1 3 0 ,用以根据传输线路的带宽调整图像质量。h 2 6 1 只对c i f 和q c i f 两种图像格式进行处理,采用的算法结合了可减少时间冗余的帧间预测和可减少 空间冗余的d c t 变换的混合编码方法,主要由运动估计补偿、d c t 变换和h u f f m a n 编码等部分组成。由于该建议主要针对实时业务,因而希望编解码的延时尽可能 小,所以只利用前一帧做参考帧进行前向预测,且编解码器的复杂程度基本对称。 2 h 2 6 3 h 2 6 3 建议是i t u t 提出的关于码率低于6 4 k b i t s 的窄带电信信道视频编码的基 本算法,于1 9 9 6 年正式通过。它以h 2 6 1 为基础,同时吸收了m p e g 等其他一些国 际标准中有效合理的部分做出改进,如半像素精度的运动估计、不受限运动矢量、 高级预测模式、p b 帧等,使其性能优于h 2 6 1 。h 2 6 3 建议不仅着眼于利用p s t n ( p u b l i cs w i t c h e dt e l e p h o n e n e t w o r k ,公共开关电话网络) 传输,而且兼顾g s t n 移动通信等无线业务,作为视频编码,解码的核心算法被广泛应用于视频电话终端 如i t u - t 的h 3 2 4 ( p s t n ) 、h 3 2 0 ( i s d n ) 和h 3 1 0 f b i s n r ) 中。 在h 2 6 3 之后,i t u 又相继于1 9 9 8 年和2 0 0 0 年制定了h 2 6 3 + t g l ( h 2 6 3v 2 h 2 6 3 第二版) 和h 2 6 3 + + ( i 2 6 3v 3 ,h 2 6 3 第三版) 。h 2 6 3 + 和h 2 6 3 + + 是h 2 6 3 标准的扩充 并与之兼容,主要是在h 2 6 3 的4 种可选模式的基础上又附加了新的可选模式和其 他一些附加特性,目的是拓宽应用领域、提高压缩效率和错误掩盖能力。 3 h 2 6 4 a v c h 2 6 4 a v c 作为面向电视电话、电视会议的新一代编码方式,最初是由i t u 组 织的视频编码专家组v c e g 于1 9 9 8 年提出的,目标是在同等图像质量条件下,新标 6h 。2 6 4 视频缀璃标准静若犍技术研究 准的压缩效率眈任何现有的视频编妫标准要提高l 情以上。直至u 2 0 0 1 年底,m p e g 组织也加入7 i t u t 的v c e g 组织,组成了联合视频专家组( j o i n t v i d e ot e a m ,j v t ) 共同完成制定工作。h 2 6 4 a v c 标准草案于2 0 0 3 年3 月难式获得通过。h 2 6 4 仍基于 经典混合编码搏法豹基本结构,在变换编码、熵编码翻运动估计等方面袋照了一 系翻先避毅零,楚褪藏镶玛鼓零秘毅豫王程夔最薮磅巍藏莱,萁整躯超越了 耋l 往 所有的视颓缡戳标准,具有光明的应用前景。 1 。3 ,1 主要疆巍工终 1 3 研究工作概要及章节安排 新一代视频编码标准h 2 6 4 a v c 正在蓬勃发展,代表着未来多媒体数据压缩 编码的发展趋辫,及时跟踪和了解h 2 6 4 a v c 的发展渤态,掌握其核心技术,并 结合实际应用猩某些关键方向上商所创新和发展,悬一项很有价值的工作。本文 以h 2 6 4 a v c 为中心,对视频编鹈的原理和各项技术进行了深入研究,熬点分辑 了其中夔3 矮关篷技东;整数交换、鲮瘗颈溅和运确接诗。全郝疆究工髂蜀软分 为如下6 个阶段: 1 熟悉视频编码的基本思想和原理,学习编码溅论和通信原理,奠定课题开 展的初步基础。 2 对原寄视频图象匿缩标准如h 2 6 1 、h 2 6 3 、m p e g 1 2 4 等国际标凇遴行深 入学习,瓣其墓奉愚想、熬俗框絮霹荚犍按零镣骞了完整靛谈谖。 3 。学习h 。2 6 4 a v c 标准,缩念箕校验模型j m ,深入割析了h 2 6 4 a v c 编解 码的原理和关键算法,井针对h 2 6 4 a v c 部分弹法通过软件进行仿真; 4 针对视频编码中的变换和激化算法进行研究,藏点研究了h 2 6 4 a v c 的整 数变换算法,并进行了仿真和比较。 5 赞对h 。2 6 4 a v c 孛兹装蠹鼷溅篓法逶行硬究,憨结出h 。2 6 4 1 a v c 谈肉鬏溺 翡两条一般往蕊律,在魏熬獭上提出蠡适应窑域棱内预溅算法( a s i p ) ;使 用v c 十十6 0 编写实验仿真平台加以验证。 6 针对视频编码的另一项核心技术运动估计算法进行研究和改j 投,在传 统算法的技术上提出了六i 趣形运动矢量场自邋成锼索算法;使用v c + + 6 ,0 编写趣实验乎台进行验涯。 本文的主骚贡献: 1 详细分析了h 2 6 4 a v c 帧内预测算法,首次揭涿了关于预测选项的两条 般性规樟:相邻块的预铡选项具有辐关性;预测逡项楣同的邻块s a d 俊其 篱一章绪论 有褶关性,并提出了“栩必性因子”的概念尉以判断预测选项的相同与否。 在此熬础上结合“半步停”技术提出了自适应空域帧内预测算法( a s i p ) ,实 验结果表明该算法大大降低了帧内预测的计辣量,是一种极为离散的预测 算法。 互结合麓始搜索轰颈溅、遐渤类壅嚣定窥模叛缀含,提塞了一秘效率雯亳翡 运动 舂计算法:六边形遨动矢薰场自适应搜索葬法( h m v f a s t ) 。该算法 充分利用了运动矢量的时间和空间相关性进行运动类型判定和起点预测, 结合使用了效率更高的六边形模板和小菱形模板,同时对于静止块设定阂 值纛接中止预测,提嬲了块匹配的速度。与传统的块匹配冀法相比, j h m v f a s t 在速凄秘耩发方嚣蘩毒羞骥显鬟麓。 3 深入研究了视频压缩编弼算法和现行的备静视频压缩标准,麓点分柝 h 2 6 4 a v c 中提高编码效率的新技术,归纳总结了其所使用的一系列先进 技术,如整数变换、帧内预测、c a b a c 、商精度、多参考帧逡渤估计等。 并与h 2 6 3 和m p e g 一4 避行了性能比较, 芷啤了h 2 6 4 a v c 是黯翦编码效 率簸舞、挂l 最好豹编弱舞法。 4 。分耩了视频编码中d c t 交换的典型侠速舞法及其优缺点,在既基础上 系统推导出h 2 6 i j h 2 6 4 采用的整数变抉方案,并对与其相关的蟹化过程 也做了详细探讨和分析。最后通过实验证明h 2 6 4 a v c 中整数瓷换和量化 方絮的诸多优点,指出熊够完全替代传统的d c t 。 1 。3 。2 论文肇警安撵 论文全文共分为6 章。第一帮为绪论,阐述视频编码的研究背景、意义和应用 现状。第二章介绍了h 2 6 4 a v c 的编码策略和技术特征。第三章首先分析了视频 编码中采用的变换算法,在此綦础上针对h 2 6 l 和h 2 6 4 a v c 所采用的两种整数 交换算渡傲了系统磷究。第四豢中磺究了援频编码烬准中的嚣类孛奏痰预测葵法, 锌辩h 2 6 4 黻内颈溺算计冀笺祭发高酶阖题,提穗7 一耱高效的算法:鑫适应空 域帧内预测辫法,并做了详细的描述和性能分析。第五章对视频编码中的运动估 计算法进行研究探讨,提出一种六边形运动矢量场自适应搜索算法,嫩过实验与 其它算法进行比较,证明了该算法的有效性。第六肇是对本文工作的总结和未来 工作豹一数矮望。 h 2 6 4 视频编码标准的关键技术研究 第二章h 2 6 4 a v c 视频编码标准 2 。1 引言 在1 9 9 5 年制定了面向可视电话、视频会议的h 2 6 3 标准后,r r u t 的视频编 码专家组( v c e g ,也称为i t u ts g l 6q 6 ) 在两个方向上开展进一步的研究:短 期目标( s h o r t - t e r mg o a l ) 是为h 2 6 3 标准增加更多的功能,产生了最终的h 2 6 3 + + 建议;长期目标( 1 0 n g t e r mg o a l ) 是建立一套全新的视频编码标准,该标准相比较 于以前的编码标准,具有更高的编码效率和更好的图像质量,这就是h 2 6 4 建议 的前身。新标准于1 9 9 8 年1 月份开始草案征集,v c e g 将其暂时命名为h 2 6 l 。 1 9 9 9 年1 0 月,完成第一个草案和的制定。2 0 0 1 年1 2 月,i s o 的m p e g 组织和i t u 的v c e g 成立了联合视频专家组( j o i n tv i d e ot e a m ,j ) ,共同负责h 2 6 l 标准 的制定和实簏,随后在j v t 的第一次会议上制定了以h 2 6 l 为基础的h 2 6 4 标准 草案和测试模型t m l - 9 1 1 0 】( t e s t m o d e l l o n g t e r m n u m b e r 9 ) 。2 0 0 3 年3 月新标准 获得正式通过,u 将该算法命名为“h 2 6 4 建议”( r e c o m m e n d a t i o nh 2 6 种,同时 i s o 将其作为m p e g 一4 的第1 0 部分,称之为“i s o i e c1 4 4 9 6p a r t l o 高级视频编码 算法 ( i s o i e c1 4 4 9 61 0 a v o 。图2 1 直观的显示出了h 2 6 4 a v c 的发展概况。为 了简单起见,在下文中将h 2 6 4 a v c 视频编码标准统称为h 2 6 4 标准。 圈2 1 h 2 6 4 发展历程 h 2 6 4 吸收了以前视频编码标准中一些已经证明行之有效的算法,另外一方面 又采纳了视频编码、图像处理领域的最新研究成果,在提高压缩编码效率和增强 网络适应能力等方面有了质的飞跃。根据应用场合的不同,h 2 6 4 作了制定了不同 的算法集和技术限定,共分为3 个类:基类( b a s e l i n ep r o f i l e ) 、主类( m a i np r o f i l e ) 和扩展类( e x t e n d e dp r o f i l e ) ,每个类下面又可以划分成不同的等级( l e v e l ) 。一 般来说,h 2 6 4 的应用包括但不限于下列领域: 基于c a m e 、卫星、x d s l 等的广播传输; 各种光磁存储设备,如d v d 等: 第二章h 2 6 4 a v c 视频编码标准 传统的基于i s d n 、以太网、u 心、d s l 和无线网络的视频传输: 各种多媒体信息服务( m u l t i m e d i am e s s a g i n gs e r v i c e s ,m m s ) 。 在本章中将对h 2 6 4 的编码策略和技术特性做简要论述与分析。 2 2i - t 2 6 4 编码策略 h 2 6 4 从h 2 6 3 的基础上发展而来,采用的仍然是经典的运动补偿混合编码算 法,具备良好的兼容性和可移植性。编码图像通常被分为3 种类型:i 帧、p 帧和 b 帧。i 帧为帧内编码帧,其编码不依赖于已经编码的图像数据。p 帧为前向预测 帧,b 帧为双向预测帧,编码时都需要根据已编码的帧即参考帧进行运动估计。除 此之外,h 2 6 4 还定义了新的s p 帧和s i 帧,用以实现不同传输速率、不同图像 质量码流间的快速转换以及信息丢失的快速恢复等功能。h 2 6 4 的编解码基本原理 参见图2 2 ,( a ) 为编码器框图,( b ) 为解码器框图。 一忆订 二、j r 1 麦捷r 11 “广 h 堕堡厂 l 堪卜弋- 震k 理弘罢上。 + r r 一 :击块1 、j l j ll 图2 2 h 2 6 4 编解码原理图( a ) 编码器( b ) 解码器 1 编码器端 编码过程中,原始数据进入编码器后,当采用帧内编码时,首先选择相应的帧 内预测模式进行帧内预测;随后对实际值和预测值之间的差值进行变换、量化和 熵编码,同时编码后的码流经过反量化和反变换之后重构预测残差图像,再与预 测值相加得出重构帧,得出的结果经过去块滤波器平滑后送入帧存储器。 h 2 6 4 视频编码标准的关键技术研究 采用帧间编码时,输入的图像块首先在参考帧中进行运动估计,得到运动矢量。 运动估计后的残差图像经整数变换、量化和熵编码后与运动矢量一起送入信道传 输。同时另一路码流以相同的方式重构后经去块滤波后送入帧存储器作为下一帧 编码的参考图像。 2 解码器端 当编码后的码流送入解码器时,首先根据语法元素进行判断。如为帧内编码, 则直接进行反量化、反变换加以重构;如果是帧间编码,所得到的为重构的残差 图像,此时需要根据帧存储器中的参考图像进行运动补偿后与残差图像进行叠加, 得出最终的当前帧。 2 3h 2 6 4 提高编码效率的技术特性 h 2 6 4 采用了一系列先进的编解码技术,如帧内预测、4 x 4 整数变换、高精度 运动估计、基于上下文的自适应二进制算术编码( c a b a c ) 、多参考帧运动估计 等,使得在同样的带宽条件下,h 2 6 4 视频图像质量超过了以往的任何编码标准。 实验证明,与h 2 6 3 + 和m p e g 一4 简单类( s i m p l ep r o f i l e ) 相比,在视频图像质量相 同的情况下,h 2 6 4 最多能够节省5 0 的码率。下面就h 2 6 4 提高视频编码效率的 技术做进一步分析。 一、整数变换算法 h 2 6 4 与以前的编码标准相似,对残差图像采用基于块的变换编码。但变换是 以4 x 4 像素的图像块为单位,且在变换和反变换过程中只包含整数运算。h 2 6 4 在制定的过程中尝试了多种不同的整数变换算法,在最终标准草案中定义的算法 是一种“分层”式的交换方案,包括如下3 个部分: 1 对亮度分量和色度分量的a c 系数使用4 4 的整数变换。 2 对亮度分量的d c 系数进行4 x 4 的整数变换。 3 对色度分量的d c 系数进行2 2 的整数变换。 h 2 6 4 整个变换方案的过程参见图2 3 。 一,- j 一一 ,;未;茹茹? l 燃一 图2 3 宏块整数变换流程 变换时首先对4 x 4 的图像块进行整数变换,使用的变换和反变换核如式( 2 1 1 所示。 一 箜三茎旦:! ! ! 尘曼塑塑塑里堡堡 ! ! _ 一 h = l1 2l 1一l 12 l1 12 11 21 h m ,= 1 l 2 一l一1 一ll 1 1 2 ( 2 - 1 ) 2 和l 陀只需要进行移位运算,因此在交换过程中只需要使用整数级别的算术 运算即可完成。 由于图像通常是缓慢变化的,在进行了上述的4 x 4 整数变换后,各块( o ,0 ) 位 置的d c 系数之间往往仍具有相关性。此时可以将亮度色度分量的d c 系数集中 再做一次变换,进一步解除其相关性。亮度分量的d c 系数以4 x 4 为单位进行整 数变换( 色度分量则为2 2 ) ,这罩使用h a d a m a r d 变换。一维4 4 的h a d a m a r d 变换核为 h = ( 2 - 2 ) h 2 6 4 通过采用该种“分层”式的变换方案,能够进一步降低变换后d c 系数之 间的相关性。为了便于进行码率控制,变换后量化步长的变化的幅度控制在1 2 5 左右,而不是以固定增幅变化。对色度系数采用了较小量化步长,使得色度分量 更为逼真。 简而言之,h 2 6 4 所采用的整数变换优点在于: ( 1 ) 变换中只使用整数算术运算,不存在反变换的误匹配问题,且降低了计算 复杂度; ( 2 ) 变换中只使用加法和移位运算,不使用乘法运算,硬件实现复杂度低; ( 3 ) 变换中的部分运算被结合到量化过程中完成,节省了整体的运算量。 h 2 6 4 所采用的整数变换算法是视频编码标准的一大进步,也是新标准区别于 其它标准的重要不同之处。在第三章中本文将详细剖析h 2 6 4 的变换和量化过程, 并给出对比实验结果以证明整数变换的优异性能。 二、帧内预测技术 在以前的视频编码标准中,大部分情况下帧内编码都采用直接做d c t 变换、 量化和熵编码的方法。在h 2 6 3 + 矛f lm p e g 4 在编码i 帧时采用了基于频域的帧内 预测。h 2 6 4 中使用了精度更高的帧内预测算法,该算法基于空间的像素值进行预 测。对于除了边缘块以外每个4 4 块,其中的像素都可用若干个最接近的先前已 编码的像素的不同加权和来预测。显然,这种帧内预测不是在时间上,而是在空 间域上进行的预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效 。归垆。 i l h 2 6 4 视频编码标准的关键技术研究 的i 帧压缩。本文将在第四章中对帧内预测的原理和实现方式做详细分析与研究。 三、熵编码算法 h 2 6 4 采用了两种熵编码方案,一种是可变长编码方案,包括通用可变长编码 ( u n i v e r s a lv i a b l e l e n g t hc o d i n g ,u v l c ) 和基于上下文的自适应可变长编码 ( c o n t e x t b a s e dv i a b l el e n g t hc o d i n g ,c a v l c ) ,另一种是基于上下文的自适应二 进制算术编码( c o n t e x t - b a s e da d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ,c a b a c ) 。 1 u v l c c a v l c 我们首先来看v l c 的编码思想。对于一个给定的互不相同的事件集合 e = 码,p :,e 。) 和这些事件的概率分布p ,s h a n n o n 证明了编码一个事件所需的最 少比特数是p 的熵h ( p ) 。 日( p ) = - p ( e 。) l 0 9 2p ( e 。) ( 2 3 ) 女= l 其中p ( e 。) 是事件e 。发生的概率,这样编码一个概率为p 的事件最短需要 一l o g :p 位。可变长编码算法( v l c ) 就是基于该种对数码字长度分布,对出现概 率高的符号赋以短码字,概率低的符号赋于长码字,使其编码尽可能的接近信息 熵,从而实现有效的数据压缩。 u v l c 是由传统的v l c 改进而来,它对h 2 6 4 标准中的除变换系数外的所有 语法元素,如宏块类型、帧内预测模式、运动矢量等都采用一个统一的码表 ( e x p g o l o m bc o d e ) 进行编码,编解码简单易实现。编解码过程如下。 编码过程:编码器将要编码的数字n 按照公式( 2 4 ) 和( 2 5 ) 计算出其码字长度l 和码字信息i n f o ,再根据l 和i n f o 得出编码码字形式。 :2 1 。9 2 掣+ 1 ( 2 - 4 ) i n f o = 月一2 x 掣+ 1( 2 5 ) 上 解码过程:解码器根据接收到的码

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论