(计算机应用技术专业论文)h264视频编码中帧间编码的研究.pdf_第1页
(计算机应用技术专业论文)h264视频编码中帧间编码的研究.pdf_第2页
(计算机应用技术专业论文)h264视频编码中帧间编码的研究.pdf_第3页
(计算机应用技术专业论文)h264视频编码中帧间编码的研究.pdf_第4页
(计算机应用技术专业论文)h264视频编码中帧间编码的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)h264视频编码中帧间编码的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 h 2 6 4 是i t u t 和i s o i e c 联合制订的最新国际视频编码标准,其中众多新颖的 算法特性大幅度提高了编码性能,同时运算复杂度也较其他视频标准有巨大增长。 如何尽量在保持h 2 6 4 编码性能的基础上,减少其运算复杂度和提高运行速度,是 h 2 6 4 能否实际应用的关键问题。 , 本文论述了h 2 6 4 编码原理,以及它的主要功能模块和采用的一些新技术。针 对h 2 6 4 中树状结构运动估计的特点,利用动态的退出阈值和子集比较预测法,提 啦了一种快速帧间块模式选择算法;为了更加精确的选择搜索初始点和确定搜索 区域,提出了一种基于中心偏向的自适应运动矢量预测算法;结合帧间编码提出 全零系数块预先判决算法,通过计算的s a d 值来判断是否为零块,减少o c t 变换和 量化豹次数。实验测试表明,在基本上不降低图像质量的情况下,新算法使得编 码速度得到了很大提高。 最后,对h 2 6 4 视频编码的进一步发展和研究提出了自己的一些看法。 关键词:h 2 6 4 ,运动估计,模式选择,运动矢量预测,d c t h 2 6 4i st h en e w e s ti n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d , j o i n td e v e l o p e db yi t u t a n di s o i e c , ag r e a tm a n yo fn o v e la l g o r i t h mc o m p o n e n t se n h a n c et h e c o d i n g e f f i c i e n c ys i g n i f i c a n t l y , w h i l ed r a m a t i c a l l yi n c r e a s et h ec o m p u t a t i o n a lc o m p l e x i t yt h a n t h ep r e v i o u ss t a n d a r d s h o wt or e d u c ei t sc o m p l e x i t ya n da c c e l e r a t et h ee x e c u t i o ns p e e d w h i l em a i n t a i n i n gt h eo u t s t a n d i n gc o m p r e s s i o np e r f o r m a n c ei sac r u c i a lp r o b l e mi nt h e h 2 6 4a p p l i c a t i o n i nt h i st h e s i s ,t h ee n c o d i n gp r i n c i p l eo fh 2 6 4a n di t sm a i nf u n c t i o nm o d u l e sa n d n e wt e c h n o l o g i e sb e i n ga d o p t e da r ei n t r o d u c e d af a s tb l o c km o d es e l e c t i o na l g o r i t h m f o c u s i n g0 1 1t h et r e es t m c t o r e dm o t i o ne s t i m a t i o ni sp r o p o s e di nh 2 6 4 , s u c c e s s i v e s e l e c t i n gap r o p e ri n t e rb l o c km o d ef a s tb yad y n a m i ct h r e s h o l da n ds u b s e tc o m p a r i s o n p r e d i c t i o n a n dt h e nan e wa d a p t i v ep r e d i c t i o na l g o r i t h mf o rm o t i o nv e c t o rb a s e do nt h e c e n t r a lt r e n di sp r o p o s e df o rg e t t i n gm o r ea c c u r a t em o t i o ne s t i m a t i o np o i n ta n dm o r e a p p r o p r i a t es e a r c h i n gf i e l d s a tl a s ta na l g o r i t h ma b o u td e c i s i o no fa l l - z e r ob l o c k si s p r o p o s e db yc a l c u l a t i n gt h es a d ,s ot h a td e c r e a s et h es c a l a ro fi n t e r g e rt r a n s f o r ma n d q u a n t i z a t i o nw i t hi n t e rc o d e e x p e r i m e n t a lr e s u l t ss h o wt h a t ,t h ep r o p o s e dm e t h o d sc a n i m p r o v et h ec o d i n gs p e e da n dt h ec a p a b i l i t yo fe n c o d i n gl o s e sq u i t el i t t l e s o m ei d e a sf o rt h en e wd e v e l o p m e n ta n dr e s e a r c ho fh 2 6 4v i d e oc o d i n ga r e p r o p o s e da t1 a s t k e y w o r d :h 2 6 4 ,m o t i o ne s t i m a t i o n ,m o d es d e c t i o n , m o t i o nv e c t o rp r e d i c t i o n ,d c t 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其它人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:丝 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名: 导师签名:纽 日期呈翌2 正皇:坌j 日期垒竺笪兰卯 第一章绪论 第一章绪论 1 1 引言 随着上世纪七十年代后大规模和超大规模集成电路技术、数字信号处理技术、 计算机技术、通信技术的跨越式飞速发展,人类对信息的处理也迅速从模拟领域 进入数字领域,从本地的单机处理进入网络交互式处理,从简单的文本信息处理 进入多媒体信息处理。因此2 1 世纪被形象的成为信息时代、数字时代、多媒体时 代。 多媒体信息主要包括文字、声音、图像、图形和视频等内容,其中视频又是 多媒体信息中最重要的组成部分。这是因为:首先,视频信息极易被人类接受, 据统计人类接受的信息大约7 0 来自视觉。其次,视频信息具有直观、形象、准 确、高效和应用广泛等特点。第三,视频的信息容量大,与音频、数据相比,视 频具有无与伦比的信息容量,但与文本、数据和语音相比,数字视频巨大的数据 量使得未经压缩的数字视频几乎没有实用价值。比如按现在常见的c i f 格式的标 准视频,其分辨率为3 5 2 2 8 8 ,每秒3 0 帧,y :u :v 为4 :i :1 0 若以8 b i t 表 示y 信号,则每象素占1 2 b i t ,码率约为3 5 6 4 m b p s 。若不经压缩的传输一路这类 信号要占用约5 5 7 个6 4 k b p s 的数字话路,这在实际应用中是难以接受的。另外若 不经压缩的存储,用一个容量为6 5 0 m b 的c d - r o m 则只能存储不到3 分钟的图像。 因此无论存储还是传输,数字视频都必须经过压缩才具有实际意义,这就使得视 频压缩技术成为多媒体信息技术的关键所在。 2 视频压缩技术的发展和概况 视频压缩发展到现在己有几十年的历史。1 9 4 8 年,0 1 i v e r 提出了第一个编码 理论一脉冲编码调制( p u l s ec o d i n gm o d u l a t i o n ,简称p c i d ) ;同年,s h a n n o n 的经典论文一“通信的数学原理”首次提出了信息率失真函数的概念;1 9 5 9 年, s h a n n o n 进一步确立了码率失真理论;而b e r g e r 在1 9 7 1 年所著的信息率失真理 论一书则对率失真理论理论做了系统地论述和扩展,以上各项工作奠定了信息 编码的理论基础。s h a n n o n 的信息论具有高度概括性和综合性,在实践中得到了广 泛的应用。可以说,整个压缩编码的历史就是以s h a n n o n 信息论为出发点,不断 克服其缺陷的过程。 目前的视频压缩标准主要分为两代: 2 h 2 6 4 视频编码中帧间编码的研究 1 第一代视频压缩编码 它是基于信号处理理论的编码方法,包括预测编码、正交变换编码、矢量量 化编码等。特点:算法可靠,技术成熟。 2 第二代视频压缩编码 第二代编码技术的基本思想是用图象结构模型和人的视觉系统模型来提高编 码的效率。第二代编码技术分为两类:基于局部特征的编码和面向边界、纹理的 编码。特点:编码效率高,算法复杂,性能依赖于图象理解,方法还不成熟。 目前的视频压缩标准主要是国际电信联盟电信标准部i t u - t ( t e l e c o a 咖u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r o fi n t e r n a t i o n a l t e l e c o m m u n i c a t i o n su n i o n ) 和i s o i e c 的运动图象专家组m p e g ( m o t i o np i c t u r e e x p e r t sg r o u p ) 制定的,它们推出的时间如图1 1 所示“1 。 圈日日三王习 圈围 三 回。臣互工至工回 1 9 8 4 1 9 8 51 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图1 1 视频压缩编码国际标准的发展 a 2 6 1 跚标准是第一个视频压缩标准。主要是针对会议电视制定的,并且是以 o c t ( 离散余弦变换) 和运动补偿为基础的,适用于视频电话和视频电视会议。它 能够将视频速率压缩到6 4 k b s - - 2 0 4 8 m b s ,但是它的压缩比没有m p e g 压缩比高。 f i 2 6 3 啪是i t u _ t 提出的作为h 3 2 4 终端使用的视频编解码建议标准,是h 2 6 1 修改后的版本。h 2 6 3 的运动补偿则达半个象素精度,同时它又吸收了m p e g 的一 些特点,提供了四个可选新特性:非约束运动失量模式、基于语法的算术编码模 式、高级预测模式和p b 帧模式。在相同传输速率下,它能提供比h 2 6 1 高2 0 9 6 - 1 0 0 的视频品质,这取决于用户对其新特性的选择。h 2 6 3 的p b 帧非常有特色,利用 它可以降低码率且提高图象质量。h 2 6 3 一般提供低于6 4 k b p s 的传输速率,是 h 3 2 4 的技术核心。 m p e f f - 1 啪标准主要是用于传输1 5 m b p s 数据传输率的数字运动图象及其伴音 的编码,经过m p e g - i 标准压缩后,视频数据压缩率为1 1 0 0 1 2 0 0 ,音频压缩率 为l 6 5 ,m p e g - 1 能提供每秒3 0 帧3 5 2 2 4 0 分辨率的图象。它主要用于c d - r o m 上的交互系统以及电信网络上的视频传送。 肝e g 一2 。1 标准的传输速率为1 0 m b p s ,与m p e g - 1 兼容,适用于1 5 - 6 0 m b p s 甚 第一章绪论 3 至更高的编码范围。m p e g 一2 有每秒3 0 帧7 0 4 x 4 8 0 的分辨率,主要应用于数字有 线电视、通过a t m 进行视频传输的业务以及会议电视等。 m p e g - 4 标准的目标是低比特率下的多媒体通讯。它提出了许多新的编码思 想,注重多媒体通信中的交互性和灵活性,其核心思想是面向对象编码。m p e c r - 4 应用非常广泛,如实时多媒体监控,i n t e r n e t 上的视频流与可视游戏、会议电视、 数字电视等等。 m p e g - 7 ”1 标准的正式称谓是多媒体内容描述接口,它对各种不同类型的多媒体 信息进行标准化的描述,并将该描述与所描述的内容相联系,以实现快速有效的 搜索。该标准不包括对描述特征的自动提取,它也没有规定利用描述进行搜索的 工具或任何程序。它的应用范围很广泛,如应用于媒体信息的存储、流式应用( 如 广播等) 、数字图书馆、多媒体名录服务等。 h 2 6 4 脚作为面向电视电话、电视会议的新一代编码方式,最初是由i t u 组织 的视频编码专家组( v c e g ,v i d e oc o d i n ge x p e r t sg r o u p ) 于1 9 9 7 年提出的。直 2 0 0 1 年底,鉴于h 2 6 4 的实验模型的性能明显优越于现有的m p e g - 4 的软件模型, i s o i e c 的m p e g 组织也加入了i t u - t 的v c e g 组织,组成了联合视频小组( j v t , j o i n tv i d e ot e a m ) ,共同完成h 2 6 4 的制定工作。它们的目标就是建立一个单独 的视频编码标准,即一个新的i t u _ t 标准,同时也作为m p e g 一4 家族的一部分( m p e g p a r t l 0 ) 。 1 3 1 论文主要工作 1 3 论文主要工作及章节安排 本文在深入研究h 2 6 4 标准的核心技术,性能和复杂度的基础上,发现在h 2 6 4 中帧间编码算法的运算量非常大,严重影响了h 2 6 4 的实时应用,所以本文对标 准中的帧间编码技术进行了改进。 本文对帧间编码技术的改进主要有以下三个方面: 1 帧间编码块模式的快速选择 现有的h 2 6 4 标准参考模型中,选择块模式效果最好的方法是计算所有可能模 式的率失真优化,找出其中代价最小的模式,但是每一次的计算量都非常大。本 文通过对h 2 6 4 标准的帧间宏块划分模式的研究,用动态退出阈值和子集比较预 测法,有效地提高帧问最佳宏块选择的效率,降低了运算量。 2 运动矢量的自适应预测算法 现有的许多标准中对帧问预测编码中的初始点的选择都直接选择了参考帧的 零点,而搜索区域都选择了固定大小,在h 2 6 4 中也同样采用了这种方式。由于 h 2 6 4 视频编码中帧间编码的研究 相邻块之间具有很强的相关性,本文利用该特点通过对运动矢量的预测,自适应 的选择初始点和搜索区域,减少了后面运动估计的范围和速度,提高了编码效率。 3 全零系数块块判断的改进算法 h 2 6 4 对甚低码率图像编码时,经过帧间预测后得到的运动补偿数据通常很 小,对这些数据在进行d c t 和量化后往往成为全零块,所以全零块的提前判断有 很大的实用性。本文给出了相应的全零块检测门限,提出了一种基于全零块检测 的运动估计算法,有效地提高了编码效率。 1 3 2 论文章节安排 论文全文共分为5 章。第一章为绪论,阐述视频编码的研究背景、意义和发 展现状;第二章介绍了a 2 6 4 的编码原理和核心技术特征:第三章首先分析了视 频编码中的帧间编码特点,并提出了一种快速块模式选择算法,同时提出了对运 动矢量预测的自适应算法;第四章中研究了视频编码标准中的整数变换和量化, 并结合帧间编码对全零块判断算法做了进一步的改进;第五章是对本文工作的总 结和未来发展研究的一些展望。 第二章h 2 6 4 编码标准原理 第二章h 2 6 4 编码标准 2 1h 2 6 4 编码标准概述 5 为了进一步扩展和增加h 2 6 3 ( 以及后来的h 2 6 l ) 标准的特点,在2 0 0 1 年 1 2 月,由m p e g 和v c e g 的专家共同组成了联合视频小组( j o i n tv i d e ot e a m ,j v t ) , 进一步完善h 2 6 l 模型嘲,共同发展新的视频编码国际标准。新标准的官方名称分 别为i t u - tr e c h 2 6 4 和i s 0 i e cm p e g 一4p a r t1 0a r c ( 或1 4 4 9 6 1 0 a v c ) “。 新的h 2 6 4 m p e g - 4p a r t1 0a v c ( 以后均简称h 2 6 4 ) 视频编码标准在编码 质量和压缩比上都比原有的视频编码标准有明显的提高。在相同的视觉感知质量 上,编码效率比h 2 6 3 和m p e g - 4 提高了5 0 左右,并且有更好的网络友好性- 1 3 】。 虽然i t u t 在发展和制定h 2 6 4 的前身h 2 6 l 时,主要的目标是为甚低比特率编 码提供一种高性能的编码国际标准,但随着m p e g 的加入以及更多新编码技术的采 纳,h 2 6 4 以其卓越的压缩性能在电视、高清晰度电视、卫星电视、存储媒体、无 线多媒体应用等方面显示出巨大的应用潜力。2 0 0 2 年9 月,v i d e o l o c u s 用该公司 高度优化的h 2 6 4 编解码器在1 m b i t s s 码率上实现了m p e g 一2 需5 m b i t s s 码率的 d v d 质量视频流端到端的传输“。同年1 0 月,u b v i d e o 公司在p i i l 8 0 0 m h z 的手提 电脑上演示了该公司优化的c i f 格式的实时编解码器。2 0 0 3 年1 1 月,在日本千叶 县幕张m e s s e 会展中心开幕的“2 0 0 3 年国际广播电视展( i n t e rb e e2 0 0 3 ) ”上, n e c 、大金工业、j v c 等多个公司利用h 2 6 4 编解码器进行录像播放演示“”。编解 码器的形态各种各样,从f p g a 等芯片应用到电脑软件应有尽有。除此之外,为了 加快b 2 6 4 的普及和商业化进程,j v t 计划将放弃h 2 6 4 基础框架( b a s e l i n e p r o f i l e ) 的版权,以吸引更多的关注。显然h 2 6 4 这个新世纪制定的,面向高质 量和低比特率,从有线到无线的各种应用的视频编码国际标准,有望成为新世纪 最成功的国际标准之一。 2 1 1h 2 6 4 标准的特点 h 2 6 4 的标准草案已经于2 0 0 2 年5 月制定完成。它的编码算法的基本构成延 续了原有标准中基于块的混合编码的基本特性,同时具有很多新的特性,其主要 性能如下: 1 更高的编码效率:同h 2 6 3 + 或m p e g - 4 相比,在大多数的码率下,获得相 同的最佳效果的情况下,能够平均节省大于5 0 的码率。 2 高质量的视频画面:h 2 6 4 能够在所有的码率( 包括低码率) 条件下提供 6 h 2 6 4 视频编码中帧间编码的研究 高质量的视频图象。 3 自适应的延时特性:h 2 6 4 可以工作于低延时模式下,用于实时的通信应 用,如视频会议;也能用于没有延时限制的应用,如视频存储等。 4 错误恢复功能:h 2 6 4 提供了解决网络传输包丢失问题的工具,适用于在 高误码率传输的无线网络中传输视频数据。 5 h 2 6 4 和h 2 6 1 、h 2 6 3 一样,也是采用混合编码结构。同时,h 2 6 4 在混 合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。 6 h 2 6 4 没有繁琐的选项,而是力求简洁的“回归基本”,它具有比h 2 6 3 + 更好的压缩性能,又具有适应多种信道的能力。 7 h 2 6 4 的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具 有较好的抗误码和抗丢包的处理能力。 8 i - i 2 6 4 的基本系统无需使用版权,具有开放的性质,这对目前因特网传输 多媒体信息、移动网中传输宽带信息等都具有重要意义。 总之,h 2 6 4 标准使运动图象压缩技术上升到了一个更高的阶段,在较低带宽 上提供高质量的图象传输是h 2 6 4 的应用亮点。h 2 6 4 的推广应用对视频终端网关、 m c u 等系统的要求较高,将有力地推动视频会议软、硬件设备的不断完善。 2 1 2h 2 6 4 标准的编解码过程 h 2 6 4 标准并没有明确地定义一个编码器,而是定义了编码后的比特流格式和 解码的方式。它的基本编码过程可以分为4 个阶段。 1 将图象分为块。这样,对每帧图象的处理就转化为对块的处理。 2 通过对帧内编码的宏块进行预测、变换、量化、熵编码去除图象中的空间 冗余。帧内预测是利用本图象内的已经编码过的块对待编码的块进行预 测,对预测后的图象和待编码块的图象的差值进行编码,以去除空间冗余。 3 通过对帧间编码的宏块利用相邻的帧进行运动估计和补偿去除图象中的 时间冗余。 4 对于残差块再进行变换、量化、嫡编码来去除其中的空间冗余。 编码流程说明: 在图2 1 编码器框图中,f n 代表待编码的帧,这一帧图象被分成多个1 6 1 6 象素的宏块进行处理,每个宏块按帧内或帧间的模式进行编码,不论在那种模式 下,都有一个基于参考帧重构出来的预测宏块p 。在帧内编码模式下,p 由当前帧 中前面已经经过编解码重构模块但是没有进行滤波的宏块“e 预测得到;在帧间 编码模式下,p 由一个或多个参考帧进行运动补偿预测得到。在图中,参考帧用e 。 表示,实际上参考帧可以是过去或将来的第一帧或第二帧等已经编码重构的图象。 第二章h 2 6 4 编码标准原理 n l 7 图2 1h 2 6 4 的编码流程框图 从当前编码的宏块中减去p 得到一个残差块见,这个残差块将进行变换、量 化得到x ( 量化后的变换系数) 这些系数将被重新排序并进行熵编码,熵编码的系 数和其他的解码需要的边信息一起形成比特流,比特流经过n a l ( n e t w o r k a b s t r a c t i o nl a y e r ) 层进行传输或存储。在编码器中量化后的系数x 将被解码重 构,以便为对将来的宏块进行编码时使用。系数x 将通过逆量化和逆变换产生一 个差分宏块见。差分宏块见和原始的宏块之间并不是完全一样的,因为经过量 化运算后,会产生量化误差。预测宏块p 和见进行加法运算得到一个重构宏块 u f , ,通过一个滤波器以减少块失真得到一个重构图象e 。 从以上的编码流程中可以看出,编码器必须也拥有一个解码器来重构图像, 以保证与解码器端采用的参考图像是一致的。预测产生的残差块的系数越小( 越 接近o ) ,那么压缩效率将越高,传输的码率也将越低。 解码流程说明: n a l 图2 2h 2 6 4 的解码流程框图 在图2 2 中,解码器从n a l 层中接收到压缩后的比特流,对数据进行熵解码, 然后重新排序,恢复出来量化后的系数x ,x 再经过逆量化和逆变换得到见。通 过从比特流中的解码出来的头信息,解码器产生一个预测块p ,p 的产生过程和编 码过程一样,p 和d 相加得到一个“只,最后再经过滤波器得到恢复图象e 。 8 h 2 6 4 视频编码中帧间编码的研究 2 1 3h 2 6 4 的功能框架 在h 2 6 4 中规定了3 个功能框架,每个框架支持一系列的特定的编码功能, 并支持一定特定的应用“1 。 基础框架( b a s e l i n ep r o f i l e ) :支持帧问和帧内编码;支持i 帧和p 帧;支 持c a v l c 等。它的主要应用是可视电话、视频会议、无线通信等。 主框架( m a i np r o f i l e ) :包括支持交错视频;支持b 帧;帧间编码时使用权 重预测:熵编码使用c b a c 。它的主要应用是视频存储和电视广播。 一 扩展框架( e x t e n d e dp r o f i l e ) :不支持交错视频和c a b a c 。但增加了一些在进 行比特流切换时有效的帧模式s i ( s w i t c h i n gi ) 帧和s p ( s w i t c h i n gp ) 帧。能 够有效的提高从错误中恢复的能力。它的主要应用是流媒体应用。 图2 3 是h 2 6 4 的框架图,图中不同的闭合曲线( 虚线、灰色实线、黑色实 线) 分别代表3 个框架,曲线中包围的功能就是此框架所包含的功能。 表2 1h 2 6 4 的帧编码模式 帧类型描述支持的框架 l ( i n t r a ) 只包含帧内预测的宏块i全部 p ( p r e d i c t e d ) 包含帧间预测宏块p 和1 型宏块 全部 扩展框架 b ( b i - p r e d i c t i v e ) 包含帧间双向预测宏块b 和i 型宏块 和主框架 s p ( s w i t c h i n gp 1 利于在编码的比特流中切换,包括l 和p 宏块扩展框架 s i ( s w i t c h i n gd 利于在编码的比特流中切换,包含跚宏块扩展框架 图2 3h 2 6 4 中的基础框架、主框架、和扩展框架 第二章h 2 6 4 编码标准原理 2 2h 2 6 4 编码标准的关键技术 9 在h 2 6 4 中,使用了和许多已有的编码标准相同的功能模块,如帧内预测、 帧间预测、变换和量化、熵编码等,但这些功能模块在h 2 6 4 中与其它的标准有 很多细节上的不同。h 2 6 4 中还有一个独特的去块滤波器,能够完成提高低码率情 况下的视频图象质量的功能。下面分别介绍h 2 6 4 中的各个主要关键技术。 2 2 1 帧内预测 在图象编码中,一幅图象中的相邻宏块具有相似性,h 2 6 4 利用相邻宏块的空 间相关性来进行帧内预测编码。对于一个给定的宏块,首先利用相邻的宏块对此 宏块进行预测,然后对实际宏块和预测宏块对应像素做差值,并对差值变换编码, 从而可以在一定程度上减少一个i 帧的数据量。h 2 6 4 的帧内预测编码方法一个显 著的特征就是帧内预测在空间域进行,而不像其他视频编码标准( 如h 2 6 3 + , m p e g - 4 ) 一样在变换域“”。 h 2 6 4 对含有较多空域细节信息的宏块采用4 x 4 预测( 9 种模式) ,而对于较 平坦的区域采用1 6 1 6 的预测模式( 4 种模式) ,另外还提供了不经预测和变换量 化步骤的i p c m 模式。 1 4 4 亮度块的预测 如图2 4 所示,把1 6 1 6 的亮度宏块划分成1 6 个4 4 的子块,每个子块的 像素点a p 用与其相邻的上面和左面已经编码并重建的像素采样点a m 进行帧 内预测。图2 5 指出了帧内预测模式的方向。表2 2 是4 x 4 亮度子块各种预测模 式的名称。 mabc de fg h ,侈 砀p 图2 4 利用象素a 到q 对方块中a 到p图2 54 4 亮度块的帧内预测的方向 象素进行帧内4 4 预测 1 0 h 2 6 4 视频编码中帧间编码的研究 表2 24 x 4 亮度块的帧内预测模式 模式描述 模式0 ( 垂直)由a , b ,c d 垂直推出相应象素值 模式1 ( 水平)由i ,j ,l ( l 水平推出相应象素值 模式2 ( d c )由a ,d 及卜l 平均值推出相应象素值 模式3 ( 下左对角线)由4 5 度方向象素内插得出相应象素值 模式4 ( 下右对角线)由4 5 度方向象素内插得出相应象素值 模式5 ( 右垂直)由2 6 6 度方向象素内插得出相应象素值 模式6 ( 下水平)由2 6 6 度方向象素内插得出相应象素值 模式7 ( 左垂直)由2 6 6 度方向象素内插得出相应象素值 模式8 ( 上水平)由2 6 6 度方向象素内插得出相应象素值 2 1 6 x1 6 的亮度块的预测 对于1 6 x 1 6 的亮度块,共有垂直、水平、d c 和平面4 种预测模式,如图2 6 : 0 ( 垂直) 图2 61 6 x1 6 亮度块的帧内预测模式 表2 31 6 x 1 6 预测模式 模式描述 模式0 ( 垂直)由上边象素推出相应象素值 模式1 ( 水平)由左边象素推出相应象素值 模式2 ( d c )由上边和左边象素平均值推出相应象素值 利用线形“p l a n e ”函数及左,上象素推出相应象素值, 模式3 ( 平面) 适用于亮度变化平缓区域 3 8 8 的色度块的预测 对于8 x 8 的色度块来说预测模式有4 种,对于c r 和c b 分量使用相同的预测 模式。值得注意的是,如果任何一个8 8 的亮度块使用了帧内预测模式,那么相 应的色度块也使用帧内预测模式。色度块的预测模式与1 6 x1 6 的帧内亮度预测模 式有些相似,表2 4 列出了8 x 8 色度块的预测模式。 表2 48 x 8 色度块的预测模式 模式描述 模式0 ( d c )由上边和左边象素平均值推出相应象素值 模式0 ( 水平)由左边象素推出相应象素值 模式0 ( 垂直)由上左边象素推出相应象素值 利用线形“p l a n e ”函数及左,上象素推出相应象素值, 模式0 ( 平面) 适用于亮度变化平缓区域 4 i - p c m 预测模式 第二章h 2 6 4 编码标准原理 对于一些很不规则的图象,可以对其采用i p c m 模式进行直接编码。i p c m 模 式不经过预测和变化量化步骤,直接编码采样点的值并传送。这种模式的作用: 1 ) 使得编码端准确的表示采样点的值。 2 ) 提供了一种准确表示不规则图象内容值的方法,且没有显著的数据增加。 3 ) 在不影响编码效率的情况下,为解码端设置一个固定的比特数极限值。 2 2 2 帧间预测 对于视频图象来说,前一帧图象和后一帧图象之间有很多的相同( 相似) 部 分,这种冗余信息叫做时间冗余。帧间预测编码就是利用连续图象序列之问的相 关性来进行压缩的。在h 2 6 4 中,除了具有在原有标准( h 2 6 3 ,m p e g - 4 等) 中的 p 帧,b 帧预测方法外,还增加了许多新的功能,如:采用不同大小的块进行预测; 采用1 4 甚至1 8 象素精度的运动补偿算法;采用多参考帧进行帧间预测编码。 帧间预测将在第三章详细描述。 2 2 3 整数变换 h 2 6 4 编码变换系数量化使用整数运算,而不用除法和浮点数的运算,选择了 自适应块大小变换,采用基于4 4 块的变换编码,而以前的视频编码标准使用的 是8 x 8 块的离散余弦变换( o c t ) 。针对亮度信号和色差信号的差值,h 2 6 4 中使用 4 4 块的整数变换;针对1 6 1 6 块的帧内预测模式下,亮度信号经4 4 整数变 换后,得到的变换系数组成的4 x 4 矩阵,使用4 4 块的h a d a m a r d 变换;针对色 差信号经4 x 4 整数变换后,得到的变换系数组成的2 2 矩阵,使用2 2 块的 h a d a m a r d 变换。第四章将详细介绍整数变换与量化。 2 2 4 去块滤波器 由于基于块的变换和运动补偿算法,必然会产生方块效应,因此为了在低码 率的情况下提高图象质量,h 2 6 4 中采用了一种基于内容的去块滤波器。基本思想 是根据块边界对应象素之间的差值大小,选择不同的加权滤波。 如图2 7 所示,对于亮度数据块,垂直边界的滤波顺序为a ,b ,c 和d ,水平 边界的滤波顺序为e ,f ,g 和h 。对于色度数据块,垂直滤波顺序为i 和j ,水平 顺序为k 和1 “”。应用滤波器有两个好处: 1 ) 首先,块的边缘是光滑的,提高显示质量( 尤其在比特率较低的时候) ; 2 ) 其次,滤波后的宏块在编码器中用来对将来帧进行运动补偿预测能够得到 更小的残差。 h 2 6 4 视频编码中帧间编码的研究 2 2 5 熵编码 广r r 喜。- 1 l j i j 8 8 色度 图2 7h 2 6 4 的滤波顺序 k l h 2 6 4 在h 2 6 3 多码表变长编码( v c l ) 和h 2 6 l 单码表通用变长编码( u v c l ) 的基础上,采用统一的两种高性能的熵编码,一种是基于内容的自适应变长编码 ( c o n t e x t a d a p t i v ev a r i a b l el e n g t hc o d i n g ,c a v c l ) ,另一种是基于内容的自 适应二进制算术编码( c o n t e x t 咄a s e da d a p t i v e b i n a r ya r i t h m e t i cc o d i n g , c a b a c ) 。其中的c a v l c 作为h 2 6 4 的基础框架的一部分,c a b a c 则包括在主框架中。 仿真测试表明c a b a c 比c a v c l 压缩率高1 5 。 c a v c l 利用游程码对经预测、变换、量化后的系数块内大量的连零串进行压缩 编码,对块内非零系数+ 1 、一l 序列和相邻块间相关的非零系数,采用从高端向接 近直流处逆向“之”字扫描,根据数据的统计特性进行自适应选择量级参数查表 编码,充分利用信源相关性和人眼视觉特性,有效压缩代码数据冗余,降低码率。 c a b a c 通过根据每个元素的上下文环境选择一个合适的概率模型和根据本地 统计情况调整改率估计能够达到一个更好的压缩性能。如图2 8 所示: 图2 8c a b a c 编码过程框图 c a b a c 算术编码分3 步进行: 1 ) 二值化。将所有经预测、变换和量化的待编码符号,根据不同的语法元素 所要求的二进制映射规则( 如常用的一元二进制) ,映射成二进制符号串 ( b i n s ) ,送到后续的二进制算术编码器。 2 ) 选择内容模型。根据上下文宏块类型、运动矢量、参考帧数、预测模式等 不同的语法元素预先定义概率模型;据当前待编码符号的类型及左上邻 块符号给当前待编码符号选定相应已定义概率的内容模型;对当前待编码 第二章h 2 6 4 编码标准原理 1 3 符号进行更加准确的概率估计。h 2 6 4 定义了6 4 种概率模型和2 6 7 种内 容模型,以便为编码符号提供准确的条件概率估计,压缩符号间冗余,从 其中一种概率状态转化到最为可能符号的状态即完成概率估计。 3 ) 自适应算术编码并自动更新概率。根据已完成待编码符号的概率估计,给 每个符号分配1 个分数比特,随着编码符号的增加,对应小数概率区间不 断缩小,符号可以逼近它的熵编码极限。c a b a c 可以在每编码1 个符号后, 根据该符号位的上下文变化,不断调整内容模型,自动完成新的概率估计。 2 3h 2 6 4 编码标准的性能 h 2 6 4 的视频编码层采用了多种新技术,这些技术单独使用效果并不明显,但 是融合在一起以后带来了编码效率的显著提高n 力。 1 帧间预测支持模式选择,即可以选择不同的预测块形状。使用较小的块在 细节情况下,尤其是高比特率的时候效果较好。使用7 种不同的大小和形 状,比只采用1 6 x1 6 的预测能够节省大于1 5 的比特率魄1 : 2 1 4 象素精度不仅增加了运算复杂度,并且产生了大量的开销,但是预测 更加准确,预测误差更小,适用于高分辨率视频的情况。使用亚象素空间 精度与使用整数象素空间精度相比,能节省大于2 0 的比特率; 3 多参考帧预测的性能取决于视频的内容,与只使用一个参考帧相比,多参 考帧预测平均可以节省大约5 1 0 的比特率; 4 熵编码方面,c a v l c 与c a b a c 相比,具有运算较简单,易于实现的特点。 但是c a b a c 较之可以提高5 1 0 的编码效率; 5 使用环路去方块滤波,除了获得一定的客观信噪比提高外,还能获得非常 可观的主观质量改进。 全面的测试表明:在保证相同图像质量的情况下,h 2 6 4 与以前最好的视频压 缩标准相比少5 0 左右,但同时对运算能力的需求也有巨大增长,与其他视频压 缩标准相比其复杂度提高数倍n ”。 第三章h 2 6 4 帧间编码的研究与改进 3 1 1 概述 第三章h 2 6 4 帧问编码的研究与改进 3 1h 2 6 4 的帧问编码 运动图像是由很多幅静止图像组成的,各帧图像间存在很大相似性,帧间预 测就是利用运动搜索和运动补偿来消除相邻帧间的时间冗余性“”。消除或降低时 间冗余度的帧间压缩编码大致分为以下步骤:第一步是用相邻帧中估计当前编码 帧中的运动物体的位移量,称为运动估计( m o t i o ne s t i m a t i o n ,淝) 。运动估计 在于寻找运动信息即运动矢量;第二步则是获取运动估计得到的图像和原始图像 的差值( 即估计残差) ,然后将这个差值也传送到解码端。这样就弥补了运动估计 的不足,以便解码端能够获取准确的图像,这就叫做运动补偿( m o t i o n c o m p e n s a t i o n ,m c ) ;第三步是运动估计和运动补偿的结果的编码。运动估计和补 偿的流程如图3 1 。 图3 1 运动估计和运动补偿流程图 图3 1 中,参考帧图像可以是“过去”的,也可以是“将来”的一帧或多帧 图像,编码后的残差帧以及运动矢量一起送往解码端。 运动估计被分为四种主要类型: 梯度技术 象素递归技术 块匹配技术 频域技术 梯度技术主要用于图像序列的分析;象素递归技术被看作是梯度技术的子集, 用于图像序列编码;频域技术基于移位图像的变换系数间的联系,它们都未能在 图像序列编码中广泛应用。块匹配技术酬( b l o c km a t c h i n g ) 则是基于当前帧中 h 2 6 4 视频编码中帧间编码的研究 一定大小的块,在当前帧前后帧的一定区域内按照淀匹配准则搜索该象素块的 最佳匹配块,作为它的预测块。尽管象素梯度技术等对比较复杂的运动形式来说, 其预测精度要比b m 高,但是由于其计算量比b m 大得多,同时踟算法本身也具有 较好的性能,因此基于匹配误差最小化的块匹配技术得到了最为广泛的应用啪1 。 3 1 2 基于块的运动估计与补偿 由于块匹配法利于实现,受到大家的青睐,目前流行的视频编码标准( m p e g 1 , 咿e p 2 ,m p e g - 4 ,h 2 6 1 ,h 2 6 3 ,h 2 6 4 等) 普遍采用基于块匹配的运动估计法。 块匹配法将当前编码图像帧分解为多个图像块( 1 6 x1 6 像素的宏块或更小的块) , 然后对每个块求其运动矢量,这样就极大的简化了问题,虽然其精度降低了,但 其具有位移跟踪能力强,易实现的优点,因而获得了广泛的应用。 在该算法中,图像被分割成互不重叠的子块,并假设子块中的所有像素做速 度相同的平移运动。这是实际上意味着将每个子块视为一个“运动物体”,一个子 块只有一个运动矢量。由于复杂的运动可以近似分解为一组平移运动之和,所以 块匹配算法采用的运动模型是假定图像中的运动物体是由作平移运动的刚体组成 的平移运动模型。 如图3 2 的图象序列中,t 时刻对应第k 帧( 当前编码帧) 的图像,t a t 对 应第k h k 帧( 图中参考帧在过去时间) ,将图像划分成宏块后,然后对每个宏块 估计它的运动矢量,并将它编码传送到接收端。利用运动矢量可以在收、发端利 用运动补偿预测,用参考帧l 一。在z d 处( z 为当前帧中编码块的位置) 的亮度值 对子块z ( x ,y ) 处的亮度值进行预测1 。 图3 2 基于块的运动估计示意图 在h 2 6 4 中,只估计亮度宏块的运动矢量,这是由于在h 2 6 4 中采用4 :2 :0 的图像子采样格式,每个2 2 像素的亮度块对应一个c r 以及一个c b 采样。因此, h 2 6 4 采用0 5 d 作为色差样本的运动矢量,这样极大的简化运算量,而且使得亮 第三章h 2 6 4 帧间编码的研究与改进 1 7 。v c c f ( x , y ) 。丽婴筹掣竺7 。叫 。瓦了世丑7 币忑f ( 3 一1 ) 【荟荟斤川j 【荟荟芷+ 五万+ 力j m s e ( x ,) ,) 。嘉荟荟 五伽,一) 一五一- 蝎玎+ y ) 1 z ( 3 - - 2 ) m a d ( x ,y ) 。赤荟善i 厅) 一 一t 屿厅+ y ) i ( 3 - - 3 ) 口

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论