(信号与信息处理专业论文)h26l视频编码标准中运动估计算法的优化实现.pdf_第1页
(信号与信息处理专业论文)h26l视频编码标准中运动估计算法的优化实现.pdf_第2页
(信号与信息处理专业论文)h26l视频编码标准中运动估计算法的优化实现.pdf_第3页
(信号与信息处理专业论文)h26l视频编码标准中运动估计算法的优化实现.pdf_第4页
(信号与信息处理专业论文)h26l视频编码标准中运动估计算法的优化实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)h26l视频编码标准中运动估计算法的优化实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 h 2 6 1 和h 2 6 3 是i t u - t ( 国际电信联盟) 制定舶低码率视频编码标准,h 2 6 l 则是在 h 2 6 3 基础上制定的新的视频编码标准草案。由于h 2 6 l 采用了d c t 整形变换、帧内预测、 基于上下文的算术编码、i 4 ( 1 1 8 ) 象素精度的运动估计、7 种不同尺寸的匹配块等先进的编 码技术。与h 2 6 3 相比,在相同的码率下,h ;2 6 l 具有更佳的图像质量。这些特点将使得 h 2 6 l 在无线通信、网络传输等低码率视频应用领域得到广泛的应用。 论文在对h 2 6 l 视频编码标准做系统分析的基础上,对h 2 6 l 的运动估计部分进行了 优化。首先介绍了h 2 6 l 标准与运动估计的基本方法,然后详细讨论了改进的h 2 6 l 视频 编码算法以及所涉及到的各项技术。 h 2 6 l 编码器具有优良的编码特性。但这是以增加编码运算的复杂度为代价得来的。 为加快h 2 6 l 编码器的运行速度,我们对其中的运动估计进行了优化。这包括利用整象索 运动估计的s a d ( s u m so fa b s o l u t ed i f f e r e n c e ) 值来预测高精度运动估计的s a d 值以及 通过全零块判断的方法简化匹配块的选择。在对图像质量影响不大的条件下,提高了h 2 6 l 视频编码程序的运行速度。 最后,论文给出了优化算法的测试结果,并讨论了下一步需要进行的优化工作。 关键词:视频编码,h 2 6 l ,运动估计 a b s t r a c t a st h el a t e s t d i g i r a l v i d e oc o m p r e s s i o ns t a n d a r d ,h 2 6 li so n eo fas e r i e so fv i d e o c o d i n g s t a n d a r d s ,w h i c h i s c o n s t i t u t 酣b y t h e i t u - t ( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o n su n i o m c o m p a r e dw i t hh ,2 6 3 。h 。2 6 l h a sb e t t e r q u a l i t y f o rt h eu s e so ft h e i n t e g e rt r a n s f o r m , c o n t e x t - b a s e da d a p t i v ea r i t h m e t i cc o d i n g ( c a b a c ) ,i n t r ap r e d i c t i o n ,1 4p i x e la c c u r a c ym o t i o n e s t i m a t i o n s e v e nk i n d so fm a t c h i l a gb l o c k t h e s ei m p r o v e m e n t sg i v eh 2 6 lab r o a df o r e g r o u n d j nw i r e l e s sc o m m u n i c a t i o na n dv i d e oh a n s m i s s i o n ;nn e t w o r k t h i sd i s s e = n a t i o ni n t r o d u c e st h e o p t i m i z a t i o n o fm o t i o ne s t i m a t i o no fh 2 6 l f i r s t l y , t h e i n t e r n a t i o n a ls t a n d a r d o f h 2 6 la n d t h e t e c h n o l o g y o f m o t i o ne s t i m a t i o n a r e i n t r o d u c e d t h e n w e f o c u so nk e y t e c h n o l o g i e s ,w h i c ha r cu s e d i ni m p r o v i n gm o t i o ne s t i m a t i o no f h 2 6 l h 2 6 lh a sb e t t e rp e r f o r m a n c e s , w h i l en e e d i n ga l a r g e rq u a n t i t yo fc o m p u t a t i o n t oi m p l e m e n t h 2 6 li nr e a l - t i m ea p p l i c a t i o n s ,w em u s to p t i m i z et h em o t i o ne s t i m a t i o na l g o r i t h ms oa st or a i s e t h es p e e do f c o m p u t a t i o n i nt h i sd i s s e r t a t i o n ,a na l g o r i t h mi si n t r o d u c e dw h i c hp r e d i c tt h es a d ( s u m so fa b s o l u t ed i f f e r e n e e ) o f1 4p i x e la c c u r a c yb ys a do fi n t e g e rp i x e la c c u r a c ya n d b l o c k - m a t c h i n gm e t h o di so p t i m i z e dw h e nd e t e c t i n gt h ez e r o - b l o c k t h es t r u c t u r eo fh 2 6 li s s i m p l i f i e dt h i sw a y , 1 1 1 e m f o m ,w er a i s et h es p e e do fh 2 6 lc o d e rw h i l em a i n t a i n i n gt h ev i d e o q u a l i t y f i n a l l y , t h ea n a l y s i so f t h ei m p r o v e da l g o r i t h ma n d f u r t h e rw o r ka r c p r e s e n t e d k e y w o r d s :v i d e oc o d i n g , h 2 6 km o t i o ne s t i m a t i o n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 研究生签名:鲴塑! 墨 日期:2 , 0 0 3 - 3 二汐 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理a 研究生签名:划生生导师签名:孟盗望 日期:动。3 3 - 2 。 东南大学硕士学位论文第一章 1 1 引言 第一章绪论 数字视频通信与模拟视频通信相比,具有一系列的优点,比如进行中继传输和多次复制时, 不会造成噪声和非线性失真的积累t 数字图像便于进行加密;数字图像有利于计算机进行处理。 但是,数字化以后的图像信息量巨大,如果没有经过压缩,难于直接应用。 这可以通过例子来说明,对于简单的。c i f 级视频图像( 1 7 6 1 4 4 ) ,它的分辨率只相当于 v c d 分辨率( 3 5 2 2 8 8 ) 的一半,即便如此,以每秒2 5 帧、每个象素1 6 b i t 来计算,传输0 c i f 级视频图像序列所需要的数码率高达l o m b p s 。考虑到现在p s t n 网络上传输速率只有5 6 k b p s ,如 果不进行压缩,在网上根本无法进行图像传输。 不仅如此,未经处理视频图像序列的存储也是一件十分困难的事,对于v c d 格式的数字视频 图像,需要础的容量来存储一秒钟的视频图像,也就是说,一张5 0 0 m 的数字光盘,仅仅能够存 储一分钟的视额图像。 因此。对采集的图像数据进行合理的压缩就成为数字视频通信和存储走向实用的必然选择。 对于视频编码的研究虽然早在二十世纪四十年代就已经开始,视颈编码技术的实用化与产业 化一直n - - - - 十世纪九十年代才得以实现, 这主要有两方面的原因,一方面,视频编码技术由发展到成熟是一个长期的过程,如表卜i 所示。【1 表1 - i 视频编码技术的发展 1 9 4 8 盘提出电视信号数字化 5 0 、6 0 年代对帧内预测、亚抽样复原算法进行研究 1 9 6 8 芷提出变换编码 1 9 6 9 盆进行线性预测编码的实验 7 0 年代对帧问预测进行研究 8 0 年代对运动补偿进行研究 1 9 9 0 燕通过i t u - t 的h 2 6 1 视频编码标准 1 9 9 3 矩通过m p e g i 视频编码标准 1 9 9 5 生 通过i t u - 丁的h 2 6 3 建议 另一方面,视频编码技术的发展还受到硬件发展水平的制约,只有在硬件的数字处理功能足 够强的时候,数字视频编码算法才可能由理论变为实现。通常,在一块c p u 芯片上集成的晶体管 数目越多,c p u 芯片的运算处理能力就越强,表i - 2 显示了单个芯片上集成的晶体管数目的增 长。 到了九十年代,随着以d c t 变换、帧间预测、熵编码为特征的混合编码技术的逐渐成熟以及 强大的p e n t i n u m 处理芯片的出现,数字视频通信才得以走向实用。 东南大学硕士学位论文 第一章 表i - 2 集成电路技术的发展 1 9 7 1 篮第一块微处理器4 0 0 4 ,大约3 0 0 0 个晶体管 1 9 7 4 莲8 位微处理器8 0 8 0 ,大约9 0 0 0 个晶体管 1 9 7 8 燕1 6 位微处理器8 0 8 6 ,大约5 万个晶体管 1 9 8 1 焦 8 0 2 8 6 ,1 2 5 万个晶体管 1 9 8 6 每3 2 位徽处理器8 0 3 8 6 ,5 0 万个晶体管 1 9 8 9 担微处理器8 0 3 8 6 1 2 0 万个晶体管 1 9 9 3 掘高性能p e n t i u m 微处理器3 1 0 万个晶体管,包括 眦多媒体指令集 1 2 视频压缩编码技术的基本原理 数字视频信息可以进行压缩,首先是因为视频序列本身在时间、空间上是高度冗余的,去除 相同信息的重复表示,可以大大减少信息的发送量,从而实现数据压缩。通常,视频数据本身存 在这样几种冗余: 空间上的冗余:视频图像同一帧内相邻象素之间存在着很大的相关性,研究表明,图像帧 内的行、列相邻点之间的相关性可以达到o 9 以上; 时间上的冗余:视频序列前后帧之间存在着较大的相关性,研究表明,活动图像相邻帧同一 位置上前后样值的相关性( 帧问相关性) 也达到o 9 以上。有人统计了i m b p s 的可视电话,发现 前后相邻帧平均只有4 的象素发生变化; 符号表示上的冗余:根据信息论,使用相同的码长来表示不同概率出现的符号会造成比特数 的浪费、熵的增加。 对数字视频信息进行压缩,还可以利用人眼的视觉特性。在许多情况下,人眼往往是图像信 息的最终接收者,而人的视觉系统( h v s ) 对于某些失真并不敏感。那么即使处理后的图像产 生了一定程度的失真,只要人眼对于这些失真并不敏璐,那么,这些失真就是可以接受的。因 此,可以利用这些特点对图像进行可以获得较大压缩比的有限失真编码。 例如,人眼对颜色的空间分辨率低于对亮度的空间分辨率,就可以利用这一点把输入色度信 号的空间分辨率减半,而不会影响人眼观察到的图像质量;再比如,人眼对于静止图像的分辨率 高于活动图像,利用这一特点,在进行帧问帧编码时,量化因子可以适当加大以增加压缩比, 对于由此引起的帧问帧的细微差别,人眼不易察觉。 此外。还可以利用先验知识进行编码,即模型编码,实际上利用的是知识的冗余度。利用 对象的先验知识对编码对象建立模型,通过提取模型参数,对参数进行编码而不对图像直接进行 编码可以得到非常高的压缩比。在一些语音编码技术中已经采用了模型编码。然而由于图像 对象固有的复杂性。图像编码技术要发展到模型编码这一步。还有很多的东西需要研究。 1 2 】 一般来说图像编码的过程就是充分利用视频序列本身的冗余度、人眼的视觉特性进行数据 压缩的过程,可以概括为三个步骤,即映射变换、量化和熵编码。而利用先验知识进行模型编码 还不成熟,本文不作讨论。 2 东南大学顶士学位论文 第一章 映射变换的目的在于利用图像数据时间、空间上的冗余度,通过变换改变图像数据的相关特 性,使之有利于压缩编码。例如图像数据相邻象素之间有很大的相关性,相邻象素的灰度差总是 分布在零值附近,灰度差值的标准差比原始图像的标准差要小的多,因而,可以通过预禊4 把对灰 度值的编码转换为对灰度差值进行编码。这样所需要的比特数比较少。 量化是利用人眼的视觉特性,综合考虑视觉需求和数码率的限制,对映射变换后的数据进行 再压缩。量化分为两种,一种是标量量化,就是对映射后的数据逐个进行量化,另一种是矢量量 化是对映射后的数据成组的进行量化。量化会造成某些信息的丢失,量化器的引入是图像编码 产生失真的根源进行量化过程以后的编码是有损编码。失真和压缩比是进行图像压缩的一对矛 盾。在大多数情况下,人是图像信息的最终接受者,如果把量化以后的失真控制在主观质量允许 的范围以内,那么,这样的量化是可以接受的。 熵编码的作用在于消除最后符号表示时的符号复杂度,它一般不产生失真,理想的情况是使 输出码流的平均码长等于量化后数据的信息熵。 以上三个过程是互相联系互相制约的,数据压缩就在于灵话运用三种编码技术,在保证一定 主观图像质量的前提下,得到尽可能大的数据压缩比。 1 3 基于视频压缩技术的编码器 综合以上几种编码技术,h 2 6 1 最早提出了基于b c t 变换+ 块匹配+ 熵编码的实用的混合编 码框架,原理框图如图卜l 所示。以后的许多视频编码标准如h 2 6 3 、m p e g - i 、m p e g - 2 等都是以 h 2 6 1 混合编码框架为基础加以改进后形成的。它们的原理框图与h 2 6 1 相比虽然有所区别,但 基本框架仍然是以熵编码、块匹配、i ) c t 为基础的压缩算法。可以说,h 2 6 1 的编码器结构框图 具有视频编码器结构框图的一般性,具有普遍的意义。 通常。实际的流程与原理相比,考虑的东西也更多一些为了有效地进行图像编码在 h 2 6 1 中,把需要处理的视频序列分为i 帧( 帧内帧) 、p 帧( 帧问帧) 两种。i 帧进行帧内编 码,并作为p 帧帧间预测的参考,p 帧则是综台利用了帧内和帧问两种编码技术。对活动图像进 行压缩。 对于输入的视频序列,第一帧总是作为i 帧进行帧内编码,目标是去除图像的空间冗余度, 并作为以后p 帧帧间预测的参考基准。理论上。k l 变换是最优的正交变换,它可以完全消除图 像子块内部象素间的相关性,然而,k 吨变换的变换基是不确定的,与编码对象的统计特性相 关,这使得k l 变换的实际应用很不方便。同样的,考虑到视频图像实时编解码的需要。一些压 缩率较高然而算法复杂度高的算法也不宣采用。而d c r 变换在相邻数据高度相关的时候,接近于 k l 变换,图像数据相邻象索之间恰好满足高度的相关性。d c t 变换有确定的变换基,有快速算 法,因而广泛应用于图像编码考虑图像中子块的划分,过小的子块选取不利于压缩比的提 高而过大的子块划分,又会使计算复杂综合以上因素。在h 2 6 1 中。把图像数据划分为1 6 1 6 宏块- 而在进行变换编码时进一步把一个宏块分割为8 x 8 数据块,分别对8 8 数据块 进行d c t 变换。 东南大学硕士学位论文第一章 仅仅依靠帧内编码,压缩比的提高还是有限的,通常,帧内编码的压缩率只有2 0 :1 好的情 况也只有4 0 :1 ,这样的压缩比对于数据量庞大的视频图像仍然是不够的。考虑到图像序列存在着 很大的时间冗余度。可以利用前面已知的图像帧对后面的图像帧进行预测。这就是帧问编码。 输入 图1 1h 2 6 1 编码器原理框图 输出 对于第二帧以后的图像,除了因为积累误差,不能满足图像质量要求而设为帧内帧的情况 外- 一般设为帧间帧进行帧间编码以取得最大的压缩比把经过编码然后重建的数据帧作为参 考帧,将帧间帧划分为1 6 1 6 大小的宏块,然后与参考帧的数据进行比较寻找与当前宏块最 匹配的数据块。如果当前帧与参考帧比较满足这样的假定,当前帧象素是由参考帧象素经过二维 平移形成的,那么,只要已知当前帧象素相对参考帧象素的位移大小,就可以由参考帧对当前帧 进行重构。虽然从整个图像帧来说,这样的假定不容易满足,但对于图像帧内局部的数据块,这 样的假设常常是满足的。这样,对于满足上述条件的数据块,只需要传输表征当前数据块与参考 帧对应数据块之间的运动矢量就可以了。 利用帧间编码可以有效地对视频序列进行数据压缩,通常,压缩比可以达到1 0 0 :1 。1 1 2 1 1 4 低码率视频编码压缩标准的发展与现状 当前制定视频压缩编码标准主要有两个国际标准化组织,一个是国际电信联盟( i t u : i n t e r n a t i o n a lt e l e c o m u n i c a t i o nu n i o n ) ,它主要进行与通信相关的低码率视频压缩标准的 制定,如h 2 6 1 、h 2 6 3 、h 2 6 l 等;另一个重要的机构是国际标准化组织( i s o :i n t e l n a t i o n a l 4 东南大学硕士学位论文 第一章 o r g a n i z a t i o nf o rs t a n d a r d i z a t i o n ) ,它主要进行多媒体信息的存储与播放标准的制定,其中 既包括对于视频信息的压缩与播放。也包括对于音频信息的存储与传输,如肝e g l 、m p e g 一2 、 时b g - - 4 。 1 4 1h 2 6 1 从1 9 8 6 年起,i t u 、i s o 等国际组织就致力于帝l 定图像压缩编码的通用标准。最初的标准是 根据特定的应用而制定,例如,1 9 9 0 年1 2 月通过的h 2 6 1 标准主要针对会议电视和可视电话, h 2 6 1 标准的全称是“p x 6 4 k b p s 视昕业务的视频编解码器”,其中p = 1 3 0 ,也就是说可以 实时传输码率从6 4 k b p s 到1 9 2 m b p s 的视频信号。 h 2 6 1 支持两种y u v 格式( 把图像信号用一个亮度分量和两个色度分量进行表示) 的输入图 像它们分别是c i f 格式和q c i f 格式。具体情况如表1 3 所示。 表1 - 3h 2 6 1 支持的视频编码图像格式 c i fq c i f 每行象素亮度分量 3 5 21 7 6 色度分量 1 7 68 8 每帧行数亮度分量 2 8 81 4 4 色度分量1 4 47 2 帧率3 0 ,1 5 ,1 0 7 53 0 ,1 5 ,1 0 ,7 5 宽高比4 :34 :3 在h 2 6 1 中,一帧图像不是直接划分为宏块进行编码。而是首先划分为宏块组( g o b ) ,每 个宏块组包括3 x 1 1 个宏块。对于c i p 格式,每帧图像由1 2 个g o b 组成,每个g o b 由3 3 个宏块 组成如图卜2 、卜3 所示。 一3 5 2 斗 l g o b lg o b 2 g o b 3g o b 4 o o b 50 0 8 6 g o b 7g o b 8 g o b 9g o b l o g o b l lg o b l 2 r 图卜2 帧与宏块组的关系 一帧图像 东南大学硕士学位论文 第一章 一 1 7 6。 t m b l23 i 4 i 5678 i 9 l 1 0l l 1 81 21 31 4 l 1 5 i 1 61 71 81 9 i 2 0 l 2 12 2 上 2 32 4 2 5 i 2 6 l 2 72 82 93 0 i 3 1 l 3 23 3 圈1 - 3 宏块组与宏块的关系 在h 2 6 1 中。帧间预测采用以1 6 x1 6 宏块为基础的块匹配算法,运动估计和运动补偿以1 6 1 6 宏块为单位进行,块匹配算法的精度限制为整象素。 h 2 6 1 视频编码标准的初衷是希望可以用于低码率视频上。不过h 2 6 1 在低码率编码上的 实际应用并不令人满意。现在已完全被h 2 6 3 所取代。 1 】【3 1 - 4 2h 2 6 3 1 9 9 6 年3 月通过的h 2 6 3 标准是在h 2 6 1 的基础上加以改进而形成的,可用于甚低码率 ( 小于6 4 k b p s ) 的信道。当然,h 2 6 3 也可以用于大于6 4 k b p s 的信道,并能够获得比h 2 6 1 质 量更好的复原图像。 h 2 6 3 编码的基本框架与h 2 6 1 十分相似,不同之处在于: h 2 6 1 仅支持q c i f ,c i f 格式,而h 2 6 3 支持更多的豳像格式,包括s u b c i f ,q c i f , c i f ,4 c i f ,1 6 c i f 五种图像格式,这使得h 2 6 3 的应用范围更加广阔。见表1 - 4 。 表卜4h 2 6 3 支持的图像格式 i s u b c i fq c i fc i f4 c i f1 6 c l f l 象素行 1 2 81 7 63 5 27 0 41 4 0 8 l 行数 9 61 4 42 8 85 7 61 1 5 2 h 2 6 3 的g o b 格式与h 2 6 1 不同。h 2 6 1 中,每个g o b 包括3 x 1 1 个宏块而在h 2 6 3 中每 个g o b 包括k x l 6 行象素,k 由图像分辨率决定对于低分辨率的s u b c i f ,q c i f ,c i f 格式, k = l ,对于分辨率较高的4 c i f ,k = 2 ,1 6 c i f ,k = 4 。这样,每帧中的g o b 数,在s u b - - c i f 中 为6 在q c i f 中为9 ,在c i f ,4 c i f ,1 6 c i f 中为1 8 。 在h 2 6 3 标准中,可以采用基于1 6 x 1 6 宏块和8 x 8 数据块为基础的运动估计,块匹配算 法可以达到半象紊精度,因而具有更佳的匹配精度。 由于采取了上述改进,h 2 6 3 与h 2 6 1 相比,在性能上有较大改进。在小于6 4 k b p s 时, h 2 6 3 的p s n r ( 峰值信噪比) 比h 2 6 1 要减小3 4 f l b 抉句话说,在相同的质蠹下,所用比特 数与h 2 6 1 相比减少5 0 以上。 6 壅堕查堂塑主堂垡堡塞 苎二兰 h 2 6 3 除了基本模式外,还可以有选择地使用4 种高级模式( p b 帧模式。重叠块运动补偿 模式,大运动矢量模式,基于语法的算术编码模式) ,选用它们可以进一步提高压缩效率,改 善图像质量,如表卜5 所示。 表卜5h 2 6 3 的可选模式 3 4 5 可选模式主要内容作用 大运动矢量在h 2 6 3 基本模式下,运动矢量对应的参考块必须定义在提高压缩效 模式( 附录参考帧内,而在此模式中,运动矢量可以指到图像边界以率,增强抗 d )外当参考块的象素落在参考帧的边界之外时,就采用参错能力 考帧边界上的象紊值进行替代。同时,大运动矢量模式也 增加了运动矢量的表达范围。在基本模式下,运动矢量的 表示范围是( 一1 6 ,1 5 5 ) ,而在启用此高级模式后,运动 矢量的表示范围扩大到( 一3 1 5 ,3 1 5 ) 。 重叠块运动又称为先进预测模式。基本模式下,h 2 6 3 和h 2 6 1 一样,提高压缩效 补偿模式仅用一个运动矢量来表示一个1 6 1 6 宏块的运动。考虑到 室 ( 附录f )利用h 2 6 3 处理s o b - q c i f 、q c i f 图像时,由于图像较小, 在1 6 x1 6 数据块内往往出现边界,此时,由于块内运动不 一致,使得运动补偿效率下降。而在此模式下,把一个1 6 1 6 宏块划分为四个8 8 块使用4 个运动矢量分别表示 宏块中4 个8 8 块的运动,从而提高了运动补偿的效率 使帧间预测更加精确。 p b 帧模式h 2 6 3 中p b 帧模式源于肝e g 标准,但与之相比,做了大量提高压缩效 ( 附录g )的简化。在此模式下,使用b 帧对前面和后面的参考帧分 益 别进行比较粗糙的前向和后向预测。可以在只增加少量比 特数的情况下,将帧率提高一倍,也就是时间分辨率增加 一倍,但与a 2 6 3 基本模式相比,运算的复杂度增加了不 少。 基于语法的在h 2 6 1 中,符号编码采用h u f f m a n 编码,也就是每个符提高压缩效 算术编码模号采用整比特数编码。而采用算术编码可以减少符号表 直 式( 附录示的冗余有助于降低比特率一般情况下,可以降低比 e )特率约5 n 。 1 4 3h 2 6 3 + 和h 2 6 3 + + 为了进一步改善h 2 6 3 的性能,v c e g ( 视频编码专家组) 提出了近期、远期两个目标。近期 目标是通过增加一些可选的操作模式,对h 2 6 3 进行局部改进。1 9 9 8 年1 月,i t u t 公布了 h 2 6 3 视频编码标准第二版( 又称为h 2 6 3 + ) ,h 2 6 3 + 与h 2 6 3 相比,改进了一个可选模式( 大 , 东南大学硬士学位论文 第一章一一 运动矢量模式) ,另外又新增了了1 2 个可选的参考模式采用这些模式,可以使h 2 6 3 原型编 码器在压缩码率,抗错能力,可扩展性方面获得更佳的性能,如表卜6 所示。在2 0 0 0 年1 1 月, i t u t 又公布了h 2 6 3 视频编码标准第三版( 又称为h 2 6 3 + + ) ,与h 2 6 3 + 相比,又新增了3 种可选的高级模式,以进一步改善性能,如表卜7 所示。 表卜6h 2 6 3 + 的可选模式 4 】 6 7 儿8 9 可选模式主要内容作用 大运动矢量模这是在h 2 6 3 标准中就已经存在的一个可选模式,在提高压缩效 式( 附录d )h 2 6 3 + 里面,对此可选模式做了改进。在h 2 6 3 中,率,增强抗 采用大运动矢量模式可以使得所表示运动矢量范围增错能力 加一倍,也就是从卜3 1 5 ,3 1 5 ,而且允许运动矢量 指向圈像外部此时。落在图像外部的象素值由边界 处的象素值进行代替。而在h 2 6 3 + 中,采用了可逆的 可变长编码,这样,编码的码流既可以按正常顺序进 行解码也可以按相反顺序进行解码,这种改进虽然 增加了一些比特数。但是可以有效地控制误码的扩 散提高i t 2 6 3 码流传输的稳定性。 先进帧内编码图像内部相邻象素之徇存在报大的相关性,利用已知提高压缩效 模式( 附录的相邻块中的象紊对当前块中的象素进行预测,只对 益 i )预测的差值进行d c t 变换将可以得到更多的全零系 数。如果是帧内宏块较多的情况,此模式将可以显著 地减少需要编码的数据量。提高编码效率。 去方块效应滤由于编解码以8 x 8 块的形式进行。当量化步长较大改善图像质 波器模式( 附时,块与块之间会出现亮度和色度的明显的不连续量 录j )性,这就是方块效应。此时,如果在4 个亮度块和2 个色度块的边缘引入去方块效应滤波器,将有助于改 善图像质量,对于运动比较剧烈的视频,去方块效应 模式可以极大地减少重构图像的方块效应,而对于运 动比较迟缓的视频,此模式作用有限。 子图模式( 附在此模式中,图像中的宏块不再采取6 0 b 那样的固定提高抗错能 录k )组合,而是根据需要自由地组合在一起。子圈的形状力 可以是矩形,也可以是其它形状。子圈的信息头具有 重同步标志,从而可以提高码流抗干扰的能力。 补充的增强消在此模式下。编码器传送一些额外的信息给解码器。扩展应用范 息模式( 附录如果解码器不支持这些信息,可以忽略这些额外的消围 l ) 息。如果解码器支持这些附加信息,就可以对已经解 码的视频帧进行一些特殊的操作。 增强的p b 帧也称为i p b 帧模式,在基本模式下,b 帧只可以进行双提高压缩码 8 东南大学硕士学位论文 第一章 模式( 附录向预测,这样,当视频序列前后两个p 帧间差别较大 蛊 m )时,就可能引起较大的误差。而在此模式中,b 帧允许 作前向、后向、双向预测,这样。b 帧可以选择相对误 差较小的p 帧来进行预测,从而提高预测精度,压缩 效率。 参考帧可选模在此模式下,可以选择特定的帧来预测当前帧,如果提高压缩码 式( 附录n )视频序列是在两个差别较大的场景之间来回切换,就率增强抗 可以选择使用同一场景下最新一帧来预测当前帧,从错能力 而提高编码效率,但此模式需要编解码器有足够的缓 存区乃保存格外的图像帧。 空间、时间、编码的分级性有助于改善信号对信道状况的适应能提高编码器 信噪比可分级力。例如,当信道质量较好时,可以通过传送较多的对信道的适 模式( 附录比特以获得更好的图像质量,而等僧道质量恶化时, 应能力 o )可以丢掉增强层码流,只传输基本层码流,这样。系 统仍然可以获得一定质量的图像,而不会产生图像帧 传输的明显的延时。 参考帧重建模在参考帧用于预测以前对参考帧进行一次变换,这对改善图像质 式( 附录p )于具有不同格式的视频序列是有用的,特别是当预测 量 对象进行一些三维运动或者扭曲变形时,采用参考帧 重建算法对于保证预溯的精度尤其有效 , 降低分辨率更在背景很细致而前景运动很激烈的情况下,这种模式扩展应用范 新模式( 附录搬有用。它允许编码器l :f 较低的分辨率传送运动信围 o )息,然后在解码端进行合成,这样在输出埔就可以 维持较高的分辨率。 段独立解码模在此模式下,图像被分成若干段,运动估计只能在段增强抗错能 式( 附录r )内进行这就大大降低了误码在不同段之闻扩散的机力 会适台应用在干扰强的地方,通常可以与予图模式 联合使用。 帧间v l c 选择在此模式下,帧间宏块可以采用先进帧内编码模式中提高压缩码 模式( 附录设计的v l c 表。从而进一步降低码率 蛊 s ) 修正量化模式在h 2 6 3 基本框架下,基本模式下相邻宏块使用的改善图像质 ( 附录t )量化步长之差不超过2 ,修正量化模式则突破这个限量 制。允许自由调整量化步长。同时此可选模式提供 了更好的色度量化器可以提高图像颜色质量,扩展 了码字所能表达的d c t 系数的范围,有助于改善图像 质量。 9 表卜7h 2 6 3 + + 的可选模式 4 6 7 8 可选模式主要内容作用 增强参考帧可提供了两个子模式,用以减少参考帧选择模式所需要提高压缩码 选模式( 附录的格外的内存量。率,增强抗错 u ) 能力 数据分割模式在此模式下。图像以帧为单位,将其中所有宏块的头增强抗错能力 ( 附录v )信息集中在一起,接着是所有宏块的运动矢量。最后 是所有的i ) c t 系数。这三段数据之问用特殊标记隔 离。这种傲法的好处是:容易确定误码位置及其性 质,便于分级保护数据,一般而富,头信息和运动矢 量比d c t 系数更加重要,对于它们采用可逆变长码 可以有效地增强码流的抗误码能力,而对于其它d c t 系数,基于减少码字的原则,仍然可以采用通常的变 长码。 附加的增强信在此模式中,h 2 6 3 + + 对h 2 6 3 + 中的增强信息模式傲了扩展应用范围 息模式( 附录一些新的改进。 w ) 1 4 4 h 2 6 l 随着技术的发展和人们需求的提高,对视频编码的压缩率、容错能力、灵活性、可扩展性、 图像质量提出了更高的要求,为了使h 2 6 系列适应新的形势,i t u t 的v c e g 专家组对h 2 6 视频编码标准作了进一步的改进,远期目标就是即将推出的新的低码率视频压缩标准h 2 6 l 。 1 9 9 8 年1 月,v c e g 专家组提出了h 2 6 l 建议,开始征求广泛的意见t1 9 9 9 年1 月,v c e g 专家组给出了h 2 6 l 的第一个测试模型t 扎一1 ,公开进行测试和改进。2 0 0 0 年6 月,v c e g 专 家组给出了h 2 6 l 新的测试模型t m l 一8 。 随后在2 0 0 1 年,) 4 p e g 专家组也认可了h 2 6 l 标准的发展潜力并且与v c e g 合作成立了联 合视频专家组j y t ( j o i n tv i d e ot e a m ) 。j v t 的目标是把2 6 l 发展成为通用的国际视频编码标 准,即h 2 6 4 ) 4 p e 0 4p a r t1 0 ,官方的叫法是先进视频编码a v c ( a d v a n c e dv i d e oc o d i n g ) 。但 是,人们通常采用熟悉的叫法h 2 6 l ,或者称为h 2 6 4 ( i t u t 正式的文档叫法) 。作为习惯, 在论文的以下部分,我们仍然以h 2 6 l 来称呼这种新的编码标准。 1 0 】 最初v c e g 专家组希望在h 2 6 3 基础上发展起来的新的甚低码率视频编解码标准h 2 6 l 具 有这样几个优点: 低比特率,实时,低延迟; i o 末南大学硕士学位论文第一章 复杂度低,可用软件实现; 抗错能力强可用于误码率较高的移动网络环境; 自适应的码率控制机制; 信息源格式可变,适应范围更广。 为了达到上述目标,v c b g 专家组对h 2 6 3 的编码框架进行了一系列的改进。一方面。 h 2 6 l 把h 2 6 3 + 、h 2 6 3 + + 中一些已经证明行之有效的可选模式作为h 2 6 l 中的基本模式固定下 来- 如先进帧内预测模式、基于句法的算术编码模式等;另一方面,h 2 6 l 又加入了一些新的研 究成果例如可选的i 4 ( i 8 ) 象素的运动估计、多模式的运动矢量估计、4 4 的b c t 整形运 算等,从两使h 2 6 l 在压缩率上具有更佳的性能其中,h2 6 l 视频编码标准与h 2 6 3 基本框 架相比,主要的改进如下。 i 4 ( i 8 ) 象素精度的运动估计 在h 2 6 3 、肝e g 一1 、m p e g 一2 视频编码标准中,采用的都是l 2 象囊糟度的运动估计,而在 h 2 6 l 视频编码标准中,可以采用i 4 ( i 8 ) 象素精度的运动估计,这就使得运动估计和运动补 偿更为准确。或者说在要求精度相近的情况下h 2 6 l 采用i 4 或者i 8 象素的块匹配可以满足 对于匹配精度的要求,而1 1 2 6 3 采用i 2 象素精度的运动估计可能藏达不到要求,只能进行帧内 编码。我们知道,进行帧内编码一般需要比运动估计编码更多的码字。因而拥有更精确的运动 匹配意味着h 。2 6 l 在帧问编码中所需码率更小。 7 种不同尺寸块的运动矢量估计 运动估计块匹配算法中,还有一个需要考虑的地方是匹配块的大小。综合考虑数码率的开销 以及运动估计的准确性一般采用1 6 1 6 的宏块和8 8 的数据块作为运动估计块匹配的基本单 元。在视频编码标准h 2 6 1 、肝e g 一1 中,采用1 6 1 6 的宏块作为基本的匹配单元,在h 2 6 3 、 m p f , g 一2 、肝e 6 4 中,既可以采用1 6 1 6 的数据块作为块匹配的基本单元,也可以采用8 8 的 数据块作为基本的匹配单元。而在h 2 6 l 中,它采用7 种不同大小的数据块作为运动估计块匹配 的基本单元。当视颏图像变化简单时,可醴和h 2 6 1 、h 2 6 3 一样,采用基于1 6 1 6 的数据块或 者8 x 8 数据块的运动估计就可以了。而对于运动较复杂以及运动细部较多的视频序列,可以采 用基于8 4 的数据块或者4 4 的数据块作为块匹配的基本单元。从而更好地实现运动补偿,减 少数码率。 d c t 的整形运算 在视频压缩编码中,运动估计和d c t 是最耗费计算量的两大部分。在h ,2 6 3 算法中,采用 基于8 8 块的d c t 的浮点运算,不仅运算量相当大,而且不利于移植到定点d s p 中。而在 h 2 6 l 中采用的是基于4 x 4 块的d c t 整形运算,避免了浮点运算,减少了运算量和复杂度, 从而有利于实现实时化和移植到定点d s p 上。d c t 变换的整形化当然会引起一些误差,但d c t 的 量化过程中也存在误差,与之相比整形化引起的误差影响并不大。对于4 4 块的逆d c t 变换 在h 2 6 l 中同样进行了整形化,整形化过程与d c t 变换类似。 东南大学硕士学位论文 第一章 先进的帧内预测 帧内预测可以减少需要编码的数据量,从而达到降低数码率的作用。在h 2 6 l 中,先通过 当前宏块的上边和左边宏块来预测当前宏块值再用d c t 变换来编码预测宏块与当前宏块的差 值。由于差值一般比当前宏块的实际值小,d c t 变换后会出现更多的全零块,从而可以降低需要 编码的数据量,减少码率。对于帧内编码应用较多的图像序列帧内预铡对于降低码率十分有 效。h 2 6 l 的帧内预测包括基于4 4 的数据块的预测与基于1 6 1 6 的数据块预测两种情况。 基于4 4 的数据块的帧内预测是一般情况基于1 6 1 6 块的帧内预测只用于帧内象素变化比较 平稳的情况。 基于上下文的算术编码 基于上下文的算术编码也是h 2 6 3 中可选模式之一,而在h 2 6 l 中,基于句法的算术编码作 为基本的编码模式得到应用,它可以在运动估计和d c t 变换的基础上进一步压缩码率。一般情况 下,基于上下文的算术编码可以提高压缩效率5 ,但计算量会因此增加。 对于h 2 6 l 的上述特点,我们将在第二章里给予更详细的说明。 1 5 论文的主要工作和纲要 第一章:绪论。在这一章里首先阐述了视频编码的基本原理、方法和主要的低码率视频编码 标准h 2 6 1 、h 2 6 3 ( h 2 6 3 + 、h 2 6 3 + + ) 。接着分析了新一代视频编码标准h 2 6 l 的产 生背景及特点。 第二章;新一代视频编码标准h 2 6 l 。在这一章里,给出了h 2 6 l 的语法结构,分析了h 2 6 l 帧间编码、帧内编码和熵编码的过程重点对h 2 6 l 相对于h 2 6 3 的几个主要改进之处 进行讨论。 第三章:h 2 6 l 中的运动估计。对运动估计的一般方法作分析。讨论了块匹配法匹配准则的优 劣以及块匹配法中需要注意的一些问题。着重分析了i t 2 6 l 视频标准中运动估计的流 程,讨论了使用7 种不同尺寸匹配块以及1 4 ( i 8 ) 精度象素的运动估计对视频标准编 码性能的影响。 第四章:h 2 6 l 中运动估计的优化。从整象素运动估计、高精度运动估计、7 种匹配块模式的选 择三个方面对基于h 2 6 l 视频标准的编码器进行优化提出了利用整象素运动估计时已 知的s a d 值( 运动补偿后的绝对差之和) 对高精度运动估计时的s a d 值进行预测以及通 过判断全零块简化匹配块选择的改进算法。最后在p c 机上实现了对h 2 6 l 视频编码器 的优化,给出实验结果并进行分析。 第五章:工作总结及下一步的工作。对完成的工作作总结并简述下一步需要进行的优化工作。 2 乐匿太堂砸堂拉论文 一 簋= 重 第= 章瓤一代甚低码率视频编码标准h 。一2 6 l 2 1h 2 6 l 视频编码标准概述 作为h 2 6 3 之后新一代的视频通信标准,人们希望h 2 6 l 具有更好的性能,专家们提出 了甚低码率、实时传输、低延迟、易于软件实现、强大的抗错能力这几个技术指标。 为了达到上述目标,h 2 6 l 视频编码标准作出了多方面的改进。帧内编码中,h 2 6 l 采用 了帧内预测和基于4 x 4 数据块的整形d c t 变换;帧间编码中,h 2 6 l 使用了7 种不同尺寸的 数据块进行运动估计。块匹配的精度可以达到1 4 或i 8 象素精度;而在熵编码过程中h 2 6 l 提供了统一的变长编码u v l c ( u n i v e r s a lv a r i a b l el e n g t hc o d e ) 和基于上下文的算术编码 c a b a c ( c o n t e x t - b a s e da d a p t i v eb i n a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论