(通信与信息系统专业论文)h264运动估计技术研究与改进.pdf_第1页
(通信与信息系统专业论文)h264运动估计技术研究与改进.pdf_第2页
(通信与信息系统专业论文)h264运动估计技术研究与改进.pdf_第3页
(通信与信息系统专业论文)h264运动估计技术研究与改进.pdf_第4页
(通信与信息系统专业论文)h264运动估计技术研究与改进.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(通信与信息系统专业论文)h264运动估计技术研究与改进.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 h 2 6 4 a v c 视频编码标准是由i t u ts g l6q 6 视频编码专家组联合i s c i e c 运动图象专家组共同制定的。h 2 6 4 为了提高压缩率应用了一些计算度很高的算 法,其中运动估计是计算度最高的,这个算法通过在参考帧或者参考块中寻找与 当前块相似度最高的匹配块来达到减少需要传输的比特数和占用的网络带宽之目 的。由于h 2 6 4 在运动估计中不仅采用了整象素估计还采用了高精度的分数象素 估计,同时引入了多参考帧技术一在多个参考帧中寻找最佳运动矢量,导致它在 提高匹配精度的同时也大幅增加了编码复杂度。为了降低运动搜索的复杂度, h 2 6 4 的官方模型采用了基于预测子集的运动估计算法,这些算法比起只专注于搜 索模式的快速搜索算法( 三步搜索算法,钻石搜索算法,四步搜索算法) 大幅度 提高了搜索的效率,因为充分利用了图象的空间与时间相关性。 本文首先介绍了h 2 6 4 视频编码算法采用的关键技术以及一些重要的基于块 匹配的运动搜索算法。接着重点介绍了最新j m 模型中采用的快速运动搜索算法 e p z s ,该算法在运动幅度较小并且没有突变运动的视频序列中能达到一个很好的 效果,但是当序列有突变或者运动加大的时候它的搜索时间就相对更长。针对这 个问题通过对各种运动复杂度的视频序列进行验证,提出了一种能够降低视频序 列搜索时间同时保持信噪比在一定波动水平的的改进e p z s 算法。 e p z s 算法中当预测子集s 1 中的中值预测矢量不满足搜索终止条件的时候,接 着会把另外三个预测子集的预测矢量都与门限值t 2 进行比较。本文的改进算法在 检测完预测子集s i 后如果没有终止,只检测子集s 2 和s 3 中的预测值,如果低于 门限值t 2 就终止算法,否则才检测子集s 4 。这种把针对大运动和突变运动的预测 子集s 4 与预测子集s 2 、s 3 分别与门限值t 2 进行比较,减少了运动速度偏小的视 频序列的不必要搜索。该算法还对基于搜索窗口的预测子集s 4 根据时间域和空间 域的相关性进行了进一步精选,减少了不必要的搜索点数,同时图象还能保持一 个较好的信噪比。 关键词:h 2 6 4 ,e p z s ,预测子集,运动估计 a b s t r a c t a b s t r a c t h 2 6 4i sav i d e oc o d i n gs t a n d a r dj o i n t l yd e v e l o p e db yi t u ts g l6q 6v i d e o c o d i n ge x p e r t sg r o u pa n di s o i e cm o v i n gp i c t u r ee x p e r t sg r o u p t h i sc o d i n g s t a n d a r dh a sh i g hc o d i n ge f f i c i e n c yb yi n t r u c d i n gs o m en e wf e a t u r e si n c l u d i n gm o t i o n e s t i m a t i o n ,w h i c hd e d i c a t e st or e d u c et h eb i tr a t ea n dt h eo c c u p a t i o no fb i n d w i t hb y s e a r c h i n gt h e m o s ts i m i l a rb l o c ki nt h er e f e r e n c ef r a m e s t h e h i g ha c c u r a c y f r a c t i o n a l p e lm o t i o ne s t i m a t i o na n dt h em u l t i r e f e r e n c ef r a m e sm a k et h eh 2 6 4h a v i n g e x t r e m ec o d i n gc o m p l e x i t y i no r d e rt or e d u c et h es e a r c h i n gc o m p l e x i t y , t h es t a n d a r d u s e ss o m es e a r c ha l g o r i t h m sb a s e do nm v p r e d i c a t i o ns u b s e t s ,t h et w oa l g o r i t h m sh a v e r a p i d i t yi m p r o v es e a r c he f f i c i e n c yc o m p a r e dt os o m ef a s ts e a r c ha l g o r i t h m sw h i c ho n l y f o c u so ns e a r c hm o d e t h i sp a p e rf i r s td i s c u s s e st h eb a s i cp r i n c i p l e sa n dk e yt e c h n o l o g i e so fh 2 6 4v i d e o c o d i n gs t a n d a r d ,t h e ni nd e p t ha n a l y s e st h eh 2 6 4r e c o m m e n d e dc o r ea l g o r i t h mo f m o t i o ne s t i m a t i o ne p z s t h ee p z sc a l la c h i e v eag o o dp e r f o r m a n c ei ft h ev i d e o s e q u e n c eo n l yh a sl o wm o t i o na n dn os u d d e nm o t i o n ,h o w e v e rw h e nt h es e q u e n c e h a v i n gc h a r pc h a n g ea n da c c e l e r a t e dm o t i o nt h e r ew i l lb es o m ei n f l u e n c eo nt h e p e r f o r m a n c e t h i sp a p e rd o e ss o m ei m p r o v eo ne p z st or e d u c et h em o t i o ne s t i m a t i o n t i m eo fv a r i o u sv i d e os e q u e n c ea n dm a i n t a i nt h ei m a g eq u a l i t y e p z sw i l lc a l c u l a t ea 1 1t h er e m a i nt h r e ep r e d i c t e ds u b s e t s ,i ft h es u b s e ts ld o e s t s a t i s f yt h et e r m i n a t i o nc o n d i t i o n ,t h ei m p r o v e de p z sa l g o r i t h mo ft h i sp a p e rj u s tc h e c k t h es u b s e t so fs 2a n ds 3 ,o n l yw h e nt h e ya l ld o n tm e e tt h et e m i a n t i o nc o n d i t i o nt h e n e x a m i n e st h es u b s e ts 4 t h i si m p r o v e m e n tc a nr e d u c et h eu n n e c e s s a r yc a l c u l a t i o nf o r t h es m o o t hp i c t u r e a tl a s tt h ei m p r o v e de p z sa l g o r i t h ma l s os e l e c t st h es u b s e ts 4 m e m b e rf o ri n c r e s s i n gt h ec h a n c eo fs e a r c h i n gt h eo p t i m a l k e y w o r d s :h 2 6 4 ,e p z s ,p r e d i c t i o ns u b s e t s ,m o t i o ne s t i m a t i o n i i 图目录 图目录 图2 1 编码器结构7 图2 2 解码器结构。7 图2 3h 2 6 4 的档次8 图2 4 块的7 种模式9 图2 5 亮度半象素位置内插1 0 图2 6 亮度1 4 象素内插1 1 图2 7 图象层比特控制块15 图3 1b u s 序列相邻帧1 9 图3 2 全搜索算法2 0 图3 3 三步搜索算法步骤2 0 图3 4 四步搜索算法步骤2 1 图3 5 大小钻石模型2 2 图3 6 六边形搜索模板2 2 图4 1e p z s 算法中空间和时间域相关块2 6 图4 2 加速运动矢量2 7 图4 3e p z s 算法采用的三种优化模型2 8 图4 4 优化子集s 4 所用到的参考块3 2 图4 5 优化后的s 4 预测值3 3 图4 6 优化后算法流程图3 7 图4 7c o a s t g u a r d _ q c i f y u v 编码时间比较3 9 图4 8c o a s t g u a r d _ q c i f y u v 序列运动估计时间比较4 0 图4 9c o a s t g u a r d _ q c i f y u v 序列信噪比比较4 0 图4 1 0s t e f a ne i y u v 序列编码时间比较一4 1 图4 1 ls t e f a ne i y u v 序列运动估计时间比较4 1 图4 1 2s t e f a nc i f y u v 序列信噪比比较4 2 图4 - 1 3c o a s t g u a r d _ q c i f 实验结果主观评价4 3 图4 1 4s t e f a ne i y u v 序列实验结果主观评价4 4 v 图目录 表目录 3 1f o r e m a nq c i y u v 序列各种算法性能比较2 4 3 - 2 c o a s t g u a r d _ q c i f y u v 序列各种算法性能比较2 4 4 1e p z s 与e p z s 1 信噪比比较31 4 2e p z s 与e p z s 1 编码与运动估计时间比较一3 1 4 3e p z s 与e p z s 2 信噪比比较一3 4 4 4e p z s 与e p z s 2 编码与运动估计时间比较3 4 4 5q p = 2 8 时e p z s 3 与e p z s 比较3 6 4 6q p = 3 6 时e p z s 3 与e p z s 比较一3 6 4 7n e p z s 算法改进效果一3 9 v i 表表表表表表表表表 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 日期:扣p 年6 月脚h 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:丕。羞翌导师签名:鬯亟垄丝 日期:扣年6 删日 第一章绪论 1 1 课题研究背景与意义 第一章绪论 自从上个世纪互联网的广泛普及,信息的交流就日益膨胀,语音信息和静止 的文字图象信息已经不能满足当今的需求。视频图象信息才是当今需求的主要部 分,因为它包含的信息更加丰富多彩更加生动,同时也正是因为图象视频信息所 包含的巨大丰富的信息量【1 】,给互联网带来了前所未有的压力。移动通信业务从以 前的语音信息业务发展到现在的多媒体应用就是一个最生动的例子,也促使移动 通信从2 g 发展到3 g 【2 3 j 。 图象视频信息的固有特征就是信息量很大,帧率为3 0 f p s ,帧格式为c i f ( c o m m o ni n t e r m e d i a t ef o r m a t ) 的2 4 位真彩视频图象的信息量可以达到3 0 3 5 2 2 8 8 2 4 = 7 3 m b i t s ,而一路高清的电视信号的信息量就更大了,达到1 g b i t s m l 。 同时互联网的发展也带动了更多的网络业务比如视频点播( v i d e oo nd e m a n d ) 、网 络游戏、视频会议、数字图书等的发展。这些业务的急速猛增,导致需要传输的 信息量以“爆炸式 的速度增长这就给互联网提出了很高的要求。虽然视频信息 量很大,但是不一定需要传输所有的信息,因为视频帧之间具有很大的相关性, 正是这些相关性导致了冗余信息的出现,同时也正是因为冗余信息才使得视频压 缩编码成为可能。视频序列的冗余包括统计冗余、结构冗余、先验知识冗余、视 觉冗余。统计冗余包括时间空间冗余、信息熵冗余,它们都是由数据之间的统计 特性得到的。结构冗余就是图象从整体上看有着一定的纹理,比如一些有水纹布 纹的图象就存在结构冗余。先验知识冗余是因为图象是对客观事物的描述,而客 观存在的某些物体是有一定确定结构的,比如人类的脸就是有一个固定结构的客 观事物。视觉冗余是因为人类的视觉系统h v s ( h u m a nv i s u a ls y s t e m ) 是有缺陷 的,比如它对亮度变化比对色度变化敏感,它的分辨能力大概就2 8 灰度等级,对 物体内部细节没有整体结构敏感等缺陷。 因此视频压缩标准的出现是必然也是必须的,自从1 9 8 4 年c c i t t ( c o n s u l t a t i v e c o m m i t t e ei n t e r n a t i o n a lt e l e p h o n ea n dt e l e g r a p h ) 公布第一个视频标准,视频标准就 以飞快的速度更新着来适应信息的高速交流。仅仅时隔5 年国际电信联盟i t u t 电子科技大学硕士学位论文 就公布了第一个数字视频标准h 2 6 1 t 5 1 ,接着还公布了一些多媒体终端标准比如 h 3 2 0 和h 3 2 3 。同时图象运动专家组m p e g 也颁布了一些娱乐数字电视编码标准: m p e g 1 f 6 】、m p e g 2 【7 】、m p e g 4 【8 】o 但是这些标准总是因为视频压缩率和视频质 量之间难以调和的矛盾在高清数字电视和视频通信应用中受到了很大程度的制 约。 h 2 6 4 【9 】视频编码标准的发布是视频标准的一次全新的突破,它不仅使得视频 图象的压缩率相比以往的视频标准有着很大的提升,同时它还具有其它视频标准 不具备的网络亲和性,即使在信道条件比较不理想的时候传输性能也是比较好的。 h 2 6 4 视频编码标准提供了可靠的差错隐藏技术,同时支持延时不是很长的编解 码。但是这个视频编码标准为了提高编码效率,使用了帧间预测中的运动估计这 个计算度非常高的算法。这个算法的计算量占到了整个编码器的七八成左右,极 大的制约了编码的效率,同时这个算法的高复杂度,使得编码器难以在实际应用 中被广泛推广,因为相应的硬件水平难以跟上。 h 2 6 4 官方模型j m 中采用了两种快速运动估计算法:u m h e x a g o n s 和e p z s 。 本文在对现有的基于块匹配模式的快速运动估计算法和基于预测型的快速运动估 计算法进行研究之后,对h 2 6 4 中的运动估计进行了一些有效的改进,在保持图 象质量改变不大的基础上提升了运动估计的速度,为h 2 6 4 的在实际应用中的推 广贡献一点微薄之力。 1 2 视频压缩标准简介 自从1 9 4 8 年o l i v e r 提出脉冲编码调制p c m ( p u l s ec o d i n gm o d u l a t i o n ) 理论, 视频压缩的研究就日渐成为热点。同时,s h a n n o n 提出了信息率失真函数,1 9 5 9 年s h a n n o n 在这个函数的基础上确立了码率失真理论,接着b e r g e r 在信息率失 真理论这本书中对s h a n n o n 提出的理论进行了进一步的论述。这些理论性的工 作奠定了视频压缩的基础。 视频压缩标准一般可以分两代:第一代的视频压缩编码主要是基于信号的处 理,比如对信号进行正交变化、矢量量化等,这些算法经历了几十年的发展比较 成熟,应用范围也最广,但是这些技术压缩率不高,单独使用难以满足需求;第 二代视频压缩编码的主要编码依据是图象的结构模型和人体视觉缺陷,这些算法 的主要特点是虽然编码效率高但是比较复杂。目前制定视频压缩标准的主要国际 2 第一章绪论 组织有两个:国际电信联盟电信标准部i t u t ( t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o n s e c t o ro fi n t e r n a t i o n a lt e l e e o m m u n i c a t i o n su n i o n ) 、i s o i e c 的运动专家组m p e g ( m o t i o np i c t u r ee x p e r t sg r o u p ) 。这两个组织分别制订了h 2 6 x 系列和m p e g x 系列的压缩标准。下面分别具体介绍一下这些视频压缩标准。 1 ) h 2 6 1 ( i t u ,1 9 9 0 ) h 2 6 1 视频编码标准又称为p 6 4 ,是第一个具有实用价值的数字编码标准, 主要针对带宽为6 4 k b p s 倍数的综合业务数字网i s d n ( i n t e g r a t e ds e r v i c e sd i g i t a l n e t w o r k ) 。这个编码标准支持c i f ( 3 5 2 2 8 8 ) 和q c i f ( 1 7 6 1 4 4 ) 这两种视频格式, 色度采用4 :2 :0 采样这种彩色分量最小的格式。这个算法为了降低带宽占用量,采 用了图象质量和运动幅度两者的折中机制,在实时编码的时候比m p e g 系列标准 运算量少得多。这个编码标准与h 2 6 4 编码标准一样没有规定视频编码器解码器 的具体实现,而只是规定了码流的结构。 2 ) m p e g 1 标准( i s o ,1 9 9 1 ) m p e g 1 标准是运动专家组制定的第一个音频和视频的有损压缩标准,主要针 对v c d 的应用,这个标准采用了分层的概念,比如一个m p e g 1 视频序列可以包 括若干个g o p ( g r o u po fp i c t u r e ) ,一个g o p 由多个帧组成,每个帧又包含了多 个片,h 2 6 4 视频标准中就沿用了这些概念。m p e g 1 把视频序列分成四种预测类 型的帧:i 帧( i n t r ac o d e dp i c t u r e ) 、p 帧( p r e d i c t i v ec o d e dp i c t u r e ) 、b 帧( b i d i r e c t i o n a l l y p r e d i c t i v ec o d e dp i c t u r e s ) 和d 帧( d i r e c tc o d e dp i c t u r e ) 。i 帧只有帧内预测,p 帧采用 前向帧间预测,b 帧采用双向帧间预测,d 帧是直接编码的。由于采用了运动估计 技术,它的编码端复杂度已经很高了。 3 ) m p e g 2 h 2 6 2 ( i s oa n di t u ,1 9 9 4 ) 这个编码标准是电信标准部和运动专家组联合开发的标准,其中h 2 6 2 是视 频标准部分。由于这个标准提出了通用的编码方法,使之应用非常广泛,它分5 个档次和4 个级别,构成了2 0 个组合,应用最多的有1 1 种。m e p g 2 支持隔行扫 描和逐行扫描,逐行扫描时编码的基本编码单元是帧,隔行扫描编码的基本单元 可以是帧也可以是场。m p e g 2 采用了余弦变换d c t 、之型扫描与游程编码、熵 编码、运动估计和运动补偿混合编码等技术。 4 ) h 2 6 3 1 0 j 标准( i t u ,1 9 9 6 ) h 2 6 3 视频压缩标准的提出主要是为了低码率视频的压缩,但它还是被推广到 了很宽码流的应用中。这个标准是在h 2 6 1 标准上的一个改善,它的运动估计和 运动补偿使用了二分之一象素精度( h 2 6 1 中是全象素精度) 。h 2 6 3 支持5 种分 3 电子科技大学硕士学位论文 辨率:c i f 、q c i f 、s q c i f 、4 c i f 、1 6 c i f ,采用算数编码方法。h 2 6 3 + 对h 2 6 3 进步进行了优化,提高了压缩性能,把信道编码和信源编码进行了综合考虑, 提高了抗误码率和纠错能力。 5 ) m p e g 一4 标准( i s o ,1 9 9 9 ) 在m p e g 4 这个视频标准制定之前,其它视频标准都是采用第一代压缩编码 技术。这些基于波形编码的视频标准存在以下的一些缺陷:在高压缩率情况下会 出现块效应,因为它们都是把图象分成相同大小的块,即使是同一个物体也会被 强硬分割;采用这些视频标准压缩的视频序列只能正向播放,不可以进行回放; 没有充分利用h v s ( h u m a nv i s u a ls y s t e m ) 。m p e g - 4 是第二代视频压缩技术的代 表,不仅充分利用了人眼视觉特征,还从图象的纹理和轮廓等来挖掘数据之间的 冗余。a v o ( a u d i ov i s u a lo b j e c t ) 是m p e g 4 提出的重要概念,音频视频不再是 过去视频标准中的图象帧的概念,而是基于视听场景,这也正是m p e g 4 的核心 编码技术。 6 ) h 2 6 4 a v c ( j v t , 2 0 0 3 ) h 2 6 4 a v c 是i t u t 和i s o i e c 联合制定的视频新标准,也是m p e g 4 标准 的第十部分,正式名称是i s o i e c1 4 4 9 6 1 0 。这个视频标准包括了一些新的特性: 支持多参考帧的运动估计和运动补偿技术;采用1 6 x 1 6 、1 6 x 8 、8 x 1 6 、8 x 8 、8 x 4 、 4 x 8 、4 x 4 七种块模式来进行运动补偿和运动估计,相比以前单一的块模式,需要 传输的残差信息得到很大的降低;通过使用网络抽象层,使得视频信息可以在不 同的网络环境中传输;采用灵活的宏块排列模式f m o ( f l e x i b l em a c r o b l o c ko r d e r i n g ) 和数据分区等方法来增强抗干扰水平和解码端的图象恢复能力。 1 3 论文的主要内容和结构安排 本文的内容结构安排如下: 第一章为绪论。主要给出了课题的研究背景,简要的介绍了当今主要存在的 一些视频压缩标准,同时规定了论文的结构安排。 第二章主要介绍了h 2 6 4 视频编码的结构,同时深入的分析了这个最新视频 编码标准的一些主要特征和采用的关键性技术。 第三章阐述了运动估计算法的基本原理,接着介绍了一些典型的块匹配方法 的运动估计步骤,对它们之间的性能做了一个简单的比较,得出的结论是基于模 4 第一章绪论 式的快速运动估计比全搜索算法节约了大量的运动估计时间,同时还发现 m v f a s t 算法和p m v f a s t 算法由于利用了空间时间相关性比这些仅仅基于模式 的运动估计算法的运动估计的时间更短。 第四章首先介绍了h 2 6 4 视频标准j m 模型中采纳的e p z s 算法。接着对e p z s 算法的每一个步骤进行详细推敲,得出这个算法中可以改进的地方,同时对这些 改进进行了分步验证,最后结合所有的改进,得到算法n e p z s 。通过对七种运动 复杂度不同的视频序列进行验证对比之后,证明了n e p z s 算法相比e p z s 算法在 信噪比改变不大的情况下很大程度的降低了运动估计和编码时间。 第六章总结了本文所做的主要工作,接着对本文中的不足之处进行了一个点 评,指出以后改进算法可以努力的方向。 5 电子科技大学硕士学位论文 第二章h 2 6 4 关键技术研究 2 1h 2 6 4 a v c 的编勰码器结构 h 2 6 4 a v c 的基本编码器和解码器结构与以前的视频编码标准m p e g 4 , h 2 6 1 、h 2 6 3 、m p e g 1 等的基本功能块是非常相似的,都选择混合编码方式,但 是它舍弃众多选项采用“回归基本”的设计,在每个模块的具体细节的实现上也 有很多改进,获得了比以前编码标准更优越的压缩性能。h 2 6 4 编解码器中都没有 规定具体实现细节,只是统一了编码器输出的数据句法,以及规定了怎样对这些 数据进行解码,这样编解码器的具体实现就可以非常灵活,各个商家也可以根据 实际需求设计复杂度不同的编解码器。 视频序列和传输介质的多变性带来了最新视频压缩标准中压缩技术的复杂 性。h 2 6 4 a v c 就是利用编码器和解码器的复杂性获得压缩性能的显著改善,这 些改善包括压缩率的增加,码率控制的优化,纠错能力的提高等。接下来具体描 述h 2 6 4 的编码器和解码器的主要结构。 2 。1 1h 。2 6 4 编码器 h 2 6 4 的编码器【l l j 采用了基于4 4 的整数d c t 变换和帧内帧间预测的混合编 码方法。f n 代表当前被编码的块,f n 1 是前一个重建块用来作为编码参考,f n 是当前重建图象。 h 2 6 4 的编码器是对每个宏块分别编码,因此输入的帧或者场f n 就是以宏块 为单位的。从图2 1 可以看出编码器的输入就是当前需要编码的宏块和已经编码的 被用来作为参考的宏块。输出的是重建宏块和经过量化、变换、熵编码之后的残 差块。 从图2 1 可以看出有一个开关控制着编码的两个方向的选择,如果选择的是帧 间预测编码,它的预测值p 就是由已被编码的参考图象运动补偿之后得到的。为 了提高预测的精度和准确率,参考图象不仅可以从过去已经编码解码和重建滤波 6 第二章h 2 6 4 关键技术研究 的帧中选择还可以从未来已经编解码、滤波的帧中进行选择。比如p 帧只能在参 考序列l i s t 0 中选择参考帧,而b 帧就可以在参考序列l i s t 0 以及l i s t l 中选择参考 图象。如果选择的是帧内预测,参考块就与当前块处在同一个片中,只在同一个 片中选择参考块主要是为了防止错误信息的扩散。 图2 1 编码器结构 圃世 图2 - 2 解码器结构 通过帧内或者帧间预测得到的预测值p 与f n 相减的结果就是残差块d n ,接 着对这个残差块进行变换量化得到系数x ,再对x 进行熵编码得到的结果和运动 矢量、量化参数等边信息一起压缩传输到n a l ( n e t w o r ka b s t r a c t i o nl a y e r ) 层。 同时为了编码端得到重建参考块需要设置一个重建路径,重建得到的图象可以为 接下来编码的图象提供参考,同时为了提高重建参考帧的质量还对它进行了滤波 去除编码过程中的噪声。 2 1 2i - i 2 6 4 解码器 7 电子科技大学硕士学位论文 解码器的输入是从网络自适应层中提取的数据,这些数据就是编码器中的输 出数据( 变化系数x 、边信息熵编码后的数据) 。这些数据经过熵解码和重新排序 之后就可以得到变换系数和边信息了,再对它们进行反量化和反变换结合参考块 信息就可以得到重建块。与编码端一样为了使得重建块质量更高,也需要用一个 环路滤波器去除噪声。 2 2h 2 6 4 的档次和级 为了满足不同的应用需求。h 2 6 4 a v c 规定了三个编码档次,而每个档次通 过选择不同的参数( 图象大小、编码比特率等) 还可以分成几个编码性能不同的 级别。 ,一一一。一一一一 m a i np r o f l i e # 二群焉高,一。弋- 厂雾熏1、 图2 3h 2 6 4 的档次 a ) 基本档次:从图2 3 可以看出这个档次支持帧内和帧间预测编码,但是不 支持b 片编码,同时采用的熵编码方法只有自适应变长编码c a v l c ( c o n t e x t a d a p t i v e v a r i a b l el e n g t hc o d i n g ) 。这个档次主要应用于实时通信比如电 视会议。 b ) 主要档次:这个档次不仅支持i 、p 片还支持b 片帧间预测编码。同时这 个档次可以采用两种熵编码方法:基于上下文的自适应变长编码c a v l c 、基于上 下文的自适应算术编码c a b a c ( c o n t e x t a d a p t i v eb i n a r y a r i t h m e t i cc o d i n g ) 。 c ) 扩展档次:这个档次包含了基本档次的全部功能以及主要档次的大部分功 8 第二章h 2 6 4 关键技术研究 能,同时增加了s p 片和s i 片来快速切换数据流、通过支持数据分割来增强纠错 能力。 2 。3 帧内预测和帧间预测 帧内预测【1 2 。1 4 】是利用与当前被编码块空间相邻的象素值来预测需要编码的象 素。对亮度分量而言,帧内预测可以分4 4 块和1 6 1 6 宏块两种块模式。其中4 4 亮度块有9 种可供选择的预测模式,这些预测模式适用于有大量细节的图象。 而1 6 1 6 亮度块有4 种预测的模式来预测整个完整的1 6 x1 6 象素块,这种操作 适用于象素相似度较高的平坦区域的图象编码。当是色度块的时候就只有相似于 亮度块的1 6 1 6 象素块的4 种预测模式。另外还有一种不经过预测和变换的编码 模式ip c m ,这种模式的采用是因为图象有时候会很不规则,经过预测、变换、 量化、熵编码这些步骤导致编码效率还没有直接传输象素值高。 1 6 1 6 m o d e1 1 6 8 m o d e2 口田 8 1 6 m o d e3 日 8 84 88 4 m o d e4h l o d e5m o d e6 图2 - 4 块的7 种模式 帧间预测 1 5 - 1 6 】是利用已经解码完成的参考帧中的块来进行运动估计和运动补 偿的过程。h 2 6 4 a v c 帧间预测技术与以往的视频标准相比采用了三个新的技术。 第一就是h 2 6 4 允许对每个宏块的亮度分量采用4 种分割模式( 1 6x1 6 、8 1 6 、 1 6 8 、8 8 ) 进行运动补偿,如果采用了8 8 分割模式,则每个8 8 块又可以 采用4 种子分割模式( 8 8 、8 x 4 、4 8 、4 4 ) 进行更加精确的运动估计和运 动补偿,相比以前的单一宏块模式,h 2 6 4 这种采用7 种分割模式( 如图2 4 ) 的 选择可以使得码率降低1 5 以上。 其次就是h 2 6 4 a v c 还采用了多参考帧【挖】预测,虽然这样提高了编码的复杂 9 出田嚣 电子科技大学硕士学位论文 度,但是相比单一参考帧可以寻找到更加精确的匹配块,当参考帧的数目达到5 帧码率可以降低5 左右,特别是当图象中物体形状比较复杂并且相互覆盖的时候, 利用多参考帧技术可以节约更多的码率。 最后就是h 2 6 4 a v c 为了提高匹配算法的精度,引入了分数像素运动匹配技 术。对于亮度像素而言,最小的分数像素是1 4 像素,色度像素是亮度像素的一半 为1 8 。当然分数像素在实际的数字图像中是一个不存在的点,它是通过相邻的像 素内插而来。如图2 5 中像素点b ,h ,m ,i 1 就是通过一个六抽头的滤波函数得来的。 比如b 和h 的计算公式如下: b = r o u n d ( ( e 一5 f - i - 2 0 g + 2 0 h 一5 ,+ ) 3 2 ) ( 2 1 ) h = r o u n d ( ( a 一5 c + 2 0 g + 2 0 m 一5 r + t ) 3 2 ) ( 2 2 ) 口口互口口 口口匦口口 目目 口 目斟 口匝口 图2 5 亮度半象素位置内插 口 1 2 象素内插完成之后,1 4 象素就可以用整数象素点和1 2 象素点内插得到, 如图2 - 6 所示。 当进行了线性内插之后,再进行块匹配运动估计,得到的运动矢量就有很大 可能是分数的,但是这样匹配的块精度会更高,需要用来编码残差块的比特数也 就降低了,提高了压缩率降低了码率。 1 0 第二章h 2 6 4 关键技术研究 目丑理田田 田国田曰国 g:b h e g 夕 i h j m 、 i p r 人7 m nj 图2 6 亮度1 4 象素内插 运动估计是帧间预测中最复杂、最耗时的部分,采取某种合适的搜索算法以 及恰当的技术评定标准能够节约很大的运动估计时间,这是接下来的两章中的重 点介绍内容。 2 4 整数变换与量化 h 2 6 4 视频编码标准为了进一步降低码率把图象的时域信息转换成了频域信 息,因为在时域中非常分散的信息变换成频域之后就比较集中( 大部分图象信号 集中在低频段) 。在以往的视频标准中,都是首先进行变换再对变换之后的数据进 行量化。但是h 2 6 4 把变换过程中的乘法融合到了量化的过程中,使用了类4 4 d c t 1 7 - 1 9 ( d i s c r e t ec o s i n et r a n s f o m a t i o n ) 。假设x 是h 2 6 4 中的4 4 象素块,则对 x 的d c t 变换可以如下表示: y :a x a 7 ( 2 3 ) 其中彳: 口口 bc 口一口 c b 口口 一cb a口 bc 是变换矩阵。 由于彳中的a 、b 、c 实数,而x 中的元素是整数。对实数d c t 变换,由于 解码端的浮点运算精度导致数据失配,引起漂移,因此h 2 6 4 对4 4 d c t 进行了 改造变换成如下式子: 田日田 屯子科技大学硕士学位论文 y = ( c ,x c t ) e , 1 1 2 1 1 口2 a b 2 a 2 a b 2 a b 2 b 2 4 a b 2 b 2 4 口2 a b 2 口2 a b 2 a b 2 b 2 4 a b 2 b 2 4 ( 2 4 ) 其中,运算“ ”对每个矩阵元素只进行一次乘法,同时它将被归纳到量化运算 中。这样,( c ,胛:) 中只剩下整数的加法、减法和移位( 乘以2 ) 运算。 h 2 6 4 把变换块从以往视频标准普遍采用的8 8 块缩小到4 4 块,这样可以 相应减少块效应。量化是为了减少视觉恢复中冗余信息所采用的一种技术。同时 h 2 6 4 所进行的空间变换都是在整数的基础上进行的,所以不仅效果比较好计算的 速度比较快而且反变化也不容易丢失重要信息。 h 2 6 4 编码标准使用的是标量量化,量化的原理如下: f q 一绷d ( 扫 ( 2 5 ) q p 是量化步长,y 是当前象素值,艘是量化后的值。 量化步长o f 的大小决定了图象的压缩率和解码端解码后图象的清晰度。如果 q p 值较大,按照公式( 2 5 ) f q 就相应的较小,也就是一个象素点可以用较少的 比特数就可以表示,但是会失去表征图象的细节信息。o f 较小时,f q 范围也就 相应变大,也就需要更多的比特数目去描述每个象素的信息,但是这样解码出来 的图象细节信息就会比较丰富,不容易丢失太多细节信息。 2 5 熵编码 h 2 6 4 的官方模型j m 中根据e n t r o p y的取值选择使用不同的熵编c o d e m o d e 码方法。当e n t r o p y 时残差数据使用基于上下文的自适应变长编码 ( c o d e m o d e - 0 c a v l c c o n t e x t - b a s e da d a p t i v ev a r i a b l e l e n g t hc o d i n g ) ,其它数据使用 e x p g o l o m b 编码。e n t r o p y1 时,就采用基于上下文的自适应二进制c o d e m o d e = 算术编码c a b a c 2 0 2 1 1 ( c o n t e x t b a s e da d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ) 。 在以往的视频编码标准中,都是采用u v l c ( u n i v e r s a l a b l el e n g t hc o d i n g ) 1 2 第二章h 2 6 4 关键技术研究 编码,这种编码方法中所有的符号都采用一张码表。这张码表仅从概率统计分布 模型得出,虽然是比较简单,但是这样得出的码表与某个特定的图象可能不是很 符合,并且它还没有采用条件概率分布算法,忽略了符号之间的相关性。以上所 提到的不足使得u v l c 的压缩效果不是很好。 c a v l c 用于对4 x 4 块和2 2 块变换系数进行编码。由于经过变换和z i g z a g 扫描后的系数大部分是零,其他非零系数也有一定相关性,这些系数特点与c a v l c 比较适应,使得c a v l c 对系数能有一个非常高的压缩率。 c a b a c 对编解码端都使用相同的句法元素概率模型。为了提高基于上下文的 自适应二进制算术编码的效率采用内容建模,这样概率模型就可以根据特定的图 象进行自适应的变化。c a b a c 编码一般有四个步骤:首先由于c a b a c 是基于二 进制编码,所以所有的需要编码的内容都要转换成二进制;接着就是根据统计数 据选择合适的内容模型,不同内容模型中o 和1 的概率不同;其次根据选择的内 容模型进行算术编码;最后就是根据最新的编码值对内容模型更新使之适应最新 的概率变化。 2 6 码率控制 为提高编码效率,h 2 6 4 不仅考虑了以往视频标准中采用的失真度准则而且考 虑了码率这个因素,并且通过r d 优化来选择编码的参数。对h 2 6 4 所采用的基 于运动估计补偿和变换量化的混合编码方法,可以用以下的式子来定义r ( 编码的 比特率) 、d ( 失真度) 和q ( 量化步长) 三者的关系: 邶) = 吉地苦 ( 2 - 6 ) 口 其中仃2 是宏块方差 啦) = 鬈 ( 2 - 7 ) 现在的许多码率控制方法都是基于公式( 2 6 ) 和( 2 7 ) 构成的r d 模型进行 改进的。h 2 6 4 编码方法的码率控制方法分为以下三层: 1 ) g o p 层码率控制2 2 也4 】 1 3 电子科技大学硕士学位论文 h 2 6 4 标准中引入了m p e g 中所定义的图象组g o p ( g r o u po fp i c t u r e s ) 概 念。这个层的码率控制是为一个g o p 分配要用到的码率,通常一个g o p 的长度 是1 5 3 0 帧。一个g o p 所需的码率是根据目标比特率和目标帧率共同确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论