(信号与信息处理专业论文)多视角视频编码的关键技术研究.pdf_第1页
(信号与信息处理专业论文)多视角视频编码的关键技术研究.pdf_第2页
(信号与信息处理专业论文)多视角视频编码的关键技术研究.pdf_第3页
(信号与信息处理专业论文)多视角视频编码的关键技术研究.pdf_第4页
(信号与信息处理专业论文)多视角视频编码的关键技术研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着多媒体技术的发展,多视角视频已经成为一个重要的应用领域,其相 应的视频编码国际标准也在制定中。相对于以往的单视角视频,多视角视频的 原始视频数据量成倍增长。相应地,除了含有单视角视频的时间和空间相关性, 多视角视频还含有视间相关性。多视角视频本身的特点及应用场景,对多视角 视频编码提出了一些新的问题和挑战,也促进了一些新技术的产生。因此,研 究多视角视频编码具有一定的理论意义和广泛的应用价值。 本文在正在制定中的多视角视频编码国际标准框架基础上,研究多视角视 频编码的一些关键技术,主要工作及创新之处在于: 1 提出了一种新的多视角视频编码的错误隐藏方法。 视频传输的差错控制一直都是单视角视频相关研究的关键技术,传输引起 的错误在多视角视频中同样存在。本文提出的方法利用了多视角视频视间运动 信息的相关性,通过对视角问运动信息关系的建模,恢复丢失帧的运动信息。 得到估计的运动信息后,该方法利用视内时间上的纹理信息相关性,通过已解 码帧进行运动补偿得到最终错误隐藏的结果。 2 提出了一种低复杂度的非对称多视角视频编码方法。 多视角视频的数据量相对单视角的成倍增长,必然对多视角视频编码的压 缩效率提出了更高的要求。非对称编码技术正是基于这一点,在编码前将某些 视角进行下采样,在几乎不影响主观效果的前提下,有效地降低了数据量。针 对不同分辨率的视间参考帧问题,以往的参考帧下采样方法,增大了解码端的 复杂度和存储需求。本文提出的方法通过改善运动补偿过程,使得高分辨率的 重建帧可以直接作为低分辨率编码帧的参考。这样有效的利用了已有的像素信 息,避免了下采样操作,而且一定程度上降低了运动补偿的复杂度,同时不再 需要增加解码端的存储量。 综上所述,本文对多视角视频编码的错误隐藏及菲对称编码技术进行了深 入的研究。实验表明,相对以往的方法,本文提出的错误隐藏方法有效地提高 了视频的客观与主观质量;而本文提出的非对称编码方法,在不增加存储量和 保证编码性能的同时,大大降低了解码端的复杂度。 关键词:多视角视频编码错误隐藏非对称编码运动补偿立体视觉 差错控制 a b s t r a c t a b s t r a c t a st h et e c h n o l o g yo fm u l t i m e d i ai sd e v e l o p i n g ,m u l t i v i e wv i d e o ( m v v ) i s b e c o m i n g粕i m p o n a n t印p i i c a t i o n , w 汕t l l er e l a t e d c o d i n g s t a n d a r du n d e r d e v e l o p m e n t c 0 m p a r e dw i t hs i n g l ev i e wv i d e o ( s v ,m wh a sh u g e 锄o u m0 f v i d e od a t a f u r t h e m o r e ,b e s i d e st h et e m p o r a la n ds p a t i a ic o r r e l a t i o n st h a ts v va l s o h a s ,m wh a st h ec o r r e l a t i o nb e 觚e e nd i 成r e n tv i e w s ,w h i c hi sc a l l e di n t e r _ v i e w c o r r e l a t 0 n t h ep a r t i c u l a rc h a r a c t e r i s t i c s0 fm v v 弱w e l la s t sa p p l i c a t i o n s c e n 撕o s , b r i n gs o m en e wp r o b l e m s 锄dc h a l l e n g e s ,a n da l s o l e a dt 0t h e d e v c l o p m e n to fs o m en e wt e c h n i q u e so fm u l t i v i e wv i d e oc o d i n g ( m v c ) t h e r e f o r e , r e s e a r c h e so nm v ca r eo fb o t ht h e o r e t i c a is i g n i f i c a n c ea n dp r a c t i c a lv a l u e b a s e do nt l l e 触m e w o r ko fm v cs t a n d a r dw h i c hi sb e i n gd e v e l o p e d ,t h i st h e s i s i n v e s t i g a t e ss e v e r a lk e yt e c h n i q u e si nm v c t 1 1 em a i nc o n t e n t sa n dn o v e l t i e so ft h i s t h e s i sa r c 懿f o l l o w s : 1 t h i s 也e s i sp r o p o s e san e we 仃o fc o n c e a l m e n ta p p f o a c h0 nm v c t h ee r r o rc o n t r o lo fv i d e ot r a n s m i s s i o ni sa ni m p o r t 锄tt e c h l l i q u ei ns v v d 嘶n gt 舢s m i s s i o no fv i d e od a p a c k e tl o s s e sm a ya l s oo c c u ri nm v vn e p r o p o s e da p p r o a c hu t i l i z e st h es i m i l a r 时b e t 、; ,e 明d i f l e r e n tv i e w st 0e s t i m a t et h e m o t i o ni n f 0 珊a t i o no fal o s tp i c t u r c a c c o r d i n gt ot l l ee s t i m a t e dm o t i o ni n f o m a t i o n , m o t i o nc o m p e n s a t i o n ( m c ) i su dt 0u t i l i z em et c m p o r a lc o r r e l a t i o na n dt l l e nt h e f i n a lr e s u l ti sg e n e r a t e d 2 n i st h e s i sp r o p 0 s e san e wl o wc o m p l e x 毋a s y m m e t r i cm v c a p p r o a c h t h eo r i g i n a ld a t ao fm v vi sh u g ec o m p a r e dw i t hs v vw h i c hr e q u i r e sm o r e e 币c i e n tc o m p r e s s i o n a s y m m e 仃cc o d i n gi sp r o p o s e dt os o l v et h i sp r o b i e m ,i n w h i c hs o m ev i e w sa 心d o w n - 鼢m p l e db e f o r ee n c o d i n g 1 1 1 i st e c h n i q u ec a nd e c r e a t h eb i tr a t ew i t h o u tn o t i c e a b i ed e g r a d a t i o no fs u 巧e c t i v eq u a l i 妙d u et 0d i f 危r e n t 他s o i u t i o n s ,t h ef 0 肿e ra l g o r i t h ma d d e dad o 帅s a m p l ep r o c e s si n 椭ed e c o d e r w h i c hl e a d e dt oh i g h e rc o m p l e x i t ) ra n d 咖r 犍| e t h ep r o p o s e da i g o r i t h mi nt h i st h e s i s i m p r 0 v e st h em o t i o nc o m p e n s a t i o np r o c e s st 0e n a b l ei n t e r v i e wp r e d i c t i o nb e t w e e n p i c t u r e s w i t hd i f r e r e n tr e s o l u t i o n s t h i s a l g o r i t h m u t i l i z e sc u r r e n tr c f e r e n c e i n f o m l a t i o nw e l l ,a v o i d st h ed o w n s 锄p l ep r o c e s si nd e c o d e r ,鲫dr e q u i r e sl o w e r m e m o 巧c o n s u m p t i o n a n di o w e rc o m p u t a t i o n a ic o m p l e x i t y i nc o n c l u s i o n ,t h i st h e s i si n v e s t i g a t e se r r o rc o n c e a l m e n ta n da s y m m e t r i cc o d i n g t e c h n i q u e so fm v c e x p e r i m e n t a lr e s u l t ss h o wt h a t ,t h ep r o p o s e dc o n c e a l m e n t a i g o r i t h mc a ni m p r o v ev i d e oq u a l i t yc o m p a r e dw i t hl o wc o m p i e x i t yt e m p o r a ie r r o r i i i a b s 打a c t c o n c e a l m e n ta l g o r i t h m s f u n h e n n o r e ,t h ep r o p o s e da s y m m e t r i cc o d i n ga l g o r i t t l m c 锄l o w e rt h ed e c o d e rc o m p l e x i 够w i t h o u tm e m o 巧c o n s u m p t i o n 肌dc o d i n g e f f i c i e n c yd e 伊a d a t i o n k e y w o r d s : m u l t i v i e wv i d e oc o d i n g ,e 啪rc o n c e a l m e n t ,a s y m m e t r i cc o d i n g , m o t i o nc o m p e n s a t i o n ,s t e r e o s c o p i c d e o ,e r r o rc o n t r o l 论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包 含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对 本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 保密的学位论文在解密后也遵守此规定。 如舻年多月? l 日 第1 章绪论 1 2 问题提出及研究意义 与单视角视频相比,多视角视频有着许多类似的视频序列本身的特征,例 如单个视频内部的时间以及空间相关性,而同时也具有单视角视频不具有的一 些特征,最明显的就是不同视角之间的相关性。此外,相对于单视角视频,多 视角视频又有其不尽相同的应用场景。 多视角视频与单视角视频的相似性,使得单视角视频的一些现有技术可以 很好的应用于多视角视频。而多视角视频具有的新的特点,又可以对于现有单 视角视频的相关技术进行扩展,使其更加适合于多视角视频的特征。本文提出 的错误隐藏技术就属于这一范畴。 同时,多视角视频一些新的应用场景,以及其自身具有的独特的性质,也 会引出一些针对多视角视频的新颖的方法。本文中的非对称编码技术就是其中 之一。 在任一通信系统中,由于信道噪声的影响,信息在传输过程中都可能发生 改变或者丢失。而这种传输过程中引起的错误,对于视频数据的影响尤为严重。 这是因为在视频压缩过程中充分利用了其时间及空间相关性,视频码流中的任 何一个错误都可能引起诸如差错扩散、视频质量下降乃至系统错误等各种解码 端的问题。因此差错控制技术一直是视频编码中研究的一个重点,这些技术或 者通过反馈信道,或者在编码端加入一些冗余信息,或者在解码端利用未去除 的相关性将差错控制在可以接受的范围内,其中直接在解码端进行差错控制又 称为错误隐藏技术。在过去的几年,一直有错误隐藏技术方面的研究,这些技 术是针对单视角视频编码,主要利用到视频的空间和时间相关性。 单视角视频的差错控制技术可以很好的扩展或者直接应用于多视角视频编 码,然而多视角视频相对于单视角视频,增加了视间的相关性。这种相关性可 以很好的帮助解码端进行差错控制,因此可以利用这种相关性进一步提高传统 差错控制算法的性能。视间的相关性体现在许多方面,其中运动信息的相关性 是比较容易利用的一方面。在实际应用中,由于光线等的差别,如果利用纹理 信息的相关性,通常需要复杂度比较高的方法,而结构信息并不会因为光线的 差别产生变化。结构信息的一种体现就是运动矢量。相对地,时间上纹理信息 的相关性更加容易利用到。 m v c 中另外一个重要的方面就是如何有效地提高压缩效率,减少需要传输 的数据量。针对这个问题,一般的方法即是在编码端充分挖掘视间的相关性, 相当于尽量去除信源的冗余,从而得到较好的压缩效果。 而实际的多视角视频应用中,有很多情况是基于立体视频( 又称双目视频) 的显示等,即在某一时刻对应观察者的左眼和右眼分别有一个相应的视频,而 2 第2 章多视角视频编码基础 第2 章多视角视频编码基础 由于本文关于多视角视频编码的研究主要基于当前的视频编码标准,因此 在该部分首先简单介绍多视角视频的一些相关应用,然后对不同的视频编码标 准进行介绍,包括运动图像专家组( m o v i n g p i c t l l r e se x p e r t sg r o u p ,m p e g ) 系 列的标准,h 2 6 4 编码标准,以及在此基础上的多视角视频编码。 2 1多视角视频编码的相关应用 多视角视频编码一个主要的应用点就是三维视频,三维视频是经典的二维 平面视频的扩展,最明显的特征就是在传统的平面视频基础上增加深度信息, 增强了视觉的现实感和逼真感。由于双目视差的原理,用户可以获得具有深度 感的立体图像,同时也增加了可交互性。例如,用户可以根据兴趣或者需求选 择合适的视角或对象进行浏览。根据不同的应用场景,三维视频主要分为三种: 交互式多视角视频、交互式全方位视频以及立体视频,以下将分别介绍这三种 类型。 2 1 1 交互式多视角视频 交互式多视角视频也被称为任意视角视频( f r e e e w p o n tv i d e o ,f v v ) 。 f v v 和三维计算机图形学的作用有些相似性,在一个可视化的场景内,用户可 以选择从不同视点的任意视角进行观察,即是交互式的自由观察。然而与传统 的计算机图形学应用不同的是,f v v 针对真实世界,通过几个不同视角的视频 重建三维场景。因此有着不同的应用,例如三维录像,用户可以自由的选择不 同的视角进行观看。 图2 1 ( a ) 是一个f v v 采集设备的例子,图2 1 ( b ) 是一个f v v 某一时刻不同 视角各帧的示意图。根据计算机图形学,可以通过多个角度得到的信息重建一 个三维物体,并且将该三维物体用它的三维结构( m e s hm o d e l ) 以及相应的纹 理信息( v i d e ot e x t u r e s ) 表达。这种采集到的三维视频中的物体( 3 dv i d e o o b i e c t ,3 d v o ) 与传统的计算机图形学的模型是相同的,只不过是表达一个动 态的真实物体( s m o i i ca ,2 0 0 6 ) 。 要实现从二维像素点到三维世界的准确对应,需要精确的摄像机的校准信 息。在很多情况下,这些数据有时候已经在拍摄前得到,有时候可以用合适的 算法从采集图像中估计出来。 5 第2 章多视角视频编码基础 厂白、 甲 ( a ) 全方位视频摄像机示意图( b ) 立体视频摄像机示意图 图2 2 两种多视角视频采集示意图 2 2m p e g 编码标准 m p e g 是由i s o i e c 成立的标准化组织,主要研究时变的音视频信号的数 字压缩技术。迄今为止,m p e g 主要制定了三个不同的音视频标准: 【l 】m p e g 1 :该标准在1 9 9 0 制定完毕,主要用于1 5 m b p s 数据传输率 的音视频编码,该标准最初的目标是用于音视频在常见光盘上的存 储。 【2 】 m p e g 2 :该标准完成于1 9 9 2 年,是比较常用的音视频编码的标准。 m p e g 2 标准是针对标准数字电视和高清晰度电视在各种应用下的 压缩方案和系统层的详细规定,编码码率从3 m b p s 到1 0 0 m b p s 。相 对于m p e g 1 ,m p e g 2 在系统和传送方面作了更加详细的规定和完 善,可以灵活的应用于音视频的存储、网络及广播传输。 【3 】 m p e g _ 4 :该标准于1 9 9 9 年初与2 0 0 0 年初正式公布了版本l 和版本 2 。到2 0 0 1 年1 0 月,m p e g 4 已经定义了1 9 个视像类( s u a ip r o n l e ) , 其中新定义的简单演播室类( s i m p l es t u d i op r o f i l e ) 和核心演播室类 ( c o r es t u d i op r d f i j e ) 使m p e g - 4 对m p e g - 2 类别保留了一些形式上 的兼容,其码率可高达2 g b p s 。m p e g 4 保留了之前m p e g 标准中的 大部分功能,提供不同的视频标准源格式、码率、帧频下矩形图像的 编码,同时也支持基于内容的编码,并且将视频、静止图像以及图形 学数据定义到同一场景中。随着m p e g 4 标准的不断扩展,它不但能 支持码率低于6 4 k b p s 的多媒体通信,也能支持广播级的视频应用。 m p e g - 4 标准将广泛运用于数字电视、动态图像、万维网( w w w ) 、 实时多媒体监控、基于内容存储和检索的多媒体系统、互联网上的视 频流与可视游戏、基于面部表情模拟的虚拟会议、d v d 上的交互多 7 第2 章多视角视频编码基础 媒体应用、基于计算机网络的可视化合作实验室场景应用和演播电视 等。 相应的,在多视角视频的编码中,主要有两个方面的应用: 【l 】 多视角视频数据的传输与存储。随着不同视角视频数目的增多,对于 传输带宽的要求也相应的线性增长,因此多视角视频数据的压缩就更 加重要。在单视角视频的压缩中,主要考虑到了帧内冗余( 相邻像素 之间的空间相关性) 以及帧间冗余( 相邻帧之间的时间相关性) 。而 在多视角视频压缩中,视角之间也存在一定的相关性。m p e g 2 的多 视角类( m u l t i v i e wp r o f i l e ) 中,不仅考虑到了这种视间冗余,还用 到了关于人脑的立体视觉心理物理学的一些理论。 【2 】 多视角的重建。在一些交互式的应用中,例如f v v ,需要重建多个 视角的视频,从多个视角显示的场景的质量,也是评判系统的一个关 键因素。与三维计算机图形学不同的是,多视角视频针对真实的世界, 其视频序列仅仅是三维世界在二维空间的投影,在重建三维场景时很 可能因为缺少准确的估计而产生问题。根据多个视角视频重建某一用 户指定视角视频的方法主要有两种: a )相邻视角插值法( c h e ne ,w i l l i 啪sl ,1 9 9 3 ) :首先根据已有的 视角的视频数据估计得到不同视角之间的视差( d i s p a r i t y ) ,然 后根据视差补偿( d i s p a r 时c o m p e n s a t e d ) 的方法由已知视角视 频插值得到需要显示的视角的视频。但是这种方法没有考虑到 不同视角光照、反射等的变化,因此对于某些光源变化的情况 不能得到很好的效果。 b )三维模型法( a g a w ah 等,1 9 9 1 ) :该方法首先得到拍摄场景或 者其中某些物体的精确三维模型( 如3 dm e s h 或w i r e f r a m e ) , 然后根据已有的视频序列得到纹理信息并且投影到三维模型 上。当要求输出某一指定视角视频时,只需要把已有的纹理信 息根据摄像机参数投影到二维空间中。这种方法更多的用到了 计算机图形学的相关技术( f a r i n ,1 9 9 0 ) 。 2 2 1m p e g 编码框架 如图2 3 所示为m p e g 的编码框架示意图 x 第2 章多视角视频编码基础 对于输入的每一帧,首先将其分为1 6 x 1 6 或更小的块,然后通过运动估计 ( m o t i o ne s t m a t i o n ,m e ) 根据已经编码帧得到对当前块的预测,对预测后的 残差进行d c t 变换、量化,最后通过熵编码得到输出码流。 输入 序列夏k _ - _ _ _ - j 国 l 复 厶 n l 。,jt jt 一 1 e : 一r = 一 7 匕廿 图2 3m p e g 编码框架示意图 m p e g 标准支持多种运动补偿的模式,包括前向预测的p 帧编码模式,以 及前后向( 双向) 预测的b 帧编码模式。对于p 帧中的分块,可以选择前向帧 进行预测;对于b 帧中的分块,可以选择使用前后两帧插值预测,或者使用其 中一帧进行预测;当然对p b 帧中分块的编码也可以不选择用其他帧做预测。 图2 4 给出一种p b 帧的编码方式,序列的显示顺序是i o b 1 p 1 b 2 p 2 ,编码顺 序是i o - p l - b 1 p 2 一b 2 ,图中箭头表示预测关系,例如,b l 可以同时用i o 与p l 做预 测。 图2 4p b 帧编码模式示意图 m p e g 2 以及m p e g _ 4 中对于b 帧编码模式的一个重要应用就是编码的时 间可伸缩性( t e m p o r a ls c a i a b i l i t y ,t s ) 。对于一个需要编码的序列,将其部分 帧作为基本层编码形成一个低帧率的重建,然后将其他帧作为增强层进行b 帧 编码,因此可以支持两种不同的帧率。在多视角视频编码中,不同视角之间的 相关性也可以通过这种t s 编码模式来体现,m p e g 2 的多视角类( i s o i e c 1 3 8 18 2 ,1 9 9 6 ) 中正是定义了对t s 模式的扩展。 9 第2 章多视角视频编码基础 图2 1 0h 2 6 4 的双层结构 注:h 2 3 0 为视昕会议系统控制与显示信号标准:r t p 为实时传输协议 2 3 1网络抽象层( n a l ) 概述 提出n a l 的目的就是了为了实现网络接口的友好性( n e 僦o r k f r i e n d i i n e s s ) ,使得经v c l 层编码所得的数据可以很容易地应用于各种网络。 具体实施方式是:经n a l 层后,所有的数据都被封装在一个包( p a c k e t ) 里, 即n a l 单元( n a lu n i t s ) 。每个n a lu n i t s 第一个字节为头信息,指明了后 面有效载荷( p a y l o a d ) 的数据类型。n a lu n i t s 分为视频编码层n a l 单元( v c l n a lu n i t s ) 和非视频编码层n a l 单元( n o n v c ln a lu n 砥) 两种。v c ln a l u n i t s 携带的是经过编码的图像像素值,而n 0 n v c ln a lu n i t s 则携带额外的视 频信息,比如参数集,时间信息等。关于n a l 的详细内容可以参考s t o k h 啪m e r t 等( 2 0 0 3 ) 的文章。 2 3 2 视频编码层( v c l ) 主要技术 h 2 6 4 采用的是一种基于块的混合编码方法,其编码流程如图2 1 1 所示: 对于输入的每一帧图像,首先判断编码类型,是i 帧、p 帧或是b 帧,然后将 图像分割成1 6 x 1 6 的宏块,以每个宏块为单位进行编码。如果是i 帧,则采用 “帧内预测”模块,得到相应的预测图像,然后原图像与预测图像相减,得到 残差。残差进入“变换& 量化 模块,得到量化系数。如果是p 帧和b 帧则采 用“运动补偿”模块和“运动估计”模块,得到运动矢量,进而得到参考帧图 像。然后原图像与参考帧图像相减,得到残差。残差进入“变换& 量化”模块。 得到量化系数。量化系数输出,然后量化系数进入“反量化& 反变换”模块。 还原后的残差加上参考帧图像,并有选择地使用去块效应滤波( d e b i o c k i n g 1 4 第2 章多视角视频编码基础 f i l t e r ) ,最后得到的图像存入参考帧序列,以备后续帧编码的使用。经过前面 的预测过程,最后对得到的量化系数、运动矢量以及控制数据采用自适应熵编 码得到最终压缩后的码流。 图2 1 lh 2 “编码流程 相对于m p e g - 2 等之前的标准,h 2 “有以下几个方面的改进: 【l 】多帧预测技术。在m p e g 2 中,对于p 帧预测,只允许使用此前的一 帧作为预测帧;对于b 帧预测,参考帧只允许在该帧前的i 帧和p 帧以 及紧随其后的i 帧和p 帧范围内选择。如图2 ,1 2 所示,h 2 6 4 扩大了预 测帧的选择范围,即最大可在该帧前后五帧的范围进行选择。这样,就 提高了预测的精度,降低了码率。后来h 2 6 4 又提出分级b 帧( h i e r a r c h a l b ) 的概念,其编码示意图如图2 1 3 所示。 i o b 1b 2 b 3 p 4 b 5b 6 b 7 p 8 图2 1 2b 帧预测 1 5 第2 章多视角视频编码基础 1 6 图2 1 3 分级b 帧编码示意图 【2 改进的运动补偿模式。相对于m p e g 2 、h 2 6 3 等视频编码标准,h 2 6 4 中采用了不同的运动补偿编码算法。以p 帧为例,对其的运动补偿分块 称为p 宏块分块类型。每种p 宏块类型对应于一种特定的把宏块划分为 用于运动补偿预测的子块形状的方法。a v c 语法支持的运动补偿块的 尺寸对于亮度采样从1 6 1 6 到4 4 ,在这两者之间有很多级别的块大 小可以选择。每个宏块( 1 6 1 6 采样) 的亮度分量可以照图2 1 4 方式 进一步划分为为4 种:1 6 1 6 ,1 6 8 ,8 1 6 ,8 8 。每个切分的区域 叫做一个宏块的划分( m a c r o b l o c kp a r t i t i o n ) 。如果选择了8 8 的模式, 则每个宏块内的4 个8 8 子块可以进一步划分为8 8 ,8 4 ,4 8 ,4 4 四种小块,这四种小块称为宏块的子划分( m a c r o b l o c ks u b p a r t i t i o n s ) , 如图2 1 5 所示。这些划分和子划分使得每个宏块内部有很多种可能的 组合。这种把宏块划分为可变大小的运动补偿子块的方法称之为树形结 构的运动补偿。 每个划分和子划分都需要单独的运动矢量,而每个运动矢量都需 要编码和传输。除此之外,选择的划分方法在压缩的码流中也需要编 码。如果选择的大的划分尺寸( 如1 6 1 6 ,1 6 x 8 ,8 x1 6 ) ,在编码时, 运动矢量和选择划分的类型只需少量的比特要编码。但是运动补偿后 的残差可能包含大量细节,因而需要较多的比特编码。若选择小的划 分尺寸( 如8 8 ,4 4 等) ,则运动补偿后得到残差所需编码比特数较 少,但是需要大量的比特用于编码运动矢量和划分的类型选择。因此, 划分尺寸的选择对于压缩性能会产生重大影响。通常情况下,大尺寸 的划分适合于帧内的均匀运动区域,而小尺寸的划分适合于帧内包含 较多细节或运动杂乱无章的区域。每个预测编码的m n 亮度块的预 测信号是通过指定参考帧的图像参考索引以及运动矢量得到的。因此, 如果宏块用4 个8 8 的划分,且每个8 8 的子块进一步划分为4 个4 4 的子块,对一个要传输的p 宏块,最多需要1 6 个运动矢量。 b 帧的分块方式与p 帧类似,唯一不同的是,对于1 6 1 6 ,1 6 8 , 8 1 6 以及8 8 的分块模式,b 帧可以选取双向参考帧中的任何个方 向作为预测,也可以使用两个方向参考帧的加权平均作为预测。 第2 章多视角视频编码基础 1 6 1 688 图2 ,1 41 6 x 1 6 的宏块划分 844 o1 图2 1 58 x 8 的宏块子划分 ol 23 【3 】整数d c t 变换。在m p e g - 2 、h 2 6 3 等视频编码标准中,对预测残差均 采用的是基于8 8 块大小的d c t 变换,用以消除残差之间的相关性。 在h 2 6 4 中,对这项技术进行了改进。首先是使用更小的块进行变换, 即对于4 4 的块进行d c t 变换,这样就减少了运算的复杂度,其次, 所采用的变换并非真正的d c t 变换,而是一种用矩阵相乘的方法实现 的近似d c t 变换,即整数d c t 变换。由于使用的是整数变换,因此消 除了反变换中的误匹配( m i s m a t c h ) 现象,而且所有的运算均可通过加 法和移位运算来实现,降低了运算的复杂度。 f 4 】运动矢量的精确化。在h 2 “中,运动矢量精度由之前的二分之一像素 提高到了四分之一像素,这对提高运动估计的准确性是非常有效的,从 而大大降低了码率。对于非整数像素的像素值是通过六抽头滤波器,经 过内插获得。运动矢量的精确在m p e g 4 中就已经提出,但在h 2 “ 中大大简化了内插的处理复杂度。 【5 】熵编码。h 2 “中采用两种熵编码方法:基于上下文的自适应变长编码 ( c 0 n t e x t a d a p t i v ev a r i a b l el e n g t hc o d i n g ,c a v l c ) 和基于上下文的 自适应二进制算术编码( c o n t e x t a d a p t i v eb i n a 巧a r i t h m e t i cc o d i n g , c a b a c ) ,这两种熵编码的效率是非常高的。以前的视频编码标准中的 熵编码技术是依靠一个映射,将视频信号转换成比特流,这样就忽视了 视频信号的高阶统计特性,而c a v l c 和c a b a c 则充分考虑到了这些 1 7 第2 章多视角视频编码基础 1 8 统计特性。 【6 】图像自适应帧场编码和宏块自适应帧场编码。帧( f r a m e ) 和场( f i e i d ) 的概念见图2 1 6 。当对一幅图像( p i c t u r c ) 进行编码时,h 2 6 4 中允许 有三种选择:一是帧模型( f 舢em o d e ) ,即对该幅图像按一个完整的 帧( f r a m e ) 进行编码;二是场模型( f i e i dm o d e ) ,即对该幅图像按顶 场( t o pf i e l d ) 和底场( b o 的mf i e l d ) 编码;三是按一个完整帧编码, 但在编码时要将该帧分割成相邻的宏块对( m a c r o b l o c kp a i r ) ,然后按 照两场宏块( t w of i e l dm a c r o b l o c k ) 或帧宏块( f r a m em a c r o b l o c k ) 编 码。帧宏块对( f r a m em bp a i r s ) 和场宏块对( f i e l dm bp a 沁) 的概念 见图2 1 7 。当使用图像自适应帧场编码( p i c t u r e a d a p t i v ef r a m e f i e l d , p a f f ) 方式时,相比于仅仅使用帧模式编码,码率下降1 6 料o 。 当使用宏块自适应帧场( m a c r o b l o c k a d a p t i v ef r a m e f i e i d ,m b a f f ) 方式,相比于p a f f ,码率又可以下降1 4 一1 6 。当然这不是绝对的, 当所编码的视频序列在全局运动或场景切换等情况下,使用p a f f 比 m b a f f 的效率要高。 本文中因为所有图像都是采用第一种模式进行编码,即每一幅图 像都作为一个完整的帧编码,因此并不区分图像和帧的概念,对于一 副图像通常也会直接称之为一帧。 图2 1 6f r 锄e 和f i e i d _ _ i i i l 一 - - l i 一 - - - - - l - - - i 一 - - i 一_ - - - - l - - - - i - - _ l _ - - - l- - - - - l - - - - j - l- t - - - i - l- - - - i - - - - - l - - l- - i - l - - - - - o af ) h iro l m a c t n ho r k s i n f l - a m em o d e 。l o p ,l ,t ) tl o 郇 m a c t n h io c k s i nf r a 鹏蚍训e 图2 1 7f r a m e m bp a 岫和f i e l dm bp a i r s -,l-一_1|-哼0 瑚d ,- m “ , 如n , -,-一, 第2 章多视角视频编码基础 【7 】去块效应滤波器。由于量化误差的影响,当量化系数较大时,经过d c t 反变换重建的图像会出现明显的块效应,即出现虚假边界。通过这种滤 波,可以同时提高客观和主观视频质量,且经过修正的帧可以用于帧间 预测,从而提高其他帧的质量。 【8 】非均匀量化。以前的视频编码标准均使用等步长量化,而在h 2 6 4 中使 用的贝l j 是变步长量化。设置了o 5 l 共5 2 个量化等级,等级每加一,量 化步长约增加1 2 5 ,等级每加六,量化步长增加一倍。 此外条带( s l i c e ) 也是h 2 6 4 中一个 重要的概念,当不用到f m o ( f l e x m l e m a c r o b l o c ko f d e r i n g ,灵活宏块排序) 时, s l i c e 是指一副图像中按照扫描顺序组合 起来的一组宏块。如图2 1 8 所示,一副 图像可以被分为多个s l i c e ,一个s i i c e 可 以包括多个宏块。如果用到f m o ,s l i c e 的划分将不受到宏块相对位置的影响,不 相邻的宏块也可以化作相同的s l i c e 。 l l :一一 1 i,i l c ct v s l ic c # l sl i c e 韵2 图2 1 8s i i c e 示意图 表2 1 给出m p e g - 2 ,h 2 6 3 ,m p e g - 4 和h 2 6 4 四种编码标准的比较: 表2 1m p e g - 2 ,h 2 6 3 ,m p e g - 4 和h 2 6 4 四种编码标准的比较 诀 m p e g 1m p e g 2m p e g _ 4h 2 6 4 a ,c 1 6 1 6 ( 帧模式) 宏块大小 1 6 x 1 61 6 1 61 6 1 6 1 6 8 ( 场模式) 1 6 1 6 , 1 6 1 6 , 分块大小 8 88 x 81 6 8 8 1 6 ,1 6 8 8 x 8 ,4 8 , 8 8 8 x 4 4 4 变换 d c td c t小波整数d c t 变换块大小 8 88 88 84 4 ,8 8 量化步长 量化步长量化步长 量化步长 随等级随等级矢量量化随等级 线性增加线性增加以1 2 5 增加 v l c ( 对帧内和帧间 v l c 和 熵编码v l c v l c 模式采用不同c a b a c 的码表) 1 9 第2 章多视角视频编码基础 续表2 1m p e g 2 ,h 2 6 3 ,m p e g 4 和h 2 6 4 四种编码标准的比较 汝 m 咿e g 1m p e g 2m p e g 4h 2 6 4 a v c 运动估计 是是是是( 更加灵活) 及运动补偿 运动估计辟f 、偿整数像素整数像素 整数像素整数像素 l 2 像素l 4 像素 像素精度l 2 像素 l 2 像素 l 4 像素l 8 像素 单一参考多参考帧 参考帧数目 单一参考帧单一参考帧 帧 ( 最多五个) 随机访问是是 是 是 最高 6 4 k b p s 6 4 k b p s 15 0 m 比特率 2 1 5 m b p s 1 5 m b p s 2 m b p sb p s 编码器复杂度低 由 中局 与之前的标准是 是是是否 否兼容 2 3 3h 2 6 4 a v c 的运动补偿技术 此外,由于本文提出的非对称编码理论中与h 2 6 4 a v c 的运动补偿有着密 切的关系,所以将重点介绍h 2 6 4 ,a v c 运动补偿的插值等技术。 为了降低视频信号的码率,h 2 “a 、,c 编码标准采用将运动补偿预测和预 测误差变换编码结合的混合视频编码。在m p e g - 2 和h 2 6 3 中,运动补偿预测 具有1 2 象素的精度。 h 2 6 4 支持l 4 和l 8 像素的预测精度。在h 2 6 4 中,分数的采样精度由一 个称为运动分辨率的参数指定。如果运动分辨率值为o ,使用六抽头的f i r 滤 波器获得的1 4 采样精度用于块中的亮度采样;如果运动分辨率值为l ,则采用 八抽头滤波器插值获得的l 8 采样精度。插值等同于对该帧做上采样。运动矢 量采用l 4 和l 8 像素精度。图2 1 9 显示了两个运动矢量精度( 1 4 和1 8 像素 精度) 的插值过程。当运动矢量精度为l 4 像素时,对原始帧采用上采样因子 为4 的滤波;类似地,当运动矢量精度为l 8 像素时,采用上采样因子为8 的 滤波。 首先讲述亮度分量插值的过程,在运动矢量指向一个整数采样位置时,预 测信号由参考帧对应的抽样组成,否则,对应的样本采用插值产生非整数位置 的值。在半个抽样位置处的预测值采用一维六抽头f i r 滤波器( 抽头值为 l , 一5 ,2 0 ,2 0 ,一5 ,11 ) 水平或者垂直的预测。在四分之一处的预测值由整数 和半抽样位置的样本求平均获得。 第2 章多视角视频编码基础 1 ,年p e l i n t e r p o i 霜i o n : 口口 眇 f i t 科1 汐 f 戤e r2 影却d 百口口 够 f i t e r l 够 f i i t 日2 够 f 日t e r 3 图2 1 9 分数象素精度插值图例 图2 2 0 显示了对样本a k 和n r 进行分数抽样插值的过程。要计算在半 个抽样精度位置标记为b 和h 的样本值,先计算中间值b l 和h l ,b l 和h l 直接由 6 抽头滤波器由下式获得: b l = ( e 一5 f + 2 0 g + 2 0 h 一5 i + j ) h l =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论