(信号与信息处理专业论文)三维视频深度信息压缩技术研究.pdf_第1页
(信号与信息处理专业论文)三维视频深度信息压缩技术研究.pdf_第2页
(信号与信息处理专业论文)三维视频深度信息压缩技术研究.pdf_第3页
(信号与信息处理专业论文)三维视频深度信息压缩技术研究.pdf_第4页
(信号与信息处理专业论文)三维视频深度信息压缩技术研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 三维视频( t h r e ed i m e n s i o n a lv i d e o ,3 dv i d e o ) 是正在兴起的一种媒体形 式,正处于蓬勃发展的阶段。相比于传统的二维视频,三维视频能提供所观察物 体的深度信息,从而使用户享受到带有立体感的视觉体验,并且能够允许用户在 欣赏节目的同时自由地选择视点,切换视角。因此,三维技术的应用市场非常广 泛,包括3 d 电影,3 d 视频会议,3 d 卫星成像,人机交互等等。但是三维视频除 了包含大量的j 下常颜色信息外还附有额外的深度视频,这就导致了表达这种媒体 形式所需要的数据量非常巨大,因此,如何大幅度地压缩三维视频数据成为三维 技术能否被大范围应用的主要限制条件。同时,三维视频也展示了一些新的特点, 比如深度信息与颜色信息间的运动相关性,深度信息不具备纹理信息等,这就对 研究出高效率的三维视频压缩算法提供了新的解决思路,同时也成为了进一步拓 宽三维视频应用市场的新契机。因此,研究三维视频的压缩处理技术不仅具有一 定的理论意义还具有广泛的应用价值。针对三维视频既包含多视角颜色信息又包 含相应深度信息这种独特的媒体组织形式,本文主要研究了深度信息处理过程中 的两项关键技术,主要工作和创新之处在于: 1 提出了一种新的利用压缩深度信息提高三维视频编码效率的方法 颜色信息和深度信息是构建三维场景的基本要素,二者缺一不可。但研究表 明,在场景切换之后,人的视觉系统对深度的敏感程度远小于对颜色的敏感程度, 这就允许在这段时间内不提供深度信息。因此本文提出了一种面向场景切换的三 维视频压缩处理方法。该方法基于现有的虚拟视角生成技术:分层深度视频技术 ( l a y e r e dd e p t hv i d e o ,l d v ) 和视频压缩技术,可以明显地提高三维视频的整体压 缩性能。相应的主观测试表明该方法不会降低三维视频的主观视觉质量。 2 研究深度视频质量对合成虚拟视角质量的影响 探讨深度视频质量对视角合成效果的影响可以有效地指导三维视频编码中 颜色信息和深度信息间的码率分配。对于只关心虚拟合成视频的用户而言,视角 合成过程中用到的颜色信息和深度信息都是不可见的,此时是不是需要二者均达 到质量最优才能合成最好的虚拟视频是个值得商榷的问题,目前已经有研究显示 给相应的对深度信息分配过多的带宽并不能给用户带来更多的视觉享受。本文通 过实验证明,用低分辨率的深度视频进行视角合成并不会明显降低合成虚拟视角 的主客观质量,即低质量的深度信息是可用的。 关键词:三维视频编码,场景切换,分层深度视频技术,视角合成。 a b s t r a c t a b s t r a c t t h r e ed i m e n s i o nv i d e o ( 3 d v ) i sa n e m e r g i n gm u l t i m e d i aa p p l i c a t i o ni no u rl i f e , a n di ss t i l lu n d e rr a p i dd e v e l o p m e n t c o m p a r e dw i t ht r a d i t i o n a lt w od i m e n s i o n v i d e o , t h en e w3 d vc a np r o v i d et h eu s e r sw i t ht h ed e p t hi n f o r m a t i o no f o b j e c t s ,w h i c hc a l l l e a du s e r st oas t e r e ow o r l d t h ec u r r e n t3d t e c h n o l o g ya l l o w st h eu s e r st os e l e c ta s p e c i f i cv i e wp o i n ta n ds w i t c ht oa n yv i e wa n g l e w ec a ne x p e c tah u g ea p p l i c a t i o n m a r k e tf o r3 dt e c h n o l o g y , e g 3 dc i n e m a , 3 dc o n f e r e n c e ,3 ds a t e l l i t ei m a g e ,h u m a n c o m p u t e ri n t e r a c t i o n i tn e e d sh u g ea m o u n to fd a t at oe x p r e s s3 dv i d e oa si tc o n t a i n s t h em u l t i 。v i e wt e x t u r ev i d e o sa sw e l la st h ec o r r e s p o n d i n gd e p t hv i d e o s w h e t h e rt h e 3 dt e c h n o l o g yc a nb ew i d e l yu s e dd e p e n d so nh o ww ec a nc o m p r e s st h e3 dv i d e o e f f i c i e n t l y f o r t u n a t e l y3 dv i d e oh a ss o m en e wf e a t u r e s ,s u c ha sm o t i o nc o r r e l a t i o n b e t w e e nt e x t u r ea n dd e p t h ,l a c ko fd e t a i l si nd e p t hv i d e o s ,w h i c hi n s p i r eu st od e a l w i t ht h ep r o b l e m si nn o v e lw a y s c o n s e q u e n t l y , r e s e a r c h e so n3 dv i d e oa r eo f g r e a t i m p o r t a n c eb o t ht h e o r e t i c a l l ya n dp r a c t i c a l l y a sw em e n t i o n e da b o v e ,3 dv i d e oc o n t a i n sm u l t i v i e wt e x t u r ev i d e o sa n dt h e i r c o r r e s p o n d i n gd e p t hv i d e o s ,b a s e do ns u c hc o m b i n a t i o n ,t h i sp a p e rm a i n l yw o r k si n t w oa s p e c t st od e a lw i t hd e p t hi n f o r m a t i o n t h em a i nc o n t e n ta n dn o v e l t i e sa l el i s t e d b e l o w : 1 an e w3 dv i d e oc o d i n gm e t h o du l t i l i z i n gt h e c h a r a c t e r i s t i c so f d e p t hi sp r o p o s e d i nt h i sp a p e r t e x t u r ev i d e oa n d d e p t hv i d e oa r et h eb a s i cc o m p o n e n t st oe x p r e s sas t e r e os c e n e h o w e v e rs o m er e s e a r c hw o r k sr e v e a lt h a tt h eh u m a nv i s u a ls y s t e mi sm o r es e n s t i v et o t e x t u r er a t h e rt h a nd e p t hd u r i n gs c e n ec u t s a n e wc o d i n ga l g o r i t h mi st h e r e f o r e p r o p o s e dt oc o m p r e s s3 dv i d e o ,w h e r et e c h n o l o g i e s ,s u c ha sv i r t u a lv i e ws y n t h e s i s , l a y e r e dd e p t hv i d e oa n dm u l t i v i e wv i d e oc o d i n ga l ee m p l o y e d s u b j e c t i v er e s e a r c h h a sb e e nm a d et ov e r i f yt h a tt h en e wm e t h o dw o u l d h a r d l yd e t e r i o r a t et h es u b j e c t i v e q u a l i t y 2 r e s e a r c ho nt h ei m p a c to f d e p t hv i d e oq u a l i t yo nv i r t u a lv i e ws y n t h e s i s i ti sv e r ym e a n i n g f u lt om a k es o m er e s e a r c h e sr e v e a l l i n gt h ei m p a c to fd e p t h q u a l i t yo nv i r t u a lv i e ws y n t h e s i s h o w e v e r , u s e r sc o u l dn o td i r e c t l yo b s e r v ed e p t h v i d e o ,w h i c hw o u l do n l yw o r k si nt h eb a c k s t a g e ,s oh o wm u c hb i t r a t en e e dt ob e a l l o c a t e df o rd e p t hv i d e oi sac h a l l e n g i n gp r o b l e m s o m er e s e a r c hw o r k sh a v ea l r e a d y l i a b s t r a c t s h o w nt h a tt h eq u a l i t yo ft h ev i t u a lv i e wd o e sn o tn e c e s s a r i l y d e p e n d so nt h eq u a l i t y o fd e p t h s p e c i f i c a l l y i ft h eq u a l i t yo fd e p t hv i d e og e t sw o r s e ,v i r t u a lv i e wm a yn o t g e tw o r s ec o r r e s p o n d i n g l y h o w e v e rt h e r ei ss t i l ln od e f i n i t ef u n c t i o ne s t a b l i s h e dt o d e m o s t r a t et h er e l a t i o n s h i pb e t w e e nt h eq u a l i t yo fv i r t a u lv i e wa n dt h a to fd e p t h v i d e o a h y p o t h e s i si sp r o p o s e da n dp r o v e di nt h i st h e s i st h a ti n3 dv i d e oa p p l i c a t i o n s y s t e m s :d e p t hw i t l ll o wr e s o l u t i o ni ss u f f i c i e n tf o rg o o dv i e ws y n t h e s i sq u a l i t y k e yw o r d s :3 dv i d e oc o d i n g ,s c e n ec u t ,l a y e r e dd e p t hv i d e o ,v i e ws y n t h e s i s i i i 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者签名:雾煮碰签字同期:也屈乞l 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 讼开口保密(年) 作者签名:丕支商生 签字日期:垒竺虚:笸:星 i 导师签名李乃澎一 签字日期:。一砌加幺量! 第1 章绪论 1 1 研究背景 第1 章绪论 在过去的二十几年中,数字多媒体技术已走进了人们的生活并且成为不可或 缺的一部分( 钟玉琢,1 9 9 9 ;林福宗,2 0 0 2 ;刘甘娜等,2 0 0 4 ;王小鹏等,2 0 0 6 ) 。 而随着计算机图形学,计算机视觉等领域的研究成熟,以及计算机硬件处理速度 的飞速发展,越来越丰富的视频媒体类型被研究人员开发出来并被使用、推广, 如任意视角视频( f r e ev i e w p o i n tv i d e o ,f w ) ( v e t r oe ta l ,2 0 0 4 ) 和三维视频 ( t i l r e e 。d i m e n s i o nv i d e o ,3 d v ) ( s m o l i ca n dk a u f f , 2 0 0 5 ) 等等。任意视角视频 允许用户根据个人喜好在一定范围内选择视点、视角,人机交互是此项技术的一 个注重环节;三维视频则主要强调构建出场景的立体感,需要用到视频场景中物 体的深度信息,即物体到相机的距离信息。利用已知的视角及其对应的深度信息 还可以合成出某些虚拟视角f e i r t u a lv i e w ) ,这些虚拟视角可以更好地解决人机交 互和构建立体感过程中的很多问题。任意视角视频应用和三维视频应用需要的要 素和依据的图形学原理是基本一致的,采用不同的名称只是为了使它们显得更加 直观,便于理解。为了表达方便,下文将对二者采用统一的名称:三维视频。三 维视频技术的应用市场非常广泛,而最能为广大消费者所知的就是2 0 0 9 年在世 界范围内引起了观影热潮的好莱坞电影阿凡达,其中采取的当今世界最先进 的三维视频技术令无数观众惊叹,进而开启了新的三维电影工业时代。相信在不 久的将来,三维技术的应用范围会越来越广,分布到人们需求的各个方面。 三维视频格式种类颇多,可大致分为以下几类:双目立体视频( s t e r e ov i d e o ) 、 多视点视频( m u l t i v i e wv i d e o ) 、多视点视频+ 深度( m u l t i v i e wv i d e op l u sd e p t h , m v d ) 等。相比传统二维视频,三维视频的数据量成倍增长,它不仅需要包含 更多视角的颜色视频,对于m v d 格式,与颜色视频相对应的深度视频也需要一 同被压缩传输。如何有效地压缩传输如此巨大的数据量是三维视频应用中的一个 关键问题。多视角视频是由按照不同规则放置的多个相机对同一场景同时进行拍 摄获得的,因此各视频序列之间必然存在着大量的相关性。深度视频则反映了所 拍摄物体到相机的距离信息,这些距离信息在初始阶段以米为单位存储,但经过 进一步处理,就可转化为和原始颜色视频相同的存储格式。虽然深度视频的像素 值和颜色视频的像素值之间不存在相关性,但是它们有着相同的运动趋势,并且 深度视频内部不具备细节,它的轮廓在视角合成时显得更加重要,在对三维视频 进行压缩处理时可以就这些新的特性展开研究。 1 第1 章绪论 在对多视角颜色视频和深度视频压缩时都可以使用h 2 6 4 a v c 标准的一个 重要扩展:多视角视频编码( m u l t i v i e wv i d e oc o d i n g ,m v c ) 。这是国际标准组 织发布一个用于压缩多视角视频的有效方案,它能很好的去除多视角视频间的相 关性。但是这种压缩方式仍显简单,因为它未能考虑联合压缩颜色和深度信息, 也没能利用到深度信息的特性。现在关于三维视频的压缩还是一个丌放的词题, 市场的需求也使研究人员越来越把研究视线转移到三维视频处理上,同时我们也 可以看到很多压缩处理三维视频的技术正在被提出并逐步走向实用。 1 2 问题的提出及研究意义 三维视频的基础是二维视频,无论是颜色视频还是深度视频都具有二维视频 的特性,比如视频内部存在帧内冗余和帧间冗余,如前所述,三维视频也具备一 些新的特点,如何有效利用这些新特性,是我们面临的新挑战。 三维视频与二维视频的相似性,使得我们在对三维视频进行处理时可以继承 二维视频的一些现有技术。而三维视频具有的新特点,特别是三维立体主观视觉 因素作为评判标准的加入,又允许我们拓展出新的三维视频压缩技术。本文第三 章提出的利用压缩深度信息提高三维视频编码效率的方法就属于这一范畴。 同时,三维视频一些新的应用场景会导致一些新问题的出现。比如在视角合 成( v i e ws y n t h e s i s ) 技术中,m v d 作为主要的媒体形式出现,但其中的深度信 息只是用于视角合成,并不会被用户直接观看,所以有理由质疑评价深度视频的 压缩效率是否仍需遵循传统编码中的率失真( r a t ed i s t o r t i o n ) 准则。本文第四 章关于深度视频分辨率大小对视角合成效果影响的分析就是在这方面所做的探 讨之一。 在双目立体视频的应用环境中,观察者的双眼需要同时分别接受左右两个摄 像机拍摄的场景内容,以在人脑中生成相应的深度信息和立体场景。有研究显示 场景切换后的一段时间内人眼对颜色纹理信息的敏感程度远高于对深度信息的 敏感程度,所以利用人眼这种视觉特性可以有效地节约存储或传输这些三维视频 所需的码率。 视角合成技术需要同时提供多个相邻视角的颜色视频和深度视频,传输前的 数据压缩是必不可少的,但是如何对二者进行压缩,即二者具体的码率比例设置 成多少才能既节约传输带宽又不会降低合成视角的质量,是三维视频编码的又一 个研究热点。如果低质量的深度视频已经能够生成满足用户需求的合成视频,那 么就没有必要对其分配高码率。反之,如果深度视频的质量对合成虚拟视角的影 响明显,就有必要为深度视频分配更多的码率。 2 第1 章绪论 基于人的视觉系统特性,本文提出一种有针对性的三维视频压缩方法。在双 目立体视频的播放过程中,场景切换后,播放器的左右视角在一段时间内均播放 中间相机所拍摄到的内容,此时视频内容不会为人的视觉系统提供深度信息。这 段时间结束后播放器重新开始播放正常的双视角视频,随后人脑中才会接收并生 成相应的深度信息。这种播放方法相当于减少了个视角在场景切换后一段时间 内的信息量,但是对于参与本实验测试的大部分视频序列而言不会降低三维视频 的主观视觉质量。这种方法所用到的视角合成,视频压缩技术都是国际通用的标 准技术,实现起来非常方便。 针对以上提到的参与视角合成的深度视频质量对所合成虚拟视角质量影响 的问题,本文在前人工作的基础上,进行了新的实验,以分析深度视频质量和虚 拟视角质量之间的关系。与以往的研究不同,本文不是重复的对深度视频采用各 种编码方式进行压缩,而是研究不同分辨率的深度视频对视角合成的影响。实验 表明,低分辨率的深度视频用于视角合成仍然可以得到较好的虚拟视角合成结 果。该结果对于研究三维视频压缩过程中颜色视频和深度视频间的码率分配很有 帮助。 1 3 本文内容安排 本文的内容安排如下:第二部分介绍视频编码的一些基础知识,主要包括二 维视频编码技术的发展历程,主流编码标准h 2 6 4 的技术特点,以及三维视频技 术的相关知识,三维视频压缩技术,深度视频的生成方式,视角合成,人眼的立 体感觉生成原理等;本文的第三部分提出了一种新的三维视频压缩方法,通过一 系列的主观测试和相应的实验数据,作者证明了文章的假设,并得出相应的结论; 第四部分分析了不同分辨率的深度视频对视角合成结果的影响;第五部分总结了 本文的工作并展望下一步工作的重点。 3 第2 章基础知识介绍 第2 章基础知识介绍 本章将系统的介绍视频编码的相关内容,包括二维视频编码技术发展历程和 研究现状,三维视频应用中三维成像的原理,现有的三维视频压缩技术,以及三 维视频应用中某些相关的关键技术。 2 1 视频编码原理 现在,视频已经成为人类获得知识、信息的最重要渠道,而在视频技术兴起 之前,图像占据了信息传播的主流地位。相比于图像这种表现形式,视频具有鲜 明的特点:包含了运动信息。视频播放时,一帧一帧连续的图像以一定的速率出 现在屏幕上,只要帧间切换的速度超过2 4 帧每秒,人眼就不能将不同的帧区分 丌来,即人脑中会形成所看物体连续运动的感觉。未经处理的视频数据量巨大, 需要令人难以忍受的传输带宽以及存储空间,比如观看高清晰电视就需要 1 3 g b p s 的带宽( 1 2 8 0 7 2 0 像素图像2 4 比特像素6 0 图像秒) ,随着科学技 术的发展,人们可能会对更高质量、更多种类的视频产生需求,所以单纯的靠扩 大存储容量,增强传输带宽是不明智,更是不可行的;从另一个角度看来,如果 能丌发出有效的视频压缩技术就可以有效地减少视频数据量,使传输、存储视频 成为可能。所谓压缩就是尽可能的去除信源中存在的各种冗余,目前的研究显示 视频信源文件中主要存在四种形式的冗余:空间冗余,时间冗余,统计冗余和心 理冗余。 空间冗余:视频由连续的帧图像组成,每帧图像又可被分为前景和背景,一 般情况下,在前景和背景中均存在大片的内容相似区域。这种帧内相似性也就是 空间相关性。 时间冗余:在连续拍摄的场景中,相邻的帧与帧中的同一物体一般不会发生 很大的变化,它们在内容上也是相似的。这种帧问物体的相似性就是时间相关性。 统计冗余:现在的编码标准中熵编码是必不可少的环节,因为视频内容在去 除了上面提到的两种冗余后得到的经变换后的码字又可分为高频和低频数据,各 频域数据之间又存在着相关性,这就是统计冗余。 心理冗余:入眼对图像的感知能力并不像计算机那么灵敏,比如色彩、对比 度、分辨率等,这样就允许视频信息提供者在适当的时候减少所提供的数据,本 文第三章提到的方法就是通过利用人视觉系统对深度信息的短暂不敏感性节约 了码率。 s 第2 章基础知识舟绑 在编码过程中我们通过空间预测,时间预测,熵编码,分级量化等方法分别 去除这四种冗余,可以有效地压缩视频信息。 2 2 编码标准发展历程 从事视频编码标准化的组织主要为运动图像专家组m p e g ( m o v m g p i c u a e s e x p e r t0 i o u p ) 和国际电信联盟1 t u - t ( i n t e r r m t i o t m lt e l e c o m m u n i c a t i o nu n i o i l i t u ) ,它们各自的代表作分别为m p e g - x 系列标准和h2 6 x 系列标准。这两个 组织也曾联手成立联合视频专家组t ( j o i mv i d e ot e a m ) ,目前最为流行的 h 2 6 4 a v c 标准就是由t 制定。中国也在2 0 0 4 年推出自己的视频编码标准 a v s ( a u d i o v i d e os t a n d a r d ) 。图2 1 介绍了各个标准组织制定的编码标准,以及 各标准的制定年代。 固b :口 圈匡蒌泣e 二1 曰圈i k ” 卜 恩。r 瞳2 1 视频编码标准的历程 m p e g 组织在1 9 9 2 年制定并于1 9 9 3 年公布了m p e g 1 标准,这项标准主 要是面向家用v c d 应用市场,数据速率在15 m b l 镕左右;1 9 9 4 年m p e g - 2 标准 发布,这个标准主要是面向数字视频广播、家用d v d 的视频压缩及高清晰度电 视( h d t v ) ,码率从4 m b l 皓直至1 0 0 m b 驴s ;1 9 9 8 年制定了m p e g - 4 标准( 启动 于1 9 9 3 年,以m p e g - 2 ,h 2 6 3 为基础) ,此标准是主要面向低码率传输的。 i t u 可基本上与m p e g 的发展同步。1 9 8 9 年该组织正式推出h 2 6 1 标准, 主要是为了在综合业务数字网g m e g r a t e a s e 州c e s d i g i t a l n e t w o r k ,t s d n ) 上实现 可视电话、视频会议等。1 9 9 6 年,r n j t 推出了h2 6 3 编码标准,用于低于6 4 k b p s 的低码率视频传输,它的应用场景有分组数据交换罔( p a c k e ts w i t c h e dd a t a 6 第2 章基础知识介绍 n e t w o r k ,p s t n ) 信道中可视会议、多媒体通信等。随后的时问里该组织又在h 2 6 3 基础上推出了h 2 6 3 + ,h 2 6 3 + + 等标准。 2 0 0 1 年i t u t 和m p e g 成立了一个联合视频工作组t ,目前最为流行的 h 2 6 4 标准就是由该组织制定的,该标准在m p e g 中有另一个名称:m p e g 4 标 准的第1 0 部分( m p e g 4p a r t1 0 ) 。为了便于描述,本文中将统一采用h 2 6 4 a v c 的称法。 从2 0 0 2 年丌始,国家信息产业部组织实施制定属于中国自己的音视频编码 标准一音视频编解码标准a v s 。迄今为止,a v s 工作组在面向高清数字电视广 播和高密度存储媒体应用的视频编码标准方面取得巨大进展,其标准a v s l o 已 经开始应用;面向更广泛应用市场的相应标准也正在制定过程中。 以上是以各标准的制定组织的不同介绍了不同标准的推出年代、技术特点, 若按综合的压缩效率来衡量上述标准则可以将其划分为三代编码标准,下面本文 将就技术细节具体讲述下这三代标准 2 2 1第一代视频编码标准 第一代视频编码标准主要包括h 2 6 1 、m p e g l 、m p e g 一2 。对于任何新生事 物而言,在丌始阶段它总是充满了机遇和挑战,而一个开始的好坏往往决定着事 物的发展趋势以及应用寿命。就这个意义而言,第一代视频编码标准毫无疑问是 个非常优秀的起点,它所设计的框架至今仍被各编码标准沿用。第一代编码标准 用到的去除冗余的各关键技术有效的实现了对视频的压缩处理,此后新的编码标 准的提出也只是对这些技术进行性能层面上的提升;更有意义的是,标准只针对 解码器而不包含编码器也成为了制定标准的传统。 h 2 6 1 是最早发布并在实际市场中得到应用的视频编码标准,它由i t u t 制 作,于1 9 9 0 年f 式通过,此项标准的应用范围针对性鲜明:视频电话和视频会 议应用,在这些应用场景中,低码率低延迟是个重要的技术指标。在这个标准中, 很多定义成为此后业内的规范。首先,为了便于视频界的内部交流,按照4 :2 :0 的比例进行亮度,色度分配的通用中间格式( c o m m o ni n t e r m e d i a t ef o r m a t ,c i f , 3 5 2 2 8 8 ) 被提出,并被采用作为视频会议的统一格式,其后又加入了q c i f ( 1 7 6 1 4 4 ) 和4 c i f ( 7 0 4 5 7 6 ) 进行分辨率方面的拓展。h 2 6 1 率先提出了宏块 ( m a c r o b l o c k ) 的概念,每个宏块包含1 6 x1 6 个像素的亮度分量和两个8 x 8 的 乍度分量,并以此作为编码的基本单位。为了去除各种形式的冗余,h 2 6 1 采用 了混合编码的方式,为了去除时间,空间冗余,h 2 6 1 提出了运动估计( m o t i o n e s t i m a t i o n ) 和运动补偿( m o t i o nc o m p e n s a t i o n ) 的技术;为了消除统计冗余,h 2 6 1 提出了一套变换、量化、熵编码的执行方案,首先是基于8 x 8 大小的d c t 变换, 7 第2 章基础知识介绍 之后又对变换域中的数据进行量化,量化后的数据按照z i g z a g 顺序扫描并做 ( r u n ,l e v e l ) 可变长编码。另外,h 2 6 1 还提出了去块效应滤波器( d e b l o c k i n g f i l t e r ) 技术,因为以块为单位进行变换量化和运动补偿预测会带来较为严重的 边界块效应现象,利用去块效应技术能提高重建图像的质量,这些图像作为预测 图像的过程中会提高视频的编码效率。 m p e g 组织于1 9 9 3 年发布了m p e g 1 标准,这项标准是在h 2 6 1 的基础上 发展而来,继承了h 2 6 1 的优点,如混合编码模式等。目前我们熟知的帧内编码 帧( i n t r af r a m e ,i 帧) 、前向预测帧( f o r w a r dp r e d i c t e df r a m e ,p 帧) 、后向预测 帧( b a c k w a r dp r e d i c t e df r a m e ,b 帧) 概念首次出现于m p e g 1 中;半像素( h a l f p i x e l ) 运动补偿预测技术也是被首次提出,此技术对于提高编码性能作用明显。 m p e g 1 是个工业级标准,面向的应用市场为不同带宽的设备,如c d r o m , v i d e o c d ,c d i 等;数字电话网络上的视频传输,如视频点播( v i d e oo nd e m a n d , v o d ) 、非对称数字用户线路( a s y m m e t r i cd i g i t a ls u b s c r i b e rl i n e ,a d s l ) 等。 其支持的数据速率很大,从1 5 m b p s 到5 m b p s 。 m p e g 一2 标准于1 9 9 4 年发布,由m p e g 组织和i t u t 联合制定,其全称为 h 2 6 2 m p e g 2 。m p e g 2 在h 2 6 1 与m p e g 一1 的基础上进行技术改进,满足 m p e g 2 标准的解码器都可以解码m p e g 1 码流,实现了后向兼容机制。有一些 新技术在m p e g 2 中首次提出:图像组( g r o u po fp i c t u r e s ,g o p ) 的概念;隔 行扫描编码( i n t e r l a c e dc o d i n g ) 技术;分层编码( l a y e rc o d i n g ) 的概念,对于一 个需要编码的序列,将其部分帧作为基本层编码形成一个低帧率的序列,而其他 帧作为增强层进行b 帧编码,因此可以生成具有两种具有不同帧率的序列。这 样就实现了一种简单的时间可伸缩性( t i m es c a l a b i l i t y , t s ) ,基于对t s 模式的 扩展,m p e g 2 定义了多视角类( i s o i e c1 3 8 1 8 - 2 ,1 9 9 6 ) ,可用于实现多视角 视频编码。m p e g 2 最初的市场定位明确:面向广播、卫星、有线电视等应用场 景,其针对高清晰度电视和标准数字电视的相关内容制定了切实有效的处理机 制,至今仍在应用。m p e g 一2 的伸缩性功能又使其支持某些低码率场景,但限于 各种条件,这个可伸缩功能的尝试并不成功。其编码速率范围在3 m b p s 1 0 0 m b p s 之间。 本文是面向多视角视频编码的研究,所以将具体介绍t s 模式,以及其在多 视角视频编码中拓展应用。图2 2 为t s 模式的示意图,其中b 表示基本层( b a s e l a y e r ) ,e 表示增强层( e n h a n c e m e n tl a y e r ) ,增强层的参考帧既可以来自基本 层,也可以来自已编码的增强层的前一帧。 8 第2 章基础知识舟绍 田2 2t s 模式示意图 在双目立体视频的应用场景中,很容易应用上t s 的思想,其编码模式示意 图如图2 3 所示。l 表示左摄像机拍的左视频,r 表示右摄像机拍的右视频,在 编码过程中l 序列作为基本层,采用基本的二维视频编码中的预测编码技术,r 序列作为增强层,编码过程中可以用基本层l 的帧进行预测。这里基本层与增强 层之间的关系是通过视差矢量( d i s p a r i t y v e c t o r ,d v ) 来描述,而视内相关性 是通过运动矢量( m o t i o nv e c t o r ,m v ) 描述,关于视差的描述可见本文接下来 的部分。 此 醐 图2 3t s 模式应用于双目立体视频编码示意图 2 22 第二代视频编码标准 第二代视频编码标准包括 m p e g - 4 ( v e r s i o n1 0 ,2 0 ) ,h2 6 3 ,h 2 6 3 + , h2 6 3 t 它们生成于同一时代,技术上讲都是在第一代h2 6 1 编码标准的基础 9 日iiij“miigw譬 ,1110一纛鬟纛粼鍪, 4 藤髓壤睡箧 第2 章基础知识介绍 上进行技术升级,提升编码性能;它们的关键技术相互交叠,没有明显的技术界 限。下文将统一介绍它们的技术特点。 第二代视频编码标准都采用了频域内的帧内预测技术,亮度值经余弦变换后 得到变换域数据,这些数据又可进一步分为直流系数( d c ) 交流系数( a c ) , 利用已编码宏块的变换域系数值可以对待编码宏块的这些值进行差分预测;为实 现更好的帧内预测,更小的分块方式8 8 分块被采用,这样就可以对更小的区 域制定专门的运动矢量。运动矢量的精度也有所提升:半像素乃至四分之一精度 像素精度;熵编码的方式也更加复杂有效。 2 2 3 第三代视频编码标准 第三代视频编码标准以h 2 6 4 a v c 和a v s 为代表,其突出特点在于采用整 数变换( i n t e rt r a n s f o r m ) 、多参考帧预测( m u l t i f r a m ep r e d i c t i o n ) 、更加灵活的 分块方式、1 4 像素精度运动矢量、更加复杂的熵编码方式( 如基于上下文的自 适应变长编码c a b a c ,基于上下文的自适应二进制算术编码c a v l c ) 等。对 比旧的编码标准可知,第三代视频编码标准在提高压缩效率方面效果明显,但是 与之相应的计算复杂度的提升,从某种意义上讲,计算机处理能力的发展推动了 编码标准的发展。下一节将具体介绍在第三代编码标准h 2 6 4 中采用的关键技 术。 a v s 也是当前主流的编码标准,技术上和h 2 6 4 相比无太多鲜明的特点,本 文不就其细节具体展开介绍,感兴趣的读者可以参考l ie ta l2 0 0 9 年的文章。 l o 第2 章基础知识介绍 2 3h 2 6 4 a v c 技术介绍 目前学术界研究的热点是第三代标准,基于这个平台,不断有新技术被提出, 应用,如码率控制,错误隐藏、快速模式选择等。而对作者的研究而言,h 2 6 4 是所有工作的基础,因此本文将具体介绍h 2 6 4 a v c 的技术细节,更详细的介 绍可见毕厚杰2 0 0 5 年的著作。图2 4 展示了一个典型的h 2 6 4 a v c 编码框图 ( w i e g a n de ta l ,2 0 0 3 ) 。 2 3 1帧内预测 图2 4h 2 6 4 a v c 编码流程图 帧内预测意在去除图像中存在的空间冗余。可以想象,在平坦的区域,空间 相似性很强,帧内预测可以达到很好的压缩效果。h 2 6 4 a v c 在空间域进行帧内 预测,利用已经编码重建过的块,对当前待编码宏块进行插值预测,由于h 2 6 4 中帧内宏块的编码顺序问题( 从左到右,从上到下) ,所以可用的已编码块都在 当前宏块的左方、上方、左上方。 为了更好的实现帧内预测,帧内预测按照分块大小分为1 6 x 1 6 预测模式 ( 1 1 6 x 1 6 ) 、8 x 8 预测模式0 8 x 8 ) 、4 x 4 预测模式( 1 4 x 4 ) - 一种模式,每种模式又有一定 数目的预测选项。对于细节较少的区域,无需将宏块( m a c r o b l o c k ) 细分为更小的 块,1 1 6 x 1 6 的预测模式已经可以得到足够精确的预测值。1 1 6 x 1 6 预测模式有四 种预测方向选项,如图2 5 所示。 第2 章基础知识介绍 广 ! j 彦习 l = = :d 图2 jh 2 6 4 a v c 中1 1 6 x 1 6 帧内预测选项 相应的,对于细节丰富的区域,需要更细的分块方式和更多的预测方式才能 很好的预测一个宏块内不同子块中所有像素点的值,所以h 2 0 4 a v c 提出了更 小的分块方式1 4 x 4 和1 8 x 8 ,它们分别拥有9 种预测方向选项,如图2 6 所示。 综合来说,h 2 6 4 的帧内预测技术可以取得很好的预测效果。 孵簖p 1 豳皿 3 ( d i a g o m l 洲c n ) 4 d i a g o r “d o n i )5 i 咖k “肼】 降孵辟旧降瞟踩手珂什骱1 f _ c 黪尉藤融博 圈聂产田田墨噩矛印司副j 栌f 】g 霹饕蹰胃尉黼 和上一小节提到的原理相同,在以宏块为单位进行运动估计实现去除帧问冗 余的处理过程中同样需要考虑宏块中细节的多少,分栖方式等,如果宏块内容简 单,细节少,则用一个运动信息就可以完全表示,而对于细节多、运动复杂的区 域,就应有多个运动信息描述宏块中不同的区域。为了满足这种需求h 2 6 4 a v c 支持一种类似树形的宏块分解方式,从1 6 1 6 到8 8 再到4 4 。如图2 7 所示。 在运动估计的时候一个宏块按照不同的方式拆分,拆分后的不同大小的块各自进 2 司 第2 章基础知识介绍 行独立的运动搜索,最终它们允许有属于自己的参考帧和运动矢量。大小两种分 块方式两者相较,各有优缺点,大的划分尺寸( 如1 6 1 6 ,1 6 8 ,8 x 1 6 ) 模式下, 只需要少量的比特要编码来描述整个宏块的运动矢量和划分类型,但是运动补偿 后的残差可能需要较多的比特编码描述,因为其容易预测效果不好,去相关后仍 残留大量细节;小的划分尺寸( 如8 8 ,4 x 4 等) 模式下,预测效果要好,只需 少量比特数描述运动补偿后得到残差,但是需要较多的比特用于描述运动矢量和 划分的类型。h 2 6 4 使用率失真优化准则确定最后选择什么样的分块模式。 o 1 ( a ) 1 6 x 1 6 块分割 o1 ( b ) 8 x 8 子块分割 图2 7h 2 6 4 a v c 宏块、子块分解方式 2 3 2 多帧预测技术 o1 2 3 m p e g 2 ,对预测帧个数有着明确的限制:一帧。于是对于待编码p 帧,只 允许使用其自,j 面已重建的一帧作为预测帧;对于待编码b 帧,只允许紧随该帧 的已重建的i 帧、p 帧( 前后两方向) 作为参考帧。发展到h 2 6 4 的时代,计算 机处理速度允许多参考帧计算,即预测帧可以在该帧前后的多帧内进行选取,如 图2 8 所示,这种预测结构对于场景内容来回跳变的视频内容预测效果很好。 h 2 6 4 还提出了分级b 帧( h i e r a r c h a lb ) 的概念,其编码示意图如图2 9 所示, 类似前面的t s 结构。这种预测结构可以实现更高的压缩效率,并能为进一步的 可伸缩性拓展提供技术支持。 1 3 第2 章基础知识介绑 4 个已编码、且可用为参考的帧 ,前特编码帧 其中为参考帧索引值 图2 8h2 6 4 a v c 多参考帧预测 注:图中一共4 个参考帧。的大小代表参考帧到当前帧的距离,越人,表示当前帧 的索引值越大。 一1 r 一,一、 ,j l i o | _ 一b 3 卜一b 2 叫b 3p _ | b 叫b ,h 图2 9 分级b 帧预测编码示意| 芏| 233 运动矢量的精确化 b 2 hb 3h i o 在h2 6 4 中,四分之一像素精度的运动矢量精度被应用,运动补偿也就相应 的提升到四分之一像素精度,这对提高运动补偿的效果是非常有效的。半精度像 素的值是通过六抽头滤波器内插获得,四分之一精度像素的值由中值滤波器内插 获得。 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论