




已阅读5页,还剩91页未读, 继续免费阅读
(通信与信息系统专业论文)网格基单目和立体视频编码及相关技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 当前,随着h 2 6 4 a v c 技术的日益成熟,许多学者认为基于统计的去冗余的 编码压缩潜力已不大,今后的视频编码技术应当从计算机视觉、计算机图形学和 人类视觉系统中寻找答案。网格模型基视频编码技术是新型的视频编码技术之一, 其技术的核心是利用计算机视觉和计算机图形学相关理论和算法,用结构化的数 据表示图像序列。这项技术早在十年前在解决甚低码率视频通信问题时成为研究 热点。 网格模型基视频编码技术有许多问题亟待解决,如计算复杂度高、鲁棒性差, 运动遮挡视差遮挡问题还没有找到公认有效的方法,因此过去对它的研究基本上 局限于简单背景和简单运动的应用场合,如视频会议。 针对以上问题,本文所做的工作和主要贡献包括: 1 以三角形元素:顶点、边、三角形及d e l a u n a y 三角形网格( d t m ) 为基本类 建立了d t m 生成算法的基本数据结构,使生成算法的速度在不降低描述精度的前 提下提高了1 3 。 2 通过分析已有的两种d t m 生成准则鲁棒性差和不稳定的原因,导出了一 种灰度误差平方和最小化准贝j j ( m s s d 准则) ,用于生成内容自适应的d t m 。优化 和改进了基于运动区域增长限制及节点接近性限制的经典网格生成算法简称光 流法,用于生成运动自适应网格。 3 。提出了基于网格节点跟踪的运动估计四步快速算法,考虑了运动遮挡区域 的去节点和去遮挡区域的加节点问题,以保证节点跟踪的有效性。根据去点或加 点数量或模型失效感知运动遮挡区域大小,然后根据遮拦区域大小构成自适应 g o p 结构。最后提出了一种适合复杂背景复杂运动的网格基混合编码方案。实验 结果显示,在h 2 6 3 参考模型框架下搭建的网格编码实现上,对于复杂背景和复 杂运动视频的压缩性能优于h 2 6 3 高级运动模式。 4 提出了一种基于块的最大后验概率( m a p ) 的立体视差估计算法,可在相关 法和m s e 法的基础上引入先验知识,从而更好地提高匹配性能。 5 针对视频会议应用场合,提出了基于网格节点跟踪的视差估计四步快速算 法,算法中考虑了视点间亮度补偿、全局遮挡边界检测,还考查了中间虚拟视点 图像的合成。实验结果表明,由于算法的快速收敛性,使其在速度上和精度上均 优于其它相应算法。此外,在合成中间虚拟视点图像时,网格在速度和算法简单 性上也有一定的优势。 6 为了显式地在视差图上标记出遮挡区域,在计算视差空间的基础上,利用 动态规划算法搜索出最佳视差曲线。计算所得的视差曲线上有三种状态标记:匹 网格基单目和立体视频编码及相关技术研究 配状态和两种遮挡状态。为了保证视差曲线通过路径控制点,提出了一种分段式 动态规划算法。算法将视差空间影像划分为路径控制区和非路径控制区。在路径 控制区强制路径通过路径控制点,在非路径控制区采用动态规划进行路径最优搜 索。为保证路径控制点高度可靠,提出了选择路径控制点的4 个准则。实验结果 表明,新算法比传统的动态规划算法在遮挡检测和匹配精度上都有一定的提高, 算法可靠性强,运算量小。 关键词:视频立体视频编码网格基编码自适应g o p 动态规划最大后验概率 a b s t r a c ti l l a b s t r a c t n o w a d a y s ,w i t ht h ei n c r e a s i n g l ym a t u r i t yo fh 2 6 4 a v c - b a s e dv i d e oc o d i n g t e c h n i q u e s ,m a n y s c h o l a r sb e l i e v et h a tt h es t a t i s t i c s b a s e d r e d u n d a n c yr e m o v a l c o m p r e s s i o nh a st e n d e dt or e a c hi t sl i m i t f u t u r ev i d e oc o d i n gt e c h n i q u e ss h o u l df i n d s o l u t i o n si nc o m p u t e rv i s i o n ,c o m p u t e rg r a p h i c sa n dh u m a nv i s i o ns y s t e m t h em e s h m o d e l - b a s e dv i d e oc o d i n gt e c h n i q u ei so n eo fn e wv i d e oc o d i n gt e c h n i q u e si nw h i c h c o m p u t e rv i s i o na n dc o m p u t e rg r a p h i c st e c h n i q u e si se m p l o y e dt or e p r e s e n ti m a g e s e q u e n c ei nas t r u c t u r a lw a y i th a db e e nar e s e a r c hh o t s p o tm o r et h a nt e ny e a r sa g of o r s o l v i n gv i d e oc o m m u n i c a t i o np r o b l e m si nv e r yl o wb i t r a t e s t h em e s hm o d e l b a s e dv i d e oc o d i n gt e c h n i q u e sr e m a i nm a n yp r o b l e m st os o l v e , s u c ha si t sh i g hc o m p u t i n gc o m p l e x i t y ,i t sp o o rr o b u s t n e s s ,a n dt h a tn oe f f e c t i v e s o l u t i o n sh a sn o tb e e nf o u n df o rt h em o t i o no c c l u s i o na n dt h es t e r e oo c c l u s i o np r o b l e m s p r e v i o u ss t u d i e si nt h i sf i e l dw e r eo n l yl i m i t e dt os i m p l eb a c k g r o u n da n ds i m p l em o t i o n a p p l i c a t i o n s ,s u c ha sv i d e o c o n f e r e n c e ,e t e a i m i n ga tt h ea b o v ep r o b l e m s ,t h em a i nc o n t r i b u t i o n si no u rw o r k sp r e s e n t e di n t h ed i s s e r t a t i o ni n c l u d e : 1 b a s ed a t as t r u c t u r e sa r eb u i l tf o rd e l a u n a yt r i a n g u l a rm e s h e s ( d t m ) g e n e r a t i o n a l g o r i t h mu s i n gt r i a n g u l a re l e m e n tc l a s s e s ,w h i c hi n c l u d et h ev e a e xc l a s s ,t h es e g m e n t c l a s s ,t h et r i a n g l ec l a s sa n dt h ed t mc l a s s t h e yl e a dt os p e e di n c r e a s ei nt h em e s h g e n e r a t i o nb yo n et h i r dw i t h o u td e c r e a s i n gt h ea p p r o a c h i n gp r e c i s i o no fd t m 2 t h r o u g ht h ea n a l y s i so ft h ep o o rr o b u s t n e s sa n dt h ei n s t a b i l i t yo ft w oe x i s t e d d t m g e n e r a t i o na l g o r i t h m ,an e wc r i t e r i o nt e r m e dw i t hm i n i m i z es u mo fs q u a r e d d i f f e r e n c e s ( m s s dc r i t e r i o n ) i ng r a yi sd e r i v e df o rg e n e r a t i n gc o n t e n ta d a p t i v ed t m t h ec l a s s i c a la l g o r i t h mw i t hn o d a lp r o x i m i t yc o n s t r a i n t si nt e m p o r a la c t i v i t yr e g i o n , w h i c hi sn a m ea so p t i c f l o wm e t h o df o rs h o r th e r e ,i so p t i m i z e da n di m p r o v e df o rt h e g e n e r a t i o no ft h em o t i o na d a p t i v ed t m 3 af o u r - s t a g ef a s tm o t i o ne s t i m a t i o na l g o r i t h mi s p r o p o s e db a s e do nn o d a l t r a j e c t o r i e s i nw h i c hn o d e si nm o t i o no c c l u s i o nr e g i o na r er e m o v e da n dn e wn o d e sa r e a d d e di nu n c o v e r e db a c k g r o u n dt og u a r a n t e ee f f e c t i v en o d a l t r a je c t o r i e s i nt e r m so ft h e a m o u n to fa d d e dn o d e so rd e l e t e dn o d e so rm e s hm o d e lf a i l u r e ,t h es i z e so fr e g i o n st o b eo c c l u d e da n du n c o v e r e di s p e r c e i v e d ,a c c o r d i n gt ow h i c ha d a p t i v eg o pi s c o n s t r u c t e d f i n a l l y , am e s h b a s e dh y b r i dv i d e oc o d i n gs c h e m ei sp r e s e n t e x p e r i m e n t a l r e s u l t ss h o wt h a tt h em e s h b a s e dv i d e oc o d i n gs c h e m eo u t w e i g h st h ea d v a n c e dm o t i o n e s t i m a t i o nm o d eo fh 2 6 3i n c o m p r e s s i o ne f f i c i e n c yf o rc o m p l e xb a c k g r o u n da n d i v 网格基单目和立体视频编码及相犬技术研究 m o t i o nv i d e o si nt h em e s h b a s e dc o d i n gi m p l e m e n t a t i o nb u i l to nh 2 6 3r e f e r e n c e m o d e l 4 an e wa l g o r i t h mf o rs t e r e o d i s p a r i t ye s t i m a t i o nb ye m p l o y i n gm a x i m u ma p o s t e r i o r i ( m a p ) c r i t e r i o ni sp r o p o s e d i tc a ni n t r o d u c ep r i o rk n o w l e d g et ot h e n o r m a l i z e dc o r r e l a t i o na n dm s em e t h o d st oi n c r e a s em a t c h i n gp e r f o r m a n c e 5 f o rv i d e o c o n f e r e n c i n g a p p l i c a t i o n s , af a s t f o u r - s t a g ed i s p a r i t ye s t i m a t i o n a l g o r i t h mb a s e do nn o d a lt r a j e c t o r yi sp r o p o s e d ,i nw h i c hi l l u m i n a t i o nc o m p e n s a t i o n b e t w e e nv i e w sa n dg l o b a lo c c l u d e db o u n d a r yr e g i o nd e t e c t i o na le s t u d i e d f u r t h e r m o r e , t h ev i r t u a lv i e w p o i n ts y n t h e s i si sa l s oi n v e s t i g a t e d e x p e r i m e n t a lr e s u l t ss h o wi nd e t a i l t h a tt h ep r o p o s e da l g o r i t h mo v e r w e i g h so t h e rc o r r e s p o n d i n ga l g o r i t h m sn o to n l yi n s p e e db u ta l s oi np r e c i s i o nd u et oi t sf a s tc o n v e r g e n c e i na d d i t i o n ,m e s h e sh a v e a d v a n t a g e si ns p e e da n ds i m p l e n e s sf o rt h ev i r t u a lv i e w p o i n ts y n t h e s i s 6 i no r d e rt om a r ko c c l u d e dr e g i o n se x p l i c i t l yo nt h ed i s p a r i t ym a p ,d y n a m i c p r o g r a m m i n gi se m p l o y e dt os e a r c ho p t i m a ld i s p a r i t yc h iv eo nb a s eo fc a l c u l a t i n g d i s p a r i t ys p a c ea tf i r s t e a c hp o i n to nt h eo p t i m a ld i s p a r i t yc u r v em u s tb ei no n eo f t h r e es t a t e s :m a t c h i n gs t a t eo ro t h e rt w oo c c l u s i o ns t a t e s t og u a r a n t e et h ed i s p a r i t y c u r v ep a s s i n gt h r o u g hg r o u n dc o n t r o lp o i n t s ( g c p ) ,a na l g o r i t h mo fd y n a m i c p r o g r a m m i n g i ns e g m e n t si sp r o p o s e d ,t h a ti s ,t h ed i s p a r i t ys p a c ei m a g ei sd i v i d e d i n t og r o u n dc o n t r o lr e g i o n sa n dn o n g r o u n dc o n t r o lr e g i o n s i nt h eg r o u n dc o n t r o l r e g i o n ,s e a r c h i n gp a t hi sf o r c e dt op a s sg c p s i nt h en o n g r o u n dc o n t r o lr e g i o n , o p t i m a lp a t hs e a r c h i n gi su n d e rd y n a m i cp r o g r a m m i n g f o rt h er e l i a b i l i t yo ft h e g c p , f o u rc r i t e r i o n sa r ep r e s e n t e dt oc h o o s eap o i n ta sag c e e x p e r i m e n t a lr e s u l t s s h o wt h a tt h en e wa l g o r i t h mh a sc e r t a i ne n h a n c e m e n ti nt h ep r e c i s i o no fo c c l u s i o n d e t e c t i o na n dm a t c h i n g ,a n di sm o r er e l i a b l ea n df a s t e rt h a nc o n v e n t i o n a ld y n a m i c a l g o r i t h m s k e y w o r d s :v i d e o s t e r e ov i d e oc o d i n g ;m e s h b a s e dc o d i n g ;a d a p t i v eg o p ; d y n a m i cp r o g r a m m i n g ;m a x i m u map o s t e r i o r i 西安电子科技大学 学位论文独创性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:二瓯逊日期五堑越 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名:主拿邋 导师签名乙兰重丛! ! 日期刭:至:旦 i ! tj i l l 上掣 第一章绪论 第一章绪论 1 1 引言 随着人类科学技术水平的不断进步,特别是近几十年来通信技术、网络技术、 微电子技术及数字计算机技术的迅猛发展,多媒体通信从模拟时代进入了数字时 代。现在,高清晰度电视、网络流媒体、视频会议、可视电话、交互式电视和远 程医疗已逐步进入人们的生活和工作。连续图像序列组成的视频数据流包含丰富 生动的信息,其通信要求比其它数据流( 如数字音频) 需要大得多的码率和带宽,具 有海量性的特点。为了实现多媒体通信,必须提高通信信道的带宽,同时尽可能 地压缩数据,以降低通信费用。近年来,无线和网络技术呈爆炸式发展趋势,网 络传输带宽不断提高,多媒体业务已成为通信业新的增长点。无线技术、网络技 术和多媒体技术的融合极大地改变了人们通信方式,未来的计算和通信结构将是 充裕的带宽、全连接性、高稳定性和移动性的结合【1 1 。 视频处理处于多媒体通信的核心位置,在其所包含的众多技术中,视频编码 和标准化起着关键作用【l 】。在二十多年的标准化过程中,视频压缩技术经历了从面 向存贮型到面向网络型,从面向可靠信道的不可分级编码到面向不可靠信道的渐 进式可分级多描述编码,从单目视频到双目立体甚至多视点立体视频的演化。随 着压缩比不断提高,容错性不断增强,视频处理对计算量的要求也在不断地提高。 近年微电子芯片技术,特别是f p g a 和d s p 技术的迅猛发展,已经和正在满足这种 要求。 目前,公认的代表视频编码最高水平的技术是基于h 2 6 4 a v c 标准的编解码技 术。国际标准组织i s o i e cm p e g 和i t u tv c e g 的联合专家组j o i n tv i d e ot e a m ( j v t ) 提供了开放源码,称之为参考模型j m t 2 1 ,供研究者进一步开发和比较,并不 断更新其版本,目前的最新版本是j m l 4 2 t 3 1 。人们在感受其表现出来的高性能的同 时,不禁要提出这样的问题,下一代压缩标准将采用什么技术? 从什么方向突破? 有些学者甚至认为h 2 6 4 a v c 的运动估计和补偿技术已经达到了极致,基于统计的 去冗余已接近极限。 从图1 1 t 4 】可以看出,目前的视频编码压缩水平还远未达到理论极限。从视频 编码历史的回顾来看( 图1 2 ) 【4 1 ,每次新一代视频编码标准的推出,编码效率都会比 过去有很大的提高。因此,相信视频编码技术还有很大的提升空间。 然而,以上学者的见解也不无道理,可以说基于块的客观处理已经走到了尽 头,主观处理方法期待成为今后视频编码的研究重点,即与计算机图形学、计算 2 网格基单目和立体视频编码及相关技术研究 机视觉有机结合的面向模型基和网格基的方法,以及与人工智能有机结合的基于 视听感知模型的方法将是今后视频压缩领域的主要研究方 4 , 5 1 。 压缩倍数 图1 1 编码算法的现状 图1 2 视频编码技术的演迸 模型基视频编码技术是一种结合图像分析和计算机图形学的编码技术,它曾 经是上世纪九十年代的研究热点【6 ,7 j ,目的是解决甚低码率( 低于1 6 k b s ) 条件下的视 频压缩问题。模型基分为三维模型基和二维模型基。三维模型基编码主要针对人 脸,通过对人脸关键点的定义,昆 i f d p ( f a e ed e f i n i t i o np a r a m e t e r ) 1 8 】建立线框模型, 通过对关键点的跟踪,用f a p ( f a c ea n i m a t i o np a r a m e t e r ) t 8 】描述其三维运动参数。这 种对人脸结构及其运动的稀疏表示法可以较大地降低码率,所以又称之为基于语 义的编码( s e m a n t i c b a s e dc o d i n g ) 方法。然而这种方法不具有普适性,只能局限于 视频电话这种具有先验知识的场合,而且要求背景不能复杂。二维模型基方法利 用一些二维特征,如边缘、轮廓构成物体区域,并对区域内进行基于块或者基于 第一章绪论 网格的运动估计和补偿。从目前文献报道来看,物体基编码效率很难超过 h 2 6 4 a v c 。另外,如何把物体从背景中整齐地分割出来,目前还没有一种通用的 解决办法【5 】。 为了解决普适性的问题,需要更通用的模型基编码方法。n a k a y a 等1 9 】用可变形 的规则三角形网格,a l t u n b 勰a k 及1 磕a l p 等 1 0 1 用基于内容的不规则三角形可变形网 格,y a o w a n g 等【lo ”】用规则四边形网格进行运动估计和补偿,这些都是网格基编 码方法。据这些文献报道,以3 2 x 3 2 的块建立的规则三角形网格进行整像素运动补 偿比同样大小的块进行b m a 估计图像的p s n r 提高了1 5 d b t ”,在同样的测试条件 下,不规则网格比规则网格又高y 2 d b t 埘,这说明三角形网格在改善运动估计精度 上是有潜力的。然而,基于四边形网格运动补偿的编码结果却不像人们期待的那 样高,在同样的码率下,网格基的重建图像的p s n r 比块基编码低了2 3 d b t ”】。 ( a ) 规则j 角,口和旧地形网格 f b ) 基丁山容的d e l a u n a y 三埔形网格 图1 3 网格 关于网格基编码性能的评价不一,需要综合考虑以下几方面的因素:1 ) 有关 网格基的测试平台的各个环节目前还不是整体考虑的,而块基编码的各个环节是 相互关联的,如在决定宏块模式( 如直接模式、跳过模式、帧内模式等) 时都充分利 用了块的特性。从这个意义上来说网格模型基编码的研究还处于初级阶段;2 1 两 格模型基编码所得到的重建图像的视觉质量要优于块基编码。尽管有时其p s n r 未 必高于块基编码,但它能消除方块效应;3 ) 网格基编码的运算复杂度要高于块基 编码,从而限制了这种方法的应用。九十年代初国际标准组织之所以选择块基混 合编码模型,主要是考虑它的运算相对简单,可实现性强。因此,研究和开发队 伍主要集中在块基编码领域。随着芯片处理能力的不断提高,块基编码技术逐渐 到达它的极限,研究者开始寻找其它方法来提高编码效率。网格基不失为一个很 好的选择,因为从理论上柬说它是一种好方法【”。正如r i c h a r d s o n 在他的著名的 h2 6 4a n dm p e g 一4v i d e oc o m p r e s s i o n :v i d e o c o d i n gf o rn e x t g e n e r a t i o n m u l t i m e d i a ) 削一书的最后一页的总结中所预言的,“极有可能m p e g 4 v i s u a l 中某 网格基单目和立体视频编码及相关技术研究 些深奥的j 二具,如物体基和网格基编码会重新出现在未来的标准中”。 我们实验室在d t m ( d e l a u n a y t r i a n g u l a t i o nm e s h ) 的图像表示、生成及图像和视 频编码方面的研究有十多年的历史 t 3 - 2 9 i 同时,由于d t m 内在的潜力,受到了连 续三个国家自然基金( 基于d t 模型的活动图象编码,n o 6 9 5 0 2 0 0 4 ;d t 模型基方法 在非对称视频编码中的应用研究,n o 6 9 9 8 2 0 0 7 和基于d t 模型的嵌入式立体视频图 象编码,n o6 0 4 7 2 0 8 3 ) 的资助。本论文围绕这一方向,在单目视频及双目立体视 频压缩有关的几个问题上进行了比较细致的研究。 1 2 立体视觉原理及立体视频研究现状 1 2 1 人类的立体视觉简介 首先介绍一下人类立体视觉的基本原理。如图14 ( a ) 及( b ) ,光线依次通过有高 折射率的角膜、虹膜中心的瞳孔、可变形的晶状体、透明的玻璃体,聚焦于视网 膜的中心区域,即黄斑。由于其形状类似一个凹底的浅碗,所以称之为中心凹 ( c c n u a lf o v e a ) 。一般情况下,人眼的视力主要取决于黄斑区的视觉能力,黄斑区 以外的视网膜视力是极其低下的。 燕 图1 4 眼睛结构斟9 人类的立体视觉主要指人类感知深度的能力,也就是辨别物体的空间方位( 即 距离、前后、高低等相对位置) 的功能,它是由双眼从不同角度看到的像经大脑综 合分析后获得的三维立体的空间感觉。人类的立体视觉主要来源于双日视差 ( b i n o e u l a r p a r a l l a x ) 、双眼注视某一点的会聚角( c o n v e ) g e n c e a n g l e ) 川。单眼也有深 度感,看近距离物体时对晶状体的调节( a c c o m m o d a l i o n ) 、单日运动视差( m o v e m e a l t p a r a l l a x ) 、阴影和交叠遮挡的前后顺序、透视关系、i 三l 及视网膜上物像的大小等因 素。都有助于产生空间感觉。单目深度感大多是后天学习而来的【3 l 】。另外,各种 第一章绪论 立体诱因的作用距离也大不相同,如调节( a c c o m m o d a t i o n ) 的作用范围只在1 0 m 之 内,双目视差的作用范围在几百米之内,如图1 5 。 毫 霎 誓 善 墓 1 01 0 01 0 0 0 v i e w i n gd 玉s x a n c e 【m 】 图1 5 各种立体诱因与距离的关系【3 刁 双目视差是人类立体视觉的最重要的因素。能引起深度感知的最小视差称为 立体视锐度,通常用秒角( ) 表示。立体视觉是后天获得的,是双眼视觉的最高形 式,是人类从事各种精细工作不可缺少的重要条件之一。人类立体视觉分为正常、 异常和立体盲三种。正常以立体视锐度 8 0 0 ”者为立体盲。立体盲发病率为2 6 t 3 3 】。有关立体视觉正常 者和异常者的比例的报道不详,但从我们实验室3 0 余名同学对r d s ( r a n d o md o t s t e r e o g r a m ) 的测试结果来看,能感知出立体者的比例很小。同样,用南开大学教授 丁守谦教授发明的“视王 立体成像器【3 l 】对这组同学进行测试,对于同样的立体 图像对,受试者的立体感知有较大的差异。有的人通过调节立体图像对在成像器 中的位置才能得到立体感知,但少数人无论如何调节也没有立体感知,即双眼看 到的是两个独立的图像,而不会融合成一个立体图像。 以上不够严密的测试说明了一个问题,即每个人的立体视觉是不同的。用基 线距离为6 5 c m 立体摄像机对拍摄的图像对再现立体图像时,要使观看者与屏幕的 距离、观看的角度与拍摄时的条件相仿,才能使观看者舒服地欣赏到立体图像或 视频,否则,观看者很难产生立体感1 3 4 i 。即使调节眼球得到立体感,观看者长时 间观看极易产生疲倦感。因此,在拍摄过程中,需要根据观看条件精细调节立体 摄像机,这使得立体拍摄变得十分繁琐1 3 4 】。 6 网格基单目和立体视频编码及相关技术研究 1 2 。2 立体视频编码的研究历史、现状及发展方向 从上- , b 节的分析,我们了解了立体视觉的基本概念。目前,表示立体视觉 的关键词有两个:s t e r e o 和m u l t i v i e w 。s t e r e o 表示两路立体视频,是九十年代初期 以前立体电影和立体电视界普遍使用的一个概念,即在端对端视频链中,摄像、 传输及显示都有两个视频流,一个是左通道的,另一个是右通道的。m u l t i v i e w 表 示多目立体视频,是九十年代中后期提出的新概念,即在摄像、传输有三路以上 的视频,在显示端,依据观看者的头跟踪器所给定的观看位置和方位,从中选择 两路最合适的视频流用以显示。m u l t i v i e w 提供给观看者l o o k a r o u n d 能力,即可 以从各个角度观看立体场景,这符合人类观看立体场景的习惯,使观看者从被动 地观看变成了主动的观看。 三维电影产生于上个世纪的初期,几乎和电影的产生一样长。但大规模的商 业化却一直没有出现,原因就是技术的缺乏和立体质量的不够【3 4 1 。直到上世纪末 的九十年代,电视业务由模拟开始向数字转移,越来越多的研究者开始了3 d t v 的 研究,目标是建立面向这一领域的技术标准。欧洲十分重视这方面的研究,先后 启动了r a c ed i s t i m a ( d i g i t a ls t e r e o s c o p i ci m a g i n ga n da p p l i c a t i o n ) 计划,a c t s p a n o r a m a ( 全景图) 计划以及a t t e s t ( a d v a n c e dt h r e e d i m e n s i o n a lt e l e v i s i o n s y s t e mt e c h n o l o g i e s ) 计划,历时十余年之久【3 5 1 。 d i s t i m a 于1 9 9 5 年结束,完成了一个视点、两个信道单独编码的硬件。后又 于1 9 9 6 年1 月扩展成三个视点,四个信道单独编码的软件演示平台,信道要求为4 5 m b i t s 的a t m 网络,其中包括了解码端的一个头部位置检测器,用于控制在三 个视点中选择一个显示。该项目还进一步研究了运动+ 视差( d i s p a r i t y ) 补偿的联合 估计,并提出了分层双向时空补偿预测的概念【3 4 ,3 5 1 ,随后又将这些算法集成到了 原来的双信道和四信道的软硬件平台上。实验结果为,对于测试序列t f a i n ,所需 要的网络带宽可节省1 0 ,即从原来的2 5 m b s 或4 5 m b s 减少为2 x 4 5 m b s 或4 4 5 【b s 。 1 9 9 8 年启动的p a n o r a m a 研究计划的目标是视点可变化的三维视频会议系 统,其核心思想是按照观看者头部的位置合成出一对立体图像对,以增强现实感。 系统包括了视差分析、音视频及视差图压缩编码、以及在a t m 网络上的信号耦合、 传输、接收端的去耦合、解码和根据观看者头部位置信息的中间视点图像合成。 系统只需一对立体摄像机,但其间距不小于0 5 m ,因此不难理解其测试序列m a n 及a n n e 中立体图像对之间有很大视差的原因了。除了对左右两路视频进行 m p e g 2 压缩外,编码端还设有硬件的视差估计器实时产生稠密视差图,并对其压 缩编码后与左右两路独立的视频压缩码流耦合后进x a t m 信道。在解码端,去耦 第一章绪论 合并解压的三路信号进入内插器,内插器在头部跟踪器的控制下,实时计算出虚 拟的左右两路信号送入立体显示器。p a n o r a m a 也是第一个实施了基于深度图的 立体视频编解码方案的项目旧。 2 0 0 2 年3 月开始的a t t e s t 研究计划把深度图这一概念应用于3 d t v 视频处理 链上,其研究目标是在现有的广播环境下实现灵活的、商业上切实可行的、与2 d t v 兼容的3 d t v 系统。如图16 所示,a t t e s t 设计的码流语法结构与以前的方案完全 不同,其语法结构为一路视频作为2 d 基本层,加上同步的深度信息作为3 d 增强层。 这种可分级的( s c a l a b l e ) 码流结构便于解码端根据用户的需求生成常规的2 d t v 、可 变视点的2 d t v 和3 d t v 。 学术界和工业界坚信,3 d t v 是电视历史上的下一次重大革命口”。欧盟、m p e g 组织、各大厂商、研究机构和学校都十分重视3 d a v 方面的研究,试图在这一重大 商机上占据领先位置。这一业务的最基本的关键特性是交互性( h t e r a c t i v i t y ) 田l ,即 用户可随意改变观看角度观看三维场景,从而增强真实感,使其有身临其境的感 觉。目前,已有德国的h h i ( h e i m i c h - h e r t z - l n s f i t u t e ) 、p h i l i 嘴、日本的m e r l ( m i t s u b i s h i e l e c t r i cr e s e a r c hl 曲o r a t o r i e o 、n t t 、微软亚洲研究院及韩国的g l s t ( g w a n g j u i n s t i t u t e o f s c i e n c ea n d 豫h n o l o g ”展示过3 d 视频业务的原型产品。 赫 1 恐卜 n 【】 罴? 卜 0 口 0 口 十口 围16 a t t e ”分层的编码语法p 1 2 0 0 6 年4 b 在清华大学召开了第2 5 届p c s ( p i e t u r ec o d i n gs y m p o s i u m ) ,共有1 9 个有关m u l t i v i e w 的演讲和报告,其中开幕式的第一个主题演讲是r e v i e wa n d f u t u r ed i r e c t i o n sf o r3 d - v i d e o 。由此可以看出,视频编码界己把m u l t i v i e w 看作了 其现在和将来最重要的研究和发展方向。 烈烈i双烈:烈 网格基单目和立体视频编码及相关技术研究 这1 9 篇研究报告的分布如表1 1 。从中可以看出,基于深度的编码、合成、提 高编码效率等是m u l t i v i e w 的研究方向。 表1 1p c s2 0 0 6 中有关m u l t i v i e w 的论文分布 研究内容论文数量 基于深度的编码、合成 多视编码效率、随机访问性、g o p 、率失真 主题演讲 颜色校正 对象提取及编码 小波编码在3 d a v 上的应用 全息图编码 1 3 立体视频编码的标准化过程 1 3 1 单目视频编码的标准化过程简介 为了使图像视频编码技术实现产业化、实用化,国际标准化组织( i s o ) 、国际 电工委员会( i e c ) 和国际电信联盟( i t u t ) 组织了专门的专家组,包括i s o i e c 的联 合二值图像组( j b i g ) 、联合图像专家组( j p e g ) 、活动图像专家组( m p e g , s c 2 9 w g l l ) 、r r u t 的视频编码专家组( v c e g ) 和联合视频专家组( j v t ) ,分别推出 了一系列的图像视频编码标准f 8 ,3 9 4 6 1 。有关这些标准的演进历史有很好的总结 4 7 d 9 】,本文不再赘述。 继发布h 2 6 4 a v c 之后,j v t 又在最近几年公布了h 2 6 4 a v c 的多个增补案 ( a m e n d m e n t ) ,分别为扩展高保真压缩【5 0 1 、支持4 :4 :4 颜色格式档次【5 i 】、可分级视频 编码【5 2 l 和错误隐藏( e r r o rc o n c e a l m e n t ) 1 5 3 】。由此可见,视频编码标准的功能得到了 扩展,覆盖了高保真、3 g i p 移动通信和i n t e r n e t 条件下的可分级编码和错误隐藏。 从中反映出了3 g 移动通信及i n t e r n e t 对视频编码的巨大市场要求,从而必将引导视 频编码的研究方向。 值得提出的是,为了避免2 0 0 2 年中国d v d 企业所遭受的专利困扰情况再次发 生,摆脱国际专利壁垒对中国多媒体工业的发展限制,走出一条有利于我国数字 音视频产业发展的道路,我国于2 0 0 2 年6 月成立了音视频技术标准( a v s ) i 作组, 制定了国家标准a v s 5 4 】。该标准由针对移动视频的a v s m 和针对广播和d v d 的 a v s1 0 组成,压缩效率和h 2 6 4 的主要档次相当,而计算复杂度只有其6 0 7 0 , 可为国内制造商和普通用户节省大量的专利费用。 7 t , l l l 1 l 第一章绪论 9 1 3 2 多目立体视频的标准化进程 在充分认识至f j 3 d 音视频的重要性和巨大市场潜力后,m p e g 在2 0 0 1 年召开的 第5 8 次m p e g 会议上成立了3 d a v 特别小组( 3 da u d i ov i s u a la d h o cg r o u p ) 5 5 1 在 随后近二年的工作中,他们对3 d a v 作了需求分析,讨论了各种3 d a v 的应用场景, 确认了哪些功能在已有标准中可以完全实现;哪些功能在已有标准中可以部分实 现,但可以通过扩充改造后实现;哪些功能是全新的。例如,自由视点视频就被 认为是最不完整,最有挑战性的工作。在2 0 0 3 年第6 5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学生心理健康教育 课件 第七章 大学生健康恋爱及性心理的培养
- 应急安全体验馆培训课件
- 2024年浙江省东阳市中考物理高频难、易错点题(A卷)附答案详解
- 秋季腹部保暖与肠道功能关联研究
- 水利设施管养人员考前冲刺试卷附参考答案详解【夺分金卷】
- 2025自考专业(汉语言文学)复习提分资料带答案详解(典型题)
- 2024-2025学年计算机二级过关检测试卷附答案详解【B卷】
- 2025年教育行业并购动态:投资策略与整合路径研究报告
- 2025年老旧小区电梯加装工程社会效益分析报告
- 2025年工业互联网平台微服务架构性能测试报告:工业互联网平台在能源管理中的应用
- 乡镇综合行政执法队队长试用期满转正工作总结
- 2025天津医科大学眼科医院第三批招聘1人备考考试试题及答案解析
- 2025年法院书记员招聘考试笔试试题含答案
- 银行积分培训课件
- CPK、PPK和SPC(X-R控制图)模板
- 汉诺塔课件教学课件
- 校企合作实习生管理制度与考核办法
- 2025年二级建造师考试施工管理真题及答案
- 穿线施工方案(3篇)
- 光伏发电运行维护定期巡视检查项目和周期
- 特种设备(锅炉、压力容器)培训考试试题及答案
评论
0/150
提交评论