(通信与信息系统专业论文)三维视频编码技术研究.pdf_第1页
(通信与信息系统专业论文)三维视频编码技术研究.pdf_第2页
(通信与信息系统专业论文)三维视频编码技术研究.pdf_第3页
(通信与信息系统专业论文)三维视频编码技术研究.pdf_第4页
(通信与信息系统专业论文)三维视频编码技术研究.pdf_第5页
已阅读5页,还剩107页未读 继续免费阅读

(通信与信息系统专业论文)三维视频编码技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 三维视频使用户能够自由选择观看的视点与视角,并体验三维视觉感知,可 广泛应用于三维电视、娱乐、视频通话、视频监控、艺术展览、教育、医疗和军 事等各个领域。典型的三维视频数据包括多视点视频与相应的深度图像序列。三 维视频信息量巨大,是制约其应用的瓶颈,因此三维视频压缩技术成为近几年的 研究热点,尤其是基于h 2 6 4 a v c 标准的三维视频编码标准化工作成为运动图像 专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ,m p e g ) 近年来的主要活动内容之一。 本论文深入研究了基于h 2 6 4 a v c 的三维视频压缩编码方法及相关技术,主 要研究内容与成果如下: 1 提出一种基于深度特征的多视点视频图像区域分割算法,并可同时估计得 到每一个图像区域的视差。已有基于深度特征的区域分割算法的一个共同特点是 需要先估计得到基于像素或图像块的视差场,再分割得到不同深度层区域。提出 的算法能够避免计算和分割图像视差场,直接提取图像中各对象的深度特征计算 得到区域视差,并基于这些区域视差进行图像分割得到不同深度层次区域。 2 总结与分析了已有的普通视频与可伸缩视频的运动信息预测编码方法,提 出一种多视点视频视点间运动预测编码方法- 基于精细粒度运动匹配的视点间 运动跳过模式。运动跳过模式是一种已有的视点间预测编码技术,它能够节省编 码宏块运动信息所需的比特开销,提高多视点视频编码总体效率。提出的精细粒 度运动匹配方法在邻近视点图像中搜索得到当前编码宏块的最优运动信息,再将 该运动信息用于视点间运动跳过模式,从而显著改进已有运动跳过模式的编码效 率。该项技术已被联合视频小组( j o i n tv i d e ot e a m ,t ) 纳入多视点视频编码 参考软件。 3 视频图像与对应深度图像间具有极强的相关性,表现为对象边界的相似性 和对象运动的相似性。因此本论文提出一种视频深度联合预测编码方法,包括视 频深度运动信息复制与视频深度运动信息预测两种机制,可在编码深度图像过 程中重用视频图像编码产生的运动信息,从而提高深度图像压缩效率。此外,对 多视点视频深度联合预测编码结构进行了初步研究,设计出一种预测结构能够将 已有各种预测编码工具纳入其中,灵活使用这些工具可以有效去除各种冗余信息。 4 视频编码预处理能够消除或降低视频图像采集过程中引入的各种噪声和畸 变失真,改善视频图像质量,并能提高后续的视频压缩编码效率。本论文对其中 的自动曝光功能进行了深入研究,提出种基于图像亮度直方图的自动曝光控制 方法。算法从亮度直方图分布中推导得到不感兴趣区域,为这些不感兴趣区域分 配相对较小的权值来降低它在计算加权均值时所占的比重,从而将曝光重点放在 三维视频编码技术研究 用户感兴趣区域达到优化图像亮度效果的目的。 关键词:三维视频编码多视点视频编码深度图像编码 基于深度图像分割自动曝光控制 a b s t r a c t ab s t r a c t t h r e e - d i m e n s i o n a lv i d e oe n a b l e sv i e w e r st of r e e l yc h o o s ea na r b i t r a r yv i e w p o i n t a n dv i e w i n gd i r e c t i o n ,a n dp r o v i d e st h r e e d i m e n s i o n a lv i s u a lp e r c e p t i o nt ov i e w e r s i t c a l lf i n dw i d ea p p l i c a t i o n si nt h r e e d i m e n s i o n a lt e l e v i s i o n ,e n t e r t a i n m e n t s ,v i d e op h o n e , v i d e os u r v e i l l a n c e ,e x h i b i t i o n ,e d u c a t i o n ,m e d i c a lc a r ea n dm i l i t a r yf i e l d t y p i c a l t h r e e - - d i m e n s i o n a lv i d e od a t ai sc o m p r i s e do fm u l t i - v i e wv i d e oa n dc o r r e s p o n d i n g d e p t hi m a g es e q u e n c e s 1 1 1 eh u g ea m o u n to fi n f o r m a t i o ni nt h r e e d i m e n s i o n a lv i d e oi s o n eo ft h ek e ye n a b l i n gf a c t o r sf o ri t sw i d ea p p l i c a t i o n s t h e r e f o r e ,k i n d so f t h r e e d i m e n s i o n a lv i d e oc o m p r e s s i o nt e c h n i q u e sh a v eb e e ni n t e n s i v e l ys t u d i e di n r e c e n ty e a r s e s p e c i a l l y , t h es t a n d a r d i z a t i o no fh 2 6 4 a v cb a s e dt h r e e - d i m e n s i o n a l v i d e oc o d i n gs c h e m eh a sr e c e n t l yb e c o m eo n eo ft h em a i na c t i v i t i e so fm o v i n gp i c t u r e e x p e r t sg r o u p ( m p e g ) t h i sd i s s e r t a t i o n i n v e s t i g a t e s h 2 6 4 a v cb a s e dt h r e e - d i m e n s i o n a lv i d e o c o m p r e s s i o na l g o r i t h m sa n dr e l a t e dt e c h n i q u e s m a j o rc o n t r i b u t i o n so ft h i sd i s s e r t a t i o n a r es u m m a r i z e da sf o l l o w s : 1 ad e p t hb a s e di m a g er e g i o np a r t i t i o n i n gm e t h o di sp r o p o s e df o rm u l t i - v i e w v i d e o ,州t 1 1w h i c ht h ed i s p a r i t yo fe a c hi m a g er e g i o nc a nb ee s t i m a t e ds i m u l t a n e o u s l y e x i s t i n gd e p t hb a s e dr e g i o np a r t i t i o n i n ga l g o r i t h m ss h a r eo n ec h a r a c t e r i s t i c :p i x e l w i s e o rb l o c k - w i s ed e p t hd i s p a r i t yf i e l dn e e d st ob e e s t i m a t e df i r s t l y , a n dt h e nr e g i o n p a r t i t i o n i n gi sp e r f o r m e db yc l a s s i f y i n gt h e s ep i x e l so rb l o c k si n t od i f f e r e n tg r o u p s d i s t i n g u i s h e df r o mt h e s ea l g o r i t h m s ,t h ep r o p o s e da l g o r i t h mc a l ld i r e c t l yg e ta n e s t i m a t i o no ft h ed i s p a r i t yf o re a c ho ft h er e g i o n sw i t l ld i f f e r e n td e p t hc h a r a c t e r i s t i c s t h e nr e g i o np a r t i t i o n i n gi sp e r f o r m e db ys p e c i f y i n ga no p t i m a ld i s p a r i t yf r o mt h e e s t i m a t e dr e g i o n a ld i s p a r i t i e sf o re a c hb l o c ki nt h ei m a g e 2 e x i s t i n gp r e d i c t i v ec o d i n gm e t h o d sf o rm o t i o ni n f o r m a t i o ni no r d i n a r yt w o d i m e n s i o n a lv i d e oc o d i n ga n ds c a l a b l ev i d e oc o d i n gs c h e m e sa r es u m m a r i z e da n d a n a l y z e df i r s t l y t h e n a ni n t e r - v i e wm o t i o n p r e d i c t i v ec o d i n gm e t h o d ,i e , f i n e g r a n u l a rm o t i o nm a t c h i n gb a s e dm o t i o ns k i p p e dc o d i n gm o d ei sp r o p o s e df o r m u l t i v i e wv i d e oc o d i n g m o t i o ns k i pm o d ei sa ne x i s t i n gi n t e r - v i e wm o t i o np r e d i c t i v e c o d i n gm e t h o d ,w i t hw h i c ht h eb i t sf o rc o d i n gm o t i o ni n f o r m a t i o no fam a c r o b l o c kc a n b es a v e d ,h e n c et h ec o m p r e s s i o ne f f i c i e n c yo fm u l t i v i e wv i d e oc o d i n gc a l lb e i m p r o v e d t h ep r o p o s e df i n e - g r a n u l a rm o t i o nm a t c h i n ga l g o r i t h ms e a r c h e st h e 三维视频编码技术研究 _ 一一 e n c o d e dn e i g h b o r i n gv i e w sf o rt h em o t i o nt h a tm a t c h e st h em o t i o no ft h ec o d i n g m a c r o b l o c kb e s t a n dt h e nu s e st h eb e s tm a t c h i n gm o t i o ni n f o r m a t i o ni nt h ee x i s t i n g m o t i o ns k i pm o d e t h e r e f o r e ,t h ec o d i n ge f f i c i e n c yo ft h ee x i s t i n gm o t i o ns k i pm o d e c a nb es i g n i f i c a n t l yi m p r o v e d t h ep r o p o s e dt e c h n i q u eh a db e e na d o p t e di n t o t h e r e f e r e n c es o f t w a r eo fm u l t i v i e wv i d e oc o d i n gb yj o i n tv i d e ot e a m ( t ) 3 t h e r ea r es t r o n gs i m i l a r i t i e sb e t w e e nv i d e op i c t u r e sa n dc o r r e s p o n d i n gd e p t h i m a g e si nt h ea s p e c t so fc o n t o u ra n dm o t i o no f v i d e oo b j e c t s t oe x p l o i tt h i sk i n do f r e d u n d a n c y , aj o i n tv i d e o - d e p t hc o d i n g s c h e m ei sp r o p o s e dt or e u s et h em o t i o n i n f o n n a t i o no fe n c o d e dv i d e op i c t u r e si nt h ec o d i n go fc o r r e s p o n d i n gd e p t hi m a g e sb y t w om o t i o nr e u s i n gm e c h a n i s m s ,i e ,m o t i o ni n f o r m a t i o nc o p ya n d m o t i o ni n f o r m a t i o n p r e d i c t i o n i na d d i t i o n , w ea l s om a d eap r e l i m i n a r yi n v e s t i g a t i o n o nt h ep r e d i c t i o n 姗c 眦o fi o i n tm u l t i v i e wv i d e o - d e p t hc o d i n g ,a n dp r o p o s e dap r e d i c t i o ns t r u c t u r e t h a tc a l li n c o r p o r a t ev a r i o u se x i s t i n gc o d i n gt o o l st h a tc a l lb eu s e dt or e m o v ea l lk i n d s o fr e d u n d a n c i e si nm u l t i v i e wv i d e oa n dd e p t hd a t a 4 v i d e op r e p r o c e s s i n gp r i o rt ov i d e oc o d i n gc a r lb eu s e dt or e m o v eo rr e d u c e v a r i o u sn o i s e sa n dd i s t o r t i o n si n t r o d u t e di n t h ev i d e oc a p t u r i n gp r o c e s s ,a n dc a l l e n h a l n c et h ee f f i c i e n c yo fs u b s e q u e n tv i d e oc o d i n g a u t o m a t i ce x p o s u r ec o n t r o l ( a e c ) , o n eo ft h em o s ti m p o r t a n tv i d e op r e p r o c e s s i n gt e c h n i q u e s ,i s s t u d i e di nt h e d i s s e n a t i o n a n dal u m i n a n c eh i s t o g r a mb a s e da e cs c h e m ei sp r o p o s e d t h ep r o p o s e d a l g o r i t h mf m d so u tr e g i o n s o f - n o i n t e r e s t s ( r o n i ) i nac a p t u r e dv i d e op i c t u r eb a s e d o n 也el u m i n a n c eh i s t o g r a md i s t r i b u t i o n , a n dp u t st h ee m p h a s i so fe x p o s u r eo n r e g i o n s - o f - i n t e r e s t s ( r o t ) b ya s s i g n i n gar e l a t i v e l y s m a l lw e i g h t i n gf a c t o rf o rr 0 1 w h e nc a l c u l a t i n gl u m i n a n c ea v e r a g e t h e r e f o r e ,t h ee x p o s u r eo fc a p t u r e d v i d e o p i c t u r e si so p t i m i z e d k e y w o r d s :t h r e e d i m e n s i o n a lv i d e oc o d i n g m u l t i - v i e wv i d e oc o d i n g d e p t hi m a g ec o d i n g d e p t hb a s e di m a g er e g i o np a r t i t i o n i n g a u t o m a t i ce x p o s u r ec o n t r o l 声明 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:监塑遮 日期= 关于论文使用授权的说明 2 。c i c 8 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间,论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本人签名: 导师签名: 栖淘涛 日期:堡互:鱼:堑 日期垫竺皇:g 第一章绪论 第一章绪论 1 1 引言 现有普通二维视频图像无法向用户提供三维视觉。换言之,观看者不能从中 获得自然的深度信息,而是依据近大远小的透视原理以及人类对物体相对大小的 先验知识等有限的三维视觉线索推断场景中各对象的远近深度关系。此外,观看 者所处的空间位置视点,与所选取的观看角度视角,由摄像机的三维空 间位置与方向决定,而不能任意选择。 为使用户能够自由选择观看的视点与视角,体验三维视觉感知,三维视频应 运而生。三维视频可广泛应用于三维电视、娱乐、视频通话、视频监控、艺术展 览、教育、医疗和军事等各领域,极大地丰富现有媒体内容,给人们带来全新视 觉体验。许多研究机构对三维视频系统及相关技术进行了深入研列卜4 j ,主要包括 三维视频采集与处理,编码与传输,描述与显示三个方面。为规范和领导三维视 频相关产业发展,视频标准化组织运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p , m p e g ) 也从2 0 0 2 年起开始研究三维视频编、解码技术【5 】,并启动相关标准化进 程。 传统视频图像编码技术,如m p e g x 系列与h 2 6 x 系列编码标准,经过十几年 的发展,已经获得了巨大成功,其最新标准为h 2 6 4 a v c 。该标准由m p e g 与国 际电信联盟标准化部门 ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r ,i n j - t ) 的视频编码专家组( v i d e oc o d i n g e x p e r tg r o u p ,v c e g ) 所组成的联合视频小组( j o i n tv i d e ot e a m ,t ) 制定, 具有卓越的压缩编码性能以及良好的网络适配性,并已被广泛应用于当前各种视 频与多媒体终端产品。因此,基于传统视频编码标准,特别是h 2 6 4 a v c 的三维 视频图像压缩编码技术成为近几年的研究热点。这是三维视频系统中的关键技术, 也是本论文的主要研究内容。 本章主要介绍论文研究背景与研究内容,安排如下:1 2 节简单介绍三维视觉 原理;l - 3 节给出三维视频系统结构,介绍系统各组成部分,并简单回顾三维视频 系统研究进展:1 4 节总结并分析已有三维视频编码相关技术:1 5 节介绍本论文 组织结构和主要研究成果。 三维视频编技术研究 1 2 三维视觉原理 人类视觉系统具有深度感知( d e p t hp e r c e p t i o n ) 能力,能够依靠一系列感知信 息( p e r c e p t u a lc u e s ) ,获取外部环境深度信息,形成三维视觉。而所使用的感知 信息可分为单目感知信息( m o n o c u l a rc u e s ) 与双目感知信息( b i n o c u l a rc u e s ) 两 类。 单目感知信息可以帮助人们理解普通二维图像,在头脑中还原三维场景。单 目感知信息主要包括: 运动视差( m o t i o np a r a l l a x ) 在不同位置观察目标物体时,因视点与视角的改变,导致观察结果产生 的位移或变化。例如当在飞驰的火车上观察窗外景物时,近景快速移动,而 远景保持近似静止状态。 透视( p e r s p e c t i v e ) 表现为两条平行线在无限远处汇聚,能够帮助人们按照近大远小的原则 简单判断相对距离。 相对大小( r e l a t i v es i z e ) 指基于熟悉物体大小的先验知识,按照观察到物体的大小估计距离。 大气灰霾( d i s t a n c ef o g ) 由于大气对光的散射作用,物体亮度、对比度、色饱和度随距离增加而 降低。 遮挡( o c c l u s i o n ) 指近距离物体对远距离物体的遮挡现象,能够帮助人们判断物体相对距 离。 眼调节( o c u l a ra c c o m m o d a t i o n ) 指目标物体到观察位置距离改变时,眼睛自动聚焦于目标物体的过程, 此时眼内肌( i n t r a o c u l a r m u s c l e s ) 收缩与舒张的感知可帮助视觉系统估计距 离。 若要直接向人类视觉感知系统提供逼真的三维图像,还需要提供一系列双目 感知信息,这主要包括下面两点: 双目视差( b i n o c u l a rp a r a l l a x ) 使用两眼分别观察目标物体时,因两只眼视点与视角的差异,导致观察 结果产生的位移或变化。 眼汇聚( o c u l a rc o n v e r g e n c e ) 目标物体到观察位置的距离改变时,双眼同时聚焦于目标物体的过程, 第一章绪论 此时眼外肌( e x t r a o c u l a rm u s c l e s ) 收缩与舒张的感知可帮助视觉系统估计距 离。 普通二维平面视频图像无法提供运动视差、双目视差、眼调节、眼汇聚等重 要的三维视觉感知信息。而三维视频系统正是通过提供部分重要的三维视觉感知 信息,给人们带来逼真的三维视觉体验。 1 3 三维视频系统概述 1 3 1 三维视频系统结构与各功能模块 三维视频( t h r e e d i m e n s i o n a lv i d e o ,3 d v ) 系统指从三维视频采集、处理、 编码、传输、直至三维视图描述生成、显示的一个完整系统,涉及信号处理、压 缩编码、网络通信、计算机图形学、计算机视觉、光电子等多个研究领域 6 - 7 1 。3 d v 系统可典型应用于三维电视( t h r e e d i m e n s i o n a lt e l e v i s i o n ,3 d t v ) 与任意视点 电视( f r e e v i e w p o i n tt e l e v i s i o n ,f t v ) 。3 d t v 主要通过提供双目视差给观看者 带来立体视觉感知。与3 d t v 不同,f t v 的特点是能够向观看者提供交互操作功 能,即根据观看者视点、视角改变显示对应的视频图像,从而提供运动视差。然 而,现在对于3 d v 系统的需求是同时提供双目立体视差、运动视差等能够表征深 度、距离的感知信息,并具有一定的交互操作功能。 由于3 d v 系统是对于已有普通二维视频系统的升级,因此必须考虑兼容性问 题。这里引入前向兼容与后向兼容两个概念。前向兼容指3 d v 系统能够接收普通 二维视频压缩码流并正确解码播放;而后向兼容指普通二维视频系统能够从3 d v 压缩码流中解析得到二维视频信号,并正确解码显示。 r i 3 一d v 磊一 系统 i 巨辨懂 匿h 虱l 。i 广一i l 岖匡m 丑水习 图1 13 d v 系统结构示例 图1 1 为般性的3 d v 系统结构示例【6 】【引。设计3 d v 系统,首先需要确定三 维场景表示方法,即确定三维视频格式。随后,可以对应地设计3 d v 系统其余部 分,其中首先是三维信息采集。为提高采集得到信号质量,使其有利于后续的压 缩编码以及描述( r e n d e r i n g ) 与显示,通常需要对其进行各种预处理操作。接着 需要在发送端执行三维重建、深度估计等各种操作,将采集得到的视频信号表示 4 三维视频编码技术研究 为具有预先设定数据格式的视频信号。随后需根据三维信息表示方法选择对应的 压缩编码方法,而传输策略也需依据信道特点制定。在3 d v 系统终端则需首先解 码接收到的信号,再按照用户要求描述生成指定视点视频图像,最后通过特定的 三维显示设备呈现给观看者。 1 3 1 1 三维视频格式 已有三维视频格式包括双目立体视频( s t e r e ov i d e o ) 、多视点视频( m u l t i v i e w v i d e o ) 、单视点视频+ 深度( s i n g l ev i d e op l u sd e p t h ) 、多视点视频+ 深度( m u l t i v i e w v i d e op l u sd e p t h ) 等。 双目立体视频是最简单的三维视频格式,由分别代表左、右眼的双摄像机系 统拍摄得到的两路普通二维视频信号组成。由于在系统终端只能够获得固定两路 视频信号,因此用户无法改变观看视点与视角,调节深度感。 为克服双目立体视频格式的缺点,可使用多摄像机阵列拍摄得到的多路视频 信号表示三维场景信息,称为多视点视频。该三维信息格式的优点在于能够提供 更完整的三维场景信息,具有较宽视点与视角范围,还可使用基于图像描述( i m a g e b a s e d r e n d e r i n g ,i b r ) 技术【9 j 在系统终端生成任意视点虚拟图像。缺点是只有基 于空间密集采样的多视点视频才可以使用i b r 技术生成高质量虚拟视图,而这会 大大增加多视点视频数据量。 为减小三维视频数据量,可使用一路普通二维视频和与之同步的深度图像序 列一起表示三维场景信息,称为单视点视频+ 深度。若使用该三维视频格式,则 可在3 d v 系统终端使用基于深度图像描述( d e p t h - i m a g e b a s e dr e n d e r i n g ,d i b r ) 技术【lo 】生成一定视角范围内任意视点视频,从而支持多种三维显示设备。此外, 将视频作为基本层,使用已有二维视频编码标准编码,而将深度作为增强层独立 编码的方案还能够使基于该三维信息格式的3 d v 系统具有后向兼容的优点。然 而,因为仅传输一路视频信号,3 d v 终端仅能在很小的空间范围内生成虚拟视点 视图,主要集中在所传输单路视频视点附近。且仅使用一路视频信号时无法获取 被遮挡的场景信息,因此合成虚拟视点视频质量较差。 为使3 d v 终端在较大视角范围内的任意视点生成高质量虚拟视图,并且不需 要编码、传输空间密集采样的海量多视点视频数据,可使用在多个稀疏视点位置 摄像机拍摄得到的多视点视频和与之对应的多视点深度图像序列来表示三维场景 信息,称为多视点视频+ 深度。该格式可与多视图自由立体显示器配合,使用户 能够自由选择观看视点,并同时提供双目视差与运动视差。 1 3 1 2 三维视频采集与处理 双目立体视频信号与多视点视频信号可使用不同空间排列方式的多摄像机阵 第一章绪沦 列采集得到。需要注意,在使用多摄像机阵列采集视频信号时需要对各摄像机进 行标定( c a l i b r a t i o n ) 与同步( s y n c h r o n i z a t i o n ) 操作。标定的目的是确定每一个 摄像机的几何参数,同步的目的是为保证所有摄像机在相同的时刻进行图像帧采 集,从而得到时间对齐的多视点视频信号。为提高采集得到信号质量,使其有利 于后续的压缩编码以及描述与显示,通常需要对其进行各种预处理操作。例如, 不同视点视频信号间可能存在亮度、锐度、色度等方面的差异。因此需要进行自 动曝光、自动聚焦、自动白平衡等视频预处理操作来提高多视点视频一致性。 除视频信号外,还需进行深度信息采集。深度信息采集可大致分为主动法和 被动法两类。主动法指使用z c m n t m 培各种深度摄像机,首先将红外光脉冲等 信号投射到待测量场景,再测量接收到反射信号所需的时间从而计算得到深度数 据。被动法指从普通摄像机采集的单视点视频或多视点视频中恢复深度信息【l 2 。 目前主要使用计算机视觉中的立体匹配( s t e r e om a t c h i n g ) 技术【l3 1 ,从多视点视图 中计算得到稠密视差场,再基于视差与深度的反比关系以及摄像机几何参数,从 视差计算得到场景深度信息。使用深度摄像机采集到的深度图通常质量较差,需 要使用空洞填充、错误数据校正、基于对象中值滤波,时间去噪等处理操作得到 高质量深度图引。使用立体匹配算法估计得到的深度图通常也质量较差,主要表 现在对象边缘区域估计不准确,低纹理区域估计不稳定。因此除使用上述深度图 像处理方法外,还可以使用亚像素精度深度估计,时间一致性平滑滤波等方法进 一步提高深度图像质量【l 引。 1 3 1 3 三维视频编码与传输 三维视频数据量庞大,需要进行高效的压缩编码。目前主要基于已有视频图 像编码标准,例如m p e g x 与h 2 6 x 系列标准对三维视频进行压缩。视频编码 标准化工作的目的是设计统一的视频媒体表示方法与压缩码流格式,从而实现全 世界不同厂家视频产品的兼容性,促进产业健康发展。m p e g 与v c e g 等组织一 直进行三维视频编码标准化工作,这里做简要介绍。 早在1 9 9 6 年,m p e g 就在m p e g 2 视频压缩编码标准中定义了m u l t i v i e w p r o f i l e ( m v p ) 1 6 1 ,用于压缩双目立体视频。m v p 在位移补偿混合编码框架下对 运动补偿预测编码进行扩展,利用时间分层( t e m p o r a ls c a l a b i l i t y ,t s ) 编码模 式隐含地定义了视差补偿预测编码用于去除视点间冗余。具体地说,t s 模式将原 有视频中时间分辨率( 即帧率) 进行下采样得到的视频图像看作基本层,将其余 视频图像看作增强层,首先使用m p e g 2 编码基本层,再使用基本层对增强层进 行预测编码。与此类似,m v p 将双目立体视频其中一路视频信号作为基本层,另 一路视频信号作为增强层,这样就可以使用m p e g 2 已有语法对双目立体视频进 行压缩编码。 6 三维视频编码技术研究 为了向用户提供交互式操作的功能,需要传输深度信息以便于在解码端支持 任意视点高质量虚拟视图合成。欧洲先进三维电视系统技术( a d v a n c e d t h r e e d i m e n s i o n a lt e l e v i s i o ns y s t e mt e c h n o l o g i e s ,a t t e s t ) 项目1 1 7 j 对此做了初 步探索。与此同时,m p e g 的3 d a v ( 3 da u d i ov i s u a l ) 小组i l8 j 也对深度图像的 压缩编码以及虚拟视图合成技术进行了初步探索【l9 1 。研究表明,可对深度图像进 行较大程度的有损压缩编码而不影响合成虚拟视图质量。此外,可使用m p e g - 4 视频对象平面( v i d e oo b j e c tp l a n e s ,v o p s ) 或m p e g 4 动画框架扩展( a n i m a t i o n f r a m e w o r ke x t e n s i o n ,a f x ) 中定义的分层深度图( l a y e r e dd e p t hm a p ,l d i ) 来表示双目立体视频中的隐藏( 遮挡) 信息。m p e g - 4 中还定义了多重辅助组件 ( m u l t i p l ea u x i l i a r yc o m p o n e n t s , m a c ) 2 0 】用于进一步描述视频对象平面内的 透明度、深度等信息等附加信息。 基于需求分析以及前期的探索研究,多视点视频被广泛认为是3 d v 系统中有 效的三维场景表示方法,因此m p e g3 d a v 小组于2 0 0 4 年开始准备多视点视频 编码( m u l t i v i e wv i d e oc o d i n g ,m v c ) 的标准化工作1 2 l j 。2 0 0 5 年,3 d a v 小组 开始接受m v c 相关技术提案,标志着m v c 的标准化工作正式开始。2 0 0 6 年, m p e g 决定将m v c 作为扩展部分加入h 2 6 4 a v c 标准之中,并将标准化工作移 交t 。自此,在每三个月一次的t 会议中,国内外研究机构纷纷提交技术提 案,不断改进m v c 参考软件模型j m v m ( j o i n tm u l t i v i e wv i d e om o d e l ) 1 2 2 j 。m v c 标准化工作已于2 0 0 8 年初步完成,并起草得到联合草案【2 ”。出于标准化工作计 划以及市场接受度方面的考虑,目前h 2 6 4 a v c 的m v c 扩展部分仅包含s l i c e 级 及以上部分的改动【2 4 】,而不包括宏块及以下部分相关技术。在结束m v c 标准化 工作后,m p e g 又开始研究三维视频系统中其余各环节的关键技术,目前主要集 中在深度估计与虚拟视图合成两个方面,同时也对多视点视频+ 深度格式数据的 压缩编码方法进行了初步探索【2 5 1 。 三维视频编码结束后需要传输到3 d v 系统终端。三维视频传输技术发展经历 了模拟广播、数字广播、与基于i p 网络的流传输三个阶段1 2 6 1 。随着i p 网络传输 技术的蓬勃发展,在互联网传输视频媒体成为研究热点,并已出现了视频点播 ( v i d e oo nd e m a n d ,v o d ) 服务。与此同时,也已出现2 5 g 与3 g 移动通信网 络中基于i p 的视频服务。视频流传输的三个主要方面:传输协议,速率适配与分 配,错误校正与掩盖。这里不再赘述。 1 3 1 4 三维视频描述与显示 如1 3 1 1 节所述,i b r 技术能够基于一组图像在空间任意视点重建高质量三 维场景。按照描述过程中是否使用空间几何信息( g e o m e t r i ci n f o r m a t i o n ) 以及使 用多少空间几何信息,文献1 2 7 0 2 8 1 将已有i b r 技术分为三类:无几何信息( n o 第一章绪论 7 g e o m e t r y ) 描述、隐含几何信息( i m p l i c i tg e o m e t r y ) 描述、与明确几何信息( e x p l i c i t g e o m e t r y ) 描述。 无几何信息描述中的典型技术为光场( 1 i g h tf i e l d ) 描述与光图( 1 u m i g r a p h ) 描述。这类方法通常需要大量摄像机组成的多摄像机阵列对三维场景进行密集采 样,再通过滤波与插值生成新视点图像。隐含几何信息描述并不需要建立三维场 景模型与摄像机模型,仅需要确定多视点图像间的对应关系( c o r r e s p o n d e n c e ) 。 这样就可以使用视图插值( v i e wi n t e r p o l a t i o n ) 、视图变形( v i e wm o r p h i n g ) 等方 法从多视图中生成新视图。多视点图像间的对应关系需要使用计算机视觉中的立 体匹配技术确定。明确几何信息描述需要的几何信息包括多摄像机阵列中每个摄 像机的参数与三维场景深度信息。这样就可以使用对三维场景稀疏采样得到的多 视点图像在给定范围内生成任意视点虚拟图像。这类算法典型代表为1 3 1 1 节中 提到的d i b r 技术。 为使用最少的采样进行高质量、无混叠的新视图描述,文献【2 9 】研究了基于图 像描述中的采样特性,指出视图采样密度与几何采样密度互为补充。换言之,为 避免对三维场景进行密集采样来进行无几何信息描述,可使用对三维场景稀疏采 样得到的多视点视频与对应的深度信息,即多视点视频+ 深度格式的数据使用明 确几何信息描述技术生成任意视点虚拟图像。这样做能够在减轻由于空间密集采 样引起的海量视频信息采集、处理、编码、传输负担。 d i b r 指基于深度数据与摄像机参数,将位于三维空间某视点与视角的摄像机 c 。成像平面中的图像投影到三维空间,接着再投影到具有不同视点与视角的另一 个摄像机的成像平面的过程。由于包含两个连续的步骤,即二维转三维投影与 三维转z - 维投影,因此又被称为三维变换( 3 dw a r p i n g ) 1 o 】。该方法计算复杂度 低,合成虚拟图像质量高,因此成为研究热点。目前,存在多种改进算法3 m 3 甜, 而m p e g 的3 d v 小组也正在研究相关技术1 2 5 1 。下面简要三维图像变换所需的摄 像机参数与三维变换流程。 基于针孔摄像机模型( p i n h o l ec a l t l e r am o d e l ) 1 3 3 】,摄像机参数可分为内部参 数与外部参数【3 4 l 。 内部参数使用矩阵彳表示, r 正 , 巳 a = 10 c ,i ( 1 - 1 ) 【- 0 6 1 j 其中,正与乃是以像素为单位的焦距;( 巳,c ,) 是光轴与成像平面交点,即基准点 ( p r i n c i p l ep o i n t ) 的坐标,通常位于图像中心;,i 为径向失真( r a d i a ld i s t o r t i o n ) 系数,表示像素偏歪程度。 8 三维视频编码技术研究 r = 墨3至! 耋 c 2 , 丁= 【,y ,t :】7 物理意义上,内部参数规定了摄像机自身的几

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论