(信号与信息处理专业论文)多视点视频编解码和虚拟视点合成技术的研究.pdf_第1页
(信号与信息处理专业论文)多视点视频编解码和虚拟视点合成技术的研究.pdf_第2页
(信号与信息处理专业论文)多视点视频编解码和虚拟视点合成技术的研究.pdf_第3页
(信号与信息处理专业论文)多视点视频编解码和虚拟视点合成技术的研究.pdf_第4页
(信号与信息处理专业论文)多视点视频编解码和虚拟视点合成技术的研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

- 南京邮电大学 硕士学位论文摘要 学科、专业:王堂筐曼皇值:垦处理 研究方向:图像处堡皇多基签通信 作 者:盟级研究生塑避 指导教师:割蝰塾援亟昱 题 目:垒塑点趣题缠鲤鱼塑虐塑塑壶金盛夔盔的硒究 英文题目:r e s e a r c ho ne n c o d i n ga n d d e c o d i n gt e c h n o l o g ya n d 一 主题词:多视点视频编码,单循环解码,快速视点切换,虚拟视点合成 k e yw o r d s :m u l t i v i e wv i d e oc o d i n g ,s i n g l e - 1 0 0 pd e c o d i n g ,f a s tv i e w p o i n ts w i t c h i n g , v i r t u a lv i e ws y n t h e s i s 南京邮电大学硕士研究生学位论文 摘要 摘要 多视点视频是当前多媒体领域的研究热点,它是一种具有立体感和交互功能的视频序 列,用户在观看时可以任意改变视点或者视角,以实现对同一场景进行多方位体验。本论 文面向多视点视频的交互式应用,对影响视点交互时延的编解码技术以及虚拟视点合成技 术进行了研究。 论文首先对多视点视频的时间相关性和视点间相关性进行测试统计,结果表明:对于 大多数视频序列,时间相关性占主导地位。并由此提出了一种具有低时延随机访问性能的 多视点视频编码结构。该编码结构确定中间视点为基本视点,并将视差补偿预测用于关键 帧,而对非关键帧仅进行运动补偿预测编码。 其次,论文针对非关键帧的运动补偿预测编码,根据相邻视点间运动信息具有高度相 关性的原理,提出一种基于自适应运动矢量精细的m o t i o ns k i p 模式,该模式可得到当前编 码宏块更为精细的运动信息,从而提高了编码效率。 第三,在解码端,基于m o t i o ns k i p 模式的特点,论文提出了一种单循环解码技术, 即对参考视点中的关键帧进行完全解码,而对非关键帧只需进行解析得到运动信息用于解 码当前帧,使参考视点中的所有非关键帧都不需要进行运动补偿,从而降低了视点切换时 的时延。 最后,论文在j m v m 模型的基础上添加一个虚拟视点合成模块,使用户交互请求时不 需要增加辅助的视频流,直接使用联合编码后的码流进行虚拟视点合;将该虚拟视点合成 模块与上述提出的编解码方案相结合,虚拟视点序列同样以g o p 为单位,对其中的关键 帧和非关键帧运用不同的合成技术,对关键帧采用基于深度的亚像素精度绘制技术,而对 非关键帧则利用视频序列的时间相关性,进行基于运动补偿的绘制技术:最后针对图像遮 挡问题进行讨论并提出解决方案。论文提出的基于j m v m 的虚拟视点合成技术既保证合成 虚拟视点的质量又提高了其可行性和时效性。 关键词:多视点视频编码,单循环解码,快速视点切换,虚拟视点合成 a b s t r a c t m u l t i - v i e wv i d e o sw h i c hh a v es t e r e o s c o p i ca n di n t e r a c t i v ef e a t u 鹏sc a np r o v i d ev i e w e r s m t l l e w sf r o ms e v e r a ld i r e c t i o n s i t i sb e c o m i n go n eo ft h em 萄o r 锄麟o fm m t i m e d i a t e c h n i q u e sw h i c hc 锄p r o v i d eu s e r sw i t ha l ld i r e c t i o ne x p e r i e n c e s t h i sp 印e rf o c u s0 ne n c o d e a n dd e c o d e t e c h n i q u e s i nm u l t i v i e w sv i d e o s w h i c ha f f e c tt h ei n t e r a c t i v e d e l a yf o rt h e i n t e r a c t i v ea p p l i c a t i o n v i r t u a lv i e w s y n t h e s i si sa l s os t u d i e di nt h i sp a p e l t h em a i nw o r k so ft h i sp a p e r a r e 嬲f o l l o w s : f i 硎y t h et e m p o r a lc o r r e l a t i o na n di n t e r - v i e wc o r r e l a t i o ni s s t a t i s t i c a l l y 绷l y z e d t h e r e s u l ts h o w st h a tf o rm o s tv i d e os e q u e n c e s ,t h et e m p o r a lc o r r e l a t i o ni sd o m i n a n t a i m i l t i v i e w v i d e oc o d i n gs t r u c t u r ew i t hl o w - d e l a yr a n d o ma c c e s si sp r e s e n t e d ,i n w l l i c ht h em i d d l ev i e wi s s e l e c t e d 懿t h eb a s ev i e w d i s p a r i t yc o m p e n s a t i o n p r e d i c t i o ni su s e df o rk e y 觑吼e s ,w l l i l eo i l l y m o t i o nc o m p e n s a t i o np r e d i c t i o ni su s e df o rn o n - k e y f r a m e s e c o n d l y , am o t i o ns k i pm o d eb a s e do na d a p t i v em o t i o nv e c t o rr e 痂舱m e n ti sp r o p o s e d t 0 i m p r o v i n gt h ec o d i n ge f f i c i e n c yf o rn o n - k e yf r a m e sa c c o r d i n gt ot h eh i g hc o r r e l a t i o no f m o t i o n i n f o r m a t i o nb e t w e e na d j a c e n tv i e w s t h i sm o d ec a na c h i e v e f i n e rm o t i o ni 晌m l a t i o nf o r c 眦e n tc o d e dm a c r o b l o c k s o f n o n - k e yf r a m e sf o rm o t i o nc o m p e n s a t i o np r e d i c t i o nc o d i n g t h i r d l y , a tt h ed e c o d e r , as i n g l el o o pd e c o d i n gt e c h n i q u eb a s e do nt h ef e a t u r e so fm o d o n s k i pm o d ei sp r o p o s e d t oa c h i e v es i n g l el o o pd e c o d i n g ,t h ek e yl h m e so f r e f e r e n c e 、,i e w sa r e f u l l yd e c o d e d ,w h i l en o n - k e yf l a m e sa r eo n l y p a r s e df o rg e t t i n gm o t i o ni n f o 删o nf o rc u r r c n t p l c t u 把s ,8 0t h a ta l ln o n - k e yf r a m e si nt h er e f e r e n c ev i e w sd on o tn e e db em 嘶o n c o m p e 璐a t e d , w h i c hr e d u c e st h ed e l a yf o r s w i t c h i n gv i e w p o i n t a tl a 鸥av i r t u a lv i e ws y n t h e s i sm o d u l ei sa d d e dt oj m v m w h i c hc 觚s ”1 m e s i z ev i 巾】a l v i e w p o i n td i r e c t l yf r o mj o i n t l ye n c o d eb i t s t r e a m sw i t h o u ta d d i n g a u x i l i a r yv i d e os 他锄sw h 咖t i v i t yi sr e q u e s t e d a s s o c i a t i n gw i t ht h ee n c o d i n g - d e c o d i n gs c h e m e ,( i i 航r e n ts l n l e s i s t e c l l i l i q u e sa r ea p p l i e df o rk e yf l a m e sa n dn o n k e yf r a m e s t h ev i r t u a lv i e ws c q u e n c e st a k e g o pa sau n i t t h ek e yf r a m e si s i m p l e m e n t e dw i t hd e p t h b a s e do ft h es u b - p i x e lm a t c l l i n g 坨n d e r i n gt e c h n o l o g y , w h i l en o n - k e yf l a m e si s i m p l e m e n t e dr e n d e r i n gt e c h l l i q u eb 硒e do n m o t l o nc o m p e n s a t i o n a c c o r d i n gt ot e m p o r a lc o r r e l a t i o n so fv i d e os e q u e n c e s f i n a l l y t h e p r o b l e mo fi m a g eo c c l u s i o ni sd i s c u s s e da n dc o r r e s p o n d i n gs o l u t i o n sa r ep r o p o s e d n ev 洲 i t u i 南京邮电大学硕士研究生学位论文目录 目录 摘要i a b s t r a c t 二i i 目j 畏i v 第一章绪论1 1 1 多视点视频及其应用l 1 1 1 多视点视频1 1 1 2 多视点视频的应用2 1 2 多视点视频的关键技术5 1 2 1 多视点视频系统框架5 1 2 2 多视点视频编解码5 1 2 3 虚拟视点合成8 1 3 论文主要研究内容1 0 1 4 论文的章节安排。1 0 第二章基于h 2 6 4 a v c 的多视点视频编码1 2 2 1h 2 6 4 ,a v c 的关键技术1 3 2 1 1 帧内预测编码1 3 2 1 2 基于可变块尺寸的运动估计1 4 2 1 3 多参考帧预测技术1 6 2 2 多视点视频编码技术1 7 2 2 1 预测编码框架l7 2 2 2 视点间预测技术2 0 2 2 3j m v m 参考模型的多模式视频编码2 2 2 3 多视点视频编码性能评价准则2 3 2 3 1 编码效率。2 3 2 3 2 计算复杂度。2 4 2 3 3 随机访问性能2 5 2 4 本章小结2 5 第三章快速视点切换的多视点视频编解码技术2 6 3 1 多视点视频时间和视点问相关性分析2 6 3 2 低时延随机访问的多视点视频预测编码技术2 8 3 2 1 关键帧的视点间参考关系2 8 3 2 2 非关键帧的视点间参考关系2 9 3 2 3 自适应运动矢量精细化的m o t i o ns u p 模式3 0 3 3 多视点视频解码技术3 3 3 3 1 时间优先的解码端帧重排技术。3 3 3 3 2 单循环多视点视频解码技术3 5 3 4 实验结果及分析3 6 3 4 1 测试序列及编码条件3 6 3 4 2 率失真性能及计算复杂度比较3 7 3 4 3 随机访问评价4 0 3 5 本章小结4 1 南京邮电大学硕士研究生学位论文目录 第四章多视点视频的虚拟视点合成技术4 2 4 1 基于深度的图像绘制技术4 2 4 1 1 摄像机参数4 3 4 1 2 深度的获取。4 5 4 1 3 亚像素精度图像绘制技术4 6 4 2 一种新颖的基于视频序列的虚拟视点合成技术。4 7 4 2 1 虚拟视点合成框架4 7 4 2 2 图像遮挡问题讨论与处理4 9 4 3 实验结果及分析5 2 4 4 本章小结。5 5 第五章总结与展望5 6 5 1 总结:5 6 5 2 展望。5 7 j g c谢5 8 攻读硕士学位期间的学术论文5 9 攻读硕士学位期间参加的科研项目6 0 参考文献。6 l v 南京邮电大学硕士研究生学位论文 第一章绪论 1 1 多视点视频及其应用 1 1 1 多视点视频 ,第一章绪论 多媒体应用的发展历经了文本、图形图像、音频、视频的过程,随着宽带网络的普及 和多媒体相关技术的发展,下一代多媒体应用将朝着网络化、交互性和真实感的方向发展。 目前人们已不满足于被动地接受和欣赏视听节目,而是一方面希望能够充分参与到应用 中,人和计算机的关系从被动发展为主动,从而能充分实现每个人的个性化需求;另一方 面则希望能获得更加真实的场景体验和感受。多视点视频是针对能实现这些需求的交互式 多媒体应用提出的,其所涵盖的双目立体视频与多视点视频播放将在未来几年中实用化, 它将解决3 d 交互视频的表现、交互、存储和传输等问题i l 羽。 多视点视频是由多个摄像机从不同视点对同一个场景拍摄获取的一组视频信号,图1 1 为一个多视点视频系统的应用实例示意图。多视点视频一方面作为较单视点视频提供更多 信息内容和具有更多数据量的数据媒体,能够给用户提供三维的场景体验和感受,具有强 烈的立体感和深度感,达到逼真的效果,使用户仿佛置身于场景中;另一方面,多视点视 频能够提供与场景的交互能力,用户可以自己选择在场景中的视点,如在体育比赛中,有 多个摄像机从不同视点同步拍摄,通过计算机的合成,用户可以在一定范围内从任意一个 角度观看,同时可以实现视点的自由切换。m p e g 组织在上世纪的九十年代末提出了多视 点视频的设想,在2 0 0 1 年1 2 月探索性草案中提出了3 d 音视频标准( 3 d a v ,3 da u d i o v i d e o ) ,并组建了专门负责三维视频和音频技术研究的3 d a v 研究小组他们针对视频技术 研究进行探索实验,分别面向全景视频、交互式立体视频、交互式多视点视频等视频研究 方向,涵盖了如通信、教育、医疗、探险、观光、娱乐和监视等多媒体应用领域【2 捌。 系统( w a l l ( t l l r o u g b ) 应用。为了获得不同视点的全面图像信息,场景图像建模的结果形式通 常包括全景图、光场数据库、深度图像和多投影中心图等形式,其中全景图是其中最常用 且简单的一种。全景图的构建是大部分成熟虚拟场景图像建模技术的基础和核心,按投影 2 南京邮电大学硕士研究生学位论文 。 第一章绪论 方式又可以分为立方体面全景图、球面全景图和圆柱面全景图【5 1 。 盖 厂口、 一一( ) 一 弋口 了 图l - 2 全景视频摄像机示意图 2 3 d 视频3 d 电视( 3 d v 3 d t v ) 3 d v 3 d t v 主要是指提供具有强烈立体感和深度感的立体多视点视频业务,可以看作 是立体电影的扩展。在立体电影中,所有观众看到的是同样的立体画面。而3 d v 3 d t v 在 播放时,观众观看到的画面内容与其所处的位置有关,这是由于3 d v 3 d t v 利用人眼双目 视差原理,使用两个摄像机从两个不同视点获取描述同一场景的两幅图像( 称为立体图像 对) ,再把这两个图像分别呈现给人的左右眼,大脑通过处理左视和右视图像间的视差,感 知图像内景物的深度信息,使用户仿佛置身于真实场景之中,从而能得到三维的场景体验 和感受。3 d v 3 d t v 主要应用于广播业务,这种应用环境一般不要求支持交互性,立体电 视将能成为未来3 d v 3 d t v 领域一个巨大的市场。 图1 3 给出一个3 d v 3 d t v 系统框图旧,输入视频为由多个摄像机捕获的多视点视频, 摄像机可以以平行或汇聚的方式摆放,多视点视频编码器对这些视频进行压缩编码并通过 信道进行传送,终端用户可能为不同的显示形式,例如,2 d t v h d t v 、立体电视等, 3 d v 3 d t v 也支持多个视点。根据用户显示需求的不同,解码端可以选择解码一个或多个 视点送至显示终端。对于传统的2 d 显示终端,接收到一个视点的视频数据后可以直接进 行显示。而对于立体视频终端,需要获得两个视点的视频数据用于立体显示。多视点视频 终端则需要获得多个视点的视频数据用于3 d 视频显示。 。 图1 33 d t v 系统框图 3 南京邮电大学硕士研究生学位论文第一章绪论 3 自由视点视频自由视点电视( f w 哪 f v v f t v 是一种新的交互式多媒体,用户可以在摄像机阵列的拍摄范围内自由改变观 看的视点和视角以控制所看到的内容,并且看到的内容具有立体效果。因此,f 、r v 具 有广阔的应用前景,大致可以分为以下几个方面【6 j : 1 ) 娱乐音乐会,体育运动,多人游戏,电影,戏剧,新闻。 2 ) 教育文化遗产保存,医疗诊断。 3 ) 观光动物园,水族馆,植物园,博物馆真实显示。 4 ) 监控十字路口的交通监视,银行监控,危险设施全方位监控。, 图1 4 显示了f 、,v f 的解码框架,解码端的输入码流中包含多视点视频基本信息, 视频资源管理信息,摄像机参数信息和时间信息。在这个框架中,多视点解码器能提供解 码视点合成时所需要的视频数据,并且在解码过程中要利用摄像机参数信息,而视频资源 管理信息用来帮助解码器更有效地管理解码图像的内存空间以及生成高质量的预测图像。 最后,根据解码得到的视频数据和相应的摄像机参数信息完成视点图像的合成。 共享内存空间 图l - 4 f 1 v 解码端的基本框架 在兀v f 、应用中,可以根据用户所处位置显示相应角度的图像,当用户进行视点 切换时,看到的内容会出现相应的变化,从而得到了“运动视差 和“环视的效果。人 眼生理视觉研究表明,人眼对场景画面变化的辨别能力非常强,为得到自然平滑的运动视 差效果,双眼距离内需要提供超过1 0 幅的画面内容,因此,需要使用非常稠密的摄像机 来获得多视点视频序列。然而这样系统太复杂,实际很难实现。在实际的应用中,为降低 视点视频的数据量,f 1 v f w 系统通常使用稍微稀疏的摄像机阵列拍摄该视点的视频图 像,在解码端解码得到这些由摄像机摄取的真实视点图像后,根据用户需要利用这些解码 得到的真实视点图像合成当前虚拟视点的图像。为同时获得水平和垂直方向的运动视差效 果,多视点视频需要二维摄像机阵列来采集,考虑到复杂度,目前的测试序列大都只提供 水平方向的运动视差效果,使用水平一维摄像机阵列获得。在f 、椰中,用户只需要 部分的视点图像来合成当前虚拟视点的图像,因此,解码器只需要解码该部分视点图像, 4 南京邮电大学硕士研究生学位论文 第一章绪论 这就需要多视点视频的码流具有一定部分视点解码的功能。 1 2 多视点视频的关键技术 1 2 1 多视点视频系统框架 多视点视频系统包括视频采集、场景表现、编码压缩、传输与分发、解码、视点合成 与显示几个部分 6 1 ,其系统框架如图1 5 所示。摄像机阵列采集到的多视点视频送入多视 点编码器进行编码,编码得到的码流通过网络传输到达接收端后,解码器解码出多视点视 频信号,根据用户所选择的视点进行视点合成,最后将合成的信号送到播放设备进行显示。 由于多视点视频与单视点视频相比会带来视频数据的急剧增加,使得视频数据的存储和传 输变得十分困难,所以多视点视频编码是多视点视频系统实现的一个重要环节。而在关注 编码效率之外,交互式性能是多视点视频需要关注的另一个关键技术。多视点视频的交互 式性能能使用户在一定范围的场景中自由选择视点和视角,在场景中漫游不仅能在从摄像 机捕获的真实图像,同时可以从这些真实视频中合成虚拟的视点图像,这就叫做虚拟视点 合成技术;另外用户从一个视点切换到另一个视点需要能实现快速的自由切换,也就是低 时延随机访问性能。因为多视点视频系统框架各部分之间具有很强的相关性,例如编码策 略的不同将会影响交互显示中用户的随机访问性能。因此,对于多视点视频的交互式性能 而言,多视点视频编解码方案和虚拟视点合成技术是十分重要的,下面就这两方面技术进 行详述。 1 2 2 多视点视频编解码 图1 5 多视点视频系统框架 高效的多视点视频编解码是多视点视频研究的关键技术,在编码端多路视点的数据必 须利用本视点的时间冗余和多视点之间的空间冗余来大幅度降低用于传输和存储的码流, 与传统视频码流相比,增加的数据应当不超过一定的上限,以增加多视点视频应用的可用 性;同时编码体系还要考虑解码端基于视点的解码需求,能够在有限增加解码系统复杂度 的前提下支持用户进行交互地选择视点和视角。 由于多视点视频是双目立体视频的拓展, 5 大部分的立体视频编码方法经过延伸都可以 南京邮电大学硕士研究生学位论文 第一苹绪论 直接用于多视点视频。目前的立体视频编码方案中,一般的做法是使用运动补偿预测技术 消除视频序列时间方向的冗余,同时利用视差补偿预测技术进一步去除各个视点之间的冗 余。近年来许多研究者针对不同的视差估计和运动估计方法提出了多种编码方法。根据视 差和运动估计的方法不同,传统的立体视频编码方法可以归纳为基于“块 的编码方法和 基于“对象 的编码方法两大类。 ( 1 ) 基于块的立体视频编码方法 基于块的编码方法利用立体图像对之间的相对关系,首先把左视点图像当作参考图 像,利用视频编码标准m p e g - x h 2 6 x 对其进行单独编码。然后对右视点图像利用混合块 匹配编码方法【8 】,在利用右图像的参考帧进行运动补偿预测的情况下,同时利用左图像进 行视差补偿预测,并通过某种匹配准则找到其最佳的匹配块,两者之间的位置差异为运动 矢量或视差矢量。经常使用的匹配准则有:均方误差准贝i j ( m s e ) 和绝对误差准n ( m a e ) 。 最后再对编码位移差异值和立体残差图像进行编码。 基于块的立体视频编码最重要的环节是运动或视差匹配估计算法,其中运动估计或视 差估计的准确程度直接影响整个编码的精度和效率。因此按照编码中使用的匹配块尺寸是 否可变把这类算法又细分为固定块尺寸匹配( f s b m ) 算法、可变块尺寸匹配( v s b m ) 算法两 种。图1 6 为基于块的立体视频编码方案的结构框图。 左视点 右视点 图l - 6 基于块的立体视频编码方案 基于块编码方法的优点是算法简单、稳健性高,易与硬件实现,但会出现块效应,在 低比特率下重建图像的主观视觉效果很差。但h 2 6 4 a v c 的去块效应滤波器可以很好的去 除块效应。 ( 2 ) 基于对象的立体视频编码方法 基于对象的视频压缩首先要将图像中的物体或物体的不同部分进行区分。单路视频实 现这一目标比较困难,通常利用物体的运动参数、物体间亮度和纹理的差异等进行分割, 但效果不佳。而立体图像序列除了可利用单路运动图像的分割方法外,还可利用立体图像 中的深度信息进行图像的对象分割。对图像进行对象分割后,较为简单的做法就是将不同 6 7 南京邮电大学硕士研究生学位论文 第一章绪论 1 2 3 虚拟视点合成 多视点视频是一种新型的交互式多媒体技术,观众可以在一定范围内任意选择视点和 角度观看视频内容。在多视点视频采集端,可以根据需要放置一系列摄像机:如果让观众 在3 6 0 度任何一个角度都可以选择观看场景,则需要将摄像机围绕场景摆放成一个圆圈; 如果观众只需要较小角度的选择范围,则可将摄像机在场景前摆放成一个半圆或者弧形甚 至是直线。由于受存储和传输条件限制,不可能在所有位置都放上一个摄像机,只能在一 些采样点上放置摄像机进行拍摄,然后利用两个或者多个采样点上摄像机的视频和摄像机 参数信息合成虚拟视点的图像。如图1 - 8 ( a ) 所示,场景周围放置了1 2 个摄像机进行拍摄。 在接收端,如果不采用任何技术,观看者只能从1 2 个不同的地点和视角进行选择。如图 1 8 ( b ) 所示,通过图像合成技术合成1 2 个虚拟视点的图像后,观看者就可以从2 4 个不同 的视点和视角中进行选择。 _ 真实拍摄视点 _ 虚拟合成视点 o ) t 2 个摄像机对场景进行拍摄接收端合成1 2 个虚拟摄像机的视图 图i - 8 视图合成技术的应用简介 虚拟视点合成技术是基于多视点视频中相邻真实视点图像之间具有高度相关性提出 的,虚拟视点图合成技术使得场景漫游、自由视点和三维视觉效果都成为可能。目前,实 现视点合成主要依靠以下三种手段来实现:基于三维模型绘$ 1 ( m o d e l b a s e dr e n d e r i n g ,m b r ) o v 、基于图像绘制( i n l a g e - b a s e dr e n d e r i n g ,m r ) b s - 2 0 以及基于视频绘制( v i d e 0 - b 嬲e d r e n d e r i n g ,v b r ) 1 2 1 1 ,其中v b r 技术是对i b r 技术的延伸。在基于模型绘制的方法中,使 用两幅或者多幅图像,首先建立精确的三维几何模型,然后通过三维模型在虚拟视点的位 置上投影来获得新的虚拟视图;它依靠传统的绘制手段来实现,包括模型变换、视点变换 和消隐等。m b r 技术有两个主要缺点【1 7 】:1 ) 高质量的绘制需要高精度的三维物体模型,然 而即使对于简单的景物,高精确的三维建模也是一项具有挑战的任务,对于复杂的景物更 是难以完成;2 ) 计算费时,实时性差,绘制时间取决于物体的复杂性,因此并不适合在实 时多视点视频中应用。 8 南京邮电大学硕士研究生学位论文 第一苹绪论 i b r 技术着重在从图像中生成新的虚拟图像,取代了之前的三维模型。i b r 由于是直 接从图像到图像的绘制过程,所绘制出的图像具有照片般真实( p h o t o r c a l i s t i c ) 的特点:并且 i b r 技术不需要复杂的建模过程,只需要对已获得的图像进行重新采样,即可绘制新的图 像,因而绘制速度快,相对m b r 技术而言可以满足实时性的要求。i b r 技术根据是否采 用几何信息以及采用几何信息的多少可分成以下三类【1 9 】:完全利用几何信息的i b r 技术、 部分利用几何信息的i b r 技术和完全不利用几何信息的i b r 技术。根据1 b r 中所用到的 几何信息的多少进行分类的方法,各种i b r 技术在基于几何的传统图形学和基于图像的绘 制技术之间搭起一座桥梁:从完全利用几何信息的纹理映射,部分利用几何信息的视图插 值、变形技术,到完全不利用几何信息的光场技术组成一个连续的谱带。 完全不利用几何信息的绘制技术相当于把问题从恢复几何工作的过程转移给了数据 采样工作过程,用大量的样本数据来避免几何信息。然而海量的数据给存储和传输带来困 难,并且在具体实现中,有遮挡关系的全视函数的建立仍然存在着很大的困难。基于几何 模型的i b r 技术实质上是以完全的几何信息关系为基础,重点在于模型的建立。可以隐含 的借助传统的计算机图形学上的许多成果,使用比较方便。但是也受到传统的图形学所面 临困难得困扰。比如,真实场景的建模极为困难,显示真实度和速度上仍存在一些问题。 部分利用几何信息的i b r 技术是把源图像看出一系列具有对应关系的像素几何,以深度或 视差数据的形式利用场景的几何信息。通过对参考图像的插值变形或像素投影转移来产生 新的虚拟视图,它直接利用参考图像合成新的视图,完全不使用场景中物体的几何信息, 计算量较基于几何的绘制小,可以有比较快的计算速度,此外,此技术能绘制出真实感的 图像,所以,部分利用几何信息的i b r 是目前广泛应用的图像绘制技术之一。 近几年来,i b r 技术的操作对象已从静态场景改进到动态场景,进而出现了处理视频 图像的v b r 技术。v b r 技术的提出是基于对i b r 基本概念的拓展,使用动态视频数据作 为输入,生成动态交互的虚拟环境。最早的v b r 技术是k a n a d e 等人瞄】提出的虚拟现实, 首先由5 1 台摄像机获取视频流;接着计算每台摄像机的每一帧来提取深度图进行图像绘 制,由于数据量的巨大,这个预处理步骤将会花费很多时间;最后由适当的摄像机重建图 像合成一些新的视点。之后g o l d l u c k e d 等人四1 以及z i t n i c k 等人刚延续了这种方法。 g o l d l u c k c d 等人瞄】利用1 0 0 台摄像机并实时的创建场景的新视点。z t h i c k 等人洲利用8 台 摄像机实时地提供高质量图像,利用分割法得到深度图并利用一个分级图像描述技术来进 行图像绘制。此外,w i b u m 等人【2 5 】利用光流来代替深度图来提供1 0 0 台摄像机的实时绘制。 f r a n c o 和b o y e r 利用一个视觉体( v i s u a lh u l l s ) 方法从6 个摄像机中绘制新的虚拟视点( 2 6 1 。 9 。+ 南京邮电大学硕士研究生学位论文第一章绪论 1 3 论文主要研究内容 本文针对多视点视频的交互式特性,对影响视点切换时延的多视点视频编码技术和虚 拟视点合成技术进行了研究。本文所做的工作描述如下: ( 1 ) 对基于h 2 6 4 a v c 的多视点视频编解码技术和其相关参考模型j m v m ( j o i n t m u l t i v i e wv i d e om o d e l ) 进行深入的研究。 ( 2 ) 分析了不同视频序列时间和视点间的相关性,提出了一种改进的低时延视点随机访 问性能的多视点视频预测编码技术。 “ ( 3 ) 根据视点间参考图像的运动信息具有高度相关性原理,提出了一种基于自适应运动 矢量精细的m o t i o ns k i p 模式的算法,使当前编码宏块得到更为精确的运动矢量,最终提 高编码效率。 ( 4 ) 对多视点视频的解码技术进行研究,提出了一种单循环多视点视频解码技术,减少 视点的切换时延,从而提高多视点视频的交互式性能。 ( 5 ) 研究了基于视频序列的虚拟视点合成技术,并在j m v m 模型中加入虚拟视点合成 模块,把虚拟视点合成与整个多视点视频系统的编解码结合起来,将虚拟视点的图像以图 像组g o p 为单位,分为关键帧和非关键帧,利用视频序列具有时间相关性的特性,对关 键帧和非关键利用不同的合成技术,既保证合成虚拟视点的合成质量又实现了合成时效性 的性能。 1 4 论文的章节安排 全文共分为六个章节,内容组织如下: 第一章:绪论。本章阐述了多视点视频的背景、意义、应用前景以及交互式应用中需 要关注的关键技术进行了介绍和分析。最后给出了本文研究内容以及论文的章节安排。 第二章:基于h 2 6 4 a v c 的多视点视频编码。本章首先介绍了h 2 6 4 1 a v c 中适合于多 视点视频编码的几种关键技术,接着分析了目前已提出的多视点视频预测编码结构、视点 问编码技术,并研究了基于h 2 6 4 a v c 的j m v m 模型,最后给出评价多视点视频编码性能 的评价标准。 第三章:快速视点切换的多视点视频编解码技术。本章首先对多视点视频相关性进行 测试分析;其次根据分析结果,针对视点切换时要求低时延的视点随机访问性能,提出了 能实现快速视点切换的多视点视频编码预测框架;并根据视点间图像的运动信息具有高度 1 0 南京邮电大学硕士研究生学位论文第一苹绪论 相关性原理,对非关键帧图像运用基于自适应运动矢量精细的m o t i o ns k i p 模式来优化其运 动补偿预测性能;最后根据提出的编码方案,提出了一种单循环多视点解码技术,使多视 点视频能实现视点的快速切换。 第四章:多视点视频的虚拟视点合成技术。在j m v m 模型的基础上增加了虚拟视点合 成模块,针对基于视频序列的虚拟视点合成技术,把虚拟视点的图像以图像组g o p 为单位, 分为关键帧和非关键帧,利用视频序列具有时间相关性的特性,并为保证合成虚拟视点的 质量以及时效性的要求,提出了针对对虚拟视点中关键帧和非关键利用不同的合成技术, 并对图像的遮挡问题进行讨论并提出了解决方法。 第五章:总结与展望,对全文工作进行总结,并对该课题进一步研究的重点方向进行 展望。 南京邮电大学硕士研究生学位论文 第二章基于h 2 6 4 a v c 的多视点视频编码 第二章基于h 2 6 4 a v c 的多视点视频编码 与当前普通视频相比,多视点视频的数据量随着摄像机数目的增加而线性地增加,使 得它的存贮和传输变得十分困难,必须对其进行高效的压缩。因此,多视点视频编码 伽u l t i v i e wv i d e oc o d i n g ,m v c ) 也成为多视点视频系统处理流程中的关键部分。多视点视 频隐含着更多的可压缩信息,除了同一视点内存在时间相关性外,相邻视点之间也存在着 空间相关性。因此,为了进一步提高视频压缩性能,需要仔细考虑和合理利用在多视点视 频序列中存在的这些特性,在图像质量和传输比特数之间进行权衡。 目前为提高视频编码效率,国际电联i t u - t 的视频编码专家组v c e g ( v i d e oc o d i n g e x p e r tg r o u p ) 和国际标准化组织i s o i e c 的运动图像专家组m p e g ( m o t i o np i c t u r ee x p e r t g r o u p ) 尸开发出多种视频编码标准,主要有面向低码率实时视频通信的h 2 6 x 系列以及面 向视频存储、视频广播和流媒体等应用的m p e g - x 系列,其中由这两大专家组组成的联合 视频组j 、丌于2 0 0 3 年5 月提出的h 2 6 4 a v c ( 也成为m p e g - 4 第1 0 部分) ,同以往的视频 压缩编码标准相比在编码效率上有很大的提高,这是因为它不仅保留了m p e g x 和h 2 6 x 视频编码标准所具有的特点,而且运用了多种新技术,比如帧内预测编码、可变尺寸块的 运动补偿技术、多参考帧图像预测、改进的s k i p 和d i r e c t 参考模式以及新的环路滤波技术 等,并引入了网络提取层( n e t w o r ka b s t r a c tl a y e r , n a l ) 的概念,具有更高的压缩效率和网 络亲和性。另外,h 2 6 乱a v c 草案中包含了用于差错控制的功能,便于压缩视频流在误码 和丢包多发环境中的传输,从而提高了其传输的鲁棒性。所以基于h 2 6 4 标准的立体视频 编码方案更有可能突破立体视频在存储和传输上的难关。 正由于h 2 6 4 的高压缩性能以及其传输的鲁棒性,j 、吓将现阶段的m v c 研究和标准 化工作定义为h 2 6 4 a v c 的一个重要扩展,并于第7 7 次m p e g 会议上正式发布了m v c 的软件参考模型j m v m ( j o i n tm u l t i v i e wv i d e om o d e l ) 【2 4 】,并将该模型作为后续技术提案的 公共测试平台以衡量各技术提案的编码效益,研究过程中关于m v c 的研究成果的实现和 测试工作均在j m v m 平台上进行。 本章首先介绍了h 2 6 4 a v c 更适合于多视点视频编码的几种关键技术,接着分析目前 已提出的多种多视点视频预测编码结构和视点间编码技术,并研究基于h 2 6 4 a v c 的 j m v m 模型以及基于该模型的多模式视频编码,最后介绍了评价m v c 性能的评价准则。 1 2 ,甫京邮电大学硕士研究生学位论文 第二章基于h 2 6 4 a v c 的多视点视频编码 2 1h 2 6 4 a v c 的关键技术 图2 1 为h 2 6 4 a v c 的编码器结构跚,h 2 6 4 a v c 在编码框架上沿用以往运动补偿加 变换编码的混合结构,因此它保留了一些先前标准的特点,如不受限制的运动矢量 ( u n r e s t r i c t e dm o t i o nv e c t o r s ) ,对运动矢量进行中值预测等。此外,h 2 6 4 a v c 使用了一些 新的技术,使得其比之前的视频编码标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论