




已阅读5页,还剩47页未读, 继续免费阅读
(通信与信息系统专业论文)多视点视频编码和虚拟视图合成技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 任意视点电视是一种新型的交互式三维电视,它允许用户自由选择观看的视 点视频,并能实现立体视频的播放。本文重点研究了任意视点电视系统中的两个 重要模块一多视点视频编码和虚拟视图的合成。 与传统的单视点视频编码相比,除了视点内图像的时间冗余,多视点视频编 码还需根据多视点视频视点间图像的相关性特征,引入视点问预测以消除视点间 图像的冗余。本文详细介绍了多视点视频编码的时间视点间混合参考预测结构, 提出评价此结构随机访问性能的数学模型。利用这套数学模型,本文结合压缩效 率进一步研究了参考预测结构的随机访问性能与图像组长度的变化关系,总结出 编码时选择图像组长度应遵循的原则。另外,由于多视点视频编码引入视点间预 测,提高了编码复杂度,降低了多视点视频的随机访问性能。因此,本文对参考 预测结构的视点间预测关系作了一些修改,限制某些图像预测编码时参考图像的 选取范围。在几乎不影响编码效率的情况下极大地降低了编码复杂度,改善了随 机访问性能。 对于虚拟视图合成模块,本文的研究工作主要在光线空间领域进行。文中根 据光线空间数据的方向性特征,提出两种光线空间插值算法,分别是基于行的方 向检测插值算法和基于滑动窗口的方向检测插值算法。这两种插值方法分别从不 同程度上消除了图像纵向边界的重影,可以获得较清晰的纹理,而且降低了方向 检测时的计算复杂度,节省了运行时间。 关键词:任意视点电视多视点视频编码预测结构光线空间插值 a b s t r a c t f r e ev i e w p o i n tt vi san e wi n t e r a c t i v e3 d t v , w h i c ha l l o w su s e r s t oc h o o s et h e i r o w nv i e w p o i n t sf r e e l y , a n dc a np r e s e n t3 dv i d e o i nt h ep a p e r , t w oi m p o r t a n tm o d u l e s f o rm u l t i v i e wv i d e oc o d i n ga n dv i r t u a lv i e w p o i n ts y s t h e s i si nt h ef r e ev i e w p o i n tt v s y s t e m ,a r em a i n l y s t u d i e d a c o d i n gg a i nc a l lb ea c h i e v e df o rm u l t i v i e wv i d e oc o d i n gb yu s i n gi n t e r - v i e w p r e d i c t i o n ,w h i c hi sc o m p a r e dw i t ht r a d i t i o n a lm o n o v i e wv i d e oc o d i n g i nt h ep a p e r , i t sr e f e r e n c ep r e d i c t i o ns t r u c t u r ei sd e s c r i b e d ,a n dam a t h e m a t i c a lm o d e l i sp r o p o s e dt o a n a l y z et h er a n d o ma c c e s sp e r f o r m a n c eo ft h i sp r e d i c t i o ns t r u c t t t r e m o r e o v e r , b a s e d o nt h eg i v e nm o d e l ,t h er e l a t i o no ft h er a n d o ma c c e s sp e r f o r m a n c ea n dt h el e n g t ho f t h eg r o u po fp i c t u r e si ss t u d i e dw i t ht h ec o d i n ge f f i c e n c y , a n dt h e nt h ew a yh o w t o d e t e r m i n et h el e n g t ho ft h eg r o u po fp i c t u r e si sf o u n d h o w e v e r , t h ea d d i t i o n a l - i n t e r - v i e wp r e d i c t i o ni nt h er e f e r e n c ep r e d i c t i o ns t r u c t u r ec a u s e st h ec o d i n gc o m p l e x i t y o fm u l f i v i e wv i d e oc o d i n gi n c r e a s e da n dt h er a n d o ma c c e s sp e r f o r m a n c ed e c r e a s e d i n t h i sp a p e r , s o m ec h a n g e sa r em a d et ot h er e f e r e n c ep r e d i c t i o ns t r u c t u r eb yr e s t r i c t i n g t h es e l e c t i o no fr e f e r e n c ep i c t u r e s ,w h i c hr e s u l t si nl o w e rc o d i n gc o m p l e x i t ya n d i m p r o v e m e n to nt h er a n d o ma c c e s sp e r f o r m a n c ea tt h e c o s to fr a r ec o d i n gl o s s t h es t u d yo nt h ev i r t u a lv i e w p o i n ts y s t h e s i si sc a r r i e do u t i n r a y - s p a c e c o n s i d e r i n gt h ed i r e c t i o n a l i t i e so ft h er a y - s p a c er e p r e s e n t a t i o n ,t w on o v e li n t e r p o l a t i o n m e t h o d sa lep r o p o s e d ,o n eo fw h i c hi sb a s e do nr o wa n dt h eo t h e ri sb a s e do ns l i d i n g w i n d o w t h ee x p e r i m e n t a lr e s u l t sh a v es h o w nt h a tl e s sc o m p u t i n gc o m p l e x i t yc a l lb e a c h i e v e da n do p e r a t i n gt i m ec a nb es a v e d m o r e o v e r , t h er e n d e r e dp i c t u r e sa r ec l e a r e r w i t hr a t h e rs m a l lf o l d o v e ri nl e n g t h w i s eb o u n d a r yt os o m ee x t e n t k e y w o r d s :f r e ev i e w p o i n tt v m u l t i v i e wv i d e oc o d i n g p r e d i c t i o ns t r u c t u r e r a y s p a c ei n t e r p o l a t i o n 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 一 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:垦二重日期塑,垒旦! 1 9 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。 本人签名: 导师签名: 良蔷 日期兰! ! 生! 皇竖粤 日期 堋辱3 目1 3 日 第一章绪论 第一章绪论弟一早珀t 匕 图像和视频可以更直观、更生动地反映客观世界的事物和场景。电视实现了 人们观看远方世界的梦想,长期以来在视频播放领域占据着主导地位,电视技术 发展的历史是视频技术发展一个不可忽视的重要方面。然而,传统的电视向用户 仅提供一个观看三维世界的视点,并且这个视点由拍摄摄像机的位置和其拍摄角 度决定,与人们在电视机前的位置无关。 随着社会的蓬勃发展和人类意识的进步,人们已远远不满足从传统的二维播 放型视频业务中被动地获取信息。特别是,近年来宽带技术的迅速发展,终端处 理能力的大幅度提高,计算机视觉、计算机图形学和传统视频编码技术的相互融 合、相互渗透,使得能够提供三维视觉感受和交互特性的多视点视频( m u l t i v i e w v i d e o ,m v v ) 的实现成为可能,越来越受到学术界和工业界的关注,成为目前 视频领域的研究热点之一【lj 。 多视点视频是由多个摄像机从不同位置对准同一场景拍摄得到的一组视频信 号,图1 1 给出平行的多视点视频采集系统示例。多视点视频中包含丰富的三维 信息,是针对新一代交互式多媒体应用提出的。与传统单视点视频相比,多视点 视频能够更生动地再现自然场景,给人身临其境的感觉,主要用于三维电视和任 意视点电视等新型媒体。 平行相机阵列 键2 = = 一 拍摄场景 图1 。1 平行的多视点视频采集系统示意图 任意视点电视( f r e ev i e w p o i n tt v ,f t v ) 是多视点视频的一项重要应用。它 不仅可以利用多个视点视频信息合成立体视频对象,还能够使得观看者在一定范 围内自由地切换观看的视点和方向【l 】。 f t v 是信号处理领域的一个新的前沿,涉及多视点视频编码和虚拟视点图像 生成等诸多方面。特别是基于光线空间的f t v 系统,信号处理在多维光线空间进 一 (占门u,上门ui上=u,占nu,上nu 2 多视点视频编码和虚拟视图合成技术的研究 行,完全不同于传统的电视系统。另外,f t v 系统还需要充分利用三维空间信息 为用户设计一个公共接口,以完成用户与这种新型媒体之间的交互。 作为一种3 d 电视终端,f t v 需要更优良的设计和更高性能的装备,推动了 电子工业的发展:作为下一代t v ,它在通信、娱乐、广告、教育、医疗、艺术 等领域开拓了一些新的业务;作为一种维护社会安全的信息基础设施,它可以加 强公共设施、交通、车辆、学校和工厂的安全保障【2 】。 多视点视频编码( m u l t i v i e wv i d e oc o d i n g ,m v c ) 是f t v 系统实现的一个重 要环节。用于多视点视频采集的摄像机越多,供用户切换的虚拟视图的合成效果 越好,但数据量也随之线性增加,加重了系统处理、编码和网络传输的负担,成 为制约f t v 应用实现的瓶颈。因此m v c 是f t v 中的一项关键技术,主要功能 是高效地压缩多路视频,提高编码效率。目前国际标准化组织一联合视频编码小 组( j o i n tv i d e ot e a m ,t ) 正对m v c 进行研究和标准化,其将被扩展为 h 2 6 4 a v c 的第四个修正案【3 】。与单视点视频编码类似,m v c 可以利用视点内图 像的时间相关性进行时域的压缩以去除时域上的数据冗余。另外,由于各视点对 准的是同一场景,视点间图像存在很大的相似性,因此m v c 还引入了视点间预 测以去除空间上的数据冗余,进一步提高了压缩效率。然而,这种时域视点间混 合预测结构增加了图像间的解码相关性,增加了随机访问视频序列中任一帧所需 的平均解码代价和时延,使得用户进行视点切换的随机访问性能恶化【4 】。本文首 先给出一套评价m v c 参考预测结构随机访问性能的数学模型,并利用该模型结 合编码效率分析了其随机访问性能随预测结构中图像组( g r o u po f p i c t u r e s ,g o p ) 长度的变化趋势,总结出确定多视点视频g o p 长度应遵循的原则。针对参考预测 结构随机访问性能差这个问题,本文提出了一种改进的预测结构,该结构通过对 参考预测结构做适当的修改,在编码效率几乎不受影响的情况下,降低了编解码 复杂度,改善了多视点视频的随机访问性能。 f t v 的另一项关键技术是虚拟视图的合成。要获得流畅地视点切换,需要使 用非常稠密的摄像机阵列,这在实际中很难实现,因此可以尝试在两个真实的摄 像机视频间合成出可供用户选择的虚拟视点视频。2 0 0 1 年1 2 月第5 8 次m p e g 会议上成立的3 d a v 特别小组( 3 da u d i ov i s u a la dh o cg r o u p ) 【5 】目前研究的两种 虚拟视图合成方法分别基于视频图像和3 d 模型重建【1 1 。本文虚拟视点视频的合 成部分是逐幅图像在图像域进行的,因此文中提到的虚拟视图的生成即虚拟视点 视频的合成。本文提出了两种在光线空间中进行的虚拟视图插值方法,从不同程 度上消除了图像纵向边界的重影和毛刺,可以获得较清晰的纹理,同时降低了虚 拟图像生成过程中搜索插值匹配点对的计算复杂度,节省了运行时间。 本文重点研究f t v 系统中的m v c 和基于光线空间的虚拟视图插值两项技术, 各章内容安排如下: 第一章绪论 第二章简要介绍f t v 的相关知识; 第三章首先给出m v c 的基本概念和功能需求,接着针对m v c 参考编码预测 结构介绍其评价指标,提出评价随机访问性能的数学模型和改进的预测结构; 第四章在简要介绍几种已有的图像生成技术后,给出本文提出的两种光线空 间虚拟视图生成方法,分别是基于行的方向检测插值算法和基于滑动窗口的方向 检测光插值算法: 最后是对论文的总结和对f t v 发展的展望。 第二章f t v 概述 5 第二章f t v 概述 运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ,m p e g ) 2 0 0 1 年1 2 月提出 3 d a v ( 3 da u d i ov i d e o ) 【5 】的概念,它有两个主要特征:一是交互性,即可以使用 户任意选择观看的视点视频,有一种在拍摄场景中随意漫游的感觉;另一个是立 体感,即能够提供有3 d 深度感觉的场景内容,给用户一种身临其境的感觉。从 这个定义出发,3 d a v 可以分为三种应用场合:全景视频、交互式立体视频和任 意视点视频。任意视点视频允许用户自由选择视听场景的观看视点或视点方向l lj 。 f t v 是任意视点视频的主要研究内容,将在电子商务、娱乐、观光、博物馆、远 程诊断、远程教育、交通监管等领域【2 】获得广泛的应用。 2 1f t v 系统 f t v 允许用户在一定范围内自由选择观看的视点视频,并能实现立体视频的 播放,其交互性可以归纳为三类:编码端交互、获取全部数据的解码端交互和获 取部分数据的解码端交互瞵j 。 编码端交互【4 0 懦要提供反向信道来传输用户的请求信息,使得终端用户可以 远程控制编码端。这种交互方式通过预约协议将用户的请求告知编码端后,编码 端再根据接收到的用户请求对部分数据进行编码、传输。在实时通信业务中,为 了同时满足不同用户的需求,编码端需要配有多个编码器。而对于非实时通信业 务,编码端可以预先针对不同的视点和不同的显示终端分别存储多组压缩文件, 根据接收到的用户请求发送相应的文件。 获取全部数据的解码端交互【4 0 】指的是解码端要求获得全部媒体数据,在解码 端完成支持用户任意选择观看视点的功能,多用于存储业务;而对于广播业务, 由于多视点视频庞大的数据量,利用这种方式提供交互性很不现实。 获取部分数据的解码端交互【4 0 】是指通过交互方式,解码端仅接收部分视频、 音频及其它附加数据。与编码端交互方式不同的是,对于这种交互,编码端需要 对所有视点的音频和视频数据进行压缩编码,且仅将与用户请求视点相关的数据 发送给解码端。因此,该交互方式也需要一个反向信道来传输用户的信息,适用 于流媒体业务,但不适用于广播业务。 f t v 系统主要包括多视点视频捕获、视频数据表示、压缩编码、网络传输和 交互显示五个模块。图2 1 给出一种基于光线空间的f t v 系统的三种实现方案【7 】。 一组摄像机对准同一场景进行拍摄,获得多个视点的视频数据,这些同步的视频 6 多视点视频编码和虚拟视图合成技术的研究 数据连同摄像机的校准信息被转换成适合生成中间虚拟视图的数据表示形式后, 可以经过图2 1 中的任一方案,最终实现对用户自由选择视点视频的支持。可以 看出,前两个方案采用解码端交互方式,最有一个方案属于编码端交互类。 臣口鐾, 亟乎生t 鐾卜生 a 方案l b 方案2 c 万菜3 图2 1 三种f 1 v 的实现方案 方案1 直接对真实视点的视频数据表示进行压缩,然后将压缩后的数据传输 到用户端,在用户端经过解码后通过插值技术生成包含虚拟视点视频的稠密视点 视频数据,最后根据用户的视点位置绘制相应的视图。方案中多视点视频的压缩 方法可以借鉴现有的视频编码标准,其关键特征是虚拟视图插值在用户端进行, 网络传输数据量不大,但对用户端性能要求较高。 方案2 不同于方案1 之处在于虚拟视图的插值在服务器端完成,这样用户端 只要通过简单的视点视频重采样即可实现观看视点视频的选择,但是服务器端压 缩传输的对象是插值后的稠密视点视频数据,数据量大,因此对网络带宽和传输 质量提出很高的要求。 方案3 在服务器端引入视点反馈机制,与前两个方案不同的是,可根据反馈 的信息有针对性地插值生成用户可能请求的虚拟视图,然后对该视点的数据进行 压缩传输。方案采用了编码端交互方式,只完成特定视点相关数据的压缩操作和 传输,数据量小,但由于在服务器端引入反馈机制以及实时插值的实现,运算开 销及运算复杂度增加,特别是在多用户系统中,对服务器端提出很高的要求。 文献7 中方案l 的f t v 系统框图如图2 2 所示。摄像机阵列采集到的多视点 视频经过视频预处理后送入m v c 编码器进行编码。码流传输到达接收端,解码 器恢复出多视点视频信号,根据用户的选择进行视图的合成,最后将合成的信号 送到播放设备进行显示。其中,多视点数据采集模块可以采用若干摄像机的某种 放置完成对真实视点视频的捕获,如平行放置,圆形放置,矩形阵列放置等。通 常摄像机数目越多,合成的虚拟视点视频质量越好,但同时也增加了多视点视频 捕获、数据处理、压缩和合成的代价和难度。视频预处理模块主要完成视点间图 第一二章兀v 概述 像的同步、颜色补偿等处理。通过补偿处理不仅能够进一步提高视图问的相关性, 提高m v c 的编码效率,而且可以使生成的虚拟视图更加接近自然场景。视图合 成模块是利用两个真实视点视频信号合成出中间的虚拟视频。如果用户选择观看 的是实际的视点视频,则不需要经过这个模块。 图2 2f 1 v 系统框图 2 2f t v 的实现方法 f t v 的交互性特征要求3 d 视频必须具有合理且标准化的表示形式。最简单 的方法就是将所有原始的多视点视频数据伴随准确的摄像机校正信息以已有的标 准化语法,如h 2 6 4 a v c ,进行传输。但是,这种方法不利于后面虚拟视点视频 合成环节的实现。文献1 中描述了两种从多个视点视频构建3 d 视频对象的f t v 实现方法,分别是基于3 d 模型的方法和基于光线空间的方法。这两种方法是目 前f t v 的主要研究路线【6 】。 由于本文提出的虚拟视图合成算法在光线空间进行,因此本章将重点介绍基 于光线空间的实现方法。 2 2 1 基于3 d 模型的方法 基于3 d 模型的方法主要采用计算机图形学中的相关技术对场景对象建模,利 用构建的3 d 模型完成对虚拟视图的合成。 最常用的3 d 视频对象建模方法是视觉外壳建模方法。提取各视点拍摄的对象 的侧影轮廓,合成出各轮廓在3 d 空间中的交集,这个交集就是对象的视觉外壳【9 】。 视觉外壳其实是场景对象的3 d 几何外形,是通过一系列侧影轮廓合成的最逼近 对象外形的3 d 模型。 利用视觉外壳合成虚拟视点对象最直接的方法是构造一个3 d 网格表示形式, 然后将真实视点的纹理独立映射到相应的网格上【l o , i i 。目前m p e g 一4 视频标准中 已有的工具能够支持3 d 网格技术,而且独立的纹理映射也将被纳入m p e g 一4 b i f s ( b i n a r yf o r m a tf o rs c e n e s ) 最新的扩展a f x ( a n i m a t i o nf r a m e w o r ke x t e n s i o n ) 中,因此这种基于3 d 网格的视觉外壳方法将会被m p e g 4 所支持。m a t u s i k 等提 出的基于多边形的视觉外壳方法【1 2 】就采用了这种3 d 网格方法,但其应用范围仅 局限于背景较为简单、前景对象易于建模的情况,不适合内容比较复杂的场景。 目前,利用视觉外壳合成的方法还包括基于图像【13 1 、基于点【1 4 1 和基于体积【1 5 】 多视点视频编码和虚拟视图合成技术的研究 等表示形式,其中基于点的方法很可能会被纳入a f x 的附件,但这些方法并不能 被m p e g 4 已有的工具所完全支持。文献1 3 中提出的基于图像的视觉外壳方法 根据各视点的侧影轮廓数据计算出虚拟视点的视觉外壳后,利用极线几何和渐增 计算来达到每个像素恒定的绘制,但是这种方法所有的合成计算和处理都在用户 端进行,使得用户端异常复杂。 2 2 2 基于光线空间的方法 基于光线空间的方法是一种纯粹基于图像的绘制( i m a g e b a s e dr e n d e r i n g , m r ) 方法。基于图像的绘制方法是近年来计算机图形学界和计算机视觉界讨论 和研究的焦点,它不依赖于任何几何模型,而是利用一组预先捕获地图像来编码 场景,并通过适当的插值算法生成位于不同视点的新视图。由于不需要经过复杂 的3 d 建模过程,计算、实现简单,非常适合实时的视频业务。 i b r 技术的理论基础是全光函数理论【16 1 ,用7 维全光函数记录空间中任意位 置( 比功、任意方向( a 矽) 和任意波长五的光线在任意时刻t 的光强,如式( 2 1 ) : p = p l 圪,圪,0 ,矽,允,t ) 式( 2 - 1 ) 实际中,通常会忽略式( 2 1 ) 中的某些参数以简化函数。文献1 7 中提出的全光 模型不考虑时间和波长的变化,通过一些离散点来产生连续的5 d 全光函数。文 献1 8 描述的光场和文献1 9 描述的亮度图等概念,通过对物体和观察者作出一些 限制,从而将全光函数降低为4 d 函数。 y 图2 3 平行摄像机阵列光线空间结构 光线空间方法是一种新的i b r 技术,3 d 真实空间中的一条光线被表示为光线 空间中的一点,这是对全光函数的另一种参数化形式。一般有两种f t v 光线空间 数据表示形式,分别是正交光线空间和球形光线空间。正交光线空间由光线与参 考平面的交点和光线的方向组成,球形光线空间的参考面垂直于光线成球形。正 交光线空间f t v 系统中摄像机阵列成直线形分布,即平行分布,如图2 3 所示, 而球形光线空间f t v 系统中摄像机阵列成圆形分布【2 】。本文仅讨论平行摄像机阵 列f t v 系统的光线空间。 第。章f r v 概述 在图23 描述的平行牛爿机系统中,光线空间数据可表示为 y ( x ,y ,o ,) ,一f ! 口! 口,一州2 ! z 2 式( 2 2 ) 式q j ,( y ) 表不光线与参考平面2 = o 的交点,( 口,) 表示光线的方向,( t y ,0 ,) 表示点( y ) 处来自于方向f 口,) 的光线强度。 下面讨论穿过空间中某一点的光线与它在光线空间中的轨迹之间的关系。简 单起见,假定= 0 ,y = 常数,此时光线空间数据可以简化为厂f t 们。如图2 4 , e ( x ,2 1 代表实际空间中的点,( z ,“) 是该3 d 空间点p 映射到光线空间中点凡的 坐标,其中“= t a r t 8 。可以推断,穿过空间中点e ( x ,z 1 的所有小同方向的光线 在光线空间平面中形成条斜率为1 = 的直线,即x = j + u z 。由此可见,光线空 问数据表示形式理论上有个重要特征:穿过空间中某点的所有光线在光线空间 中的轨迹表现为一条直线。 ( a ) 实际空间中点的坐标( b ) 光线空间中点的坐标 图2 4 穿过实际空间中某一点的光线在光线空间平面中的轨迹 图25 f 曲是图23 中的平行摄像机阵列采集到的多视点视频在某一时刻形成的 光线空间数据f ( x ,y ,“1 的表示形式口,文中称该数据结构为一个c u b e 。很容易知 道,一个视点图像对应c u b e 中的个纵截面,并且c u b e 的一个横截面i ( x ,y k ,“1 ( 文中称之为s l i c e ) 是各视点图像第儿行上所有像素的集合。那么图25 ( a ) 中的 3 个纵截面就是3 幅视点图像,图25 ( b ) 是s l i c e 的一个实例,也是图24 ( b ) 在y 取 某一值时的一个s l i c e 实例。 ( 曲光线空间数据表示( c u b e )( b ) 一个s l i c e 的实例例 图2 5 某一时刻光线空间数据结构 很明显,实际光线在光线空间中形成的轨迹比较简单,光线空间数据表示和 视点图像之间的相互转换易于实现。光线空间数据结构c u b e 中s l i c e 的形成,只 需采样视点图像空怕j 中相应行的像素。所有s l i c e 形成后,c u b e 的表7 i 过群也就结 挚 蟓, 1 0 多视点视频编码和虚拟视图合成技术的研究 束了。对于光线空间c u b e 到视点图像的数据形式转换,只需采样c u b e 中相应的 纵截面即可生成所需的视图。其次,光线空间中立体视频信号的形成也非常简单, 只需根据左右视点的位置信息从光线空间中读取相应的两个视点图像对应的纵截 面即可。 另外,现实情况中摄像机位置不可能连续,获得的视点视频都是离散位置拍 摄的结果,而且摄像机的间隔也不可能太小,这样得到的光线空间数据比较稀疏, 很可能未包含用户需要的视点图像( 即虚拟视图) ,因此有必要通过某种插值技术 产生稠密的光线空问数据来构建虚拟视图,值得注意的是,插值效果的好坏会影 响合成的虚拟视图的质量。 2 3 小结 f t v 是电视技术发展历史的一个里程碑,它允许用户自由地选择观看场景的 视点,就如同在3 d 世界中漫游,也能支持立体视频的播放。作为种3 d t v 终 端,f t v 要求更高性能的技术及系统设备,开创了一个崭新的研究领域。 从系统实现的角度来讲,目前主要有两种f t v 实现路线,分别是基于3 d 模 型的方法和基于光线空间的方法。基于3 d 模型的方法难于对复杂场景建模,当 模型不够精确时,会导致生成的视点图像质量明显下降,并且3 d 建模需要经过 复杂的计算,非常耗时,因此这类方法不适合复杂场景f t v 的实时显示和操作。 基于光线空间的方法主要利用基于图像的合成思想,避免了3 d 建模的复杂过程, 不需要利用场景中的任何几何信息就能快速的合成出很真实、自然的视点图像, 是实现复杂场景f t v 实时显示和操作的有效途径【6 】。 本文主要研究基于光线空间的f t v 。在基于光线空间的f t v 的实现过程中, 对多视点视频数据的压缩和光线空间内的数据插值是两个至关重要的问题。用于 捕获多视点视频的摄像机阵列越密集,生成的虚拟视图质量越高,但数据量越大; 反之,数据量越小,生成的虚拟视图质量越差【2 。因此在折中考虑摄像机数目和 虚拟视图质量的同时,针对数据量的问题,需要有高性能的数据压缩方案来消除 冗余,论文将在第三章详细讨论多视点视频数据压缩的相关概念及技术,并给出 本文的研究成果:针对摄像机阵列稀疏导致图像数据稀疏的问题,要由好的插值 算法来解决,论文将在第四章具体介绍一些已有的插值技术,并提出本文建议的 光线空间内的插值算法。 第三章关于m v c 的研究 第三章关于m v c 的研究 本文的研究基于图2 2 描述的f t v 系统实现过程。首先对实际拍摄的多视点 视频进行压缩编码,编码生成的码流经过信道传输到达接收端,在接收端进行多 视点视频解码后执行虚拟视图的合成操作,最后由用户选择切换所要观看的视点 视频,从而实现用户与服务器之间的交互。 f t v 系统中m v c 是个非常重要的模块。前面已经提到,用于捕获实际多视 点视频的摄像机越多,虚拟视点视频的合成质量越好,但摄像机数目的增加会导 致多视点视频数据量的增大及数据处理和编码的负担的加重,对网络传输和带宽 提出更高的要求,不利于f t v 的实现和推广。多视点视频的数据量随着摄像机数 目的增加而线性地增加,有必要采用有效的编码方法尽可能去除数据间的冗余以 实现多视点视频数据的高效压缩。 多视点视频编码是未来视频通信领域的一项关键技术,主要目标是实现对多 视点视频的高效压缩。m v c 主要利用视点视频内部的相关性( 时间相关性) 和 视点间图像的相关性( 空间相关性) 提高多视点视频的压缩效率。目前,国际视 频标准化组织t 正致力于对m v c 的研究和标准化工作,m v c 将被扩展为 h 2 6 4 a v c 的第四个增修案【3 】。图3 1 给出了一个m v c 系统示意图【2 2 】。摄像机阵 列拍摄的n 路视点视频数据被并行输入到m v c 编码器,经过压缩编码后生成一 个码流进行存储或传输,解码端借助接收到的码流中的边信息再解码恢复出原始 的多视点视频。 m a v c 系统 r u t 视频l 视频2 l i 入 一 视频2 多视点视频。存储传轴 多视点视频 编伊5 器 y 7 解码器 + f 视频n f - l f视频n n 路原始视点视频n 路恢复视点视频 图3 1m v c 系统示意图 j v t 组织将现阶段的m v c 定位为h 。2 6 4 a v c 的一个重要扩展,因此本论文 的研究是在基于h 2 6 4 a v c 的m v c 编码框架上开展的。第7 7 次m p e g 会议上 正式发布了m v c 的软件参考模型j m v m ( j o i n tm u l t i v i e wv i d e om o d e l , j m v m ) t 2 9 1 ,并将该模型作为后续技术提案的公共测试平台以衡量各技术提案的编 码增益,研究过程中关于m v c 的研究成果的实现和测试工作均在j m v m 平台上 进行。 多视点视频编码和虚拟视图合成技术的研究 本章简要介绍与m v c 相关的一些h 2 6 4 a v c 编码工具后,说明m v c 的研 究内容、功能需求和测试条件,接着介绍m v c 的参考预测结构,并给出本文对 此参考预测结构随机访问性能进行评价的数学模型以及利用这套模型进行评价的 结论,最后提出建议的改进的预测结构。 3 1 基于h 2 6 4 a v c 的m v c h 2 6 4 a v c 是j v t 组织于2 0 0 3 年5 月正式公布的新一代视频编码标准【2 3 1 。 与以前的视频编码标准相比,除了采用传统的基于块的运动补偿和变换编码外, h - 2 6 以a v c 还使用了一些新的先进的编码技术和工具,如1 4 像素搜索精度、可 变的块大小、多参考图像预测、帧内预测、自适应环路滤波等,引入了网络提取 层( n e t w o r ka b s t r a c tl a y e r ,n a l ) 的概念,具有更高的压缩效率和网络亲和性。关 于h 2 6 4 a v c 的详细内容可以参考文献2 4 ,本节仅介绍与m v c 相关的h 2 6 4 a v c 部分【3 0 】。 3 1 1 多参考图像预测 帧间预测是去除视频序列中图像间的时间冗余的有效方式【2 钔。为了提高帧间 预测的准确度,h 2 6 4 a v c 引入多参考图像预测技术。编码器选出多幅( 最多1 5 幅) 前向或后向已恢复图像进行位移估值匹配搜索,在一定匹配准则下寻找当前 编码块的最佳匹配块。h 2 6 4 a v c 在确定当前编码块的最佳匹配块时采用穷尽搜 索算法,在所有候选参考图像中选择能够获得测度函数最优值的块或块组合作为 最佳匹配块,其所在的图像作为当前编码块的最佳参考图像。多次比较的结果使 得匹配后的预测精度显著改进,进而提高编码效率。另一方面,多参考图像预测 技术使得编解码端的复杂度随着参考图像数目的增加而增加,对存储空间和计算 能力提出更高的要求。 这里首先介绍h 2 6 4 中的两个重要概念m 】: 解码图像缓冲区( d e c o d e dp i c t u r eb u f f e r ,d p b ) 是用来存放已解码恢复图像 的缓冲区。该缓冲区可实现输出重排序、输出延迟以及为后续待解码图像提供参 考图像的功能。 参考图像列表( r e f e r e n c ep i c t u r el i s t ,r e f p i c l i s t ) 是一个用来存放短期参考 图像和长期参考图像的列表。存在两个参考图像列表r e f p i c l i s t 0 和r e f p i c l i s t l , 分别用于存储前向和后向的已解码恢复图像。编码完成并且已为编码器恢复的图 像是短期图像或刚刚编码的图像,由其帧号标记。长期参考图像是较早的图像, 由l o n g t e r m p i c n u m 标记,保存在d p b 中,直到被代替或删除。例如,r e f l d x l 0 第三章关丁m v c 的研究 1 3 中的短期参考图像是按由帧号推出的变量p i c n u m 值从高到低的顺序排列,长期 参考图像按变量l o n g t e r m p i c n u m 从低到高的顺序排列。对p 片中的帧间编码宏 块和宏块分割的预测可从前向参考图像列表r e f p i c l i s t 0 中选取最佳参考图像。 对b 片中的帧间编码宏块和宏块分割的预测,可从前向参考图像列表r e t p i c l i s t 0 和后向参考图像列表r e f p i c l i s t l 中分别选取前向最佳参考图像和后向最佳参考 图像。 参考图像索引( r e f e r e n c ep i c t u r ei n d e x ,r e f l d x ) 是参考图像在参考图像列表 中的序号,h 2 6 4 a v c 语法中分别用参考图像索引r e f l d x l 0 和r e f l d x l l 指示前 向和后向的最佳参考图像。如果前向没有使用参考图像,则r e f l d x l 0 等于1 ,否 则等于r e f p i c l i s t 0 中最佳前向参考图像的索引r e f l d x ;如果后向没有使用参考图 像,则r e f l d x l l 等于一l ,否则等于r e f p i c l i s t l 中最佳后向参考图像的索引r e f l d x 。 3 1 2 参考图像管理 当一幅图像在编码端被重建或在解码端被解码后,将存放在d p b 中并被标定 为以下四种属性【2 4 】:“不用作参考 、“短期参考图像、“长期参考图像 和“直 接输出 。d p b 的管理实行滑动窗内存控制机制,该机制保证编码器和解码器始 终保持幅短期参考图像,其中包括一幅当前图像和n - 1 幅参考图像。由编码器 发送的自适应内存控制命令来管理短期和长期参考图像索引。通过这一机制,短 期参考图像可能被分配长期参考图像索引,短期或长期参考图像也可能被重新标 定为“不用作参考 。编码器根据索引号r e f l d x 从参考图像列表中选择参考图像 进行帧间编码预测,索引号0 对应于短期部分的第一幅图像,长期参考图像索引 开始于最后一个短期图像。当新的图像加在短期列表的位置0 时,剩余参考图像 索引号依次增加。当参考图像索引号达到最大参考图像数时,最高索引号的参考 图像被移出参考图像缓冲区。 参考图像缓冲区通常由编码器发送的瞬时解码刷新( i n s t a n t a n e o u sd e c o d i n g r e f r e s h ,m r ) 编码刷新。i d r 图像一般被划分为i 片或s i 片,属于帧内编码图像, 不需要其他图像作为参考图像,可以独立编码和解码。当接收到i d r 图像时,编 解码器立即将缓冲区中的图像标定为“不用作参考”,因此后续的i d r 图像中的 片进行无参考图像编码。通常视频编码序列的第一幅图像都是i d r 图像,有利于 随机访问的实现和对抗传输过程中可能存在的误码扩散。 如图3 2 所示,以bs l i c e 为例从解码器的角度介绍h 2 6 4 a v c 的参考图像管 理机制【4 0 1 。当解码一幅图像时,首先将d p b 中符合要求的恢复图像放到 r e f p i c l i s t 0 和r e f p i c l i s t l 中,并对两个参考图像列表中的图像进行排序,该过程 称为参考图像列表初始化。接着解码器从码流中解析得到参考图像列表重排序的 多视点视频编码和虚拟视幽台成技术的研究 语法元素,掘此对当前参考图像列衷中的图像重排序。依序从参考图像列表中搜 索当前编码图像的最佳参考图像,然后利用选中的最佳参考图像解码当前图像。 图像解码结束后,根据其是甭用作参考的属性将其标记为“不用作参考”、“用作 短期参考”或“用作长期参考”。如果标记为“不用作参考”,通常解码器就将该 图像直接输出显示;如果用作后续图像的参考,则将其存放在d p b 中。 图3 2 参考图像管理机制处理流程 3 1 3 分层b 帧预测结构 图3 3 描述了一种典型的四次折半分层b 帧预测结构 2 3 , 4 0 】。视频序列的第一 幅图像是d r 图像,采用帧内编码方式编码。分层b 帧预测结构每隔特定时问间 隔( 也可以是不规则的时间间隔,文中仅讨论时间间隔固定的情况) 插入一幅关 键幽像( 图3 3 中用黑条表示) 。所有关键图像均满足在它z 前的己编码图像均先 于它播放的要求。两幅关键图像之间的图像是非关键图像。如图3 3 所示,一幅 关键图像与在它之前最邻近的关键图像之间的一组非关键图像构成一个图像组 ( g r o u po fp i c t u r e ,g o p ) 。对于采用分层b 帧预测结构,序列的第一幅图像不 属于任何c o p 。 g r o u po f p i c t u r c ( g o p ) 图3 3 分层b 帧预i i 结构 关键图像或采用帧内编码方式编码,或使用在它之前的关键图像作参考采用 帧间预测编码方式编码。采用帧内编码方式有利于随机访问的实现,使用帧间预 测编码可以提高编码效率。g o p 内非关键图像采用如图34 所示的分层预测结构 进行前向和后向帧间预测编码,预测编码方式类似于h 2 6 柏唧e g 4 a v c 中的双 iiiii憎m 9 j m婴*lbn 型0 ib b j!lli-lb”m !,|jb i m 口一niiiib m u l l lljb 9 p¥iiiii8 o iib 2 3b 5e|em茹 第三章关下m v c 的研究 向预测片( b 片) 。根据各个b 帧预测编码顺序的不同,将b 帧划分成不同的时 问层( t e m p o r a ll a y e r ,t l 】,并且各时问层图像采用不1 可的量化参数0 p ,般q p 值随着时间层序号的增加而增大。可以发现当前编码图像总是选取与其最接近 的同时间层或上一时间层的已编码图像作为参考图像。 这种分层结构具有曳好的时域可伸缩性,所有关键图像组成的序列时域分辨 章最低,随着时间层较商的图像的不断加入,序列的时域分辨率逐渐提高。 8 顺序o 12345678 吲3 4 分层b 帧预测结构示意图 3 2m v c 的研究内容 时问层 o 1 2 国际视频标准化组织j v t 将m v c 定位为h2 6 4 a v c 的一个重要扩展目前 对m v c 的研究主要基于h2 6 4 a v c 框架。在现有h2 6 4 a v c 编码框架下,去除 多视点视频视点问的冗余最直接的方式是使用类似于h2 6 4 a v c 中帧间运动补偿 预测的视点问视差补偿预测,即在编码当前图像时,将其它视点中的已编码图像 插入参考图像列表中进行预测。如何设计合适的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《小学教师招聘》练习题库及答案详解(全优)
- 2025年学历类自考公关关系语言-政治学概论参考题库含答案解析(5卷)
- 2025年学历类自考公共关系案例-心理学参考题库含答案解析(5卷)
- 教师招聘之《幼儿教师招聘》练习题(一)有完整答案详解
- 2025年教师招聘之《幼儿教师招聘》题库高频重点提升(共100题)附答案详解【黄金题型】
- 2025年教师招聘之《幼儿教师招聘》模考模拟试题附参考答案详解(精练)
- 2025年学历类自考人际关系学-文学概论参考题库含答案解析(5卷)
- 教师招聘之《小学教师招聘》通关模拟题库附完整答案详解(夺冠系列)
- 2025年学历类自考中国现代文学作品选-中国文化概论参考题库含答案解析(5卷)
- 2025潍坊银行笔试题库及答案
- 2025至2030中国高压水射流行业项目调研及市场前景预测评估报告
- 2025合作劳务外包协议范本
- 急性胰腺炎早期液体复苏的思考 2
- 急性闭角型青光眼合并高眼压护理查房
- 2025年工会财务知识竞赛考试题库及参考答案
- 税收的原则课件
- 医疗机构应急管理与急救技能手册
- 2025留置辅警笔试题库及答案
- 胸椎后纵韧带骨化症
- 2025年秋季小学三年级上册语文教学计划
- 2025未签合同劳动争议仲裁申请书
评论
0/150
提交评论