(信号与信息处理专业论文)基于双目视觉的立体视频压缩关键技术研究.pdf_第1页
(信号与信息处理专业论文)基于双目视觉的立体视频压缩关键技术研究.pdf_第2页
(信号与信息处理专业论文)基于双目视觉的立体视频压缩关键技术研究.pdf_第3页
(信号与信息处理专业论文)基于双目视觉的立体视频压缩关键技术研究.pdf_第4页
(信号与信息处理专业论文)基于双目视觉的立体视频压缩关键技术研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(信号与信息处理专业论文)基于双目视觉的立体视频压缩关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 基于双目视觉的立体视频压缩关键技术研究 学生姓名:林志鹏导师姓名:罗琳 东南大学信息科学与工程学院 随着数字媒体、计算机视觉和虚拟现实技术的飞速发展,立体视频技术受到了广 泛关注,已经成为近年来的一个研究热点。立体视频由于其具有比普通视频更大的数 据量而在实际应用中受到限制,所以研究实用的立体视频压缩技术成为当务之急,立 体视频压缩标准的制定也势在必行。本文就是在跟踪j v t ( j o i n tv i d e ot e a m ) 的立体视 频编码最新研究进展的基础上,对双目立体视频压缩技术做了进一步研究。 本文首先介绍了立体视频编码技术的研究背景、研究意义,以及普通视频编码和 立体视频编码的发展状况;接着介绍了立体视觉理论并分析了立体视频的冗余以及立 体视频的编码方法,着重介绍了视差估计方法。 在立体视频编码方案的研究中,本文主要利用左视宏块类型在一定程度上能够反 映宏块含有运动物体多少这一特性,对右视编码方案做了改进,实验结果表明改进方 案比原有立体视频编码方案的编码效率有了很大提高。 在右视宏块编码类型选取的研究中,本文主要利用左视和右视宏块的编码类型间 的相似性,对右视宏块编码类型的选取做了改进,提出四种改进方法,实验结果与分 析表明这些改进方法取得了比较满意的效果。 最后本文对已做的工作和研究成果做了总结,并对下一步的工作做了进一步展 望。 帧 关键词:立体视频编码;联合多视点视频编码模型;视差估计;宏块类型;参考 a b s t r a c t a b s t r a c t r e s e a r c ho nk e yt e c h n o l o g yi ns t e r e ov i d e o c o m p r e s s i o nb a s e do nb i n o c u l a rv i s i o n b yl i nz h i p e n g d e p a r t m e n to fr a d i oe n g i n e e r i n g s u p e r v i s e db ya s s o c i a t ep r o f l u ol i n s o u t h e a s tu n i v e r s i t y w i t ht h er a p i dd e v e l o p m e n to fd i g i t a lm e d i a ,c o m p u t e rv i s i o na n dv i r t u a lr e a l i t 、r t e c h n o l o g y ,s t e r e o s c o p i cv i d e ot e c h n i q u eh a sr e c e i v e de x t e n s i v ea t t e n t i o na n db e c o m e o n eo ft h eh o t s p o t si nr e c e n ty e a r s c o m p a r e dw i t hc o m m o nv i d e o t h el a r g e ra m o u n to f d a t ao fs t e r e o s c o p i cv i d e o1 i m i t si t sr e a la p p l i c a t i o n s oi ti su r g e n tt h a tw es h o u l ds t u d y p r a c t i c a l s t e r e ov i d e oc o m p r e s s i o nt e c h n i q u e s ,a n d e s t a b l i s h i n gs t e r e o v i d e oc o d i n g s t a n d a r di si m p e r a t i v e i nt h i sp a p e r , t h es t e r e o s c o p i cv i d e oc o m p r e s s i o nt e c h n i q u ei s s t u d i e db a s e do nt h el a t e s tr e s e a r c hp r o g r e s so f t f i r s t ,t h eb a c k g r o u n da n ds i g n i f i c a n c eo fr e s e a r c ho ns t e r e ov i d e oa n dt h e d e v e l o p m e n ts t a t u so fc o m m o nv i d e oc o d i n ga n ds t e r e ov i d e oc o d i n ga r ei n t r o d u c e d ;t h e n t h et h e o r yo fs t e r e o s c o p i cv i s i o n ,t h er e d u n d a n c yo fs t e r e ov i d e oa n ds t e r e ov i d e oc o d i n g m e t h o d sa r ed e s c r i b e d ,w h e r et h e d i s p a r i t y e s t i m a t i o nm e t h o d sa r e e m p h a t i c a l l y i n t r o d u c e d i nt h es t u d yo fs t e r e ov i d e oc o d i n gs c h e m e s ,b a s e do nt h ec h a r a c t e r i s t i c st h a tt h e m a c r o b l o c kt y p e ss e l e c t e df o rt h em a c r o b l o c k si nl e f tv i e wr e f l e c tt h en u m b e ro fm o v i n g o b j e c t si nt h em a c r o b l o c k st os o m ee x t e n t ,t h ei m p r o v e dc o d i n gs c h e m ef o rt h er i g h tv i e w i sp r o p o s e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h 她c o m p a r e d 嘶t l lo r i g i n a ls c h e m e s ,o u r p r o p o s e ds c h e m es i g n i f i c a n t l yi m p r o v e st h ec o d i n ge f f i c i e n c y i nt h es t u d yo ft h es e l e c t i o no ft h em a c r o b l o c kt y p e sf o rt h ef i g h tv i e w , b yu s i n gt h e s i m i l 耐t 、,o fm a c r o b l o c kt y p e so ft h em a c r o b l o c k si nt h el e f tv i e wa n dr i g h tv i e w , t h e s e l e c t i n gm e t h o do fr i g h tv i e wm a c r o b l o c kt y p e si si m p r o v e d , t h e nt h ef o u ri m p r o v e d m e t h o d sa r ep u tf o r w a r d ,t h er e s u l t sa n da n a l y s i so ft h ee x p e r i m e n t ss h o wt h a tt h e s e i m p r o v e dm e t h o d so b t a i l l e ds a t i s f a c t o r yr e s u l t s f i n a l l y , w em a k eas u m m a r yo ft h ew o r ka n dt h er e s e a r c hr e s u l t si nt h i sp a p e r , a n d p r o p o s et h ep r o s p e c ta n dd i r e c t i o no ft h ef u r t h e rw o r ko ns t e r e o s c o p i cv i d e oc o m p r e s s i o n t e c h n o l o g y k e y w o r d s :s t e r e o s c o p i cv i d e oc o d i n g ;j o i n tm u l t i v i e wv i d e oc o d i n gm o d e l ;d i s p a r i t y e s t i m a t i o n ;m a c r o b l o c kt y p e ;r e f e r e n c ef l a m e 东南大学学位论文独创性声明 。 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文 的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档 的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借 阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东 南大学研究生院办理。 研究生签名:生乜主照导师签名:日期:如只屉 r 一 第一章绪论 1 1 课题研究背景及意义 第一章绪论 二十世纪是科学技术获得高速发展的一个世纪,出现了许多高新技术,以计算机、网络和电子 技术为代表的信息技术获得了突飞猛进的发展,导致了更多的新辫多媒体通信业务的出现。视频技 术由黑白到彩色,再到今天的高清晰度数字视频,发展速度也极其迅猛。现代视频技术正在向“数 字化”、“高清晰度化”和“立体化”方向发展。立体视频技术是来来视频技术的一个重要发展方 向吐 立体视颡是数字视听领域的前沿技术,是未来数字视听的发展方向。作为新兴的数字媒体,3 d 视频被称为自音频、图像、视频之后的第四代媒体形式。相对于传统媒体,其突出优势在于能为受 众创造更加直观真实的场景感受提供更多样化全方位的媒体交互能力。 立体成像系统提供一种简单的感知自然景物相对深度信息的方式,在对三维o d ) 真实场景的表 征上更具真实感,从而在许多崭新的领域有广泛的应用前景,例如信息可视化( c a d c a m 医疗鼓 据) 、远程医疗0 e l e m e d i c l n e ) 、远程出席( r e l e p r e s e a c e ) 、遥控机器人( r e l e m b o t i c s ) 、自动导肮、消费 电子以及虚拟现实等等。下面的图11 是立体视频技术在3 dh d t v 上得一个应用 图113 d h d t v 系统 2 】 的大脑能够处理同一景物分别在左右眼的视网膜上成像问的细微差别来获取深度信息,实现 对3 d 世界的感知,这就是双目视觉。立体成像系统模拟玻目视觉特性,运用两个摄像机从两个不同 视点( 视点间距一般等于人的取目问距) 获取描述同一景物的两个圈像( 立体图像对,s t e r e o i m a g e h ) 当把这两个图像分别里现给人的左右眼,大脑通过处理左视和右视图像间的相对位移( 视差, d i s p a r i t y ) ,感知景物的深度,获得3 d 感觉。 为了推动立体系统在各种领域内的应用,必须解决立体图像,视频在各种有限带宽信道内有效传 输的问题。立体视频包含左视和右视两个图像流,两倍于当前普通视频的数据量,如果不采用更加 东南大学硕士学位论文 有效的图像压缩技术其有效的传输和存储将是不可能的,因此,进行高性能立体视频编码方法的 研究是十分必要的。 本文跟踪了j v t 的立体视频编码标准制定的最新进展,分析了立体视频的相关技术,并在j v t 的m v c 9 ( m u l t i v i e wv i d e oc o d i n g 多视点规频编码) 项目的参考模型j m v m l 6 l ( j o i n tm u l t i v i e w v i d e o m o d e l 联台多视点视频编码模型) 的基础上,提出了改进的立体视频编码方案和宏块类型的快 速选择方法,以提高立体视频编码的编码效率。 1 2 视频压缩标准的发展历史与研究现状 1 2 1 二维视频压缩标准发展状况 国内外二维视频编码标准发展历史 7 1 1 8 l 可以从图12 看出。从时间上来看,这些标准由第代的 标准发展到第一代标准。 第一代标准第二代标准 i i 。兰景。 隧鬻爨”誊j 【 1 9 8 4 1 9 8 61 9 8 81 9 1 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 _ _ d 口;_ 羟冀薹誊 图12 国内外视频编码标准发展历史 当前,i t u t 和i s o i e c 是国际上最主要的两太视频编码标准制定组织。所以这两个组织的发 展历程也就在很大程度上反映了国际上视频编码标准的发展过程。 1 9 8 4 年国际电报电话咨询委员会的第1 5 研究组成立了一千专家组专门研究电视电话的编码问 题,经过5 年以上的精心研究和努力,终于在1 9 9 0 年1 2 月完成和批准f c c i t t 推荐书h2 6 1 。在h2 6 1 的基础上1 9 9 6 年n - l i - t 推出了h 2 6 3 编码标准,在编码算法复杂度增加很少的基础上,h2 6 3 能提 供更好的图像质量、更低的速率。目前,h2 6 3 编码是i p 视频通信采用蛀多的一种编码方j 去。1 9 9 8 年i t u t 推出的h2 6 3 + 是h 2 6 3 建议的第二版,它提供了1 2 个新的可协商模式和其他特征,进一步 提高了压缩编码性能。 m p e g 是国际标准化组织和国际电工委员会第一联台技术组( i s o i e cj t c ”】9 8 8 年成立的运 动图像专家组( m o v i n g p i c l u r ee x p e r t g r o u p ) 的简称,全称为i s o e cj t c l 第2 9 分委会第1 1 工作组 ( i s o i e cj t c i s c 2 9 w g l l ) 。该小组主要负责数字视频、音频和其他媒体的压缩、解压缩、处理 和表示等国际技术标准的制定工作。 从1 9 8 8 年开始,m p e g 专家组每年召开四次左右的国际会议,主要内容是制定、修订、发展m p e g 系列多媒体标准a 这其中有视音频编码标准m p e g - 1 ( 1 9 9 2 ) 和m p e g - 2 ( 1 9 9 4 ) 、基于视听媒体对象的 第一章绪论 多媒体编码标准m p e g 4 【9 1 ( 1 9 9 9 年) 、多媒体内容描述标准e g 7 ( 2 0 0 1 ) 、多媒体框架标准m p e g 2 1 。 目前,m p e g 系列国际标准已经成为影响最大的多媒体技术标准,对数字电视、视听消费电子产品、 多媒体通信等信息产业的重要产品产生了深远影响。 为了响应i s o a e cm p e g 对先进视频编码技术的需求,从2 0 0 1 年开始,i s o 和i t u 开始组建了联 合视频工作组i l 叫( j v t ,j o i n tv i d e ot e 锄,i s o h e cm p e g 和i t u tv c e g 联合视频工作组) ,在 h 2 6 l 的基础上开发新的视频编码标准,即,v t 标准。t 标准是一套兼顾广播和电信、覆盖从低码 率通信到高清晰电视的广域标准。在i s o h e c 中,该标准的正式名称为m p e g _ 4a v c ( a d v a l l c e dv i d e o c o d i n g ) 标准;在i t u t 中的正式名称为h 2 “【1 l 】【1 2 l 【1 3 】【1 4 1 标准。2 0 0 3 年下半年,i s o h e c 以m p e g - 4 第十部分( i s o h e c1 4 4 9 6 1 0 ) 的名义正式发布了这项标准。 1 9 9 8 年,中国m p e g 论坛( m p e g c h i n a ) 成立,定期举行研讨会,介绍各研究单位的研究内容、 研究进展、研究计划、研究成果,以提高我国视音频等技术在国际上的竞争力,促进我国自主标准 的制定与发展。面向我国的信息产业需求,2 0 0 2 年我国成立了中国数字音视频编解码技术标准工作 组( a v s 1 5 1 6 i 作组) ,以组织制定行业和国家信源编码技术标准。该组织至今已经取得了很大 的巨大进展,例如,最近在分辨率达1 9 2 0 x 1 0 8 0 的高清影碟机与碟片领域,面对蓝光阵营在中国市 场的攻势咄咄逼人,不甘心将市场拱手相让的a v s 产业联盟日前首次展示出了符合a v s 标准的高清 影碟机与碟片,以低价产品狙击蓝光d v d 阵营,取得了巨大成功。 从内容上看,a v s 视频标准包括系统、视频、音频、数字版权管理、移动视频等9 个部分,涉 及视频压缩编码的有两个独立的部分,且p a v s 第二部分( a v s l p 2 ) ,主要针对高清晰度数字电视广 播和高密度存储媒体应用;a v s 第七部分( a v s l p 7 ,又称a v s m ,后文统一使用a v s m ) ,主要针 对低码率、低复杂度、较低图像分辨率的移动媒体应用。a v s 标准具有性能高、复杂度低、实现成 本低、专利授权模式简单等特点。 由于本文的立体视频编码模型是基于h 2 6 4 的,所以这里详细介绍一下h 2 6 4 标准。 h 2 6 4 是i t u t 视频编码专家组( v c e g ) 和i s o a e c 的运动图像编码组( m p e g ) 联合制定的新的视 频编码标准,而标准本身则是由包括来自m p e g 和v c e g 专家的j o i n tv i d e ot e 锄( j v t ) 开发。从m p e g 的角度来说,这个标准叫做m p e g - 4p m l 0 ( i s o1 4 4 9 6 1 0 ) ;从i t u 的角度来说,这个标准叫做h 2 6 4 ( i t u 文档编号) 。 与以前的视频编码标准不同,h 2 “不仅含有一个规定视频编码算法的视频编码层( v c l ) ,还包 括一个规定网络传输规范的网络抽象层( n a l ) 。h 2 6 4 提供比h 2 6 3 和m p e g 4 更高的压缩性能,使图 像的数据量减少3 0 v o - 5 0 。 h 2 6 4 着重在压缩的高效率和传输的高可靠性,应用面十分广泛,具体说来,h 2 6 4 主要支持 三个不同档次( p r o f i l e ) : l 、基本档次:利用i 片和p 片进行帧内编码和帧间编码,不支持b 帧,支持利用基于上下文 的自适应的变长编码进行的熵编码( c a 、几c ) ,主要应用于可视电话、会议电视、远程教 学、远程医疗、无线通信等实时视频通信; 2 、主要档次:采用b 片的帧间编码和采用加权预测的帧内编码,支持隔行视频,支持利用 基于上下文的自适应的算术编码( c a b a c ) 。主要用于消费电子应用,如数字电视广播, 数字视频存储等; 3 、扩展档次:支持码流之间有效的切换( s p 和s i 片) 、改进误码性能( 数据分割) ,但不支 持隔行视频和c a b a c 。主要用于网络的视频流,如视频点播。 图1 3 为h 2 “各个档次的功能关系图。图中可以看出基本档次( m a i np r o f i l e ) 包含于扩展档次 e n d e dp r o f i l e ) ,主要档次( m a r ep r o f i l e ) 跟扩展档次以及基本档次都是相交关系。 扩展档次包括了基本档次的所有功能,而不能包括主要档次的所有功能。当每一档次设置不 同参数( 如取样速率、图像尺寸、编码比特率等) ,可以得到编解码器性能不同的级。 3 东南大学硕士学位论文 e x t e n d e dp r o f i l e 图1 3h 2 6 4 的各种档次 h 2 6 4 的技术特点包括循环去块滤波器【 l ( l o o p d e b l o c k i n gf i l t e r ) 、块大小可变宏块划分 ( v a r i a b l eb l o c ks i z e s m a c r o b l o c kp a r t i t i o n s ) 、多重参考桢( m u l t i p l er e f e r e n c ef r a m e s ) 、加权预测【1 8 】 ( w e i g h t e dp r e d i c t i o n ) ,上下文自适应变长编码( c o n t e x t - a d a p t i v ev a r i a b l el e n g t hc o d i n g ) 和上下文自 适应二进制算术编码( c o n t e x t a d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ) 等等。 h 2 6 4 的编解码器的结构框图见图1 4 和图1 5 。 图1 4 h 2 6 4 编码器 4 第一章绪论 图1 5 h 2 “解码器 1 2 2 立体视频压缩发展状况 对立体图像编码的研究,国际上开始于2 0 世纪8 0 年代末,当时的方法把立体图像中的左、右图 像当作独立的两幅图像,分别使用经典的二维平面图像压缩方法来压缩。这种方法比较简单,但没 有利用立体图像对之间固有的联系,得到的压缩率比较小,不能满足实际的使用。步入9 0 年代,许 多学者注意到立体图像序列中的左、右图像之间存在大量的冗余信息,利用计算机视觉的方法,可 以对左、右图像进行视差( d i s p a r i t y ) 估计。 近几年来,国内外很多学者在立体视频领域做了很多工作,国内有一些公司和学术机构投入这 方面的研究,如微软亚洲研究院的多媒体组,天津的三维显示技术有限公司等。 多视点编码标准的制定近年来得到了巨大发展,双目立体视频只是多视点立体视频的一种特 殊情况,所以多视点编码标准的发展也是双目立体视频压缩标准的发展。多视点视频( m u l t i v i e w v i d e o ) 是一种新型的具有立体感知和交互操作功能的视频技术,它由一组平行,会聚相机阵列拍摄 得到的视频信号。 欧洲已经资助了两个计划来开展立体视频编码的研究,它们是:r a c ed i s t i m a t l 9 1 ( d i g i t a l s t e r e o s c o p i ci m a g i n ga n da p p l i c a t i o n s ) 计划和a c t sp a n o r a m a 计划。 r a c ed i s t i m a 计划研究了基于m p e g 2 的立体视频编码传输方案,同时还研究了更先进的立体 视频编码技术,开发了几种关于立体视频压缩和传输方案,目的是研究基于a t m 网络的双目立体视 频和多视点视频传输的可行性。它刚开始使用的编码方案比较简单,就是对每个视点使用独立的 m p e g 编码器,这样就可以使用标准的视频编解码器。由于每个通道的信号必须严格同步,这种方 案主要是对多元m p e g 系统的测试用列。使用的是标准的m p e g 传输流( t s 流) 句法,多个音视频通道 构成一个整体。另一种方案是使用视差补偿预测方法来考虑不同视点间的相关性,预测方案可以见 图1 6 。后来有对这种方案做了该进,考虑了使用b 帧以及自适应块变化的情况。r a c ed i s t i m a 计 划还对基于对象的立体视频压缩方法做了许多研究。 左视序列 右视序列 图1 6d i s t i m a 计划中考虑视差补偿的预测结构 a c t sp a n o r a m a 计划是为了开发一个视点自适应的实时三维视频会议系统。立体图像对随 着观察者头的位置的改变而改变,以提供一种三维的临场感。图像的产生是基于视差补偿图像的插 5 东南大学硕士学位论文 值。所以整个系统要完成视差分析,视频、音频、以及视差信号的压缩,多路复用,a t m 网络传输, 多路解复用,解压缩并计算由观察者的头的位置决定的中间视点。系统框图见图1 7 。 图1 7 视点自适应的实时三维视频会议系统 i s o i e c 的m p e g 近些年正一直致力于对于多视角立体视频编码( m v c ) 标准( 包括两个视角的情 况) 制定的研究。m p e g 对多视角视频压缩的研究可以追溯到基于m p e g 2 的立体视频以及多视角视频 压缩。后来,随着传感器技术、显示技术以及多视角特征认识的发展,m p e g 于2 0 0 1 年成立了一个 名为3 d a v l 2 0 1 1 2 1 】【2 2 j 的工作组,以评估制定多视角压缩这一富有潜力的领域的标准所需要的技术和各 方面需求,它主要研究和讨论互动式媒体应用、三维音频、三维视频,以及进行其中相关技术的标 准化和关键技术的研究。自从2 0 0 3 年起,这一组织取得了多次成果,发布了多种需求和技术报告 2 3 儿2 4 j 1 2 5 j 【2 6 】【2 7 】,并收到很多反馈意见。最后一次技术报告发布于2 0 0 5 年1 0 月,在法国尼斯第7 4 界m p e g 会议上,这次报告的反馈意见在2 0 0 6 年1 月泰国曼谷举行的第7 5 界m p e g 会议上得到了评估。最终, 为了改善多视角编码的各个组成部分的性能,做了几个多视角编码( m v c ) 方面的核心实验,并生成 了一个参考代码,还设计了第一个描述整个多视角编解码器的多视角认证模型。m p e g 中用来标准 化的多视角编码算法的核心就是众所周知的a v c 算法的改进,a v c 算法b i j m p e g - 4p a r t l 0 ,也就是 h 2 6 4 算法,为了处理不同视角间的预测方法、相应的模式、光照补偿等,算法加入了适当的工具。 在2 0 0 6 年7 月奥地利的克拉根福举行的第7 7 界m p e g 会议上,m p e g 决定由1 v t ( j o i n tv i d e ot e a m ) 来 6 第一章绪论 负责m v c 的标准化。因此最终形成的标准将不仅仅是i s o 的标准,也是i t u t 的一个建议书。近些 年,许多专家不仅对多视点视频的编码技术标准化做了大量的研究,也对多视点视频的表示方法做 了很多探讨和研究,如v i d e op l t u sd e p t h “”的表示方法。j v t 目前的主要工作是在h2 6 4 标准基础上的 三个方面的改进与拓展,即可伸缩编码“( s v c ) 、多视点视频编码( m v c ) 、附加的增强信息( s e i ) 。 他们在m v c 方面已经取得了很多进步,相信立体视频压缩标准的出现指日可待,同时这也势必将带 来视频技术的新的飞跃。 由于本文的实验都是在联合多视点视频编码模型( r m v m j o i mm u l t i v i e wv i d e om o d e l ) 的基础上 做的,所以这里有必要详细介绍一下j m v m 。 j m v m 是对h 2 6 4 的一个扩展,用于多视点编码,j m v m 中的一种视频编码方案见图i8 。这一 方案使用了每个视点都有可分级的b 帧的预测结构。另外,每隔一个视点要做视点间的帧间预测。 即视间预测,如这里的s 1 ,s 3 ,s 5 。当视点数为偶数时,最后_ 视点( 圈18 中的s t ) 的预测方案是 既要用到奇数视点也要用到偶数视点。因为母后一个视点只有一十相邻视点可以用来做视间预测, 所以它以p 帧开始,以b 帧结束,而且只有一十视间预目4 帧。考虑到同步性,每+ c o g r o u po f p i c t u r e s 、 虬i 帧开始,如s 0 视点的t 0 帧咀及s 0 视点的t 8 帧。 9 imm 1 m 图18 基于先进视频编码的使用分级b 帧的视间和时间上的预测结构 需要注意的是当序列长度不是g o p 长度的整数倍时,就必须在序列的昂后面用一个较短的g o p 柬处理。图18 所示的预目0 方案中g o p 的长度是8 。当c o o p 分别取1 2 和15 时的编码框架见图1 9 。 f 古一吾2 5 一齑一一西一汹 图i9 g o p 分别为1 5 和】2 n , t 的基本编码框架结构 靶篱确羹薰羹 , 3 j 东南大学硕士学位论文 由于讨论的是双目立体视频的编码,所以本文只选取了两个视点,具体如何选取后面的章节会 详细说明。 1 3 论文的内容及安排 本文的章节安排如下: 第一章:绪论,主要介绍立体视频编码技术的研究背景、意义,然后分析二维视频和立体视频 压缩的发展现状,并描述本文的主要研究内容及本文所做的工作; 第二章:主要介绍立体视觉理论、立体视频的冗余和立体视频的编码方法以及立体视频压缩中 的视差估计算法; 第三章:以左视序列作为参考序列,右视序列作为目标序列,首先介绍几种现有的编码方案, 然后在深入分析左视宏块类型的特点以及它和宏块含有运动物体多少之间的相关性的基础上,对 右视编码方案做改进。在j m v m 模型的基础上,通过选取三种典型序列分别实现三种现有编码方 案和改进方案; 第四章:首先深入分析左视和右视宏块的编码类型间的相似性,并利用这一相似性对右视宏 块编码类型的确定做改进,逐步提出四种改进方法。在j m v m 基础上,实现原有方法以及改进方 法,并并对实验结果进行分析与总结: 第五章:总结全文,概括全文所做的工作与得到的成果,分析不足,并对将来的工作做进一 步展望。 8 第二章立体视频理论 2 1 立体视觉 第二章立体视频理论 2 1 1 视觉与立体视觉 视觉是人类了解世界的一种重要功能,它包括“视”和“觉”1 3 1 1 ,与听觉、嗅觉、味觉、触觉、 热觉等一样可以进一步分为感觉和知觉两个层次,即视感觉和视知觉。视感觉是较低层次的,主要 接收外部刺激。视知觉处于较高层次,它要将外部刺激转化为有意义的内容。一般视感觉对外部刺 激是基本不加区别的完全接收,而视知觉则要确定外部刺激的哪些部分应组合成所关心的“目标” 或对外部刺激的源做出判断。 立体视觉主要研究如何借助( 多图像) 成像技术从( 多幅) 图像里获取场景中物体的距离( 深度) 信 息,最早于2 0 世纪6 0 年代中期就已经开始了开创性的工作。立体视觉的基本方法是从两个或者多个 视点去观察同一场景,获得在不同视角下的一组图像,然后通过三角测量原理获得不同图像中对应 像素间的视差( d i s p a r i t y ,即同一个3 d 点投影到两幅2 d 图像上时,其两个对应点在图像上位置的差) , 从中获得深度信息,并进而计算场景中目标的形状和它们之间的空间位置等。立体视觉的工作过程 与人类视觉系统的感知过程有许多类似之处,人类视觉系统就是一个天然的立体视觉系统【3 2 】。 2 1 2 立体视觉基本原理 人眼视网膜是一个曲面,从成像角度看相当于二维空间中的一个平面,但人却可以从这个二维 空间上形成的视像感知得到一个三维图像,也就是获得了物体的深度信息。这就是人眼的空间知觉 能力,其本质是一个深度感知的问题,因为除了深度外,另外两维空间是我们平时的二维图像信息, 观察起来,比较直接和确定。 人类没有直接或者专门用来感知距离的器官。人所以能感知到距离,是因为人在空间知觉中借 助了一些称为深度线索 3 3 1 的外部客观条件和自身机体内部条件来判断物体的空间位置。这些条件包 括非视觉性深度线索、单目深度线索和双目深度线索【3 4 1 。 非视觉性深度线索主要有两种,即眼睛聚焦调节和双眼视轴的辐合。眼睛聚焦调节就是指当观 察远近不同的物体时,眼睛通过眼肌调节其水晶体以在视网膜上获得清晰的视像,它传给大脑的信 号中包含了有关物体距离的信息:双眼视轴的辐合指当观看远近不同的物体时,两眼自动调节以将 各自的中央e l ( 视网膜中心) 对准物体,从而将物体映射到视网膜感受性最高的区域,而这里要将两 眼对准物体,两眼视轴必须完成一定的辐合运动,通过控制视轴辐合的眼肌运动来给大脑提供关于 物体的深度信息。 图2 1 双眼视轴的辐合 9 东自大学硕学位论土 在单目视觉( m o n o c u l a rv i s i o n ) 中刺激物本身的一些物理条件,通过观察者的经验和学习,在一 定条件f 成为知觉深度和距离的线索,郎单目深度线索。单目深度线索包括物体太小与物距、照明 的变化( 亮度和颜色,直接和问接的阴影、大气的透视等引起的变化1 、线性透视( 1 i n e a rp e r s p e c t i v e ) 、 纹理梯度( g r a d i e n t o f l e x t u r e ) 、物体的遮挡、运动视差( 当观察者在同定环境中运动时由于物体距离 不同导致视角变化快慢产生差异博。 人的深度感知能力的获得主要靠的是取目视觉伯i n o e u l a r ) 。在双目视觉中每只眼睛的视网膜上先 箨形成一个独立的视像。因为两眼相距约6 5 r a m ,两只眼睛是从不同角度来观察物体的。所以产生 的这两个像有差异。这里产生的差异主要表现在位移上,这种相对位移就称为双眼视差,它使得立 体知觉和深度知觉得以产生。图22 即为个职目立体图像对。 ( a ) 左视 图22 双目立体图像对 人眼的立体视觉能力魁人眼视觉的基本机能之。罔23 是人眼立体视觉形成的示意图。图中, ( 4 ,毋) 分别是视网膜前不同方向上的两组物体通过光的映射落到视网膜的不同区域扣,6 ) ,人日b 通过光的映射方向不同来判断物体的位置。当物体( 4 ,4 ,4 ) 或( 旦,b 2 ,b ) 的映射光方向相同时, 人眼的立体视觉机能依靠机体的内部条件,通过大脑的整合得到物体的深度信息,判断同一方向卜 的物体哪一个远些,哪一个近些。 b ,生 图23 人眼立体视觉形成示意吲 为了了解深度信息的产生过程,可以分析罔24 。图中由于两只日日睛有定的距离。使得物体和 眼睛的相对位置与视角不同,并且物体的影像在两眼中略育差异,大脑根据这种差异感受到物体的 深度信息,在视网膜上形成立体景象。 滋纛 b 1 ,日 第二章立体视频理论 左眼 右眼 图2 4 立体视觉 从主观感觉来看,两只眼睛可以看做一个单一的器官,可以用一个假想的眼睛代表这一器官, 即中央$ 曼( c y c l o p e a ne y e ) 。中央眼示意图见图2 5 。图中物体c 在正前方,分别作用在左右眼的中间 凹q 和g 上,q 和g 被大脑作用后,假想重叠为一个立体图像,这个图像位于中间眼的中间凹足 上。同理,物体s 分别作用与左右眼的最和处,定位在中央眼的乓处。 c s 左眼 中间眼右眼 图2 5 中央眼 2 1 3 立体视觉的几何模型 双目立体视频包括两组视点不同的视频序列,一组由左眼获取,一组由右眼获取。所以双目视 频的采集可以由两个单目系统同时采集来实现。根据所用的两个摄像机的位姿的不同,有不同的模 式。把摄像机的距离间隔和相对位置称为摄像机的几何特性。 这里主要介绍平行光学轴的几何模型,有两个配置相同的摄像机,每个摄像机由一个薄镜头和 一个离镜头厂远的且平行于镜头的成像平面组成。 图2 6 是平行光学轴几何模型。这里使用两个坐标系, 五,x ,z 1 和 x ,k ,z ,l ,分别位于两个 摄像机处,且分别位于模拟左眼的左摄像机和模拟右眼的右摄像机,该图是沿z 或者k 的负方向看 东南大学硕士学位论文 去的平面图,这里的五和艺分别为像相对于 x i ,r ,z 1 坐标系的x 坐标和相对于 x ,e ,z , 坐标 系的置坐标。由于该模型下,像点坐标的第二个分量,即k 和k 分量差异都为零,在这里所选取 的坐标系下r 和e 分量的值也为零,所以这里可以不考虑第二个坐标分量。这里的f 是摄像机焦距, 即图中的线段q 鼻的长度,也是q e 的长度。p ( x ,y ,z ) 是物点,这里由于物点相对于两个坐标 系都有一个坐标( 不过第三个分量的值是相同的) ,为了便于表示,就用( x ,y ,z ) 表示其坐标,另外 这里主要要关注的是物点的深度,即第三个分量z 。 图2 6 平行光学轴的双视觉立体几何模型 e ( x ,y ,z ) 平行光学轴的双视觉立体几何模型的几何特性【3 5 1 主要表现在一下几个方面: 1 、两个摄像机的光学轴平行,成像平面在同一水平高度( 两个像的第二个分量的值相同) ,且在 同一垂直面上。这样可以确保左视相对于右视的视差矢量和右视相对于左视的视差矢量的垂直分量 为0 ,右视相对于左视的视差矢量的水平分量为d = x ,一x 。,左视相对与右视的视差矢量为d 的相 反数。减小了求取视差的复杂度。另外物体深度与视差d 的大小成反比,且不难得出公式2 1 。 z 一钎 泣, 2 、两个摄像机光学特性是完全相同的,这样可以减少光照的变化,确保在立体对的左右两幅 图像中,相同景物的同一像块有相同灰度值。 3 、两个摄像机的成像平面平行,并且有相同( 帧的) 纵横比尺寸的投影面积。这样可以解决 透视失真问题,因为我们知道在矩形面与图像平面不平行时,会出现透视失真( 即帧的纵横比出现尺 寸变形) 。 需要说明的是实际系统中,平行光学轴的几何特性是不可能精确实现,因为不可能严格做到上 面给出的条件,只能近似实现。 2 2 立体视频压缩原理 2 2 1 立体视频的冗余 与通常的视频压缩技术一样,立体视频压缩主要依据两个方面:一方面是视频信号所包含的 冗余的有效消除:另一方面是利用人的视觉特性在图像变化不被觉察的条件下减少量化信号的灰 度级,以一定的客观失真换取数据压缩。 1 2 第二章立体视频理论 而通常视频压缩的最主要的依据是第一方面,即消除数据中的冗余,所以要了解立体视频编码 的原理,首先要搞清楚立体视频信号中包含哪些冗余。立体视频信号中主要包含的冗余有空间冗余、 时间冗余、视间冗余、统计冗余。其中空间冗余、时间冗余以及视间冗余为结构冗余。所以也可以 说立体视频信号包含结构冗余和统计冗余。视间冗余是多视点视频压缩( 包括双目即两个视点的情形) 所特有的,其他几种冗余在二维视频压缩中也存在。 各种冗余的概念与性质以及降低各种冗余的方法分析如下: l 、空间冗余 空间冗余是视频信号中同一幅图像内相邻或相近像素之间具有的相关性。 可以通过变换编码p o j 来减少这种冗余,因为变换编码利用的就是相邻或者相近像素之间的相关 性。它利用映射变换来实现对数据的建模表达,这里的映射变换是把原始信号中的各样值从一个域 变换到另一个域,然后针对变换后的数据再进行量化和编码操作。接收端对先对收到的信号进行解 码和反量化( d e q u a n t i z a t i o n ) ,然后在进行反变换以恢复原来信号( 在一定的保真度下) 。选取的映射变 换要求有较好的能量集中性,即其产生的一系列系数更佳有效,这些系数中的少数几个就能集中大 部分能量,对这部分系数进行编码所需的总比特数,要比对原始数据进行编码所需的总比特数少得 多,从而保证数据率降低。 常用的映射变换一般是函数变换法,常用的是正交变换。正交变换实现压缩的本质在于经过多 维坐标系中适当的旋转和变换,把散步在各个坐标轴上的原始数据,在新的、适当的坐标系中集中 到少数坐标轴上,从而可以用较少的编码位数来表示一帧信号样本,实现高效率的压缩编码。 k a r h u n e n l o e v e ( 1 ( 一l ) 变换p7 。,也称为霍特林( h o t e l l i n g ) 变换,是均方误差( m s e ,m e a ns q u a r e e r r o r ) 意义下的最佳变换。但需要先知道信源的协方差矩阵并求出特征值,求特征值与特征向量并不 是一件容易的事,维数较高时甚至求不出来。即使能借助计算机求解,也很难满足实时处理的要求 计算复杂,人们一方面继续寻求解特征值与特征向量的快速算法,另一方面则寻找一些虽不是“最 佳”、但也有较好的去相关与能量集中的性能且容易实现的一些变换方法。而k l 变换就常常作为对 这些变换性能的评价标准。 离散余弦变换1 3 8 1 1 3 9 4 0 1 ( d c t - d i s c r e t ec o s i n et r a n s f o r m ) 与k l 变换性能最为接近,目前几种图像 压缩编码的国际标准如静止图像编码标准j p e g ;用于电视电话的h 2 6 1 标准以及m p e g 1 、m p e g 2 都采用d c t 编码方法。它具有快速算法易于硬

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论