(信号与信息处理专业论文)基于人眼视觉掩盖效应的立体视频非对称编码技术研究.pdf_第1页
(信号与信息处理专业论文)基于人眼视觉掩盖效应的立体视频非对称编码技术研究.pdf_第2页
(信号与信息处理专业论文)基于人眼视觉掩盖效应的立体视频非对称编码技术研究.pdf_第3页
(信号与信息处理专业论文)基于人眼视觉掩盖效应的立体视频非对称编码技术研究.pdf_第4页
(信号与信息处理专业论文)基于人眼视觉掩盖效应的立体视频非对称编码技术研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学 硕士学位论文摘要 学科、专业:王堂值曼皇信息处理 研究方向:图像处理皇垒筮链通信 | ii i ii i ii i iii i ii i i i ii ii y 17 5 4 9 9 9 b a s e do nh u m a nv i s u a lm a s ke f r e c t 主题词:立体视频编码,非对称,可分级,人眼视觉特性 k e yw o r d s :s t e r e o s c o p i cv i d e oc o d i n g ,a s y m m e t r i c ,s c a l a b i l i t y , 南京邮电大学硕士研究生学位论文 摘要 摘要 立体视频能够提供更生动的动态场景表示,是下一代家庭影院、广播电视以及流媒体 应用的新媒体类型。然而,立体视频巨大的数据量为存储和传输带来了困难。高效的立体 视频压缩技术是其走向应用的关键。立体视频的压缩主要考虑两个因素,一是利用左右视 点间存在的水平视差冗余,另一个是利用人眼视觉系统的视觉心理学冗余,减少其中一个 ,视点的数据量。本文基于人眼视觉系统的掩盖特性,研究非对称立体视频编码的压缩技术。 、 本文首先介绍了已经取得共识的视觉心理学研究成果。即在立体视觉的视频质量中, 具有高质量图像的视点会掩盖低质量视点中的图像模糊,而人眼视觉系统依然可以感知到 高质量的3 d 视频,并不影响感知深度信息。 其次,论文基于上述视觉心理特征,提出了非对称立体视频编码框架,对左右视点采 用混合分辨率进行编码。本文研究了分级编码的参考模型j s v m ,并通过顺序交替左右视 点输入图像,将单视点分级编码扩展到立体视频分级编码中,对左视点采用完整的分辨率 进行编码,而右视点进行时间、空间以及s n r 的分级编码。 第三,在上述视觉特性的基础上,提出了一种新的立体视频客观质量评价准则。由于 立体视频的视频质量并不完全和左右视点的p s n r 相一致,尤其在非对称立体视频编码方 案中,左右视点对立体视频总体质量的贡献不同,本文提出的立体视频客观质量评价方法 对左右视点分配不同的权值,并考虑了采用时间分级编码时视频的运动剧烈程度对视频质 量的影响,使其更接近真实的观看质量。基于这一改进的立体视频质量评价方法,对立体 、视频分级编码框架中右视点各个分级编码方法的实验结果进行了评估,得出较优的分级策 略。 o 第四,根据最新的人眼视觉特性研究,在j m v m 参考模型下,提出了一种新的非对称 立体视频编码结构。该结构以g o p 为单位,左右视点的图像交替进行空间分辨率切换, 将降质过程平均分配到两个视点中,改进了传统的非对称立体视频编码中总对其中一个视 点进行降质处理时掩盖作用失效的情况,实验结果表明,本文的方法可以作为立体视频压 缩效率和主观感知质量的折衷。 关键词:立体视频编码,非对称,可分级,人眼视觉特性 南京邮电大学硕士研究生学位论文 a b s t r a c t s t e r e o s c o p i cv i d e o sw h i c hp r o v i d eam o r ev i v i dr e p r e s e n t a t i o no fd y n a m i cs c e n e sa r en e w t y p e so fm e d i af o rt h en e x tg e n e r a t i o no fh o m ev i d e oe n t e r t a i n m e n t , b r o a d c a s tt e l e v i s i o na n d s t r e a m i n ga p p l i c a t i o n s u n f o r t u n a t e l y ,t h em a s s i v ed a t eo fs t e r e o s c o p i cv i d e ob r i n g sd i f f i c u l t y f o rs t o r a g ea n dt r a n s p o r t t h ee f f i c i e n tc o m p r e s s i o nt e c h n i q u ef o rs t e r e ov i d e oi st h ek e yf o r a p p l i c a t i o n t h e r ea r et w of a c t st h a tc a nb ee x p l o i t e df o re f f i c i e n tc o d i n go fs t e r e ov i d e o o n e f a c ti st oe x p l o i tt h ei n t e r - v i e wr e d u n d a n c i e sb e t w e e nl e f ta n dr i g h tv i e w s ,w h i c hd i f f e rm a i n l yi n h o r i z o n t a ld i s p a r i t y a n o t h e rf a c ti st oe x p l o i tt h ep s y c h o - v i s u a lr e d u n d a n c i e si nh u m a nv i s u a l s y s t e m ( w v s ) t h i sp a p e rs t u d ya s y m m e t r i cs t e r e o s c o p i cv i d e oc o m p r e s sc o d i n gt e c h n i q u e s b a s e do nv i s u a lm a s kc h a r a c t e r i s t i co fh v s t h e m a i nw o r ko f t h i sp a p e ri sa sf o l l o w s : f i r 嘶, i nt h i sp a p e r 鹏i n c o d u c et h ee d s t i n ga c h i e v e m e n t si np s y c h o - v i s u a lr e s e a r c h , w h i c hh a sb e e nd e m o n s t r a t e dt h a th u m a nv i s u a ls y a c m 锄p e r c e i v eh i g hq u a l i t y3 dv i d e o 谢t h 呲胡融她p c 咖d e p t h i n f m m a t i o na sl o n ga so d eo ft h ev i e w si si nh i g hq u a l i t y m b l u ri nl o wq u a l i t yv i e w 啪b em a s k e db yt h eh i g hq u a l i t yv i e w s e c o n d l y , b a s e d0 1 1t h ea b o v ep s y c h o - v i s u a lf e a t u r e s ,a s y m m e t r i c a ls t e r e ov i d e oc o d i n g s t r u c t u r ei sp r o p o s e dw h i c he n c o d et h eb i n o c u l a rv i d e o si nm i xr e s o l u t i o n s t h er e f e r e n c e s o f t w a r em o d ej s v mo fs c a l a b l ev i d e oc o d i n g ( s v c ) i ss t u d i e d w ei n t r o d u c eas c a l a b l es t e r e o v i d e oc o d i n gs c h e m e ,w h i c hi sa ne x t e n s i o no fs v cb ys e q u e n t i a li n t e r l e a v i n go ft h er i g h ta n d t h el e f tv i e w si ne a c hg o p i nt h i ss c h e m e , l e f tv i e wi se n c o d e dw i t hf u l lr e s o l u t i o n , w h i l e t e m p o r a l ,s p a t i a la n ds n r s e a l a b i l i t i e sa r es u p p o r t e di nr i g h tv i e w t h i r d l y ,w ep r o p o s ean e wq u a n t i t a t i v em e a s u r ef o rs t e r e ov i d e oq u a l i t yb a s e do nt h e p s y c h o - v i s u a lf e a t u r e sm e n t i o n e da b o v e s i n c e3 dv i d e oq u a l i t yp e r c e p t i o nd o e sn o tc o r r e l a t e w e l lw i t ht h eo v e r a l lp s n ro ft h et w ov i e w s ,e s p e c i a l l yi na s y m m e t r i c a ls t e r e ov i d e oc o d i n g ,t h e c o n t r i b u t i o no fl e f ta n dr i g h tv i d e ot ot h eo v e r a l l3 dq u a l i t ya r ed i f f e r e n t 们舱p r o p o s e do b j e c t i v e m 俄l s u r ef o rs t 锄e ov i d e oq u a l i t yc o m b i n e st w op s n rv a l u e sw i t hd i f f e r e n tw e i g h t sa n da j e r k i n e s sm c a s u r e t h ej e r k i n e s sm e a s u r es h o u l dr e p r e s e n tt h eu s e rp e r c e p t i o no f m o t i o ni na v i d e o w ea l s oe v a l u a t et h es c a l a b l eo p t i o n so ft h er i g h tv i e wa c c o r d i n gt ot h en e wm e a s u r ef o r s t e r e ov i d e oq u a l i t y f i n a l l y ,a c c o r d i n gt ot h en e wr e s e a r c ho nh u m a n v i s u a lc h a r a c t e r i s t i c ,t h i sp a p e rp r o p o s e da 南京邮电大学硕士研究生学位论文 a b s t r a c t n e wa s y m m e t r i c a ls t e r e ov i d e oc o d i n gs t r u c t u r eb a s e do n i v i v ms o t b w a r c t h ep r o p o s e d s t r u c t u r et a k eag o p ( g r o u po fp i c t u r e s ) a sa ni n t e r v a lt oc r o s s s w i t c ht h es p a t i a lr e s o l u t i o no f t h et w ov i e w sa n dm o d i f yt h ep r e d i c t i o ns t r u c t u r e d e g r a d e dp r o c e s si sd i s t r i b u t e dt ob o t ho ft h e v i e w si nab a l a n c ew a yo v f e rt i m ew h i c hc a r lo v e r c o m et h e i n v a l i dm a s k i n ge f f e c ti nt h e t r a d i t i o n a la s y m m e t r i c a ls t e r e ov i d e oc o d i n g e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e d s c h e m ei sat r a d e - o f fb e t w e e nr a t ea n ds u b j e c t i v ev i s u a lq u a l i t y k e yw o r d s :s t e r e o s c o p i cv i d e oc o d i n g ,a s y m m e t r i c ,s c a l a b i l i t y ,h u m a nv i s u a l n i 南京邮电大学硕士研究生学位论文 目录 目录 摘要1 a b s t r a c t 目录1 1 0 r 第一章绪论1 1 1 课题的研究背景和意义1 1 2 国内外研究现状3 1 3 立体视频概述4 1 3 1 立体感和立体视频4 1 3 2 立体相机系统的几何结构5 1 3 3 运动估计和视差估计7 1 3 4 基于h 2 6 4 的立体视频编码框架9 1 3 5j m v m 参考模型简介l l 1 4 课题来源及论文的主要内容1 2 第二章人眼视觉特性1 4 2 1 视觉基本特性1 4 2 2 视频质量的评价方法1 7 2 2 1 视频质量主观评价方法1 8 2 2 2 视频质量客观评价方法1 9 2 3 立体视频中的视觉掩盖效应一2 l 2 3 1 人眼主观抑制理论2 l 2 3 2 立体视频非对称编码的提出。2 4 2 4 本章小结一2 5 第三章可分级视频编码在立体视频编码中的扩展2 6 3 1 单视点分级编码的原理和分类2 6 3 1 1 时域分级2 7 3 1 2 空域分级。2 9 3 1 3 质量分级2 9 3 1 4j s v m 参考模型简介3 0 3 2 立体视频中的分级编码架构。3l 3 2 1 立体视频中的分级编码扩展3 1 3 2 2 时域分级实验结果分析3 2 3 3 非对称立体视频编码中的分级策略。3 4 3 3 1 悲观的p s n r 和乐观的p s n r 3 4 3 3 2 立体视频质量评价方法的改进3 5 3 3 3 分级选项的选择及实验结果。3 6 3 4 本章小结4 0 第四章基于视频主观质量的非对称立体视频编码技术。4 l 4 1 传统的非对称立体视频编码方案4 l 4 2 基于g o p 的非对称立体视频编码方案o 4 3 4 2 1 人眼主观质量分析4 3 4 2 2 编码结构改进4 4 4 3 实验结果分析。4 8 4 3 1 编码基本配置4 8 4 3 2 上下采样滤波器的选取4 9 4 3 3 实验结果5l 4 4 】仁章d 、结5 4 i v 南京邮电大学硕士研究生学位论文目录 第五章总结和展望_ 5 5 5 1 全文工作总结5 5 5 :! j i 琵望! ;6 j g 【谢5 7 攻读硕士学位期间的学术论文5 8 攻读硕士学位期间参加的科研项目5 9 参考文献。6 0 v 南京邮电大学硕士研究生学位论文 第一章绪论 第一章绪论 立体视频技术是当前视频研究中的一个活跃领域,已经有越来越多的国内外学者从事 这方面的研究。立体视频的研究范围包括多个研究方向,如立体视频的采集与捕获技术、 立体视频的显示技术以及立体视频的编码压缩技术等。本章首先介绍了论文的研究背景和 意义,然后介绍了立体视频的基本概念以及立体视频压缩编码的关键技术,此外简要介绍 了联合多视点视频模型,最后介绍论文的主要研究内容。 1 1 课题的研究背景和意义 二十世纪科学技术快速发展,以网络、计算机和电子技术为代表的信息技术获得了突 飞猛进的发展。视频技术从黑白到彩色,再到今天的高清晰度数字视频,发展速度也极其 迅猛。现代视频技术正在向“数字化胗、。高清晰度化一和“立体化力方向发展。立体视 频技术是未来视频技术的发展趋势。虽然现在实时的二维视频可视通信已经走向成熟,基 于各种国际标准( 如m p e g 系列、h 2 6 x 系列等) 的视频产品已经进入了人们的学习、工 作和生活的各个方面,但随着计算机、通信及网络技术的发展,人们对于数字视频的要求 日益提高,人们希望看到表征自然景物更加清晰、真实的数字视频,而二维视频与增加了 场景深度信息的立体视频相比,在真实性上存在很大的局限性,相比之下,立体视频具有 很强的真实感,正越来越受到人们的欢迎。立体视频技术作为当前的一个研究热点,已经 吸引了越来越多的国内外学者。立体视频技术可广泛应用于远程工业控制、远程教育、远 程医疗、立体数字电视( 3 d n 厂) 、消费电子、三维视频会议系统、虚拟现实系统、遥控机器 人、自动导航等领域。欧洲的d i s t i m a 项目组指出【4 】:新的多媒体服务将极大地影响社会 和人们的生活,到2 0 1 0 年左右,目前在网络、通信系统以及电视系统中使用的传统图像 将被淘汰。作为新的媒体的数据,立体视频图像在以上方面有很大的应用前景【l - 2 1 。 有立体感的视频可以分为立体视频和多视点视频。这两种视频都提供立体感,区别在 于立体视频的视点是固定的,对于每一个场景只有一个固定的观看视点,每个视点有两个 通道。而多视点视频的视点是变化的,一般由两个以上的视频通道组成,可以提供多个不 同位置的观看视点,双目立体视频是最为简单的多视点视频。立体视频是利用人眼的双目 视差原理,在播放时通过显示从相距为瞳孔间距的摄像机采集到的同一场景的两个视图, l 南京邮电大学硕士研究生学位论文 第一苹绪论 分别对应人的两只眼睛,左眼看偏左的图像,右眼看偏右的图像,形成双目视差,并依靠 人的大脑将这些视图融合成一幅有意义的三维图像,使欣赏到的图像有强烈的深度感、逼 真感【3 1 。在立体视频的实用化过程中,遇到了许多问题。早期,由于立体视频显示技术的 限制,人们需要佩戴特殊的眼镜才能获得立体感,这对立体视频技术的发展形成了阻碍。 然而,随着三维显示技术的发展,立体视频技术得到了全世界学者的关注,成为了一个研 究的热点。 立体视频和图像隐含了场景的3 d 深度信息,而这一优点的直接代价就是它的数据量 是普通2 d 视频图像的两倍,这给视频数据的存储和传输带来了一定困难。特别是在将来 的立体视频实时传输中,对网络带宽将会有更高的要求。同时,随着人们对图像质量要求 的不断提高,高分辨率、多视点点对点的图像通信可能是未来网络传输高数据量立体视频 的瓶颈问题。一般而言,解决网络传输问题的方法有两个:( 1 ) 增加传输信道的带宽;( 2 ) 利用有效的图像压缩技术来去除信号本身的冗余信息。对于用增加信道带宽来提高传输数 据量的方法会增加系统的经济成本,不是有效的方法。因此,研究立体视频的压缩方法, 去除信号本身的冗余度,降低传输信道的带宽和系统成本,是未来重点研究方向,具有很 重要的现实意义。尽管目前二维图像的压缩技术在理论和实践上都已经取得了巨大的进 步,但是立体视频和多视点视频的压缩技术目前还不成熟,如何高效地编码压缩立体视频 图像,降低立体视频的数据量将是立体视频走向实用化的关键问题。 立体视频实用化过程中另外一个亟待解决的问题就是编码复杂度过高,处理时间过长, 不能满足实时要求。因为和传统的单目视频相比,立体视频的编码复杂度至少增加一倍, 只有通过降低立体视频编码复杂度,才能满足应用的实时性要求。在立体视频压缩编码方 法中,可以利用两个因素,一个因素是两个视点之间具有高度相关性,因为立体视频是对 同一场景同一时刻从略微不同的角度拍摄而来,视点间存在很高的冗余信息;另一个因素 是利用视觉心理学冗余,它涉及到人眼在观看立体视频时,只要其中一个视点具有较高的 图像质量,可以掩盖另一个视点中的图像质量的模糊,人眼视觉系统( i - i v s ,h u m a nv i s u a l s y s t e m ) 依然可以感知到高质量的3 d 视频。因此两个视点并不需要具有相同的空间、时间 以及s n r 分辨率。因此,可以采用非对称编码技术,仅对立体视频中一个视点采用完整的 分辨率进行编码、传输,而对另一个视点采用降低分辨率的方法进行编码,达到降低数据 量以及编码复杂度的目的。 本文研究了已经取得共识的视觉心理学研究成果,将可分级技术从单视点扩展到立体 视频,对立体视频的左视点视频采用完整分辨率进行编码,而对右视点采用分级编码的方 2 南京邮电大学硕士研究生学位论文 第一章绪论 法,生成不同分辨率的右视点码流,传输时可以根据带宽的条件,动态抽取码流,实现立 体视频左右视点的非对称编码。论文还提出了一种改进的立体视频客观质量评价方法,它 结合了非对称编码时左右视点对立体视频质量的不同贡献,分配不同的权重因子,并结合 视频的运动程度,更接近真实人眼的主观质量,以此作为评价各种分级方法性能的依据。 另外本文又根据人眼视觉主观特性,提出了基于g o p 的空间分辨率切换的立体视频非对 称编码框架,使得降质过程能够平均分配到两个视点中去,解决了长时间对一个视点采用 降分辨率的非对称编码时,视觉掩盖效应失效的情况。 1 2 国内外研究现状 国外在数字立体视频方面的研究从2 0 世纪9 0 年代初期就已开展,二十多年来,其研 究成果已经涉及立体视频技术的各个方面,包括立体视频的采集捕获、立体视频编码压缩、 立体视频传输以及立体感的呈现等。其中,德国、美国、法国、日本和韩国等国家对立体 视频技术开展的研究工作比较深入例如,欧洲几个国家从1 9 9 2 年开始联合开展的 d i s t i m 项目哪,采用m p e g - 2 编码标准作为基础,现已实现了一个集捕获、显示、压缩 和传输于一体的完整的立体视频系统,并得到了广泛的应用;德国的h h i 研究所致力于研 究沉浸式的立体视频会议系鲥5 l ,该系统能够将实际的会议桌和远程与会者的虚拟会议桌 无缝的拼接起来,再配备上逼真的立体视觉呈现,使与会者感觉就像在面对面进行交流。 另外,韩国的e t r i 研究所对于立体视频捕获、压缩和传输等技术的研究也很深入,并成 功实现了2 0 0 2 年足球世界杯的立体视频转播【6 】,图1 1 所示为该研究所拍摄的世界杯比赛 的立体视频图像对。 ( a ) 左视点图像( b ) 右视点图像 图1 1 韩国e t r i 研究所拍摄的立体视频序列( 缩放比例3 5 ) 国内学术界对于立体视频技术的研究始于2 0 世纪9 0 年代后期,到目前为止,已在立 体视频的编码、压缩以及虚拟视点合成等方面取得了一定的研究成果。其中,上海大学对 3 南京邮电大学硕士研究生学位论文 第一苹绪论 于立体视频视差估计的研究开展得非常深入,提出了基于立体摄像几何特性的视差匹配快 速搜索算法、基于视差场分割的立体视频编码和应用分层马尔可夫随机场( m r f ) 模型的视 差估计方法r 7 l 。另外,天津大学也较早地开展了对于立体视频技术的研究,其研究成果包 括:基于三维小波的立体视频编码方法、基于四叉树结构的区域视差估计技术,立体视频 虚拟视点的合成嗍。 1 3 立体视频概述 1 3 1 立体感和立体视频 客观世界在空间上是三维的,人的双眼通过从略有不同的位置观看景物获得双目深度 感觉,从而获得真实的立体感。对于一般的用单镜头摄像拍摄的单视图像视频,人们可以 通过透视、阴影、遮挡、明暗等3 d 因素来获得3 d 感觉,但这些3 d 因素并不能给出真实 的三维世界。根据对人眼视觉系统( h v s ) 特性唧的研究可知,深度才是最有效的3 d 信息。 对视觉的研究和应用从根本上说应该是三维的。现有的大多数图像采集装置所获取的 图像本身是在二维平面上的,尽管其中可以含有三维物体的空间信息。要从二维平面图像 中恢复三维立体空间信息,关键是要测量出景物各点距观察者( 或任一参考点) 的距离, 获得深度信息,而立体视觉是解决这个问题的一种重要方法。立体视觉主要研究如何借助 ( 多图像) 成像技术从( 多幅) 图像里获取场景中的距离( 深度) 信息【l o l 。立体视觉的基 本方法是从两个或多个视点去观察同一场景,获得在不同视角下的一组图像,然后通过三 角测量原理获得不同图像中对应象素间的视差,进而推断场景中目标的空间位置。立体视 觉的处理过程与人类视觉系统的感知过程有许多类似之处,事实上,人类视觉系统就是一 个天然的立体视觉系统,其视觉过程可看作是一个复杂的从感觉( 感受到的是对三维世界 的二维投影得到的图像,在这一阶段,三维深度信息是受损的) 到知觉( 由二维图像认知 三维世界内容和含义) 的过程【1 1 1 。 在立体视觉中,两个处在不同位置的摄像机同时拍摄同一景物获得的两幅图像称为立 体对或立体图像。立体图像序列称为立体视频。立体图像视频的主要限制是其观看位置受 摄像机位置的束缚,通常,3 d 成像系统在观看位置上比立体显示更自由。然而,人们对词 “立体的”和“3 d 常常不加区分地替换使用,因为立体图像视频可很容易地扩展到3 d 。 4 南京邮电大学硕士研究生学位论文 第一苹绪论 1 3 2 立体相机系统的几何结构 在分析立体摄像机的成像原理之前,先规定三个坐标系: ( 1 ) 世界坐标系:也称为真实或现实世界坐标系统,它是客观世界的绝对坐标,三个轴 分别用x y z 进行表示,其中z 轴表示深度轴。 ( 2 ) 摄像机坐标系:以摄像机为中心制定得坐标系,三个轴分别用x y z 表示,其中z 轴 为摄像机光轴。 ( 3 ) 成像平面坐标系:指摄像机所成像的平面坐标系,两个轴平面与摄像机坐标系的砂 平面平行。 图1 2 给出了双目立体摄像系统的简单模型。图中两个镜头中线间的连线称为系统的 基线曰,镜头中心到成像平面的垂直距离称为焦距乒世界坐标系中物体点与两个镜头中心 确定的平面称为外极平面( e p i p o l a rp l a n e ) ,外极平面与左右图像平面的两条交线称为共轭 外极限( c o n j u g a t ee p i p o l a xl i n e ) 。也就是说,3 d 场景中的物点在两个图像平面中的投影处 在一对共轭外极线上,这是视差匹配的一条重要依据。如果两个摄像机的光轴平行,则共 轭外极线对在一条直线上。 假设世界坐标系的原点位于基线b 的中线,像平面坐标点的原点位于图像的中心。 e z ) 表示3 d 场景中一个物体点形的世界坐标系,该点在左右图像中投影的两个像点分 别是( x l , y l ) 和( x r o r ) ,显然,这两个像点是一对同名点,它们之间的差矢量d f ( x l - x r , y t , - y r ) 就是这两个像素点之间的视差( 以左图像为参考图像) 。 外 左视点右视点 图1 2 双目立体摄像系统模型 当两个摄像机的光轴平行,且摄像机的焦距设置相同时,图1 2 将简化为图1 3 所示 的平行双目立体摄像系统( x z 平面) 。由图可得,两条共轭外极限在同一条直线上,因此, 壹塞坚皇奎堂堡主堕壅生堂垡丝奎 苎二童堕笙 l _ _ _ - _ _ _ _ _ _ _ _ _ _ _ - - _ _ _ _ _ _ _ _ _ _ - _ l _ _ - 。- _ _ _ 。_ _ _ _ _ _ _ _ _ _ _ i _ _ _ _ _ _ - _ _ _ i _ - _ i _ _ _ 。- _ _ _ _ - - _ _ - _ _ _ _ _ _ - 。_ _ _ _ 。一一 垂直方向( y 轴) 不存在视差,只有水平方向( x 轴) 存在视差,即d = ( x l - x r ) 。 z 光轴 。 光铀 陇距) llr i 7 i 一】 ( x l o l )b 艮南 左视点右视点 图1 - 3 双目平行摄像机成像原理 由透视投影及近似三角性原理,可导出如下关系式: 由式( 1 一1 ) 可解得形的x 与z 坐标: x + b 1 2 z x b 1 2 z x :一垫墨型:一里照型 2 ( 一吒) 2 d z :笪:笪 ( 一x l ) 2 d 根据透视原理,可求出形的】厂坐标如下: 0 - 1 ) ( 1 - 2 ) ( 1 - 3 ) y :一皇! 兰墨! 墨2 :一堡! ! 墨羔墨! ( 1 - 4 ) 2 ( x r - - x 厶) 2 d 式( 1 3 ) 将物体与像平面的距离z ( 即物体的深度) 及视差d 直接联系了起来,视差直 接反映了物体的深度信息,视差与深度z 成反比,即当物体距离摄像机越近,其视差越大, 反之则越小。 本文对于立体视频编码和传输的研究都是基于双目平行立体摄像系统,实验所采用的 立体视频测试序列都是平行摄像机采集的。 6 南京邮电大学硕士研究生学位论文 第一苹绪论 目前常见的双目立体摄像机有一体机和组装机两大类。图l _ 4 所示为一架一体化的双 目立体摄像机,一体机是专门为立体摄像而设计制作的摄像机,摄像机本身就有两个镜头, 其特点是两个镜头的位置校准得比较精确,采集的立体图像对在垂直和纵向上偏移误差比 较小。图1 5 所示为两个普通摄像头组装的双目立体摄像机,所采用的摄像机在类型上没 有限制。但是,要求摄像机的体积比较小,因为人眼双目距离为6 2 - 7 6 m m ,为了模拟人眼 的视觉系统,两个摄像机镜头中心的距离,即基线曰,必须和人眼双目距离相近。组装机 的优点是价格便宜,但是采集的立体图像对精确度不高。另外由式( 1 3 ) 可得,视差除了跟 物体深度有关系外,与摄像机的焦距以及基线距离也有直接关系,为了符合人眼视觉系统 的特点,深度和视差倒数之间应保证线性对应关系,即摄像机的焦距和基线距离之间的乘 积髟应为常数。那么,双目平行立体摄像机要实现变焦功能,必须同时调节基线距离,目 前有些一体化双目立体摄像机已经实现变焦的功能,而组装的立体摄像机不容易实现变焦 功能。 图l 一4 一体化双目立体摄像机 图l - 5 由两个普通摄像头组装而成的双目立体摄像机 1 3 3 运动估计和视差估计 运动补偿预$ 1 j ( m o t i o nc o m p e n s a t i o np r e d i c t i o n , m c p ) 是对活动图像进行压缩时所使用 的一种帧间编码技术。在一般情况下,相邻帧之间的内容实际相差不大( 除了有场景切换 7 南京邮电大学硕士研究生学位论文 第一犟绪论 等) ,有很大一部分甚至是完全一样的,所以相邻帧间有较大的相关性,也就是有很大的 冗余,这种相关性称为时域相关性。运动补偿的目的就是要消除这种时域相关性。 运动补偿预测编码技术己经广泛应用于数字视频压缩中,并已被多种压缩标准采用。 其原理是利用帧间的空间相关性,减小空间冗余度。帧间编码可以减小冗余度的原理是因 为两帧之间有很大的相似性。如果将前后两帧相减得到的误差作编码,那么所需比特就要 比帧内编码所需的比特少。因为帧间误差集中在零附近,可以用短的码字编码传送。运动 补偿编码主要包括运动估计和预测误差编码两部分。运动估计的方法有很多,其中基于块 匹配的运动估计,由于相对简单和有效,应用广泛。其基本思想是将图像序列的每一帧划 分成子块,对于当前帧中的每个块到前一帧某一给定搜索区域内所有候选块位置,找出与 当前块相似的块,即匹配块,当前块与其匹配块之间的相对位移即为该块的运动向量。传 输时只需将运动矢量和估计的误差值送到接收端。接收时根据收到的运动矢量将参考帧作 平移,就得到对当前帧的估计,再加上接收到的误差值,就是当前帧。 在立体视频图像的编码中,为了达到高效压缩的目的,除了要考虑每个视频通道内前 后帧之间的时域相关性和帧内图像的空域相关性外,还必须考虑两个视频通道之间图像的 空域相关性,前者可以利用运动估计( m o t i o ne s t i m a t i o n , h 诬) 和补偿技术进行压缩编码去除 通道内冗余度,后者利用视差估计( d i s p a r i t ye s t i m a t i o n , d e ) 与视差补偿预测技术( d i s p a n t y c o m p e n s a t i o np r e d i c t i o n , d c p ) 去除通道间冗余度。视差估计与补偿是立体视频图像压缩编 码中的一项关键技术【1 2 l ,它能够消除左右两个视频通道的立体图像对之间的冗余。视差估 计和运动估计相似,两者都是寻找两幅图像之间的相关性,所不同的是,运动估计中两幅 图像在时间上是不同步的,是由同一个相机拍摄得到的;而在视差估计中,两幅图像在时 间上是同步的,是由两个相机在同一时间不同视场拍摄得到的。然而,视差估计要比运动 估计复杂的多1 1 3 。在运动估计中通常只有部分像素点发生移动,而在视差估计中几乎所有 的像素的视差都不为零,除非物体表面离成像平面很远,视差才可以看作零【1 4 】。 视差估计在立体图像分析与编码技术中占有重要的地位。视差估计过程就是在立体图 像对中求解对应性的问题,获取视差矢量的过程,即对于一个图像中的一点,获得其在另 一个图像中对应点( 匹配点) 的过程【”】。根据立体视频成像的原理,视差估计具有以下几 点约束条件: 0 ) # 1 - 极线约束:立体图像对中相对应的同名点是在一对共轭外极线上。外极线约束是 立体视觉中最基本的约束,以平行立体摄像系统为例,视差估计只需沿扫描线,进行x 方 向的搜索即可。 8 南京邮电大学硕士研究生学位论文 第一苹绪论 ( 2 ) 相似性约束:指立体图像中的对应点及其领域有相似的亮度和相近的特征。 ( 3 ) 唯一性约束:图像中的一个点仅对应另- - i i j 图像中的一个点。因为物体上的一个点 仅投影到媒体图像的一个点上。 ( 4 ) 连续性约束:同一物体表面像素点的深度一般很相近,因而它们的视差一般也是相 近的。但是,在物体的边界,视差矢量会发生跳跃。 ( 5 ) 有序性约束:图像像素在两幅图像中的排列次序应是相同的,其视差也是有序的, 遮挡区域除外。 、 ( 6 ) 形状连续性约束:要求沿物体边界的视差偏差也是连续变化的。 尽管计算机视觉领域中已经提出了许多视差估计算法可以应用于立体视频编码,但是 直接将这些方法应用到立体视频编码上并不是有效的,这是由于在计算机视觉中,为了重 建景物的三维结构,必须要求视差估计有足够高的精度,能够获得精确密集的视差场;而 立体视频编码的目标是寻求在码率和失真之间的折衷,获得更高的压缩比,并不要求精确 的视差估计目前的视差估计方法主要有特征值匹配法、块匹配法和像素匹配法l 旧像素 匹配法精度最高,获得的图像质量最好,但计算量很大,计算复杂度高,块匹配法虽然精 度低一些,但算法简单、有效,常被采用i 忉。特别是常用的单通道视频编码标准,如 m p e g - i 2 、h 2 6 3 、h 2 6 4 等标准,都是采用基于块的混合编码方法,因而,基于这些标 准的立体视频编码方案也比较适合采用基于块的视差估计方法。另外,特征匹配法是一种 比较有效的视差估计方法,但必须以对象分割为基础,由于目前视频对象的自动分割技术 还不成熟,所以特征匹配也没有得到广泛的应用。 1 3 4 基于h 2 6 4 的立体视频编码框架 h 2 6 4 是一种高效的单通道视频编码标准,但对于立体视频编码来说,并不是对左右 通道分别采用高效的单通道视频编码,就可以达到很好的压缩效果。由于立体视频捕获系 统是从两个视角对同一场景进行拍摄,左右两个通道的图像对之间存在很强的相关性。因 此立体视频编码除了要考虑每个通道内帧内图像的空间冗余度以及帧间图像之间的时间 冗余度外,还要考虑左右通道图像之间的空间冗余度。前者采用通道内的运动估计补偿, 后者采用通道问视差估计补偿来去除其冗余度。典型的基于块的立体视频编码有以下三种 方案,如图1 6 所示。 9 南京邮电大学硕士研究生学位论文 第一章绪论 左通道 基本层 右通道 增强层 ( a ) 方案i 左通道 基本层 右通道 增强层 雾 基本层0 愀愀m 右通道r p d c pr d c p 一 糊层弋献跌斌 图1 6 三种典型的基于h 2 6 4 标准的立体视频编码方案 基于h 2 6 4 编码技术,对图1 6 中的三种典型的基于块的立体视频编码方案解释如下: 1 方案i 如图1 - 6 ( a ) 中所示,左右通道进行独立的运动补偿预测( m c p ) 编码,分别进行h 2 6 4 编 码,该方案只利用了左右通道内的相关性,没有利用左右通道之间的相关性,编码效率低。 2 方案 如图1 - 6 ( b ) 中所示,考虑左右通道相关性和右通道视差预测的残差,左通道采用h 2 6 4 编码,右通道采用基于左通道的视差补偿预测( d c p ) 编码,右通道视差预测的残差也采用 h 2 6 4 方式进行编码。这种编码方案仍缺乏效率,没有充分利用右通道前后帧之间的时间 相关性。 3 方案+ 如图1 - 6 ( c ) 中所示,左通道仍采用普通的h 2 6 4 编码,右通道的每个像素块进行两种 方式的预测:一种是基于右通道先前帧图像的m c p 方式,另一种是基于左通道图像对应 帧的d c p 方式,然后从中选择预测误差较小的一种。m c p 不能预测运动引起的“暴露 区域( 暴露是在前一帧中不能被看见的运动部分,在下一帧中暴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论