（信号与信息处理专业论文）3d字幕技术研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：55 大小：11.53MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

（信号与信息处理专业论文）3d字幕技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要随着科技的进步和大众对生活品质的不断追求，记录真实三维世界的立体电影备受瞩目。三维电影给观众带来了前所未有的视觉冲击和丰盛的视觉享受，但同时也引发了新的问题视觉疲劳。3 d 字幕对立体图像内容的干扰是一个主要原因。本文的研究目标是实现一个简单、便捷、观看舒适的3 d 字幕叠加系统。作者在认真分析和总结了国内外的3 d 字幕技术的研究成果基础上，以双目立体视觉技术为理论依据，全面分析人眼的立体视觉特性，重点剖析双目视觉和焦点调节与会聚两个影响因素，实现了一个基于双目视觉的3 d 字幕叠加的系统。该系统主要依据立体图像对的双目视差信息，采用o p e n g l 中：艾汉字将具有视差的字幕叠加在立体图像对上。根据人类的心理立体视觉因素将字幕区域选定在图像底部，同时字幕的属性也随图像内容自适应调整。针对3 d ：字幕视差的计算，本文采用改进的基于线增长的立体匹配算法获取稠密视差图。改进措施有采用 h a r r i s 法选取种子点，松弛迭代方法剔除误匹配，以保证种子点选取的高精度：用中值滤波消除匹配后的噪声，使视差平滑过渡，获得了较为理想的视差效果图。最终本文实现了基于立体图像内容的视差叠加3 d 字幕的系统，将叠加了3 d 字幕的立体图像对立体显示。实验结果表明，该3 d 字幕叠加系统可作为质量评价的测试平台，根据立体图像视差简单便捷的调整3 d 字幕的视差、属性等信息，以便达到同步舒适地观看立体图像和3 d 字幕的目的。关键词：立体视觉；3 d 字幕；双目视差；立体匹配 w i t ht h et e c h n o l o g yd e v e l o p m e n ta n d i n c r e a s i n gd e m a n do fh i g hq u a l i t yl i f e ，t h e s t e r e o s c o p i cf i l m ，w h i c hc a nc a p t u r et h er e a li n f o r m a t i o no ft h ew o r l dh a sa t t r a c t e d h e a v ya t t e n t i o nf r o mt h ec o m m u n i t y t h es t e r e o s c o p i cc o n t e n tp r o v i d e st h ei l l u s i o no f d e p t hp e r c e p t i o na n dv i s u a l l ys t i m u l a t i n gt ot h ev i e w e r ，b u tan e wp r o b l e mi m p o s e d b ys t e r e o s c o p i cf i l mi se y es t r a i n o n ek e yf a c t o ri st h ed i s p l a yo f3 ds u b t i t l eo n s t e r e o s c o p i ci m a g ec o n t e n t t h ep u r p o s eo ft h i sp a p e ri st or e a l i z eas i m p l e ， c o n v e n i e n t s y s t e mf o ro v e r l a y i n gs t e r e o s c o p i cs u b t i t l e s ，t h u sv i e w e r sa r ea b l et o w a t c ht h es t e r e oi m a g e sa n dr e a ds u b t i t l e sm u t u a l l yw i t he a s ea n d c o m f o r t t h er e s e a r c ho f3 ds u b t i t l et e c h n o l o g yh o m ea n da b r o a dh a sb e e n c a r e f u l l y s t u d i e da n ds u m m a r i z e d a f t e ra n a l y s i so ft h eb i n o c u l a rs t e r e ov i s i o na n dh u m a n v i s u a l f e a t u r e ，e s p e c i a l l y ，t h ek e yi n f l u e n c ef a c t o r s b i n o c ：u l a rd i s p a r i t ya n d c o n v e r g e n c e & f o c u s t h ep a p e rp r o p o s e st h a tt h em a i nc r i t e r i af o r o v e r l a y i n g s t e r e o s c o p i cs u b t i t l e si st h ed e p t ho fs t e r e o s c o p i ci m a g ec o n t e n t t h es y s t e mi sb a s e d o nt h ep r i n c i p l eo fb i n o c u l a rd i s p a r i t yt oo v e r l a yt h r e e d i m e n s i o ns u b t i t l e sb yu s i n g t h ec o r r e s p o n d i n gr e l a t i o no f3 ds u b t i t l e sd i s p a r i t ya n d d e p t ho ff i e l d t h es u b t i t l e s a r es u p e r i m p o s e da tt h eb o t t o mo ft h ei m a g ei nt e r m so ft h eh u m a n p s y c h o l o g i c a l s t e r e op e r c e i v e a tt h es a m et i m e ，t h ef o n ta t t r i b u t e so fs u b t i t l e sc h a n g e sa d a p t i v e l v b a s e do nt h e d e p t hp l a c e m e n to fi m a g ec o n t e n t f o rt h eb i n o c u l a rd i s p a r i t y c o m p u t a t i o no fs t e r e o s c o p i cs u b t i t l e s ，a ni m p r o v e dd e n s es t e r e om a t c h i n ga l g o r i t h m b a s e do nl i n e - g r o w t hi sa d o p t e d i no r d e rt og u a r a n t e et h ea c c u r a c yo ft h es e e d s ，w e a d o p th a r r i sc o m e r sd e t e c t i o nt oe x t r a c tt h es e e d s ，a n d u s i n gr e l a x a t i v ei t e r a t i o n m e t h o dt or e d u c et h ef a l s em a t c h f i n a l l y ，w eu s em e d i a nf i l t e rt oe l i m i n a t ei m a g e n o i s ea n du n r e l i a b l ed i s p a r i t y ，t h u so b t a i n i n gc l e a rd i s p a r i t yg r a p h i n c o n c l u s i o n ，as y s t e mf o ro v e r l a y i n g s t e r e o s c o p i cs u b t i t l e sh a sb e e n i m p l e m e n t e db a s e do nt h ed e p t ho fs t e r e o s c o p i ci m a g ec o n t e n t t h ee x p e r i m e n t s s h o wt h a tt h es y s t e mf o ro v e r l a y i n gs t e r e o s c o p i cs u b t i t l e s ，a sa q u a l i t ye s t i m a t i o nt e s t p l a t f o r m ，c a na d j u s tt h ed i s p a r i t ya n da t t r i b u t e so fs u b t i t l e sc o n v e ：n i e n t l y ，a n de n a b l e v i e w e r st or e a dt h es t e r e oi m a g e sa n ds u b t i t l e sw i t he a s ea n dc o m f o r t k e y w o r d s ：s t e r e ov i s i o n ；s t e r e o s c o p i cs u b t i t l e ；b i n o c u l a rd i s p a r i t y ；s t e r e om a t c h i n g 第一章绪论 1 1 引言第一章绪论弟一旱殖比阿凡达一一这部巨作的问世，给观众带来身临其境的逼真感觉和无与伦比的立体观赏效果，在全球又掀起了一股3 d 电影热的浪潮。二f 是一场有关立体电影的革命开始了。詹姆斯卡梅隆曾预言：2 0 0 9 年是立体电影的元年，3 d 电影时代已经来临。随着2 0 0 9 年这部创作了十二年之久的阿j 凡达的上映，中国立体电影放映银幕在仅半年之内，就从最初的八十二块增长到两百多块，并且还保持继续增长的态势。由此不难看出3 d 电影的经济价值和未来发展前景。观众热衷于立体电影，是因为其呈现出的画面具有强烈的立体感，使观众仿佛身临其境地处于影片的场景中。人类生活的自然界是一个真实的三维立体世界，通过双眼获得物体的三维立体信息，所以观众更加追求与真实世界相类似的立体感知。立体电影潜在的经济价值和独特性的观看方式，吸引更多的人关注立体电影，进而关注其背后的原理立体视觉成像技术。立体电影是立体视觉技术应用的巨大进步，也是人们一直追求的“更真实的还原所见世界”目标的实现。然而立体电影在给我们带来视觉震撼的同时，也给我们带来了一系列问题。为了满足全球不同语言观众的观看需求，字幕是电影中必不可少的元素。假设直接采用传统二维字幕的技术手段会破坏立体图像自然的立体感，已经无法同步满足立体电影的需求，使得3 d 字幕技术的研究亟不可待。 1 23 d 字幕技术国内外研究动态关于3 d 字幕技术的研究，国内外研究成果并不显著，还处于研究的初期阶段。从国内外的应用现状看，现今的立体电影往往直接将字幕放置在立体图像的最前端，字幕自始自终漂浮在显示屏幕的前面，而对画面所呈现的纵深立体感不加考虑，这样3 d 字幕的感知深度与立体图像内容相互干扰，观众不能同时顺利地阅读到立体图像内容和字幕信息，眼睛会感觉很不舒服，甚至造成观众头昏眼花、恶心等不良的反应，导致严重的视觉疲劳。诸神之战这部影片把3 d 字幕问题表现的淋漓尽致，据羊城晚报报道：该影片是后期转化的立体效果，观众佩戴立体眼镜注视影片时，非常失望地看到第一章绪论立体场景如同一个个呆板的立体贴画。被观众评论为伪3 d ，只有中文的字幕最具立体感。该电影中虽然字幕实现了立体显示，但因字幕没有与场景有效地结合，致使视觉效果很差，造成该影片的失败。备受瞩目的阿凡达，与以往有了长足的进步，3 d 字幕的叠加深度随立体图像场景深度变化而改变，然而在3 d 字幕效果方面也差强人意。随着立体图像场景的变化，3 d 字幕不断改变深度信息的同时，字幕区域也随着场景改变而调整位置，造成字幕在场景中跳来跳去的效果。眼睛在观看立体图像内容时，还要寻找字幕，眼睛焦点随之不断改变，仍会导致视觉疲劳，影响观影效果。在国外理论方面的研究体现在专利技术上。i m a x 公司的b e r i ct o d o r 等人在文献【：【】中提出了基于三维图像内容的深度叠加3 d 字幕的理论。其思路：将立体图像做垂直样本线投影，分割简化为一个抽象图像对。基于抽象深度图计算代理深度，从而确定一个字幕文本的渲染属性。此方法极大地加快了深度的计算速度，具有一定的实时性，但由于丢失了大量信息而不可避免的降低了可靠性。 c l a y d o n ，l a u r e n c ej a m e s t 2 】等人提出在立体观看环境中实时调整立体字幕位置的系统与方法，可以方便地设置立体字幕内容的位置和属性参数。在视差的计算中，它是将图像分割成若干个小块，分别求取每块的视差。然后对视差结果进行统计分析，选出合适的视差叠加立体字幕。每一帧图片都要重复此过程，十分繁琐，且对相邻帧字幕的平滑过渡未给予考虑。在三维立体字幕技术领域，国内的研究尚不多见。清华大! 学教授戴琼海提出了一种立体视频字幕添加方法【s 】，该方法研究对象为多视点的立体图像。其关键技术为通过调整字幕在不同视点中的水平视差大小，提升立体图像的观赏效果。具体操作方法：根据字幕图像最左端和最右端图像的视差总量，计算字幕元素在每个视角内字幕的偏移量大小。然后在每个视角图像上分别添加字幕元素，通过调整字幕在不同视角中的视差量，实现字幕的立体效果。该方法优点在于可使字幕元素在立体图像中具有一定的深度效果，大大增强立体图像的观赏效果，并且可根据用户需求改变字幕在场景中的深度，方便调整其立体效果。此发明不仅为多视点立体显示中的字幕添加奠定了理论基础，同时对双目视点上的字幕叠加也有一定的参考价值。 1 3 研究的目的和意义字幕是听力对话的文字表述，被翻译成一种语言，与图像同步显示。字幕通常被使用在当电影中对话的语言与观众掌握的语言不一致的情况，字幕的目的是协助没能掌握该外语语种的观众或帮助听觉有缺陷的观众理解内容。然而在立体第一章绪论影像中，字幕却阻碍了观影效果，视觉中心的混乱这一问题在立体电影中表现得尤为严重。在戴上立体眼镜观看立体电影时，观众仿佛步入了一个逼真的梦幻世界，那么漂浮在这个梦幻世界前端的字幕则十分突兀，它既不属于眼前的场景，但又有触手可及的感觉【4 】。有着语言的差异观众必须依靠字幕，但是观看字幕不仅可能错过场景中的视点，还会由于眼睛焦点的变化产生视觉疲劳，这将极大地影响观影效果。因此在立体图像中，字幕的摆放深度和放置位置变得非常关键。如何使字幕的叠加既不会对立体图像的内容本身造成干扰，同时又能让观众舒适地观看到字幕及图像内容，给人以自然融合的立体感，这一命题在3 d 字幕技术的研究中尚待解决。传统的字幕系统多为平面内容配备的2 d 字幕，在立体图像中添加字幕与平面图像中添加字幕的方法差异很大。若沿用传统平面图像字幕添加方法，将2 d 字幕与立体图像内容同时显示，模拟效果图如图1 1 所示。图1 1传统字幕显示3 d 图像效果图可以看出，立体图像突出于显示屏幕，有一个明显的深度，而字幕仍放置在显示屏幕上。当观众戴上立体眼镜观看立体图像的时候，观众可能观看到字幕在显示内容之后，也可能因为前方景物的遮挡，看到的是字幕的虚影。观众此时需要很费精力的去寻找字幕，即在看立体图像内容的同时，很难同步观看到字幕内容。假设要同时看到两者，眼焦点需不断地在2 d 字幕的显示屏幕平面和立体图像内容的所在深度之间来回移动，造成眼睛疲惫不堪。这个问题对于大屏幕3 d 影院的观众就表现地更加突出，令观影过程更加不愉快。如在i m a x 的3 d 影院播放的影片显示的立体图像有更强的视差、更逼真，那就意味着图像内容更接近观众。这种情况，不仅字幕在场景中缺乏立体感，而且会大：大影响立体图像观赏效果，长期观看甚至会导致观众恶心呕吐。第一章绪论因此，目前的字幕系统无法满足立体影像的需求，能将字幕显示在一个可接受的深度位置的3 d 字幕系统是十分有商业前景和研究价值的。需求推动市场，更是推动技术更新的原动力。立体电影的热映促使3 d 字幕技术应运而生，成为前沿课题。 1 4 论文的研究内容及组织结构 1 4 1 研究内容攻读硕士学位期间，本人先后参与了基于双目视觉的三维重建研究、立体匹配算法和3 d 字幕技术研究等工作。本文的研究目标在于为立体视频( 3 d 电影) 寻求一种便捷、简单、观看舒适的3 d 字幕系统，目的是缓解观影人在观看立体电影时的视觉不舒适和疲劳问题，使其能更舒适地观看立体图像和3 d 字幕。一方面，在借鉴总结专利【l 】【2 】理论基础上，查阅大量立体字幕相关的研究文献，实现了一种基于立体视觉的双目视差原理叠加3 d 字幕的系统。另一方面，在3 d 字幕叠加系统的关键技术一一立体匹配算法做了大量的科研理论研究和实验分析。该系统主要包括视差计算( 立体匹配) 、叠加字幕和立体显示三大模块。综述本文的主要工作归纳为以下几个方面： l 、深入了解和调查了立体电影的技术背景，从理论上分析了传统字幕系统应用于立体图像时造成的缺陷，并对3 d 字幕的研究现状进行了总结归纳。 2 、自主学习了o p e n g l ，重点学习了虚拟成像原理和o p e n g l 的中文字体显示；深入研学了计算机视觉理论，着重研究了人眼的立体视：觉特性和基于双目视觉的立体视觉技术；并对立体匹配算法进行了系统的研学，包括立体匹配的种类，立体匹配的研究现状和难点，以及立体匹配的匹配准则等。参考现有的立体匹配算法，搭建了作者的实验系统框架，为后续研究算法的调试和扩展打下基础。 3 、针对获取立体图像对的视差信息问题，依照经典立体匹配算法，分析了立体匹配算法各种类型相结合的可能性；总结了稠密视差计算的立体匹配方法，选取基于区域增长的立体匹配算法做重点研究，同时对其两步骤做了通彻细致的理论研究与实验尝试。实现了一种改进的基于线增长的立体匹配算法。 4 、在立体视觉技术和人眼的立体视觉成因的理论指导下采用基于双目视觉原理叠加3 d 字幕的方法。通过3 d 字幕视差和立体图像对深度的对应关系，基于双目立体视觉原理，运用o p e n g l 库函数将具有视差的字幕叠加在立体图像对上。实现了一个基于立体图像内容的视差叠加3 d 字幕的系统，3 d 字幕的视差大小可自适应的调整，以达到同步且舒适地看到立体图像和3 d 字幕的目的。 4 第一章绪论 1 4 2 论文组织结构全文共分为六章，章节安排和主要内容如下：第一章绪论。因传统字幕系统无法满足立体电影需求的现状，全面系统总结了国内外3 d 字幕的研究现状，重点说明了本文的研究目标与意义。结合目前作者的实际工作，引出了本论文的研究内容及组织结构。第二章人眼立体视觉。首先介绍人眼的立体视觉成像原理，结合人类视觉的生理和心理立体视觉因素，重点分析对立体图像深度感知影响较大的双目视差、焦点会聚与调节两个因素，最后综合人眼的视觉特性在3 d 字幕技术应用上的影响，提出本文3 d 字幕研究的思路。第三章双目立体视觉技术。在分析了人眼的立体视觉基础上，首先介绍立体视觉概况和双目立体视觉的研究成果，然后对双目立体视觉的成像原理进行研究，理论推导视差与深度的关系。并对双目立体视觉的关键技：术立体匹配做了全面的研学，为后续研究提供了理论基础。最后采用基于双目视觉的原理叠加3 d 字幕，并针对3 d 字幕的深度、显示位置、属性等做了深入而细致的研究。第四章立体匹配算法计算视差。首先总结了稠密视差计算的立体匹配方法，详细阐述了基于区域增长的立体匹配算法理论。改进了基于线增长的立体匹配算法，引入h a r r i s 角点检测算子提取种子点，松弛迭代算法剔除误匹配，以保证种子匹配的精度。最后，对视差图用中值滤波法消除匹配后的噪声问题，使视差平滑过渡。第五章基于双目视觉的3 d 字幕叠加系统。首先设计了：本文的基于双目视觉叠加3 d 字幕的系统的流程图。通过3 d 字幕视差与立体图像对深度的对应关系，基于双目立体视觉原理采用o p e n g l 库函数将具有视差的字幕叠加在立体图像对上，最后将叠加了3 d 字幕的立体图像对三维显示。第六章总结和展望。本章对本文完成的具体研究工作加以总结，分析了本文研究中存在的问题和局限性，并对进一步改进和完善系统，指出立体字幕技术未来可研究的工作。第二章人眼立体视觉第二章人眼立体视觉目前针对数字立体视频技术的研究正如火如荼地进行，但研究的重点已经从立体视频的制作转向如何让观众更加舒适观看影片的方向，用以满足人们对生活品质的不断追求。人眼有着极其复杂且精确的成像系统，使得双眼观看到的稍有差异的图像在人脑中可准确地呈现出场景的三维信息。为了满足人眼立体感知的舒适度，立体图像上叠加的3 d 字幕让人眼感觉自然，需深入原理层面对人眼的立体视觉系统进行研究。本章首先介绍人眼的立体视觉成像原理，结合人类视觉的生理和心理立体视觉因素，重点分析对立体图像深度感知影响较大的双目视差、会聚与调节两个因素，最后分析人眼立体视觉特性对3 d 字幕的影响，提出 3 d 字幕的生理依据。 2 1 人眼的立体视觉成像原理人类的视觉系统是一个复杂而精密的光学系统，由眼睛和视觉神经构成【5 】，其生理结构如图2 - 1 所示。成人眼球是一个直径约2 3 c m 的球状体，从人眼的生理构造来看，瞳孔、角膜、玻璃液、晶状体和睫状肌形成屈光调节系统；视网膜和大脑内的视觉皮质中枢构成视觉感受系统。外界物体经过眼角膜、瞳孔，到达类似于一个双凸透镜的晶状体，晶状体根据人眼观看物体的远近不同调节眼睛的焦距。经过晶状体会聚便可以使所观察物体在视网膜上生成清晰的倒像，再通过视网膜上的视神经将信息传递给人脑，经过大脑的分析处理就形成了人类对外界物体的视觉感知。图2 1 人眼生理结构图第二章人眼立体视觉图2 2 显示了人眼成像原理 6 】图。当双眼会聚于空间肜点时，形成会聚角倪，肜点在左右眼视网膜上形成的清晰像点分别为膨、膨。空间中与会聚点肜距离不同的两点、尸，其双眼视轴的夹角分别为0 、卢，在左右视网膜上分别形成清晰像点彤、以和刀、z 。根据人类双眼生理结构，成人两眼瞳距约6 5 c m ，使得左眼视网膜上彤( 或名) 到必的距离，与右眼视网膜上一v ( 或只) 到必像点的距离不同，人眼的这种成像特性被称作双目视差。我们的大脑正是透过双目视差感知身边真实的三维世界，形成双目立体视觉，后文作者还将对双目视差进行深入的探讨。人眼的立体视觉成像原理决定了人类在观看身：边景物时，不但可以识别景物二维的高度与宽度，而且可以感知第三维的深度，辨别不同景物之间的相对距离，这是人眼的基本功能【7 l 。 p 2 2 生理视觉和心理视觉图2 2 人眼成像原理图人类的立体感知看似简单，实则蕴藏着十分精密的理论。对于人眼立体视觉的研究早在1 6 世纪已经开始，在经过国内外各个领域科研学者的不断探索，积累了丰富的知识与经验。形成了包含心理立体视觉和生理立体视觉两部分比较完善的人类立体视觉理论，为后续立体视觉技术的研究奠定了坚实的理论基础 8 l 。立体感知的研究已经证实【9 】，人类可以自动地利用晶状体、双眼视差等深度因素，获取深度感知。人类的立体视觉分为心理立体视觉和生理立体视觉两个方面。心理立体视觉是根据人类长期学习和积累，从外界环境的一些特定光学现象而推断出场景间相对结构位置关系的一种视觉能力，是立体视觉记忆和立体视觉经验知识的一种体现【m 】。心理立体视觉主要包括线性透视、阴影、空气透视、知识与经验、颜色和遮挡等七种因素。而生理立体视觉则是由双眼视差、会聚、焦点调节、运动视差第二章人眼立体视觉和单目视差等要素构成的立体视觉。生理立体视觉和心理立体视觉都是针对同一个景物产生的即二者的观察对象的深度位置信息是固定的。所以生理立体视觉和心理立体视觉分别反映的对象的位置深度信息必然是一致的h o 】。这种一致性作为恒定的人类立体视觉经验被记忆，如果出现了违背这种恒定性规律的深度信息，此矛盾信息就会受到人眼强烈的反抗抑制。因此在研究3 d 字幕技术时，要遵循生理立体视觉和心理立体视觉的一致性。大量的理论和实验已证实，生理立体视觉特性是人类立体视觉贡献最大的因素，是获得立体感知的主要途径。下文将重点探讨生理立体视觉中双目视差、焦点调节与会聚两个因素，二者是产生立体感知和导致视觉疲劳的主要因素。 2 2 1 双目视差双目视差是人类能够产生立体视觉的最重要的因素，是人类生理立体视觉中影响最强烈的因素。早在二十世纪六十年代美国科学家j u l e s z 利用计算机制作的随机点图实验已经证实了：在排除所有心理立体视觉的情况下，一组完全无异议的视觉刺激，只要具备双目视差条件，就可以通过人类的双眼产生深度感知【8 1 1 1 1 】。即双目生理立体视觉可完全独立的存在，由此可见双目视差对二f 深度感知形成的重要性。人眼在观看客观三维世界景物时，之所以能分辨远近，就j 黾依靠人两眼之间存在一定的瞳距( 约6 5 c m ) ，通过两只眼睛观看一定距离的：景物时，双目从左右两个略有差异的方位进行观察，景物在人的双目视网膜上形成的投影像稍有差异，这种差异就是所谓的双目视差 1 2 1 ( 简称视差) ，其成像示意图如图2 - 3 所示。，一一- ， - 一- - 4 、譬二= 二= 二= 奠手= = = = = = = 二= = = = 二= = = 二= 国困友鼹收霉言鼹视图 t 、，j 6 5 r a m 图2 - 3 双目视差成像模拟示意图具有视差的左右眼图像对经由大脑的视觉皮层融合，即可产生立体感知。若能为双目提供同一景物的左右视差图，并采用光学或其他技术措施，使观看者的 8 瓣投 - _ 第二章人眼立体视觉双目只能看见对应的左右眼视图，则观看者就可以感知到立体图像的深度【1 3 】。双眼视差分为垂直视差和水平视差，垂直视差不仅对深度知觉不起作用，而且，当垂直视差超过一定值时还会使观看者观看图像时不舒适，应竭尽全力的避免立体图像中垂直视差的产生。在立体视觉成像技术中，对立体感起作用的只有水平视差。在本文图像处理过程中，暂且不考虑垂直视差的影响，对左右视点图像提取水平差值，就可以得到视差图。对于不同的空间物体，双眼视差会产生不同的深度感，使大脑可以感知到两个物体的相对位置关系。距离和深度视觉是人类两眼的主要机能，而大脑借助于视差比其它各个因素更能准确地感知物体的距离。尤其在其他条件缺乏的情况下计算深度时，双眼视差的获取显得尤为重要。视差可以反映真实景物的深度信息，视差分布情况决定了一个场景的景深和立体感。按照感知深度的不同可以把水平视差分成四种类型：零视差( z e r od i s p a r i t y ) 、正视差( p o s i t i v ed i s p a r i t y ) 、负视差( n e g a t i v ed i s p a r i t y ) 和发散视差( d i v e r g e n td i s p a r i t y ) u 4 。如图2 - 4 所示，它呈现了不同视差在显示屏幕上的效果图。以双目看到一个空间点在屏幕上投影情况的不同为例：图( a ) 零视差时，投影点映射在显示屏幕上的同一点，如照片和传统二维视频：是如此；图( b ) 正视差时，投影点的深度映射在显示屏幕的后方；图( c ) 负视差时，投影点的深度映射在显示屏幕前，与人眼之间的空间，具有强烈的立体：感知的影响场面正是利用负视差获得的；图( d ) 发散视差时，视差过大，人眼：无法对物体聚焦，会导致极不舒适的感觉。在现实中发散视差是不存在的，因此在叠加3 d 字幕时，应当避免产生发散视差。 6 b6 舀ob o ( a ) 零视差( b ) 正视差( c ) 负视差( d ) 发散视差图2 _ 4 不同视差类型示意由视差的四种类型可知，具有层次感清晰、强烈深度感知的立体电影主要是借助负视差获得的，3 d 字幕叠加的研究也将重点放在负视差中。但因为图像的数据不能为负，只能采用绝对值来表示视差。立体图像对中某一景物的视差越大，意味着景物离我们的眼睛越近；反之，视差值相对越小，则意味着景物距离眼睛第二章人眼立体视觉一一越远。对于距离比较近的景物，人类双目视差的深度分辨率很i 高；而对于距离比较远的景物，双目视差分辨率就会降低。由此可见双眼视差对立体图像对的作用效果最大，是双目立体成像原理的主要依据【8 】。本文将双目视差作为3 d 字幕技术研究的关键因素，旨在使叠加的3 d 字幕对观影者更加舒适。 2 2 2 焦点调节和会聚调节双目的实际对焦距离即为焦点调节，具有代表性情况是观众到显示平面的距离。当双目观看某一景物时，睫状肌会自动的调节晶状体的屈光力，使景物的发光线能落于视网膜的中央凹处，确保成像清晰。若观看近! 处的景物晶状体比较凸起，而观看远处的景物时晶状体较为扁平。当无别的条件因素存在时，这种调节状况也能够作为目标景物距离估计的依据。但有效范围只限于距人眼十米内的物体，因此对于立体感知所起的作用不大。当人们观看远处景物时，双目的视轴几乎是平行的，无需焦点调节。而当人们要看清楚近处的某一景物a 时，人眼不仅要焦点调节，而且双目的视轴也要转向内侧，使视轴均朝向被注视的景物a ，这种现象称为会聚【1 5 】。人们的双眼必须会聚的原因是大脑控制晶状体的睫状肌知道视轴转向内侧便可以看到更近的物体。当：景物a 的位置发生前后变化时，会聚角的大小也随之改变，那么改变的信号传给大脑，便形成了一种对物体深度的感知。自然世界中人眼的焦点调节和会聚是相互协作联合运动的，焦点的调节始终跟随着= 会聚的变化，即二者是一致的，然而在观看立体影像时，在焦点调节和会聚之间就存在产生冲突的可能性。这是因为此时焦点调节距离是固定的，即位于立体显：示屏上，而会聚则由景物的再现立体深度在显示平面前方或后方的位置所决定的，此时造成焦点调节与会聚距离的不一致问题。图2 5 显示了焦点调节和会聚的不一致特性与视差融合范围示意卧1 6 】。最 _ 一 r u _ j 卜j 蛤蛐 ( a ) 视差在勘合范围内一图j 图一卜- 噬蚴 ( b ) 视差不在融合范围内一图2 5 焦点调节和会聚的不一致特性与视差融合范围示意图 1 0 第二章人眼立体视觉当人眼观看具有深度感的立体图像时，大脑会根据所看到立体图像内容潜意识地进行焦点调节和会聚。若左右视图的视差大小在融合范围内，焦点调节和会聚距离虽然不一致，但是仍可以把具有视差的左右视图融合成一幅立体图像，双目在立体屏幕上可以看到具有纵深感的立体图像，如图2 - 5 ( a ) 所示；但是左右眼视图的视差量不在融合范围之内，双目看到的可能是重影，无法将左右视图融合成一幅立体图像，如图2 5 ( b ) 所示，此时双目看到的可能是一幅不清晰的串扰图，不能获取准确的深度感知，会导致观看者严重的视觉疲劳。焦点调节和会聚的不一致是观看者观看3 d 视频时产生视觉疲劳问题的主导因素。由于人眼观看三维场景时，焦点调节与会聚在很大程度上是受双眼视差的影响。场景物体的深度信息通过视差来产生及恢复，可以通过控制立体图像对的视差大小来改变物体成像深度到显示平面的距离，使其在会聚和调节功能允许的范围之内，从而达到缓解视觉疲劳的效果。 2 3 人眼立体视觉影响下的3 d 字幕综合分析影响人类立体视觉的所有因素，绝大部分是由人类眼睛结构、视觉记忆、个体视觉经验以及用眼习惯决定的，只有双眼视差与立体图像有直接关系。由此可见，立体图像中的双眼视差信息是最终影响人眼立体视觉的主要外界因素。因此，在立体图像中叠加3 d 字幕将主要依据立体图像中的视差信息。 3 d 电影以其强烈深度感使景物更临近观众，给观众带来视觉的震撼。但考虑到双目会聚与焦点调节不一致，为了避免视觉疲劳的产生视：差必须在融合范围内，强烈的视差应有节制地加以使用并把握好尺度。因此，3 d 字幕的视差也必须在融合范围内，不可为了追求超强立体感而过度加大视差。由先验经验可知，当人们用双目观看某个场景时，首先关：庄的必然是能吸引人们眼睛的物体，其它似乎都变得不那么重要，而不被注意到。这在人的生理视觉上表现为：双目焦点会聚在某一点上，此时场景中的其它部分在眼睛中变得模糊不清。根据这一理论，在立体图像进行处理的时候，可以根据人类的这种意识，寻找场景中突出的、有吸引力且信息量大的主体部分内容，忽略或者弱化信息量小的次要部分内容，将3 d 字幕叠加在人们的眼睛更关注的主体内容上。在观看立体视频时，人眼自然跟随立体图像内容主体运动，这样就可以同步且舒适地观看到3 d 字幕和立体图像内容。而且这种做法，可以在一定程度上减少焦点调节和会聚不一致的矛盾。因此，3 d 字幕的叠加，必须关注立体图像内容的主体。为了同步且舒适地看到3 d 字幕和立体图像，3 d 字幕的深度需与立体图像主体的深度保持一致。第二章人眼立体视觉一一 2 4 本章小结本章讨论了人眼的立体视觉特性。首先介绍了人眼的立体视觉成像原理，然后对人类视觉的生理和心理立体视觉两方面进行总结，详细介绍了双目视差、会聚和调节两生理立体视觉因素，最后总结人眼立体视觉特性在3 d 字幕技术应用上的影响，提出本文3 d 字幕研究的思路。 1 2 第三章双目立体视觉技术第三章双目立体视觉技术人类生活在一个三维立体的世界中，身边的一切事物、景象都是三维的。据统计，人类从自然界获取的信息中，百分之八十以上来自视觉系统【1 7 】，正所谓“百闻不如一见”。视觉是人类理解和感知周边世界最有效的途径。随着科技的进一步发展，模拟生物视觉系统的立体视觉技术得到了迅速发展。为立体电影叠加观看舒适的字幕，要理解立体视觉理论基础。本章首先介绍立体视觉基本发展情况和双目立体视觉的研究成果，然后对双目立体视觉的成像原理进行研究，理论推导视差与深度的关系。并对双目立体视觉的关键技术立体匹配做了详细的研学，为后续研究提供了理论基础。在立体视觉的理论基础上，提出了基于双目视觉的 3 d 字幕叠加方法。 3 1 双目立体视觉 3 1 1 立体视觉概述立体视觉是人类所特有的一种双目高级视觉形式。立体视：觉技术是计算机视觉的一个重要分支，是通过计算机直接模拟人类视觉的处理方式，使计算机具有由2 d 图像感知3 d 深度信息的能力【1 8 】。如何获取3 d 场景中：有用的深度信息是立体视觉研究内容中最基本的部分。计算机视觉技术起源于2 0 世纪中期，初期研究方向是分析、理解、识别图像信息。1 9 6 5 年，美国m i t 研究者r o b e r t s b 9 仓l j 造性地实现了三维景物的分析研究，把二二维图像分析拓展到三维立体信息建模，这标志着计算机立体视觉技术的诞生。在8 0 年代初期，m a 一2 0 】创立了视觉计算理论，这这一理论对立体视觉技术的进步产生了革命性的影响，奠定了理论基础。从此立体视觉技术进入到快速发展的阶段，并在具体的实际应用、细节性问题方面都取得了显著的成果，如三维重建、立体匹配算法、实时处理、遮挡检测等方面。立体视觉系统通常分为：双目和多目两类立体视觉系统。本文仅关注双目立体视觉。双目立体视觉因其模仿人类双目观看世界的独特方式，一直是备受瞩目的热点。现如今，双目视觉在虚拟现实、医学诊断、机器人视觉导航、军事应用和娱乐等多个领域内已经取得了非常显著的成果，并且其研究成果已经广泛应用到人们的日常生活中，改善人们的生活方式和品质质量。这些研究成果具体体现第三章双目立体视觉技术在：2 0 0 4 年发射的“火星漫游者”采用双目视觉作为眼睛，观察周围的环境；伊拉克战场上美国反恐部队用于拆弹、侦测危险品的魔爪机器人；运用双目视觉导航系统在室内可规避障碍物的民用吸尘机器人；人们日常使用的可捕捉人脸的数码相机：采用双目视觉和人体模板实现的在复杂场景中的过路行人的检测跟踪系统【2 1 】；运用双目视觉原理开发对未知运动轨迹目标进行跟踪的白适应视觉伺服系统【2 2 】；用于特征提取、匹配、校正及立体显示等功能的c v s u i t e 软件；当前热映的立体电影及立体显示配套设备( 本文的研究对象) 。由此可知，双目立体视觉技术的深入研究和发展，将会具有重大的现实意义和实用价值。 3 1 2 双目立体视觉成像模型双目立体视觉的成像原理与人眼双目视觉的深度感知过程类似【2 3 】，即，同时从两个不同视点注视同一场景，获取两视点下的略有差异的两幅图像，即立体图像对。再经过三角测量原理计算空间点在立体图像对像点间的视差，最终获取空间点的3 d 信息。双目立体视觉成像模型一般使用两台相对位置固定、性能参数相同的摄像机。下面给出平行双目立体视觉成像模型示意图，如图3 1 所示。两个摄像机的坐标系统的各个相应轴线完全平行，尤指光轴，只是二者的原点位置有差异。其中，将第一个摄像机光心p 的坐标定义为世界坐标系的原点，为另一摄像机的光心。图3 1 双目立体视觉成像模型对于空间任意点w ，假设只用第一个摄像机在p 位置观察，可以看到w 在左像平面的形点。但是仅由形这一个点无法获得w 点的三维信息，这是由于在 p 形连线上的所有点如，其在左像平面上的投影点都是形，因此由左侧图像 1 4 第三章双目立体视觉技术只能知道空间点位于d 形连线上，而无法准确地确定w 点的深度位置。若两个摄像机同时观察w 点，w 点就会有两个投影形和形分别落于左右两幅图像上t 这样由p 形与纱形两条直线即可反解出唯一的w 点。因此，只要能确定空间点在两摄像机图像中的像点，就可得到此点的三维信息。 3 1 3 视差与深度理论视差是指场景中一空间点在立体图像对上的像点之间的偏移量，而深度是指物体离摄像机的距离【1 7 】。视差与深度有非常直接的关系。下面讨论双目立体视觉模型情况下视差与深度的关系，图3 - 2 显示了双目立体视觉模型在x z 平面的投影示意图。 jo zj l w ” z r t t jj。l 图3 2 平行双目成像中的视差图 x 第一个摄像机的像平面坐标与摄像机的x y 坐标重合。根据上述坐标设定， w 点的x 坐标为正。设摄像机距离t ( 双眼距离) ，焦距f ，物体职五彤力的深度为z 。w 的左右视点在成像平面上距离光轴中心o 分别为彩= 一x l ，衫= x 2 ，视差d 为= 衫一衫= x l + x 2 。由基本的几何关系可得， z = 号 o - 1 ) 由上式可以直观的得出：空间点到成像平面距离的z 与视差d 有直接的等式关系。即视差中包含了空间三维物体的深度信息。如果己知基线和焦距，视差和深度就具有非常简单直接的关系。因此要得到物体的深度信息，最重要的是准确地计算出视差值。在下文将深入研究计算视差的立体匹配算法。第三章双目立体视觉技术 3 1 4 立体匹配一个整体的双目立体视觉系统一般可以划分成图像获取、摄像机定标、图像校正、立体匹配、3 d 信息恢复和后处理六个模块【2 4 】。其中，立体匹配是此系统中最为关键也是最困难的一步，是获取立体图像对准确视差的核心技术。本文字幕的视差信息就是利用立体匹配算法计算得到的。立体匹配算法的研究工作最早可以追溯到m a r r 的计算机视觉理论，在此理论基础上得到了充分的发展，并迅速成为计算机视觉领域的研究关注的焦点。 b a m a r d 等人【2 5 系统总结了2 0 世纪8 0 年代之前的匹配算法，并且分析了立体匹配算法的评估策略与三维重建的理论原理。d h o n d 等人【2 6 】归纳了8 0 年代期间产生的众多匹配新算法，并且引进了分层处理的理念和三目约束增强立体匹配准确性的策略。k o s c h a n 2 7 1 和m y r o nz b r o w n l 2 8 总结了图像匹配中难点遮挡问题的研究。进入9 0 年代后，计算机视觉的研究热点转到对特定问题的解决中，例如三维重建、人工智能、虚拟现实等。直到2 0 0 2 年，d s c h a r s t e i n 和r s z e l i s k i t 2 9 】将计算机视觉中的匹配过程分类总结，提出了立体匹配算法的评估策略和总体框架，对日后的研究工作起到重大的指导性作用，使得立体匹配：算法的科研工作跨入更快速、更全面、更系统的阶段。美国的m i d d l e b u r y 学院建立了一个公开的立体匹配算法研究交流平台。这个平台可用于科研工作者对自己提出算法效果的评估，并得出与经典算法横向各项指标的性能比较。 3 2 立体匹配基础 3 2 1 立体匹配分类国内外的科研工作者提出了数不胜数的立体匹配方法，旨在改善立体匹配的准确度，降低算法的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）3d字幕技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档