




免费预览已结束,剩余13页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 引 言第一章 引 言翻开历史的篇章,不难发现人类社会的每一次巨大进步与发展总是离不开科学的发明与技术的进步。科学技术的变革不断地将人们的幻想变为现实。1.1 虚拟现实技术与计算机图形学39年前,Mort Heilig申请的一项专利预言了我们今天称之为虚拟现实(Virtual RealityVR)技术的很多功能细节,而今天这一预言的技术已经用于飞行模拟、训练模拟、医学诊断等许多实践领域。当然,目前的技术水平还不能使人们在操作VR设备时象生活在真实世界中那样自然、方便,但这并不能阻碍VR的发展与应用。相反,正是VR技术的应用使人们能够仿真模拟各种复杂、危险、代价高的实验情况,从而节省了大量的财力、物力和人力,并保证了人的生命安全。有科学家和企业家预测,VR技术将引起未来人类生活的变革Watt98。虚拟现实是一项九十年代孕育发展起来的、极具潜力的核心技术。它的应用能够带来对科学和工程领域中许多挑战性问题的深入认识和解决。对VR一词虽然有很多的解释,但由于其应用的依赖性,故很难给它下一个确切的定义。一般地,虚拟现实是这样一种技术,它利用计算机生成模拟的三维环境,并通过各种传感设备将人带到该环境中,最终实现人与虚拟环境间直接自然的交流。就其特点来说,虚拟现实是一种计算机生成的,具有临场感(Immersive)、实时交互性(Real-time Interactive)及多感官(Multi-sensory)体验的合成技术(见图1.1)。作为虚拟现实系统的组成,包括视觉显示设备、跟踪系统、输入设备、语音系统、触觉反馈装置、图形与计算硬件、软件环境与软件工具等。因此虚拟现实的研究涉及到计算机科学、认知科学、工程学、神经生理学、心理学、声学以及力学等许多领域的关键技术。本论文力图从VR对计算机图形学的要求和激励方面出发,在研究和探索新的场景建模和绘制机制方面作了一定的努力。计算机图形学是实现虚拟现实最重要的技术保证。为了让人在计算机所创造的虚拟世界里有一种身临其境的视觉感受,VR对传统的计算机图形学技术提出了挑战: i高质量的、实时的图象生成。VR应用要求绘制系统能根据用户视点和视线方向的变化及时地生成相应的视图(一般刷新率应在15Hz以上);“高质量”是指绘制场景的复杂度和真实感应满足特定应用的需要。 i高分辨率的显示。表现为一个宽视角的立体显示器,这是产生“沉浸感”的前提。目前最流行的是头盔显示器HMD(Head-Mounted Display)。这也相应地要求绘制系统能同时生成一对(左、右眼)立体视图。 i自然的交互。系统应确保用户在虚拟环境中的操作简单易学,并得到有效的响应。比如HMD的头部跟踪器应能准确即时地反馈观察者所处的位置和视线方向。图1.1 虚拟现实系统上述挑战中,计算机成像(Computer Imagery)技术是VR中最根本和关键的核心问题。在传统的图形学里,图象的生成是利用透视投影原理将三维几何模型变换到二维屏幕空间的过程,这其中包括光照、消隐、纹理、阴影等一系列复杂的计算和处理。尽管经典的图形学发展已经能在很短的时间里产生具有相当复杂度的真实感图形,但其固有的矛盾却无法使它满足高级VR应用的要求,从而也在一定程度上限制了VR技术的应用推广。九十年代中后期国际上跃然兴起了一股新的研究热潮基于图象的建模与绘制技术(Image-Based Modeling and RenderingIBMR),它企图从根本上打破传统绘制模式的禁锢,这无疑将是图形学史上的一次飞跃。本论文将主要涉及IBMR的讨论,在下一节里还将对这两种模式作详细的比较和分析。其次,人眼是一个复杂的器官,它通过分析来自左右眼的视图的视差来感知物体的深度,产生三维立体感。计算机视觉上称左右眼看到的这一对视图为一个立体对(Stereo Pair)Ma98。HMD这类宽视场的立体显示器就是通过仿真人眼的视觉原理,将绘制系统生成的一个立体对分别投影到HMD的左右两个显示屏上。当人的双眼同时看这两组图象时就会产生真实三维景物的立体感,因而也使VR系统具有了“沉浸感”。可以说,VR将“立体视觉”概念带到了图形学中,从而促使图形学工作者对新的成像方法进行研究。也既是说VR促成了计算机图形学与计算机视觉的结合。在论文后面讨论的IBMR建模和绘制方法中都将用到计算机视觉中的理论和方法。另外,VR的出现还引入了很多新的输入设备,如数据手套、空间球、各种传感器等,需要研究新的交互技术。例如怎样有效地协调发挥各种图形资源(软件、硬件)的性能、即时地根据用户的动作刷新场景,等等。论文将不涉及这方面的内容。尽管今天的学科发展尚不能使人们全面地认识人类的视觉、听觉、触觉等感觉器官的功能原理及构造;机器智能技术也还远不能使机器代替人类。但不可否认,虚拟现实是人们对计算机“人化”、“社会化”的一种展望。同时它又是一种激励技术(enabling technique),导致许多新问题的研究和探讨、导致不同基础学科的交叉与渗透、也导致应用的深入和推广。论文将从这里开始,先总结分析图形学中两种虚拟现实的实现模式,然后逐步引出我们要讨论的问题和解决的方法。1.2 基于几何的VR与基于图象的VR目前虚拟现实应用方面存在的问题是:质量的可接受性。即系统所生成的图象复杂度能否满足对真实世界进行模拟的要求?如果从建模和绘制角度来划分,VR系统可以总的分为基于几何的VR和基于图象的VR。本节将从VR的上述目的出发,详细讨论这两种方法的特点。1.2.1 基于几何的实现方法80年代初开始,三维计算机图形发展的核心就是围绕真实感图形的生成。过去一直认为是标准且被广泛接受的方法是:首先建立一精确的三维几何模型,设置视点位置,然后经过明暗(shading)、隐藏面消除(hidden surface removal)等处理生成一个屏幕投影。这种方法导致的直接问题是:建模的开销(modeling cost)和绘制的开销(rendering cost)都非常大。i 建模的复杂性:建模过程虽然可以离线(off-line)进行,但却要浪费大量的人力和时间,而且还需要相当的技巧。因为在传统的图形学方法中,所有的场景几何都是用三维点采样的方法来定义的,如多边形网格表示。这对于复杂的景物,如雄伟的故宫,它包括近万间房屋,其建筑外观的亭台楼阁、室内布置的独巨匠心,非但是计算机所难以模拟,就算可以几何再现,也是一项宏大的“工程”。i 绘制的速度:主要指一幅图象合成所需要的时间。图形工作站的出现和其性能的趋于稳定已经能够将用于隐藏面消除的Z-buffer算法固化在一个特殊硬件中,以提高多边形网格物体的绘制速度。而且,各硬件厂商还将多边形的吞吐量作为相互追逐的目标之一。但是,图象合成的时间仍然是困绕图形学界的问题。“相片真实感”(photo-realism)的目标意味着:只要绘制方法的复杂性和环境的复杂性超过了主流硬件的发展,就会导致图象生成时间的增加。根本原因就是图形学理论的发展还不能反映越来越复杂的光传播过程。因此,VR应用只能在图象质量与绘制时间上进行折中,从而往往无法使用户感知到真正的“浸入”。自然界中的事物是形态各异、千变万化的。传统的绘制方法无论从理论上还是方法上都无法满足VR系统的要求,因此限制了VR的应用发展。“除其惯性之外,没有更好的理由再停留在标准的绘制方法上”Watt98。1.2.2 基于图象的建模和绘制另一种可能的选择就是用相片代替传统的几何输入来进行建模和图象合成。在这种假设下,相片可以有两种用途:一是利用从相片中抽取出的三维信息,重构传统的几何模型。这其中很多问题可以归结到计算机视觉领域。另一种可能就是将照片作为系统的输入,消除了以往的建模和绘制过程,而代之以二维的、基于图象的视图重构方法。这两种途径在IBMR方法中可能同时采用,也可能只选择后者。本论文将更多地考虑后一种途径,但第五章将介绍一种几何与图象混合的表示和绘制模式。图形学中利用照片/图象由来已久,典型的例子就是纹理映射技术(Texture mapping)。为了获得传统绘制技术中难以做到的真实感和细节层次,将真实照片作为模板映射到由几何造型技术创建的模型上和结构上。另一种广泛采用的技术就是环境映照(Environment map),是指将周围的环境映射到一个有光泽的物体上的过程。最初使用环境映照是作为光线跟踪的一种廉价替代。其思想是由于发光物体会反射出它周围的环境,因此可以将这种现象预先计算好存储起来,当绘制该物体时直接用纹理映射的方法来产生那种环境的映射效果,从而避免了光线跟踪的复杂过程。环境映照中使用的典型环境形状有平面、立方体和球面。环境映照技术在基于图象的绘制中也将发挥重要作用。IBMR基于图象的建模和绘制,顾名思义是指用预先获得的一组图象(合成的或真实的)来表示场景的形状和外观;而新图象的合成则是通过适当地组合原有的图象来实现。与基于几何的建模和绘制模式相比,IBMR有以下突出的优点:i 建模容易:不需耗费大量的精力和技巧,因为拍摄照片是比较容易的。另外,相机这类光捕获设备不仅能直接体现真实景物的外观和细节,而且从照片中还可以抽取出场景的几何特征、对象的运动特征、及物体的反射特征等。把不同视线方向、不同位置拍摄的照片数据按某种形式组织起来以表示场景,如全景图象(panoramic image)和光场(light field),这就是IBMR意义下的所谓建模。i 绘制快:不需要复杂的计算,直接从已有的视图中合成新的视图,例如只要根据不同的视线方向映射全景图象相应的部分即可。整个绘制过程都在二维空间进行,绘制时间不依赖于场景的复杂度,只跟显示分辨率有关。i 真实感强:基于图象的方法能真实地反映景物的形状和丰富的明暗、材料及纹理细节,不需要经过额外的光照模拟。i 交互性好:由于有绘制速度和真实感的保证,再加之先进的交互设备和反馈技术,使得基于图象的VR有更好的交互性。另外,基于几何的方法需要建立场景完整的、精确的表达,绘制时也要对整个场景进行计算和存储。相反,IBMR方法只需要离散的相片采样,绘制时也只要对与当前视点相邻的图象进行处理。因此后者具有较小的计算开销。但是,就已有的IBMR方法来看,也存在着很多问题和局限Xu98:i 表示模式:即数据的组织问题。怎样找到一种简便有效且适合计算机存贮的表示模型,能精确完整地对场景进行编码。这一点对于完全基于图象的方法是难以做到的。i 捕获方法:是用手持相机还是用被精确定位与控制的数控摄像机,图象采样的数量多少、采样模式及样本均匀性等都会影响问题求解的难度和精度。手持相机价格便宜、灵活,但难以控制采样;数控相机能准确采样,但装置复杂、昂贵,且只适合小的景物。i 走样问题:如何解决因采样或重采样引起的走样问题。“走样”是由于连续信号的离散化、采样设备的精度和质量、噪声等多种因素的影响而产生的;IBMR方法不可避免地要对图象进行多重采样,由此产生的累积误差使走样问题更为严重。i 可见性判断:“空洞”(hole)和“重叠”(fold)是围绕可见性的两个问题。由于拍照只能获得某一时刻、某一方向、某一位置的静态的场景图象,景物间的相互遮挡使得部分几何细节丢失。如果这些信息不能从其它图象中填补的话,就会在新合成的视图中出现“空洞”。如果因为视点变化使得原来不同的可见点变得相互遮挡,而又无法获得合理的几何解释时,就会产生“重叠”,它会使得前景点被错误地解释。i 信息压缩:基于图象的方法不可避免地面临着大量图象的组织、存贮,甚至传输问题,怎样利用数据间的连贯性,找到合理有效的压缩及解压机制也是亟待解决的问题。i 完全漫游:如何实现基于表示模式的完全实时漫游。包括模拟相机旋转、对象旋转、相机移动及缩放等连续的运动方式。综上所述,基于几何方法的最大特点是数据表示完整和精确,具有系统的理论体系。而基于图象的方法简单快速,适合表示复杂的场景。两种模式各有优缺点。为了进一步分析和讨论这两种方法,下面将分别从它们与相关研究领域的关系和图形处理流水线(pipeline)的角度对它们进行比较。1.2.3 相关研究领域不能否认,IBMR技术的产生源于绘制技术的发展和相关领域的交叉。与图形学密切相关的研究领域有计算机视觉、图象处理、计算几何等。其中,计算机视觉与计算机图形学可说是两门互逆的学科,一个的输出正好是另一个的输入。图形学研究的是如何由几何模型绘制出图象的问题,而计算机视觉研究的是如何从场景图象中重建场景几何的问题。图象处理是对图象本身的操作,包括去噪、平滑、增强等。计算机视觉中通常用图象处理的方法来对图象进行分析,例如图象特征的识别、滤波、以及不同分辨率上的重取样等。而计算几何则为其它学科提供了基本的数学方法。IBMR方法的提出在计算机图形学与计算机视觉间搭起了一座桥梁(见图1.2)。IBMR与计算机视觉有相同的输入,它的结果又是计算机图形学所要求的。IBMR的目的就是试图从图象几何图象这条链中完全地或尽可能多地消除几何部分(非自然因素影响最大的部分),从而使绘制更接近自然。因此,IBMR方法毫无疑问地离不开计算机视觉技术和图形学技术。另一方面,由于IBMR主要考虑在图象空间的实现,必然也要求图象处理技术。计算机视觉计算机图形学几何图象图象IBMR:状态:方法图1.2 IBMR与计算机图形学和视觉的关系事实上,正是视觉技术的研究成果为IBMR的实现提供了理论依据;反过来,IBMR又使计算机视觉走出了实验室,进入实用领域。在下一节介绍的方法中,以及第四章讨论的绘制方法中,都将阐述有关的计算机视觉技术。1.2.4 绘制流水线的比较尽管基于图象的与基于几何的方法有显著的不同,但是这些不同主要体现在场景的表示上。如果仔细比较其绘制过程,就能发现它们在绘制处理环节上有奇妙的相似之处,其原因主要归结于它们的结果都是对成像过程的模拟。基于几何的图形系统没有单一的绘制模式。总的来看可以分为两类:基元驱动(primitive driven)的或显示驱动(display driven)的McMillan97。前者计算场景中每一元素对最终图象的贡献,后者则对输出图象的每一样本点搜索场景中那些决定该样本值的场景元素。图1.3是标准的图形绘制流水线Foley96,它是基元驱动的。场景中的元素首先被分成小平面面片;这些面片接着从几何基元所在的标准模型坐标系变换到理想的场景位置;然后根据光源和视点决定每个面片的颜色;如果面片的某部分落在观察的视域范围之内,则将面片相应顶点的三维坐标投影到视平面上;最后的图象是通过在整数网格上取样面片的内部点而得到的。总的来看,这一流水线分为两个阶段:前一阶段处理几何基元,主要是一些三维变换,将规范的几何模型变换到理想位置;后一阶段是在图象空间中的量化操作,将以三维顶点坐标表示的几何转换成图象空间中二维点的采样。光栅化设置透视划分裁剪投影视域变换模型变换扫描转换图1.3 基于几何的绘制流水线图1.4是一种基于图象的绘制流水线。第一阶段同样是变换阶段。只是这里的变换是指图象变换(image warping),“基元”是参考图象(reference images)中的采样点。图象变换是在二维齐次空间内完成的,它把参考图象中的样点变换到理想的(合成图象所在的)平面坐标系。然后以生成图象大小为窗口进行裁剪,并且将齐次坐标转换为图象坐标(这相当于几何绘制中的投影)。基于图象绘制的最后阶段是重构(reconstructure)和重采样(resampling)过程,与标准图形流水线中的光栅化(rasterization)处理相对应。第四章将会详细介绍绘制流程里每一环节的具体实现。图象变换裁剪透视正规化重构核重采样图1.4 基于图象的绘制流水线至于显示驱动的方法,主要的例子就是光线跟踪Appel67Whitted80。它采用反向跟踪的方法寻找几何场景中对当前象素有贡献的几何。McMillan曾介绍了一种与光线跟踪算法结构很相似的基于图象的绘制方法McMillan97。在这节里,我们对基于几何的和基于图象的两种VR实现机制进行了分析和比较,它们各有不可替代的特点。IBMR方法从应用要求和目的上考虑更适合VR技术,但也很难预测它将会在多大的程度上代替传统的几何方法。而且,鉴于二者在绘制处理上的相似之处,促使我们进一步地去思考它们的结合,我们将在第五章提出一种几何与图象混合的模型机制。同时作为论文研究的重点,我们将在以下的章节里详细讨论基于图象的建模和绘制方法。1.3 IBMR的基本方法基于图象技术的最早尝试要算电影映象系统(movie-map system) Lippman80,它把几千幅图象存储在可交互的视频光盘上,这些图象可以根据视点的变换随机地显示,但是movie-map不能合成新的图象。IBMR作为一种场景表示和绘制的新方法还是近几年的事。由于它在绘制速度和真实感上的明显优势,吸引了大批业内人士的关注。目前已有很多文章和成果发表,提出并讨论了多种的实现方法。总结这些方法,可以粗略地把IBMR方法按表示模式与视图合成方法的不同归纳为以下几类Xu98: 基于立体视觉的方法 基于视图插值的方法 基于图象拼合和分层的方法 基于全视函数的方法在介绍这些IBMR方法之前,首先约定一下有关的概念。将已知的、输入图象的有限分辨率集合称为参考图象(reference image)。新合成的在不同视点上的图象称为理想图象(desired image)或合成视图(synthesis view),也简称新视图。另外,将IBMR所能拟合的相机/视点运动方式分为相机旋转(位置不变,方向改变)、对象旋转(方向不变,位置绕对象改变)、相机移动(位置和方向都在变化)及缩放(改变焦距)等Chen95。1.3.1 基于立体视觉的方法图1.5 基于立体和变形的视图合成基于立体视觉的视图合成方法主要利用立体视觉(stereo vision)技术从已知的参考图象中合成相对于新视点的理想图象。其关键问题是找出每对已知图象之间的对应映射( correspondence map),即解决立体匹配(stereo matching)问题。由对应关系可导出偏差映射(disparity map),并能进一步估计出场景中可见点的深度信息。利用深度信息可以对已有的图象进行变换(warping)来合成新视点的图象。也就是说,通过对应关系建立了一个基于图象的场景表示。如图1.5所示。这种方法将场景视图及其对应关系组成一个图结构,图中灰色摄象机代表不同物理位置的参考图象,黑色摄象机代表合成视图,双向边表示邻接视图间的立体对应关系,单向边表示对参考图象所做的变换。Leveau 和Fangeras 描述了一种从弱校正图象中构造新图象的方法Laveau94。他们利用了计算机视觉中的许多新成果,例如用一特殊的投影几何结构极几何(epipolar geometory)来约束一幅参考图象的重投影;用基本矩阵(fundamental matrix)来描述两幅参考图象间对应的几何关系,等等。其方法证明了新的视图可以由两幅参考图象合成,而完全不需要三维几何信息。但该方法要靠人工选择四对对应点,而且不一定能反映明确的(无二义的)欧几里德环境。McMillan和Bishop的PlenOptic Modeling系统McMillan95是一个基于柱面全景图象(panoramic image)的系统。他们利用极约束(epipolar constraint)关系在柱面上的变化计算出相邻两个柱面全景图的偏差映射,然后依据该偏差变换已知的柱面全景,从而得到新视点的理想柱面全景图。另外,也可以采用多基准线(multiple baseline)的立体算法Fuch94, Kanada95。在这种方法中,真实图象先被映射到多边形网格化了的深度图上,然后新视图可用标准图形学中的纹理映射方法生成。还有一类基于立体视觉的方法称为模型与图象混合的方法Kang96, Koch95。这些方法利用视觉技术(如stereo from motion)从很多参考图象对中抽取立体信息,并恢复出3D场景的几何结构。Debevec等介绍了一种用少数照片构造和绘制真实建筑场景的混合方法Debevec96。他们先用摄影测量系统和简单的建筑几何基元约束交互地建立一几何模型,然后一个基于模型的立体算法被用来计算真实场景与模型之间的偏差。利用模型,图形可以被重新投影以保证立体匹配算法能处理相距较远的图象对。基于立体视觉的图象合成方法主要有以下优点:(1) 新视图可以由两幅邻近的参考图象及它们的对应关系合成,整体的几何模型不是必需的;(2) 图象变换比传统的图象绘制快得多,而且计算时间独立于场景复杂度;(3)只需知道邻接相机之间的相对轮廓信息,而不需要对相机进行精确的定标(calibration)。但同时,这种方法也存在着立体视觉中固有的缺陷:(1)由于场景有可能部分和全部地被遮挡,只能掌握场景有限的信息,导致在参考图中不可见而在新图中应该可见的区域出现空洞,如何填补这些空洞是一个难以解决的问题;(2)由于只产生有限的深度分辨率(深度不连续),使得匹配处理出现误差。论文讨论的方法与上面所介绍的基于立体视觉的方法及下节介绍的视图变形方法很相似,但一个很大的不同是我把建模和绘制的算法放到小波空间去实现,由此带来了很多方便。1.3.2 基于视图插值的方法基于视觉的视图合成方法能由参考图象生成任意视点的新视图。与其不同,基于视图插值(view interpolation, 也叫图象插值)的方法要求新视点位于两参考图象视点所决定的直线(称基线,baseline)上,于是新视图可由参考图线性插值产生。当然,如果有很多幅参考图,也可通过一系列的插值获得一定范围内任意视点的图象。与基于立体的视图合成方法相同,视图插值的方法同样要建立图象间的对应关系,因而仍然面临由于遮挡和深度不连续所带来的问题。另外,许多视图插值方法在一般情况下不能精确地重构,即不能产生正确的透视投影结果,而只生成近似的中间视图。只有当基线平行于图象平面时才会产生正确的透视投影视图。Chen和Williams所介绍的视图插值方法着重于对图形学中绘制速度的改进Chen93。它假设点的深度值能够从3D场景模型中得到,而且还能从基于几何的绘制中获得参考图象对之间的密集对应关系。通过对应点间的线性插值将参考图象变换到理想的图象,只要视点的变化较小,这一插值机制一般可得到合理的结果。另外,他们还讨论了一种简单的解决可见性问题的方法,但该方法假设所有参考视点都朝着相同的目标,而且合成图的视点位置被限制在视角90度的变化范围内。另外,它也未给出对深度不连续的处理办法。Seitz 和Dyer基于仿射投影模型导出使用单调性(monotonicity)规则可保证图象插值产生正确的合成视图Seitz95(单调性假设可排除遮挡)。同时他们还证明了如果参考图象经过修正后,插值可以正确地生成特定范围的透视视图。他们的方法包含三个步骤:图象修正(rectification)、线性偏差插值(linear disparity interpolation)和修正恢复(derectification)。这种算法将亮度均匀的色块作为一个整体来进行匹配和移动。另外,他们还将该方法扩展到透视投影及对两幅以上的参考图象进行系列插值操作的情况Seitz96a,并随后又提出了一种组合图象插值和图象变形技术的视图变形(view morphing)方法Seitz96b。除此以外,还有一些其他基于视图插值的方法Watt98, Werner95。1.3.3 图象拼合和分层的方法将同一场景的多张有重叠的图象组合成一幅较大图象的处理叫做拼合(mosaic)。图象拼合技术典型地被用于全景图的生成、改善图象分辨率、图象压缩及视频扩展Irani91, Irani95等方面,同时它也是摄影测量学中的核心问题Moffitt80, Slama80, Wolf93。在组合参考图象之前,一项重要的任务是图象整合(image registration), 即是把参考图象中相互重叠的部分对齐所做的变换。关于图象整合技术的详细讨论可参阅Brown92,Kuglin75, Tian86。一般地,整合两幅图象的难度取决于需要估计的参数数目。两幅图象有相同视点(或从不同视点观察一平面场景)的情况较容易处理,可由一透视变换(3x3矩阵)决定,因此需估计的参数最多只有8个,可以用全局优化求出这些参数。很多文章中都成功地实现了基于一个视点的全景图象拼合算法Kang96, Szeliski94b, Szeliski96,这也是PlenOptic ModelingMcMillan95 和 QuickTime VRChen95的基本思想。然而对于两幅图象有不同视点的情形就要难得多,因为除了估计决定相对相机轮廓的8个参数外,还必须估计每个象素的深度。为解决这个问题,要么施加额外的约束,要么利用更多参考图象来增加输入变量。Szeliski等用张量积(tensor-product)样条表示深度映射以减少要估计的参数Szeliski94a,Kumar等通过增加参考图象以求获得独立于视点的场景深度表示Kumar95, Sawhney95。一旦参数被估计出来,新的视图就能被合成。严格地讲,图象拼合技术只是一种场景表示方法,但它已被大多IBMR系统所采用,作为基本的场景编码技术。还有一种方法与图象拼合正好相反,叫做分层表示(layered representation)。它针对一视频系列将场景分成运动独立的、由仿射运动模型描述的不同层次。每一层都产生一独立的称为子画面(sprite)的图象流,每一层都可单独控制其刷新频率、空间分辨率及绘制质量参数等。最终各层的子画面被组合到显示屏幕上。Adelson介绍了怎样用运动分割方法Wang93来计算视频系列的分层表示Adelson95。类似的工作还有Sawhney95, Ayer95, Lengyel97。将整个图象序列作为输入可以有效地决定每个象素所属的层次,并产生较清楚的对象边界。但这些方法只适合可分成少数层次的场景,且每一层都有全局一致的运动。1.3.4 基于全视函数的方法全视函数(PlenOptic Function)是由Adelson和Bergen命名的Adelson91。它来自拉丁词根plenus,意思是“完全”;optic指“视觉”。Adelson等用它来形容空间中任意点在任意时刻、任意波长范围内所看到的全部光线集合。他们用全视函数开发了一个评估低级人类视觉的模型。因此,可以说全视函数描述了观察点(而非物体或光源)接收到的所有可见光辐射的能量。用计算机图形学术语,它描述了给定场景中所有可能的环境映照集合。Adelson和Bergen将全视函数定义在一个七维的参数空间上:其中代表空间中视点的位置,视域方向和范围用仰角f和方位角q定义,见图1.6。代表人眼感受到的波长。如果是动态场景,t代表时间。图1.6 全视函数的参数化基于全视函数的IBMR方法试图捕获空间任意区域内的完全光流以重建该函数。这一思想固然很好,但是实践中要在每一时刻、每一方向对场景的所有点进行度量是极其不方便的。因此,现有的方法都是通过一些有向的离散采样来重构连续的全视函数P,然后通过在新的视点位置重新取样该函数来绘制新的视图。另一方面,同时考虑所有七个参数比较困难,故目前所有的方都通过增加约束来简化全视函数。如固定视点、固定时刻,或者约束环境等。例如考虑视点处360的球形环境映照。该函数可描述成以下等式:其中V是视点,PVk是函数在视点Vk的取样,Bk是相应于视点的基函数。但是球形环境映照不适合计算机表示。PlenOptic Modeling是第一个基于全视函数的系统McMillan95,作者将该函数描述为由三维空间位置和二维方向决定的参数函数。这是一个柱面全景图的集合。并且如前所述,该方法也利用立体视觉技术来解决对应问题,并通过插值合成新的柱面全景图。QuickTime VR也是基于柱面全景图的IBMR系统,它是第一个商业产品Chen95。QuickTime VR提供方便的著作工具和环境浏览工具,但是它只能通过热点(Hot spots)在不同的环境映照之间切换。 (a) (b)图1.7 离开和进入一封闭自由空间的光流SIGGRAPH96上提出了两种非常近似的方法:光场绘制(light field rendering) Levoy96和LumigraphGortler96。基于“自由空间中沿一条光线传递的辐射能不变”的假设,它们把5D全视函数简化为描述离开或进入一封闭自由空间(如空立方体)的完全光流分布(如图1.7所示)。这是一个4D函数L(u,v,s,t)。这两种方法的最大优点在于:可以不需要立体对应关系,从而避免了立体视觉所面临的问题;由于只考虑视流信息,因此不必对反射属性作假设;表示模式简单有效,既便于控制和计算,又能够均匀取样。这两种方法的缺点是它们只解决了没有遮挡的、光照固定的、静态对象的表示及绘制问题;而且没有解决完全的虚拟环境漫游问题;只适合小场景的描述。Wong, T.T.等对光场表示进行了改进,使它能够考虑动态的、变化光源的场景表示Wong97。但这一成功是以繁重的动态采样为代价的,因此对于真实场景来说不现实。作者也只给出拟合场景的例子。另外,国内也有同行对全视函数做了有益的改进 Li98, Tang97。1.4 一种新的IBMR实现机制的提出不可否认,以上所介绍的这几类方法对改善场景的表示、加速图形的绘制进行了有益的探索和尝试,为进一步研究IBMR方法奠定了基础。与此同时,我们也注意到这些IBMR方法所暴露的问题和局限。这些问题曾在1.2节中讨论过,这里主要归纳为:1) 计算机视觉的问题,如参考图象中对应关系的建立、几何的重构、相机的定标等;2) 图象处理的问题,如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医务人员职业防护知识培训试题(含答案)
- 2025年卫生院重大突发传染病疫情应急处置预案
- 2025年主动脉夹层急救护理试题含答案
- 2025年下半年岳阳市湘阴县环保局招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年山西阳泉平定县事业单位信息(152人)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年山西阳城县事业单位招聘笔试易考易错模拟试题(共500题)试卷后附参考答案
- 忻州市中医院遗传性皮肤病诊疗考核
- 2025年增强填充剂项目建议书
- 2025年下半年山西省吕梁中阳县税务局政府购买岗招聘25人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年飞机碳刹车预制件项目合作计划书
- GB/T 13384-2008机电产品包装通用技术条件
- FZ/T 07019-2021针织印染面料单位产品能源消耗限额
- 《计算机辅助翻译》课程教学大纲
- 电厂化学运行规程
- 新版香港朗文1A-6B全部单词汇总
- 华南农大农业生态学
- 输血科检验科医生专业技术工作报告
- 《项目融资》课件
- YYT 0681.2-2010 无菌医疗器械包装试验方法 第2部分:软性屏障材料的密封强度
- 胸腔积液健康教育
- 公司4M变更管理矩阵图
评论
0/150
提交评论