从稳定区区域进行扩展的三维测量与追踪.doc_第1页
从稳定区区域进行扩展的三维测量与追踪.doc_第2页
从稳定区区域进行扩展的三维测量与追踪.doc_第3页
从稳定区区域进行扩展的三维测量与追踪.doc_第4页
从稳定区区域进行扩展的三维测量与追踪.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从稳定区域进行扩展的三维测量与追踪史金龙12 王直1 (1 江苏科技大学,计算机科学与工程学院,江苏镇江 212003;2复旦大学,计算机科学技术学院,上海 200433,)摘要:利用计算机视觉技术,采用全局优化的方法测量动态变形三维物体表面,处理较长运动视频时,会产生较大的累积误差,导致测量结果不稳定。提出一种基于图像块的局部区域扩展的方法,该方法从最稳定的区域进行扩展,通过独立地计算运动和立体匹配进行三维测量和追踪。模拟数据和真实数据实验结果证明,该方法可以测量复杂的变形表面的三维运动和三维形状,测量结果更加鲁棒和精确,能够为定量分析动态变形物体运动提供有用的数据。关键词:变形表面、扩展、三维测量A Method of 3D Measurement and Tracking for Dynamic Deformable Surfaces from the Reliable regionJinlong Shi1,2 Zhi Wang 1 (1School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang Jiangsu 212003,China 2. School of Computer Science and Technology,Fudan University,Shanghai 200433,China)Abstract:This paper presents an effective method to measure dynamic deformable 3D surfaces from a calibrated stereo image sequence. This proposed method adopts a patch-based expansion technique that performs 3D measuring and tracking by computing the motion and disparity independently. Compared with traditional expansion techniques, the proposed expansion technique always spreads from the most reliable region, which makes the measurement more robust and accurate. The performance is evaluated on the synthetic rotating textured sphere, and the effectiveness is demonstrated by different real surfaces.Keywords: Deformable surface, Expansion, 3D Measurement自然界中存在着很多可变形的物体,这些物体的表面常常在外力的作用下发生形变。许多领域的学者对于定量地分析动态变形表面非常感兴趣。要定量的分析变形物体的表面,就需要能对其进行测量。目前虽然已经提出很多的方法,但是精确地测量动态的变形表面的三维形状,仍然是非常困难的,仍缺少十分有效的手段。在现有方法中,基于视觉的方法是在不影响物体自身运动的情况下,测量动态变形表面最可行的方法。目前,基于视觉的方法主要可以分为三类:单目视觉方法、双目视觉方法,以及多目视觉方法。单目视觉的方法只需要使用了一个相机,使用非常方便,但是很难解决深度的不确定性问题和遮挡问题。多目视觉的方法能够得到比较精确的测量结果,也很容易解决遮挡问题。但是,在有些情况下,不适合采用这种方法,如工作空间狭小时。双目视觉则是一种比较折中的方法,相对来说,在工业中应用比较广泛。目前,双目视觉的方法大致分为两类:(1)耦合的方法:也称为联合估计的方法,通过联合估计运动和立体匹配的方式,求解三维的运动场,主要包括:马尔科夫随机场的方法1-3、变分的方法4-8、多尺度方法9,仿生学方法等10;(2)解耦的方法:也称为独立估计的方法,这种方法独立地处理立体匹配和像素运动问题,主要采用变分的方式11-12。这两类方法都能获得比较稠密的运动场。然而,因为解耦的方法是独立地处理立体匹配和像素运动的,所以比耦合的方法更加有效和灵活。上述的耦合与解耦的方法中,大部分都是采用全局优化的方法。全局优化的方法能有效的解决遮挡问题,并获得稠密的数据。但在处理较长运动时,如果物体局部变化频繁,全局优化的效果往往不是很好,会产生较大的累积误差。基于这个原因,本文提出了一种基于块(Patch)的局部区域扩展的方法,这种方法每次都是从最稳定的区域进行扩展,通过独立的计算运动和立体匹配来进行三维的测量和追踪,本文把这种方法记作EMRR(Expands from the Most Reliable Region)。为了简化计算过程,EMRR采用同样的方法处理运动和立体匹配。EMRR之所以采用基于块的方法,是因为这种方法能够非常有效地处理复杂的物体表面13-15;之所以采用区域增长的方式,是因为很多应用证明这种方式是非常鲁棒的15-16。为了验证EMRR算法的有效性,本文还实现了一种从随机局部区域进行扩展的方法,记作ESRR(Expansion method that Spreads from a Random Region)。实验证明了EMRR是非常有效的。1方法中的关键元素基金项目:国家自然科学基金(51008143);江苏省汽车工程重点实验室开放基金项目(QC201005)支持在详细介绍EMRR方法之前,首先介绍本方法中使用的一些关键元素。1.1图像序列和图像块本文用和表示立体图像序列中的左边序列和右边序列,其中表示时间;表示或者中的一个图像块,如图1所示。1.2图像灰度一致性函数EMRR方法假设一个图像块与另一个图像中对应的图像快之间只存在仿射变换,通过一个能量函数来匹配两个块。公式1:定义了衡量两个图像块和相似性的能量函数: (1)其中,表示图像块中的一个点; 表示和之间的仿射变换参数向量; 表示的增量;表示仿射变换函数。找的匹配块的过程,就是通过优化公式1求解仿射参数向量的过程。该优化方法需要仿射参数的初始值,然后迭代地求解增量,然后将更新,直到优化过程收敛。本文在已知的初始值的情况下,使用GSL17的非线性最小二乘法求解。图1(a)立体图像序列中图像块之间的变换关系 (b)上的格子2EMRR方法本文提出的EMRR方法,是一种从最稳定的区域进行扩展的方法,该方法独立地处理运动和立体匹配,在立体图像序列中找对应的点。本节将以如图1(a)所示四个图像, , 为例,说明该算法匹配点的过程。匹配过程包括两部分:运动匹配(和的匹配)和立体匹配(和的匹配)。匹配前,首先需要在图像上关联一个网格,如图1(b)所示。中每个单元格的大小是个像素;指单元格在网格中的坐标;表示单元格的中心。接下来,在图像和中找的对应点。为了简化了处理过程,EMRR方法采用相同的方法进行立体匹配和运动匹配。本文假设对于这两种匹配,匹配块之间只存在仿射变换。对于立体匹配来说,这个假设当然是正确的。对于相邻图像帧之间的运动匹配,如果两帧之间的运动较小,通常可以认为两帧图像的像素之间是局部的平移运动。然而,如果前后两图像帧之间的局部运动很大(例如人脸的运动时,嘴部的运动较大),在这种情况下,假设前后两帧之间是仿射变换更加合理些。EMRR方法先进行立体匹配,再进行运动匹配,可以分为三个步骤实施:(1)找一些匹配种子;(2)基于这些种子,进行区域增长;(3)修补漏洞。下面将详细介绍。2.1匹配图像2.1.1种子匹配为了能进行区域增长,需要一些稳定的匹配种子。EMRR方法采用统一的方法来获取种子,该过程分为以下三个步骤:第一步:获取一些候选的匹配点。利用SIFT算法18在四个图像上提取特征点,设是图像上的一个SIFT特征点,使用SIFT描述符和极线约束,在图像找其对应点时,如果的极线附近存在一个与描述符最相似的特征点,则认为该特征点就是候选的特征点;在图像上找的对应点时,将其限制在一个以的坐标为圆心、半径为R的圆中(实验中,R设置为20个像素),则认为在该圆中与的描述符最相似的特征点就是候选的匹配点。然而,如果存在具有相似的描述符的不同特征点时,得到的候选匹配点就可能是错误的。第二步:判断候选的匹配点是否是正确的。首先在图像中选取一个以为中心的图像块;然后优化公式1,其中,使用候选点的位置初始化公式1的参数向量;优化后,得到一个和匹配的候选块;最后通过双线性插值计算和之间的NCC,如果NCC大于一个阈值(实验中取值0.95),则认为这个匹配是一个种子匹配。第三步:将种子匹配记录在一个有序的队列中。首先在图像中找到所在的单元格,并将标识为“已访问”状态。因为和之间的距离非常小(假设设置为3个像素的话,则小于1.5个像素),因此,可以认为:的变换参数也是从到其对应点的变换参数;的NCC也是的NCC。然后将、相关的NCC,以及对应的仿射参数记录在一个有序队列中,该队列按照NCC降序排列。2.1.2区域扩展为了提高算法稳定性,EMRR方法使用区域增长的方法来处理立体匹配和运动匹配。该算法需要访问图像中的每个单元格,并找到每个单元格的中心的对应点,步骤如下:第一步:选择队列最顶端的元素进行扩展,这个元素被记作,记录着具有最大NCC的单元格的信息。NCC越大越稳定,EMRR方法认为从最稳定的区域扩展比从随机选择的区域扩展更加稳定和精确。因此,EMRR方法总是从最可靠的单元格区域进行扩展。为了验证这一点,实验中实现了一种从随机区域进行扩展的方法,称为ESRR,并与之进行了比较。第二步:用中的仿射变换参数初始化扩展的邻居单元格的参数,这里。第三步:访问。EMRR方法首先选择一个以为中心的图像块,该图像块也用表示,然后,利用优化公式1找与匹配的图像块。在优化之后,同样要计算匹配块的NCC,并找到的对应点。如果的NCC大于一个阈值(实验中取值0.75),则的相关的信息作为一个新的种子,并将之以NCC降序的方式插入到中。同时标识单元格为“已访问”状态。第四步:当的邻居单元格的状态全部为“已访问”时,将从有序队列中删除。第五步:重复上述过程,直到中没有元素为止。2.1.3修补漏洞经过上述两个步骤,能够得到与图像相关联的网格中大部分单元格的对应点。然而,由于在遮挡或高光区域的NCC过低,很可能存在一些没有找到正确匹配的单元格,这些单元格将形成一些洞。为了获得稠密并且光滑的匹配,必须修复这些洞。图2显示了一个补洞的例子,图中有正确匹配的单元格(实线的单元格),也有一些没有匹配的单元格(标注着数字1,2.8),没有匹配的单元格形成了一个洞。EMRR的补洞方法分三个步骤:第一步,标识与关联网格中没有被正确匹配的单元格:通过找相连的没有匹配的单元格,来定位洞的位置。第二步,根据洞的面积大小,产生一个洞的升序的队列。第三步,选择一个最小的洞,即最顶部的一个元素,进行修补。修补过程如下:A 在中,选择一个匹配的邻居最多的单元格。如图2所示,标注为“1”的单元格,有3个匹配的邻居,而其他单元格匹配的邻居数都小于3,所以此时选择标注为“1”的单元格。B 根据匹配的邻居的仿射变换信息估计的匹配点。具体过程为:假设表示的第个匹配的邻居的仿射参数,利用邻居的仿射参数的均值估计的仿射变换参数,如公式2所示,其中,表示匹配的邻居数。 (2)C 在估计了的匹配之后,将标记为“已访问”,并作为匹配的单元格。D 重复步骤AC,直到被修复为止。这样就能够估计所有的洞,获得稠密的、光滑的匹配数据。图2 补洞通过以上的三步,对于两个匹配和,和,都可以为获得稠密的图像匹配数据。重复以上步骤,得到整个立体视频的所有对应关系。2.2累计误差修复根据图像匹配的结果,就能在立体图像序列中追踪物体的表面。然而,在较长的序列中,如果只是计算相邻的图像帧之间的图像相似度,不可避免会有累计误差。如果能够计算第一帧和其他所有帧之间的运动,就能消除累计误差。然而相距较远的图像帧之间相差很大,根本无法计算第一帧与其它帧之间的运动关系。EMRR方法每隔m帧(实验中m=5)重新估计仿射变换参数。这意味着,图像和之间的对应关系要重新计算,此时,从第帧到第帧相邻帧之间的累积的仿射参数,将被作为重新计算的初始参数。3实验结果本节使用模拟数据和实际数据测试EMRR方法的有效性。3.1模拟实验模拟实验中,本文利用模拟的旋转的球4来进行测试,如图3所示。球的图像是经过矫正的,但EMRR方法并不知道这一点,所以这个数据仍然是一个很不错的测试数据。实验中,为了获得每个象素运动和立体匹配的数据,将设置为1,公式1中使用的图像块的大小是1515。EMRR方法不能够恢复遮挡,只能对没有遮挡的区域进行计算。因为球有部分是遮挡的,所以需要识别出遮挡的区域。遮挡区域不会同时出现在左右两个图像中,如果以一个象素为中心的图像块的NCC小于0.75时,本文认为这个象素在另一个图像中不可见,即出现遮挡。为了进行性能比较,本文将EMRR方法与场景流(scene flow)方法4进行了比较。这里的场景流方法分别用四种立体视觉方法进行初始化:半全局的匹配方法(semi-global matching (SGM))19, 补洞的半全局方法(SGM with hole filling), 关联度金字塔方法( correlation pyramid stereo)20,基于统计的立体视觉方法(accurate census-based stereo algorithm)21。另外,本文也将EMRR与ESRR进行了比较。Figure 3.Ball image, maps for the ball example 图3 球图像,以及图3显示了旋转的球的图像,以及利用EMRR方法得到的旋转球的(参阅文献4)。表1显示了利用不同的算法,计算得到的RMSE误差值。从表1可见,在只考虑非遮挡区域的情况下,本文提出的EMRR方法要好于其他的方法,并且比ESRR方法更加精确和鲁棒。表1均方根误差 Table 1:Root Mean Square(Pixels) Error没有遮挡的区域算法Huguet et al40.370.83SGM120.350.64Fill-SGM120.430.75Correlation120.340.75Census based120.361.08Expansion method(EMRR)0.360.61Expansion method(ESRR)0.410.723.2真实数据实验实验采用EMRR方法处理真实的动态物体:人脸和布。使用两个标定的同步sony摄相机,摄相机的帧率是25fps,图像的分辨率是960*720。无论人脸实验,还是布的实验,都设置为3,公式1所用的图像块的大小都是17*17。图4人脸表情捕获实验 图5动态布的三维测量实验图4显示了获取人脸表情的实验。实验中,一个相机置于上方,另一个相机置于下方。被拍摄的人脸需要涂上一些纹理。为了只测试感兴趣的区域,在第一帧,使用了一个图像模板(mask)。图4显示了快速运动人脸的部分测量结果,实验中部分人脸区域的运动较快,例如嘴部运动,前后两帧之间通常超过了15个像素。图中4行分别是第1、30、70和100帧的测量结果。第1列是图像,第2列是对感兴趣区域的追踪结果(红点),第3列和第4列显示了从不同的角度观察到的人脸三维测量结果,第5列显示了人脸的运动场。实验中能够获取大约25000个三维点,对于很多应用,这已经是足够了。图5显示动态变形的布的实验。图中分别显示了第1帧和第50帧的三维测量结果。真实数据实验证明了,EMRR方法可以测量复杂的变形表面的三维运动和三维形状。测量得到的结果,能够为定量分析动态变形物体运动提供有用的数据。4总结本文提出了一种从立体图像序列中测量动态变形物体的三维信息的方法EMRR。EMRR方法采用了基于块扩展的方式独立地计算立体匹配和像素运动,该方法总是从最可靠的区域进行扩展,这提供了更加稳定和精确的测量结果。通过EMRR方法,能够稳定地捕获复杂动态变形物体的运动。当然,EMRR方法也有局限,如:需要物体表面有比较丰富的纹理,也没能解决遮挡问题。然而在某些应用中,简单、有效、稳定更加重要,而EMRR方法正适合这些应用。在后续工作中,将继续研究如何测量表面纹理不是很丰富的物体。参考文献:1 Sudhir, G., Banerjee, S., Biswas, K., and Bahl, R., “Cooperative integration of stereopsis and optic flow computation,” Journal of the Optical Society of America A 12(12), 25642572 (1995).2 Yang, W., Ngan, K., Lim, J., and Sohn, K., “Joint motion and disparity fields estimation for stereoscopicvideo sequences,” Signal Processing: Image Communication 20(3), 265276 (2005).3 Isard, M. and MacCormick, J., “Dense motion and disparity estimation via loopy belief propagation,”Computer VisionACCV 2006 , 3241 (2006).4 Huguet, F. and Devernay, F., “A variational method for scene flow estimation from stereo sequences,” inProc. Intl. Conf. on Computer Vision , IEEE (Oct. 2007).5 Cech, J., Sanchez-Riera, J., and Horaud, R., “Scene flow estimation by growing correspondence seeds,” inComputer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, 31293136, IEEE (2011).6 Rabe, C., Muller, T.,Wedel, A., and Franke, U., “Dense, robust, and accurate motion field estimation from stereo image sequences in real-time,” Computer VisionECCV 2010 , 582595 (2010).7 Min, D., Kim, H., and Sohn, K., “Edge-preserving joint motion-disparity estimation in stereo image sequences,”Signal Processing: Image Communication 21(3), 252271 (2006).8 Valgaerts, L., Bruhn, A., Zimmer, H.,Weickert, J., Stoll, C., and Theobalt, C., “Joint Estimation of Motion, Structure and Geometry from Stereo Sequences,” Computer VisionECCV 2010 , 568581 (2010).9 Li, R. and Sclaroff, S., “Multi-scale 3d scene flow from binocular stereo sequences,” Computer vision and image understanding 110(1), 7590 (2008).10 Chessa, M., Sabatini, S., and Solari, F., “A fast joint bioinspired algorithm for optic flow and twodimensional disparity estimation,” Computer Vision Systems , 184193 (2009).11 Wedel, A., Vaudrey, T., Meissner, A., Rabe, C., Brox, T., Franke, U., and Cremers, D., “An evaluation approach for scene flow with decoupled motion and position,” Statistical and Geometrical Approaches to Visual Motion Analysis , 4669 (2009).12 Wedel, A., Rabe, C., Vaudrey, T., Brox, T., Franke, U., and Cremers, D., “Efficient dense scene flow from sparse or dense stereo data,” European Conference on Computer Vision (ECCV) 5302, 112 (2008).13 Cagniart, C., Boyer, E., and Ilic, S., “Iterative mesh deformation for dense surface tracking,” in Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on, 14651472, IEEE (2009).14 Cagniart, C., Boyer, E., and Ilic, S., “Free-form mesh tracking: A patch-based approach,” 133

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论