通过自适应训练方法对人体复杂行为模式进行识别和跟踪.doc_第1页
通过自适应训练方法对人体复杂行为模式进行识别和跟踪.doc_第2页
通过自适应训练方法对人体复杂行为模式进行识别和跟踪.doc_第3页
通过自适应训练方法对人体复杂行为模式进行识别和跟踪.doc_第4页
通过自适应训练方法对人体复杂行为模式进行识别和跟踪.doc_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

通过自适应训练方法对人体复杂行为模式进行识别和跟踪摘要:自动观察和理解人类行为是计算机视觉研究领域的一个巨大挑战。潜在应用领域包括机器人,人机交互,医学研究等。在这篇文章中,我们提出的工作为精确识别人类身体动作对人类行为做了的观察和解释。目前系统使用不超过三台摄像机,能够追踪广泛多样场景下的很大范围内的动作,包括目标被部分遮挡的情景,以及操作目标作为活动的一部分,或者目标与环境或其他人互相影响的情景。我们的系统可自我训练,也即是,能够随着时间学习人类行为的学习模型。这既可以用来改进对人类动态的预测,又可以为所观察的行为进行识别和解释提供基础。本系统的精确性和稳健性是许多贡献综合作用的结果。通过使用人体测量的人体模型,并朝着概率跟踪框架最优化该模型,我们就可以获得一个详细的关于人体形状,姿势和动作的生物力学表述。并且,我们引进了一种复杂分层模板策略,嵌入到概率框架中进行跟踪,这种方法胜过了贝叶斯方法的目前水平。然后,我们展示了如何使用学习人体表现模型和蕴含环境模型的综合方法,跟踪日常环境下的复杂操作活动。最后,我们讨论了关于人体动作的局部性和一致性表述,可作为学习特定环境和特定任务下的动作模型的基础。本文提出的所有方法依据现行基准,经过了大量实验评估。几组具有挑战性的实验范围涉及运动员锻炼,人体工程学的研究案例以及在厨房环境下的日常操作任务。关键词:无标记人体动作捕捉概率状态估计人体动作自训练模型行为识别一、介绍观察和解释人体行为一直是人工智能和计算机视觉研究领域中一个持续的兴趣点问题。能够理解人类行为并按照人的行为或意图行动是一个雄心勃勃的目标。一旦达成这个目标,受益的应用领域涉及机器人的人机交互,医学领域如步态分析等。然而,尽管近十年来此领域的研究取得了很大进步,我们仍然面临许多挑战。在本文中,我们将展示我们在这个高度活跃的研究领域中做出的贡献。我们提出的无标记系统从三个或更多摄像机跟踪人体全身动作,该系统利用一个逼真的人体模型在很高精度上估计观测到的动作。我们的系统可以提取现实环境中任何类型动作的信息,不管操作活动,目标处理,目标与环境的交互或人与人之间的交互发生在任何地方。并且,我们的系统是自适应系统,它能够随着时间通过学习环境中特定动作模型来改善自身效率。最后,这些动作模式可以用来推断观测活动的语意标签,由此推论人类活动和意图。图片1 展示了一个由我们系统实现的示例应用程序。人体动作捕捉数据的连续检索补充嵌入式传感器网络的传感器读数,就可以创造出一个人体活动的丰富表述。由此得到的知识库可以用作语义查询来推导正在进行的活动和人类意图,可以用来筛选相关事件的传感器读数,比如人抓取杯子时所站的位置(TenorthBeetz 2009)。更多的示例应用程序在我们系统开始已经实施了,包括真实人体动作与机器模拟器的整合,拟人机器人的动作转移等。Fig 1 示例应用程序中,将人体动作捕捉数据整合到知识库中:a)使用多视角动作跟踪器检索人体动作捕捉数据;b)将该数据与其他感觉模块的输入数据(如语义环境地图或嵌入式传感器网络的读数)在知识库中整合排列,达到对人体活动的更高水平的推导。(图片b来自于Moritz Tenorth (Tenorth and Beetz2009 ))。我们系统的精确和完备是几方面贡献的综合结果。我们基于模型的方法的基础是人体测量的人体模型,适于在跟踪应用中使用。我们的优化过程中使用一组简化的标准形状参数,该参数是脊柱姿势参数以及现实中临时的动作极限获得的生理现实的联合。我们使用分支迭代分层模板作为模板策略进行递归姿势估计。这种策略在高维空间的人体姿势检索中被证明是极其高效的,尽管它的许多局部极大值存在非线性特征。该方法是可靠的,使我们能够使用一般的参数化动作模型,并导致大范围收敛进行跟踪。另外,我们提出了一种简单高效的分层环境模型,该模型结合基于颜色的外观模型来隐式的处理两种情况的环境遮挡。通过(1)从兴趣区域中减去动态的非人类目标,并且(2)为既遮挡了人体目标又同时被人遮挡的目标(例如桌子)建立模型。图2展示了这些隐式模型在动态环境中的影响。我们最后一个贡献是人体动作训练模型的自动化手段,用来改进动作预测和识别行为模式。我们提出了一种基于图表的方法进行姿势与位置不变相似性测量之间的模型转换,该方法基于相对较短的时空动作碎片来侦测之前观察到的动作模式。Fig2 人体动作捕捉的挑战在于混乱且动态的环境。第一组:该场景中跟踪目标被一个汽车模型遮挡了;第二组:该场景中目标在操作他的环境。即是再精巧的动作跟踪手段没有一个动态环境模型的情况下也会跟踪失败(中间一列所表现的)。最后一列展示了我们系统的跟踪结果。在HUMANE VA 2的基准下,与贝叶斯技术目前发展水平相比,大量评估显示了我们的手段具有的潜力。不仅仅包括HUMANE VA 2基准,我们还提供了更多具有挑战性的序列结果,包括厨房任务,体育序列,人类工程学案例以及多目标跟踪。另外,我们的追踪者在创建日常操作活动的厨房数据集(TUM KITCHEN dataset)扮演了不可或缺的角色(Tenorth et al.2009)。这里追踪者用来补充装备在厨房环境下的传感器读数,获得全身动作捕捉数据,从而不需要入侵式的基于标记的设备。本文剩余部分的内容如下。第2部分我们讨论了相关工作;第3部分我们介绍了人体测量的人体模型以及我们对其的修正;第4部分我们提出了一种新颖的分层模板策略,可以高效的剖析人体姿势的高维空间进行人体姿势跟踪。第5部分我们提出了一种简单高效的环境隐式模型,用来跟踪复杂环境下的操作活动。第6部分我们展示了如何自由使用动作跟踪系统自动学习特定环境特定任务的人体动作模型。有助于改善跟踪效率以及识别观测活动的能力;第7部分呈现了实验评估结果;第8部分做了总结。二、相关工作从人体动作捕捉和行为识别的文章中可以获得大量相关工作。无标记人体动作捕捉早期的无标记基于视觉的人体动作捕捉方法,通常使用2D人体模型和单眼跟踪目标(Chamand Rehg 1999;Juetal. 1996)。通常由与人体部分相一致的图像块在关节处连接起来组成的。片图模型(pictorial structures (Felzenszwalb and Huttenlocher 2005; Ramanan etal. 2007))各部分按空间安排组成图像模型,该外观通过概率分布形成参数化。Agarwal and Triggs (2006)从单眼摄像机视觉提取了更详细更精确的3D姿势,这是通过观察到的形状特征与人体模型的姿势参数进行匹配映射得到的。该映射借鉴了使用既得人体动作捕捉数据(一种类似于使用多摄像机的方法taken by Grauman et al. 2003)综合生成人体轮廓方法。之后数据推论被应用到从映射和提取前景轮廓中恢复未知3D姿势参数。Sigal and Black (2006b)在试图分类对应的3D动作序列之前,第一次用自底而上(down-up)的方法估计了2D姿势。只有人体全部可能动作的很小子集(如走路)在合理费用下可以被获知,为得到无约束的人体动作的精确的3D测量,几种手段均需要使用不只一台摄像机,立体摄像可折中的获得有所丢失的3D信息,是精确姿势估计所需要的(Plnkersand Fua 2001; Grest and Krger 2007),在一些点上他们仍保持视角点依赖性。使用多重分布摄像的3D模型方法(如本文中提到的方法)通常是一种由上自下(top-down)的方法,如首先预测到模型的姿势,然后进行基于观测的评估。概率的方法试图使用递归贝叶斯评估推断解决方法。这种方法近似于使用顺序蒙特卡洛方法(粒子滤波)。通常的方法如采用重要性重采样(sampling importance resampling)由于问题的高维而失效。Deutscher and Reid ( 2005)提出了一种退火粒子滤波(APF)该方法与退火算法(Kirkpatrick et al. 1983)相关,使粒子集朝着加权函数的全局最大化方向发展。MacCormick and Isard (2000)引进了粒子抽样(PS)来评估铰接模型(articulated models)的参数,该方法通过将状态空间分离成几个层次,再依次评估,这样就将最初的高维评估问题变成了几个低维问题。我们在4.4节提出的BIHS方法,通过合并相互补充性的随机优化和层次细分的概念,从而更高效可靠的使用粒子。通过平行细分策略评估粒子,我们预防了粒子积聚在局部最大值,避免了人体动作跟踪的主要困难之一。Mitchelson and Hilton (2003)提出了一种变化分层采样方法,可以平行分割评估,但是他们潜在的遗漏了随机重构步骤的相关信息。其他工作使用与随机方法相对的确定性方法。这里,参数评估基于非线性最优化(Bregler et al.2004;Knossowetal. 2008)。一个好的初始化估计对避免陷入目标函数极小值是十分必要的。Rosenhahnet al. ( 2006)采用随机选取几个初始点来减小陷入局部极小值的风险。Brayet al. ( 2007)结合非线性优化和蒙特卡洛方法来避开这个问题,这点在概念上与我们的方法十分接近。Ivekovicetal.(2008)提出了另外一种十分相近的相关方法,粒子群优化用来跟踪上身运动。其他方法使用迭代最近点算法(ICP)的变种来标注3D点云人体模型(Pellegrini et al. 2008; Knoop et al. 2009)。几种方法从多重摄像机(视觉船体vision hulls)建立了人体表面的3D重构。可用来测量人体模型表面和最接近的3D重构点之间的偏差(Mi-kic et al. 2001; Kehl and Gool 2006; Horaud et al. 2008)。其他相关方法没有使用任何明确模型,直接通过共享相同动作模式的3D点簇来估计人体关节位置(Cheung etal. 2003; Anguelov et al. 2004)。利用视觉船体(vision hulls)方法要求环境中配置高密度摄像机才能够较精确的重建观察的目标(通常最少需要8台摄像机)。我们可以进一步区分基于使用了3D人体模型的方法,通常表面建模是方法不同。身体部分的外部模型体积相似于一些原始的几何体,如椭圆体(Wren etal. 1997),柱体(Vondrak et al. 2008; Knoopet al. 2009),或截顶椎体(Deutscher and Reid 2005),超二次曲面或超椭圆体(Kehl and Gool 2006)。与这些含糊的表面形状相反,一些模型使用更明确的表面,比如多边形格网(Rosenhahn et al. 2006; Gall et al.2010)。这可由目标的身体扫描派生而来,而且往往比他们含糊的副本更加逼真。Plnkers and Fua (2001) and Horaud etal. ( 2008)使用了平滑模糊表面,相比混合几个原始几何体的外观提供了一定水平的现实性。Anguelovet al. ( 2005)介绍了SCAPE模型(Balan and Black2008),表面参数由几个人体目标不同姿势的3D激光扫描获得。这样得到的表面网眼可根据身体尺寸和姿势变化,并能够精确的演示人体形状到达肌肉收缩的水平。SCAPE与内在的运动力学结构没有关联,尽管扩展性应用用来估计潜在骨架(Anguelov et al. 2004)。这个模型惊人的现实性来自于增加计算成本,导致它几乎不可能用来完成跟踪任务。第3节介绍的人体测量的人体模型RAMSIS是外观精确性和计算高效性的一个很好的折中。它的参数化直接来自于利用绝对和动态的关节极限,设置内在骨架的关节角度((Herda et al. 2004展示了如何利用关节极限改善跟踪精确性)。为了适应人体姿势的高维状态空间以及由此导致的估计参数上的困难,许多方法利用机器学习技术来解决这个任务。在最简单的例子中,可以优先学习特定动作,跟踪时来限制搜索空间。一些方法项目训练动作时从高维状态空间到多方位的低维空间,这需要采用一些技术,如基本原理成分分析方法((Urtasun and Fua 2004),或高斯过程动态模型(Urtasun et al. 2006)。多方位低维的动作以可生产的方式创造下一个状态的预测(Siden-bladh et al. 2002)。我们的工作中,使用动作图表((Ko-var et al. 2002))能够指定观察到的姿势最可能的后续状态,但我们省略了为短期预测的限制相关性植入低维的计算(6.1中介绍)。另一类基于标准的方法(Grauman etal. 2003; Agarwal and Triggs 2006;Boetal.2008)直接从观察到的图像特征与人体姿势一致的部分绘图得出,易于实施和应用。这样的手段受限于必须是训练过的特征类型,而且根据环境下不同摄像机视角必须重复训练。对人体动作捕捉相关工作方面更综合的总结由来自于Gavrila (1999), Moeslund et al. ( 2006) and Poppe ( 2007)的调查提供。行为识别行为识别目的在于为人类动作模式分派更高水平的语义标签,帮助识别进行中的活动和意图。无模型的手段直接从图像线索和行为种类中绘图,无需中间参数估计的步骤。整体分析将图像信息视为一个整体,例如,使用剪影(Bobickand Davis2001)边缘图像或光学流场(Efroset al. 2003)。Bobick and Davis ( 2001)介绍了一种运动历史图像motion-history-images方法,是对动作的2.5D表述,该方法中使光照适时与距离相对应,剪影与一个单一图像相重合。空间时间形状Space-time-shapes (Gorelick et al. 2007)或时空体积spatiotemporal vol-umes(Yilmaz and Shah 2005)方法是使用时间作为第三维度提取剪影。Weinlandet al. ( 2006)创建了一种对人体动作不依赖视觉的表述,通过对多个摄像机拍摄的的轮廓融合获得视觉船(vision hull),然后用临时信息扩增至3.5D运动历史卷的形式。与整体方法相反,基于分支的方法仅提取筛选出的显著特征,然后分类,有助于克服部分遮挡的问题(Oikonomopoulos et al. 2006)。在基于模型的方法中,在相空间表演动作分类之前的第一阶段,典型模型的参数是决定性的。动作分类最常用的参数是铰接人体模型的关节角度或关节位置(Sheikh et al. 2005;Kulicetal. 2008)。这些参数具有移动、规模、旋转不变性。而且形成人体运动的丰富和全面的表述。它们更适用于识别,并且对更细微的运动能提供更高的识别率。但是,模型参数通过非入侵手段提取非常困难,大部分参数检索手段依靠商业性的基于标记的动作捕捉系统。我们使用的无标记跟踪系统通过匹配动作片段对行为分类,该动作片段由关节位置的短时间序列到标记的范本计算得出(第6节)。关于人体行为识别的更多详细的调查由Krger et al. ( 2007) and Poppe ( 2010)提供。三、人体测量的人体模型在我们的工作中采用新方法整合数字人体模型RAMSIS(Seidl 1994; Bubb 1997)来跟踪人体动作(Fig 4)。RAMSIS是一个先进的并经过人类工程学领域的工业证明的模型,在各领域尤其是自动化领域被广泛使用。它最初用于基于CAD设计的汽车内部和人的工作区间的自由移动,同时应用于人类工程学的研究。使用这个模型有以下优势:1、 此模型能够按照人体测量考虑捕捉不同身体类型,比如人类广泛的不同外观。它的设计经过了来自这个领域顶尖专家基于人类工程学因素的指导。2、 内部关节的位置与真正的人体关节位置精确相符,因此是动作分析任务的理想选择,如体育分析或人体工程学研究。3、 这个模型在保留正确外观的情况下,能够捕捉绝大部分人体可完成的运动。并且整合了绝对动作极限,有助于减小跟踪时的检索空间。可以使用人体测量学知识查询种群动作极限的不同百分率。此模型由与真正人体骨骼类似的内部力学模型(Fig 3)以及表现人肉体和皮肤的外观模型(Fig 4)组成。主要的模型定义由几方面组成:身体部分的分层;身体关节的相对位置;相应于本地坐标系的表面顶点;身体部分的绝对动作极限。在RAMSIS模型发展的一开始,所有相应的参数已经是确定的规定好的。另外,变量参数描述模型的姿势(依赖于潜在的力学结构),描述模型的形状(基于米制长度值,在模型定义中为相对位置提供绝对规模)。Fig.3电子人体模型RAMSIS的内部力学结构。a中表现的是坐标系各局部,b中是手臂和脊柱。Fig 4 RAMSIS不同体型和性别的外观模型。现在我们将描述在尊重原始RAMSIS模型的规定下优化我们的模型,是根据动作跟踪应用的特定需要定制的,比如文中稍后将提到的一些。学习形状参数针对不同的人体测量(身高,体型,体重等)设置形状参数,模型的内部和外观就可以得到调整。这部工作通常在着手初始化阶段完成。在RAMSIS的原始模型规格说明中,共提供了643个形状参数(43个内部参数和600个外观参数)。绝大部分针对形状上的参数模型的局部改动,尤其是外观参数仅影响几个外部顶点的设置。这样的超参数化使模型难以根据直观上不同人体形状进行调整。为了减少形状参数的数量,我们通过原理成分分析(PCA)方法统计分析了这些参数。我们使用N=139个不同的男性模型,根据人类工程学研究涵盖了大范围的人体形状。组成N的基本成分是形状参数,维度d是协方差矩阵的特征向量。特征向量可以通过奇异值分解从中获得。奇异值分解的方法是将半正定对称矩阵如分解成。列向量U=()与所需要的特征向量一致。另外,是一个对角矩阵,特征值是对角线元素。主要成分构成的正交空间提供了人体形状的可变参数化。通过忽略与特征向量较小匹配的主成分,我们可以省略不相关的参数达到减少参数数量的目的。设置参数数量的一个公共准则基于训练集方差的百分比,可由前x个主成分描述。每个主成分的方差在方向上与特征值一致。Fig 5 描绘了积累方差作为前x个特征向量的函数。Fig 5 描绘了通过形状参数的主成分计算出的方差。累积描绘了前x个特征向量计算出的训练集方差的总百分比,当估计所有643个形状参数,仅600个外观参数 或者仅43个内部参数 。另外,每个特征向量的方差的描绘合并了为了使手动初始化形状参数更容易,我们进一步计算了特定躯干和四肢的主成分。可用来在图形用户界面进行快速模型调整。脊柱运动的耦合我们已经尽可能的减少了原始RAMSIS模型的自由度,来减少跟踪高维铰接模型的复杂度。当四肢建模已经使用尽可能少的必要参数来表达所有可能姿势时,进一步减少参数的潜力应考虑到脊柱参数。在RAMSIS中,脊柱通过7个独立关节(包括头部)建模,每个关节有3个自由度。尽管在人体骨骼中,脊柱是一个耦合结构,仅允许严格受限制的运动集。如不可能在几个相对方向弯曲脊柱。为提供脊柱类似生理上的连接,我们把它分为低位脊柱,高位脊柱和头部。属于每一组的关节基于它们的绝对动作极限关系插入。这样的连接是合理的,因为绝大部分的一般动作通过仅变形高位脊柱完成(如颈椎和胸椎),而低位脊柱(如腰椎)仅在高位脊柱一旦达到极限时用来支撑极度弯曲动作。通过使用这样的参数化我们能够在满足生理表达的要求下,使脊柱尺度从21减到9个自由度。用来跟踪的减少尺度后的模型由51个自由度组成(或忽略手和脚后的41个)。Fig 6展示了一些我们修改后的RAMSIS模型能达到的极度脊柱变形后达到的弯曲程度。Fig 6 修正骨盆后脊柱关节的动作极限。通过旋转骨盆可进一步增加弯曲程度。生物力学的帧间动作极限我们使用生物力学的研究估计了这个模型的每个身体部分最快角速率(Engstler et al. 2009)。这项研究中,一个人体目标以最大速度演示预先定义的隔离动作(即分别演示每个自由度),同时使用2个高速视频摄像机以250帧每秒的速度记录。我们的估计基于围绕动作范围中心,手动调节关键帧之间测量的偏差派生出来。另外,我们使用从运动科学中基于标记的动作捕捉数据改善我们的估计。为了跟踪应用,举例来说,做一些随机搜索,通过考虑摄像机记录的每秒帧数,最大角速率可以被转换成角帧间标准差。姿势计算的缓存另一个有助于改善计算效率的优化是身体部分依赖于姿势计算的缓存。通过保存之前的姿势计算在存储器中起作用,包括局部坐标系统,表面顶点的3D坐标,和2D平面图像推测。无论何时为模型提供新的姿势,相比于上一个计算的姿势参数改变的所有身体部分是无效的。另外,这些身体部分的相关部分即没有运动前例的部分也是无效的。这样的修正与4.3节介绍的分层粒子滤波结合使用十分有效。这些算法只需为大数量的平行评估重复修正部分参数空间。并且缓存有助于减少需要计算的操作数量(实践中大约四分之一)。相比于现存的其他人体测量的人体模型如SCAPE(Anguelov et al. 2005; Balan andBlack2008),较低的计算量需求和可得的内在骨架,无疑使修正的RAMSIS模型在跟踪应用中更受青睐。另外,RAMSIS的扩展应用如使用内部和外部压力的姿势预测和不适(Seitz et al. 2005)也为进一步研究提供了机会。四、人体姿势跟踪现在我们将讨论为人体姿势跟踪我们的模板策略的关键构成。注意我们认为人体动作跟踪是高维检索这一合理性,考虑到在贝叶斯估计中后部密度的较好近似难以得到。这归因于复杂的高维分布难以被解析,事实上几乎不可能近似的使用离散采样或直方图来描述。而且,局部模式的现状和精确产生任意人体动作类型的困难为微分法优化手段提出了艰难挑战。一个好的策略是合并粒子滤波和采用优化手段的技术的并行开发能力(Deutscher and Reid2005;Brayetal. 2007)。我们将从贝叶斯观点提出这样一种策略。4.1 粒子滤波Fig7 图解介绍了传统采样重要性重采样粒子滤波(SIR)来递归贝叶斯估计的步骤(Arulam-palam et al. 2002)。在粒子滤波中,后部概率密度函数代表姿势在时间t给出一系列图像观察值直到时间t被描述为一组N重加权的粒子=,是标准权重。通过预测每个粒子新的状态实现跟踪,即使用动作模型在更新权重之前按照现在观察的可能性预测新状态。为防止粒子集退化,每个时步的重采样是必要的(Arulampalam etal. 2002)。Fig 7 采样重要性重采样的步骤。先前时步的加权粒子集经过重采样创建未加权的集,该集的粒子是通过它们权重的概率比例提取出来的。重采样粒子用来按照动作模型预测新状态。最后一步中,粒子权重按照当前观测值升级。最终状态估计可以从新产生的权重粒子集中计算得到。我们感兴趣的是跟踪任意动作,在我们的应用中使用以下动作模型(一阶马尔科夫): (1)这里,是一个对角矩阵,对角线元素与x构成的的方差一致。方差影响每个姿势或关节角度在状态向量x下的扩散量。我们在第3部分已经按照生物力学的内部框架动作极限将我们模型的这些参数进行了初始化。权重升级通过比较粒子状态呈现的投影掩模与使用背景减法得到的前景掩模完成(Fig 8)。预测状态的不一致像素相应为错误率: (2)这里,XOR表示像素对称差异运算符,作用于所有平行摄像机的图像面。COUNT运算符计算所有摄像机的非零像素。最终权重通过随后的标准化处理使数值在0(遭遇最高错误)和1(遭遇最低错误)之间。当使用不少于三台摄像机和一个适宜的人体形状模型时,这个可能性模型提供了很好的实验结果。Fig 8 通过比较由背景减法得到的前景掩模(上面一行)与投影掩模(下面一行),估计预测状态的可能性。4.2 多层搜索单纯SIR粒子滤波在人体动作跟踪问题中是不可用的,因为必要粒子数目随着状态空间的维度呈指数增长。Deutscher and Reid (2005)提出多层搜索策略,与模仿退火(Kirkpatricket al. 1983)关联来克服这个问题。该方法关注围绕在概率密度函数的(全局)模式粒子,本质上与优化手段十分相似。退火粒子滤波(APF)在Fig 9 图示说明。经过M次迭代,粒子集朝着最终集进化。随着每次迭代,扩散系数在预测阶段被引进(公式 1)加权一个系数如m (比如0.5)减少不确定性。同时,加权函数通过用退火方案的值进行幂运算来锐化。随着每次迭代增加,粒子由大范围存在向最适宜聚集发展,这样有助于克服早期迭代局部最大化问题,向着后来的模式聚集。Fig 9 退火粒子滤波的一个时步。最终粒子集经M次迭代估计。每次迭代相对采样重采样步骤(SIR),这里使用每次迭代的因子来减少预测阶段增加的扩散量(即不确定性),并且权重函数在升级阶段按照方案退火。这个退火方案逐渐锐化权重函数并缓慢推动粒子朝着全局最大化发展。退火粒子滤波(APF)短期跟踪实验的很好表现已经被报导了(Deutscher and Reid 2005),但是实验显示APF在同时评估所有维度时仍然需要指数数量的粒子(Bandouch etal. 2008)。通过协方差规模扩散更有效的使用粒子,扩散向量从状态协方差矩阵中采样得到,协方差矩阵从粒子集 的最后一次迭代(除非当m=M时)中估计得到。因此,扩散可根据参数已经被估计的适宜程度自适应调整,并且搜索聚焦在最佳参数还未被决定的区域(Deutscher and Reid2005)。Sminchisescu andTriggs (2003)提出了类似想法,文章中提到单眼跟踪时,粒子倾向于沿着不可观察的方向扩散。实践中,扩散向量通过以下方式采样: (3) (4)公式3中,我们完成矩阵的特征分解(如通过奇异值分解),列向量即特征向量,为对角矩阵,对角线元素为特征值。然后,由标准正态分布随机变量采样构成随机向量 Z ,乘特征值的平方根,就将特征向量空间转换成状态空间(公式4)。4.3 分层划分尽管协方差规模扩散提供了一定的分层,但是退火粒子滤波的问题是所有状态参数实际上依然被平行估计了。尤其当人体动作模型包含分层依赖参数(如肘部关节参数依赖于肩膀关节参数)时,这种方法是非常危险的,所以平行估计是无效的甚至会导致错误估计(Bandouch et al. 2008)。一种评估高维状态的替代方法是将状态空间分成几部分,然后按照人体的分层结构(如躯干,左上臂,左下臂,等)循序评估。当分层后一个部分的动态不影响之前部分的动态时,这种方法是有效的,并且每部分的局部权重函数可以分别评估。Fig 10说明这种算法叫做分块抽样(PS)(Mac-Cormick and Isard 2000)。尽管MacCormickand Blake ( 2000)最初提出了一种权重抽样的操作,分块抽样实际上被视为SIR滤波的有顺序的连续序列(Fig 11)当使用重要性重采样与局部更新步骤合并时,二者是等价的。Fig 10 分块抽样的一个时步。每个部分使用重抽样,预测和升级模式与SIR粒子滤波(Fig 7)相同方法进行估计。但是每个部分的预测和升级是局部的,即,只有状态空间与现在的部分相对的部分被评估。粒子集通过顺序穿过所有部分进化到新的粒子集。部分的顺序按照运动优先关系排列。Fig 11分块抽样对照顺序连接SIR滤波的简单呈现。每一块的粒子数N是变化的。4.4 支迭代分层抽样分块抽样是一种克服高维跟踪时需要指数增长的粒子的有效工具。通过将搜索空间分离成易处理的块,粒子增长可控制在线性范围。缺点是为易于使用SIR滤波处理,分块必须足够小,这时可能产生疑问比如躯干必须分离成几块。并且,早期迭代产生的错误会没有修复机会一直传播,当使用不精确人体模型像柱形近似类的模型时,这样的问题尤其突出。解决这个问题的一个好的方法是将PS中局部SIR滤波改变为分层退火粒子滤波。这样增加了每块的潜在尺寸,并有助于避免早期迭代的抽样错误。我们已经证明了迭代分层抽样(IHS)策略在仿真工作表现极好(Bandouch et al.2008),尽管观察到的噪声数据(如前景图中手臂部分丢失)仍会导致错误输出(Fig 13)。作为解决办法,我们建议平行评估几个分区方案。通过串联几个产生的粒子集,完成最终的升级步骤,这对应于给最好的分块方案隐式投票。(Fig 14)。这个想法最开始由MacCormick and Blake ( 2000)出版,作为支分块抽样用于遮挡处理和多目标跟踪,来确保未被遮挡的目标将被首先评估。我们将我们的合并算法叫做支迭代分层抽样(BIHS)。Fig 14支迭代分层抽样(BIHS)。当评估顺序是任意的(如 先左腿然后右腿或相反),粒子评估可以分离成平行管道,然后只要评估部分是相同的情况下,就可以重新连接在一起。最终的升级步骤正如给最好的分块策略投票。几个兼容部分的平行评估是一种强大的手段来绕开观察中出现噪声数据的问题。开采状态空间时,产生的粒子多样性在避免权重函数陷入局部极大值时起关键作用。现在我们为人体姿势跟踪提出了一个有意义的分块策略,但我们限制自己对下半部分身体跟踪。扩展到全身是简单明了的。在我们的实验中,我们发现最好以对全状态空间进行退火粒子滤波分块开始,标记为APF()。实验结果显示躯干经过较少迭代后已有了很好的估计,手臂仍处于坏的估计。下半部分身体分支成以下5个方案来估计,先分成四个最小块:左上(),右上(),左下(),右下():分块的维度越大,相应的内部框架动作极限越大,所需要的迭代次数越多,所需用到的粒子数也越多。理论上,分层策略可以按照力量集合对应的最小有意义的分区集合)这里每个在每个分支中严格出现一次,不能违反等级优先关系。尽管,随着最小分层的数目K不断增大,将会出现非常多的方案,但实践中仅可选择其中的一个子集。我们的实验中身体上半部分和下半部分各使用了5个平行分层。五、隐式环境模型在4.1节中我们简要介绍了我们的基于形状的观察模型,前景掩模与现在姿势状态的模型投影掩模相比较(Fig 8)。一旦场景变成动态的或目标与环境有了交互,这样的观察模型容易出现错误。在这样的例子中,中肯能包含环境的动态部分加上人体目标。另外,由于环境遮挡,中 可能只包含人体目标的一部分。我们建议使用分层环境模型解决人体与动态环境交互作用的问题。这是简单的2D模型,能够暗含图像平面中的闭塞和动态区域。为达到这个效果,我们为人体模型加入简单的基于颜色的外观模型。每个表面 三角与一个颜色分布相联系(Fig 15)。这一步可以在初始化阶段完成,也可以在跟踪过程中调试。目前为止,我们使用颜色信息仅用来区分前景和背景。在我们将呈现的环境模型中,我们使用颜色信息区分不同形状的前景(即人体或动态目标)。环境模型的分层结构使这个模型可以在实践中快速简单的应用,不需要关于环境的精确3D模型。Fig 15 加入 外观(颜色)信息的人体模型 例子。为处理动态非人体前景目标和环境遮挡的例子,在观察模型中我们引进了一个新的二进制掩模,用来限制处理区域,为所有应该被处理的像素置 (1)限制的区域置(0)。使用公式2评估形状错误率前,通过比较前景掩模和投影掩模的相应部分完成区域锁定。屏蔽区域的滤除通过屏蔽掩模分别与和进行逻辑与运算完成。Fig 16 展示了一个桌子遮挡的例子来说明这个原则。作为结果,图像平面中的屏蔽区域在和中移除了。和中在这些屏蔽区域中的不同点没有被添加到形状错误中,当包含了不恰当的前景侦测后(如动态目标),这些区域也不会用来进行不恰当的模型预测。Fig.16 闭锁分层的原则:(a)原始摄像图像(上)和相应被桌子挡住的屏蔽掩模(下)(b)通过与操作,阻挡层从前景掩模(上)和投影掩模(下)中均被移除,这样,计算形状错误(公式2)时,屏蔽掩模(黑)有效的被忽略了。我们 将展示 如何使用这些闭锁层来过滤动态非人体前景目标,以及在闭塞模型中他们如何起作用。接下来将用到如下概念:动态非人体前景目标 动态目标(可能是人操纵的目标)或者环境的动态部分(门,柜橱,抽屉)出现在前景掩模中,与人体剪影混在一起。为过滤这些部分,我们引进了一种人体外观掩模,当像素颜色与我们的外观模型颜色相似的时候建立的。将颜色值离散成16比特。,使用二进制表可高效计算这样一种掩模。外观模型升级的时候二进制表也相应升级。然后将非人体部分从前景掩模IF 中移除,并使用如下运算将其添加到屏蔽掩模IB公式(7)(8)如下这里,DIFF与像素差运算符一致,NOT逆转运算一致。将非人体部分加入到屏蔽区域是十分必要的,因为我们不知道是否动态目标是人和物相互遮挡的部分,并减弱了对人体部分错误移除的影响。Fig17给出了这些简单运算有效性的例子。环境闭塞 环境中的固定目标与观察对象有了部分相互遮挡(如桌子 椅子)。既然没有空间持续有序,目标也可能被主体遮挡。我们通过移动屏蔽掩模IB,将遮挡候选区域做上标记(如桌子)。设置摄像机过程中这些工作就需要完成,通过选择一个多边形区域作为考虑对象,用户可以在几秒钟内完成。评估过程中这样的区域被设置缺省值忽略。为避免对人体目标部分的有效观察被屏蔽,如,当胳膊在桌子上可以被看见的时候,我们从屏蔽区域中排除所有类似人体目标的前景区域:这里,OR与像素与运算符()一致。Fig18展示了使用这种遮挡模型的结果。遮挡区域被补偿的数量取决于设置的摄像机数量。也就是说,身体部分应该始终被不少于3台摄像机观察到。在更多遮挡的场景下就需要更多摄像机。Fig.17 打开柜子(从左到右)的例子:(a)原始图像(b)未更改的前景掩模IF(c)未使用外观模型的跟踪结果(d)经移除非人体目标的前景掩模IF(e)使用我们模型的跟踪结果。每一行显示了一台摄像机视角。掩模中的白色区域描绘了点集。Fig.18 遮挡桌子的例子(从左至右):(a)原始图像(b)未使用屏蔽掩模和外观的跟踪结果(c)原始屏蔽掩模IB(d)移除类似人体部分的屏蔽掩模IB(e)使用我们模型的跟踪结果。每一行展示了一个摄像机视角。掩模中的白色区域描绘了点集(黑色区域是屏蔽区域)。6 自训练动作模型正如我们的实验结果(第7节)中展示的,我们的系统能够跟踪复杂环境中的大范围种类动作。公式1中使用综合动作模型,我们能够跟踪适应我们生物力学动作极限(帧间和帧外)的各种动作模型。尽管需要的计算代价较高(10-15秒每帧),未知抽样比预知抽样需要更多的粒子评估。从训练数据中提前学习人体动作是创造动作预测的一种方法。可能的人体姿势空间非常大。围绕复杂多样的人体动作模式提取好的训练数据是非常困难的,并且通常需要使用昂贵的基于标记的动作捕捉系统。最后,动作训练经常与特定环境的动作不符,所以实用性较差。我们提出的使用综合动作跟踪可以随着时间学习特定环境和任务动作模型,可以为观察的重复行为改善动作预测。Fig.19描绘了这种策略。在每个时步,我们使用当前的历史动作创建一个称为动作片段来呈现一个短的动作模式。这些动作片段与学习动作模型匹配,检查动作模式的一致性。当没有匹配成功时,我们使用未知动作模型(需要昂贵的计算代价)来创建新的姿势预测。最终的姿势评估被用来作为自训练观察动作,作为将来类似动作模式的侦测。不管何时,若已知的动作模式已经被侦测到了,我们可以应用基于先前已观测动作预测到的最可能的后续动作来创建潜在的更精确的姿势预测。基于改进的预测,我们可以使用较少的粒子评估更高效的跟踪步骤实现相同的精确度(可加速4-6倍)。并且,通过标记学习到的动作数据,我们可以使用观察的动作和训练动作模式的一致性进行行为识别。Fig.19 使用特定环境动作模型改善人体动作跟踪预测和人体行为识别。使用先前观察的在特定环境中典型的动作模式作为训练动作模型。跟踪过程中,使用上次评估姿势的瞬时动作历史的动作片段与训练模式比较。如果侦测到一致,使用储存在动作模型中的信息更精确的预测现在的姿势。这样我们跟踪的计算效率就更高了。如果没有找到匹配信息,使用综合动作模型的正常跟踪步骤完成跟踪。新的评估(未知)姿势将被扩充到动作模型中。另外,为训练数据提供语义标签,这个动作模型就可用来进行行为识别。6.1 空间-时间邻近图形我们的目的是创建人体动作的可再生模型,即递归评估过程中能够预测现在姿势可能的后续姿势。很多方法试图通过训练姿势的低维度嵌入学习动作模型改善预测(Urtasun and Fua 2004; Urtasun et al. 2006)。这样的模型是全局的,他们处理每一步的全部训练集合,为所有数据点创建持续嵌入。全局约束相比局部约束可能会丢失数据相关细节(Datta et al. 2009)。为近期预测,局部约束更为适用。我们提出人体动作的基于图形表现由ST-Isomap(Jenkins and Matari c2004)引出,一种非线性降维算法Isomap (Tenenbaum et al.2000)的时空扩展。非线性降维算法(and also ST-Isomap)使用三个步骤将非线性空间评估出数据点集的固有几何形状。首先,连接局部邻居内的所有数据点创建未指定的权重图表。其次,从图中计算所有两两最短路径矩阵。最后,通过多维标度分析(MDS)计算所有数据点的相对距离,降维嵌入保留这些距离信息。在我们的工作中,我们省略了计算所有数据点两两最短路径矩阵和使用MDS嵌入。这些步骤用来找到第一步测量距离的全局嵌入,没有增加额外信息(相反,当选择嵌入的维度过低时信息可能会丢失)。另外,第三部和第二部的节省计算量降低了从O(n3)到O(n2)的复杂度(可能比使用近似的最近邻方法更简单)。这样我们可以使用更多数据点,可得到潜在的多个式样的较好近似,即可得到更好的预测。另一个优势是测量距离图表可自行增加升级。正如ST-Isomap,我们使用指定的图表结构来为人体姿势的时间连续动作建模。我们期望训练数据按照顺序排列,移除所有与之前动作没有足够不同的姿势来确保姿势序列与实际动作一致。这步通过计算两个姿势相应身体关节的欧氏距离(我们设置阈值为2cm)完成。这样也有助于动作速度标准化,相比快动作,慢动作中更多帧将被移除。我们从持续姿势中创建有序的点的图表,连接每个点到它的定向时间后续点的指定路径边缘,这个过程在Fig.20中阐释。为捕捉人体动作的时间结构,我们不仅通过相应姿势,并且通过他的短期时间历史姿势组成的动作片段联系每个顶点。因此,当计算类似的顶点时,需比较相应的时间窗口,注意时间窗口是重叠的(Fig.20)。Fig.20时空紧邻图表的有序创建。这个图表由s个姿势的有序时间序列中创建(这个例子中s=7)。为每个新姿势创建一个顶点,并与基于姿势和它的定向时间历史构成的动作片段联系。添加定向边缘来编译姿势连续性。每个顶点内编译的时间窗口是重叠的。每个顶点Vi与空间时间动作片段(I)(编译与第i个姿势相一致的短期动作模式得到)联系,我们使用这些动作片段来计算观察的动作模式之间的相似性测量。Fig.21给出了一些例子。可以看到,对于人们从这些短期姿势序列中,通过现在的动作预测即刻后续动作相对容易。数学上,一个动作片段是s个连贯姿势中表示身体关节位置的向量(我们使用s=7):这里(I)由短期瞬时姿势历史计算,即,从时间间隔i-(s-1):i中的所有姿势中得出。它是每个姿势中28个身体关节位置的连结。向量的维度d=28*3*s。注意上标(I,j)表示动作片段的索引I,相对的时间窗口中的姿势索引j0(j=0时是现在最近的姿势)。下标bp在我们的模型中用来识别身体部位(Fig.3中可以看到)。时空动作片段(I)的一个重要方面是从关联姿势的原点坐标编译。即,所有身体关节位置由第i个姿势时骨盆坐标系统HBEC(i)给出,因此,动作片段由于在起始点开始观察,所以位置上是独立的,这样储存不同空间发生的类似动作模式就变得不必要了,有助于改善训练集的效率。注意到动作片段的所有同一时间窗口的姿势使用相同坐标系统,所以相对空间扩展可以保持(所以叫做时空动作片段,见图Fig.21)。Fig.21时空动作片段的例子。动作片段将人体动作的短期模式编译成目前姿势和它的短期时间上前一个姿势(图像中标记成小圆点)身体关节位置的3D向量。所有坐标都是相对于现在姿势的起始点(即它的骨盆位置),所以动作片段可以仅通过它们的绝对位置识别。距离测量dist(I), (k),是为了比较两个动作片段(I)和(k)中所有身体关节位置的欧式距离的向量:这个公式基于关节位置在R3的欧式距离给出了一个非常直观的测量两个动作片段相似性的方法。Bandouch et al. (2008)我们已经评估了主要的欧几里得关节错误,因此我们的跟踪算法的精确性大约在2cm。因此我们可以假定可比较距离的两个动作片段仍十分相似。目前图表是一种线性表,我们仅嵌入了边缘表示训练数据的时间继位顺序。我们同样需要侦测到相似模式的重复发生,并在图表中为这些结构相似点建模。这样当观察到一个频繁发生的动作模式可导致不同的后续动作时,我们可以为接下来的可能动作提供多种预测(如当接近桌子,既可以使用左手也可使用右手获得某个目标)。为这些事例建模,我们采取了ST-Isomap策略(Jenkins and Matari c 2004),对两种重要的近邻关系类型加以区分(Fig.22)。邻近时间邻居(ATN)是一种琐细关系,两种姿势是时间上相近的邻居。这种关系在最初图表创建时已经被捕捉。共有时间邻居(CTN)是非琐细邻居,相应于空间上相近的点,即沿着每个时间轨道经过的每个顶点Vi的空间邻居。任何时候我们侦测到CTNs(公式12),我们在图表中从两个方向分别连接相应的顶点反映它们的关系。Kovar et al. ( 2002)介绍的动作图表本质是类似的,已经在生成现实和可控动作方面使用。Fig.22时空近邻图表中的邻居关系。顶点Vi的邻居关系由它的空间邻居spat_nbhd(Vi)和顶点发生时间定义。邻近时间邻居(ATN)是琐细邻居,沿着现行轨迹(绿色顶点)它们与定向时间邻居一致。共有时间邻居(CTN)是非琐细邻居,与空间最近点一致,在每个时间距离轨迹上经过的空间邻居spat_nbhd(Vi)(红色顶点)。现在我们快速讨论一下两种关于动作片段的表达方式。关于关节角度的欧拉表述法也可用于空间发生的动作模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论