【《基于RGB图像的手部重建技术研究的国内外文献综述》6000字】

上传人：E*** IP属地：湖北上传时间：2026-04-15 格式：DOCX 页数：9 大小：25.90MB 积分：13 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于RGB图像的手部重建技术研究的国内外文献综述基于视觉的手部的三维重建包括姿态估计以及形状重建两个任务。其中，手部姿态估计任务指由输入的图像推断出三维空间中手部关节点位置信息；手部形状重建则需要得到三维空间中手部的整体形状。本节将主要介绍基于RGB图像的手部重建技术研究情况和现状。1.1手部姿态估计的研究现状RGB图像可由最常见的彩色相机采集，数据获取十分便捷，不受环境的约束，是视觉图像中使用最广泛的数据源。但复杂的背景、多变的光照以及频发的遮挡问题让基于RGB图像的3D姿态估计任务十分艰巨。现阶段的方法采取了多种手段解决这些问题，例如，利用其他模态的数据集补充RGB图像缺乏的深度信息；对姿态估计任务进行分解，引入手部模型先验信息；设计精巧的网络框架；挖掘手部结构特征等。一些工作尝试使用RGB-D数据[2-3]、双目数据[4-6]或多视角图像[7-8]来减轻遮挡、缓解深度信息的缺失。Mueller等人[2]提出一种基于RGB-D图像的手部姿态估计方法，将数据中的彩色图像逐像素映射到深度图平面上，利用合并后的四通道图像作为网络的输入。通过推断图像中手的中心位置来完成手部的定位，接着检测关节点的2D热图并回归手部的3D姿态，最后使用手部跟踪的方法确保3D姿态在时间维度上的平滑性。该方法可在背景环境杂乱、存在物体遮挡的真实环境下实现实时鲁棒的推断。Panteleris和Argyros[5]提出一种基于短基线双目图像的手部跟踪方法，该方法的核心思想为同一个姿势下的三维手部蒙皮模型投影到双目相机的两个视图时应该对应相同颜色的像素，而错误的手部模型假设将会导致双目图像上对应像素的颜色值存在差异，将手部跟踪问题定义为一个优化问题，即寻求让手部双目视图颜色一致性最大化的模型配置，以产生正确的手部姿态。与传统的基于双目图像配准的手姿估计方法不同，Li等人[6]绕过立体匹配，在现有的二维姿态估计网络上增加手部关节位置的视差估计，获取手部二维姿态的同时得到关节点位置的深度值。为了更加有效地训练该网络，创建了一个包含姿态标注的大型双目彩色手部图像合成数据集。以上的几种方法在输入数据的采集上需要专业的RGB-D相机或双目相机，在一定程度上受到设备和场景的约束，现实中仍是不易实现的。相比之下，单目RGB图像可由单个彩色相机捕获，可以灵活的运用在室内和野外场景，因此基于单目RGB图像的手部姿态估计的应用范围更加广泛。基于单目RGB图像的手部姿态估计按照学习策略可分为单阶段和两阶段两类。单阶段方法[9-15]指直接由图像推断3D姿态。其中，文献[9-11]将手部姿态估计问题定义为一个跨模态数据学习的过程，利用变分自动编解码器(VAE)将其他不同模态的数据映射到一个共享的低维姿势潜在空间中，以弥补RGB数据信息缺乏深度信息的劣势，改善基于RGB图像的姿态估计结果。尽管这类方法在测试时仅输入RGB图像，但训练过程中仍需要其他模态的数据如点云、深度图等辅助。Pavlakos等人[13]提出一种由RGB图像估计关节3D热图的方法，将3D空间进行精细离散化，学习不同关节落在每个体素的可能性。特别地，针对深度采用由粗到细的划分和预测方案，使预测结果逐渐完善，产生更准确的估计结果，高分辨率的3D热图需要强大的算力支持，导致这种方法受到GPU内存的限制。Mehta等人[15]基于深度卷积神经网络(ConvolutionalNeuralNetwork,CNN)提出了一种直接由图像回归3D姿态的方法，姿态结果由关节点坐标和节点关系融合得到，该方法对骨架关节点之间的一阶和二阶父级关系进行监督，通过网络自行学习关节点间的依赖关系，以推断更准确的估计结果。两阶段法[16-22]在姿态估计任务中更加常见，基本流程是由RGB图像推断出2D姿态，再将2D姿态提升到3D空间。2D姿态是3D姿态在相机视角下图像坐标的投影，很大程度上包含关节位置的信息，通常被当作3D姿态估计的前置任务。目前大部分的2D姿态估计算法都是基于CNN的。Toshey等人[23]将2D姿势估计表述为基于CNN的关节点位置回归问题。[24-25]则利用高斯分布对关节点在某个像素位置的概率建模，通过推断2D热图的方式检测关节点位置。2D热图保留了RGB图像中关节点之间的关系，并且能够对关节点位置的不确定性建模，从而实现更加准确的2D姿态估计。文献[24-25]的提出激发了许多基于热图检测的2D姿态估计方法[26-30]。目前，依托于CNN强大的特征提取和判别能力，2D姿态估计变得越来越可靠。因此在两阶段法中，难点集中在如何由2D姿态提升到3D空间。单目彩色图像的3D姿态估计中最明显的困难在于缺少深度信息而导致的固有模糊问题。这是因为当深度被消除时，图像平面上任意一个给定的二维点都可以对应世界空间中的多个3D点，这些点都投射到同一个2D点上。这使得来自单眼图像的3D姿态估计成为一个不适定的问题。同一个2D姿态理论上对应无数个3D解，但不是所有在解空间的3D姿态都符合人体生理结构和运动学约束。合理有效的姿态可以通过引入模型先验、精心设计网络框架、引入手部结构先验、改善优化方法等手段实现。引入模型先验方法[10，19，31-33]的流程通常是利用CNN提取图像的特征并得到2D观察结果，例如2D关节点位置、手部轮廓、语义分割等信息。将手部3D模型与2D观察结果进行匹配，通过各种优化算法最小化模型拟合误差来获取目标函数的最优解，从而得到与2D观察相符的3D姿态输出。Tome等人[32]用少量的聚类将姿态数据表示为混合概率PCA模型，创建姿态的低秩高斯3D模型。Chen和Ramanan[33]建立2D姿态到3D姿态映射的数据库，对给定的2D预测结果进行最近邻匹配，在数据库中检索到合适的3D姿态。Mueller[10]将运动学骨架模型拟合到由CNN预测的2D和3D姿态上，模型拟合的过程中增加了关节角度和时间平滑的约束，确保得到解刨学上合理的手部姿态。Panteleris[19]等将由2D姿态推断3D姿态的过程定义为逆运动学问题(inversekinematics,IK)，采用非线性最小二乘法将手的三维模型拟合到估计的2D关节点位置上，从而恢复手部姿态。基于模型的方法可以提高物体遮挡情况下手势姿态估计的精度，但需要建立复杂的手部模型，准确性严重依赖于模型优化的能量函数，优化过程中易陷入局部最优解。很多方法使用精心设计的深度神经网络框架来学习2D姿态到3D姿态之间的映射[16-18，21-22]。Zimmermann和Brox[16]提出了一个基于学习的3D手部姿态估计框架，利用深度神经网络学习大量数据中的姿势先验。具体流程为，首先，利用分割网络得到手部轮廓，并将图像裁减放缩到固定大小；接着通过姿态网络检测得到手部的2D热图，然后利用先验网络回归规范坐标系下归一化的3D坐标，最后结合视点参数推断相机空间坐标系下的3D姿态。Iqbal等人[18]搭建了一个两分支的网络，用于学习一种介于2D姿态和3D姿态中间的2.5D表示，并提供了一种由2.5D表示重建3D姿势的解决方案。理论上，合理的3D骨架以任何角度投影都会得到合理的2D姿态，而失真的3D骨架在投影时则会产生扭曲的2D姿态。基于以上想法，Drover等人[34]提出了一种弱监督的2D姿态到3D姿态提升算法，设计一个随机投影层将估计得到的3D骨架随机投影到2D图像平面上，并将其与生成对抗网络配合训练。使用鉴别器保证随机角度投影得到的2D姿态符合真实数据的分布，促使生成器生成逼真的3D骨架。人体骨骼的长度及关节活动范围均有一定的限制，将人骨骼的物理结构信息和运动学约束嵌入到网络的学习过程中，能够进一步约束手部3D姿态空间，从而得到更加合理准确的姿态估计结果。[35-38]通过引入了手部物理结构先验信息来提升姿态的合理性。其中，Lee等人[35]假设骨架图中肢体的长度已知，Taylor[36]则假设肢体长度的比例已知。Barron和Kakadiaris[37]根据人体测量学中的肢体范围，建立肢体长度变化的统计模型。Spurr等人[38]提出了一系列与手部结构相关的损失函数，将其整合到神经网络的训练过程中，使得网络推断的姿态被限制在生物力学可行的3D手型范围内，从而得到合理的3D手部姿态。根据手部的结构将关节点分组学习有利于挖掘姿态的局部和全局关系，从而改善姿态估计的结果。考虑到手指和手掌的灵活性不同，Du等人[39]将手部姿态估计任务分解成手掌姿态估计和手指姿态估计两个子任务，并设计两分支交叉结构实现子任务之间的信息互补。Zhou等人[40]根据手的运动习惯将手关节分为拇指，食指和其他手指三组，其中拇指和食指的配合可以组成多种手势，其余三指的几何结构和运动趋势相似。Tang和Wu[41]提出一种数据驱动的方法计算关节间的空间互信息，并基于频谱簇生成关节簇，但这种方法需要对数据集逐个进行预统计分析。Li等人[42]基于多任务学习的思想，提出一个新颖的二进制选择器来对关键点进行自动分组，相关度较少的关节会自动分类为不同的组，并表现出不同的特征。将学习每组的特征类比成为多任务中的一个任务，避免不相关的任务之间的负迁移。一些工作把姿态看作是编码骨骼和关节之间关系的结构化图形，将循环神经网络(RecurrentNeuralNetwork,RNN)、图卷积神经网络(GraphConvolutionalNetwork,GCN)等善于处理序列数据或图结构数据的方法应用在姿态估计任务上。Yoo等人[43]根据手部的结构和运动特点对手指建立序列模型，以掌节点为根节点，每根手指由一组序列关节组成，可以表示为一个运动链，使用基于RNN的回归网络按照运动链中关节的顺序依次估计各节点的3D坐标。RNN具备记忆和抽象序列信息的能力，在训练过程中将先前节点特征与当前节点特征结合，以此捕获手部关节点之间的空间关系，学习序列中的每个节点的潜在表示。Fang等人[44]从人体的运动学、对称性、协调性三个方面定义关节点之间不同的语义关系，并提出一个姿态语义网络来编码这类关节依赖性，其中每个语义关系由特定关节之间的双向RNN建模。最近，基于GCN的姿态估计方法逐渐兴起，无论是2D姿态还是3D姿态都可以自然地表示为关节点和骨骼相连的图形，GCN善于处理由节点和边构成的不规则图数据。Cai等人[45]提出将人体及手部的语义信息嵌入到GCN的学习中，将骨骼关节序列定义为一个时空拓扑图形，该拓扑图中的节点由手部或人体的关节点构成，边由空间边和时间边两种类型的连接构成。其中，空间边表示不同节点之间空间依赖关系，时间边则为不同帧中相同节点的连接关系，利用GCN开发姿态中关节点间的时空关系实现准确的3D姿态估计。Doosti等人[46]在GraphU-Net[47]的基础上，对图卷积层、池化层和解池层进行改进，得到一个更加稳定和健壮的自适应GraphU-Net，并利用该网络实现2D姿态到3D姿态的映射。1.2手部形状重建的研究现状除了姿态估计外，完整的手部重建还有另外一个组成部分，即手部的三维形状重建。近年来，手部三维重建方法主要分为两类，分别是基于模型的方法以及基于学习的方法。以往的文献中已经存在各种类型的模型对手部进行重建，如组装几何图元[48]、高斯球模型[49]、球体网格模型[50]等。Khamis等人[51]是第一个通过线性混合蒙皮扫描来学习手部形状变化的文章，后来，Romero等人[52]中提出了一种可进行非刚性形变的手部网格模型MANO，通过学习与手部姿势相关的混合蒙皮形状对手的形状和姿势建模，给定姿态和形状参数，就能够生成逼真的手部表面网格(mesh)。由于MANO包含手部的姿态和逼真表面形状，同时又是可微分的，能够灵活的嵌入到CNN网路中，因此被广泛使用在手部形状重建的工作中[53-61]。该类方法的流程大多为首先训练一个CNN网络，学习图片到模型参数的映射，然后将估计的参数由MANO模型解码，从而生成手部表面网格。Baek等人[53]利用CNN获得图像的二维线索，如图像特征、2D关键点位置等，并据此估计MANO模型参数。在模型匹配的过程中采用了可微分神经渲染器将手部表面网格渲染到2D图像平面，监督2D分割轮廓和3D骨架。另外，引入了迭代优化及自监督数据增强策略，有效地提升了手部表面网格估计的准确度。Boukahayma等人[56]将手部图像与检测得到的2D关节点热图合并送入CNN编码器，生成形状、姿态、以及相机参数，接着将这些参数输入到MANO模型中生成手部表面网格及底层的3D骨架。对于难以获得3D注释的野外数据集，使用弱透视相机模型将3D姿态及表面网格投影到二维图形平面上，利用2D姿态和手部轮廓进行监督。Zhang等人[61]利用RGB图像的2D热图回归MANO模型参数和相机参数。为了缓解图像域和参数域间跨度过大的问题，设计了一个迭代回归模块来将模型参数与2D语义特征迭代拟合，训练过程中使用了2D热图、2D姿态、3D姿态、手部轮廓以及手部几何形状的约束。基于MANO模型的方法需要估计模型所需要的低维参数，这类方法对扰动十分敏感，因为模型参数估计值的一个小的偏移量会沿着运动学树传播到许多网格顶点[58]，因此有时会产生不够精确的姿态和形状[62]。不依赖模型的方法则基于深度神经网络直接估计手部表面网格顶点的3D位置。与估计手部稀疏的三维关键点相比，估计密集手部表面网格顶点的3D位置要困难的多。基于CNN回归网格顶点坐标的方法会破坏了输入图像中像素之间的空间关系，而对几百个网格顶点构建3D热图，使用基于CNN检测的方式是现今算力难以承受的。在保留输入图像像素之间空间关系的基础上，Moon等[63]以线性热图的方式对手部表面网格的3D热图进行拆分。与2D或3D热图相比，同分辨率的线性热图的参数量少得多，消耗内存效率更高，因此同样算力的情况下，线性热图能够实现更高的分辨率，从而得到更加精确的结果。[62，64]将手部表面网格处理为顶点数目和连接关系确定的图结构数据，使用基于GCN的网络恢复手部表面网格。其中，Ge等人[62]将CNN检测的2D热图和图像特征送入GCN网络中回归手部网格顶点坐标。Choi等[64]则以姿态作为GCN的输入，由粗略到细致的恢复网格顶点。参考文献[1]况逸群.面向社会机器人的3D手势建模、识别与学习[D].成都:电子科技大学控制科学与工程学院,2019.[2]MUELLERF,MEHTAD,SOTNYCHENKOO,etal.Real-timehandtrackingunderocclusionfromanegocentricrgb-dsensor[C].IEEEInternationalConferenceonComputerVision(ICCV).Venice,Italy.2017:1154-1163.[3]ROGEZG,SUPANCICJS,RAMANAND.UnderstandingeverydayhandsinactionfromRGB-Dimages[C].IEEEInternationalConferenceonComputerVision(ICCV).Santiago,Chile,USA.2015:3889-3897.[4]ZHANGJ,JIAOJ,CHENM,etal.Ahandposetrackingbenchmarkfromstereomatching[C].InternationalConferenceonImageProcessing(ICIP).Beijing,China.2017:982-986.[5]PANTELERISP,ARGYROSA.Backtorgb:3dtrackingofhandsandhand-objectinteractionsbasedonshort-baselinestereo[C].IEEEInternationalConferenceonComputerVisionWorkshops(ICCV).Venice,Italy.2017:575-584.[6]LIY,XUEZ,WANGY,etal.End-to-End3DHandPoseEstimationfromStereoCameras[C].BritishMachineVisionConference(BMVC).Wales,British.2019,1:2.[7]GOMEZ-DONOSOF,ORTS-ESCOLANOS,CAZORLAM.Large-scalemultiview3dhandposedataset[J].ImageandVisionComputing(IVC).2019,81:25-33.[8]CHENL,LINSY,XIEY,etal.Mvhm:Alarge-scalemulti-viewhandmeshbenchmarkforaccurate3dhandposeestimation[C].IEEEWinterConferenceonApplicationsofComputerVision(WACV).2021:836-845.[9]YANGL,LIS,LEED,etal.Aligninglatentspacesfor3dhandposeestimation[C].InternationalConferenceonComputerVision(ICCV).Seoul,Korea.2019:2335-2343.[10]YANGL,YAOA.Disentanglinglatenthandsforimagesynthesisandposeestimation[C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR).LongBeach,USA.2019:9877-9886.[11]SPURRA,SONGJ,PARKS,etal.Cross-modaldeepvariationalhandposeestimation[C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR).SaltLakeCity,Utah.2018:89-98.[12]MEHTAD,SRIDHARS,SOTNYCHENKOO,etal.Vnect:Real-time3dhumanposeestimationwithasinglergbcamera[J].ACMTransactionsonGraphics(TOG).2017,36(4):1-14.[13]PAVLAKOSG,ZHOUX,DERPANISKG,etal.Coarse-to-finevolumetricpredictionforsingle-image3Dhumanpose[C].IEEEComputerVisionandPatternRecognition(CVPR).Hawaii,USA.2017:7025-7034.[14]ROGEZG,WEINZAEPFELP,SCHMIDC.Lcr-net:Localization-classification-regressionforhumanpose[C].IEEEComputerVisionandPatternRecognition(CVPR).Hawaii,USA.2017:3433-3441.[15]MEHTAD,RHODINH,CASASD,etal.Monocular3dhumanposeestimationusingtransferlearningandimprovedCNNsupervision[J].arXivpreprintarXiv:1611.09813,2016,1,3:5.[16]ZIMMERMANNC,BROXT.Learningtoestimate3DhandposefromsingleRGBimages[C].IEEEInternationalConferenceonComputerVision(ICCV).Venice,Italy.2017:4903-4911.[17]CAIY,GEL,CAIJ,etal.Weakly-supervised3dhandposeestimationfrommonocularrgbimages[C].EuropeanConferenceonComputerVision(ECCV).Munich,Germany.2018:666-682.[18]IQBALU,MOLCHANOVP,GALLTBJ,etal.Handposeestimationvialatent2.5dheatmapregression[C].EuropeanConferenceonComputerVision(ECCV).Munich,Germany.2018:118-134.[19]PANTELERISP,OIKONOMIDISI,ARGYROSA.Usingasinglergbframeforrealtime3dhandposeestimationinthewild[C].IEEEWinterConferenceonApplicationsofComputerVision(WACV).LakeTahoe,USA.2018:436-445.[20]LUOY,RENJ,LINM,etal.Singleviewstereomatching[C].IEEEComputerVisionandPatternRecognition(CVPR).SaltLakeCity,USA.2018:155-163.[21]MORENO-NOGUERF.3dhumanposeestimationfromasingleimageviadistancematrixregression[C].IEEEComputerVisionandPatternRecognition(CVPR).Hawaii,USA.2017:2823-2832.[22]MARTINEZJ,HOSSAINR,ROMEROJ,etal.Asimpleyeteffectivebaselinefor3dhumanposeestimation[C].IEEEInternationalConferenceonComputerVision(ICCV).Venice,Italy.2017:2640-2649.[23]TOSHEVA,SZEGEDYCD.Humanposeestimationviadeepneuralnetworks[C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Columbus,USA,2014:1653-1660.[24]TOMPSONJ,STEINM,LECUNY,etal.Real-timecontinuousposerecoveryofhumanhandsusingconvolutionalnetworks[J].ACMTransactionsonGraphics(ToG),2014,33,5:1-10.[25]WEISE,RAMAKRISHNAV,KANADET,etal.Convolutionalposemachines[C].IEEEComputerVisionandPatternRecognition(CVPR).LasVegas,USA.2016:4724-4732.[26]CHENY,WANGZ,PENGY,etal.Cascadedpyramidnetworkformulti-personposeestimation[C].IEEEConferenceonComputerVisionAndPatternRecognition(CVPR).SaltyLakeCity,USA

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于RGB图像的手部重建技术研究的国内外文献综述》6000字】

文档简介

温馨提示

最新文档

评论

【《基于RGB图像的手部重建技术研究的国内外文献综述》6000字】

文档简介

温馨提示

最新文档

评论

相关文档