版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
/22手部姿态算法的国内外研究现状的文献综述近年来,随着计算机软硬件设备性能不断提高,可消费级别相机走进大众视野,更重要的是深度学习REF_Ref4373\r\h[6](DeepLerning,DL)在计算机视觉领域取得了突破性进展,尤其是随着仿照生物视觉感知(VisualPerception)机制构建的卷积神经网络REF_Ref13125\r\h[7](ConvolutionalNeuralNetworks,CNN)应用的日渐成熟,使得以深度学习为依托的基于视觉的手部姿态估计呈现欣欣向荣景象REF_Ref13017\r\h[8]。基于视觉的手部姿态估计依赖于视觉数据的形式,其中研究最多的当属基于深度图和基于彩色图像的手部姿态估计算法。本文方法是基于彩色图像展开研究的,因此在本节将首先介绍基于彩色图像的手部姿态估计算法的研究现状,其次介绍同时估计手部姿态和形状的算法。1.1基于彩色图像的手部姿态估计在研究中,手部姿态估计通常指,估计构成抽象手骨架的21个关键点的2D/3D坐标位置。由于深度模糊问题的存在,导致基于彩色图像的3D手部姿态工作是具有挑战的任务。针对这一问题,近年来研究人员从多个角度分析问题,提出了多种解决办法。一部分工作受到基于深度图的姿态估计算法的启发,利用深度图来弥补彩色图像缺失的深度信息。另外也有一些工作利用丰富的彩色数据尝试解决深度模糊问题。还有一部分工作攻坚克难,探索在仅利用单张彩色图像时缓解深度模糊问题的策略,试图利用最少的资源达到具有竞争力的性能水平。利用深度图辅助的3D手部姿态估计一些工作受基于深度图的3D手部姿态估计方法的启发,尝试借鉴深度图中的深度信息,缓解深度模糊问题。RAD等人REF_Ref13742\r\h[9]利用从深度图提取的特征作为彩色图像特征映射目标,迫使特征映射网络挖掘彩色图像提取的特征中的深度线索。而CAI等人REF_Ref14000\r\h[10]利用深度正则器从3D姿态生成深度图,从而实现用深度图监督整个网络。CHEN等人REF_Ref14007\r\h[11]提出了深度图引导GAN(DGGAN),为彩色图像生成“真实”深度图,并将其用来正则化3D手部姿态估计器。YUAN等人REF_Ref14222\r\h[12]提出了几种不同的利用深度图作为特权信息的思路,一是类似于Rad等人[9]的方法,将提取的特征作为特权信息,还可以用深度图来预训练网络,另外也可将深度图看做轮廓(mask)来抑制背景信息。利用丰富的彩色数据进行3D手部姿态估计一些工作尝试利用丰富的数据重建3D手部姿态,借助数据之间的时间/空间几何结构关系克服深度模糊问题。FAN等人REF_Ref14229\r\h[13]和MUELLER等人REF_Ref14235\r\h[14]设计了基于视频序列的手部姿态估计方案,前者利用LSTM从初始姿态编码器中提取特征;后者提出基于CycleGANsREF_Ref14242\r\h[15]的几何一致网络,旨在合成以假乱真的合成图像,在训练过程中用该方式增强数据,提高模型的鲁棒性。YANG等人REF_Ref14252\r\h[16]同样基于视频序列进行姿态估计,不同的是他们利用手部的关节感知特征对3D姿态估计和手势识别都至关重要这一点,设计了两个任务相互辅助的姿态估计算法。LI等人REF_Ref16691\r\h[17]则是利用双目数据的视差信息重建3D姿态。YANG等人REF_Ref16877\r\h[18]从彩色图像、点云、热图和3D姿态等数据出发探索共同姿态潜空间。CHRISTIAN等人REF_Ref16972\r\h[19]攻坚克难,从数据源角度的出发,提出一个大规模的具有3D姿态和形状标注的多视角彩色图像数据集。WU等人REF_Ref17083\r\h[20]在3D姿态信息指导下合成逼真的、多样化的合成图像,利用合成图像辅助3D手部姿态估计。ZHANG等人REF_Ref17184\r\h[21]提出用域自适应的方法探索合成数据和真实数据中共同的手部结构特征。基于单张彩色图像的3D手部姿态估计部分工作更关注于具有挑战的仅利用单张彩色的3D手部姿态估计任务,旨在利用最少的数据,获取最具竞争力的性能表现。因此提出了多种策略尝试在3D手部姿态估计过程中挖掘深度线索。其中部分工作侧重于设计深度卷积神经网络结构,迫使网络强行实现从彩色图像/2D姿态到3D姿态的映射。ZIMMERMANN等人REF_Ref17308\r\h[22]设计了将手部定位分割、2D姿态估计和3D手部姿态估计融为一体的姿态估计算法。ZHANG等人REF_Ref17318\r\h[23]受到教师传授知识的启发,介绍了用于3D手部姿态估计的学生网络和用于纠正角度错误并反馈给学生网络的教师网络。LI等人REF_Ref17475\r\h[24]通过学习的方式将不相关的关节自动分类到不同的组,探索不同组特征之间的关系来重建3D姿态。GAO等人REF_Ref17566\r\h[25]设计了手部轮廓学习网络,利用轮廓信息滤除背景,使得整个网络仅关注手部信息,从而降低彩色图像手部姿态估计难度。DOOSTI等人REF_Ref17684\r\h[26]利用图卷积(GraphConvolution)可以自然的建模关节之间的骨架和运动学约束这一特点,设计了轻量级的U型图卷积网络(GraphU-Net)。此外,还有一部分工作利用彩色数据、2D姿态和3D姿态等数据构建一个姿态相关的潜空间。SPURR等人REF_Ref17798\r\h[27]部署了变分自动编码器(VariationalAutoencoder,VAE)框架,使用跨模态的数据训练能够代表手部姿态的潜空间,将2D姿态、3D姿态甚至是彩色图像都囊括在学习到的手部姿态潜空间中,经由特定的解码器从该潜空间中预测2D姿态、3D姿态。在SPURR等人基础上YANG等人REF_Ref17935\r\h[28]定义了高灵活性的解纠缠变分编码器,该变分编码器可以处理包括彩色手部图像合成、姿态转换和基于彩色图像的3D姿态估计等多个任务。同样利用多模态数据的GU等人REF_Ref18010\r\h[29]将每一模态数据解纠缠为3D姿态空间和模态上下文空间,并依据特定的上下文翻译器实现模态数据之间的转移。ZHAO等人REF_Ref18089\r\h[30]用到跨模态数据的知识共享,将元学习(Meta-Learning)方法用于跨数据的知识迁移。还有一部分工作对彩色图像到3D姿态的恢复过程进行了拆分,使得困难的3D姿态估计过程被分解为多个子问题,分别对每个子问题进行优化,在一定程度上化解了困难的3D姿态估计问题。IQBAL等人REF_Ref18356\r\h[31]提出尺度和平移不变的2.5D姿态中间表示,将2D姿态到3D姿态的映射划分为”2D→2.5D”和”2.5D→3D”两个子问题来解决。该2.5D姿态由2D姿态和各个关键点的深度值组成,并设计了用于估计该2.5D姿态的卷积神经网络,随后依据相机成像原理实现从2.5D姿态到3D姿态之间的映射。SPURR等人REF_Ref18370\r\h[32]借鉴了2.5D姿态的思想,不同的是他们提出了能实现弱监督的、并能约束手部结构的损失函数,进一步的将神经网络预测的姿态限制在生物学可行的3D手部结构范围内。也有工作将多任务整合3D手部姿态估计中,试图利用任务之间的同构性提升姿态估计的性能,WANG等人REF_Ref18379\r\h[33]搭建了多任务卷积网络结构,尝试通过回归手部分割、相对深度、密集匹配(Densematching)和2D手部关键点位置等互补信息克服深度模糊问题。1.3手部姿态和形状估计手部形状指手的表面,在研究中通常用手部网格形状(mesh)来表示,通过重建手部网格形状实现手部形状的估计。依据人体网格模型SMPLREF_Ref18592\r\h[34]的形变的控制原理,ROMERO等人REF_Ref18601\r\h[35]构建了参数化的MANO手部网格模型(HandModelwithArticulatedandNon-rigiddefOrmations,MANO),以下简称MANO模型,它一直被广泛应用于手部姿态和形状估计算法中。用MANO模型拟合手部形状的关键一步是预测抽象的模型参数(姿态和形状参数),部分工作从2D信息中探寻模型参数或者模型参数的主成分。KULON等人REF_Ref18608\r\h[36]将图像编码为手部网格形状的潜在非线性表示,通过预训练的非线性、可变性网格模型生成器重建手部网格。BOUKHAYMA等人REF_Ref18961\r\h[37]提出端到端编解码器形式的网络结构,从野外彩色图像预测MANO手模型的参数。而ZHANG等人REF_Ref18980\r\h[38]则是利用2D热图信息编码MANO模型的模型参数和相机参数,该算法的特点是加入2D热图、相机参数、分割和3D姿态等一系列丰富的损失函数。与ZHANG等人REF_Ref18980\r\h[38]类似BAEK等人REF_Ref18996\r\h[39]介绍了通过2D热图迭代回归模型参数的方法。而CHEN等人REF_Ref19006\r\h[40]利用手部关键点之间的语义关系从预测的2D姿态和轮廓中恢复手部网格模型。上述这些模型参数估计方法直接从彩色图像预测MANO模型参数,这是一个高度非线性的过程,会造成不可避免的信息损失,为解决这一问题,部分工作利用相对准确的3D姿态来估计手部关节的旋转。YANG等人REF_Ref19627\r\h[41]设计了三阶段多任务的手部姿态和形状估计算法,在2D和3D姿态估计阶段分别用轮廓和深度图构成多任务辅助模式,旨在提高姿态估计的准确率,随后由估计3D姿态预测MANO模型的姿态和形状参数。ZHOU等人REF_Ref19637\r\h[42]通过联合检测网络从单张彩色图像同时预测2D和3D姿态,拟合MANO模型到预测的3D姿态从而达到检索手形状的目的。MOON等人REF_Ref19643\r\h[43]也是将预测的3D姿态映射到MANO模型的姿态和形状参数,不同的是他们提出3D坐标姿态引导的3D关节旋转预测网络。除此之外,也有研究人员不借助现有的参数化手部网格模型(SMPL/MANO),而是设计手部网格重建网络实现形状重建。CHEN等人REF_Ref20195\r\h[44]利用序列图像的时间一致性,通过切比雪夫谱图卷积网络重建手部形状。同样用序列数据的YANG等人REF_Ref20201\r\h[45]搭建了基于卷积LSTM的递归框架,将图像空间中的手部姿态和形状变化的视觉时间信息映射到3D空间,同时为了创造更多的序列数据,提出一种新颖的彩色序列图像生成方法。GE等人REF_Ref20208\r\h[46]提出用图卷积神经网络(GraphCNN)来重建手表面的完整3D网格。而KULON等人REF_Ref20215\r\h[47]提出将未标注野外数据通过迭代微调的学习方式来拟合MANO模型从而生成形状伪标签,随后将其用作为空间卷积3D手部网格形状生成器的监督。MOON团队提出两种恢复人体、手部姿态和形状的方法。第一种REF_Ref20221\r\h[48]方法设计了基于图卷积网络的系统实现由粗到细的、从姿态到网格形状的重建,第二种REF_Ref20228\r\h[49]方式从热图有助于保留图像和像素之间的空间关系的角度出发,提出通过特定的卷积网络去估计手和人体网格每个顶点的线素(Lixel-based)1D概率分布图,从而实现在不需要参数化网格模型的辅助的情况,重建手或人体的形状。参考文献DOOSTB.Handposeestimation:Asurvey[J].arXivpreprintarXiv:1903.01013,2019.YOUNGKYOONJ,Seung-TakN,HyungJinC,etal.3DFingerCAPE:ClickingActionandPositionEstimationunderSelf-OcclusionsinEgocentricViewpoint[J].IEEETransactionsonVisualizationandComputerGraphics,2015,21(4):501-510. SHLIZERMANE,DERYL,SCHOENH,etal.Audiotobodydynamics[C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR),SaltLakeCity,USA,2018:7574-7583.YINF,CHAIX,CHENX.Iterativereferencedrivenmetriclearningforsignerindependentisolatedsignlanguagerecognition[C].EuropeanConferenceonComputerVision(ECCV),Amsterdam,TheNetherlands,2016:434-450.SRIDHARS,FEITAM,THEOBALTC,etal.Investigatingthedexterityofmulti-fingerinputformid-airtextentry[C].33rdAnnualACMConferenceonHumanFactorsinComputingSystems,Seoul,Korea,2015:3643-3652.HINTONGE,OSINDEROS,TEHY.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.LECUUY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.OIKONOMIDISI,KYRIAZISN,ARGYROSAA.Efficientmodel-based3DtrackingofhandarticulationsusingKinect[C].BritishMachineVisionConference(BMVC),2011,1(2):3.RADM,OBERWEGERM,LEPETITV.Domaintransferfor3dposeestimationfromcolorimageswithoutmanualannotations:AsianConferenceonComputerVision[C]:Perth,Australia,2018:69-84.CAIY,GEL,CAIJ,etal.Weakly-supervised3dhandposeestimationfrommonocularrgbimages[C].EuropeanConferenceonComputerVision(ECCV),Munich,Germany,2018:666-682.CHENL,LINS,XIEY,etal.DGGAN:Depth-imageguidedgenerativeadversarialnetworksfordisentanglingRGBanddepthimagesin3Dhandposeestimation[C].IEEE/CVFWinterConferenceonApplicationsofComputerVision,Snowmass,Colorado,2020:411-419.YUANS,STENGERB,KIMT.RGB-based3Dhandposeestimationviaprivilegedlearningwithdepthimages[J].arXivpreprintarXiv:1811.07376,2018.FANZ,LIUJ,WANGY.Adaptivecomputationallyefficientnetworkformonocular3dhandposeestimation[C].EuropeanConferenceonComputerVision(ECCV),online,2020:127-144.MUELLERF,BERNARDF,SOTNYCHENKOO,etal.Ganeratedhandsforreal-time3dhandtrackingfrommonocularrgb[C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR),SaltLakeCity,USA2018:49-59.ZHUJ,PARKT,ISOLAP,etal.Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks[C].IEEEinternationalconferenceoncomputervision(ICCV),Venice,Italy,2017:2223-2232.YANGS,LIUJ,LUS,etal.Collaborativelearningofgesturerecognitionand3Dhandposeestimationwithmulti-orderfeatureanalysis[C].EuropeanConferenceonComputerVision(ECCV),online,2020:769-786.LIY,XUEZ,WANGY,etalEnd-to-End3DHandPoseEstimationfromStereoCameras[C].BritishMachineVisionConference(BMVC),Cardiff,Wales,UK,2019,1:2.YANGL,LIS,LEED,etal.Aligninglatentspacesfor3dhandposeestimation[C].IEEE/CVFInternationalConferenceonComputerVision(ICCV),Seoul,Korea,2019:2335-2343.ZIMMERMANNC,CEYLAND,YANGJ,etal.Freihand:Adatasetformarkerlesscaptureofhandposeandshapefromsinglergbimages[C].IEEE/CVFInternationalConferenceonComputerVision(ICCV),Seoul,Korea,2019:813-822.WUZ,HOANGD,LINS,etal.MM-Hand:3D-AwareMulti-ModalGuidedHandGenerationfor3DHandPoseSynthesis[C].28thACMInternationalConferenceonMultimedia,Seattle,US,2020:2508-2516.ZHANGY,CHENL,LIUY,etal.AdaptivewassersteinhourglassforweaklysupervisedhandposeestimationfrommonocularRGB[J].arXivpreprint,arXiv:1909.05666,2019.ZIMMERMANNC,BROXT.Learningtoestimate3d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论