下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
动作识别算法国内外研究现状文献综述人体动作识别(humanactionrecognition)在无人机、安防监控和体育比赛等多个领域都有着非常广泛的应用,一直是计算机视觉中的一个热门研究领域,在学术界得到了广泛关注,研究人员发表在人工智能和计算机视觉相关的国际会议(CVPR,NIPS,ECCV)和期刊(JMLR,IJCV)的论文中,人体动作识别方向占有很大的比重,每年该领域都会涌现出很多优秀的研究成果。人体动作识别的研究方法有很多种,但都可以将它们归类为基于传统机器学习理论的动作识别方法或者基于深度学习理论的动作识别方法[REF_Ref71189665\r\h14]。两种动作识别方法的主要区别在特征的获取阶段。基于传统机器学习的动作识别方法流程如图1.1(a)所示,首先需要对数据集进行预处理,然后再对特征进行提取,最后根据每个动作的不同特征,进行特征选择从而完成动作识别。基于深度学习的动作识别方法流程如图1.1(b)所示,不需要再像基于机器学习的动作识别方法那样手工设计特征,而是根据识别任务的需求构建相应的多层神经网络进行特征学习,提取数据集中视频帧的空间特征和连续视频帧之间的时间特征,利用特征融合的方式使神经网络从低维到高维学习到的特征端到端地对动作进行识别。(a)基于机器学习的动作识别方法流程(b)基于深度学习的动作识别方法流程图1.1基于机器学习和深度学习的动作识别方法流程Figure1.1Processofactionrecognitionmethodbasedonmachinelearninganddeeplearning(1)基于机器学习的动作识别算法研究现状基于机器学习的动作识别算法处理流程为:首先提取视频区域的局部高维视觉特征,然后组成固定大小的视频帧级描述,最后使用分类器对动作进行预测和分类。基于机器学习的动作识别算法视频预处理、特征提取和特征选择都需要人工设计,其中特征提取有两种表示方式:自上而下提取全局特征的整体表示方法和自下而上提取特征的局部表示方法。整体表示方式首先进行人体定位,然后对背景提取,追踪人体目标,最后进行ROI编码操作。局部表示方式首先对STIP[REF_Ref71189795\r\h15]、HoG[REF_Ref71189808\r\h16]、HoF[REF_Ref71189820\r\h17]等时空兴趣点检测,然后对邻域特征点计算,最后将特征整合。基于机器学习的动作识别算法中有许多较为经典的算法,例如,H.Wang等人先后提出了一种密集轨迹(DT)算法[REF_Ref71189877\r\h18]和基于DT算法改进的密集轨迹(iDT)算法[REF_Ref71189885\r\h19]。DT算法由五个流程组成,首先对视频每一帧图片中的特征点进行密集采样,接着对采样到的特征点在时间维度上跟踪,然后基于时间维度形成的轨迹下提取和编码特征,最后采用支持向量机(SVM)[REF_Ref71189892\r\h20]进行分类训练。iDT算法在DT算法的基础上主要有以下改进:从光流图像中消除相机移动的影响;特征正则化从DT算法对特征进行L2范数归一化改进为先对特征L1正则化后,再对特征的每个维度开平方;特征编码方式改进为FisherVector编码。iDT算法在机器学习动作识别领域达到了前所未有的效果,但因为其较高的特征维度,在实际工程中很难应用,并且这些手工制作的功能在遇到大规模动作识别数据集时,其鲁棒性并不令人满意。(2)基于深度学习的动作识别算法研究现状得益于近些年来深度学习理论的发展以及计算机设备计算能力的提升,动作识别领域的研究成果上升到了一个新的高度。工业界对于动作识别准确率的要求随着科技的发展越来越高,但是传统的机器学习方法因为鲁棒性不好、泛化能力比较弱,所以达不到工业界的需求,因此动作识别算法采用深度学习方法相较于传统的机器学习方法具有很大的优势。目前学术界提出的基于深度学习的动作识别领域主要有四种基本算法,如表中1.1所示,C3D、Two-StreamCNN动作识别算法都是由卷积神经网络组成,而CNN-LSTM动作识别算法在提取时间特征时使用的是LSTM长短期记忆网络,与前三者不同的是,GCN动作识别算法采用的是图卷积神经网络,该网络可以很好地解决图(Graph)类型数据的学习任务,而人体结构可以简化为由若干个骨骼关键点组成的骨架图,因此利用GCN图卷积神经网络能够达到动作识别的目的。表1.1基于深度学习的动作识别算法网络类型Table1.1Networktypesofactionrecognitionalgorithmsbasedondeeplearning算法网络类型3D卷积神经网络(C3D)CNN双流卷积神经网络(Two-StreamCNN)CNN卷积神经网络与长短期记忆网络结合(CNN-LSTM)图卷积神经网络(GCN)CNN和LSTMGCND.Tran[REF_Ref71190773\r\h21]提出的C3D动作识别算法将3×3卷积扩展到3×3×3卷积,相比于之前的2D卷积神经网络只提取视频中每一帧图片的空间特征,额外考虑了视频帧与帧之间的时间特征。Z.Qiu[REF_Ref71190780\r\h22]针对C3D算法中计算量较大的问题将3×3×3卷积替换为1×3×3的空间维度的卷积和一个3×1×1的时间维度得到了P3D算法,该算法在比C3D算法计算量少的情况下,较C3D算法识别准确率高。SimonyanK[REF_Ref71190788\r\h23]首先提出了双流卷积神经网络动作识别方法,指的是两个不同用途的卷积神经网络作为两个分支,一个分支的卷积神经网络用来提取视频帧与帧之间的光流特征,另外一个分支的卷积神经网络用来提取视频每一帧图片的空间特征,接着将光流特征和空间特征融合,送入Softmax分类器输出类别分数,得到分类结果。卷积神经网络与长短时记忆网络相结合的动作识别算法中两个网络有着不同的用途,卷积神经网络用来提取视频中每一帧图片的空间特征,长短时记忆网络(LSTM)用来提取连续视频帧之间的时间特征,与双流卷积神经网络中两个分支网络并联的方式不同,该算法中两个网络的连接方式是前后级联。J.Y.-H.Ng[REF_Ref71190797\r\h24]关注图像的深度特征,将空间特征利用卷积神经网络提取之后,使用了5层的LSTM网络提取了深度特征,获得了较好的效果。基于图卷积神经网络的动作识别方法面向的是骨骼关键点类型的数据,需要首先将人体骨骼关键点建立成图结构,然后提取一帧骨骼关键点坐标的时间特征和相邻视频帧之间相同骨骼关键点的空间特征,随着网络层数的增加学习更高层次的特征图,接着送入Softmax分类器对动作进行分类。YanS[REF_Ref71190805\r\h25]等人首先利用图卷积神经网络解决骨骼关键点样本的动作识别问题,通过重新采样函数和权重函数提出了更适用于人体骨骼关键点的图卷积公式,在公开数据集上取得了不错的效果。基于深度学习的动作识别方法不像基于机器学习的动作识别方法再预先对数据进行处理,只需要设计好神经网络结构,利用神经网络去提取特征,训练和测试的时候是端到端进行的,并且在保证数据集规模的情况下,模型会具有很好的鲁棒性,而基于机器学习的动作识别方法在小型数据集上识别效果较好,但是在处理大型数据集时模型表现往往会比较差,所以目前主流的动作识别方法大都是基于深度学习来设计神经网络结构的。参考文献郑伟,刘学彬,任保飞.浅谈家用服务机器人的现在和未来[J].内蒙古煤炭经济,2017,(9):34-35.王田苗,陶永,陈阳.服务机器人技术研究现状与发展趋势[J].中国科学:信息科学,2012,42(9):1049-1066.杨赛烽,高彬,冯仕民,丁恩杰,陈庆峰.基于三维骨骼节点的人体行为识别方法[J].传感技术学报,2018,31(12):1834-1841.BlankM,GorelickL,ShechtmanE,etal.Actionsasspace-timeshapes[C]//TenthIEEEInternationalConferenceonComputerVision(ICCV'05)Volume1.IEEE,2005,2:1395-1402.LaptevI,MarszalekM,SchmidC,etal.Learningrealistichumanactionsfrommovies[C]//2008IEEEConferenceonComputerVisionandPatternRecognition.IEEE,2008:1-8.SoomroK,ZamirAR,ShahM.UCF101:Adatasetof101humanactionsclassesfromvideosinthewild[J].arXivpreprintarXiv:1212.0402,2012.KuehneH,JhuangH,GarroteE,etal.HMDB:alargevideodatabaseforhumanmotionrecognition[C]//2011InternationalConferenceonComputerVision.IEEE,2011:2556-2563.ShahroudyA,LiuJ,NgTT,etal.Nturgb+d:Alargescaledatasetfor3dhumanactivityanalysis[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:1010-1019.DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C]//2005IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition(CVPR'05).IEEE,2005,1:886-893.梁荣健,张涛,王学谦.家用服务机器人综述[J].智慧健康,2016,2(2):1-9.IwataH,SuganoS.DesignofhumansymbioticrobotTWENDY-ONE[C]//IEEEInternationalConferenceonRobotics&Automation.IEEE,2009.沈应龙.国际服务机器人产业的趋势与未来[J].世界科学,2014(08):20-22.梁荣健,张涛,王学谦.家用服务机器人综述[J].智慧健康,2016,2(02):1-9.朱煜,赵江坤,王逸宁,等.基于深度学习的人体行为识别算法综述[J].自动化学报,2016,42(6):848-857.LaptevI.Onspace-timeinterestpoints[J].Internationaljournalofcomputervision,2005,64(2-3):107-123.DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C]//2005IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition(CVPR'05).IEEE,2005,1:886-893.DalalN,TriggsB,SchmidC.Humandetectionusingorientedhistogramsofflowandappearance[C]//Europeanconferenceoncomputervision.Springer,Berlin,Heidelberg,2006:428-441.WangH,KläserA,SchmidC,etal.Densetrajectoriesandmotionboun
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年闽江师范高等专科学校单招职业技能笔试备考题库及答案详解
- 2026年项目经理项目资源管理面试题及答案
- 2026年蒙牛集团信息技术部经理创新思维与问题解决方法含答案
- 2026年商业创新引领者创业者面题及答案解析
- 2026年满洲里俄语职业学院高职单招职业适应性测试参考题库及答案详解
- 2026年人力资源经理招聘面试题集含答案
- 2026年武汉民政职业学院高职单招职业适应性考试备考题库及答案详解
- 电工(高级)资格证考试考前冲刺分析及完整答案详解【各地真题】
- 2025年屏东县留置保安员笔试真题附答案解析
- 2025年中级主管药师试题及答案
- 二年级上册语文试题-第六单元测试题-人教部编版(含答案)
- 医院院感考试题库及答案
- 糖尿病重症患者肠内营养血糖调控方案
- 光伏钻孔灌注桩基础施工技术规范
- 防范和抵御宗教向校园渗透
- 设备点巡检基础知识培训课件
- 【招聘】招聘数据分析报告
- 国际投资学的试题及答案
- (2025年标准)京东养车授权协议书
- 构建高效采购团队:从组织建设到能力提升
- 2025广西钦州市开发投资集团有限公司招聘11人笔试参考题库附答案解析
评论
0/150
提交评论