ch08基于深度学习的动作识别

上传人：q*** IP属地：山东上传时间：2023-09-30 格式：PPTX 页数：38 大小：1.50MB 积分：15 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第八章基于深度学习的动作识别新工科建设·人工智能与智能科学系列深度学习在数字图像处理中的应用01人体动作识别技术概述PARTONE人体动作识别技术概述近年来随着计算机视觉技术的迅猛发展，动作识别作为其重要的一个研究方向，吸引了越来越多科研人员的研究兴趣。动作识别技术对带有行为的数据进行分析，从而判断出人的行为类别。按输入数据形式划分，动作识别可分为骨骼序列动作识别和视频动作识别。由于时间演化的复杂性、人表达相同动作的灵活性等因素，想快速准确地判别行为仍然具有极大挑战。目前，互联网上海量的视频对基于视频的动作识别研究提供了重要的数据保障。另一方面，随着各种传感器技术日益成熟，准确实时地采集人体关节运动参数也不再是困难的事情，对表征动作的传感器数据序列进行建模分析最终可判别动作。人体关节运动参数包括人体关节的三维空间坐标、关节移动速度、关节移动加速度等。1引言人体动作识别技术概述由于巨大的应用空间和良好的发展前景，动作识别技术得到国内外研究人员的广泛关注，政府、企业、高校和科研机构纷纷投入大量的资金和研究力量对动作识别技术进行研究。早在20世纪末期，为了使军事活动更加智能化，美国国防部高级研究计划局CDefenseAdvancedResearchProjectsAgency,DA邸‘A)联合卡内基。梅隆大学、麻省理工学院等高校联合开发了一款完善的视频监控系统[SJ(VisualSurveillanceandMonitoring,VSAM)。在国外动作识别技术理论初具雏形之际，我国也加快了追赶的步伐，并取得了许多出色的成果。2国内外研究现状人体动作识别技术概述1.空间复杂性对于视频动作识别来说，视频记录了大量丰富的外观信息，比如人的衣着、运动的背景等。2.时间演化建模时序动作相比于二维图像增加了时间维度。尽管之前双流法、3D卷积、时间编码等工作都对提取时间特征进行了探索研究，但是建模动作时间上的关系仍然是制约提升动作识别精度的关键因素。3.巨大的计算成本双流法需要预先计算光流，而传统的光流计算非常耗时，且占用大量的存储空间。3研究难点人体动作识别技术概述4.训练数据方面训练深度的CNN需要大量的训练数据。随着入体姿态估计技术和深度相机[3]等的发展，获得大量的人体骨骼数据已经不是问题。5.人体姿态估计的准确性对视频数据应用骨骼序列动作识别方法的第一步就是需要进行人体姿态估计。3研究难点02动作识别相关技术PARTTWO动作识别相关技术1.图定义与图卷积网络结构

图卷积网络将图像等传统数据的卷积操作推广到图数据。图卷积的关键是通过训练学习函数f,此函数可以融合节点V;的特征X;和其邻域节点N(v,)的特征'其中JENI伈），最终节点V;的特征X更新为融合值。1图卷积网络2.基于空域的图卷积网络

基于空域的图卷积网络是根据空间关系定义图卷积操作的。图像可以看作是一种特殊的图，每个像素代表图的一个节点。动作识别相关技术Yan提出针对骨骼序列动作识别的空时图卷积网络(ST-GCN),首次将骨骼序列构造为空时图，空时图卷积网络提取高级特征从而进行动作分类。ST-GCN的识别性能达到了世界领先水平。在邻域B(vu)范围内进行图卷积操作时，需要保证设计的卷积操作不受邻域节点无序性和数目不固定的影响。ST-GCN使用了图标签处理方法。具体的做法是：将邻域B(v")根据设计的分割策略分成固定数目M个子集，每个子集内的节点标签相同，由此B(v）映射成标签{O,I,…,M-1},从而使无序且数目不固定的邻域节点变得有序、数目固定。ST-GCN根据骨骼序列特点提出了3种空间分割策略。2用于骨骼动作识别的空时图卷积网络动作识别相关技术3用于视频动作识别的双流卷积网络识别视频中人的行为动作是一项具有挑战性的视觉任务，多年来这一研究领域引起了人们的广泛关注。其中，Simonyan创造性地提出著名的双流卷积网络，它不仅在当时获得了精度最高的识别结果，而且当今许多领先的算法也是基于双流卷积网络的。双流卷积网络的优越性体现在时间流卷积网络，因为它着重探索了动作上的时间联系。动作识别相关技术骨骼序列数据集（1）NTIJRGB+D该数据集有56880个动作样本，共60种动作类型，其中包括50种单人动作类型和10种两人动作类型，记录了连续时间内人体25个关节点的三维坐标位置(X,Y,Z)。该数据集分为跨对象(X-Sub)和跨视角(X-View)两个子集。（2）Kinetics灼netics数据集的数据是RGB视频，但是许多基于骨骼序列的动作识别算法都在此数据集上进行评估。4动作识别相关数据集动作识别相关技术2.视频数据集（1）UCF-101UCF-101是中等规模的视频数据集，视频在YouTube网站上采集得到。（2）Somethlng-Somethlng该数据集包括175种和物体相关的动作类型，共108499个视频，每个视频时长2-6s。4动作识别相关数据集03人体姿态估计PARTTHREE人体姿态估计人体姿态估计的目标是定位图片中人体的骨骼关节点位置及重建肢体连接。根据图片中人数划分，人体姿态估计可以分为单人人体姿态估计和多人人体姿态估计。多人姿态估计需要估计图片中多个人的姿态，这会面临更大的挑战：（1）图片中的人数是未知的，每个人在图片中的位置和尺寸也是不固定的；（2）多人之间的交互会产生关节点遮挡、连接等情况，这会给对后期的肢体连接造成极大影响；（3）很多算法的时间复杂度随着图片中人数的增加而增加，很难达到实时检测。1人体姿态估计的分类人体姿态估计自底向上的多人姿态估计算法的流程是先检测出图片中所有的骨骼关节点，然后进行聚类，将关节点分配给不同的人，从而得到最后的肢体连接。如何快速准确地聚类关节点是这类算法的研究方向。2OpenPose算法人体姿态估计1.网络结构该网络由两个分支组成，分支1预测骨骼关节点的置信度图(ConfidenceMap),分支2预测人体部分亲和字段(PAF)。每个分支都是迭代级联结构，后续阶段可以不断完善预测结果，最终所有阶段的损失函数共同监督网络训练。2OpenPose算法人体姿态估计2.骨骼关节点检测OpenPose通过关节点置信度图来进行骨骼关节点的检测。每个关节点置信度图表示特定身体关节出现在图片每个像素位置的可能性。理想情况下，如果图片中只有一个人，则每个关节点置信度图中只有一个峰值。如果图片中有K个人，则研究关节点的关节点暨信图中存在对应的K个峰值。2OpenPose算法人体姿态估计3.人体部分亲和字段为了能将检测出的骨骼关节点正确地分配给每个人从而连接成肢体，OpenPose创造性地提出了人体部分亲和字段。在此之前，判断两个骨骼关节点是否可以连接成肢体的方法是检测两个关节点的中点是否在两个关节点的连线上。然而这种方法的鲁棒性极差，很多情况尽管满足此条件，两个关节点也并不属于同一个人。2OpenPose算法人体姿态估计1.对称的空间变换网络现有的单人姿态估计算法对人体检测框的准确性要求高，人体检测框出现小幅度平移或近似剪切的情况都会致使单人姿态估计错误。2.参数化姿态非极大抑制人体检测不可避免地会生成冗余的人体检测框，AlphaPose提出参数化姿态非极大抑制来消除冗余的姿态，进一步提升姿态估计精度。3AlphaPose算法人体姿态估计3.姿态指导的区域框生成器前面提到对不精确的人体检测框区域进行单人姿态估计极易出现错误结果AlphaPose提出的对称空间变换网络使此情况有了明显改善。为了进一步提升对称空间变换网络对不精确人体检测框的鲁棒性，AlphaPose在训练阶段使用姿态指导的区域框生成器进行数据增强。其设计思路是：训练时使用大量有偏移的人体检测框区域训练对称空间变换网络，使用标注精确的姿态进行监督所以，问题的关键是如何生成和人体检测子的检测结果同分布的大量稍微偏移的人体检测框区域。3AlphaPose算法人体姿态估计MPII数据集共25000张多人图片，其中包含了40000个人的姿态标注。图片由YouTube的视频抽取而来。相比于之前的姿态数据集，MPII包括了更加丰富多样的人类活动。此外，图片间的视角变化及存在部分遮挡的情况也加大了该数据集的挑战性。4实验结果比较分析人体姿态估计MSCOCO是2016年提出的规模极大的数据集，共包含105698张训练图片及80000张测试图片。训练集中共涵盖约IxI06个标注的姿态。

图片均来自真实生活，没有任何约束控制，会出现许多遮挡、人群聚集、尺度变化、视角变化的情况，进一步增加了此数据集的估计难度。4实验结果比较分析04基于图卷积网络的骨骼序列动作识别算法PARTFOUR基于图卷积网络的骨骼序列动作识别算法动态骨骼信息可以由人体关节点位置的时间序列表示，骨骼序列动作识别是通过动态骨骼信息来判断人体动作的。具体来说，通过使用一个注意力分支来对更有判别力的特征给予更高的关注度；在另一个分支中，通过共现特征学习来高效全局地聚集所有关节点的特征。除此之外，提出的多任务框架可以探索这些分支之间的内在联系，从而进一步提高识别性能并加快网络的收敛速度。1引言基于图卷积网络的骨骼序列动作识别算法近年来在动作识别领域中，注意力机制激发了越来越多学者的研究兴趣。现实的经验告诉我们，当一个人识别动作时，他会更加注意表演者某些时刻下具有明显意义的身体部分。这个事实反映了注意力机制的重要性。文献[56]使用学到的注意力权值在滑动窗口内融合相邻帧来提取高级特征。文献[57]为骨骼序列构建了一个具有时空关注度的端到端框架。文献[58]使用了双流法，一个分支流处理RGB数据，一个分支流处理骨骼序列。2注意力机制和共现特征学习基于图卷积网络的骨骼序列动作识别算法网络结构框架由注意力分支、共现特征分支和图卷积网络分支3部分组成。图卷积网络分支作为该框架的主干部分，由9层图卷积组成。在进行第5层、第7层和第9层图卷积前，特征图首先被输入到全注意力模块(FAB)中学习注意力掩模，学习到的注意力掩模代表对应特征图的特征权值，所以掩模与相应的输入特征图具有相同的尺寸大小。3基于图卷积网络的多任务框架基于图卷积网络的骨骼序列动作识别算法1.图卷积网络分支本节中空时图卷积网络是多任务框架的图卷积网络分支。首先，人体上相邻的关节点和不同时间下的同一关节点都被连接起来，构成一个空时图。空时图中的每个点都有表示它的特征向量。2.注意力分支前面已经说明了注意力机制对于动作识别的重要性。3基于图卷积网络的多任务框架基于图卷积网络的骨骼序列动作识别算法3.共现特征学习分支如何有层次且高效地融合共现特征对于描述动作起到至关重要的作用。4.多任务学习根据前文所述，我们在ST-GCN基础上加入注意力分支和共现特征学习分支从而形成了一个多任务框架。3基于图卷积网络的多任务框架基于图卷积网络的骨骼序列动作识别算法算法比较本节主要通过实验将我们提出的多任务框架与ST-GCN和一些其他主流领先的算法进行比氪对于灼netics数据集，给出Top-I和Top-5准确率，对比的算法有DeepLSTME61l和TemporalConvNef62对于NTURGB+D数据集，在X-Sub和X-View子数据集上报告Top-I准确率，除上述的比较算法外，参与对比的算法还有SpatialTemporalLSTMwithTrustGates(STLSTM+TSjE63l,ClipsCNN+Multi-TaskLeamingNetwork(C-CNN+MILN)E64l,HierarchicalCo-occurrenceNetwork(HCN)E65l,。结果显示我们提出的方案明显优于ST-GCN及其他主流算法。4实验结果及分析基于图卷积网络的骨骼序列动作识别算法2.注意力分支效果分析在ST-GCN中只加入注意力分支，下面来探索注意力分支带来的增益。可以看出，在X-Sub子数据集上，带有注意力分支的图卷积网络的识别效果超过ST-GCN2.4%,在X-View子数据集上，其超过ST-GCN1.3%。可视化结果表明了注意力分支可以有效地对有判别力的关节给予更高的注意力，从而更好地分类动作。4实验结果及分析基于图卷积网络的骨骼序列动作识别算法3.共现特征分支效果分析在ST-GCN中只加入共现特征学习分支，下面来探索共现特征学习分支带来的增益。原始的图卷积网络是没有提取所有关节共现特征能力的，所以长距离的关节点之间没有很强的联系。我们从感受野的角度来解释这一点。实验中，将图卷积中感受野的扩散转换为一个K步随机游走过程,然后计算其他关节点从“起始关节点”（右脚）得到的信息量。共现特征学习分支可以克服图卷积感受野扩散漫的缺陷，高效地聚集所有关节的全局特征。4实验结果及分析基于图卷积网络的骨骼序列动作识别算法4.多任务框架效果分析卷积网络分支和注意力分支的参数固定，只微调共现特征学习分支的参数。为了验证多任务框架的有效性，我们做了两个"freeze"实验。一方面，将先前训练好的图卷积网络分支和注意力分支的参数固定，只微调共现特征学习分支的参数。多任务框架也可以加快训练时的收敛速度，网络的损失在20轮之后就已经趋于稳定。这个收敛速度明显优于ST-GCN。4实验结果及分析05一种替代光流的视频动作识别算法PARTFIVE一种替代光流的视频动作识别算法双流卷积网络(Two-StreamCNN)其由空间流网络和时间流网络组成，空间流网络输入RGB图像，时间流网络输入预先估计的光流图片集。每个分支都通过深度卷积网络实现，最终两个分支经过后期融合得到最终的特征向釐。双流卷积网络的最大特点是首先进行光流估计，时间流网络在光流图片集之上探索时间轨迹联系。传统的光流估计是在亮度恒定的假设下进行的，即相同的物体在相邻帧间移动时亮度不发生变化。1基于光流估计的双流卷积网络一种替代光流的视频动作识别算法最新研究表明，

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

ch08基于深度学习的动作识别

文档简介

温馨提示

最新文档

评论

ch08基于深度学习的动作识别

文档简介

温馨提示

最新文档

评论

相关文档